CN114882867A

CN114882867A - 基于滤波器组频率区分的深度网络波形合成方法及装置

Info

Publication number: CN114882867A
Application number: CN202210384563.XA
Authority: CN
Inventors: 黄翔东; 王俊芹; 甘霖; 王文俊
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2022-04-13
Filing date: 2022-04-13
Publication date: 2022-08-09
Anticipated expiration: 2042-04-13
Also published as: CN114882867B

Abstract

本发明公开了一种基于滤波器组频率区分的深度网络波形合成方法及装置，方法包括：采用解析方法设计多个任意频率通带的滤波器组；将生成器输出的语音信号并行馈入到滤波器组中，获得多个窄频带的信号；将窄频带的信号分别输入到各个子鉴别器中进行处理，综合子鉴别器的损失函数对生成对抗网络的参数进行训练，将测试文本馈入到给定的声学模型前端网络中，生成测试梅尔谱，再将该测试梅尔谱输入到生成器中，生成语音信号。装置包括：处理器和存储器。本发明提出的语音波形合成GAN网络解决了高频部分混叠失效的问题，大大减轻了高频频段的频谱失真。

Description

基于滤波器组频率区分的深度网络波形合成方法及装置

技术领域

本发明涉及文本转语音技术领域，尤其涉及一种基于滤波器组频率区分的深度网络波形合成方法及装置。

背景技术

文本转语音(TTS,Text-to-Speech)^[1-4]，长期以来一直是人工智能领域的热门研究课题，旨在让机器像人一样流利自然地说话，该项技术可以在很多语音交互的应用中使用，例如：智能个人助理、机器人、游戏、电子书等。

基于神经网络的端到端TTS模型通常首先将文本转换为声学特征^[3,5-7]，例如：梅尔谱，这个过程通常分为从文本信息产生发音和语言学信息，以及根据语言学信息产生声学特征两个部分；其次，该模型将梅尔谱转换为音频波形样本^[8-11]，又称梅尔谱反演。就第二个阶段而言，目前的梅尔谱反演方式依时间先后排序主要有以下四种：纯信号处理技术、自回归神经网络、非自回归神经网络、基于生成对抗网络的波形生成神经网络。

在纯信号处理技术方面，Griffin-Lim^[12]算法可以将STFT(短时傅里叶变换)序列有效解码为时间序列，但是会引入极为明显的机器伪影^[4]。WORLD(世界)声码器^[13]基于对梅尔谱特征进行语音建模而定制了一种中间表示，该声码器已被成功用于文本到语音合成中。这些纯信号处理方法的主要问题是从中间特征到音频的映射会引入明显的伪影。

在基于自回归神经网络的模型方面，WaveNet^[8]是一个纯卷积的自回归序列模型，以语言特征和原始音频在时间上对齐为条件，产生逼真的语音样本。SampleRNN^[14]是一种无条件的结构，使用多尺度循环神经网络(RNNs,Recurrent Neural Networks)以不同的时间分辨率对原始音频进行显式建模。WaveRNN^[15]是一种基于简单单层RNN的自回归模型，提高了合成的速度。这些模型的主要问题是推断速度缓慢且低效，因为音频样本必须按时间先后顺序生成，因此自回归模型不适合实时应用。

在非自回归模型方面，主要有两种不同的方法。第一种是Parallel Wavenet^[16]和Clarinet^[2]，这种方法将训练后的自回归解码器蒸馏提炼为基于流的卷积学生模型，再使用基于Kulback-Leibler散度的概率蒸馏目标对学生模型进行训练。第二种是WaveGlow^[9]，是一种基于Glow^[17]的生成模型，在GPU上的推断速度很快，但是这类模型的尺寸太大，对内存的要求较高。

在基于生成对抗网络(Generative Adversarial Network,GAN)的生成模型方面，Neekhara等人^[18]提出了使用GAN网络学习从梅尔谱到简单幅度谱的映射，与相位估计相结合以恢复原始音频波形。MelGAN^[10]是一种非自回归的音频波形生成模型，首次成功训练GAN网络以生成原始音频，且在没有额外的蒸馏过程的情况下仍能产生高质量的语音。JKong等人^[19]指出，由于语音信号是由具有不同周期的正弦信号所组成的，因此对语音的周期模式进行建模对于提高生成的波形样本质量至关重要，并且在他们的工作中将此观点应用于GAN网络的鉴别器当中，使得生成的语音波形质量得到提升，但在鉴别器当中采用了平均池化的方法对语音波形进行处理，从而导致高频部分混叠失效，高频频段频谱失真。JHKim等人^[11]指出，音频是由各种不同频率成分的信号混杂而成，因而在生成器与鉴别当中均加入的不同分辨率波形求和的思想，以此来提高生成语音波形的质量。

参考文献

[1]

S

Chrzanowski M,Coates A,et al.Deep Voice:Real-time NeuralText-to-Speech[M]//DOINA P,YEE WHYE T.Proceedings of the 34th InternationalConference on Machine Learning.Proceedings of Machine Learning Research；PMLR.2017:195--204.

[2]Ping W,Peng K,Chen J.Clarinet:Parallel wave generation in end-to-end text-to-speech[J].arXiv preprint arXiv:180707281,2018.

[3]Shen J,Pang R,Weiss R J,et al.Natural tts synthesis byconditioning wavenet on mel spectrogram predictions；proceedings of the2018IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),F,2018[C].IEEE.

[4]Wang Y,Skerry-Ryan R,Stanton D,et al.Tacotron:Towards end-to-endspeech synthesis[J].arXiv preprint arXiv:170310135,2017.

[5]Li N,Liu S,Liu Y,et al.Neural speech synthesis with transformernetwork；proceedings of the Proceedings of the AAAI Conference on ArtificialIntelligence,F,2019[C].

[6]Ping W,Peng K,Gibiansky A,et al.Deep voice 3:Scaling text-to-speech with convolutional sequence learning[J].arXiv preprint arXiv:171007654,2017.

[7]Ren Y,Ruan Y,Tan X,et al.Fastspeech:Fast,robust and controllabletext to speech[J].arXiv preprint arXiv:190509263,2019.

[8]Oord A v d,Dieleman S,Zen H,et al.Wavenet:A generative model forraw audio[J].arXiv preprint arXiv:160903499,2016.

[9]Prenger R,Valle R,Catanzaro B.Waveglow:A flow-based generativenetwork for speech synthesis；proceedings of the ICASSP 2019-2019IEEEInternational Conference on Acoustics,Speech and Signal Processing(ICASSP),F,2019[C].IEEE.

[10]Kumar K,Kumar R,de Boissiere T,et al.Melgan:Generativeadversarial networks for conditional waveform synthesis[J].arXiv preprintarXiv:191006711,2019.

[11]Kim J-H,Lee S-H,Lee J-H,et al.Fre-GAN:Adversarial Frequency-consistent Audio Synthesis[J].arXiv preprint arXiv:210602297,2021.

[12]Griffin,D.,Lim J.Signal estimation from modified short-timeFourier transform[J].Acoustics,Speech and Signal Processing,IEEE Transactionson,1984.

[13]Morise M,Yokomori F,Ozawa K.WORLD:A Vocoder-Based High-QualitySpeech Synthesis System for Real-Time Applications[J].Ieice Transactions onInformation&Systems,2016,99(7):1877-84.

[14]Mehri S,Kumar K,Gulrajani I,et al.SampleRNN:An Unconditional End-to-End Neural Audio Generation Model[J].2016.

[15]Kalchbrenner N,Elsen E,Simonyan K,et al.Efficient Neural AudioSynthesis[J].2018.

[16]Oord A,Li Y,Babuschkin I,et al.Parallel wavenet:Fast high-fidelity speech synthesis；proceedings of the International conference onmachine learning,F,2018[C].PMLR.

[17]Kingma D P,Dhariwal P.Glow:Generative flow with invertible 1x1convolutions[J].arXiv preprint arXiv:180703039,2018.

[18]Neekhara P,Donahue C,Puckette M,et al.Expediting TTS synthesiswith adversarial vocoding[J].arXiv preprint arXiv:190407944,2019.

[19]Kong J,Kim J,Bae J.HiFi-GAN:Generative Adversarial Networks forEfficient and High Fidelity Speech Synthesis[J].2020.

发明内容

本发明提供了一种基于滤波器组频率区分的深度网络波形合成方法及装置，本发明使合成的语音尽量逼近人的真实语音波形，在文本转语音中，减轻第二阶段中从中间特征表示梅尔谱到语音波形映射时产生的明显伪影，加快模型的推断速度，使模型更适用于实时的场景，解决已有GAN网络技术中高频部分混叠失效的问题，减轻高频频段频谱失真，详见下文描述：

第一方面，一种基于滤波器组频率区分的深度网络波形合成方法，所述方法包括：

采用解析方法设计多个任意频率通带的滤波器组；将生成器输出的语音信号并行馈入到滤波器组中，获得多个窄频带的信号；

将窄频带的信号分别输入到各个子鉴别器中进行处理，综合子鉴别器的损失函数对生成对抗网络的参数进行训练，将测试文本馈入到给定的声学模型前端网络中，生成测试梅尔谱，再将该测试梅尔谱输入到生成器中，生成语音信号。

其中，所述生成对抗网络包括：生成器网络和鉴别器网络，所述生成器网络包括：转置卷积模块和多感受野融合模块；所述鉴别器网络由若干子鉴别器组成，每个子鉴别器对输入语音波形的某一任意指定的窄频段内的信号进行处理。

进一步地，所述综合子鉴别器的损失函数对生成对抗网络的参数进行训练具体为：

1)随机初始化生成器网络G(θ)与鉴别器网络D(φ)的网络参数；

2)从训练集中采集M条语音样本，{x^(m)},1≤m≤M；训练梅尔谱数据集中选出与这M条语音样本对应的梅尔谱样本，{s^(m)},1≤m≤M；

3)将{s^(m)},1≤m≤M输入到生成器中，得到生成语音{y^(m)},1≤m≤M，y^(m)＝G(s^(m))；

4)将x^(m)与y^(m)依次输入到K个长度为2N-1的解析窄带滤波器g₁(n),…,g_K(n)中,

n∈[-N+1,-1]∪[1,N-1]

其中，k＝1…K，p、q分别为用于控制滤波器g_k(n)的通带起始频点和带宽的整数参数，w_c(n)为卷积窗，将x^(m)与y^(m)各自分为K个窄频段信号，再将窄频段信号分别输入对应的子鉴别器中，根据非消失梯度的迭代策略来最小化鉴别器损失函数L_D，更新鉴别器网络D(φ)；

5)从训练梅尔谱数据集中采集M条样本，

6)将M条样本

输入到生成器中，经过转置卷积使输出序列的长度与原始波形x的时间分辨率相匹配；将序列输入到多感受野融合模块中，并行观察各种不同序列长度的模式，输出多个残差模块的总和，作为生成语音

进而根据非消失梯度的迭代策略来最小化生成器损失函数L_G，更新生成器网络G(θ)。

第二方面，一种基于滤波器组频率区分的深度网络波形合成装置，所述装置包括：所述装置包括：处理器和存储器，所述存储器中存储有程序指令，所述处理器调用存储器中存储的程序指令以使装置执行第一方面中的任一项所述的方法步骤。

本发明提供的技术方案的有益效果是：

1、本发明合成的语音具有逼近真实语音波形的效果，且合成语音波形的梅尔谱细节部分更加清晰；该模型在推断速度方面得到提高，促进语音波形合成更加适用于实时场景的发展；

2、本发明从实验部分给出的合成语音波形的梅尔谱，也可以看到本发明提出的语音波形合成GAN网络解决了高频部分混叠失效的问题，大大减轻了高频频段的频谱失真。

附图说明

图1为波形生成GAN网络中生成器的简单结构示意图；

图2为波形生成GAN网络中鉴别器的简单结构示意图；

图3为生成对抗网络的流程图；

图4为生成器的具体结构示意图；

其中，生成器将梅尔谱上采样|ks_up|次以匹配原始语音波形的分辨率。MRF模块通过|ks_res|个具有不同核大小及扩张率的残差块来添加多样化的特征，其中第j个残差块中扩展卷积的核大小及扩张率分别为ks_res[j]和D_res[j,n,l]。

图5为鉴别器的具体结构示意图；

其中，MFD是10个子鉴别器的混合结构，每个子鉴别器接收解析滤波器后某一段频段内的波形。每个子鉴别器中的Conv Block均由经过“leaky ReLU”激活的步进卷积和群卷积组成，此外，将权重标准化应用于每一个子鉴别器当中。

图6为解析滤波器组示意图；

图7为原始波形经过Analytic Filter4的实验图；(a)为原始波形；(b)为经过Analytic Filter4滤波后的波形；(c)为原始波形频谱；(d)为经过Analytic Filter4滤波后的波形频谱。

图8为本模型合成句子"I am very happy to see you again！"语音波形的梅尔谱示意图；

图9为HiFiGAN合成句子"I am very happy to see you again！"语音波形的梅尔谱示意图；

图10为本模型合成句子"When I was twenty,I fell in love with a girl."语音波形的梅尔谱示意图；

图11为HiFiGAN合成句子"When I was twenty,I fell in love with a girl."语音波形的梅尔谱示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

基于语音信号是一种多频率成分的结构，并且在文本转语音的后端声码器中，需要由梅尔谱转换为语音波形，因而本发明实施例提出将语音信号波形生成的过程与滤波器组设计相结合，从而对鉴别器网络参数进行优化。

具体来说，首先采用解析方法设计多个任意频率通带的滤波器组；然后将生成器输出的语音信号并行馈入到这些滤波器组中，而获得多个窄频带的信号；进而将这些窄频带的信号分别输入到各个子鉴别器中进行处理，再综合这些子鉴别器的损失函数对网络参数做优化，从而提升声码器中生成器与鉴别器的协同功能，保证了整个语言编码器可合成更高质量的语音。

实施例1

本发明实施例提供了一种基于滤波器组频率区分的深度网络文本转语音波形合成方法，参见图1-图6，该方法包括以下步骤：

101：训练所用语音数据集、与语音所对应的转录文本、测试文本，给定可实现从文本到梅尔谱转换的声学模型前端网络；

102：将数据集中的语音分出训练集，然后依次计算每条语音的梅尔谱，从而构造出训练梅尔谱数据集，实现对数据集的预处理；

103：构建网络：

构建如图1所示的生成器网络，包括：转置卷积(Transposed convolutional)模块和多感受野融合模块(Multi-Receptive Field Fusion,MRF)；以及如图2所示的多频率鉴别器网络，该鉴别器由若干子鉴别器组成，每个子鉴别器对输入语音波形的某一任意指定的窄频段内的信号进行处理。

104：网络训练阶段：

其中，该步骤具体为：

1)随机初始化生成器网络G(θ)与鉴别器网络D(φ)的网络参数；

n∈[-N+1,-1]∪[1,N-1]

其中，k＝1…K(其中p、q分别为用于控制滤波器g_k(n)的通带起始频点和带宽的整数参数，w_c(n)为卷积窗)，从而将x^(m)与y^(m)各自分为K个窄频段信号，再将这些窄频段信号分别输入对应的子鉴别器中，进而根据非消失梯度的迭代策略来最小化鉴别器损失函数L_D，从而更新鉴别器网络D(φ)。

5)从训练梅尔谱数据集中采集M条样本，

6)将M条样本

输入到生成器中，首先经过转置卷积使输出序列的长度与原始波形x的时间分辨率相匹配；然后将序列输入到多感受野融合模块中，并行观察各种不同序列长度的模式，最终输出多个残差模块的总和，作为生成语音

进而根据非消失梯度的迭代策略来最小化生成器损失函数L_G，从而更新生成器网络G(θ)。

105：网络推断阶段：在完成生成对抗网络的参数训练后，将测试文本馈入到给定的声学模型前端网络中，生成测试梅尔谱，再将该测试梅尔谱输入到生成器中，输出生成语音信号。

其中，声学模型前端网络为FastSpeech(本领域技术人员所公知，本发明实施例对此不做赘述)，经过训练后可以将文本转换为梅尔谱声学特征的神经网络。

综上所述，本发明实施例通过上述步骤101-步骤105解决了已有GAN网络技术中高频部分混叠失效的问题，减轻高频频段频谱失真。

实施例2

下面结合具体的计算公式、实例对实施例1中的方案进行进一步地介绍，详见下文描述：

一、基于生成对抗网络的声码器设计

1、网络结构

假设在低维空间

中有一个简单容易采样的分布p(z)，p(z)通常为标准多元正态分布N(0,I)。用神经网络构建一个映射函数

称为生成网络。利用神经网络强大的拟合能力，使得G(z)服从数据分布p_r(x)。这种模型就称为隐式密度模型，所谓隐式密度模型就是指并不显式地建模p_r(x)，而是建模生成过程。

隐式密度模型的一个关键是如何确保生成网络产生的样本一定是服从真实的数据分布。

生成对抗网络就是通过对抗训练的方式来使得生成网络产生的样本服从真实数据分布。在生成对抗网络中，有两个网络进行对抗训练。一个是判别网络，目标是尽量准确地判断一个样本是来自于真实数据还是由生成网络产生；另一个是生成网络，目标是尽量生成判别网络无法区分来源的样本。这两个目标相反的网络不断地进行交替训练。当最后收敛时，如果判别网络再也无法判断出一个样本的来源，那么也就等价于生成网络可以生成符合真实数据分布的样本。生成对抗网络的流程图如图3所示。

判别网络(Discriminator Network)D(x；φ)的目标是区分出一个样本x是来自于真实分布p_r(x)还是来自于生成模型p_θ(x)，因此判别网络实际上是一个二分类的分类器。用标签y＝1来表示样本来自真实分布，y＝0表示样本来自生成模型，判别网络D(x；φ)的输出为x属于真实数据分布的概率，即：

p(y＝1|x)＝D(x；φ), (1)

则样本来自生成模型的概率为p(y＝0|x)＝1-D(x；φ)。给定一个样本(x,y)，y＝{1,0}表示其来自于p_r(x)还是p_θ(x)，判别网络的目标函数为最小化交叉熵，即：

假设分布p(x)是由分布p_r(x)和分布p_θ(x)等比例混合而成，即

则上式等价于：

其中，θ和φ分别是生成网络和判别网络的参数。

生成网络(Generator Network)的目标刚好和判别网络相反，即让判别网络将自己生成的样本判别为真实样本。

上面的这两个目标函数是等价的。但是在实际训练时，一般使用前者，因为其梯度性质更好。函数log(x),x∈(0,1)在x接近1时的梯度要比接近0时的梯度小很多，接近“饱和”区间。这样，当判别网络D以很高的概率认为生成网络G产生的样本是“假”样本，即(1-D(G(z；θ)；φ))→1，这时目标函数关于θ的梯度反而很小，从而不利于优化。

2、生成器网络设计

生成器是一个纯卷积的神经网络，使用梅尔谱作为输入，首先通过转置卷积(Transposed convolutional)使输出序列的长度与原始波形的时间分辨率相匹配。然后每一个转置卷积后都设置一个多感受野融合模块(Multi-Receptive Field Fusion,MRF)，该结构具体细节见图4。

其中，多感受野融合模块用于并行观察各种长度的模式，最终返回多个残差模块(Resblocks)的总和。通过赋予每个残差模块不同的核大小(Kernel Size)以及扩张率(Dilation Rates)以形成多感受野的结构，如图4所示。

3、基于滤波器组频率区分的鉴别器网络设计

识别实际语音信号波形的长程相关性并对其进行建模是一个关键问题，例如：当一个音素的持续时间大于100ms时，波形样本中就会有2200个相邻样点高度相关。该问题通过在生成器中添加多感受野融合模块进行解决。在鉴别器当中，考虑语音合成中的另一个关键问题，即由于语音音频由不同频率成分的谐波组成，因此需要识别音频波形数据中的各种频率成分的模式。

因此提出了多频率鉴别器(Multi-Frequency Discriminator,MFD)，该鉴别器由若干子鉴别器组成。每个子鉴别器只对音频输入的某一任意指定的短频段内的信号进行处理，该过程通过解析滤波器(Analytic Filter)的技术来实现，鉴别器的结构见图5所示。

4、声码器总体损失函数设计

在GAN网络的损失上，使用最小二乘损失函数替换原始GAN所使用的二元交叉熵，以用于非消失梯度流。鉴别器的训练目标是将真实语音样本归类为1，将生成器合成的语音样本归类为0。生成器的训练目标是通过不断更新合成语音样本的质量以“伪造”真实样本，使得鉴别器将此合成语音归类为几乎接近于1的值。第k个支路的鉴别器的损失函数L_D(k)和整个生成器的损失函数L_G如下所示：

其中，x代表真实语音样本，s代表真实语音样本的梅尔谱，k表示MFD子鉴别器的编号。

除了GAN损失，还添加了梅尔谱损失(Mel-Spectrogram Loss)来提高生成器的训练效率和生成音频的保真度。考虑到生成器的输入条件为梅尔谱，由于人耳听觉系统的特性，因此该损失函数具有提高感知质量的效果。该损失函数定义为生成器合成语音波形的梅尔谱与真实语音波形的梅尔谱之间的L₁范数，如下所示：

其中，

代表将波形转换为梅尔谱的过程，梅尔谱损失有助于生成器合成与输入条件对应的真实波形，并在训练的早期阶段稳定训练过程。

特征匹配损失(Feature Matching Loss)通过衡量鉴别器中真实样本和合成样本之间特征的差异，来衡量二者之间的相似性。该损失函数是通过提取鉴别器中的每一个中间特征，再去计算特征空间中真实样本和合成样本的中间特征的L₁范数来实现的。该函数定义如下：

其中，L代表鉴别器中神经网络的层数，D_k ⁱ表示第k个鉴别器的神经网络中第i层的特征，N_i表示第i层的特征总个数。

综上所述，最终的生成器损失L_G与鉴别器损失L_D为：

L_G＝L_{GAN_G}+λ_FML_FM+λ_melL_mel(G) (11)

＝∑_k＝1,2,…[L_{GAN_G}(D_k)+λ_FML_FM(D_k)]+λ_melL_mel(G) (12)

L_D＝L_D(k) (13)

L_{GAN_G}为生成器损失，λ_FM为特征匹配损失因子，λ_mel为梅尔谱损失因子。

滤波器组设计原理不失一般性，为设计带通滤波器，需构造如下长度为N的频率采样向量H：

显然式(14)内部元素满足：

H(k)＝H(N-k), k＝0,...,N-1 (15)

如果对式(14)的各个元素将ω∈[0,2π]内的均匀分割的N个频率采样位置(频率间隔为2π/N)相对应，则可在0、1交界的元素可导出两个截止数字角频率为：

ω₁＝p2π/N, ω₂＝(p+q-1)2π/N, (16)

假定系统的采样速率为F_s，则ω₁、ω₂对应的两个模拟频率为：

f_L＝pF_s/N, f_H＝(p+q-1)F_s/N, (17)

相应地，两个正整数p、q应配置为：

p＝[f_LN/F_s], q＝[(f_H-f_L)N/F_s]+1, (18)

其中，“[·]”表示四舍五入取整操作。

进而对式(14)的频率向量H做逆离散傅立叶变换，有：

进一步化简，有：

进一步用欧拉公式对上式进行化简，有：

式(22)对n＝0时，分母为零，故不适用。将n＝0代入式(21)，有：

h(0)＝2q/N (23)

将(22)、(23)相结合，得到建议滤波系数g(n)的最终公式：

其中，w_c(n)是一个长度为2N-1的卷积窗口，定义如下：

w_c(n)＝f(n)*R_N(-n), n∈[-N+1,N-1] (25)

在式(25)中，{f(n),n＝0,…,N-1}是一个长度为N的汉宁窗，{R_N(n),n＝0,…,N-1}是一个长度为N的矩形窗，C为卷积窗中心元素C＝w_c(0)。

6、针对生成器输出语音频带分解的解析滤波器组设计

在鉴别器的解析滤波器组设计当中，鉴于生成器输出语音的基频范围一般为50Hz～500Hz，且语音信号的能量主要集中在30Hz～3400Hz之间，在主要考虑基频成分，次要考虑低次谐波，不考虑较高次谐波的情况下，设置滤波器组的个数为10个。因而具体的滤波器参数设置如表1所示。

表1解析滤波器组的参数设置

实施例3

实验中所用音频的采样速率为22.05kHz，设置频率采样向量长度N＝512，以滤波器组中的第九个滤波器为例，B＝(f_L,f_H)＝[700Hz,1000Hz]，将f_L＝700Hz、f_H＝1000Hz、F_s＝22050Hz、N＝512代入式(19)，得p＝16、q＝8，进一步将长度为N的汉明窗和翻转的长度为N的矩型窗进行卷积，生成2N-1个卷积窗元素w_c(n)，将以上值代入式(25)，可得带通滤波器系数g(n)，进一步求取该滤波器的频率响应函数G(j2πf)，如图6中黑色线所示。以滤波器组中得第四个滤波器为例，图7列出原始语音波形及其频谱、经过Analytic Filter 4滤波后的波形及其频谱。

其次，本发明实施例在模型的端到端方面的整体效果进行了验证，首先利用一个TTS前端模型进行梅尔谱中间表示的生成，然后训练该模型，利用所提出模型进行语音波形的合成，并使用HiFiGAN模型将相同的中间表示作为输入得到生成语音波形作为对比。

图8与图9分别为首先通过TTS前端模型生成英文句子"I am very happy to seeyou again！"的梅尔谱，然后分别利用该模型与HiFiGAN进行语音波形生成，最后绘制生成语音的梅尔谱。

图10与图11所示生成语音波形梅尔谱对应的文本为"When I was twenty,I fellin love with a girl."。从图8与图9的对比、图10与图11的对比，可以明显看出本模型的生成波形梅尔谱细节更清晰，尤其在较高频谐波部分，表明本模型能够减轻高频部分混叠失效的问题。

首先，使用LJSpeech语音数据集对模型进行训练。LJSpeech语音数据集包含13100条大约24小时的语音短片段，均由一个说话人所录制。音频格式为16bit PCM，采样频率是22kHz。设备采用一台NVIDIA GeForce RTX 3080GPU。

FastSpeech是一个非自回归的TTS前端模型，在由文本生成梅尔谱方面是现如今最为成功的模型之一。FastSpeech将文本(音素)作为输入，然后非自回归地生成梅尔谱。该模型采用基于Transformer中的自注意力和一维卷积的前馈网络的结构。此外，为了解决梅尔谱序列和相应的音素序列之间的长度不匹配问题(梅尔谱序列比音素序列长很多)，FastSpeech采用了一个长度调节器来根据音素持续时间将音素序列进行上采样，其中音素持续时间就是每一个音素所对应的梅尔谱帧的个数。FastSpeech的训练依赖于一个自回归的教师模型，以为该模型提供1)用来训练“持续时间预测器”的每一个音素的发音持续时间；2)用于知识蒸馏的生成梅尔谱。

生成器结构参数设置，具体如下表2所示。ks_up[i],i＝1,2,3,4表示上采样模块中转置卷积核的大小，i是上采样的次数；h_up表示隐藏维度；ks_res[j],j＝1,2,3表示MRF中残差连接里扩展卷积核的大小，j是残差块的个数；D_res[j,n,l]表示MRF中残差连接里扩展卷积的扩张率，其中，j是残差块的序号、n是残差块里残差连接的序号、l是每个残差连接里扩展卷积的序号。

表2生成器结构设置

其次设置本发明提出模型的细节设置，具体设置如表3所示。

表3模型的细节设置

然后将FastSpeech模型和本发明所提出的波形生成GAN网络分别在LJSpeech数据集上进行训练，利用FastSpeech合成给定例句的梅尔谱，再使用该模型将例句的梅尔谱进行语音波形合成。

实验表明：本发明提出的基于滤波器组频率结构区分的深度网络文本转语音波形合成方法，合成的语音波形不仅能够保证各个频率成分都不会衰减，而且可消除现有基于GAN网络声码器的高频混叠的弊端，具体表现为生成语音信号的梅尔谱中谐波结构更加清晰(特别是在高频端，其谱细节更为突出)，相比于已有语音声码器，可合成与人类声音更为相近的高质量语音波形。此外，由于本发明只采用一类频率结构鉴别器取代了现有基于GAN网络的模型中的两类鉴别器(多周期鉴别器和多尺度鉴别器)，简化了模型结构，加快了模型训练的收敛。

实施例4

一种基于滤波器组频率区分的深度网络波形合成装置，该装置包括：处理器和存储器，存储器中存储有程序指令，处理器调用存储器中存储的程序指令以使装置执行以下的方法步骤：

其中，生成对抗网络包括：生成器网络和鉴别器网络，生成器网络包括：转置卷积模块和多感受野融合模块；鉴别器网络由若干子鉴别器组成，每个子鉴别器对输入语音波形的某一任意指定的窄频段内的信号进行处理。

其中，综合子鉴别器的损失函数对生成对抗网络的参数进行训练具体为：

1)随机初始化生成器网络G(θ)与鉴别器网络D(φ)的网络参数；

n∈[-N+1,-1]∪[1,N-1]

5)从训练梅尔谱数据集中采集M条样本，

6)将M条样本

这里需要指出的是，以上实施例中的装置描述是与实施例中的方法描述相对应的，本发明实施例在此不做赘述。

上述的处理器和存储器的执行主体可以是计算机、单片机、微控制器等具有计算功能的器件，具体实现时，本发明实施例对执行主体不做限制，根据实际应用中的需要进行选择。

存储器和处理器之间通过总线传输数据信号，本发明实施例对此不做赘述。

本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。