CN113593588B

CN113593588B - 一种基于生成对抗网络的多唱歌人歌声合成方法和系统

Info

Publication number: CN113593588B
Application number: CN202110863481.9A
Authority: CN
Inventors: 赵洲; 李瑞琦; 黄融杰
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-07-29
Filing date: 2021-07-29
Publication date: 2023-09-12
Anticipated expiration: 2041-07-29
Also published as: CN113593588A

Abstract

本发明公开了一种基于生成对抗网络的多唱歌人歌声合成方法和系统，属于歌声合成领域。本发明采用多频段并行的高保真波形生成器，用于捕捉不同频段不同敏感度的信息，且保证了计算的效率。同时，本发明使用了两个不同目标的判别器：条件判别器在输入波形的同时，引入了真实唱歌人的身份特征，用于判别生成器是否正确在波形中重建了唱歌人的身份（即音色等）信息；而非条件判别器仅用于判别该波形是生成的还是真实的。在训练过程中，生成器将尽量迷惑两个判别器，达到快速生成高保真波形的效果的同时，优化了遇到未见唱歌人时的退化问题。

Description

一种基于生成对抗网络的多唱歌人歌声合成方法和系统

技术领域

本发明涉及歌声合成技术领域，尤其涉及一种基于生成对抗网络的多唱歌人歌声合成方法和系统。

背景技术

高保真多唱歌人歌声合成在神经网络声音编码器领域是一个挑战，其原因有数据集短缺、有限的多唱歌人泛化性能、巨量的计算代价等等。该声码器的目标是针对给定的歌声的Mel频谱输入，重建该Mel频谱对应的波形，同时要尽可能恢复在Mel频谱中隐藏的该唱歌人的特征。

近年来声码器技术在歌声合成领域的性能一直在提高，但是在多唱歌人歌声合成领域却遇到了困难。在多唱歌人建模的场景中，不同人在唱歌时的音色、强弱变化、快慢变化大不相同。在遇到未见唱歌人的推断情况下，即遇到未在训练集中出现的唱歌人的情况下，目前许多声码器出现了明显的退化现象，性能大大降低，生成的音频质量也降低。同时，在实际运用中，声码器往往需要更快的计算速度，而声码器的训练和推断过程会非常耗计算资源，现有的声码器难以满足歌声快速合成的需求，且目前的基于对抗生成网络的声码器则更需要大量数据和计算量。

综上，现有的高保真声码器仍不能有效地解决上述问题，导致了在多唱歌人场景下的显著退化和推断速度达不到要求，难以满足高要求场景下的使用。

发明内容

本发明的目的在于解决现有技术中声码器在多唱歌人场景中的退化及歌声合成速度慢等性能不足的问题。目前主流声码器并未显式地构建重建唱歌人身份特征的架构，因此，本发明提出一种基于生成对抗网络的多唱歌人的快速高保真声码器，首先利用在波形中不同的频带有不同的特征的特性，将波形分为四个不同的频带进行并行生成，使用伪正交镜像滤波器组(PQMF)合成输出波形，实现了良好的并行性，加速了计算过程；在传统的非条件判别器外，还添加了一个唱歌人条件判别器，在判别过程中加入参考唱歌人身份特征作为条件信息以判断生成器是否合理地在波形中重建了唱歌人的特征，有效地优化了多唱歌人模型中的退化问题，提升了声码器在多唱歌人场景中重建波形的性能。

为了实现上述目的，本发明具体采用如下技术方案：

本发明的其中一个目的在于提供一种基于生成对抗网络的多唱歌人歌声合成方法，包括如下步骤：

1）获取多唱歌人的对齐歌声训练样本集，每一个样本由源歌声音频、对齐歌词文本和唱歌人身份信息构成；

2）建立多唱歌人歌声生成对抗网络，包括多频带波形生成器、唱歌人身份特征提取网络、唱歌人条件判别器和非条件判别器；

将源歌声音频对应的Mel频谱作为多频带波形生成器的输入，并行输入的还有符合高斯分布的合成噪音，由多频带波形生成器生成四个不同频带的合成波形，再由伪正交镜滤波器组处理得到合成波形输出；

将源歌声音频对应的真实波形与合成波形按比例输入判别器中，其中对于唱歌人条件判别器，首先对真实波形或合成波形进行编码，再在编码序列中加入唱歌人身份特征序列，最后输出唱歌人身份信息进行重建的概率；对于非条件判别器，对真实波形或合成波形作为输入，最后输出该波形属于合成波形的概率；

采用步骤1）中的对齐歌声训练样本集对生成对抗网络进行训练，根据多频带波形生成器损失、唱歌人条件判别器损失和非条件判别器损失，对多唱歌人歌声生成对抗网络进行训练；

3）针对待合成的源歌声音频，将其分割成训练样本的大小，将分割后的各个待处理样本的Mel频谱及噪声作为多频带波形生成器的输入，输出合成波形，将各个待处理样本对应的合成波形连接起来，得到最终的合成波形，再将合成波形转换成音频输出。

进一步的，所述的步骤1）具体为：

1.1）音频预处理：针对多唱歌人音频文件，使用语音检测去除超过连续100毫秒的片段；

1.2）对预处理后的音频分割成1~11秒的样本片段，将歌词与文本对齐，标注每一个样本的唱歌人身份信息。

进一步的，所述的多频带波形生成器由一个低频率自适应波形生成器和一个高频率自适应波形生成器构成，两个波形生成器的结构相同，均包括针对Mel频谱的上采样层、针对合成噪音的1维卷积层、自适应的WaveNet神经网络块、以及两个相同的ReLU激活层和1x1卷积层；所述的自适应的WaveNet神经网络块的数量及内部卷积层的感受野根据频带不同而自适应；

将源歌声音频对应的Mel频谱经上采样层处理，将符合高斯分布的合成噪音经1维卷积层处理，上采样层和1维卷积层的输出结果作为WaveNet神经网络块的输入，最终输出两个高频带或低频带合成波形；根据一个低频率自适应波形生成器和一个高频率自适应波形生成器即可得到两个低频带波形和两个高频带波形。

进一步的，所述的WaveNet神经网络块包括针对噪音输入的扩张卷积层、针对Mel频谱输入的1x1卷积层、针对两者分裂后的四种张量进行处理的sigmoid-tanh激活层、以及最后用于输出的两层全连接层；前一个WaveNet神经网络块输出的两个特征信息分别作为下一个WaveNet神经网络块的输入；

在第i个WaveNet神经网络块中，将输入的噪音处理结果X_i和将Mel频谱处理结果H_i分别作为扩张卷积层和1x1卷积层的输入，分裂成四个不同的张量xa_i、xb_i、sa_i、sb_i，其中xa_i、xb_i相连接并被sigmoid-tanh激活层中的tanh函数激活，sa_i、sb_i相连接并被sigmoid-tanh激活层中的sigmoid函数激活，激活后得到的两个张量经过两个并行的全连接层后分别输出噪音处理结果X_i+1和Mel频谱处理结果H_i+1，并将其作为第i+1个WaveNet神经网络块的输入继续处理。

进一步的，将源歌声音频对应的Mel频谱作为多频带波形生成器的输入时，需要在时间维度上往后补0，以使所有输入具有相同尺寸。

进一步的，所述的唱歌人身份特征提取网络用于对唱歌人身份信息进行编码，由一个三层长短期记忆网络LSTM层、一层全连接层、ReLU激活层和批标准化构成；先将Mel频谱在LSTM层中提取隐藏层信息，再通过全连接和激活层映射成唱歌人身份嵌入，最后输出编码后的唱歌人身份特征序列，计算唱歌人感知损失。

进一步的，所述的唱歌人条件判别器由一维卷积层、下采样层、长短期记忆网络LSTM层、唱歌人身份特征输入层、全连接层和ReLU激活层构成；将真实波形或合成波形序列依次经一维卷积层、下采样层、一维卷积层、LSTM层处理，得到编码后的波形序列，同时输入对应的唱歌人身份特征序列，将编码后的波形序列与对应的唱歌人身份特征序列进行元素级别的相加运算，再经全连接层和激活函数层输出唱歌人身份信息的重建概率，计算唱歌人条件判别器损失。

进一步的，所述的非条件判别器由10层非因果性扩张卷积层和一维卷积层构成；所述扩张卷积层的扩张系数依次增大，将真实波形或合成波形序列由10层扩张卷积层输出的扩张结果再被一维卷积层映射到一个概率值输出，得到该波形属于合成波形的概率，计算非条件判别器损失。

进一步的，将条件判别器损失与非条件判别器损失相结合，作为主损失值；引入唱歌人感知损失与多分辨率短时傅里叶变换损失作为辅助损失值，将主损失与辅助损失的加权结果最为最终损失，对多唱歌人歌声生成对抗网络进行联合训练。

本发明的第二个目的在于提供一种基于生成对抗网络的多唱歌人歌声合成系统，用于实现上述的多唱歌人歌声合成方法。

相对于现有技术，本发明有效提升了多唱歌人场景下高保真歌声合成的性能，具体体现在：

（1）针对现有技术在合成高保真波形时计算速度不足的问题，本发明在保证输出波形细节不丢失的前提下提升了并行性，由此降低了计算时间。

本发明利用在波形中不同的频带有不同的特征的特性，采用两个不同的频率自适应波形生成器，将波形分为四个不同的频带进行并行生成，再使用伪正交镜滤波器组(PQMF)合成输出波形。其中两个不同的频率自适应波形生成器在对不同频段的灵敏度和注重点互不相同，因而能够捕捉更真实的声音信息，在输出高保真波形的同时实现了良好的并行性，加速了计算过程。

（2）针对现有技术在多唱歌人场景中容易出现的退化问题，本发明加入了一个唱歌人条件判别器，用于监督生成器在生成的波形中重建唱歌人的特征。该条件判别器在判别的过程中引入了真实唱歌人的身份特征（由一个预训练好的身份特征提取网络生成），从而在这条件基础上来判别波形生成器是否合理地在波形中重建了唱歌人的身份特征。这极大地缓解了在推断过程中遇到未在训练集中出现过的唱歌人身份的歌声对应的Mel频谱，即未见说话人情况下的退化问题，提升了模型的泛化能力。

（3）在对抗生成网络的基础上，本发明还引入了两个有助于提升声码器性能和稳定对抗训练的损失函数。首先，为了提升生成波形的质量，本发明引入了唱歌人感知损失(Singer Perceptual Loss)，该感知损失能够使得生成器捕捉到唱歌中之间的偏置，并在真实波形和合成波形之间在频域上优化唱歌人相似度。其次，为了使对抗训练的过程更稳定，本发明引入了多分辨率短时傅里叶变换损失(Multi-resolution STFT Loss)，该损失是一组不同分辨率与分析参数的短时傅里叶变换的结果的损失和。这两个辅助损失进一步提升了声码器的性能。

附图说明

图1是本发明提出的多频带高保真声码器结构；

图2是本发明实施例中的一种生成器结构示意图；

图3是本发明实施例中的一种唱歌人条件判别器结构示意图；

图4是本发明实施例中的一种非条件判别器结构示意图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步阐述和说明。

本发明提出的一种基于生成对抗网络的多唱歌人歌声合成方法主要包括以下几部分内容：步骤一、获取多唱歌人的对齐高质量歌声训练样本集。

步骤二、建立多唱歌人歌声生成对抗神经网络，包括多频带波形生成器（多频带高保真声码器）、唱歌人身份特征提取网络、唱歌人条件判别器和非条件判别器；采用多唱歌人的对齐高质量歌声训练样本集对建立的生成对抗神经网络进行训练，并在训练过程中引入两个判别器，得到训练好的多频带波形生成器，即训练好的多频带高保真声码器。

步骤三、以含有歌声信息的Mel频谱作为输入，由训练好的多频带高保真声码器生成高质量的音频波形。

在本发明的一项具体实施中，对步骤一的实施过程进行了介绍。

所述的对齐高质量歌声训练样本集是由源歌声音频文件、对应的对齐歌词文本和唱歌人身份经预处理后得到的，具体为：使用语音启动检测(VAD)来去除音频文件中的无声片段（连续100毫秒无声，则视为无声片段），使得音频文件长度大大减少；使用Lyrics-to-Singing（歌词到歌声）对齐，将整首歌分割成对齐的歌词和音频，使得每个处理过的乐句片段都在0到11秒的长度之间；使用Montreal Forced Aligner（蒙特利尔强制对齐，MFA）工具，获得一个时间轴上字级别对齐的音频文本数据集。MFA算法中的音素标注是由GMM-HMM（高斯混合模型-隐马尔可夫模型）算法对齐歌曲的手动标注音素序列而获得的。

经过该步骤处理后，每一个分割后的样本由源歌声音频、对齐歌词文本和唱歌人身份信息构成。

在本发明的一项具体实施中，对步骤二的实施过程进行了介绍。

2.1）建立多唱歌人歌声生成对抗神经网络模型。

建立由多频带波形生成器、唱歌人身份特征提取网络、唱歌人条件判别器和非条件判别器组成的网络模型。

多频带波形生成器由两个频率自适应波形生成器构成，一个低频率自适应波形生成器和一个高频率自适应波形生成器，如图2所示，每个生成器包含针对Mel频谱的上采样层、针对合成噪音的1维卷积层、数量根据频带不同而不定的WaveNet神经网络块、以及两个相同的ReLU激活层和1x1卷积层。其中除了WaveNet神经网络块的数量之外，WaveNet神经网络块中卷积层的感受野也根据频带不同而自适应。其中：低频生成器有16层卷积神经网络，扩张系数每8层循环，卷积核大小为7；高频生成器有15层卷积神经网络，扩张系数每5层循环，卷积核大小为5；最终，各频率自适应生成器经过两层1x1卷积层及其对应的ReLU激活层，输出两通道波形。两个生成器一共四通道，即四个不同频带波形。由两个频率自适应波形生成器生成的四个波形最后将被伪正交镜像滤波器组(PQMF)算法合并成一个输出波形。

本实施例中，所述WaveNet神经网络块包含针对噪音输入的扩张卷积层、针对Mel频谱输入的1x1卷积层、针对两者分裂后的四种信号进行处理的sigmoid-tanh激活层、和最后用于输出的两层全连接层。前一个WaveNet神经网络块输出的两个特征信息分别作为下一个WaveNet神经网络块的输入。

如图3所示，唱歌人条件判别器是由一维卷积层、下采样层、长短期记忆网络(LSTM)层、唱歌人身份特征、全连接层和ReLU激活层构成的。唱歌人条件判别器在经过多层LSTM提取出唱歌人身份隐藏特征后，加入参考唱歌人身份特征，从而判别出生成器是否合理地在波形中重建了唱歌人本身的特征。

如图4所示，非条件判别器是由九层非因果性一维扩张卷积层和一层一维卷积输出层构成的。各个扩张卷积层的卷积核的步长为1；其扩张系数第一层为1，第二层到第九层为从1到8；输入通道数第一层为1，第二层到第九层为64，输出通道数为64；卷积核的大小为3。在九层扩张卷积层之后，提取的特征将被一个一维卷积层映射到一个概率值输出，输出通道数为1，用于判断该波形为合成波形还是原始波形。

2.2）对模型进行训练。

采用多唱歌人的对齐高质量歌声训练样本集对建立的对抗神经网络模型进行训练，并在训练过程中引入两个判别器用于对抗训练，在本实施例中，所述的两个判别器分别为唱歌人条件判别器和非条件判别器。同时，训练过程还包含两个有助于提升声码器性能和稳定对抗训练的损失函数。

a. 唱歌人身份特征提取网络预训练流程：

在唱歌人条件判别器的工作过程中和唱歌人感知损失的计算过程中，都需要一个预训练唱歌人身份特征提取网络。该唱歌人身份特征提取网络为一个唱歌人身份编码器，由一个三层长短期记忆网络(LSTM)、一层全连接层、ReLU激活层和批标准化构成。输入Mel频谱的唱歌人身份特征作为RNN序列中比较稳定的特征，在LSTM网络中被提取到隐藏层中，再通过全连接和激活层映射成唱歌人身份嵌入。该编码器的训练使用广义端到端损失，从而使从Mel频谱空间到唱歌人身份空间的映射更有效。

b. 多频带波形生成器训练流程：

本实施例中，如图1所示，将80频带Mel频谱作为多频带生成器的输入，且一同并行输入的还有符合高斯分布的合成噪音序列。输入的频谱和噪音波形在补0后被分发并行输入至两个不同的频率自适应生成器，并合成四个不同频带的波形：两个高频带波形和两个低频带波形。其中每个生成器先对Mel频谱进行上采样处理生成H，对合成噪音进行1维卷积处理并生成X，接着将H,X输入深度根据频带不同而不定的WaveNet神经网络块和两对相同的ReLU激活层和1x1卷积层。其中：低频生成器有16层卷积神经网络，扩张系数每8层循环，卷积核大小为7；高频生成器有15层卷积神经网络，扩张系数每5层循环，卷积核大小为5；最终，各频率自适应生成器经过两层1x1卷积层及其对应的ReLU激活层，输出两通道波形。两个生成器一共四通道，即四个不同频带波形。

在第i个WaveNet神经网络块中，将输入的噪音处理结果X_i和将Mel频谱处理结果H_i 分别作为扩张卷积层和1x1卷积层的输入，分裂成四个不同的张量xa_i、xb_i、sa_i、sb_i，其中 xa_i、xb_i相连接并被sigmoid-tanh激活层中的tanh函数激活，sa_i、sb_i相连接并被sigmoid- tanh激活层中的sigmoid函数激活，激活后得到的两个张量经过两个并行的全连接层后分别输出噪音处理结果X_i+1和Mel频谱处理结果H_i+1，并将其作为第i+1个WaveNet神经网络块的输入继续处理。经过每个WaveNet神经网络块时，需要将其每个H_i输出进行跳步连接，即将所有H_i的和进行归一化后输入最后的输出网络：两层1x1卷积层及其对应的 ReLU激活层，作为单个频率自适应波形生成器的双通道输出。

两个频率自适应波形生成器生成的四个波形最后将被伪正交镜滤波器组(PQMF)算法合并成一个输出波形。

c. 判别器训练流程：

将真实波形序列x与合成波形序列y按比例输入条件判别器中。输入的波形在时间维度上补0，以使所有输入具有相同尺寸。

唱歌人条件判别器先使用步长平均池化进行256倍下采样，该下采样操作使用大小为4的有步长平均池化层，分别进行8倍、8倍、2倍、2倍四步下采样，输入为1通道，输出为256通道。下采样操作完成后，经过一维卷积层后输出一个256维的向量z；该向量被输入进三层LSTM网络进行捕捉稳定的唱歌人长期信息隐藏特征h；最后将该唱歌人长期信息隐藏特征h与参照唱歌人身份特征s进行元素级别的相加运算，通过一个全连接层和ReLU激活层，输出一个判别歌手身份信息是否合理重建的概率P1，并获得条件判别器损失。其中，参照唱歌人身份特征序列s是由预训练好的唱歌人身份特征提取网络提取得到的。

在条件判别器训练的同时，将真实波形x与合成波形y补0后按比例输入非条件判别器中，进入九层非因果性一维扩张卷积层。各个扩张卷积层的卷积核的步长为1；其扩张系数第一层为1，第二层到第九层为从1到8；输入通道数第一层为1，第二层到第九层为64，输出通道数为64；卷积核的大小为3。在九层扩张卷积层之后，提取的特征将被一个一维卷积层映射到一个概率值输出，输出通道数为1，用于判断该波形为合成波形还是原始波形，并获得非条件判别器损失。

生成器损失和判别器损失将联合成为对抗训练损失更新网络参数，其具体表现为：

其中，x, y分别为真实波形和合成波形，s, m分别为唱歌身份特征和Mel频谱，G为多频带波形生成器，D为非条件判别器，Ds为唱歌人条件判别器，L_adv(D;G)表示判别器损失，L_adv (G;D)表示生成器损失，E_x,m表示关于训练集中音频和对应Mel频谱的期望损失，E_x,s,m表示关于训练集中音频和对应Mel频谱、对应唱歌人身份特征的期望损失。这一损失被称为主损失。

在本发明的一项具体实施中，引入唱歌人感知损失与多分辨率短时傅里叶变换损失作为辅助损失。所述唱歌人感知损失是由原始波形和生成波形转化为Mel频谱Mel( x),Mel( y)，输入唱歌人身份特征提取网络后，两者在其中的LSTM层的每一层之间的L2范数之和，其具体损失表示为：

其中L_spl (x,y)代表唱歌人感知损失，代表L2范数，代表预训练唱歌人身份特征提取网络中LSTM第j层的隐藏层，且输入是波形x的Mel频谱，L表示LSTM隐藏层的数量。

所述多分辨率短时傅里叶变换损失是合成波形在经过一组不同分析参数（即分辨率）的短时傅里叶变换后的损失和，其具体损失表现为：

其中变换，L_{m_sc}和L_{m_mag}分别代表谱收敛损失(spectral convergence loss)和对数短时傅里叶幅度损失(log STFT magnitude loss)，和分别代表Frobenius 范数和L1范数；STFT (⋅)和N分别代表短时傅里叶变换的第m个傅里叶参数集的幅度和在该幅度内的元素数量。

最终的多分辨率短时傅里叶变换损失(SPL)的形式表现为：

其中，M表示不同参数的短时傅里叶变换的数量，上角标m表示第m个谱收敛损失和对数短时傅里叶变换幅度损失。

综上，本发明所涉及的辅助损失表现为：

其中，L_aux指的是辅助损失。

本发明在训练过程中的最终损失为：

其中a指的是一个用于平衡辅助损失和对抗损失的超参数，在本实施例中，a =10。

在本发明的一项具体实施中，对步骤三的实施过程进行了介绍。

以含有歌声信息的80频带Mel频谱作为输入，由训练好的多频带高保真声码器生成高质量的音频波形。

具体为：

3.1）采集待合成成波形序列的80频带Mel频谱数据并按照训练时的要求进行切割，在本实施例中，每段音频不超过11秒。将训练好的生成对抗网络中的多频带波形生成器以小批量的Mel频谱作为输入，将其在时间维度上往后补0以保持相同尺寸，得到Mel特征序列。同时，生成符合高斯分布的合成噪音作为生成器的另一输入。

3.2）输入的频谱和噪音被分发并行输入至两个不同的频率自适应的生成器并合成四个不同频带的波形：两个高频带波形和两个低频带波形。四个波形最后将被伪正交镜滤波器组(PQMF)算法合并成一个输出波形，再将合成波形转换成音频输出。

与前述的基于生成对抗网络的多唱歌人歌声合成方法的实施例相对应，本申请还提供了一种基于生成对抗网络的多唱歌人歌声合成系统的实施例，其包括：

样本预处理模块，其获取多唱歌人的对齐歌声训练样本集，每一个样本由源歌声音频、对齐歌词文本和唱歌人身份信息构成；

多唱歌人歌声生成对抗网络模块，其包括多频带波形生成器、唱歌人身份特征提取网络、唱歌人条件判别器和非条件判别器；

将源歌声音频对应的Mel频谱作为多频带波形生成器的输入，并行输入的还有符合高斯分布的合成噪音，由多频带波形生成器生成四个不同频带的合成波形，再由伪正交镜像滤波器组处理得到合成波形输出；

采用样本预处理模块中的对齐歌声训练样本集对生成对抗网络进行训练，根据多频带波形生成器损失、唱歌人条件判别器损失和非条件判别器损失，对多唱歌人歌声生成对抗网络进行训练；

歌声合成模块，其针对待合成的源歌声音频，将其分割成训练样本的大小，将分割后的各个待处理样本的Mel频谱及噪声作为多频带波形生成器的输入，输出合成波形，将各个待处理样本对应的合成波形连接起来，得到最终的合成波形，再将合成波形转换成音频输出。

关于上述实施例中的系统，其中各个单元或模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

对于系统实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的，其中所述作为多唱歌人歌声生成对抗网络模块，可以是或者也可以不是物理上分开的。另外，在本发明中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。上述集成的模块或单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现，以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。

在本实施例中，采用三种评估方式对生成的波形序列进行打分。分别为：平均主观得分(Mean Opinion Scores, MOS)、FDSD(Fréchet Deep Speech Distances)和余弦相似度。

其中：MOS分数来自大量母语者的评估，评分从1至5不等，其中1表示极度令人讨厌且带有明显失真，5表示无法察觉到任何失真。

FDSD基于合成音频和参照音频之间的距离来计算分数，而这些分数和FID(Fréchet Inception Distance)在概念上是相似的。

余弦相似度则用于在多唱歌人的歌曲集中计算唱歌人之间的相似度。除此之外，在本实施例中，还采用实时率(RTF)对模型的运行速度进行评估。

下面将上述方法应用于下列实施例中，以体现本发明的技术效果，实施例中具体步骤不再赘述。

实施例

本发明针对多频带波形生成、多唱歌人建模和消融验证三个方面进行了三步实验，且都在OpenSing数据集上进行实验验证。

下面是该数据集的基本情况介绍。

本发明对该数据集的处理方法：

使用语音启动检测(VAD)来去除音频文件中的无声片段（每100毫秒），使得音频文件长度大大减少；使用Lyrics-to-Singing（歌词到歌声）对齐，将整首歌分割成对齐的歌词和音频，使得每个处理过的乐句片段都在0到11秒的长度之间；使用Montreal ForcedAligner（蒙特利尔强制对齐）工具，获得一个时间轴上字级别对齐的音频文本数据集。MFA算法中的音素标注是由GMM-HMM（高斯混合模型-隐马尔可夫模型）算法对齐歌曲的手动标注音素序列而获得的。

对数据集进行初步处理之后，随机选择340个样本作为验证集，随机从6个唱歌人中选择60个样本作为已见过的唱歌人测试集。此外，从5位男性唱歌人和5位女性唱歌人中选出每位5个样本作为未见唱歌人测试集。

下面是针对多频带波形生成的实验结果：

如表2所示，Multi-band WaveRNN模型达到了最佳的性能水平并生成了最自然的歌声，但由于其自回归的架构，其运行速度被大大限制了；Multi-band MelGAN达到了最快的运行速度，但是出现了显著的质量退化；而本发明提出的多频带高保真声码器作为非自回归生成器，在实现快速运行的前提下具备最优的性能，这是由于多频带波形生成结构拥有很高的并行性，且针对不同频带的特性对生成器的结构进行了自适应。

下面是针对多唱歌人建模的实验结果：

从表3结果可知，非自回归模型如MelGAN和Parallel WaveGAN都没有显式地对多唱歌人的场景进行建模迁移，因此当遇见合成未见唱歌人时出现显著的退化现象是不可避免的；Singer Conditional WaveRNN (SC-WaveRNN)利用唱歌人信息嵌入作为合成时的额外信息来对唱歌人的身份进行控制，但是因为其自回归模型的架构导致了巨量的计算消耗；而本发明可以在不消耗额外计算资源的同时感知频谱中的唱歌人身份，对效率和质量两者进行了平衡，取得了显著的技术效果。

本发明通过消融实验验证本发明所采用技术的合理性与必要性。

通过表4的结果可知，将多频带生成器替换成一个全频带生成器后，生成速度大大降低了，且生成歌声的质量也有降低；当缺少唱歌人条件判别器的时候，在未见唱歌人的任务中唱歌人余弦相似度降低了，说明生成器在捕捉唱歌人身份时遇到了困难；当缺少唱歌人感知损失时，生成器生成波形的质量也被削弱了。本消融实验说明本发明有能力在未见唱歌人的情况下，加速波形生成的同时有效地重建唱歌人身份。

以上列举的仅是本发明的具体实施例。显然，本发明不限于以上实施例，还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形，均应认为是本发明的保护范围。

Claims

1.一种基于生成对抗网络的多唱歌人歌声合成方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于生成对抗网络的多唱歌人歌声合成方法，其特征在于，所述的步骤1）具体为：

3.根据权利要求1所述的基于生成对抗网络的多唱歌人歌声合成方法，其特征在于，所述的多频带波形生成器由一个低频率自适应波形生成器和一个高频率自适应波形生成器构成，两个波形生成器的主体结构相同，均包括针对Mel频谱的上采样层、针对合成噪音的1维卷积层、自适应的WaveNet神经网络块、以及两个相同的ReLU激活层和1x1卷积层；所述的自适应的WaveNet神经网络块的数量及内部卷积层的感受野根据频带不同而自适应，其中：低频率自适应波形生成器有16层卷积神经网络，扩张系数每8层循环，卷积核大小为7；高频率自适应波形生成器有15层卷积神经网络，扩张系数每5层循环，卷积核大小为5；

将源歌声音频对应的Mel频谱经上采样层处理，将符合高斯分布的合成噪音经1维卷积层处理，上采样层和1维卷积层的输出结果作为WaveNet神经网络块的输入，将WaveNet神经网络块的输出再经过两层1x1卷积层及其对应的ReLU激活层，每个生成器输出两通道高频带或低频带合成波形；根据一个低频率自适应波形生成器和一个高频率自适应波形生成器即可得到两个低频带波形和两个高频带波形。

4.根据权利要求3所述的基于生成对抗网络的多唱歌人歌声合成方法，其特征在于，所述的WaveNet神经网络块包括针对噪音输入的扩张卷积层、针对Mel频谱输入的1x1卷积层、针对两者分裂后的四种张量进行处理的sigmoid-tanh激活层、以及最后用于输出的两层全连接层；前一个WaveNet神经网络块输出的两个特征信息分别作为下一个WaveNet神经网络块的输入；

在第i个WaveNet神经网络块中，将输入的噪音处理结果X_i和将Mel频谱处理结果H_i分别作为扩张卷积层和1x1卷积层的输入，分裂成四个不同的张量xa_i、xb_i、sa_i、sb_i，其中xa_i、xb_i相连接并被sigmoid-tanh激活层中的tanh函数激活，sa_i、sb_i相连接并被sigmoid-tanh激活层中的sigmoid函数激活，激活后得到的两个张量经过两个并行的全连接层后分别输出噪音处理结果X_i+1和Mel频谱处理结果H_i+1，并将其输入到第i+1个WaveNet神经网络块中继续处理。

5.根据权利要求1所述的基于生成对抗网络的多唱歌人歌声合成方法，其特征在于，将源歌声音频对应的Mel频谱作为多频带波形生成器的输入时，需要在时间维度上往后补0，以使所有输入具有相同尺寸。

6.根据权利要求1所述的基于生成对抗网络的多唱歌人歌声合成方法，其特征在于，所述的唱歌人身份特征提取网络用于对唱歌人身份信息进行编码，由一个三层长短期记忆网络LSTM层、一层全连接层、ReLU激活层和批标准化构成；先将Mel频谱在LSTM层中提取隐藏层信息，再通过全连接和激活层映射成唱歌人身份嵌入，作为编码后的唱歌人身份特征序列，计算唱歌人感知损失。

7.根据权利要求1或6所述的基于生成对抗网络的多唱歌人歌声合成方法，其特征在于，所述的唱歌人条件判别器由一维卷积层、下采样层、长短期记忆网络LSTM层、唱歌人身份特征输入层、全连接层和ReLU激活层构成；将真实波形或合成波形序列依次经一维卷积层、下采样层、一维卷积层、LSTM层处理，得到编码后的波形序列，同时输入对应的唱歌人身份特征序列，将编码后的波形序列与对应的唱歌人身份特征序列进行元素级别的相加运算，再经全连接层和激活函数层输出唱歌人身份信息的重建概率，计算唱歌人条件判别器损失。

8.根据权利要求1所述的基于生成对抗网络的多唱歌人歌声合成方法，其特征在于，所述的非条件判别器由10层非因果性扩张卷积层和一维卷积层构成；所述扩张卷积层的扩张系数依次增大，将真实波形或合成波形序列由10层扩张卷积层输出的扩张结果再被一维卷积层映射到一个概率值输出，得到该波形属于合成波形的概率，计算非条件判别器损失。

9.根据权利要求1所述的基于生成对抗网络的多唱歌人歌声合成方法，其特征在于，将条件判别器损失与非条件判别器损失相结合，作为主损失值；引入唱歌人感知损失与多分辨率短时傅里叶变换损失作为辅助损失值，将主损失与辅助损失的加权结果最为最终损失，对多唱歌人歌声生成对抗网络进行联合训练。

10.一种基于生成对抗网络的多唱歌人歌声合成系统，其特征在于，用于实现权利要求1所述的多唱歌人歌声合成方法。