CN112382308A

CN112382308A - 基于深度学习与简单声学特征的零次语音转换系统和方法

Info

Publication number: CN112382308A
Application number: CN202011204478.8A
Authority: CN
Inventors: 魏建国; 谭智元; 路文焕; 徐君海
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2020-11-02
Filing date: 2020-11-02
Publication date: 2021-02-19

Abstract

本发明涉及机器学习、语音信号处理领域，为解决包含在内容隐表示中的源说话人基频信息与包含在说话人身份隐表示中的目标说话人基频信息之间存在冲突问题，本发明，基于深度学习与简单声学特征的零次语音转换系统和方法，包含以下几个模块：特征提取器：从音频文件中提取所需的声学特征；内容编码器：从声学特征中得到对应语句的内容隐表示；说话人身份编码器：从声学特征中得到对应说话人的隐表示；说话人身份矫正器：调整已有的说话人隐表示，提升其可用性；解码器：从重新组合的内容隐表示和说话人隐表示中发掘信息并重构声学特征；神经声码器即频谱反相器：利用重构后的声学特征重建音频。本发明主要应用于机器学习、语音信号处理场合。

Description

基于深度学习与简单声学特征的零次语音转换系统和方法

技术领域

本发明涉及机器学习、语音信号处理领域，具体是一种使用简单声学特征(梅尔倒谱系数MCEP+基音频率F0)与修正后的说话人隐表示(Speaker Embedding)进行零次语音转换的方法。

背景技术

语音转换的一个典型任务是在不改变句子语言信息的情况下，将源说话人的声音转换为目标说话人的声音。语音转换在许多应用领域显示出了强大的竞争力，如说话人信息隐藏和模仿、无障碍助听器、语音增强和语言学习等等。近年来，语音转换挑战赛(VoiceConversion Challenge)引起了广泛关注，充分展示了语音转换技术的应用潜力。

以往许多经典的研究都使用并行数据来实现一对一或多对一的语音转换，例如高斯混合模型(GMM)，使用非负矩阵分解(NMF)的基于范例的语音转换和使用受限玻尔兹曼(Boltzmann)机的语音转换系统。这些使用并行数据的方法在实际应用中很不方便。一方面，并行数据难以获得。另一方面，在训练之前，往往需要手动进行时间对齐，这些因素限制了这些方法的应用范围。为了解决这些问题，不需要并行数据的无监督语音转换成为了更有价值的研究方向。

许多基于非并行数据的方法已经被提出，例如使用生成式对抗网络(GenerativeAdversarial Network)的语音转换系统已经被证明能够在非并行数据下实现多对多的语音转换。其他使用可变自动编码器(VAEs)和语音识别(ASR)的方法在大多数情况下也可以生成高质量的语音。然而以上所有方法只能用于训练数据集中出现过的有限的说话人之间的转换，因此零次语音转换(Zero-Shot Voice Conversion)，即集中于训练数据集中看不见的说话人之间的转换，成为一个新的研究方向。

先前的方法通过分离说话人身份和语音内容，实现了零次语音转换。说话人隐表示(Speaker Embedding)被用来表示源说话人和目标说话人的身份。分离后的特征使得模型具有多对多的转换能力，而说话人嵌入使得模型可以泛化为看不见的说话人。使用自编码器(Auto-Encoder)将语音内容从说话人身份信息中分离出来，通过替换说话人嵌入生成语音。它具有类似生成对抗网络(GAN)的分布匹配特性，但训练却容易得多。

发明内容

为克服现有技术的不足，本发明旨在解决包含在内容隐表示中的源说话人基频信息与包含在说话人身份隐表示中的目标说话人基频信息之间存在冲突问题，为此，本发明采取的技术方案是，基于深度学习与简单声学特征的零次语音转换系统，包含以下几个模块：

(1)特征提取器：从音频文件中提取所需的声学特征；

(2)内容编码器：从声学特征中得到对应语句的内容隐表示；

(3)说话人身份编码器：从声学特征中得到对应说话人的隐表示；

(4)说话人身份矫正器：调整已有的说话人隐表示，提升其可用性；

(5)解码器：从重新组合的内容隐表示和说话人隐表示中发掘信息并重构声学特征；

(6)神经声码器即频谱反相器：利用重构后的声学特征重建音频。

基于深度学习与简单声学特征的零次语音转换方法，步骤如下：

(1)数据准备：准备音频数据集并按比例分割为训练集及测试集。

(2)特征提取：从音频中提取梅尔频谱(Mel-Spectrogram)、梅尔倒谱系数(MCEP)以及基频(F0)特征。

(3)模型训练：将提取出的声学特征作为输入，训练各模块。

(4)使用模型进行转换：使用内容编码器提取语句内容，与目标说话人的身份特征隐表示结合后输入给解码器，重构声学特征。

(5)重构音频：使用重构的声学特征，使用神经网络声码器进行音频重构，得到目标音频。

详细步骤如下：

步骤一，数据准备：

本发明采用数据库以及录制的人声音频作为模型训练和测试的数据集；

步骤二，特征提取：

提取梅尔频谱：

1)对音频信号预加重、分帧和加窗；

2)对每帧信号进行短时傅立叶变换(STFT)，得到短时幅度谱；

3)短时幅度谱通过梅尔滤波器组得到梅尔频谱；

基频F0的计算：

1)使用不同的截止频率的低通滤波器，如果滤波后的信号只包含基频，那么它就是一个正弦波；

2)计算每一个滤波后的信号中的候选基频以及可信度，由于只包含基频的信号应该是一个正弦波，计算四个跨度的平均值，用倒数来表示候选基频。同时，使用四个跨度的标准差作为衡量基频可信度的指标，标准差越大，说明跨度长短差异较大，那么取此频率作为基频的可信度就较低；

3)选取可信度最高的候选基频作为最终的基频；

频谱包络的提取：

1)对信号添加汉宁窗，然后对加窗之后的信号计算其功率，公式如下所示；

2)使用矩形窗函数对功率谱进行平滑化，公式如下所示；

3)计算功率谱的倒谱，并做倒谱提升，公式如下所示；

最终得到的P_l(ω)就是频谱包络特征；

步骤三，模型训练：

在训练过程中，内容编码器和解码器一起训练，而说话人身份矫正器单独进行训练；内容编码器产生内容隐表示，与矫正后的该说话人的隐表示结合后馈入解码器，产生重构的音频特征，训练的目标是使该重构特征与原本的音频特征尽可能相似，这个过程称为自我重构(Self-Reconstruction)训练；

步骤四，使用模型进行转换：

将源音频和目标音频的特征分别输入给内容编码器和说话人身份编码器，得到源音频内容的隐表示以及目标说话人的隐表示，组合后输入给解码器，得到转换后的音频特征；

步骤五，重构音频：

使用神经网络声码器(WaveNet)进行由转换后的特征到音频的重构过程，最终得到转换后的音频。

步骤三，模型训练详细步骤如下。

内容编码器产生内容编码的过程表示为：

C_n＝Ec(X_nA,S_A)

解码器进行自我重构的过程表示为：

说话人身份矫正器的工作过程表示为：

S′_A＝G(S_nA)

整体训练目标表示为：

此外说话人身份编码器的训练目标是使同一说话人的任意语句都产生尽可能相同的说话人身份隐表示，对于不同的说话人则尽可能产生完全不同的说话人身份隐表示，以此将不同的说话人身份完全区分开。

本发明的特点及有益效果是：

本发明采用由梅尔倒谱系数(MCEP)和基音频率(F0)构成的简单声学特征(SimpleAcoustic Features)，得到了更好的基频转换性能。

附图说明：

图1系统整体流程图。

图2系统训练过程框架图。

图3系统转换过程框架图。

图4各模块神经网络结构图。图中：

(a)说话人身份矫正器；

(b)内容编码器；

(c)解码器。

图5自我重构频谱结果图。图中：(a)原始，(b)重构。

图6基频转换性能。图中：

(a)女性到男性，(b)男性到女性。

图7系统转换结果主观评分(MOS)。

具体实施方式

对于零次语音转换系统来说，一个有效的目标说话人隐表示就显得尤为重要。然而，虽然假设同一说话人的不同话语的说话人隐表示是相同的，但实际上受限于说话人编码器的性能，这是不可能做到的。由说话人编码器产生的说话人隐表示可能会导致转换模型误判目标说话人的身份，因为每个说话人只有几段话语是可用的。因此，本发明包含一个新设计的生成器来调整未在训练集中出现过的说话人的身份表示，使其更加有效，提高了生成语音的相似度。

传统的方法使用梅尔频谱作为声学特征时，对基频的转换不够稳定。在合成语音中，特别是在跨性别转换中，经常会出现音调突变。说话人编码器产生的说话人身份隐表示和内容编码器产生的内容隐表示都包含基频信息。因此，包含在内容隐表示中的源说话人基频信息与包含在说话人身份隐表示中的目标说话人基频信息之间存在冲突。为了解决这一问题，本发明采用梅尔倒谱系数MCEP和基音频率F0构成的简单声学特征(SimpleAcoustic Features)，得到了更好的基频转换性能。

本发明的发明内容在于此系统首先对零次语音转换系统中必要的说话人隐表示进行了优化和修正，使得语音转换模型在未见过的说话人上的性能和表现得到有效提升。其次，此系统使用简单声学特征替代了梅尔频谱作为整个系统的输入，得到了更好的基频转换性能，避免了转换后的语音中出现音高突变的问题。

此系统包含以下几个模块：

(1)特征提取器：从音频文件中提取所需的声学特征。

(2)内容编码器：从声学特征中得到对应语句的内容隐表示。

(3)说话人身份编码器：从声学特征中得到对应说话人的隐表示。

(4)说话人身份矫正器：调整已有的说话人隐表示，提升其可用性。

(5)解码器：从重新组合的内容隐表示和说话人隐表示中发掘信息并重构声学特征。

(6)神经声码器(频谱反相器)：利用重构后的声学特征重建音频。

此系统的实现过程包含以下几个步骤：

(3)模型训练：将提取出的声学特征作为输入，训练各模块。

下面结合附图来描述本发明实施的基于深度学习与简单声学特征的零次语音转换系统，主要包含以下步骤：

步骤一，数据准备：

本发明采用VCTK数据库以及重新录制的人声音频作为模型训练和测试的数据集，数据参数：采样率为16kHz，编码为16bit signed-integer。

步骤二，特征提取：

提取梅尔频谱：

1)对音频信号预加重、分帧和加窗。

2)对每帧信号进行短时傅立叶变换，得到短时幅度谱。

3)短时幅度谱通过梅尔滤波器组得到梅尔频谱。

基频(F0)的计算：

1)使用不同的截止频率的低通滤波器，如果滤波后的信号只包含基频，那么它就是一个正弦波。

2)计算每一个滤波后的信号中的候选基频以及可信度，由于只包含基频的信号应该是一个正弦波，计算四个跨度的平均值，用倒数来表示候选基频。同时，使用四个跨度的标准差作为衡量基频可信度的指标，标准差越大，说明跨度长短差异较大，那么取此频率作为基频的可信度就较低。

3)选取可信度最高的候选基频作为最终的基频。

频谱包络的提取：

2)使用矩形窗函数对功率谱进行平滑化，公式如下所示；

3)计算功率谱的倒谱，并做倒谱提升，公式如下所示；

最终得到的P_l(ω)就是我们所需要的频谱包络特征。

步骤三，模型训练：

主要模型训练的过程如图2所示，在训练过程中，内容编码器和解码器一起训练，而说话人身份矫正器单独进行训练。内容编码器产生内容隐表示，与矫正后的该说话人的隐表示结合后馈入解码器，产生重构的音频特征，训练的目标是使该重构特征与原本的音频特征尽可能相似，这个过程称为自我重构(Self-Reconstruction)训练。主要步骤如下。

内容编码器产生内容编码的过程可以表示为：

C_n＝Ec(X_nA,S_A)

解码器进行自我重构的过程可以表示为：

说话人身份矫正器的工作过程表示为：

S′_A＝G(S_nA)

整体训练目标表示为：

步骤四，使用模型进行转换：

使用训练后的模型进行语音转换的过程如图3所示，将源音频和目标音频的特征分别输入给内容编码器和说话人身份编码器，得到源音频内容的隐表示以及目标说话人的隐表示，组合后输入给解码器，得到转换后的音频特征。

步骤五，重构音频：

实验的结果采用自我重构的频谱图(如图5所示)、基频的统计数据(如图6所示)以及听众的主观意见得分(MOS)(如图7所示)、进行评估。

自我重构的频谱图中和原始频谱越接近则证明系统的性能越好。基频的统计数据中，转换后的数据和目标说话人原数据越靠近代表结果越好。主观意见得分的标准为1-5分，1代表最差，5代表最好，得分越高表示结果的语音自然度和音色相似度越好。