CN114283822A

CN114283822A - 一种基于伽马通频率倒谱系数的多对一语音转换方法

Info

Publication number: CN114283822A
Application number: CN202111596691.2A
Authority: CN
Inventors: 郭子佳; 陈宁
Original assignee: East China University of Science and Technology
Current assignee: East China University of Science and Technology
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-04-05

Abstract

本发明涉及一种基于伽马通频率倒谱系数的多对一语音转换方法，包括以下步骤，提取待转换语音样本的伽马通频率倒谱系数特征，输入至训练好的语音内容提取模型中，得到待转换语音样本的语义后验概率图，输入至训练好的CBHG模型中，得到待转换语音样本的伽马通倒谱系数；将待转换语音样本的伽马通倒谱系数输入至训练好的神经声码器中，得到转换后语音。与现有技术相比，本发明具有语音转换清晰度更高的优点。

Description

一种基于伽马通频率倒谱系数的多对一语音转换方法

技术领域

本发明涉及语音转换领域，尤其是涉及一种基于伽马通频率倒谱系数的多对一语音转换方法。

背景技术

语音转换技术可在不改变语音内容的前提下将源说话人的音色、情感、口音等转换为目标人的音色、情感和口音。其潜在的应用场景包括声音伪装、个性化声音合成、以及声纹解锁等。

语音转换技术要求转换后的语音具有良好的自然度和可懂度。同时应与目标说话人的语音在音色、情感、口音等方面具有高度的相似性。

为了保证语音转换的质量，传统的语音转换模型大多采用平行数据对模型进行训练，平行数据是指源说话人和目标说话人说相同内容时的语音信号所构成的成对数据样本。然而，采集高音质的平行数据的难度较大，很耗时，且价格昂贵，因此大大限制了其应用的发展。同时，在语音转换时还要进行时间对齐。受到相关技术性能的约束，对齐过程不可避免会引入误差，从而影响了语音转换的质量。目前，大多语音转换模型采用梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,MFCC)作为输入特征。然而梅尔滤波器组的频率选择特性不能很精确的模拟人耳基底膜的频率选择特性，从而对合成语音的质量造成影响。

另外，在利用目标说话人的基音和相关参数进行语音合成的过程中，大多采用参数声码器，例如STRAIGHT声码器。此类参数声码器的参数需要根据信号处理中一些过于简化的假设进行手动调谐。因此，参数声码器只能提供次优解。另外，生成对抗网络，例如StarGAN的出现极大提高了语音转换的水平。然而，该模型虽然能够取得较好的结果，也能实现多对多的语音转换，但却只能转换训练集中出现的说话人的语音。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于伽马通频率倒谱系数的多对一语音转换方法。

本发明的目的可以通过以下技术方案来实现：

一种基于伽马通频率倒谱系数的多对一语音转换方法，包括以下步骤：

S1、提取待转换语音样本的伽马通频率倒谱系数特征(Gamatone FrequencyCepstral Coefficients,GFCC)，将伽马通频率倒谱系数特征输入至训练好的语音内容提取模型中，得到待转换语音样本的语义后验概率图(Phonetic PosteriorGrams,PPGs)，将语义后验概率图输入至训练好的CBHG模型中，得到待转换语音样本的伽马通倒谱系数(Gammatone Cepstral Coefficients,GCEP)；

S2、将待转换语音样本集的伽马通倒谱系数输入至训练好的神经声码器中，得到转换后的语音；

所述语音内容提取模型的训练过程如下：

A1、从中文TTS语料库中获取第一训练样本集，并对第一训练样本集进行标注；

A2、提取第一训练样本集中样本的伽马通频率倒谱系数特征，输入至语音内容提取模型进行训练；

所述CBHG模型的训练过程如下：

B1、得到训练好的语音内容提取模型后，从目标说话人语料库中获取第二训练集样本，提取第二训练集样本的伽马通频率倒谱系数特征，并输入至语音内容提取模型中，得到第二训练样本集的语义后验概率图。

B2、提取第二训练样本集中样本的伽马通倒谱系数，将第二训练样本集的语义后验概率图作为CBHG模型的输入，将第二训练样本集中样本的伽马通倒谱系数作为CBHG模型的目标输出，训练CBHG模型；

所述神经声码器的训练过程如下：

将第二训练样本集中样本的伽马通倒谱系数作为神经声码器的输入，将第二训练样本集的原始语音作为神经声码器的目标输出，对神经声码器进行训练。

进一步地，所述步骤A1中对第一训练样本集的标注方法包括：使用基于机器学习的Speech-aligner工具对音素边界进行自动标注。

进一步地，所述伽马通频率倒谱系数特征的提取方法包括：

C1、对语音信号进行预加重和分帧；

C2、对分帧后的信号进行短时傅里叶变换；

C3、将经过短时傅里叶变换的信号的幅度谱输入至伽马通滤波器组，得到滤波信号；

C4、提取滤波信号的三次方根为伽马通倒谱系数；

C5、对伽马通频率倒谱系数进行离散余弦变换，得到伽马通频率倒谱系数特征。

进一步地，获取伽马通频率倒谱系数特征后对其进行归一化。

进一步地，所述归一化后的伽马通频率倒谱系数特征f_{GFCC_norm}的公式如下：

其中，f_min表示伽马通频率倒谱系数特征中的最小值组成的矩阵，f_max表示伽马通频率倒谱系数特征中最大值组成的矩阵。

进一步地，所述神经声码器包括生成器和鉴别器，所述生成器用于生成语音信号，所述鉴别器用于判别生成信号的真实性。

进一步地，所述生成器的损失函数L_adv(G，D)表达式如下：

L_adv(G，D)＝E_z～N(0，I)[(1-D(G(z)))²]

其中，z表示输入的白噪声，G表示生成器，D表示鉴别器，E表示期望。

进一步地，所述鉴别器的目标函数L_D(G，D)表达式如下：

其中，z表示输入的白噪声，G表示生成器，D表示鉴别器，E表示期望，x和P_x分别表示目标语音波形及其对应的分布。

进一步地，所述神经声码器所使用的多分辨率短时傅里叶变换损失函数L_aux(G)，表达式如下：

其中，λ表示短时傅里叶变换损失的个数，单个短时傅里叶变换损失表达式如下：

其中，‖.‖_F表示Frobenius正则化，‖.‖₁表示L1正则化，z表示输入的白噪声，Pz表示白噪声波形的分布，G表示生成器，D表示鉴别器，E表示期望，x和P_x分别表示目标语音波形及其对应的分布，STFT表示短时傅里叶变换，N表示帧数，

表示生成的语音波形样本。

进一步地，所述第一训练样本集和第二训练样本集需要进行预处理，所述预处理包括去噪和调整采样率至16kHz。

与现有技术相比，本发明具有以下优点：

1、本发明主要涉及语音内容提取模型、CBHG模型和神经声码器，均围绕伽马通频率倒谱系数特征进行训练，首先由于这种特征很好地模拟人耳基底膜的频率选择特性，从而使转换语音的清晰度和自然度更好；其次由于引入了神经声码器，因此模型对数据的适应能力有所提高，推理速度也有提升；最后由于中文TTS语料库中具有多个说话人的信息，因此通过一次训练可以实现多个人对目标人的语音转换。

2、本发明使用基于机器学习的Speech-aligner对语音进行音素边界标注，从而大大降低了对训练语料库的要求，提高了模型的适应性。

3、本发明对伽马通频率倒谱系数特征进行了归一化处理，便于处理数据，加快模型训练收敛速度。

附图说明

图1为本发明的语音转换流程示意图。

图2为本发明包括训练模型在内的完整流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本实施例提供了一种基于伽马通频率倒谱系数的多对一语音转换方法，如图1所示，具体包括以下步骤：

步骤S1、提取待转换语音样本的伽马通频率倒谱系数特征，将伽马通频率倒谱系数特征输入至训练好的语音内容提取模型中，得到待转换语音样本的语义后验概率图，将语义后验概率图输入至训练好的CBHG模型中，得到待转换语音样本的伽马通倒谱系数；

步骤S2、将待转换语音样本的伽马通倒谱系数输入至训练好的神经声码器中，得到转换后语音；

其中，语音内容提取模型的训练过程可参考图2中第一列的内容，具体如下：

步骤A1、从具有多个说话人语料的中文TTS语料库中获取第一训练样本集，并对第一训练样本集进行标注，在本实施例中，选用基于机器学习的speech-aligner作为标注工具完成音素标注，并将标注好的音频和标签切分至时长为2s片段以提高数据利用率，音素标注公式如下：

F(x_i)＝P_j(t_s，t_e)

其中，F(·)表示标注函数。P_j表示音素表中第j个元素，t_s、t_e分别表示音素的起始时间和终止时间。

步骤A2、提取第一训练样本集中样本的伽马通频率倒谱系数特征，输入至语音内容提取模型进行训练，学习率为0.0003，训练迭代次数为1000次，伽马通频率倒谱系数特征的提取步骤如下：

步骤C1、对语音信号进行预加重和分帧处理，其中分帧的帧数N根据以下公式计算：

其中，T_length表示语音信号的总长度，T_win表示帧长，本实施例优选为0.0375s，T_hop表示帧移，本实施例优选为0.016s。

分帧所使用的窗函数w[n]表达式如下：

其中，M表示汉宁窗的窗长，本实施例中优选为600采样点。

步骤C2、对分帧后的信号进行短时傅里叶变换，分帧后数字信号序列的傅里叶变换结果X(k)为：

其中，x(n)表示数字信号序列，L表示傅里叶变换精度，本实施例优选为1024。

步骤C3、将经过短时傅里叶变换的信号的幅度谱|X(k)|输入至伽马通滤波器组，得到滤波信号γ_i(k)*|X(k)|。其中，γ_i(k)表示伽马通滤波器组的频谱，对应的冲激响应g_i(t)表达式如下：

其中，A表示滤波器的增益，P表示滤波器阶数，f_i表示中心频率，

表示相位，ERB表示等效矩形带宽。等效矩形带宽的计算表达式如下：

步骤C4、取滤波信号的三次方根为伽马通频率倒谱系数f_GCEP(k)。

步骤C5、对伽马通频率倒谱系数进行离散余弦变换，得到伽马通频率倒谱系数特征f_GFCC(n)，计算表达式如下：

其中，τ表示广义频率，μ表示比例因子，K表示信号的点数。

为了便于计算，在本实施例中利用如下公式将伽马通频率倒谱系数进行归一化，计算表达式如下：

本实施例中，CBHG模型的训练过程可参考图2中第二列和第三列的内容，具体步骤如下：

步骤B1、得到训练好的语音内容提取模型后，从目标说话人语料库中获取第二训练样本集，提取第二训练样本集中样本的伽马通频率倒谱系数特征，并输入至语音内容提取模型中，得到第二训练样本集中样本的语义后验概率图。

步骤B2、提取第二训练样本集中样本的伽马通倒谱系数，将第二训练样本集中样本的语义后验概率图作为CBHG模型的输入，将第二训练样本的伽马通倒谱系数作为CBHG模型的目标输出，训练CBHG模型，其中学习率为0.0003，帧移0.016s、帧长0.0375s、傅里叶变换精度1024，迭代次数为5000次。

本实施例中，神经声码器为PARALLEL WaveGAN神经声码器。这是一个非自回归声码器，可实现更好的语音转换效果，其训练过程可参考图2中第五列的内容，具体步骤如下：

将第二训练样本集中样本的伽马通倒谱系数作为神经声码器的输入，将第二训练样本集中样本的原始语音作为神经声码器的目标输出，对神经声码器进行训练。

其中，声码器网络是由生成器(G)鉴别器(D)两个部分组成，生成器用于学习真实的波形分布，并生成信号，鉴别器用于判别生成信号是否为目标人真实样本，生成器的损失函数L_adv(G，D)表达式如下：

L_adv(G,D)＝E_z～N(0,I)[(1-D(G(z)))²]

而鉴别器的目标函数表达式L_D(G,D)如下：

其中，x和P_x分别表示目标语音波形及其对应的分布。

为了增加PARALLEL WaveGAN神经声码器的稳定性和对抗训练的效率，还在神经声码器中引入了多分辨率短时傅里叶变换损失函数L_aux(G)，表达式如下：

其中，‖.‖_F表示Frobenius正则化，‖.‖₁表示L1正则化，STFT表示短时傅里叶变换，

表示生成的语言波形样本。

在本实施例中，所使用到的第一训练集样本和第二训练集样本均需要进行预处理，包括去噪和调整采样率至16KHz等。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于伽马通频率倒谱系数的多对一语音转换方法，其特征在于，包括以下步骤：

S1、提取待转换语音样本的伽马通频率倒谱系数特征，将伽马通频率倒谱系数特征输入至训练好的语音内容提取模型中，得到待转换语音样本的语义后验概率图，将语义后验概率图输入至训练好的CBHG模型中，得到待转换后语音样本的伽马通倒谱系数；

S2、将待转换语音样本的伽马通倒谱系数输入至训练好的神经声码器中，得到转换后语音；

所述语音内容提取模型的训练过程如下：

所述CBHG模型的训练过程如下：

B1、得到训练好的语音内容提取模型后，从目标说话人语料库中获取第二训练样本集，提取第二训练样本集中样本的伽马通频率倒谱系数特征，并输入至语音内容提取模型中，得到第二训练样本集中样本的语义后验概率图；

所述神经声码器的训练过程如下：

将第二训练样本集中样本的伽马通倒谱系数作为神经声码器的输入，将第二训练样本集样本的原始语音作为神经声码器的目标输出，对神经声码器进行训练。

2.根据权利要求1所述的一种基于伽马通频率倒谱系数的多对一语音转换方法，其特征在于，所述步骤A1中对第一训练样本集的标注方法包括：使用基于机器学习的Speech-aligner工具对音素边界进行自动标注。

3.根据权利要求1所述的一种基于伽马通频率倒谱系数的多对一语音转换方法，其特征在于，所述伽马通频率倒谱系数特征的提取方法包括：

C1、对语音信号进行预加重和分帧；

C2、对分帧后的信号进行短时傅里叶变换；

C4、提取滤波信号的三次方根为伽马通倒谱系数；

C5、对伽马通倒谱系数进行离散余弦变换，得到伽马通频率倒谱系数特征。

4.根据权利要求1所述的一种基于伽马通频率倒谱系数的多对一语音转换方法，其特征在于，获取伽马通频率倒谱系数特征，并对其进行归一化。

5.根据权利要求4所述的一种基于伽马通频率倒谱系数的多对一语音转换方法，其特征在于，所述归一化后的伽马通频率倒谱系数特征f_{GFCC_norm}的公式如下：

6.根据权利要求1所述的一种基于伽马通频率倒谱系数的多对一语音转换方法，其特征在于，所述神经声码器包括生成器和鉴别器，所述生成器用于生成语音信号，所述鉴别器用于判别生成语音信号的真实性。

7.根据权利要求1所述的一种基于伽马通频率倒谱系数的多对一语音转换方法，其特征在于，所述第一训练样本集和第二训练样本集需要进行预处理，所述预处理包括去噪和调整采样率至16kHz。