CN112634914B

CN112634914B - 基于短时谱一致性的神经网络声码器训练方法

Info

Publication number: CN112634914B
Application number: CN202011482467.6A
Authority: CN
Inventors: 艾杨; 凌震华
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2024-03-29
Anticipated expiration: 2040-12-15
Also published as: CN112634914A

Abstract

本发明公开了一种基于短时谱一致性的神经网络声码器训练方法，包括：使用自然声学特征和自然对数幅度谱训练幅度谱预测器，使用自然对数幅度谱、自然基频和自然波形训练相位谱预测器；将训练后的幅度谱预测器和相位谱预测器进行连接，通过自然声学特征、自然对数幅度谱、自然基频和自然波形训练连接后的幅度谱预测器和相位谱预测器；本发明提供的神经网络声码器训练方法，首先分别训练幅度谱预测器和相位谱预测器，最后加入短时谱一致性损失函数联合训练幅度谱预测器和相位谱预测器，能够极大地改善预测的幅度谱和相位谱组成的短时谱的不一致问题，进而提高合成语音的质量。

Description

基于短时谱一致性的神经网络声码器训练方法

技术领域

本发明涉及语音信号处理技术领域，尤其涉及一种基于短时谱一致性的神经网络声码器训练方法及语音合成方法。

背景技术

语音合成(speech synthesis)旨在使机器像人类一样流畅自然地说话，它使许多语音交互应用受益，例如智能个人助理和机器人。当前，统计参数语音合成(statisticalparametric speech synthesis，SPSS)是其中一种主流的方法。

统计参数语音合成利用声学模型来建模文本特征和声学特征之间的关系，并利用声码器(vocoder)在给定预测声学特征的情况下得到语音波形。声码器的性能会显著影响合成语音的质量。传统的声码器如STRAIGHT和WORLD被广泛应用到目前的SPSS系统中。然而，这些传统的声码器存在一些缺陷，例如谱细节和相位信息的丢失，会导致合成语音听感的下降。随着神经网络的发展，一些神经网络声码器逐渐被提出，如自回归的神经网络声码器、基于知识蒸馏的神经网络声码器、基于逆自回归流的神经网络声码器、基于神经网络声门模型和线性自回归的神经网络声码器以及无自回归无流的神经网络声码器等。这些神经网络声码器相比传统声码器大幅提升了SPSS系统合成语音的质量。然而，这些神经网络声码器都对最终的波形或者中间的波形在点级别上进行建模，容易造成模型规模过大或者生成效率过低的问题。于是，幅度相位谱分级预测神经网络声码器HiNet被提出，分别预测语音的幅度谱和相位谱，再合成波形。其一方面更加分别关注于对波形的这两个重要部分的建模，能够提升合成质量；另一方面对谱的建模可以减少点级的运算操作，增加帧级的运算操作，从而提升合成效率。

然而，HiNet声码器存在的一个问题是：由于幅度谱和相位谱的分别预测，二者结合得到的短时谱可能不满足短时谱一致性的条件，造成合成语音波形质量的损失。

发明内容

本发明在神经网络声码器的原训练方式基础上，设计了短时谱一致性损失函数来联合训练神经网络声码器中的幅度谱预测器和相位谱预测器，以减轻预测的幅度谱和相位谱结合的短时谱存在的不一致的问题，提升合成语音质量。

在本发明实施方式的第一方面中，提供了一种基于短时谱一致性的神经网络声码器训练方法，其中，上述神经网络声码器包括幅度谱预测器和相位谱预测器，包括：

使用自然声学特征和自然对数幅度谱训练上述幅度谱预测器，使用自然对数幅度谱、自然基频和自然波形训练上述相位谱预测器；

将训练后的上述幅度谱预测器和上述相位谱预测器进行连接，通过上述自然声学特征、上述自然对数幅度谱、上述自然基频和上述自然波形训练连接后的上述幅度谱预测器和上述相位谱预测器；

其中，通过对自然波形进行特征提取得到上述自然声学特征和上述自然基频，对上述自然波形进行短时傅里叶变换得到上述自然对数幅度谱，上述自然波形为用于模型训练的真实录音的语音波形。

在本发明的一个实施例中，上述使用自然声学特征和自然对数幅度谱训练上述幅度谱预测器包括：

上述幅度谱预测器根据输入的上述自然声学特征得到第一预测对数幅度谱；

通过上述自然对数幅度谱和上述第一预测对数幅度谱计算得到幅度谱预测器损失函数，其中，上述幅度谱预测器损失函数为上述第一预测对数幅度谱与上述自然对数幅度谱的均方误差；

以上述自然对数幅度谱作参考，通过上述幅度谱预测器损失函数对上述幅度谱预测器进行训练。

在本发明的另一个实施例中，上述使用自然对数幅度谱、自然对数幅度谱、自然基频和自然波形训练上述相位谱预测器包括：

将上述自然基频输入到上述相位谱预测器的源模块中，输出正弦激励信号；

将上述正弦激励信号和上述自然对数幅度谱输入到上述相位谱预测器的滤波模块，输出第一样本波形；

以上述自然波形作参考，根据上述第一样本波形并通过相位谱预测器损失函数对上述相位谱预测器进行训练；

其中：上述相位谱预测器损失函数为幅度谱损失、波形损失和负相关系数损失之和；上述幅度谱损失为上述自然波形和上述样本波形中提取的幅度谱之间的均方误差；上述波形损失为上述自然波形和上述样本波形在其对应的时域的均方误差；上述负相关系数损失为上述自然波形和上述样本波形的负相关系数。

在本发明的又一个实施例中，上述通过上述自然声学特征、上述自然对数幅度谱、上述自然基频和上述自然波形训练连接后的上述幅度谱预测器和上述相位谱预测器包括：

上述幅度谱预测器根据输入的上述自然声学特征输出第二预测对数幅度谱；

上述相位谱预测器根据输入的上述第二预测对数幅度谱和上述自然基频提取预测相位谱；

将上述第二预测对数幅度谱和上述预测相位谱组合得到预测短时谱；

通过对上述预测短时谱计算得到预测短时谱一致性损失函数；

通过联合损失函数对上述幅度谱预测器和上述相位谱预测器进行训练；

其中：上述联合损失函数为上述预测短时谱一致性损失函数、上述幅度谱预测器损失函数和上述相位谱预测器损失函数之和。

在本发明的再一个实施例中，上述幅度谱预测器根据输入的上述自然声学特征输出第二预测对数幅度谱包括：

其中：ASP表示幅度谱预测器，表示第n帧的预测对数幅度谱，k表示频率点索引，a表示自然声学特征。

在本发明的再一个实施例中，上述相位谱预测器根据输入的上述第二预测对数幅度谱和上述自然基频提取预测相位谱包括：

将上述正弦激励信号和上述第二对数幅度谱输入到上述相位谱预测器的滤波模块，输出第二样本波形；

通过短时傅里叶变换从上述第二样本波形中提取预测相位谱。

在本发明的再一个实施例中，上述通过短时傅里叶变换从上述第二样本波形中提取预测相位谱包括：

其中：表示第二预测对数幅度谱，f表示自然基频，PSP表示相位谱预测器，ANG表示从短时谱中取角度的操作。

在本发明的再一个实施例中，上述将上述第二预测对数幅度谱和上述预测相位谱组合得到预测短时谱包括：

其中：j为虚数单位。

在本发明的再一个实施例中，上述通过上述预测短时谱得到预测短时谱一致性损失函数包括：

在本发明实施方式的第二方面中，提供了一种利用上述训练方法得到的神经网络声码器进行语音合成的方法，包括：

将测试的声学特征输入到上述幅度谱预测器中，输出测试对数幅度谱；

将上述测试对数幅度谱和测试的基频输入到上述相位谱预测器中，输出测试相位谱；

将上述测试对数幅度谱和上述测试相位谱组合成测试短时谱；

将上述测试短时谱通过逆短时傅里叶变换得到测试的语音波形。

本发明实施例提供的短时谱一致性的神经网络声码器训练方法，首先分别训练幅度谱预测器和相位谱预测器，最后加入短时谱一致性损失函数联合训练幅度谱预测器和相位谱预测器，能够极大地改善预测的幅度谱和相位谱组成的短时谱的不一致问题，进而提高合成语音的质量。

附图说明

图1是本发明实施例提供的基于短时谱一致性的神经网络声码器训练方法流程图；

图2是本发明实施例提供的分别训练幅度谱预测器和相位谱预测器的流程图；

图3是本发明实施例提供的联合训练幅度谱预测器和相位谱预测器的流程图；

图4是本发明实施例提供的语音合成方法流程图；

图中：1、幅度谱预测器；2、相位谱预测器。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

本发明提供的基于短时谱一致性的神经网络声码器训练方法应用于幅度相位谱分级预测的神经网络声码器HiNet中，用于减轻预测的幅度谱和相位谱结合的短时谱存在的不一致的问题。HiNet声码器由幅度谱预测器和相位谱预测器组成。

由于HiNet声码器的幅度谱和相位谱是分开单独预测的，二者组成的短时谱很难满足一致性条件，即组成的短时谱落在短时谱域之外，而其对应的满足一致性条件的短时谱是其经过逆短时傅里叶变换(inverse short-time Fourier transform，ISTFT)和短时傅里叶变换(short-time Fourier transform，STFT)后的落在短时谱域内的结果。直观地，缩小组成的短时谱与其对应的满足一致性条件的短时谱之间的差距有助于缓解短时谱不一致的问题，于是本发明提出了短时谱一致性损失函数，定义为二者差的2范数。

下面结合图1对本发明示例性实施方式的基于短时谱一致性的神经网络声码器训练方法进行描述。

图1是本发明实施例提供的基于短时谱一致性的神经网络声码器训练方法流程图。

如图1所示，本发明实施例提供的基于短时谱一致性的神经网络声码器训练方法，包括操作S101～S102，其中，短时谱为时域波形通过加窗截取分为若干部分，再将若干部分进行傅里叶变换拼接后得到。

在操作S101，使用自然声学特征和自然对数幅度谱训练幅度谱预测器，使用自然对数幅度谱、自然基频和自然波形训练相位谱预测器。

在操作S102，将训练后的幅度谱预测器和相位谱预测器进行连接，通过自然声学特征、自然对数幅度谱、自然基频和自然波形训练连接后的幅度谱预测器和相位谱预测器。

需要说明的是，自然波形为用于模型训练的真实录音的语音波形，自然声学特征和自然基频为通过对自然波形进行特征提取得到，自然对数幅度谱是对自然波形进行短时傅里叶变换得到。

在本实施例中，图2是本发明实施例提供的分别训练幅度谱预测器和相位谱预测器的流程图；如图2所示，使用自然声学特征和自然对数幅度谱训练幅度谱预测器，包括操作S211～S213。

在操作S211，幅度谱预测器根据输入的自然声学特征得到第一预测对数幅度谱，本实施例中的自然声学特征a＝[a₁，...，a_N]^T，其中，a_n＝[a_n，1，...，a_n，C]^T是第n帧的声学特征，c是声学特征维度索引。

在操作S212，通过自然对数幅度谱和第一预测对数幅度谱计算得到幅度谱预测器损失函数，其中，幅度谱预测器损失函数为第一预测对数幅度谱与自然对数幅度谱的均方误差。

在操作S213，以自然对数幅度谱作参考，通过幅度谱预测器损失函数对幅度谱预测器进行训练。

在本实施例中，如图2所示，使用自然对数幅度谱、自然基频和自然波形训练相位谱预测器，包括操作S221～S223：

在操作S221，将自然基频输入到相位谱预测器的源模块中，输出正弦激励信号。

在操作S222，将正弦激励信号和自然对数幅度谱输入到相位谱预测器的滤波模块，输出第一样本波形。

在操作S223，以自然波形作参考，根据第一样本波形并通过相位谱预测器损失函数对相位谱预测器进行训练；需要说明的是，相位谱预测器损失函数为幅度谱损失、波形损失和负相关系数损失之和；幅度谱损失为自然波形和样本波形中提取的幅度谱之间的均方误差；波形损失为自然波形和样本波形在其对应的时域的均方误差；负相关系数损失为自然波形和样本波形的负相关系数。

在本实施例中，图3是本发明实施例提供的联合训练幅度谱预测器和相位谱预测器的流程图；如图3所示，通过自然声学特征、自然对数幅度谱、自然基频和自然波形训练连接后的幅度谱预测器和相位谱预测器，包括操作S311～S315。

在操作S311，幅度谱预测器根据输入的自然声学特征输出第二预测对数幅度谱。

在操作S312，相位谱预测器根据输入的第二预测对数幅度谱和自然基频提取预测相位谱。

在操作S313，将第二预测对数幅度谱和预测相位谱组合得到预测短时谱。

在操作S314，通过对预测短时谱计算得到预测短时谱一致性损失函数。

在操作S315，通过联合损失函数对幅度谱预测器和相位谱预测器进行训练；需要说明的是，联合损失函数为预测短时谱一致性损失函数、幅度谱预测器损失函数和相位谱预测器损失函数之和。

在本实施例中，幅度谱预测器根据输入的自然声学特征输出第二预测对数幅度谱包括：

在本实施例中，如图3所示，相位谱预测器根据输入的第二预测对数幅度谱和自然基频提取预测相位谱，包括S321～S323。

在操作S321，将自然基频输入到相位谱预测器的源模块中，输出正弦激励信号。

在操作S322，将正弦激励信号和第二对数幅度谱输入到相位谱预测器的滤波模块，输出第二样本波形。

在操作S323，通过短时傅里叶变换从第二样本波形中提取预测相位谱。

在本发明实施例中，通过短时傅里叶变换从第二样本波形中提取预测相位谱包括：

在本发明实施例中，将第二预测对数幅度谱和预测相位谱组合得到预测短时谱包括：

其中：j为虚数单位。

在本发明实施例中，通过预测短时谱得到预测短时谱一致性损失函数包括：

根据本发明实施例，首先分别训练幅度谱预测器和相位谱预测器，最后加入短时谱一致性损失函数联合训练幅度谱预测器和相位谱预测器，能够极大地改善预测的幅度谱和相位谱组成的短时谱的不一致问题。

在介绍了基于短时谱一致性的神经网络声码器训练方法之后，下面结合图4对利用基于短时谱一致性的神经网络声码器训练方法得到的神经网络声码器进行语音合成的方法作进一步介绍。

图4是本发明实施例提供的语音合成方法流程图。如图4所示，本发明实施方式提供利用训练方法得到的神经网络声码器进行语音合成的方法，包括操作S401～S404。

在操作S401，将测试的声学特征输入到幅度谱预测器中，输出测试对数幅度谱。

在操作S402，将测试对数幅度谱和测试的基频输入到相位谱预测器中，输出测试相位谱。

在操作S403，将测试对数幅度谱和测试相位谱组合成测试短时谱。

在操作S404，将测试短时谱通过逆短时傅里叶变换得到测试的语音波形。

根据本发明实施例，通过基于短时谱一致性的神经网络声码器训练方法得到的神经网络声码器能够极大地改善预测的幅度谱和相位谱组成的短时谱的不一致问题，进而大幅提高语音的合成质量。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于短时谱一致性的神经网络声码器训练方法，其中，所述神经网络声码器包括幅度谱预测器和相位谱预测器，其特征在于，包括：

使用自然声学特征和自然对数幅度谱训练所述幅度谱预测器，使用自然对数幅度谱、自然基频和自然波形训练所述相位谱预测器；

将训练后的所述幅度谱预测器和所述相位谱预测器进行连接，通过所述自然声学特征、所述自然对数幅度谱、所述自然基频和所述自然波形训练连接后的所述幅度谱预测器和所述相位谱预测器，包括：所述幅度谱预测器根据输入的所述自然声学特征输出第二预测对数幅度谱；所述相位谱预测器根据输入的所述第二预测对数幅度谱和所述自然基频提取预测相位谱；将所述第二预测对数幅度谱和所述预测相位谱组合得到预测短时谱；通过对所述预测短时谱计算得到预测短时谱一致性损失函数；通过联合损失函数对所述幅度谱预测器和所述相位谱预测器进行训练；其中：所述联合损失函数为所述预测短时谱一致性损失函数、幅度谱预测器损失函数和相位谱预测器损失函数之和；

其中，通过对自然波形进行特征提取得到所述自然声学特征和所述自然基频，对所述自然波形进行短时傅里叶变换得到所述自然对数幅度谱，所述自然波形为用于模型训练的真实录音的语音波形。

2.根据权利要求1所述的方法，其特征在于，所述使用自然声学特征和自然对数幅度谱训练所述幅度谱预测器包括：

所述幅度谱预测器根据输入的所述自然声学特征得到第一预测对数幅度谱；

通过所述自然对数幅度谱和所述第一预测对数幅度谱计算得到所述幅度谱预测器损失函数，其中，所述幅度谱预测器损失函数为所述第一预测对数幅度谱与所述自然对数幅度谱的均方误差；

以所述自然对数幅度谱作参考，通过所述幅度谱预测器损失函数对所述幅度谱预测器进行训练。

3.根据权利要求1所述的方法，其特征在于，所述使用自然对数幅度谱、自然基频和自然波形训练所述相位谱预测器包括：

将所述自然基频输入到所述相位谱预测器的源模块中，输出正弦激励信号；

将所述正弦激励信号和所述自然对数幅度谱输入到所述相位谱预测器的滤波模块，输出第一样本波形；

以所述自然波形作参考，根据所述第一样本波形并通过所述相位谱预测器损失函数对所述相位谱预测器进行训练；

其中：所述相位谱预测器损失函数为幅度谱损失、波形损失和负相关系数损失之和；所述幅度谱损失为所述自然波形和所述样本波形中提取的幅度谱之间的均方误差；所述波形损失为所述自然波形和所述样本波形在其对应的时域的均方误差；所述负相关系数损失为所述自然波形和所述样本波形的负相关系数。

4.根据权利要求1所述的方法，其特征在于，所述幅度谱预测器根据输入的所述自然声学特征输出第二预测对数幅度谱包括：

5.根据权利要求1所述的方法，其特征在于，所述相位谱预测器根据输入的所述第二预测对数幅度谱和所述自然基频提取预测相位谱包括：

将所述正弦激励信号和所述第二预测对数幅度谱输入到所述相位谱预测器的滤波模块，输出第二样本波形；

通过短时傅里叶变换从所述第二样本波形中提取预测相位谱。

6.根据权利要求5所述的方法，其特征在于，所述通过短时傅里叶变换从所述第二样本波形中提取预测相位谱包括：

7.根据权利要求1所述的方法，其特征在于，所述将所述第二预测对数幅度谱和所述预测相位谱组合得到预测短时谱包括：

其中：j为虚数单位。

8.根据权利要求1所述的方法，其特征在于，所述通过所述预测短时谱得到预测短时谱一致性损失函数包括：

9.一种利用根据权利要求1～8任一项所述的基于短时谱一致性的神经网络声码器训练方法得到的神经网络声码器进行语音合成的方法，其特征在于，包括：

将测试的声学特征输入到所述幅度谱预测器中，输出测试对数幅度谱；

将所述测试对数幅度谱和测试的基频输入到所述相位谱预测器中，输出测试相位谱；

将所述测试对数幅度谱和所述测试相位谱组合成测试短时谱；

将所述测试短时谱通过逆短时傅里叶变换得到测试的语音波形。