CN110473557A

CN110473557A - 一种基于深度自编码器的语音信号编解码方法

Info

Publication number: CN110473557A
Application number: CN201910777131.3A
Authority: CN
Inventors: 吴建锋; 秦会斌; 秦宏帅
Original assignee: HANGZHOU PAINIAO ELECTRONIC TECHNOLOGY Co Ltd
Current assignee: Zhejiang Shuren University
Priority date: 2019-08-22
Filing date: 2019-08-22
Publication date: 2019-11-19
Anticipated expiration: 2039-08-22
Also published as: CN110473557B

Abstract

本发明公开了一种基于深度自编码器的语音信号编解码方法，包括以下步骤：步骤S101：采用深度自编码器结构并对其进行神经网络训练得到深度编码器神经网络和深度解码器神经网络；步骤S102：将深度编码器神经网络输出给编码单元并以此进行编码操作得到编码数据，以及将深度解码器神经网络输出给解码单元并以此对接收到的编码数据进行解码操作得到解码数据。采用本发明的技术方案，能够使编码层的输出近似于0‑1布尔分布，从而能够减少量化误差，提高重建语音信号的质量。

Description

一种基于深度自编码器的语音信号编解码方法

技术领域

本发明涉及语音信号处理技术领域，尤其涉及一种基于深度自编码器的语音信号编解码方法。

背景技术

在语音信号传输技术中，编码端的语音编码技术以及解码端的语音信号重建是关键技术。现有技术中，语音编码通常采用基于码本的矢量量化技术，也即，在编码端和解码端都存储预先训练好的码本，语音编码和解码就是根据码本查找索引或者根据索引获取码子的过程。然而当适量的维度较高或者码本较大时，传统的矢量量化技术将无法进行。比如，对100维的数据进行20bit的量化，需要1048576个100维的码本，这种码本的训练几乎无法进行。通常采用分裂矢量量化或者多级矢量量化减少运算量，但这破坏了数据各维度之间的相关性，从而增加了量化误差。

随着深度神经网络的兴起，有众多学者研究将深度自编码器(Deep Auto-Encoder，DAE)应用于语音功率谱的量化编码，并取得优于传统矢量量化技术的效果。该方法直接将编码层的输出量化为0或1，从而实现编码层的二值化，然而编码层的输出分布在训练过程中是不确定的，当编码层的输出近似为0-1分布时，能够实现较好的量化效果，但当编码层的输出不是0-1分布时，就会导致很大的量化误差。因此，需要一种方法保证编码层的输出近似为0-1分布以提升量化性能。

故，针对现有技术的缺陷，实有必要提出一种技术方案以解决现有技术存在的技术问题。

发明内容

有鉴于此，确有必要提供一种基于深度自编码器的语音信号编解码方法，能够使编码层的输出近似于0-1布尔分布，从而能够减少量化误差，提高重建语音信号的质量。

为了解决现有技术存在的技术问题，本发明的技术方案如下：

一种基于深度自编码器的语音信号编解码方法，包括以下步骤：

步骤S101：采用深度自编码器结构并对其进行神经网络训练得到深度编码器神经网络和深度解码器神经网络；

步骤S102：将深度编码器神经网络输出给编码单元并以此进行编码操作得到编码数据，以及将深度解码器神经网络输出给解码单元并以此对接收到的编码数据进行解码操作得到解码数据；

其中，深度自编码器结构通过以下步骤训练：

步骤S201：获取训练数据；

步骤S202：采用训练数据训练第一个自编码器；

步骤S203：然后通过第一个自编码器的输出训练第二个自编码器，并依此逐层训练每一个自编码器；

步骤S204：完成所有自编码器训练后，展开级联成深度自编码器结构；

步骤S205：使用误差反向传播算法对经上述步骤预训练的深度神经网络进行调优训练使其输入和输出误差最小化；

其中，步骤S205采用两次调优训练，第一次调优训练中，前向传播时，在编码层的输入端加入特定分布的高斯噪声，高斯噪声的均值为0，方差σ²预先确定并在第一次调优训练中保持不变；

第二次调优训练中，前向传播时，将编码层的输出以四舍五入的方式强制二值化为‘0’或‘1’；反向传播中，仍然以浮点实数计算梯度。

作为进一步的改进方案，各层自编码器训练通过最小化下式(1)得到：

其中，n表示训练数据样本的个数，θ＝{W,b}和θ′＝{W^T,b′}分别表示编码器和解码器的参数矩阵，θ^*和θ′^*表示优化后的参数矩阵；x⁽ⁱ⁾为自编码器的输入，z⁽ⁱ⁾＝f′_θ′(f_θ(x⁽ⁱ⁾))为自编码器输出，E(x,z)为损失函数，采用如下公式(2)；

N为向量维度，k为维度下标。

作为进一步的改进方案，训练得到深度自编码器神经网络后，便得到深度编码器神经网络和深度解码器神经网络，其中，f_θ(x)表示深度编码器神经网络的映射函数，表征输入向量x到编码层表示向量y＝f_θ(x)之间的非线性映射关系，输出y作为编码数据；f′_θ′(y)表示深度解码器神经网络的映射函数，表征编码层表示向量y到重建向量z＝f′_θ′(y)之间的非线性映射关系，输出z作为解码数据。

作为进一步的改进方案，语音信号解码包括如下步骤：

步骤S301：获取编码数据并将其输入解码单元；

步骤S302：解码单元通过深度解码器神经网络对编码数据进行处理并输出解码数据；

步骤S303：对解码数据进行反归一化；

步骤S304：对经步骤S103处理后的数据进行离散傅里叶逆变换；

步骤S305：对经步骤S104处理后的数据通过叠接相加得到重建的语音信号。

作为进一步的改进方案，语音信号编码包括如下步骤：

步骤S401：对原始语音信号进行分帧；

步骤S402：对分帧后的数据进行离散傅里叶变换；

步骤S403：对步骤S202处理的数据进行归一化；

步骤S404：将经归一化的数据输入编码单元；

步骤S405：编码单元通过深度编码器神经网络对经步骤S203归一化的数据进行处理得到编码数据。

作为进一步的改进方案，深度编码器神经网络和深度解码器神经网络采用级联多个自编码器形成深度自编码器结构。

作为进一步的改进方案，深度编码器神经网络采用8帧联合量化编码，深度解码器神经网络采用8帧联合量化解码。

作为进一步的改进方案，自编码器的个数为4。

作为进一步的改进方案，编码层的节点数量为288、144、72、36或18。

作为进一步的改进方案，高斯噪声的方差σ²为0.3。

与现有技术相比较，本发明采用两次调优训练，在第一次调优训练中，在编码层的输入端加入特定分布的高斯噪声，然后第二次调优训练中，将编码层的输出强制二值化，从而使经训练得到的深度自编码器神经网络的编码层输出近似于0-1布尔分布，经实验验证，重建后的信号在对数谱误差(LSD)、分段信噪比(SegSNR)和感知语音质量评分(PESQ)等语音评价参量都有大幅度的优化。

附图说明

图1为本发明中基于深度自编码器的语音信号编解码方法的流程框图。

图2为本发明中深度自编码器的训练流程图。

图3为本发明中自编码器的原理框图。

图4为本发明中语音信号解码的流程框图。

图5为本发明中语音信号编码的流程框图。

图6为本发明中基于深度自编码器的语音信号编解码系统的原理框图。

图7为本发明中语音幅度谱量化重建的原理框图。

如下具体实施例将结合上述附图进一步说明本发明。

具体实施方式

以下将结合附图对本发明提供的技术方案作进一步说明。

参见图1，所示为本发明提供的基于深度自编码器的语音信号编解码方法的流程框图，包括以下步骤：

参见图2，所示为本发明中深度自编码器结构的训练流程图，其通过以下步骤训练：

步骤S201：获取训练数据；

步骤S202：采用训练数据训练第一个自编码器；

采用上述技术方案，本发明在调优训练中融入了两种二值化优化方法，第一种方法为在编码层的输入端加入特定分布的高斯噪声，从而使经训练得到的深度自编码器神经网络的编码层输出近似于0-1布尔分布。这是因为解码器网络对编码层的输出非常敏感，编码层的输出非常微小的变化就会导致解码器输出不同，而自编码器优化的目标是输出尽可能重构输入向量，故，解码器的输出是相对确定。当在编码层的输入端加入特定分布的高斯噪声，神经网络训练过程为了适应这种随机性，编码层输出会趋于0-1布尔分布，因为只有布尔分布下编码层输出受随机性影响最小，以确保解码器输出稳定。

第二种方法为前向传播时将编码层的输出强制二值化，但在反向传播时编码层仍以浮点实数计算梯度，在利用误差反向传播算法进行调优训练时，总是试图误差最小化，当在编码层的输出强制二值化这种机制下训练，编码层输出的浮点实数也将趋于0-1布尔分布，因为只有0-1布尔分布下才可以误差最小化。

申请人通过实验发现，第一次调优训练采用在编码层的输入端加入特定分布的高斯噪声，第二次调优训练在其基础上采用将编码层的输出强制二值化，这样训练后得到深度自编码器神经网络的性能最佳。

上述技术方案中，各层自编码器训练通过最小化下式(1)得到：

N为向量维度，k为维度下标。

参见图3，所示为自编码器的结构框图，包括深度编码器神经网络和深度解码器神经网络两个非线性函数的组合。本发明中，深度编码器神经网络和深度解码器神经网络采用级联多个自编码器形成深度自编码器结构，本发明中，通过训练深度自编码器神经网络得到两个深度神经网络分别作为深度编码器神经网络和深度解码器神经网络。

其中，f_θ(x)表示深度编码器神经网络的映射函数，表征输入向量x到编码层表示向量y＝f_θ(x)之间的非线性映射关系，输出y作为编码数据；f′_θ′(y)表示深度解码器神经网络的映射函数，表征编码层表示向量y到重建向量z＝f′_θ′(y)之间的非线性映射关系，输出z作为解码数据。

参见图4，所示为本发明中语音信号解码的流程框图，包括以下步骤：

步骤S301：获取编码数据并将其输入解码单元；

步骤S303：对解码数据进行反归一化；

步骤S304：对经步骤S303处理后的数据进行离散傅里叶逆变换；

步骤S305：对经步骤S304处理后的数据通过叠接相加得到重建的语音信号；

参见图5，所示为本发明中语音信号编码的流程框图，编码数据通过以下步骤得到：

步骤S401：对原始语音信号进行分帧；

步骤S402：对分帧后的数据进行离散傅里叶变换；

步骤S403：对步骤S402处理的数据进行归一化；

步骤S404：将经归一化的数据输入编码单元；

采用本发明上述方法，可以实现一种基于深度自编码器的语音信号编解码系统，参见图6，所示为基于深度自编码器的语音信号重建系统的原理框图，包括编码装置、解码装置和神经网络训练模块，其中，编码装置用于对输入语音信号进行编码并输出编码数据；解码装置用于获取编码数据并对其进行解码重建输出重建的语音信号。

编码装置进一步包括，分帧单元、DFT单元、归一化单元和编码单元，其中，分帧单元用于对语音信号在时域进行分帧；DFT单元用于对分帧后的数据进行离散傅里叶变换得到频域数据，比如转换为语音幅度谱或者对数功率谱；归一化单元用于对频域数据进行归一化以便于深度神经网络处理；编码单元用于获取预先训练好的深度编码器神经网络并通过深度编码器神经网络对经归一化的数据进行处理得到编码数据。

解码装置进一步包括解码单元、反归一化单元、IDFT单元和叠接相加单元，其中，解码单元用于获取预先训练好的深度解码器神经网络和编码数据并通过深度解码器神经网络对编码数据进行处理并输出解码数据；反归一化单元用于对解码数据反归一化；IDFT单元用于对反归一化后的数据进行离散傅里叶逆变换以恢复时域信号；叠接相加单元用于对时域信号进行叠接相加得到重建的语音信号。叠接相加单元、IDFT单元、反归一化单元分别是分帧单元、DFT单元、归一化单元的逆过程，这些都是现有技术语音信号处理常用的技术手段。

本发明采用深度自编码器结构，通过神经网络训练模块训练后分别获取深度编码器神经网络和深度解码器神经网络。神经网络训练模块用于通过训练数据对深度自编码器进行神经网络训练，得到深度编码器神经网络和深度解码器神经网络，分别输出给编码单元和解码单元中。具体训练过程参见上述步骤201至步骤205。

上述技术方案中，本发明采用了一种新的训练方法训练深度自编码器，从而使得到深度自编码器神经网络的编码层输出近似于0-1布尔分布，从而能够减少量化误差，提高重建语音信号的质量。深度自编码器神经网络的训练方法参见上述步骤201至步骤205。

以下通过实验验证本发明的技术效果。参见图7，所示为本发明语音幅度谱量化重建的原理框图，原始语音信号在时域进行分帧并通过离散傅里叶变化变换到频域，然后再对对数功率谱进行归一化后输入到预先训练好的深度编码器神经网络；然后通过预先训练好的深度解码器神经网络解码得到重建的对数功率谱，并通过反归一化和傅里叶反变换得到时域信号，再通过重叠相加合成出重建的语音信号。

具体采用TIMIT数据库对深度神经网络进行训练和测试。其中，采用训练集中大约30小时的语音数据作为训练数据；测试集中大约30分钟的语音分别作为验证数据和测试数据。所有语音数据采样频率是8kHz，采用汉明窗进行分帧，帧长为240点，帧移为120点(50％重叠)，通过短时傅里叶分析计算每一帧的DFT。因此，每一帧提取121维对数功率谱(因为频谱的对称性)用于深度自编码器的训练。通过本发明上述步骤对深度自编码器进行训练。

在一种优选实施方式中，将数据集中每100个样本分为一个小批量(mini-batches)，在预训练中，每个栈式自编码器的训练轮次为20，第一个自编码器的学习率为0.002，其他自编码器的学习率为0.05；在调优训练，初始学习率为0.002，当两轮之间的误差下降低于0.05％时，学习率以0.9的系数递减。动量参量初始化为0.5，并在15轮以后增加到0.9；当连续轮次之间的验证误差下降到0.01％以下，则调优训练结束。

深度自编码器可以采用多帧联合量化的方式进行训练，在一种优选实施方式中，采用8帧语音谱构建输入向量，由此，输入向量的维度为968(121*8)。

在一种优选实施方式中，深度自编码器的结构为968-2000-1000-500-288-500-1000-2000-968,采用4级对称结构，其中，编码层的节点数量为288。

为了验证深度自编码器的输出性能，本发明采用对数谱距离(log-spectraldistortion，LSD,单位为dB)评价编码误差，采用分段信噪比(segmental signal to noiseratio,SegSNR,单位为dB)和感知语音质量评分(perceptual evaluation of speechquality,PESQ)评价重建后的语音质量。

首先，本申请尝试了各种二值化优化方法，具体参见下表1所示。

表1各种二值化方法性能指标对比

上表1中，二值化方法这栏中，“None”表示采用传统方式训练深度神经网络(不采用任何二值化方法)，“Binary”表示编码层输出强制二值化，“Add-Noise”表示在编码层输入增加特定分布的高斯噪声，其中，高斯噪声的均值为0，方差为0.3，该值是通过交叉校验实验得到。

在编码层这栏中，“Binary”表示在测试中将编码层的输出通过阈值‘0.5’量化为‘0’或‘1’，“Real”表示编码层直接以浮点实数输出。由表1的实验结果显示，相对于现有技术(“None”)，采用本发明任何一种二值化方法，杜能极大改进了二值化编码的性能。其中，LSD从29.03dB下降到8.98dB，SegSNR从-9.03dB上升到-4.90dB，PESQ从1.16上升到2.90。表1中还给出了编码层输出为浮点实数的测试数据，表1显示在编码层输出为浮点实数时，采用二值化方法后的性能相对现有技术反而下降，这是因为本发明的目的是降低“二值化”编码误差，在实际语音编码数据的传输都是采用二值化编码，因此，而浮点实数的编码误差并不是我们所关心的。

为了进一步提升二值化编码的性能，本发明尝试将各种二值化相结合，表2给出了采用不同二值化方法进行两次调优训练的实验结果，其中，“None&Add-Noise”表示第一次不采用二值化方法进行调优训练，然后第二次采用“在编码层输入增加特定分布的高斯噪声”方法进行调优训练,“Add-Noise&Binary”表示以此类推。“在编码层输入增加特定分布的高斯噪声”方法中，方差σ设置为0.3。从表2可以看出，第一次调优训练采用“在编码层输入增加特定分布的高斯噪声”方法，然后第二次调优训练采用“编码层输出强制二值化”方法,能够获得最佳的二值化编码性能。其中，LSD为5.91dB,SegSNR为6.44dB，PESQ为3.17，均为最优值。在多种二值化方法结合调优训练中，第一次调优训练作为第二次调优训练的初始化，在其基础上进行第二次训练，从而取得更佳的性能。比如，在表1中，仅采用“编码层输出强制二值化”方法，其PESQ评分为2.69，然而，采用“在编码层输入增加特定分布的高斯噪声”方法作为初始化之后，如表2所示，“Add-Noise&Binary”方法的PESQ得分达到3.17，性能上获得了极大的提升。

表2不同二值化方法结合的实验数据

为了进一步验证本发明的技术效果，在语音幅度谱量化实验时，我们训练深度自编码器神经网络使其编码层的节点数量更少。深度自编码器的结构为968-2000-1000-500-xxx-500-1000-2000-968,其中，xxx为编码层的节点数量，为288、144、72、36或18。也就是说，将968维度的浮点输入向量分别矢量量化为288、144、72、36或18维二值向量。同样，我们利用本发明的技术方案降低二值化编码误差，实验数据参见表2所示，采用发明的技术方案能够显著提高编码性能。由表2可以看出，随着编码位数的下降，编码误差逐渐增加，当编码层节点从288下降到18时，LSD从5.91dB增加到8.92dB，SegSNR从6.44dB下降到2.9dB，PESQ从3.17下降到2.09。同样，从表3可以看出，采用本发明的技术方案，能够将，968维度的语音谱能用18位二进制编码量化表示并且重建语音的PESQ评分能够达到2.09。虽然重建后语音存在很多干扰，大体上还是可以听懂的。而采用传统VQ量化技术，是不可能将968维向量压缩为18位编码。

表3本发明不同数量编码层的实验结果

综上所述，采用本发明的技术方案，能够极大改进编码性能，编码误差显著下降；同时，能够将968维度的语音谱用18位编码量化，并且重建语音还能大致可听懂。

需要指出的是，本发明提及的编码器和解码器可以理解为编码器神经网络和解码器神经网络；自编码器是现有技术常用的一种深度神经网络结构。

以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于深度自编码器的语音信号编解码方法，其特征在于，包括以下步骤：

其中，深度自编码器结构通过以下步骤训练：

步骤S201：获取训练数据；

步骤S202：采用训练数据训练第一个自编码器；

2.根据权利要求1所述的基于深度自编码器的语音信号编解码方法，其特征在于，各层自编码器训练通过最小化下式(1)得到：

N为向量维度，k为维度下标。

3.根据权利要求2所述的基于深度自编码器的语音信号编解码方法，其特征在于，训练得到深度自编码器神经网络后，便得到深度编码器神经网络和深度解码器神经网络，其中，f_θ(x)表示深度编码器神经网络的映射函数，表征输入向量x到编码层表示向量y＝f_θ(x)之间的非线性映射关系，输出y作为编码数据；f′_θ′(y)表示深度解码器神经网络的映射函数，表征编码层表示向量y到重建向量z＝f′_θ′(y)之间的非线性映射关系，输出z作为解码数据。

4.根据权利要求3所述的基于深度自编码器的语音信号编解码方法，其特征在于，语音信号解码包括如下步骤：

步骤S301：获取编码数据并将其输入解码单元；

步骤S303：对解码数据进行反归一化；

5.根据权利要求3所述的基于深度自编码器的语音信号编解码方法，其特征在于，语音信号编码包括如下步骤：

步骤S401：对原始语音信号进行分帧；

步骤S402：对分帧后的数据进行离散傅里叶变换；

步骤S403：对步骤S202处理的数据进行归一化；

步骤S404：将经归一化的数据输入编码单元；

6.根据权利要求3所述的基于深度自编码器的语音信号编解码方法，其特征在于，深度编码器神经网络和深度解码器神经网络采用级联多个自编码器形成深度自编码器结构。

7.根据权利要求3所述的基于深度自编码器的语音信号编解码方法，其特征在于，深度编码器神经网络采用8帧联合量化编码，深度解码器神经网络采用8帧联合量化解码。

8.根据权利要求3所述的基于深度自编码器的语音信号编解码方法，其特征在于，自编码器的个数为4。

9.根据权利要求3所述的基于深度自编码器的语音信号编解码方法，其特征在于，编码层的节点数量为288、144、72、36或18。

10.根据权利要求1所述的基于深度自编码器的语音信号编解码方法，其特征在于，高斯噪声的方差σ²为0.3。