CN110491400B

CN110491400B - 一种基于深度自编码器的语音信号重建方法

Info

Publication number: CN110491400B
Application number: CN201910775558.XA
Authority: CN
Inventors: 吴建锋; 秦会斌; 秦宏帅
Original assignee: Zhejiang Shuren University
Current assignee: Zhejiang Shuren University
Priority date: 2019-08-21
Filing date: 2019-08-21
Publication date: 2021-05-28
Anticipated expiration: 2039-08-21
Also published as: CN110491400A

Abstract

本发明公开了一种基于深度自编码器的语音信号重建方法，包括以下步骤：步骤S101：获取编码数据并将其输入解码单元；步骤S102：解码单元通过深度解码器神经网络对编码数据进行处理并输出解码数据；步骤S103：对解码数据进行反归一化；步骤S104：对经步骤S103处理后的数据进行离散傅里叶逆变换；步骤S105：对经步骤S104处理后的数据通过叠接相加得到重建的语音信号；其中，编码数据通过以下步骤得到：步骤S201：对原始语音信号进行分帧；步骤S202：对分帧后的数据进行离散傅里叶变换；步骤S203：对步骤S202处理的数据进行归一化；步骤S204：将经归一化的数据输入编码单元；步骤S205：编码单元通过深度编码器神经网络对经步骤S203归一化的数据进行处理得到编码数据。

Description

一种基于深度自编码器的语音信号重建方法

技术领域

本发明涉及语音信号处理技术领域，尤其涉及一种基于深度自编码器的语音信号重建方法。

背景技术

在语音信号传输技术中，编码端的语音编码技术以及解码端的语音信号重建是关键技术。现有技术中，语音编码通常采用基于码本的矢量量化技术，也即，在编码端和解码端都存储预先训练好的码本，语音编码和解码就是根据码本查找索引或者根据索引获取码子的过程。然而当适量的维度较高或者码本较大时，传统的矢量量化技术将无法进行。比如，对100维的数据进行20bit的量化，需要1048576个100维的码本，这种码本的训练几乎无法进行。通常采用分裂矢量量化或者多级矢量量化减少运算量，但这破坏了数据各维度之间的相关性，从而增加了量化误差。

随着深度神经网络的兴起，有众多学者研究将深度自编码器(Deep Auto-Encoder，DAE)应用于语音功率谱的量化编码，并取得优于传统矢量量化技术的效果。该方法直接将编码层的输出量化为0或1，从而实现编码层的二值化，然而编码层的输出分布在训练过程中是不确定的，当编码层的输出近似为0-1分布时，能够实现较好的量化效果，但当编码层的输出不是0-1分布时，就会导致很大的量化误差。因此，需要一种方法保证编码层的输出近似为0-1分布以提升量化性能。

故，针对现有技术的缺陷，实有必要提出一种技术方案以解决现有技术存在的技术问题。

发明内容

有鉴于此，确有必要提供一种基于深度自编码器的语音信号重建方法，能够使编码层的输出近似于0-1布尔分布，从而能够减少量化误差，提高重建语音信号的质量。

为了解决现有技术存在的技术问题，本发明的技术方案如下：

一种基于深度自编码器的语音信号重建方法，包括以下步骤：

步骤S101：获取编码数据并将其输入解码单元；

步骤S102：解码单元通过深度解码器神经网络对编码数据进行处理并输出解码数据；

步骤S103：对解码数据进行反归一化；

步骤S104：对经步骤S103处理后的数据进行离散傅里叶逆变换；

步骤S105：对经步骤S104处理后的数据通过叠接相加得到重建的语音信号；

其中，所述编码数据通过以下步骤得到：

步骤S201：对原始语音信号进行分帧；

步骤S202：对分帧后的数据进行离散傅里叶变换；

步骤S203：对步骤S202处理的数据进行归一化；

步骤S204：将经归一化的数据输入编码单元；

步骤S205：编码单元通过深度编码器神经网络对经步骤S203归一化的数据进行处理得到编码数据；

深度编码器神经网络和深度解码器神经网络采用级联多个自编码器形成深度自编码器结构，深度自编码器结构通过以下步骤训练：

步骤301：获取训练数据，训练数据为语音信号经步骤201至步骤204预处理得到；

步骤302：将训练数据输入深度自编码器神经网络并使其输出误差最小化以获得优化参数；

其中，优化参数通过最小化下式(1)得到：

其中，n表示训练数据样本的个数，θ＝{W,b}和θ′＝{W^T,b′}分别表示编码器和解码器的参数矩阵，θ^*和θ′^*表示优化后的参数矩阵；x⁽ⁱ⁾为自编码器的输入，z⁽ⁱ⁾＝f′_θ′(f_θ(x⁽ⁱ⁾))为自编码器输出，L(x,z)为损失函数，采用如下公式(2)；

L(x,z)＝E(x,z)+αP(x) (2)

式(2)中，P(x)为惩罚项，α为惩罚项权重，E(x,z)采用如下公式(3)：

N为向量维度，k为维度下标；

步骤S303：得到优化后的深度自编码器神经网络并分别作为深度编码器神经网络和深度解码器神经网络，其中，f_θ(x)表示深度编码器神经网络的映射函数，表征输入向量x到编码层表示向量y＝f_θ(x)之间的非线性映射关系，输出y作为编码数据；f′_θ′(y)表示深度解码器神经网络的映射函数，表征编码层表示向量y到重建向量z＝f′_θ′(y)之间的非线性映射关系，输出z作为解码数据。

作为进一步的改进方案，深度自编码器结构还采用以下步骤训练：

步骤S401：采用训练数据训练第一个自编码器；

步骤S402：然后将第一个自编码器的输出训练第二个自编码器，并依此逐层训练每一个自编码器；

步骤S403：完成所有自编码器训练后，展开级联成深度自编码器结构，并使用误差反向传播算法进行调优使其输入和输出误差最小化。

作为进一步的改进方案，惩罚项P(x)采用高斯函数G(x)，其中，G(x)的参数为：均值μ＝0.5，方差σ²＝0.25。

作为进一步的改进方案，惩罚项P(x)采用负平方函数S(x)＝-(x-a)²+b，其中参数a＝b＝0.5。

作为进一步的改进方案，所述深度编码器神经网络采用多帧联合量化编码，所述深度解码器神经网络采用多帧联合量化解码。

作为进一步的改进方案，所述深度编码器神经网络采用8帧联合量化编码，所述深度解码器神经网络采用8帧联合量化解码。

作为进一步的改进方案，自编码器的个数为4。

作为进一步的改进方案，编码层的节点数量为288、144、72、36或18。

作为进一步的改进方案，惩罚项权重α为0.3。

作为进一步的改进方案，所述深度编码器神经网络输入层节点为968。

与现有技术相比较，本发明通过在损失函数中加入表征随机性的惩罚项，从而使经训练得到的深度自编码器神经网络的编码层输出近似于0-1布尔分布，经实验验证，重建后的信号在对数谱误差(LSD)、分段信噪比(SegSNR)和感知语音质量评分(PESQ)等语音评价参量都有大幅度的优化。

附图说明

图1为本发明中基于深度自编码器的语音信号重建方法的流程框图。

图2为本发明中编码数据的流程框图。

图3为本发明中自编码器的原理框图。

图4为本发明中深度自编码器的训练流程图。

图5为本发明中深度自编码器预训练和调优的训练流程。

图6为高斯函数和负平方函数的示意图。

图7为高斯函数和负平方函数导数的示意图。

图8为本发明中基于深度自编码器的语音信号重建系统的原理框图。

图9为本发明中语音幅度谱量化重建的原理框图。

如下具体实施例将结合上述附图进一步说明本发明。

具体实施方式

以下将结合附图对本发明提供的技术方案作进一步说明。

参见图1，所示为本发明提供的基于深度自编码器的语音信号重建方法的流程框图，包括以下步骤：

步骤S101：获取编码数据并将其输入解码单元；

步骤S103：对解码数据进行反归一化；

参见图2，所示为本发明中语音信号编码的流程框图，编码数据通过以下步骤得到：

步骤S201：对原始语音信号进行分帧；

步骤S202：对分帧后的数据进行离散傅里叶变换；

步骤S203：对步骤S202处理的数据进行归一化；

步骤S204：将经归一化的数据输入编码单元；

参见图3，所示为自编码器的结构框图，包括深度编码器神经网络和深度解码器神经网络两个非线性函数的组合。本发明中，深度编码器神经网络和深度解码器神经网络采用级联多个自编码器形成深度自编码器结构，通过训练深度自编码器神经网络得到两个深度神经网络分别作为深度编码器神经网络和深度解码器神经网络。

参见图4所示为深度自编码器的训练流程图，深度自编码器通过以下步骤训练：

其中，优化参数通过最小化下式(1)得到：

L(x,z)＝E(x,z)+αP(x) (2)

N为向量维度，k为维度下标；

采用上述技术方案，本发明通过在损失函数中加入表征随机性的惩罚项，从而使经训练得到的深度自编码器神经网络的编码层输出近似于0-1布尔分布。这是因为解码器网络对编码层的输出非常敏感，编码层的输出非常微小的变化就会导致解码器输出不同，而自编码器优化的目标是输出尽可能重构输入向量，故，解码器的输出是相对确定。当本发明在损失函数中加入表征随机性的惩罚项，神经网络训练过程为了适应这种随机性，编码层输出会趋于0-1布尔分布，因为只有布尔分布下编码层输出受随机性影响最小，以确保解码器输出稳定。

在一种优选的实施方式，深度自编码器结构包括预训练和调优，参见图5所示，具体采用以下步骤训练：

步骤S401：采用训练数据训练第一个自编码器；

步骤S403：完成所有自编码器训练后，展开级联成深度自编码器结构，并使用误差反向传播算法进行调优使其输入和输出误差最小化，其中，在调优中执行步骤S302的优化步骤。

采用上述技术方案，通过无监督学习的方式，逐层训练自编码器，从而降低了神经网络的训练难度。

上述技术方案中，理论上，惩罚项P(x)可以为任何帽状函数，比如高斯函数G(x)或者负平方函数S(x)，参见图6，所示为的高斯函数G(x)或者负平方函数S(x)函数曲线，其中，G(x)的参数为：均值μ＝0.5，方差σ²＝0.25。负平方函数采用S(x)＝-(x-a)²+b，其参数a＝b＝0.5。由此可知，当输入x在均值0.5附近时，惩罚项P(x)输出值更大，而当输入x在0或1附近时，惩罚项P(x)输出也趋近于0，通过在训练中对非0-1分布给予更大的惩罚值，从而使编码层的输出更接近于0-1布尔分布

参见图7，所示为其导数G′(x)和S′(x)的曲线示意图，G′(x)为由方差σ²决定的曲线，方差越大，越接近直线。而S′(x)为直线。因此，采用负平方函数S(x)能够降低计算量。本发明采用负平方函数S(x)作为惩罚项进行实验对比。

采用本发明上述方法，可以实现一种基于深度自编码器的语音信号重建系统，参见图8，所示为基于深度自编码器的语音信号重建系统的原理框图，包括编码装置、解码装置和神经网络训练模块，其中，编码装置用于对输入语音信号进行编码并输出编码数据；解码装置用于获取编码数据并对其进行解码重建输出重建的语音信号。

编码装置进一步包括，分帧单元、DFT单元、归一化单元和编码单元，其中，分帧单元用于对语音信号在时域进行分帧；DFT单元用于对分帧后的数据进行离散傅里叶变换得到频域数据，比如转换为语音幅度谱或者对数功率谱；归一化单元用于对频域数据进行归一化以便于深度神经网络处理；编码单元用于获取预先训练好的深度编码器神经网络并通过深度编码器神经网络对经归一化的数据进行处理得到编码数据。

解码装置进一步包括解码单元、反归一化单元、IDFT单元和叠接相加单元，其中，解码单元用于获取预先训练好的深度解码器神经网络和编码数据并通过深度解码器神经网络对编码数据进行处理并输出解码数据；反归一化单元用于对解码数据反归一化；IDFT单元用于对反归一化后的数据进行离散傅里叶逆变换以恢复时域信号；叠接相加单元用于对时域信号进行叠接相加得到重建的语音信号。叠接相加单元、IDFT单元、反归一化单元分别是分帧单元、DFT单元、归一化单元的逆过程，这些都是现有技术语音信号处理常用的技术手段。

本发明采用深度自编码器结构，通过神经网络训练模块训练后分别获取深度编码器神经网络和深度解码器神经网络。神经网络训练模块用于通过训练数据对深度自编码器进行神经网络训练，得到深度编码器神经网络和深度解码器神经网络，分别输出给编码单元和解码单元中。具体训练过程参见上述步骤301至步骤303以及步骤401至403。

上述技术方案中，本发明采用了一种新的训练方法训练深度自编码器，从而使得到深度自编码器神经网络的编码层输出近似于0-1布尔分布，从而能够减少量化误差，提高重建语音信号的质量。深度自编码器神经网络的训练方法参见上述步骤301至步骤303以及步骤401至403。

以下通过实验验证本发明的技术效果。参见图9，所示为本发明语音幅度谱量化重建的原理框图，原始语音信号在时域进行分帧并通过离散傅里叶变化变换到频域，然后再对对数功率谱进行归一化后输入到预先训练好的深度编码器神经网络；然后通过预先训练好的深度解码器神经网络解码得到重建的对数功率谱，并通过反归一化和傅里叶反变换得到时域信号，再通过重叠相加合成出重建的语音信号。

具体采用TIMIT数据库对深度神经网络进行训练和测试。其中，采用训练集中大约30小时的语音数据作为训练数据；测试集中大约30分钟的语音分别作为验证数据和测试数据。所有语音数据采样频率是8kHz，采用汉明窗进行分帧，帧长为240点，帧移为120点(50％重叠)，通过短时傅里叶分析计算每一帧的DFT。因此，每一帧提取121维对数功率谱(因为频谱的对称性)用于深度自编码器的训练。通过本发明上述步骤对深度自编码器进行训练。

在一种优选实施方式中，将数据集中每100个样本分为一个小批量(mini-batches)，在预训练中，每个栈式自编码器的训练轮次为20，第一个自编码器的学习率为0.002，其他自编码器的学习率为0.05；在调优训练，初始学习率为0.002，当两轮之间的误差下降低于0.05％时，学习率以0.9的系数递减。动量参量初始化为0.5，并在15轮以后增加到0.9；当连续轮次之间的验证误差下降到0.01％以下，则调优训练结束。

深度自编码器可以采用多帧联合量化的方式进行训练，在一种优选实施方式中，采用8帧语音谱构建输入向量，由此，输入向量的维度为968(121*8)。

在一种优选实施方式中，深度自编码器的结构为968-2000-1000-500-288-500-1000-2000-968,采用4级对称结构，其中，编码层的节点数量为288。

为了验证深度自编码器的输出性能，本发明采用对数谱距离(log-spectraldistortion，LSD,单位为dB)评价编码误差，采用分段信噪比(segmental signal to noiseratio,SegSNR,单位为dB)和感知语音质量评分(perceptual evaluation of speechquality,PESQ)评价重建后的语音质量。具体参见下表1所示。

表1本发明与现有技术性能指标对比

上表1中，惩罚项权重为0.3，该值是通过交叉校验实验得到；“None”表示采用传统方式训练深度神经网络，“Binary”表示在测试中将编码层的输出通过阈值‘0.5’量化为‘0’或‘1’，“Real”表示编码层直接以浮点实数输出。由表1的实验结果显示，采用本发明的技术方案，极大改进了二值化编码的性能。与现有技术相比，LSD从29.03dB下降到15.99dB，SegSNR从-9.03dB上升到-8.23dB，PESQ从1.16上升到1.80。表1中还给出了编码层输出为浮点实数的测试数据，表1显示在编码层输出为浮点实数时，本发明的性能相对现有技术反而下降，这是因为本发明的目的是降低“二值化”编码误差，在实际语音编码数据的传输都是采用二值化编码，因此，而浮点实数的编码误差并不是我们所关心的。

为了进一步验证本发明的技术效果，在语音幅度谱量化实验时，我们训练深度自编码器神经网络使其编码层的节点数量更少。深度自编码器的结构为968-2000-1000-500-xxx-500-1000-2000-968,其中，xxx为编码层的节点数量，为288、144、72、36或18。也就是说，将968维度的浮点输入向量分别矢量量化为288、144、72、36或18维二值向量。同样，我们利用本发明的技术方案降低二值化编码误差，实验数据参见表2所示，采用发明的技术方案能够显著提高编码性能。由表2可以看出，随着编码位数的下降，编码误差逐渐增加，当编码层节点从288下降到18时，LSD从5.91dB增加到8.92dB，SegSNR从6.44dB下降到2.9dB，PESQ从3.17下降到2.09。同样，从表2可以看出，采用本发明的技术方案，能够将，968维度的语音谱能用18位二进制编码量化表示并且重建语音的PESQ评分能够达到2.09。虽然重建后语音存在很多干扰，大体上还是可以听懂的。而采用传统VQ量化技术，是不可能将968维向量压缩为18位编码。

表2本发明不同数量编码层的实验结果

综上所述，采用本发明的技术方案，能够极大改进编码性能，编码误差显著下降；同时，能够将968维度的语音谱用18位编码量化，并且重建语音还能大致可听懂。

需要指出的是，本发明提及的编码器和解码器可以理解为编码器神经网络和解码器神经网络；自编码器是现有技术常用的一种深度神经网络结构。

以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于深度自编码器的语音信号重建方法，其特征在于，包括以下步骤：

步骤S101：获取编码数据并将其输入解码单元；

步骤S103：对解码数据进行反归一化；

其中，所述编码数据通过以下步骤得到：

步骤S201：对原始语音信号进行分帧；

步骤S202：对分帧后的数据进行离散傅里叶变换；

步骤S203：对步骤S202处理的数据进行归一化；

步骤S204：将经归一化的数据输入编码单元；

其中，优化参数通过最小化下式(1)得到：

其中，n表示训练数据样本的个数，θ＝{W,b}和θ′＝{W^T,b′}分别表示编码器和解码器的参数矩阵，θ^*和θ^′*表示优化后的参数矩阵；x⁽ⁱ⁾为自编码器的输入，z⁽ⁱ⁾＝f′_θ(f_θ(x⁽ⁱ⁾))为自编码器输出，L(x,z)为损失函数，采用如下公式(2)；

L(x,z)＝E(x,z)+αP(x)(2)

N为向量维度，k为维度下标；

步骤S303：得到优化后的深度自编码器神经网络并分别作为深度编码器神经网络和深度解码器神经网络，其中，f_θ(x)表示深度编码器神经网络的映射函数，表征输入向量x到编码层表示向量y＝f_θ(x)之间的非线性映射关系，输出y作为编码数据；f′_θ(y)表示深度解码器神经网络的映射函数，表征编码层表示向量y到重建向量z＝f′_θ(y)之间的非线性映射关系，输出z作为解码数据。

2.根据权利要求1所述的基于深度自编码器的语音信号重建方法，其特征在于，深度自编码器结构还采用以下步骤训练：

步骤S401：采用训练数据训练第一个自编码器；

步骤S402：然后通过第一个自编码器的输出训练第二个自编码器，并依此逐层训练每一个自编码器；

3.根据权利要求1或2所述的基于深度自编码器的语音信号重建方法，其特征在于，惩罚项P(x)采用高斯函数G(x)，其中，G(x)的参数为：均值μ＝0.5，方差σ²＝0.25。

4.根据权利要求1或2所述的基于深度自编码器的语音信号重建方法，其特征在于，惩罚项P(x)采用负平方函数S(x)＝-(x-a)²+b，其中参数a＝b＝0.5。

5.根据权利要求1或2所述的基于深度自编码器的语音信号重建方法，其特征在于，深度编码器神经网络采用多帧联合量化编码，深度解码器神经网络采用多帧联合量化解码。

6.根据权利要求5所述的基于深度自编码器的语音信号重建方法，其特征在于，深度编码器神经网络采用8帧联合量化编码，深度解码器神经网络采用8帧联合量化解码。

7.根据权利要求1或2所述的基于深度自编码器的语音信号重建方法，其特征在于，自编码器的个数为4。

8.根据权利要求1或2所述的基于深度自编码器的语音信号重建方法，其特征在于，编码层的节点数量为288、144、72、36或18。

9.根据权利要求1或2所述的基于深度自编码器的语音信号重建方法，其特征在于，惩罚项权重α为0.3。

10.根据权利要求6所述的基于深度自编码器的语音信号重建方法，其特征在于，所述深度编码器神经网络输入层节点为968。