CN105023580A

CN105023580A - 基于可分离深度自动编码技术的无监督噪声估计和语音增强方法

Info

Publication number: CN105023580A
Application number: CN201510357980.5A
Authority: CN
Inventors: 孙蒙; 李轶南; 张雄伟; 王艺敏; 邹霞; 贾冲; 李莉
Original assignee: PLA University of Science and Technology
Current assignee: PLA University of Science and Technology
Priority date: 2015-06-25
Filing date: 2015-06-25
Publication date: 2015-11-04
Anticipated expiration: 2035-06-25
Also published as: CN105023580B

Abstract

本发明公开了一种基于可分离深度自动编码技术的无监督噪声估计和语音增强方法，包括事前处理和对被未知噪声污染的语音增强，可以灵活运用于各类语音处理场景：不局限于语音内容所属的语言、不受限于说话人的变化、不受限于噪声的种类等，并与经典的基于平稳性假设的谱估计算法SS和MMSE相比，本发明不再依赖于这种平稳性假设，可以较准确的估计出平稳或突变噪声的频谱；与基于隐马尔可夫和线性预测系数的算法相比，本发明不需要指定所处理非平稳噪声类型；与基于低秩结构的噪声估计方法相比，本发明无需噪声具有低秩重复结构。

Description

基于可分离深度自动编码技术的无监督噪声估计和语音增强方法

技术领域

本发明属于语音信号处理技术领域，特别是一种基于可分离深度自动编码技术的无监督噪声估计和语音增强方法。

背景技术

语音增强无论对于提高语音信号的听觉效果，还是作为前端处理提高语音识别器的性能，都具有重要的意义。语音增强的核心问题在于语音噪声的分离，理想的语音增强技术需要在未知噪声的前提条件下，也能获得很好的效果。为此，语音增强需要解决的一个关键问题是噪声估计问题。为了估计噪声的频谱，人们提出了一些经典的算法，如谱减(Spectrum Subtraction,SS)、最小均方误差(Minimum Mean Square Error,MMSE)等，并已经广泛应用在语音通信中。然而，这些方法一般基于噪声的平稳性假设，对于具有高度非平稳突变特性的噪声的频谱估计效果较差。

基于隐马尔可夫模型和线性预测系数的码书的语音增强方法能够处理非平稳噪声，其前提条件是需要在已知噪声的条件下预先训练出噪声谱，并且噪声谱的特征在实际带噪语音信号中不发生显著变化。然而，当所需处理的噪声特征未知或不可得到时，这些方法就不能够有效实现语音增强。

基于非负矩阵分解的语音增强方法在噪声已知的条件下，也能够处理非平稳噪声。为了使其在噪声未知的条件下也能取得好的效果，一种解决方案需要提前训练出若干种不同噪声环境的噪声字典，将每种噪声环境的字典作为一个状态，并在允许不同状态之间可以跳转(N.Mohammadiha,P.Smaragdis,and A.Leijon,“Supervised and unsupervised speech enhancement using nonnegative matrixfactorization,”Audio,Speech,and Language Processing,IEEE Transactions on,vol.21,no.10,pp.2140–2151,2014.)。然而，这种方法无法穷举可能遇到的所有未知噪声环境，并且，在特定噪声环境下也可能存在不匹配问题。一种解决方案是假设噪声频谱具有低秩结构或预先训练一个通用的语音字典，根据输入的含噪声的语音谱，估计出噪声谱(M.Sun,Y.Li,J.F.Gemmke,X.Zhang“Speechenhancement under low SNR conditions via noise estimation using sparse andlow-rank NMF with Kullback-Leibler divergence,”IEEE Transactions on Audio,Speech and Language Processing,vol.59,2015.)。但噪声的这种低秩假设限制了其在不具有低秩结构的噪声消除方面的效果。

在无任何噪声先验信息的条件下估计出噪声谱，其本质上就是找到无法用语音模型表示的成分(这部分被认为是噪声)，所以首要的问题是精确的表示语音，从而利于后续的非语音成分的剔除。近年来，深度学习在语音信号表示领域获得了成功应用，并且在噪声已知条件下取得了较好的去噪效果(X.Lu,Y.Tsao,S.Matsuda,and C.Hori,“Speech enhancement based on deep denoising autoencoder,”in INTERSPEECH,2013,pp.436–440.)。借助于104种噪声合成的带噪语音库，通过训练深度神经网络建立起带噪语音信号和干净语音信号之间的映射关系(Y.Xu,J.Du,L.-R.Dai,and C.-H.Lee,“A regression approach to speech enhancementbased on deep neural networks,”IEEE/ACM Transactions on Audio,Speech,andLanguage Processing,vol.23,no.1,pp.7–19,January 2015.)。巨大的训练数据集使对于未知噪声的处理成为可能，相关的实验结果也验证了增强效果的显著提升。然而，无论训练噪声数据集如何庞大，仍然无法得到能够囊括自然界的所有噪声类型。因此，还需要一种在任何噪声环境都能使用的语音增强技术。

在信号的频谱领域进行处理，需要用到描述信号幅度谱重构的深度自编码机(Deep Auto Encoder,DAE)，在此先做简要介绍。DAE本质上是一个多层的神经网络，并假设其输出与输入是相同的，然后训练调整其各层参数(即每一层的权重和偏置)(http://deeplearning.stanford.edu/wiki/index.php/UFLDL_Tutorial)。然后，就得到了输入幅度谱的几种不同表示(每一层代表一种表示)。DAE就是一种在输出层尽可能复现输入信号的神经网络。降噪深度自编码机(DenoisingDAE)是一种采用了“对干净语音信号加入人工噪声，并将其映射到干净语音信号”的思路，在噪声已知的情况下经常被采用[8][9]。但在未知噪声，或未知噪声特性与已知噪声差异很大的情况下，会存在不匹配的问题，从而影响其效果。

发明内容

本发明的目的在于提供一种基于可分离深度自动编码技术的无监督噪声估计和语音增强方法，旨在解决无噪声或特定说话人先验信息的模式下，能够同时估计出干净语音谱和未知噪声频谱结构。

实现本发明目的技术解决方案为：一种基于可分离深度自动编码技术的无监督噪声估计和语音增强方法，包括事前处理和对被未知噪声污染的语音增强：

所述事前处理的实现步骤为：

步骤一，对干净语音时域信号s(n)，经过分帧加窗后，对每帧进行傅里叶变换并取模，得到该帧的幅度谱s；综合所有帧，就可得该语句的幅度谱S；

步骤二，使用来自不同性别、不同说话人的大量语音信号的幅度谱S，通过非负矩阵分解，训练出一个能够表征语音信号的非负语音字典D，即求解如下优化问题：

\min_{D, C} K L D (S | | D C)

其中，KLD表示Kullback-Leibler散度，D为所要求的非负字典，C为字典中各基函数的激活系数；

步骤三，使用来自不同性别、不同说话人的大量语音信号的幅度谱S，训练出一个能够表征语音信号的深度自动编码机f(s)；其中，各个节点的激活函数采用反射线性单元激活函数σ(·)来确保重构谱的非负性，编码机的输出函数为：

f (W, b, S) = σ (W^{(l_{0})} ... σ (W^{(1)} S + b^{(1)}) ... + b^{(l_{0})})

其中，

W = {W^{(1)}, ..., W^{(l_{0})}}, b = {b^{(1)}, ..., b^{(l_{0})}}

分别为各层的系数和偏置，它们是待估参数，因此，训练的目标函数为：

\min_{W, b} \frac{1}{2} | | S - f (W, b, S) | |_{l_{0}}^{l_{0}}

所述对被未知噪声污染的语音增强实现步骤为：

步骤四，对输入的带噪语音时域信号x(n)，经过分帧加窗后，对每帧进行傅里叶变换并取模得到该帧的幅度谱x；

步骤五，使用预先训练的非负语音字典D和预先训练好的深度自动编码机f(s)，该f(s)含参数的表述形式为f(W,b,S)，引入额外的深度自动编码机g(n)，将这三者联合起来对含噪语音进行建模；该模型中，所有不能被语音深度自动编码机f(s)有效表示的成分均被认为是噪声，用g(n)来表示；利用链式求导方法迭代更新语音基函数的系数向量和噪声模型中的未知参数，分别得到干净语音幅度谱和噪声谱的估计值；

步骤六，将估计所得的干净语音幅度谱，使用带噪语音信号的相位，重构出增强后的语音信号

本发明与现有技术相比，其显著优点：(1)本发明可以灵活运用于各类语音处理场景：不局限于语音内容所属的语言、不受限于说话人的变化、不受限于噪声的种类等；(2)与经典的基于平稳性假设的谱估计算法SS和MMSE相比，本发明不再依赖于这种平稳性假设，可以较准确的估计出平稳或突变噪声的频谱；(3)与基于隐马尔可夫和线性预测系数的算法相比，本发明不需要指定所处理非平稳噪声类型；(4)与基于低秩结构的噪声估计方法相比，本发明无需噪声具有低秩重复结构。

下面结合附图对本发明作进一步详细描述。

附图说明

图1是本发明基于可分离深度自动编码技术的无监督噪声估计和语音增强方法的流程图。

图2是本发明实施例提供的基于可分离深度自动编码技术的无监督噪声估计和语音增强方法在粉红噪声估计的效果示意图(输入信噪比为-5dB)。

图3是本发明实施例提供的基于可分离深度自动编码技术的无监督噪声估计和语音增强方法与经典无监督算法SS、MMSE和NMF算法的效果对比：各方法在100句语音被20种噪声在[-5dB,0dB,5dB,10dB]信噪比条件下污染后进行增强所得语音的平均PESQ得分，值越高说明效果越好。

图4是本发明与经典无监督算法SS、MMSE和NMF算法在100句语音被20种噪声在[-5dB,0dB,5dB,10dB]信噪比条件下污染后进行增强所得语音的平均信号失真比SDR得分，值越高说明效果越好。

图5是本发明与经典无监督算法SS、MMSE和NMF算法在100句语音被20种噪声在[-5dB,0dB,5dB,10dB]信噪比条件下污染后进行增强所得语音的平均分段信噪比SEGSNR得分，值越高说明效果越好。

具体实施方式

结合图1，本发明基于可分离深度自动编码技术的无监督噪声估计和语音增强方法，包括事先处理和对被未知噪声污染(所谓“未知噪声”就是在语音增强算法的训练阶段未曾遇到过的噪声类型)的语音增强：

所述事先处理的实现步骤为：

步骤一，对对来自不同性别、不同说话人的大量干净语音时域信号s(n)，经过分帧加窗后，对每帧进行傅里叶变换并取模，得到该帧的幅度谱s；综合所有帧，就可得该语句的幅度谱S。

\min_{D, C} L D (S | | D C)

其中，KLD表示Kullback-Leibler散度，D为所要求的非负字典，C为字典中各基函数的激活系数。该步骤的目的是使得本发明能表示并增强非特定说话人的语音。

步骤三，使用来自不同性别、不同说话人的大量语音信号的幅度谱S(可与步骤二中的S相同或不同)，训练出一个能够表征语音信号的深度自动编码机f(s)；其中，各个节点的激活函数采用反射线性单元激活函数(Rectified LinearUnit,ReLU)σ(·)来确保重构谱的非负性，编码机的输出函数为：

f (W, b, S) = σ (W^{(l_{0})} ... σ (W^{(1)} S + b^{(1)}) ... + b^{(l_{0})})

其中，

W = {W^{(1)}, ..., W^{(l_{0})}}, b = {b^{(1)}, ..., b^{(l_{0})}}

\min_{W, b} \frac{1}{2} | | S - f (W, b, S) | |_{l_{0}}^{l_{0}}

如以2层神经网络为例来描述编码机的输出函数为：

f(W,b,S)＝σ(W⁽²⁾σ(W⁽¹⁾S+b⁽¹⁾)+b⁽²⁾)

其中，W＝{W⁽¹⁾,W⁽²⁾}，b＝{b⁽¹⁾,b⁽²⁾}分别为各层的系数和偏置，它们是待估参数，因此，训练的目标函数为：

\min_{W, b} \frac{1}{2} | | S - f (W, b, S) | |_{2}^{2}

采用无监督预训练和有监督调优，通过传统的梯度下降算法优化上述问题，按照现有技术UFLDL_Tutorial的方法，可以得到W,b。该步骤采用来自不同性别大量说话人的语音的目的，也是使得本发明能表示并增强非特定说话人的语音。

所述对被未知噪声污染的语音增强实现步骤为：

步骤四，对输入的带噪语音时域信号x(n)，经过分帧加窗后，对每帧进行傅里叶变换并取模得到该语音帧的幅度谱x。在步骤四中，使用步骤三得到的深度自动编码机f(s)(其含参数的表述形式为f(W,b,s))来表示带噪语音中对应的干净语音部分，引入额外的深度自动编码机g(n)来表示带噪语音中对应的噪声成分，这两个模型联合表示带噪语音谱并通过调整线性单元激活函数σ(·)[Rectified Linear Unit(ReLU)]来确保重构谱的非负性，各深度自动编码机对应的多层神经网络为：

f (s) = σ (W^{(l_{0})} ... σ (W^{(1)} s + b^{(1)}) ... + b^{(l_{0})})

g (n) = σ (V^{(k_{0})} ... σ (V^{(1)} n + c^{(1)}) ... + c^{(k_{0})})

l₀、k₀分别为语音、噪声对应神经网络的层数。

在步骤二、四中，使用从大量不同说话人语音信号训练所得的非负语音字典D来表示混合谱中的干净语音成分将作为的s估计，并估计出语音基函数(D中的列矢量)相对应的系数向量y，噪声成分通过混合谱与干净语音谱做差的方式来得到，即σ(x-Dy)，其非负性由调整线性单元激活函数σ(·)来确保：

f (y) = σ (W^{(l_{0})} ... σ (W^{(1)} D y + b^{(1)}) ... + b^{(l_{0})})

g (y) = σ (V^{(k_{0})} ... σ (V^{(1)} σ (x - D y) + c^{(1)}) ... + c^{(k_{0})})

V^(k),c^(k)为噪声深度自编码机各层的系数和偏置。至此，语音部分自编码后的重构为f(y)，噪声部分自编码后的重构为g(y)，这两部分加起来就得到了带噪语音幅度谱的一个估计：由于在整个网络中语音网络f(y)和噪声网络g(y)是分离的，所以本发明叫做“可分离深度自编码机”，所求解的相应优化问题最终转化为如下形式：

{\hat{y}, {\hat{V}}^{(k)}, {\hat{c}}^{(k)}} = \underset{y, V^{(k)}, c^{(k)}}{\arg \min} \frac{1}{2} | | x - (f (y) + g (y)) | |_{2}^{2}

其中，y,V^(k),c^(k)为输入含噪语音的幅度谱x后的待估参数；该步骤中未对噪声种类和特性做任何假设，通过一个额外的深度自编码机将其建模，通过与语音部分的参数联合估计，进而将其从语音中分离出来；由于未利用噪声频谱的任何性质(如低秩、与某类频谱类似等等)，所以可以处理任何未知噪声。

步骤五，使用预先训练的非负语音字典D和预先训练好的深度自动编码机f(s)，引入额外的深度自动编码机g(n)，将这三者联合起来对含噪语音进行建模，该模型中，所有不能被语音深度自动编码机f(s)有效表示的成分均被认为是噪声，用g(n)来表示；利用链式求导方法迭代更新语音基函数的系数向量y和噪声模型中的未知参数(噪声自编码机各层的参数V^(k),c^(k))，分别得到干净语音幅度谱和噪声谱的估计值。

本发明为了使得语音和噪声最大限度的分离，在目标函数

ϵ = \frac{1}{2} | | x - (f (y) + g (y)) | |_{2}^{2}

中添加最大边际距离约束，

R_{1} (y) = - α | | f (y) - g (y) | |_{2}^{2}

通过最小化该约束，使得语音部分f(y)和噪声部分g(y)的距离尽可能的大，也就是机器学习领域通常所说的最大边际距离。

本发明通过乘法迭代更新准则来更新未知参数如下：考虑到各系数的非负性(以保证重构幅度谱的非负性并使得求解问题简化)，采用乘法迭代准则：

其中，表示对θ求偏导数的负部，则表示对θ求偏导数的正部，重构误差γ为可调整指数步长。上面的迭代公式中每个分量的求解可通过链式法则来实施，但要区分正部和负部。利用链式求导方法求取梯度(上述三个公式大括号中的部分就是梯度)的正部和负部步骤为：

1)更新y的方法

对于字典D中各语音基函数相对应的系数向量y，有如下关系：

{[\frac{\partial ϵ}{\partial y}]}^{+} = {[\frac{\partial {\tilde{s}}^{T}}{\partial y}]}^{+} {[\frac{\partial ϵ}{\partial \tilde{s}}]}^{+} + {[\frac{\partial {\tilde{s}}^{T}}{\partial y}]}^{-} {[\frac{\partial ϵ}{\partial \tilde{s}}]}^{-}

{[\frac{\partial ϵ}{\partial y}]}^{-} = {[\frac{\partial {\tilde{s}}^{T}}{\partial y}]}^{-} {[\frac{\partial ϵ}{\partial \tilde{s}}]}^{+} + {[\frac{\partial {\tilde{s}}^{T}}{\partial y}]}^{+} {[\frac{\partial ϵ}{\partial \tilde{s}}]}^{-}

其中，为语音部分通过预先训练的字典的重构,因此有

{[\frac{\partial {\tilde{s}}^{T}}{\partial y}]}^{+} = D, {[\frac{\partial {\tilde{s}}^{T}}{\partial y}]}^{-} = 0

为了计算以及对语音的深度自编码机和噪声的深度自编码机使用层级记法，各层输入ReLU单元的表示为：

h^(l+1)＝W^(l+1)σ(h^l)+b^(l+1)

其中1≤l≤l₀-1是各层的序号，h⁽¹⁾为最底层的输入为最顶层的输出f(y)，噪声部分的层级表示为：

p^(k+1)＝V^(l+1)σ(p^l)+c^(l+1)

其中1≤k≤k₀-1是各层的序号，p⁽¹⁾＝x-Dy和分别为最底层的输入和最顶层的输出；有了上面的层级记法，ε关于偏导数的偏导数如下所示：

\frac{\partial ϵ}{\partial \tilde{s}} = \frac{\partial {(σ (h^{(1)}))}^{T}}{\partial \tilde{s}} \frac{\partial ϵ}{\partial σ (h^{(1)})} + \frac{\partial {(σ (p^{(1)}))}^{T}}{\partial \tilde{s}} \frac{\partial ϵ}{\partial σ (p^{(1)})}

的正部和负部通过计算得到，因此使用自底向上求取：

\begin{matrix} {[\frac{\partial ϵ}{\partial σ (h^{(l)})}]}^{+} \\ = {[\frac{\partial (h^{{(l + 1)}^{T}})}{\partial σ (h^{(l)})}]}^{+} [\frac{\partial {(σ (h^{(l + 1)}))}^{T}}{\partial h^{(l + 1)}}] {[\frac{\partial ϵ}{\partial σ (h^{(l + 1)})}]}^{+} \\ + {[\frac{\partial {(h^{(l + 1)})}^{T}}{\partial σ (h^{(l)})}]}^{-} [\frac{\partial {(σ (h^{(l + 1)}))}^{T}}{\partial h^{(l + 1)}}] {[\frac{\partial ϵ}{\partial σ (h^{(l + 1)})}]}^{-} \\ = {[W^{(l + 1)}]}^{+, T} diag (I (h^{(l + 1)})) {[\frac{\partial ϵ}{\partial σ (h^{(l + 1)})}]}^{+} \\ + {[W^{(l + 1)}]}^{-, T} d i a g (I (h^{(l + 1)})) {[\frac{\partial ϵ}{\partial σ (h^{(l + 1)})}]}^{-} \end{matrix}

\begin{matrix} {[\frac{\partial ϵ}{\partial σ (h^{(l)})}]}^{-} \\ = {[\frac{\partial (h^{{(l + 1)}^{T}})}{\partial σ (h^{(l)})}]}^{-} [\frac{\partial {(σ (h^{(l + 1)}))}^{T}}{\partial h^{(l + 1)}}] {[\frac{\partial ϵ}{\partial σ (h^{(l + 1)})}]}^{+} \\ + {[\frac{\partial {(h^{(l + 1)})}^{T}}{\partial σ (h^{(l)})}]}^{+} [\frac{\partial {(σ (h^{(l + 1)}))}^{T}}{\partial h^{(l + 1)}}] {[\frac{\partial ϵ}{\partial σ (h^{(l + 1)})}]}^{-} \\ = {[W^{(l + 1)}]}^{-, T} diag (I (h^{(l + 1)})) {[\frac{\partial ϵ}{\partial σ (h^{(l + 1)})}]}^{+} \\ + {[W^{(l + 1)}]}^{+, T} d i a g (I (h^{(l + 1)})) {[\frac{\partial ϵ}{\partial σ (h^{(l + 1)})}]}^{-} \end{matrix}

当l从1到l₀-1层时，上述链式方法的中间项，是反射线性单元的偏导数，其值是永远是非负的，为以h^(l+1)的示性函数I(h^(l+1))为对角线元素的对角矩阵diag(I(h^(l+1)))；当到达语音深度自动编码顶层l₀时，有：

{[\frac{\partial ϵ}{\partial σ (h^{(l_{0})})}]}^{+} = σ (h^{(l_{0})}) + σ (p^{(k_{0})}) + 2 α (σ (p^{(k_{0})})), {[\frac{&PartialD; ϵ}{&PartialD; σ (h^{(l_{0})})}]}^{-} = x + 2 α (σ (h^{(l_{0})})),

和使用上述方法来求取；

2)噪声深度自动编码机g(y)中参数的更新

为了得到和首先需要获得ε关于第k层噪声表示σ(p^(k))的偏导数，即采用自顶向下的递归方式进行，在递归开始的时候，ε关于顶层噪声单元的偏导数为，

{[\frac{\partial ϵ}{\partial σ (p^{(k_{0})})}]}^{+} = σ (h^{(l_{0})}) + σ (p^{(k_{0})}) + 2 α (σ (h^{(l_{0})})) [\frac{\partial ϵ}{\partial σ (p^{(k_{0})})}] = x + 2 α (σ (p^{(k_{0})}))

通过分别使用V^(k)和c^(k)替代W^(l)和b^(l)，就能够得到任何从k₀-1到2中任意的k值和由于V^(k)的非负性，其负部永远是0；因此，重构误差ε关于噪声深度自动编码机的参数的偏导数为：

\begin{matrix} {[\frac{\partial ϵ}{\partial V_{i, j}^{(k)}}]}^{+} \\ = {[\frac{\partial {(p^{(k)})}^{T}}{\partial V_{i, j}^{(k)}}]}^{+} [\frac{\partial {(σ (p^{(k)}))}^{T}}{\partial p^{(k)}}] {[\frac{\partial ϵ}{\partial σ (p^{(k)})}]}^{+} \\ + {[\frac{\partial {(p^{(k)})}^{T}}{\partial V_{i, j}^{(k)}}]}^{-} [\frac{\partial {(σ (p^{(k)}))}^{T}}{\partial p^{(k)}}] {[\frac{\partial ϵ}{\partial σ (p^{(k)})}]}^{-} \\ = {[σ (p^{(k - 1)})]}^{+, T} {[\frac{\partial ϵ}{\partial p^{(k)}}]}^{+} + {[σ (p^{(k - 1)})]}^{-, T} {[\frac{&PartialD; ϵ}{&PartialD; p^{(k)}}]}^{-} \\ = {(p^{(k - 1)})}^{T} {[\frac{\partial ϵ}{\partial p^{(k)}}]}^{+} \end{matrix}

\begin{matrix} {[\frac{\partial ϵ}{\partial c_{i}^{(k)}}]}^{+} \\ = {[\frac{\partial {(p^{(k)})}^{T}}{\partial c_{i}^{(k)}}]}^{+} [\frac{\partial {(σ (p^{(k)}))}^{T}}{\partial p^{(k)}}] {[\frac{\partial ϵ}{\partial σ (p^{(k)})}]}^{+} \\ + {[\frac{\partial {(p^{(k)})}^{T}}{\partial c_{i}^{(k)}}]}^{-} [\frac{\partial {(σ (p^{(k)}))}^{T}}{\partial p^{(k)}}] {[\frac{\partial ϵ}{\partial σ (p^{(k)})}]}^{-} \\ = 1^{T} {[\frac{\partial ϵ}{\partial p^{(k)}}]}^{+} \end{matrix}

实施例

下面结合附图及具体实施例对本发明的应用原理作进一步描述。

结合图1，本发明基于可分离深度自动编码技术的无监督噪声估计和语音增强方法的实现过程如下。

S101，从英语经典数据库TIMIT中随机选取来自不同性别、不同说话人的500句语音，将其将采样为8kHz，以64ms的窗长8ms的帧移为参数分帧，然后做512点的快速傅里叶变换，取模后，提取它们的幅度谱S；

S102，然后对S实施非负矩阵分解，训练出一个能够表征语音信号的非负语音字典D，其中字典的大小也就是基函数的数目选取为2000；

S103，接下来对S实施深度自编码学习，训练f(S)中的未知参数，以使其重构干净语音幅度谱S；逐层的无监督预训练先用来初始化这个深度自编码机：

首先，用S训练一个三层并且中间隐含层含有1000个节点的网络，其结构为257×1000×257(其中257为512点傅里叶变换后，由于对称性只取一半幅度谱值)，因此任何一个语音帧的幅度谱就可以被这1000个隐含节点来表出。

其次，为了使得信号表示具有“深层”特性，这1000个隐含单元又进一步被200个隐含单元所编码，这通过训练结构为1000×200×1000的网络来实现。

然后，通过展开上面训练的两个网络，可以获得一个5层的深度自编码机，它具有结构257×1000×200×1000×257。

最后，有监督的逐层调优通过back propagation算法来进一步改进这个多层的网络。

S104，数据准备：为验证本发明的效果，实施例用100句从TIMIT的男女说话人中随机选取，并在不同信噪比条件下加不同类型噪声，做语音增强实验。测试了私语噪声(babble),鸟叫(birds),赌场(casino),蝉鸣(cicadas),键盘敲击(computerkeyboard),吃薯片(eatingchips),战斗机(f16),工厂1(factory1),工厂2(factory2),赛车1(formula1),高速路(freeway),蛙叫(frogs),爵士乐(jungle),机枪(machineguns),摩托车(motorcycles),海浪(ocean),电话(phone),粉红(pink),白噪声(white),车内噪声(volvo),这二十种噪声，其中既包含了像f16这样的平稳噪声，也包含了像machinegun和computerkeyboard这样的非平稳噪声，以检验算法应对各类噪声的性能；

对输入的带噪语音时域信号x(n)，将采样为8kHz，以64ms窗长和8ms帧移，经过分帧加窗后，对每帧进行512点的傅里叶变换，取前257个点并取模，得到该语句的幅度谱X。

S105，对该语句引入一个3层的结构为257×M×257的深度自动编码机以对噪声进行建模，其中M为该网络隐含节点的数目，数目越多，该网络的信号表示能力越强，但也使其变得复杂，一般来说，长句子和低信噪比条件下，应采用较大的M，以应对可能的大量的非平稳噪声。

S105，使用预先训练的非负语音字典D、结合深度自动编码技术，利用前述的链式求导法则，迭代更新语音基函数的系数向量y和噪声网络中的参数V^(l)、b^(l)；

S107、将估计所得的干净语音幅度谱f(y)，使用带噪语音信号的相位，重构出增强后的语音信号

本发明所提出的基于可分离深度自动编码技术的无监督噪声估计和语音增强方法在噪声估计上的效果如下图2所示，图中选取了“粉红噪声”(pink)信噪比为-5dB条件下的增强效果示意图。左上图为含噪语音幅度谱图，右上图为干净语音幅度谱，左中图为使用谱减法所得噪声的幅度谱，右中图为可分离深度自动编码所估计得到的干净幅度谱图，左下为所添加噪声的幅度谱图，右下为采用可分离深度自动编码估计得到的噪声幅度谱图。通过对比，可以看到本发明的方法在噪声估计方面和去噪方面均获得了良好的效果。

本发明相对于已有技术的优越性将在后文给出具体数值对比。所采用的评价指标“PESQ分”和“分段信噪比”来自现有技术(A.Rix,J.Beerends,M.Hollier,andA.Hekstra,“Perceptual evaluation ofspeech quality(pesq)-a new method for speechquality assessment of telephone networks and codes,”in ICASSP,2001,pp.749–752.)，“信号失真比”来自于现有技术(E.Vincent,C.Fevotte,and R.Gribonval,“Performance measurement in blind audio source separation,”IEEE Trans.on AudioSpeech Lang.Process,vol.14,pp.1462–1469,2006.)，谱减和最小均方误差估计算法来自于现有技术(http://www.ee.ic.ac.uk/hp/staff/dmb/voicebox,2012.)。为了量化的对比所提方法与经典算法的效果，将信噪比以5dB为间隔在-5到10dB之间取值，对每组实验分别计算PESQ分值、“信号失真度”(Signal-to-DistortionRatio,SDR)和分段信噪比(Segmental SNR，SEGSNR)。这些指标的值越大，说明增强的效果越好.从图3、图4、图5可以看出，本发明所提出的方法“基于可分离深度自动编码技术的无监督噪声估计和语音增强方法”在PESQ、SDR和SEGSNR三个指标上都对经典算法有明显提高。

本发明的基于可分离深度自动编码技术的无监督噪声估计和语音增强方法可以灵活运用于各类语音处理场景的：不局限于语音内容所属的语言、不受限于说话人的变化、不受限于噪声的种类等，与经典的基于平稳性假设的谱估计算法SS和MMSE相比，本发明不再依赖于这种平稳性假设，可以较准确的估计出平稳或突变噪声的频谱；与基于隐马尔可夫和线性预测系数的算法相比，本发明不需要指定所处理非平稳噪声类型；与基于低秩结构的噪声估计方法相比，本发明无需噪声具有低秩重复结构。

Claims

1.一种基于可分离深度自动编码技术的无监督噪声估计和语音增强方法，其特征在于包括事前处理和对被未知噪声污染的语音增强：

所述事前处理的实现步骤为：

\underset{D, C}{m i n} K L D (S | | D C)

f (W, b, S) = σ (W^{(l_{0})} ... σ (W^{(1)} S + b^{(1)}) ... + b^{(l_{0})})

其中，

W = {W^{(1)}, ..., W^{(l_{0})}}, b = {b^{(1)}, ..., b^{(l_{0})}}

\underset{W, b}{m i n} \frac{1}{2} | | S - f (W, b, S) | |_{l_{0}}^{l_{0}}

所述对被未知噪声污染的语音增强实现步骤为：

2.根据权利要求1所述的基于可分离深度自动编码技术的无监督噪声估计和语音增强方法，其特征在于步骤四中，使用步骤三得到的深度自动编码机f(s)来表示带噪语音中对应的干净语音部分，引入额外的深度自动编码机g(n)来表示带噪语音中对应的噪声成分，这两个模型联合表示带噪语音谱需要尽可能的逼近含噪语音的幅度谱x；通过调整线性单元激活函数σ(·)来确保重构谱的非负性，各深度自动编码机对应的多层神经网络为：

f (s) = σ (W^{(l_{0})} ... σ (W^{(1)} s + b^{(1)}) ... + b^{(l_{0})})

g (n) = σ (V^{(k_{0})} ... σ (V^{(1)} n + c^{(1)}) ... + c^{(k_{0})}) .

3.根据权利要求1所述基于可分离深度自动编码技术的无监督噪声估计和语音增强方法，其特征在于步骤二、四中，使用从大量不同说话人语音信号训练所得的非负语音字典D来表示混合谱中的干净语音成分并估计出语音基函数相对应的系数向量y，即噪声成分通过混合谱与干净语音谱做差的方式来得到，即σ(x-Dy)，其非负性由调整线性单元激活函数σ(·)来确保：

f (y) = σ (W^{(l_{0})} ... σ (W^{(1)} D y + b^{(1)}) ... + b^{(l_{0})})

g (y) = σ (V^{(k_{0})} ... σ (V^{(1)} σ (x - D y) + c^{(1)}) ... + c^{(k_{0})})

所求解的相应优化问题最终转化为如下形式：

{\hat{y}, {\hat{V}}^{(k)}, {\hat{c}}^{(k)}} = \underset{y, V^{(k)}, c^{(k)}}{argmin} \frac{1}{2} | | x - (f (y) + g (y)) | |_{2}^{2} .

4.根据权利要求1或3所述基于可分离深度自动编码技术的无监督噪声估计和语音增强方法，其特征在于为了使得语音和噪声最大限度的分离，在目标函数

ϵ = \frac{1}{2} | | x - (f (y) + g (y)) | |_{2}^{2}

中添加最大边际距离约束，

R_{1} (y) = - α | | f (y) - g (y) | |_{2}^{2}

5.根据权利要求1或3所述基于可分离深度自动编码技术的无监督噪声估计和语音增强方法，其特征在于通过乘法迭代更新准则来更新未知参数如下：

其中，表示对θ求偏导数的负部，则表示对θ求偏导数的正部，重构误差γ为可调整指数步长。

6.根据权利要求5所述基于可分离深度自动编码技术的无监督噪声估计和语音增强方法，其特征在于利用链式求导方法求取梯度的正部和负部步骤为：

1)更新y的方法

{[\frac{\partial ϵ}{\partial y}]}^{+} = {[\frac{\partial {\tilde{s}}^{T}}{\partial y}]}^{+} {[\frac{\partial ϵ}{\partial \tilde{s}}]}^{+} + {[\frac{\partial {\tilde{s}}^{T}}{\partial y}]}^{-} - {[\frac{\partial ϵ}{\partial \tilde{s}}]}^{-}

{[\frac{\partial ϵ}{\partial y}]}^{-} = {[\frac{\partial {\tilde{s}}^{T}}{\partial y}]}^{-} {[\frac{\partial ϵ}{\partial \tilde{s}}]}^{+} + {[\frac{\partial {\tilde{s}}^{T}}{\partial y}]}^{+} {[\frac{\partial ϵ}{\partial \tilde{s}}]}^{-}

其中，为语音部分通过预先训练的字典的重构,因此有

{[\frac{\partial {\tilde{s}}^{T}}{\partial y}]}^{+} = D, {[\frac{\partial {\tilde{s}}^{T}}{\partial y}]}^{-} = 0

h^(l+1)＝W^(l+1)σ(h^l)+b^(l+1)

p^(k+1)＝V^(l+1)σ(p^l)+c^(l+1)

其中1≤k≤k₀-1是各层的序号，和分别为最底层的输入和最顶层的输出；有了上面的层级记法，ε关于偏导数的偏导数如下所示：

\frac{\partial ϵ}{\partial \tilde{s}} = \frac{\partial {(σ (h^{(1)}))}^{T}}{\partial \tilde{s}} \frac{\partial ϵ}{\partial σ (h^{(1)})} + \frac{\partial {(σ (p^{(1)}))}^{T}}{\partial \tilde{s}} \frac{\partial ϵ}{\partial σ (p^{(1)})}

的正部和负部通过计算得到，因此使用自底向上求取：

\begin{matrix} {[\frac{\partial ϵ}{\partial σ (h^{(l)})}]}^{+} \\ = {[\frac{\partial {(h^{(l + 1)})}^{T}}{\partial σ (h^{(l)})}]}^{+} [\frac{\partial {(σ (h^{(l + 1)}))}^{T}}{\partial h^{(l + 1)}}] {[\frac{\partial ϵ}{\partial σ (h^{(l + 1)})}]}^{+} \\ + {[\frac{\partial {(h^{l + 1})}^{T}}{\partial σ (h^{(l)})}]}^{-} [\frac{\partial {(σ (h^{(l + 1)}))}^{T}}{\partial h^{(l + 1)}}] {[\frac{\partial ϵ}{\partial σ (h^{(l + 1)})}]}^{-} \\ = {[W^{(l + 1)}]}^{-, T} d i a g (I (h^{(l + 1)})) {[\frac{\partial ϵ}{\partial σ (h^{(l + 1)})}]}^{+} \\ + {[W^{(l + 1)}]}^{-, T} d i a g (I (h^{(l + 1)})) {[\frac{\partial ϵ}{\partial σ (h^{(l + 1)})}]}^{-} \end{matrix}

\begin{matrix} {[\frac{\partial ϵ}{\partial σ (h^{(l)})}]}^{-} \\ = {[\frac{\partial {(h^{(l + 1)})}^{T}}{\partial σ (h^{(l)})}]}^{-} [\frac{\partial {(σ (h^{(l + 1)}))}^{T}}{\partial h^{(l + 1)}}] {[\frac{\partial ϵ}{\partial σ (h^{(l + 1)})}]}^{+} \\ + {[\frac{\partial {(h^{l + 1})}^{T}}{\partial σ (h^{(l)})}]}^{+} [\frac{\partial {(σ (h^{(l + 1)}))}^{T}}{\partial h^{(l + 1)}}] {[\frac{\partial ϵ}{\partial σ (h^{(l + 1)})}]}^{-} \\ = {[W^{(l + 1)}]}^{-, T} d i a g (I (h^{(l + 1)})) {[\frac{\partial ϵ}{\partial σ (h^{(l + 1)})}]}^{+} \\ + {[W^{(l + 1)}]}^{+, T} d i a g (I (h^{(l + 1)})) {[\frac{\partial ϵ}{\partial σ (h^{(l + 1)})}]}^{-} \end{matrix}

{[\frac{\partial ϵ}{\partial σ (h^{(l_{0})})}]}^{+} = σ (h^{(l_{0})}) + σ (p^{(k_{0})}) + 2 α (σ (p^{(k_{0})})), {[\frac{\partial ϵ}{\partial σ (h^{(l_{0})})}]}^{-} = x + 2 α (σ (h^{(l_{0})})),

和使用上述方法来求取；

2)噪声深度自动编码机g(y)中参数的更新

{[\frac{\partial ϵ}{\partial σ (p^{(k_{0})})}]}^{+} = σ (h^{(l_{0})}) + σ (p^{(k_{0})}) + 2 α (σ (h^{(l_{0})})) [\frac{\partial ϵ}{\partial σ (p^{(k_{0})})}] = x + 2 α (σ (p^{(k_{0})}))

通过分别使用V^(k)和c^(k)替代W^(l)和b^(l)，就能够得到任何从k₀-1到2中任意的k值由于V^(k)的非负性，其负部永远是0；因此，重构误差ε关于噪声深度自动编码机的参数的偏导数为：

\begin{matrix} {[\frac{&PartialD; ϵ}{&PartialD; V_{i, j}^{(k)}}]}^{+} \\ = {[&PartialD; {(p^{(k)})}^{T}]}^{+} [\frac{&PartialD; {(σ (p^{(k)}))}^{T}}{{&PartialD; p}^{(k)}}] {[\frac{&PartialD; ϵ}{&PartialD; σ (p^{(k)})}]}^{+} \\ + {[\frac{&PartialD; {(p^{(k)})}^{T}}{{&PartialD; V}_{i, j}^{(k)}}]}^{-} [\frac{&PartialD; {(σ (p^{(k)}))}^{T}}{{&PartialD; p}^{(k)}}] {[\frac{&PartialD; ϵ}{&PartialD; σ (p^{(k)})}]}^{-} \\ = {[σ (p^{(k - 1)})]}^{+, T} {[\frac{&PartialD; ϵ}{{&PartialD; p}^{(k)}}]}^{+} + {[σ (p^{(k - 1)})]}^{-, T} {[\frac{&PartialD; ϵ}{{&PartialD; p}^{(k)}}]}^{-} \\ = {(p^{(k - 1)})}^{T} {[\frac{&PartialD; ϵ}{{&PartialD; p}^{(k)}}]}^{+} \end{matrix}

\begin{matrix} {[\frac{&PartialD; ϵ}{{&PartialD; c}_{i}^{(k)}}]}^{+} \\ = {[\frac{&PartialD; {(p^{(k)})}^{T}}{{&PartialD; c}_{i}^{(k)}}]}^{+} [\frac{&PartialD; {(σ (p^{(k)}))}^{T}}{{&PartialD; p}^{(k)}}] {[\frac{&PartialD; ϵ}{&PartialD; σ (p^{(k)})}]}^{+} \\ + {[\frac{&PartialD; {(p^{(k)})}^{T}}{{&PartialD; c}_{i}^{(k)}}]}^{-} [\frac{&PartialD; {(σ (p^{(k)}))}^{T}}{{&PartialD; p}^{(k)}}] {[\frac{&PartialD; ϵ}{&PartialD; σ (p^{(k)})}]}^{-} \\ = 1^{T} {[\frac{&PartialD; ϵ}{{&PartialD; p}^{(k)}}]}^{+} \end{matrix} .