CN102915742B

CN102915742B - 基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法

Info

Publication number: CN102915742B
Application number: CN201210428465.8A
Authority: CN
Inventors: 张雄伟; 黄建军; 吴海佳; 贾冲; 曾理; 周彬
Original assignee: PLA University of Science and Technology
Current assignee: PLA University of Science and Technology
Priority date: 2012-10-30
Filing date: 2012-10-30
Publication date: 2014-07-30
Anticipated expiration: 2032-10-30
Also published as: CN102915742A

Abstract

本发明公开了一种基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法。该方法首先使用短时傅里叶变换将带噪语音时域波形变换到时频域从而得到带噪语音的幅度谱；利用低秩与稀疏矩阵分解算法将带噪语音的幅度谱分解为噪声幅度谱、语音幅度谱和残余噪声幅度谱三者之和；最后，利用短时傅里叶逆变换从语音的幅度谱中重构出的语音时域波形。本发明不需要语音和噪声的任何先验信息，属于无监督的单通道语噪分离方法，算法从带噪语音中直接分离出纯净语音，简单有效，特别适用于强噪声环境下的人声提取。

Description

基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法

技术领域

本发明属于语音信号处理技术领域，是关于一种语音噪声分离方法，特别是基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法。

背景技术

语噪分离(Speech and noise separation)就是为了实现在复杂噪声环境中分离出目标说话人语音而对带噪语音所做的处理，其中主要目标就是消除环境噪声对语音的干扰，提高语音质量。语噪分离可以说是语音增强(Speech Enhancement)算法的一种扩展，其处理的噪声甚至可以包括其他说话人语音。

在上个世纪，由于计算机计算能力限制，人们的目光主要集中在算法复杂度较低且实现简便的单通道语音增强或语音去噪(Speech denoising)算法中。在这一类算法中典型的有如谱减法(Spectral Subtraction)、维纳滤波法(Wiener Filter)、基于短时幅度谱的最小均方误差估计方法(minimum mean square error approach forshort time spectral amplitude estimation)、信号子空间法(Signal Subspace)、小波去噪法(Wavelet Denoise)。这类算能够在一定程度上消除部分噪声，但在现实环境中的消噪效果往往并不理想。在现实环境下的噪声抑制仍然是一项富有挑战的课题，特别地，在低信噪比和受多种类型噪声污染的情况下，语音消噪效果往往难于满足实际应用需求。

随着计算机能力的飞速提高，许多学者提出了基于盲源分离思想的语噪分离算法以进一步抑制噪声，典型的有：（1）非负稀疏编码(Non-negative Sparse Coding,NNSC)。利用非负稀疏编码(NNSC)构造噪声字典并在固定噪声字典的情况下更新语音字典，最后联合语音字典和其对应的投影系数重构出语音幅度谱，去除噪声干扰。（Mikkel N.Schmidt,Jan Larsen and Fu-Tien Hsiao.Wind noise reductionusing non-negative sparse coding.IEEE Workshop on Machine Learning for SignalProcessing,2007;431-436.）（2）非负矩阵分解（Non-negative Matrix Factorization,NMF）方法。基于NMF算法，通过训练构造语音和噪声的字典，并将其组合成一个联合字典，利用非负矩阵分解更新带噪语音在联合字典下的投影系数，实现语音去噪。（K.Wilson,B.Raj,P.Smaragdis,and A.Divakaran.Speech denoisingusing nonnegative matrix factorization with priors.ICASSP，2008;4029-4032.）。但是该方法需要依赖于说话人特征，在实际语音通信系统中难以应用。（3）K-SVD方法。Christian D.Sigg在离线的情况下运用K-SVD算法训练语音字典，在语音停顿的时刻在线学习噪声字典的，然后构造一个由语音字典和噪声字典组合而成的合成字典，通过对带噪语音在合成字典下的稀疏编码得到语音信号的估计，从而实现语音与噪声的分离。（Christian D.Sigg,Tomas Dikk and Joachim M.Buhmann,Speech enhancement with sparse coding in learned dictionaries.ICASSP，2010;4758-4761.）。采用盲源分离的思想实现语音去噪的一个显著优势就是这类算法对噪声能量不敏感，特别适合于极低信噪比条件下的语音去噪。然而，由于目前的语噪分离算法大都依赖于先验知识，即需要事先对语音或噪声数据进行训练，这一特点限制了这些算法在实际场合的应用。

发明内容

本发明的目的在于提供了一种基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法，在不需要噪声先验知识的前提下提升了语噪分离系统的性能，改善了分离后语音的质量。

实现本发明目的的技术解决方案为：一种基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法，从带噪语音中直接分离出纯净语音，包括如下步骤：

（1）利用短时傅里叶变换将带噪语音时域波形y(n)变换到时频域，得到带噪语音的幅度谱M；

（2）利用低秩与稀疏矩阵分解算法对带噪语音的幅度谱M进行分解，获得噪声的幅度谱L、语音的幅度谱S和残余噪声的幅度谱R，分解为如下形式：

M＝L+S+R,rank(L)≤r,card(S)≤c,

这里，称为低秩噪声矩阵，称为稀疏语音矩阵，称为残余噪声矩阵，rank(L)表示矩阵L的秩，card(S)表示矩阵S的势，即矩阵非零元素个数；

（3）使用短时傅里叶逆变换从语音的幅度谱S中重构出的纯净语音的时域波形

本发明与现有技术相比，其显著优点：本发明直接将带噪语音分解为噪声矩阵和语音矩阵之和，避免了NMF，NNSC等方法需要分解和重构的复杂过程，在提升噪声抑制能力的同时减少了语音的重构误差，提高了语音质量；同时，由于本发明不需要预先训练或提取任何特征值，属于无监督的分离方法，具有更大的实用价值。

下面结合附图对本发明作进一步详细描述。

附图说明

图1是本发明所公开的基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法的流程图。

图2是本发明所公开的基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法中，利用短时傅里叶变换将带噪语音时域波形y(n)变换到时频域，得到带噪语音的幅度谱Y流程图；

图3是本发明所公开的基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法中，利用低秩与稀疏矩阵分解算法对带噪语音的幅度谱M进行分解，获得噪声的幅度谱L、语音的幅度谱S和残余噪声的幅度谱R的流程图；

图4是应用本发明的较佳实施例的实施过程示意图。

具体实施方式

首先，图1为本发明所公开的基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法流程图，其针对一段带噪语音资料，将带噪语音中的噪声和语音分离处理，实现噪声的抑制。首先利用短时傅里叶变换将带噪语音时域波形y(n)变换到时频域，得到带噪语音的幅度谱M（步骤100）；利用低秩与稀疏矩阵分解算法对带噪语音的幅度谱M进行分解，获得噪声的幅度谱L、语音的幅度谱S和残余噪声的幅度谱R（步骤200）；使用短时傅里叶逆变换从语音的幅度谱S中重构出的纯净语音的时域波形（步骤300）。

1、其中步骤100包括如图2所示的流程。①首先对带噪语音信号y(n)进行分帧加窗处理，窗函数为Hamming窗，帧长为N，帧间移动长度为H（步骤110）。一般情况下，N取为2的整数次幂，如256或512等。经过对比测试，设置H＝N/2可取得较好效果。

②对分帧后的语音帧进行K点离散傅里叶变换，获得语音的时频谱Y(k,t)，具体计算公式如下：

Y (k, t) = {&Sum;}_{n = 0}^{K - 1} y (tH + n) h (n) e^{- j 2 πkn / K}, 0 \leq k \leq K - 1

这里，k＝0,1,…,K-1表示离散频率点，K表示离散傅里叶变换时的频率点数，一般取K＝N，t＝0,1,…,T-1表示帧序号，T是指对y(n)分帧后的总帧数，h(n)为Hamming窗函数（步骤120）；

③对频谱Y(k,t)取绝对值，则得到y(n)的幅度谱M，具体计算公式为如下：

M(k,t)＝|Y(k,t)|

至此，由M(k,t)元素组成K×T矩阵M即表示y(n)的幅度谱（步骤130）。

2、在步骤200中，利用低秩与稀疏矩阵分解算法对带噪语音的幅度谱M进行分解，获得噪声的幅度谱L、语音的幅度谱S和残余噪声的幅度谱R，是指分解为如下形式：

M＝L+S+R,rank(L)≤r,card(S)≤c,

这里，称为低秩噪声矩阵，称为稀疏语音矩阵，称为残余噪声矩阵，rank(L)表示矩阵L的秩，card(S)表示矩阵S的势，即矩阵非零元素个数，r取较小的正整数，c取较大的正整数，经过对比测试，r的取值范围为2~5时，c取值范围为2000~4000时能取得较好的去噪效果。

在步骤200中，利用低秩与稀疏矩阵分解算法对带噪语音的幅度谱M进行分解，获得噪声的幅度谱L、语音的幅度谱S和残余噪声的幅度谱R，该步骤更包括如图3所示的流程。其中在步骤210中，①初始化L和S，首先令L＝M，S＝0。这里K表示离散傅里叶变换时的频率点数，T表示总帧数；

②在步骤220中，使用如下公式对进行更新：

\tilde{L} = M - S_{i}

这里为L的预估计值，S_i是第i次迭代时对S的估计值。

③在步骤230中，对进行随机投影，即令同时令A₂＝Y₁，其中A₁为随机矩阵。

④在步骤240中，令并对其进行QR分解，即同理令这里Q₁，Q₂和R₁，R₂分别为QR分解后得到的左矩阵和右矩阵。

⑤在步骤250中，如果则否则跳转到步骤260。

⑥在步骤260中，使用如下公式对L和S进行更新：

L_{i + 1} = Q_{1} [R_{1} {(A_{2}^{T} Y_{1})}^{- 1} R_{2}^{T}] Q_{2}^{T}

S_i+1＝P_Ω(M-L_i+1),

这里L_i+1和S_i+1分别是L和S第i+1次迭代时的估计值，Ω表示矩阵|(M-L_i+1)|前面k个最大元素构成的非零子集。

⑦在步骤270中，若则停止迭代，否则跳转到步骤220。这里ε为判定阈值，推荐判定阈值的取值范围为10^-5。

3、在步骤300中，使用短时傅里叶逆变换从语音的幅度谱S中重构出的纯净语音的时域波形步骤中重构公式如下：

\hat{s} (n) = \frac{1}{H (0)} {&Sum;}_{t = - \infty}^{\infty} [\frac{1}{K} {&Sum;}_{k = 0}^{K - 1} S (k, t) e^{j 2 πkn / K}]

这里，h(n)为Hamming窗函数,K表示离散傅里叶逆变换时的频率点数，S(k,t)为分解得到语音幅度谱。

实施例

图4为对一段带噪语音资料进行语噪分离的示意图，其中语音的采样率为8KHz，分帧时窗长L为256，帧移R为128，对每帧进行离散傅里叶变换时，频率点数K=256，对带噪语音时频谱进行低秩与稀疏矩阵分解时，r取值为2，c取值为3000。从图中可以看出，带噪语音y(n)经过本方法的语噪分离后，能够很大程度消除噪声干扰并得到纯净的语音

Claims

1.一种基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法，其特征在于从带噪语音中直接分离出纯净语音，包括如下步骤：

M＝L+S+R,rank(L)≤r,card(S)≤c,

这里，称为低秩噪声矩阵，称为稀疏语音矩阵，称为残余噪声矩阵，rank(L)表示矩阵L的秩，card(S)表示矩阵S的势，即矩阵非零元素个数；r的取值范围为2～5，c取值范围为2000～4000；

其中步骤（2）的分解步骤如下：

①初始化L和S：首先令L＝M，S＝0，这里K表示离散傅里叶变换时的频率点数，T表示总帧数；

②使用如下公式对进行更新：

\tilde{L} = M - S_{i}

这里为L的预估计值，S_i是第i次迭代时对S的估计值；

③对进行随机投影，即令同时令A₂＝Y₁，其中A₁为随机矩阵；

④令Y₁并对其进行QR分解，即Y₁＝Q₂R₂；同理令Y₂＝Q₁R₁，

这里Q₁，Q₂和R₁，R₂分别为QR分解后得到的左矩阵和右矩阵；

⑤如果则否则跳转到步骤②；

⑥使用如下公式对L和S进行更新：

L_{i + 1} = Q_{1} [R_{1} {(A_{2}^{T} Y_{1})}^{- 1} R_{2}^{T}] Q_{2}^{T}

S_i+1＝P_Ω(M-L_i+1),

这里L_i+1和S_i+1分别是L和S第i+1次迭代时的估计值，Ω表示矩阵|(M-L_i+1)|前面k个最大元素构成的非零子集；

⑦若则停止迭代，否则跳转到步骤②，这里ε为判定阈值，推荐判定阈值的取值范围为[10^-5,10^-4]）。

2.根据权利要求1所述的基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法，其特征在于步骤（1）的处理过程为：

①对带噪语音信号y(n)进行分帧加窗处理，窗函数为Hamming窗，帧长为N，帧间移动长度为H，N取为2的整数次幂；

Y (k, t) = Σ_{n = 0}^{K - 1} y (tH + n) h (n) e^{- j 2 πkn / K}, 0 \leq k \leq K - 1

这里，k＝0,1,…,K-1表示离散频率点，K表示离散傅里叶变换时的频率点数，K=N，t＝0,1,…,T-1表示帧序号，T是指对y(n)分帧后的总帧数，h(n)为Hamming窗函数；

M(k,t)＝|Y(k,t)|

至此，由M(k,t)元素组成K×T矩阵M即表示y(n)的幅度谱。

3.根据权利要求1所述的基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法，其特征在于步骤（3）的重构公式如下：

\hat{s} (n) = \frac{1}{H (0)} Σ_{t = - \infty}^{\infty} [\frac{1}{K} Σ_{k = 0}^{K - 1} S (k, t) e^{j 2 πkn / K}]