CN102915742B - 基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法 - Google Patents

基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法 Download PDF

Info

Publication number
CN102915742B
CN102915742B CN201210428465.8A CN201210428465A CN102915742B CN 102915742 B CN102915742 B CN 102915742B CN 201210428465 A CN201210428465 A CN 201210428465A CN 102915742 B CN102915742 B CN 102915742B
Authority
CN
China
Prior art keywords
voice
matrix
noise
rank
amplitude spectrum
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210428465.8A
Other languages
English (en)
Other versions
CN102915742A (zh
Inventor
张雄伟
黄建军
吴海佳
贾冲
曾理
周彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PLA University of Science and Technology
Original Assignee
PLA University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PLA University of Science and Technology filed Critical PLA University of Science and Technology
Priority to CN201210428465.8A priority Critical patent/CN102915742B/zh
Publication of CN102915742A publication Critical patent/CN102915742A/zh
Application granted granted Critical
Publication of CN102915742B publication Critical patent/CN102915742B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法。该方法首先使用短时傅里叶变换将带噪语音时域波形变换到时频域从而得到带噪语音的幅度谱;利用低秩与稀疏矩阵分解算法将带噪语音的幅度谱分解为噪声幅度谱、语音幅度谱和残余噪声幅度谱三者之和;最后,利用短时傅里叶逆变换从语音的幅度谱中重构出的语音时域波形。本发明不需要语音和噪声的任何先验信息,属于无监督的单通道语噪分离方法,算法从带噪语音中直接分离出纯净语音,简单有效,特别适用于强噪声环境下的人声提取。

Description

基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法
技术领域
本发明属于语音信号处理技术领域,是关于一种语音噪声分离方法,特别是基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法。
背景技术
语噪分离(Speech and noise separation)就是为了实现在复杂噪声环境中分离出目标说话人语音而对带噪语音所做的处理,其中主要目标就是消除环境噪声对语音的干扰,提高语音质量。语噪分离可以说是语音增强(Speech Enhancement)算法的一种扩展,其处理的噪声甚至可以包括其他说话人语音。
在上个世纪,由于计算机计算能力限制,人们的目光主要集中在算法复杂度较低且实现简便的单通道语音增强或语音去噪(Speech denoising)算法中。在这一类算法中典型的有如谱减法(Spectral Subtraction)、维纳滤波法(Wiener Filter)、基于短时幅度谱的最小均方误差估计方法(minimum mean square error approach forshort time spectral amplitude estimation)、信号子空间法(Signal Subspace)、小波去噪法(Wavelet Denoise)。这类算能够在一定程度上消除部分噪声,但在现实环境中的消噪效果往往并不理想。在现实环境下的噪声抑制仍然是一项富有挑战的课题,特别地,在低信噪比和受多种类型噪声污染的情况下,语音消噪效果往往难于满足实际应用需求。
随着计算机能力的飞速提高,许多学者提出了基于盲源分离思想的语噪分离算法以进一步抑制噪声,典型的有:(1)非负稀疏编码(Non-negative Sparse Coding,NNSC)。利用非负稀疏编码(NNSC)构造噪声字典并在固定噪声字典的情况下更新语音字典,最后联合语音字典和其对应的投影系数重构出语音幅度谱,去除噪声干扰。(Mikkel N.Schmidt,Jan Larsen and Fu-Tien Hsiao.Wind noise reductionusing non-negative sparse coding.IEEE Workshop on Machine Learning for SignalProcessing,2007;431-436.)(2)非负矩阵分解(Non-negative Matrix Factorization,NMF)方法。基于NMF算法,通过训练构造语音和噪声的字典,并将其组合成一个联合字典,利用非负矩阵分解更新带噪语音在联合字典下的投影系数,实现语音去噪。(K.Wilson,B.Raj,P.Smaragdis,and A.Divakaran.Speech denoisingusing nonnegative matrix factorization with priors.ICASSP,2008;4029-4032.)。但是该方法需要依赖于说话人特征,在实际语音通信系统中难以应用。(3)K-SVD方法。Christian D.Sigg在离线的情况下运用K-SVD算法训练语音字典,在语音停顿的时刻在线学习噪声字典的,然后构造一个由语音字典和噪声字典组合而成的合成字典,通过对带噪语音在合成字典下的稀疏编码得到语音信号的估计,从而实现语音与噪声的分离。(Christian D.Sigg,Tomas Dikk and Joachim M.Buhmann,Speech enhancement with sparse coding in learned dictionaries.ICASSP,2010;4758-4761.)。采用盲源分离的思想实现语音去噪的一个显著优势就是这类算法对噪声能量不敏感,特别适合于极低信噪比条件下的语音去噪。然而,由于目前的语噪分离算法大都依赖于先验知识,即需要事先对语音或噪声数据进行训练,这一特点限制了这些算法在实际场合的应用。
发明内容
本发明的目的在于提供了一种基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法,在不需要噪声先验知识的前提下提升了语噪分离系统的性能,改善了分离后语音的质量。
实现本发明目的的技术解决方案为:一种基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法,从带噪语音中直接分离出纯净语音,包括如下步骤:
(1)利用短时傅里叶变换将带噪语音时域波形y(n)变换到时频域,得到带噪语音的幅度谱M;
(2)利用低秩与稀疏矩阵分解算法对带噪语音的幅度谱M进行分解,获得噪声的幅度谱L、语音的幅度谱S和残余噪声的幅度谱R,分解为如下形式:
M=L+S+R,rank(L)≤r,card(S)≤c,
这里,称为低秩噪声矩阵,称为稀疏语音矩阵,称为残余噪声矩阵,rank(L)表示矩阵L的秩,card(S)表示矩阵S的势,即矩阵非零元素个数;
(3)使用短时傅里叶逆变换从语音的幅度谱S中重构出的纯净语音的时域波形
本发明与现有技术相比,其显著优点:本发明直接将带噪语音分解为噪声矩阵和语音矩阵之和,避免了NMF,NNSC等方法需要分解和重构的复杂过程,在提升噪声抑制能力的同时减少了语音的重构误差,提高了语音质量;同时,由于本发明不需要预先训练或提取任何特征值,属于无监督的分离方法,具有更大的实用价值。
下面结合附图对本发明作进一步详细描述。
附图说明
图1是本发明所公开的基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法的流程图。
图2是本发明所公开的基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法中,利用短时傅里叶变换将带噪语音时域波形y(n)变换到时频域,得到带噪语音的幅度谱Y流程图;
图3是本发明所公开的基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法中,利用低秩与稀疏矩阵分解算法对带噪语音的幅度谱M进行分解,获得噪声的幅度谱L、语音的幅度谱S和残余噪声的幅度谱R的流程图;
图4是应用本发明的较佳实施例的实施过程示意图。
具体实施方式
首先,图1为本发明所公开的基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法流程图,其针对一段带噪语音资料,将带噪语音中的噪声和语音分离处理,实现噪声的抑制。首先利用短时傅里叶变换将带噪语音时域波形y(n)变换到时频域,得到带噪语音的幅度谱M(步骤100);利用低秩与稀疏矩阵分解算法对带噪语音的幅度谱M进行分解,获得噪声的幅度谱L、语音的幅度谱S和残余噪声的幅度谱R(步骤200);使用短时傅里叶逆变换从语音的幅度谱S中重构出的纯净语音的时域波形(步骤300)。
1、其中步骤100包括如图2所示的流程。①首先对带噪语音信号y(n)进行分帧加窗处理,窗函数为Hamming窗,帧长为N,帧间移动长度为H(步骤110)。一般情况下,N取为2的整数次幂,如256或512等。经过对比测试,设置H=N/2可取得较好效果。
②对分帧后的语音帧进行K点离散傅里叶变换,获得语音的时频谱Y(k,t),具体计算公式如下:
Y ( k , t ) = ∑ n = 0 K - 1 y ( tH + n ) h ( n ) e - j 2 πkn / K , 0 ≤ k ≤ K - 1
这里,k=0,1,…,K-1表示离散频率点,K表示离散傅里叶变换时的频率点数,一般取K=N,t=0,1,…,T-1表示帧序号,T是指对y(n)分帧后的总帧数,h(n)为Hamming窗函数(步骤120);
③对频谱Y(k,t)取绝对值,则得到y(n)的幅度谱M,具体计算公式为如下:
M(k,t)=|Y(k,t)|
至此,由M(k,t)元素组成K×T矩阵M即表示y(n)的幅度谱(步骤130)。
2、在步骤200中,利用低秩与稀疏矩阵分解算法对带噪语音的幅度谱M进行分解,获得噪声的幅度谱L、语音的幅度谱S和残余噪声的幅度谱R,是指分解为如下形式:
M=L+S+R,rank(L)≤r,card(S)≤c,
这里,称为低秩噪声矩阵,称为稀疏语音矩阵,称为残余噪声矩阵,rank(L)表示矩阵L的秩,card(S)表示矩阵S的势,即矩阵非零元素个数,r取较小的正整数,c取较大的正整数,经过对比测试,r的取值范围为2~5时,c取值范围为2000~4000时能取得较好的去噪效果。
在步骤200中,利用低秩与稀疏矩阵分解算法对带噪语音的幅度谱M进行分解,获得噪声的幅度谱L、语音的幅度谱S和残余噪声的幅度谱R,该步骤更包括如图3所示的流程。其中在步骤210中,①初始化L和S,首先令L=M,S=0。这里K表示离散傅里叶变换时的频率点数,T表示总帧数;
②在步骤220中,使用如下公式对进行更新:
L ~ = M - S i
这里为L的预估计值,Si是第i次迭代时对S的估计值。
③在步骤230中,对进行随机投影,即令同时令A2=Y1,其中A1为随机矩阵。
④在步骤240中,令并对其进行QR分解,即同理令这里Q1,Q2和R1,R2分别为QR分解后得到的左矩阵和右矩阵。
⑤在步骤250中,如果否则跳转到步骤260。
⑥在步骤260中,使用如下公式对L和S进行更新:
L i + 1 = Q 1 [ R 1 ( A 2 T Y 1 ) - 1 R 2 T ] Q 2 T
Si+1=PΩ(M-Li+1),
这里Li+1和Si+1分别是L和S第i+1次迭代时的估计值,Ω表示矩阵|(M-Li+1)|前面k个最大元素构成的非零子集。
⑦在步骤270中,若则停止迭代,否则跳转到步骤220。这里ε为判定阈值,推荐判定阈值的取值范围为10-5
3、在步骤300中,使用短时傅里叶逆变换从语音的幅度谱S中重构出的纯净语音的时域波形步骤中重构公式如下:
s ^ ( n ) = 1 H ( 0 ) ∑ t = - ∞ ∞ [ 1 K ∑ k = 0 K - 1 S ( k , t ) e j 2 πkn / K ]
这里,h(n)为Hamming窗函数,K表示离散傅里叶逆变换时的频率点数,S(k,t)为分解得到语音幅度谱。
实施例
图4为对一段带噪语音资料进行语噪分离的示意图,其中语音的采样率为8KHz,分帧时窗长L为256,帧移R为128,对每帧进行离散傅里叶变换时,频率点数K=256,对带噪语音时频谱进行低秩与稀疏矩阵分解时,r取值为2,c取值为3000。从图中可以看出,带噪语音y(n)经过本方法的语噪分离后,能够很大程度消除噪声干扰并得到纯净的语音

Claims (3)

1.一种基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法,其特征在于从带噪语音中直接分离出纯净语音,包括如下步骤:
(1)利用短时傅里叶变换将带噪语音时域波形y(n)变换到时频域,得到带噪语音的幅度谱M;
(2)利用低秩与稀疏矩阵分解算法对带噪语音的幅度谱M进行分解,获得噪声的幅度谱L、语音的幅度谱S和残余噪声的幅度谱R,分解为如下形式:
M=L+S+R,rank(L)≤r,card(S)≤c,
这里,称为低秩噪声矩阵,称为稀疏语音矩阵,称为残余噪声矩阵,rank(L)表示矩阵L的秩,card(S)表示矩阵S的势,即矩阵非零元素个数;r的取值范围为2~5,c取值范围为2000~4000;
(3)使用短时傅里叶逆变换从语音的幅度谱S中重构出的纯净语音的时域波形
其中步骤(2)的分解步骤如下:
①初始化L和S:首先令L=M,S=0,这里K表示离散傅里叶变换时的频率点数,T表示总帧数;
②使用如下公式对进行更新:
L ~ = M - S i
这里为L的预估计值,Si是第i次迭代时对S的估计值;
③对进行随机投影,即令同时令A2=Y1,其中A1为随机矩阵;
④令Y1并对其进行QR分解,即Y1=Q2R2;同理令Y2=Q1R1
这里Q1,Q2和R1,R2分别为QR分解后得到的左矩阵和右矩阵;
⑤如果否则跳转到步骤②;
⑥使用如下公式对L和S进行更新:
L i + 1 = Q 1 [ R 1 ( A 2 T Y 1 ) - 1 R 2 T ] Q 2 T
Si+1=PΩ(M-Li+1),
这里Li+1和Si+1分别是L和S第i+1次迭代时的估计值,Ω表示矩阵|(M-Li+1)|前面k个最大元素构成的非零子集;
⑦若则停止迭代,否则跳转到步骤②,这里ε为判定阈值,推荐判定阈值的取值范围为[10-5,10-4])。
2.根据权利要求1所述的基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法,其特征在于步骤(1)的处理过程为:
①对带噪语音信号y(n)进行分帧加窗处理,窗函数为Hamming窗,帧长为N,帧间移动长度为H,N取为2的整数次幂;
②对分帧后的语音帧进行K点离散傅里叶变换,获得语音的时频谱Y(k,t),具体计算公式如下:
Y ( k , t ) = Σ n = 0 K - 1 y ( tH + n ) h ( n ) e - j 2 πkn / K , 0 ≤ k ≤ K - 1
这里,k=0,1,…,K-1表示离散频率点,K表示离散傅里叶变换时的频率点数,K=N,t=0,1,…,T-1表示帧序号,T是指对y(n)分帧后的总帧数,h(n)为Hamming窗函数;
③对频谱Y(k,t)取绝对值,则得到y(n)的幅度谱M,具体计算公式为如下:
M(k,t)=|Y(k,t)|
至此,由M(k,t)元素组成K×T矩阵M即表示y(n)的幅度谱。
3.根据权利要求1所述的基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法,其特征在于步骤(3)的重构公式如下:
s ^ ( n ) = 1 H ( 0 ) Σ t = - ∞ ∞ [ 1 K Σ k = 0 K - 1 S ( k , t ) e j 2 πkn / K ]
这里,h(n)为Hamming窗函数,K表示离散傅里叶逆变换时的频率点数,S(k,t)为分解得到语音幅度谱。
CN201210428465.8A 2012-10-30 2012-10-30 基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法 Active CN102915742B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210428465.8A CN102915742B (zh) 2012-10-30 2012-10-30 基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210428465.8A CN102915742B (zh) 2012-10-30 2012-10-30 基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法

Publications (2)

Publication Number Publication Date
CN102915742A CN102915742A (zh) 2013-02-06
CN102915742B true CN102915742B (zh) 2014-07-30

Family

ID=47614078

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210428465.8A Active CN102915742B (zh) 2012-10-30 2012-10-30 基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法

Country Status (1)

Country Link
CN (1) CN102915742B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103559886B (zh) * 2013-09-24 2017-04-12 浙江大学 基于组稀疏低秩表达的语音信号增强方法
CN103559888B (zh) * 2013-11-07 2016-10-05 航空电子系统综合技术重点实验室 基于非负低秩和稀疏矩阵分解原理的语音增强方法
US10013975B2 (en) 2014-02-27 2018-07-03 Qualcomm Incorporated Systems and methods for speaker dictionary based speech modeling
CN104021797A (zh) * 2014-06-19 2014-09-03 南昌大学 一种基于频域稀疏约束的语音信号增强方法
EP3010017A1 (en) * 2014-10-14 2016-04-20 Thomson Licensing Method and apparatus for separating speech data from background data in audio communication
CN104505100B (zh) * 2015-01-06 2017-12-12 中国人民解放军理工大学 一种基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法
CN105023580B (zh) * 2015-06-25 2018-11-13 中国人民解放军理工大学 基于可分离深度自动编码技术的无监督噪声估计和语音增强方法
CN107767860B (zh) * 2016-08-15 2023-01-13 中兴通讯股份有限公司 一种语音信息处理方法和装置
CN108573698B (zh) * 2017-03-09 2021-06-08 中国科学院声学研究所 一种基于性别融合信息的语音降噪方法
CN108399368B (zh) * 2018-01-31 2021-08-20 中南大学 一种人工源电磁法观测信号去噪方法
CN108899045A (zh) * 2018-06-29 2018-11-27 中国航空无线电电子研究所 基于约束低秩与稀疏分解的子空间语音增强方法
CN108986834B (zh) * 2018-08-22 2023-04-07 中国人民解放军陆军工程大学 基于编解码器架构与递归神经网络的骨导语音盲增强方法
CN109658944B (zh) * 2018-12-14 2020-08-07 中国电子科技集团公司第三研究所 直升机声信号增强方法及装置
CN111863014B (zh) * 2019-04-26 2024-09-17 北京嘀嘀无限科技发展有限公司 一种音频处理方法、装置、电子设备和可读存储介质
CN111508518B (zh) * 2020-05-18 2022-05-13 中国科学技术大学 一种基于联合字典学习和稀疏表示的单通道语音增强方法
CN111696568B (zh) * 2020-06-16 2022-09-30 中国科学技术大学 一种半监督瞬态噪声抑制方法
CN111739551A (zh) * 2020-06-24 2020-10-02 广东工业大学 一种基于低秩与稀疏张量分解的多通道心肺音去噪系统
CN115083390A (zh) * 2021-03-10 2022-09-20 Oppo广东移动通信有限公司 声源距离排序方法及相关产品

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007047427A (ja) * 2005-08-10 2007-02-22 Hitachi Ltd 音声処理装置
EP2061028A2 (en) * 2007-11-19 2009-05-20 Mitsubishi Electric Corporation Denoising acoustic signals using constrained non-negative matrix factorization
CN102290047A (zh) * 2011-09-22 2011-12-21 哈尔滨工业大学 基于稀疏分解与重构的鲁棒语音特征提取方法
CN102332268A (zh) * 2011-09-22 2012-01-25 王天荆 基于自适应冗余字典的语音信号稀疏表示方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007047427A (ja) * 2005-08-10 2007-02-22 Hitachi Ltd 音声処理装置
EP2061028A2 (en) * 2007-11-19 2009-05-20 Mitsubishi Electric Corporation Denoising acoustic signals using constrained non-negative matrix factorization
CN102290047A (zh) * 2011-09-22 2011-12-21 哈尔滨工业大学 基于稀疏分解与重构的鲁棒语音特征提取方法
CN102332268A (zh) * 2011-09-22 2012-01-25 王天荆 基于自适应冗余字典的语音信号稀疏表示方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《一种基于非负矩阵分解的语音增强算法》;隋璐瑛等;《军事通信技术》;20120321;第33卷(第1期);论文第2节语音增强方案及图1 *
隋璐瑛等.《一种基于非负矩阵分解的语音增强算法》.《军事通信技术》.2012,第33卷(第1期),

Also Published As

Publication number Publication date
CN102915742A (zh) 2013-02-06

Similar Documents

Publication Publication Date Title
CN102915742B (zh) 基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法
CN104505100B (zh) 一种基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法
CN103559888B (zh) 基于非负低秩和稀疏矩阵分解原理的语音增强方法
CN103854662B (zh) 基于多域联合估计的自适应语音检测方法
CN100543842C (zh) 基于多统计模型和最小均方误差实现背景噪声抑制的方法
CN103594094B (zh) 自适应谱减法实时语音增强
CN104464728A (zh) 基于gmm噪声估计的语音增强方法
CN106340292A (zh) 一种基于连续噪声估计的语音增强方法
CN111508518B (zh) 一种基于联合字典学习和稀疏表示的单通道语音增强方法
CN102436809A (zh) 英语口语机考系统中网络语音识别方法
CN102969000A (zh) 一种多通道语音增强方法
CN106373559A (zh) 一种基于对数谱信噪比加权的鲁棒特征提取方法
van Hout et al. A novel approach to soft-mask estimation and log-spectral enhancement for robust speech recognition
Wang et al. Joint noise and mask aware training for DNN-based speech enhancement with sub-band features
CN105575405A (zh) 一种双麦克风语音激活检测方法及语音采集设备
CN104240717B (zh) 基于稀疏编码和理想二进制掩膜相结合的语音增强方法
CN102332268B (zh) 基于自适应冗余字典的语音信号稀疏表示方法
CN102637438B (zh) 一种语音滤波方法
He et al. Spectrum enhancement with sparse coding for robust speech recognition
Farooq et al. Wavelet-based denoising for robust feature extraction for speech recognition
CN113571074B (zh) 基于多波段结构时域音频分离网络的语音增强方法及装置
Rassem et al. Restoring the missing features of the corrupted speech using linear interpolation methods
CN104064197A (zh) 一种基于语音帧间动态信息提高语音识别鲁棒性的方法
TWI749547B (zh) 應用深度學習的語音增強系統
Wei et al. A novel prewhitening subspace method for enhancing speech corrupted by colored noise

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant