CN104505100B - 一种基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法 - Google Patents

一种基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法 Download PDF

Info

Publication number
CN104505100B
CN104505100B CN201510005690.4A CN201510005690A CN104505100B CN 104505100 B CN104505100 B CN 104505100B CN 201510005690 A CN201510005690 A CN 201510005690A CN 104505100 B CN104505100 B CN 104505100B
Authority
CN
China
Prior art keywords
mrow
msup
noise
estimation
munder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510005690.4A
Other languages
English (en)
Other versions
CN104505100A (zh
Inventor
孙蒙
张雄伟
李轶南
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PLA University of Science and Technology
Original Assignee
PLA University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PLA University of Science and Technology filed Critical PLA University of Science and Technology
Priority to CN201510005690.4A priority Critical patent/CN104505100B/zh
Publication of CN104505100A publication Critical patent/CN104505100A/zh
Application granted granted Critical
Publication of CN104505100B publication Critical patent/CN104505100B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法,该方法对输入的时域信号经过加窗、分帧后,经傅里叶变换并取模得到该语句的幅度谱;估计得到稀疏的语音成分和噪声基矩阵W(n);估计出语音分量和噪声分量后得到增强语音的估计;将鲁棒非负矩阵分解所得到的估计,与来自谱减SS和最小均方误差MMSE的估计,经过几何均值滤波模块融合,得到最终的幅度谱估计;利用幅度谱估计和含噪语音的相位重构出增强语音的时域信号。本发明不局限于语音内容所属的语言、不受限于说话人的变化、不受限于噪声的种类,与经典的基于平稳性假设的谱估计算法SS和MMSE相比,本发明不再依赖于这种平稳性假设,可以较准确的估计出平稳或突变噪声的频谱。

Description

一种基于鲁棒非负矩阵分解和数据融合的无监督语音增强 方法
技术领域
本发明属于语音信号处理领域,尤其涉及一种基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法。
背景技术
语音增强无论对于提高语音信号的听觉效果,还是作为前端处理提高语音识别器的性能,都具有重要的意义。语音增强实施中的一个关键问题是噪声估计。为了估计噪声的频谱,人们提出了一些经典的算法,如谱减(Spectrum Subtraction,SS)、最小均方误差(Minimum Mean Square Error,MMSE)等,并已经广泛应用在语音通信中。然而,这些方法一般基于噪声的平稳性假设,对于非平稳突变噪声的频谱估计效果很差。
为了估计突变噪声的频谱,近年来基于字典学习的噪声估计模型不断涌现,考虑到功率谱或幅度谱的非负性,非负字典学习成为噪声估计的一种热门方法。然而,非负噪声字典学习一般都需要提供噪声频谱或语音频谱作为先验知识,才能取得较好的效果。如Duan等先利用纯噪声频谱学习出噪声字典,再将此字典用于被该噪声污染的语音信号的增强;Chen等先利用纯语音频谱学习出一个通用的语音字典,再将此字典用于被噪声污染的同类语音信号的增强。
上述两类方法在是否需要事先训练方面的特点为:谱减和最小均方误差算法不需要关于噪声和语音的数据来实施事前训练——即该类方法是无监督的;非负字典学习方法依赖于在噪声或语音数据上的事前的训练——即该类方法是有监督的。
发明内容
本发明实施例的目的在于提供一种基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法,旨在解决现有的有监督的语音增强算法局限于语音内容所属的语言、受限于说话人的变化受限于噪声的种类的问题。
本发明是这样实现的,一种基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法是这样实现的:
步骤一、对输入的时域信号y(n),经过加窗、分帧后,对每帧实施短时傅里叶变换并取模得到该语句的幅度谱Y;
步骤二、利用鲁棒非负矩阵分解模块,估计得到稀疏的语音成分和噪声基矩阵W(n)
步骤三、将加权,与含噪语音幅度谱Y和噪声基矩阵W(n)一起输入到分块非负矩阵分解模块中,估计出语音分量W(s)H(s)和噪声分量W(n)H(n),经过维纳滤波后得到增强语音的估计
步骤四、将鲁棒非负矩阵分解所得到的估计,与来自谱减SS和最小均方误差MMSE的估计,经过几何均值滤波模块融合,得到最终的幅度谱估计;
步骤五、利用所得的幅度谱估计和含噪语音的相位,重构出增强语音的时域信号
进一步,W(n)和H(n)分别表示噪声的字典矩阵和激活系数矩阵,其中(n)指代的是噪声,S表示含噪语音的幅度谱图Y中去除噪声估计W(n)H(n)后的残留部分,W(n),H(n)和S的更新公式如下:
W(n)←W(n)□((Y%(W(n)H(n)+S))*(H(n))T),
H(n)←H(n)□((W(n))T*(Y%(W(n)H(n)+S))),
S←S□(Y%(W(n)H(n)+S)),
其中,□和%是指元素相乘和相除。
进一步,对S初始化的方法为:
首先设置S=0,然后运行W(n)和H(n)的迭代公式若干次,从而得到W(n)和H(n)的初始粗略估计,再通过对Y和W(n)H(n)对应元素的比值施加阈值η,
S=(Y%(W(n)H(n))≥η),
来决定每个时频点取0或1,阈值η的取值大于1。
进一步,所述的阈值η取值为2。
进一步,分块非负矩阵分解模块以含噪语音的幅度谱Y,干净语音幅度谱的初步估计和噪声基矩阵W(n)为输入,其最优化模型为:
其目标函数分为两部分的和,第一部分是含噪语音幅度谱Y与其重构W(n)H(n)+W(s)H(s)之间的KL散度;第二部分是以α加权后的干净语音幅度谱的初步估计与其重构W(s)H(s)之间的KL散度,W(s),H(s)和H(n)的迭代公式如下,
H(n)←H(n)□((W(n))T*(Y%(WH)),
其中,W:=[W(n)W(s)]和W(s)的每一列在每次迭代后被归一化,α取值小于1,最终的幅度谱估计为
进一步,所述的α=0.1。
进一步,几何均值滤波模块的几何滤波采用:
本发明的基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法可以灵活运用于各类语音处理场景的:不局限于语音内容所属的语言、不受限于说话人的变化、不受限于噪声的种类等,与经典的基于平稳性假设的谱估计算法SS和MMSE相比,本发明不再依赖于这种平稳性假设,可以较准确的估计出平稳或突变噪声的频谱。
附图说明
图1是本发明实施例提供的基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法流程图;
图2是本发明实施例提供的鲁棒非负矩阵分解在机枪噪声估计的效果示意图(输入信噪比为-5dB);
图3是本发明实施例提供的鲁棒非负矩阵分解RNMF与经典无监督算法SS和MMSE的效果对比。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本本发明,并不用于限定本发明。
下面结合附图及具体实施例对本发明的应用原理作进一步描述。
图1示出了本发明的基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法流程,如图所示,本发明是这样实现的,一种基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法是这样实现的:
S101、对输入的时域信号y(n),经过加窗、分帧后,对每帧实施短时傅里叶变换并取模得到该语句的幅度谱Y;
S102、利用鲁棒非负矩阵分解模块,估计得到稀疏的语音成分和噪声基矩阵W(n)
S103、将加权,与含噪语音幅度谱Y和噪声基矩阵W(n)一起输入到分块非负矩阵分解模块中,估计出语音分量W(s)H(s)和噪声分量W(n)H(n),经过维纳滤波后得到增强语音的估计
S104、将鲁棒非负矩阵分解所得到的估计,与来自谱减SS和最小均方误差MMSE的估计,经过几何均值滤波模块融合,得到最终的幅度谱估计;
S105、利用所得的幅度谱估计和含噪语音的相位,重构出增强语音的时域信号
进一步,W(n)和H(n)分别表示噪声的字典矩阵和激活系数矩阵,其中(n)指代的是噪声,S表示含噪语音的幅度谱图Y中去除噪声估计W(n)H(n)后的残留部分,W(n),H(n)和S的更新公式如下:
W(n)←W(n)□((Y%(W(n)H(n)+S))*(H(n))T),
H(n)←H(n)□((W(n))T*(Y%(W(n)H(n)+S))),
S←S□(Y%(W(n)H(n)+S)),
其中,□和%是指元素相乘和相除。
进一步,对S初始化的方法为:
首先设置S=0,然后运行W(n)和H(n)的迭代公式若干次,从而得到W(n)和H(n)的初始粗略估计,再通过对Y和W(n)H(n)对应元素的比值施加阈值η,
S=(Y%(W(n)H(n))≥η),
来决定每个时频点取0或1,阈值η的取值大于1。
进一步,所述的阈值η取值为2。
进一步,分块非负矩阵分解模块以含噪语音的幅度谱Y,干净语音幅度谱的初步估计和噪声基矩阵W(n)为输入,其最优化模型为:
其目标函数分为两部分的和,第一部分是含噪语音幅度谱Y与其重构W(n)H(n)+W(s)H(s)之间的KL散度;第二部分是以α加权后的干净语音幅度谱的初步估计与其重构W(s)H(s)之间的KL散度,W(s),H(s)和H(n)的迭代公式如下,
H(n)←H(n)□((W(n))T*(Y%(WH)),
其中,W:=[W(n)W(s)]和W(s)的每一列在每次迭代后被归一化,α取值小于1,最终的幅度谱估计为
进一步,所述的α=0.1。
进一步,几何均值滤波模块的几何滤波采用:
本发明实施例用100句含噪语音验证本发明的方法的效果。这些含噪样本从TIMIT的男女说话人中随机选取,在不同信噪比条件下加噪声而成。测试了来自Noizuse-92的15种噪声birds,casino,cicadas,computerkeyboard,eatingchips,f16,factory1,factory2,frogs,jungle,machineguns,motorcycles,ocean,pink,volvo,其中既包含了像f16这样的平稳噪声,也包含了像machinegun和computer keyboard这样的非平稳噪声,以检验算法应对各类噪声的性能。本发明所提出的散度型鲁棒非负矩阵分解在噪声估计上的效果如下图2所示,图中选取了非平稳的机枪噪声作为例子,左上图为含噪语音幅度谱图,右上图为目标函数的收敛性验证,左中图为分解后提取的对应语音的稀疏部分,右中图为估计所得的噪声幅度谱图,左下为干净语音幅度谱图,右下为噪声幅度谱图.对比右中图和右下图,可以看到本发明的方法在噪声估计方面的良好效果。
为了量化的对比所提方法与经典算法的效果,将信噪比以3dB为间隔在-9到3dB之间取值,对每组实验分别计算PESQ分值、“信号失真度”(Signal-to-Distortion Ratio,SDR)和增强信号的信噪比(Signal-to-NoiseRatio,SNR)。这些指标的值越大,说明增强的效果越好.从可以看出,本发明所提出的方法“散度型鲁棒非负矩阵分解”在SDR和SNR指标上改进了经典算法;经过几何均值滤波后,所得增强效果在PESQ、SDR和SNR三个指标上都对经典算法有明显提高.
为了对比所提方法与有监督和半监督方法的效果,选择最新提出的有监督方法IPLCA和半监督方法WHLE作为标尺。对比结果如表1所示,可以看出本发明所提方法虽然没有利用任何先验知识或数据做预先的训练,但在PEDQ分值上可以超过半监督算法WHLE、逼近有监督方法IPLCA;而在SDR指标上,逼近了半监督算法WHLE的性能.
表1 本发明所提方法与最新的有监督方法和半监督方法的效果对比
本发明的基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法可以灵活运用于各类语音处理场景的:不局限于语音内容所属的语言、不受限于说话人的变化、不受限于噪声的种类等,与经典的基于平稳性假设的谱估计算法SS和MMSE相比,本发明不再依赖于这种平稳性假设,可以较准确的估计出平稳或突变噪声的频谱。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法,其特征在于,所述的基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法包括:
步骤一、对输入的时域信号y(n),经过加窗、分帧后,对每帧实施短时傅里叶变换并取模得到该帧的幅度谱Y;
步骤二、利用鲁棒非负矩阵分解模块,估计得到稀疏的语音成分和噪声基矩阵W(n)
步骤三、将加权,与含噪语音幅度谱Y和噪声基矩阵W(n)一起输入到分块非负矩阵分解模块中,估计出语音分量W(s):H(s)和噪声分量W(n)H(n),经过维纳滤波后得到增强语音的估计
步骤四、将鲁棒非负矩阵分解所得到的估计,与来自谱减SS和最小均方误差MMSE的估计,经过几何均值滤波模块融合,得到最终的幅度谱估计;
步骤五、利用所得的幅度谱估计和含噪语音的相位,重构出增强语音的时域信号
W(n)和H(n)分别表示噪声的字典矩阵和激活系数矩阵,其中(n)指代的是噪声,S表示含噪语音的幅度谱图Y中去除噪声估计W(n)H(n)后的残留部分,W(n),H(n)和S的更新公式如下:
其中,*和%是指元素相乘和相除。
2.如权利要求1所述的基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法,其特征在于,对S初始化的方法为:
首先设置S=0,然后运行W(n)和H(n)的迭代公式若干次,从而得到W(n)和H(n)的初始粗略估计,再通过对Y和W(n)H(n)对应元素的比值施加阈值η,
S=(Y%(W(n)H(n))≥η),
来决定每个时频点取0或1,阈值η的取值大于1;
所述的阈值η取值为2。
3.如权利要求1所述的基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法,其特征在于,分块非负矩阵分解模块以含噪语音的幅度谱Y,干净语音幅度谱的初步估计和噪声基矩阵W(n)为输入,其最优化模型为:
<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <munder> <mrow> <mi>arg</mi> <mi>min</mi> </mrow> <mrow> <msup> <mi>W</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> </msup> <mo>,</mo> <msup> <mi>H</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> </msup> <mo>,</mo> <msup> <mi>H</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> </msup> </mrow> </munder> </mtd> <mtd> <mrow> <mi>K</mi> <mi>L</mi> <mi>D</mi> <mrow> <mo>(</mo> <mi>Y</mi> <mo>|</mo> <mo>|</mo> <mo>&amp;lsqb;</mo> <msup> <mi>W</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> </msup> <msup> <mi>W</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> </msup> <mo>&amp;rsqb;</mo> <mfenced open = "[" close = "]"> <mtable> <mtr> <mtd> <msup> <mi>H</mi> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> </msup> </mtd> </mtr> <mtr> <mtd> <msup> <mi>H</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> </msup> </mtd> </mtr> </mtable> </mfenced> <mo>)</mo> </mrow> <mo>+</mo> <mi>&amp;alpha;</mi> <mi>K</mi> <mi>L</mi> <mi>D</mi> <mrow> <mo>(</mo> <mover> <mi>S</mi> <mo>^</mo> </mover> <mo>|</mo> <mo>|</mo> <msup> <mi>W</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> </msup> <msup> <mi>H</mi> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> </mfenced>
<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>s</mi> <mo>.</mo> <mi>t</mi> <mo>.</mo> </mrow> </mtd> <mtd> <mrow> <msubsup> <mi>W</mi> <mrow> <mi>f</mi> <mo>,</mo> <mi>r</mi> </mrow> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> </msubsup> <mo>&amp;GreaterEqual;</mo> <mn>0</mn> <mo>,</mo> <munder> <mi>&amp;Sigma;</mi> <mi>f</mi> </munder> <msubsup> <mi>W</mi> <mrow> <mi>f</mi> <mo>,</mo> <mi>r</mi> </mrow> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> </msubsup> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mo>&amp;ForAll;</mo> <mi>r</mi> <mo>,</mo> </mrow> </mtd> </mtr> </mtable> </mfenced>
<mrow> <msubsup> <mi>H</mi> <mrow> <mi>r</mi> <mo>,</mo> <mi>t</mi> </mrow> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> </msubsup> <mo>&amp;GreaterEqual;</mo> <mn>0</mn> <mo>,</mo> <munder> <mo>&amp;Sigma;</mo> <mrow> <mi>r</mi> <mo>,</mo> <mi>t</mi> </mrow> </munder> <msubsup> <mi>H</mi> <mrow> <mi>r</mi> <mo>,</mo> <mi>t</mi> </mrow> <mrow> <mo>(</mo> <mi>s</mi> <mo>)</mo> </mrow> </msubsup> <mo>=</mo> <munder> <mo>&amp;Sigma;</mo> <mrow> <mi>f</mi> <mo>,</mo> <mi>t</mi> </mrow> </munder> <msub> <mover> <mi>S</mi> <mo>^</mo> </mover> <mrow> <mi>f</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>,</mo> </mrow> 1
<mrow> <msubsup> <mi>H</mi> <mrow> <mi>r</mi> <mo>,</mo> <mi>t</mi> </mrow> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> </msubsup> <mo>&amp;GreaterEqual;</mo> <mn>0</mn> <mo>,</mo> <munder> <mi>&amp;Sigma;</mi> <mrow> <mi>r</mi> <mo>,</mo> <mi>t</mi> </mrow> </munder> <msubsup> <mi>H</mi> <mrow> <mi>r</mi> <mo>,</mo> <mi>t</mi> </mrow> <mrow> <mo>(</mo> <mi>n</mi> <mo>)</mo> </mrow> </msubsup> <mo>=</mo> <munder> <mo>&amp;Sigma;</mo> <mrow> <mi>f</mi> <mo>,</mo> <mi>t</mi> </mrow> </munder> <msub> <mi>Y</mi> <mrow> <mi>f</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>-</mo> <msub> <mover> <mi>S</mi> <mo>^</mo> </mover> <mrow> <mi>f</mi> <mo>,</mo> <mi>t</mi> </mrow> </msub> <mo>;</mo> </mrow>
其目标函数分为两部分的和,第一部分是含噪语音幅度谱Y与其重构W(n)H(n)+W(s):H(s)之间的KL散度,W(s):,H(s)和H(n)的迭代公式如下,
其中,W:=[W(n) W(s)]和W(s):的每一列在每次迭代后被归一化,α取值小于1,最终的幅度谱估计为所述的α=0.1。
4.如权利要求1所述的基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法,其特征在于,几何均值滤波模块的几何滤波采用:
CN201510005690.4A 2015-01-06 2015-01-06 一种基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法 Expired - Fee Related CN104505100B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510005690.4A CN104505100B (zh) 2015-01-06 2015-01-06 一种基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510005690.4A CN104505100B (zh) 2015-01-06 2015-01-06 一种基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法

Publications (2)

Publication Number Publication Date
CN104505100A CN104505100A (zh) 2015-04-08
CN104505100B true CN104505100B (zh) 2017-12-12

Family

ID=52946841

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510005690.4A Expired - Fee Related CN104505100B (zh) 2015-01-06 2015-01-06 一种基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法

Country Status (1)

Country Link
CN (1) CN104505100B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106297819B (zh) * 2015-05-25 2019-09-06 国家计算机网络与信息安全管理中心 一种应用于说话人识别的噪声消除方法
US20170221235A1 (en) * 2016-02-01 2017-08-03 General Electric Company Negative dictionary learning
CN106022351B (zh) * 2016-04-27 2019-04-16 天津中科智能识别产业技术研究院有限公司 一种基于非负字典对学习的鲁棒多视角聚类方法
CN108573711A (zh) * 2017-03-09 2018-09-25 中国科学院声学研究所 一种基于nmf算法的单传声器语音分离方法
CN107248414A (zh) * 2017-05-23 2017-10-13 清华大学 一种基于多帧频谱和非负矩阵分解的语音增强方法与装置
CN109427340A (zh) * 2017-08-22 2019-03-05 杭州海康威视数字技术股份有限公司 一种语音增强方法、装置及电子设备
CN107610712B (zh) * 2017-10-18 2020-07-03 会听声学科技(北京)有限公司 一种结合mmse和谱减法的语音增强方法
CN108227001A (zh) * 2017-12-31 2018-06-29 吉林大学 基于snmf-2d时频谱分离的沙漠低频噪声消减方法
CN109346097B (zh) * 2018-03-30 2023-07-14 上海大学 一种基于Kullback-Leibler差异的语音增强方法
CN109214469B (zh) * 2018-10-24 2020-06-26 西安交通大学 一种基于非负张量分解的多源信号分离方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915742A (zh) * 2012-10-30 2013-02-06 中国人民解放军理工大学 基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法
CN103559888A (zh) * 2013-11-07 2014-02-05 航空电子系统综合技术重点实验室 基于非负低秩和稀疏矩阵分解原理的语音增强方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9966088B2 (en) * 2011-09-23 2018-05-08 Adobe Systems Incorporated Online source separation

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102915742A (zh) * 2012-10-30 2013-02-06 中国人民解放军理工大学 基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法
CN103559888A (zh) * 2013-11-07 2014-02-05 航空电子系统综合技术重点实验室 基于非负低秩和稀疏矩阵分解原理的语音增强方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"ENSEMBLE LEARNING FOR SPEECH ENHANCEMENT";Jonathan Le Roux等;《2013 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics》;20131023;第5.1节 *
"一种基于非负矩阵分解的语音增强算法";隋璐瑛等;《军事通信技术》;20120331;第33卷(第1期);全文 *
"字典学习和稀疏表示的无监督语音增强算法";李轶南等;《计算机应用》;20140630;第34卷(第S1期);全文 *
"稀疏卷积非负矩阵分解的语音增强算法";张立伟等;《数据采集与处理》;20140331;第29卷(第2期);全文 *

Also Published As

Publication number Publication date
CN104505100A (zh) 2015-04-08

Similar Documents

Publication Publication Date Title
CN104505100B (zh) 一种基于鲁棒非负矩阵分解和数据融合的无监督语音增强方法
Kounovsky et al. Single channel speech enhancement using convolutional neural network
CN102915742B (zh) 基于低秩与稀疏矩阵分解的单通道无监督语噪分离方法
CN105023580B (zh) 基于可分离深度自动编码技术的无监督噪声估计和语音增强方法
Hui et al. Convolutional maxout neural networks for speech separation
Eskimez et al. Front-end speech enhancement for commercial speaker verification systems
Daqrouq et al. An investigation of speech enhancement using wavelet filtering method
Osako et al. Complex recurrent neural networks for denoising speech signals
Zezario et al. Self-supervised denoising autoencoder with linear regression decoder for speech enhancement
CN105489226A (zh) 一种用于拾音器的多窗谱估计的维纳滤波语音增强方法
Wang et al. Joint noise and mask aware training for DNN-based speech enhancement with sub-band features
Geng et al. End-to-end speech enhancement based on discrete cosine transform
Saleem et al. On improvement of speech intelligibility and quality: A survey of unsupervised single channel speech enhancement algorithms
Saleem et al. Deep neural network based supervised speech enhancement in speech-babble noise
Zhang et al. FB-MSTCN: A full-band single-channel speech enhancement method based on multi-scale temporal convolutional network
Yang et al. RS-CAE-based AR-Wiener filtering and harmonic recovery for speech enhancement
He et al. Spectrum enhancement with sparse coding for robust speech recognition
Badiezadegan et al. A Performance Monitoring Approach to Fusing Enhanced Spectrogram Channels in Robust Speech Recognition.
Ravuri et al. Using spectro-temporal features to improve AFE feature extraction for ASR.
Li et al. Unsupervised monaural speech enhancement using robust NMF with low-rank and sparse constraints
Wang et al. Feature denoising for speech separation in unknown noisy environments
Ping et al. Single-channel speech enhancement using improved progressive deep neural network and masking-based harmonic regeneration
Han et al. Perceptual improvement of deep neural networks for monaural speech enhancement
Joder et al. Integrating noise estimation and factorization-based speech separation: A novel hybrid approach
Chen et al. Speech enhancement by low-rank and convolutive dictionary spectrogram decomposition.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20171212

Termination date: 20190106

CF01 Termination of patent right due to non-payment of annual fee