CN104685562B - 用于从嘈杂输入信号中重构目标信号的方法和设备 - Google Patents

用于从嘈杂输入信号中重构目标信号的方法和设备 Download PDF

Info

Publication number
CN104685562B
CN104685562B CN201280076185.3A CN201280076185A CN104685562B CN 104685562 B CN104685562 B CN 104685562B CN 201280076185 A CN201280076185 A CN 201280076185A CN 104685562 B CN104685562 B CN 104685562B
Authority
CN
China
Prior art keywords
matrix
noise
signal
negative
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201280076185.3A
Other languages
English (en)
Other versions
CN104685562A (zh
Inventor
西里尔·乔德
费利克斯·威宁格
比约恩·舒勒
大卫·维雷特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Publication of CN104685562A publication Critical patent/CN104685562A/zh
Application granted granted Critical
Publication of CN104685562B publication Critical patent/CN104685562B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明涉及一种用于从受到噪声破坏的输入信号(301)中重构目标信号(361)的方法(300),所述方法(300)包括:从所述输入信号(301)中确定(310)第一特征向量集(311),所述第一特征向量集(311)形成表示所述输入信号(301)的信号特征的非负输入矩阵(V,331);从所述第一特征向量集(311)中确定(320)第二特征向量集,所述第二特征向量集形成表示所述输入信号(301)的噪声特征的非负噪声矩阵(B,341);将所述输入矩阵(V,331)分解成(350)第一矩阵和第二矩阵的和,所述第一矩阵表示非负基矩阵(W,351)和非负权重矩阵(H,352)的乘积;以及基于所述非负基矩阵(W,351)和所述非负权重矩阵(H,352)重构(360)所述至少一个目标信号(361)。

Description

用于从嘈杂输入信号中重构目标信号的方法和设备
背景技术
本发明涉及一种用于从噪声输入信号中重构目标信号的方法和设备。具体而言,本发明涉及处理声输入信号以提供噪声降低的输出信号。
降低声噪声在不同领域中很重要,尤其对于语音通信而言。例如,如果在驾驶室等嘈杂环境里或在大街上使用电话系统,电话通信中的噪声抑制是非常有益的。噪声降低在免提电话系统中至关重要,在免提电话系统中,因麦克风与扬声器之间存在距离,所以噪声电平通常较高。此外,语音识别系统,其中的设备或业务由声指令控制,在嘈杂环境中运行时识别率会下降。因此,为了提高此类系统的可靠性,降低噪声电平也是有用的。
语音通信中的噪声抑制,也称为“语音增强”,在三十多年来备受关注,并且已提出了许多方法来降低语音录音中的噪声电平。大多数这些系统依赖于“背景噪声”的在线估计,假设背景噪声是平稳的,即随时间缓慢变化。然而,这种假设在真实嘈杂环境中并不总是成立。实际上,卡车经过、关门或诸如打印机等多种机器的操作都是频繁发生的非平稳噪声的示例。
另一种技术,称为非负矩阵分解(NMF),最近应用于该问题。这种方法基于将混音的功率光谱图分解成若干个光谱基的非负组合,光谱基属于语音或干扰噪声。非负矩阵分解(NMF)方法一直用于这种情况,取得了相对较好的结果。如图1所示的基于NMF的音频处理100的基本原理是找到音频信号101的短时幅度光谱图V103分解成两个因子W和H的局部最优分解,其中第一个因子W表示信号101中发生的事件的光谱,第二个因子H表示随时间而定的激活量。第一因子W描述源模型109的分量光谱。第二因子H描述音频信号101的信号光谱图103的激活量107。第一因子W和第二因子H通过优化过程与音频信号101的短时幅度光谱图V103匹配。采用监督NMF时预定义源模型109,使用无监督NMF时将联合估计应用于源模型109。源信号113可以从源光谱图111中得到。这种方法的优点在于使用非平稳性假设,而且结果通常很好。
然而,从信号中估计噪声分量可以通过NMF技术在计算上增强。此外,基于NMF的系统不考虑噪声或部分噪声平稳这一事实。因此,传统噪声估计法在捕获背景噪声的平稳分量时常常优于NMF,同时比较简单。
噪声降低的常用方法,通常表示为“语音增强”,包括如M.Berouti、R.Schwartz和J.Makhoul在1979年的IEEE ICASSP会刊第四卷第208至211页的“受到声噪声破坏的语音的增强(Enhancement of Speech Corrupted by Acoustic Noise)”中所述的谱减法;如E.G.Schmidt在2004年的美国新泽西州霍博肯市Wiley发行的“声学回声和噪声控制(Acoustic Echo and Noise Control)”中所述的维纳滤波;或者如Y.Ephraim、D.Malah在1985年的IEEE声音、语音和信号处理学报第33卷第443至445页的“使用基于对数的最小均方幅度谱估计法的语音增强(Speech Enhancement Using a Minimum Mean-SquareError Log-Spectral Amplitude Estimator)”中所述的所谓基于对数的最小均方幅度谱。这些技术都是基于背景噪声功率光谱的现有估计,然后从原始信号中“移除”。然而,他们还假设背景噪声能可靠地根据最近信号进行预测。因此,这些方法无法很好地处理高度非平稳噪声。
噪声功率光谱估计方法包括,例如,如M.Berouti、R.Schwartz和J.Makhould在1979年的IEEE ICASSP会刊第四卷第208至211页的“受到声噪声破坏的语音的增强(Enhancement of Speech Corrupted by Acoustic Noise)”中所示的根据语音活动检测器对不存在语音的时帧中的短时功率光谱进行平均;或者如R.Martin在2001年7月的IEEE语音和音频处理学报第9卷第5期的“基于最佳平滑和最小统计的噪声功率光谱密度(NoisePower Spectral Density Estimation Based on Optimal Smoothing and MinimumStatistics)”中所示的对每个所考虑的光谱带中的最小值进行平滑处理。其它方法包括如N.Fan、J.Rosca、R.Balan在2007年的IEEE ICASSP会刊第4卷第581至584页的“使用增强的最小值控制的递归平均的语音噪声估计(Speech Noise Estimation Using EnhancedMinima Controlled Recursive Averaging)”中所述的所谓最小值控制的递归平均;或者如N.Mohammadiha、T.Gerkmann、A.Leijon在2011年的有关信号处理应用到音频和声学的IEEE研讨会会刊第45至48页的“基于非负矩阵分解进行单信道语音增强的新线性MMSE滤波”中所述的非负矩阵分解。
近年来,已经引入非负矩阵分解(NMF)技术,用于从单信道输入中直接降低语音录音中的噪声。NMF的传统公式定义如下。V定义为非负实值的m×n矩阵。目的是通过两个其它非负矩阵其中r<<m,n,的乘积来近似计算该矩阵。在数学术语中,测量V和W·H之间的“重构误差”的成本函数被最小化。
处理声音时,输入矩阵V通过输入信号的短时幅度(或功率)谱的连续性给出,该矩阵的每列包含在特定时间点计算的光谱的值。这些特征在采用某一窗口函数后通过输入信号的短时傅里叶变换给出。由于使用了某些特征,所以该矩阵只包含非负值。
图2通过一个简单示例示出了NMF分解。该图展示了矩阵V表示的光谱图201、矩阵W表示的两个光谱基202的矩阵和矩阵H表示的相应时间权重203。光谱图201的灰度表示傅里叶系数的幅度。光谱图定义了一种声景,其可以描述为两个所谓的“原子声音”的重叠。通过将两个分量NMF应用于该光谱图,可以获得如图2所定义的矩阵W和H。当与H的相应值进行加权时,W中每列可以解释为V中包含的光谱的基函数。
由于这些基和权重都是非负的,所以它们可以用来构建两个不同的光谱图,每个光谱图描述其中一个“原子声音”。因此,这些声音可以从混音中分离,即使它们有时同时出现在原始信号中。图2的示例很简单;然而,NMF方法能在将不同声音源从实际录音中分离出来中提供令人满意的结果。在这些情况下,分解的阶数r值较大。然后,每个“分量”,即一个光谱基和对应时间权重的乘积,被分配给一个特定源。每种源的估计光谱图最终通过所有归属于该源的分量的和来获得。
如K.W.Wilson、B.Raj、P.Smaragdis和A.Divakaran在2008年的声学、语音和信号处理的IEEE国际会议第4029至4032页的“使用具有先验的非负矩阵分解的语音去噪(Speech Denoising using non-negative matrix factorization with priors)”中所示,上述方法已经应用于将语音从噪声中分离。这种方法的优点之一在于,理论上可以处理任何类型的环境,包括非平稳噪声。然而,NMF涉及矩阵乘法,因而在计算上很昂贵。此外,就平稳噪声而言,噪声光谱功率估计的传统方法优于NMF,其计算成本通常非常低。
发明内容
本发明的目的在于提供一种可以处理平稳和非平稳噪声环境的稳健、低复杂度噪声降低方法。
该目的由独立权利要求的特征来实现。进一步的实施方式在从属权利要求、具体说明和附图中显而易见。
本发明基于以下发现:平稳和非平稳噪声环境的噪声降低可以通过将声输入信号变换成非负特征的向量,例如幅度谱,以及根据输入特征集估计背景平稳噪声的特征向量来实现。每个特征向量随后分解为非负基矩阵和非负权重向量的乘积。可以显示矩阵中的其中一个基等于估计的背景噪声特征向量。噪声降低的输出信号可以由矩阵基的子集的组合表示,该矩阵由对应权重加权。此种技术在平稳和非平稳噪声环境中都非常稳健且计算效率高,正如下面将要介绍的那样。
分解过程通过平稳噪声估计法的整合来加强,从而提供噪声降低的输出信号。
为了详细描述本发明,将使用以下术语、缩略语和符号:
音频呈现:一种能够利用扬声器或扬声器阵列在扩展区域中创建空间声场的再现技术,
NMF:非负矩阵分解,
FNMF:前景非负矩阵分解,
MMSE-LSA:基于对数的最小均方差幅度谱,
向量1-范数:m×n矩阵A的向量1-范数定义为其元素的绝对值的和,
阿达玛乘积:阿达玛乘积是一种二进制运算,取相同维数的两个矩阵,产生另一矩阵,其中每个元素ij为原始两个矩阵中元素ij的乘积。
根据第一方面,本发明涉及一种从受到噪声破坏的输入信号中重构至少一个目标信号的方法,所述方法包括:从所述输入信号中确定第一特征向量集,所述第一特征向量集形成表示所述输入信号的信号特征的非负输入矩阵;从所述第一特征向量集中确定第二特征向量集,所述第二特征向量集形成表示所述输入信号的噪声特征的非负噪声矩阵;将所述输入矩阵分解成第一矩阵和第二矩阵的和,所述第一矩阵表示非负基矩阵和非负权重矩阵的乘积,所述第二矩阵表示所述噪声矩阵和噪声权重向量的组合;以及基于所述非负基矩阵和所述非负权重矩阵重构至少一个目标信号。
所述方法提供了一种将背景噪声估计法整合到NMF框架中的混合方法。估计的噪声被认为是NMF中的特殊分量。这样可以在同一个系统中处理平稳和非平稳噪声。因此,所述方法提供了一种用于多种情景的单个系统,更好地降低了音频通信中的干扰噪声,因而音质更好。
在根据所述第一方面的所述方法的第一可能实施方式中,所述第一特征向量集包括所述输入信号的幅度谱。
所述输入信号的幅度谱可以有效地通过低计算复杂度的短时傅里叶变换(STFT)进行处理。
在根据如上所述的第一方面或根据所述第一方面的所述第一实施方式的方法的第二可能实施方式中,所述第二特征向量集通过使用背景噪声估计技术确定。
背景噪声估计技术易于实施。嘈杂语音的功率光谱等于语音功率光谱和噪声功率光谱的和,因为语音和背景噪声被认为是独立的。在任何语音语句中,不包含任何语音的单词之间存在停顿。那些帧将只包含背景噪声。噪声估计很容易通过跟踪那些噪声本体帧来更新。
在根据如上所述的第一方面或根据所述第一方面的任一前述实施方式的所述方法的第三可能实施方式中,在确定所述第一特征向量机的同时确定所述第二特征向量集。
当同时确定所述第一和第二特征向量集时,两个特征集彼此互相同步。
在根据如上所述的第一方面或根据所述第一方面的任一前述实施方式的所述方法的第四可能实施方式中,所述噪声权重向量是一种所有元素均设为1的单位向量。
噪声权重向量为单位向量是背景噪声平稳时的一种特殊情况。为了降低复杂度,使所有权重都等于1。
在根据如上所述的第一方面或根据所述第一方面的任一前述实施方式的所述方法的第五可能实施方式中,所述分解所述输入矩阵包括:根据以下公式确定近似矩阵Λ:
其中W表示非负基矩阵,H表示非负权重矩阵,B表示噪声矩阵,hb表示噪声向量,表示只包含1的m维列向量,以及符号表示阿达玛乘积,即元素乘法。
通过将背景噪声估计法整合到NMF框架中,估计的噪声被认为是NMF中的特殊分量。这样可以在同一个系统中处理平稳和非平稳噪声。这个系统可以应用于不同情景,从而更好地降低音频通信中的干扰噪声,因此音质更好。
在根据如上所述的第一方面或根据第一方面的任一前述实施方式的所述方法的第六可能实施方式中,所述分解所述输入矩阵包括:使用成本函数将所述第一矩阵和所述第二矩阵的和近似于所述输入矩阵。
通过使用成本函数,可以采用计算效率高的迭代或递归自适应。提高了输入信号的分解和目标信号的重构。
在根据第一方面的第六实施方式的所述方法的第七可能实施方式中,所述分解所述输入矩阵包括:通过使用乘法更新规则和梯度下降算法之一优化所述成本函数。
乘法更新规则很容易实施,而梯度下降算法收敛于局部最优解。
在根据所述第一方面的所述第七实施方式的所述方法的第八可能实施方式中,所述成本函数根据:
其中V表示非负输入矩阵,Λ表示根据权利要求6所述的近似矩阵,运算符号||·||1表示向量1-范数,符号表示阿玛达乘积,即元素乘法,而且对数和除法运算都是按元素的。
这种成本函数提供一种有效分解,因此降低重构信号中的噪声。
在根据所述第七实施方式或根据所述第一方面的所述第八实施方式的所述方法的第九可能实施方式中,所述乘法更新规则根据:
其中W表示非负基矩阵,H表示非负权重矩阵,B表示噪声矩阵,hb表示噪声向量,符号表示阿玛达乘积,即元素乘法,符号表示元素除法,为换位算子,以及分别为m×n维和1×n维的矩阵,它们的元素都等于1。
这些乘法更新规则很容易实施而且能快速收敛。
在根据如上所述的第一方面或根据所述第一方面的任一前述实施方式的所述方法的第十可能实施方式中,所述方法包括:根据描述所述至少一个目标信号的先验模型将所述非负基矩阵的列的子集设为恒定值。
通过将所述非负基矩阵的列的子集设为恒定值,降低了计算复杂度。
在根据如上所述的第一方面或根据所述第一方面的任一前述实施方式的所述方法的第十一可能实施方式中,所述非负基矩阵的每个基表示目标信号和噪声之一。
所述非负基矩阵提供将噪声分量从语音分量中正确分离,这提高了重构的准确性。
在根据所述第一方面的所述第十一实施方式的所述方法的第十二可能实施方式中,所述重构所述至少一个目标信号包括:组合表示所述至少一个目标信号的所述非负基矩阵的所述基和所述非负权重矩阵的相关部分;或组合表示所述至少一个目标信号的所述非负基矩阵的所述基、所述非负权重矩阵的相关部分、所述非负输入矩阵和根据所述第一方面的所述第五实施方式的所述近似矩阵。
组合所述基矩阵的所述基和所述权重矩阵的所述相关部分在计算上能有效执行。该项与所述输入矩阵和所述近似矩阵的附加组合能更好地降低干扰噪声,因此音质更好。
在根据如上所述的第一方面或根据所述第一方面的任一前述实施方式的所述方法的第十三可能实施方式中,所述至少一个目标信号为语音信号。
所述方法可以应用于语音处理以对所述输入语音信号进行去噪。
根据第二方面,本发明涉及一种从输入信号中重构至少一个受到噪声破坏的目标信号的设备,所述设备包括:
从所述输入信号中确定第一特征向量集的构件,所述第一特征向量集形成表示所述输入信号的信号特征的非负输入矩阵;从所述第一特征向量集中确定第二特征向量集的构件,所述第二特征向量集形成表示所述输入信号的噪声特征的非负噪声矩阵;将所述输入矩阵分解成第一矩阵和第二矩阵的和的构件,所述第一矩阵表示非负基矩阵和非负权重矩阵的乘积,所述第二矩阵表示所述噪声矩阵和噪声权重向量的组合;以及基于所述非负基矩阵和所述非负权重矩阵重构所述至少一个目标信号的构件。
当NMF着重于非平稳噪声时,相比于谱减法和NMF,根据所述第二方面的所述设备提高了语音增强质量。相比于NMF分解,复杂度有所增加。
本发明的各方面提供了一种方法和系统,其使用称为前景非负矩阵分解(FNMF)的改进的非负矩阵分解(NMF),FNMF将平稳噪声估计法整合到NMF分解流程以降低音频录音中的噪声。
在现有技术中,使用的模型由V≈W·H描述。此模型扩展为
其中矩阵由背景噪声估计系统的输出给出。B的每列包含与V的对应列相同的时间点的噪声估计。向量包含非负时间权重,为只包含1的m维列向量。符号表示阿达玛乘积,即元素乘法。
然后目的是为了确定谱基矩阵W、权重矩阵H和噪声权重向量hb,它们尽可能精确地近似于输入矩阵V。
直观地,干扰噪声的平稳部分由矩阵B保留。因此,乘积W·H,对应于传统NMF分解,着重于“前景”的建模,即非平稳声音。此过程有两个主要优点。平稳噪声的估计比使用标准NMF的更准确,因为噪声估计法利用了背景噪声的平稳性。此外,可以使用少量的分量用于分解,使得系统的复杂度降低。
可以使用各种成本函数测量重构误差。在优选实施方式中,成本函数D定义为:
其中
||·||1表示向量1-范数以及为元素除法。
与现有技术相比,虽然由W的列构成的光谱基在整个所考虑的光谱中是恒定的,但是背景噪声矩阵B可以看作随时间演变的特殊基。
在优选实施方式中,乘法更新规则执行上述成本函数的优化,在不需要显式约束的情况下实施非负性:
其中是换位算子,分别为m×n维和1×n维的矩阵,它们的元素都等于1。在另一实施方式中,使用梯度下降算法进行优化。优化过程在发现收敛或已经执行大量迭代时停止。
如果背景噪声估计系统精确,则矩阵B对应于噪声的实际平稳部分。在这种情况下,hb的值应该接近于1。因此,在实施方式中,这些值限定于接近1。在另一实施方式中,通过将hb的所有值固定为1降低复杂度。在此种情况下,不需要Λ计算中的矩阵乘法也不需要hb的更新。
在另一实施方式中,某些光谱基被设为恒定值,通过先前学习来固定。如果已知其中一个源以及存在足够多的数据来估计该源的特征光谱,这是有益的。在这种情况下,不更新W的对应列。矩阵W在分解期间全部恒定的方法以及矩阵W全部更新的方法分别称为监督FNMF和无监督FNMF。在只更新一部分光谱基的情况下,所述方法称为半监督FNMF。
在实施方式中,需要由FNMF过程估计的矩阵W、H和hb的初始值由随机数生成器设置。在另一实施方式中,根据信号的某先验知识设置初始值。尤其对于在线系统中的实施,在信号的连续中期窗口上执行多次分解,如C.Joder、F.Weninger、F.Eyben、D.Virette、B.Schuller在2012年的LVA/ICA会刊斯普林格第322至329页的“半监督非负矩阵分解进行的实时语音分离(Real-time Speech Separation by Semi-Supervised NonnegativeMatrix Factorization)”中所示。随后,根据前一分解的输出初始化矩阵使收敛速度更快。
本文所述的方法、系统和设备可以实施为数字信号处理器(DSP)、微处理器或任意其它边处理器中的软件或专用集成电路(ASIC)内的硬件电路。
本发明可以在数字电子电路,或计算机硬件、固件、软件,或其组合中实施,例如,在传统移动设备的可用硬件或专用于处理音频增强系统的新硬件。
附图说明
本发明的具体实施方式将结合以下附图进行描述,其中:
图1示出了传统非负矩阵分解(NMF)技术的示意图100;
图2示出了三个示意图201、202、203,表示传统非负矩阵分解的分解的V、W和H矩阵;
图3示出了根据实施方式从受到噪声破坏的输入信号中重构至少一个目标信号的系统300的示意图;
图4示出了根据实施方式从受到噪声破坏的输入信号中重构至少一个目标信号的方法400的示意图;以及
图5示出了根据实施方式从受到噪声破坏的输入信号中重构至少一个目标信号的设备500的方框图。
具体实施方式
图3示出了根据实施方式从受到噪声破坏的输入信号中重构至少一个目标信号的系统300的示意图。
系统300包括短时变换模块310、背景噪声估计器320、两个缓冲器330和340、FNMF模块350和重构模块360。数字单信道输入信号301,对应于感兴趣信号的录音,例如受到噪声破坏的语音,被输入到短时变换模块310中,该模块执行到短时时帧的开窗和变换,以便产生非负特征向量311。缓冲器330存储这些特征以产生矩阵V331。
特征311也由为每个特征向量输出背景声噪声的估计的背景噪声估计器320处理。缓冲器340存储这些估计以创建矩阵B341。然后,FNMF模块350执行矩阵V331的分解,表示输入信号的幅度光谱。输出矩阵W351和H352分别表示描述输入信号的非平稳声音的特征基和相应权重。向量hb353包含背景噪声估计的权重。
在该FNMF分解中,描述语音信号的光谱基由先验模型302设置。FNMF模块只更新对应于非平稳噪声的光谱基。
基于分解的结果执行重构360以获得噪声降低的输出信号361。在此示例中,重构利用所谓的“软掩码”方法。Ws定义为描述语音的光谱基的矩阵,由先验模型得出,以及Hs定义为对应权重的矩阵,从矩阵H中提取。输出信号的幅度谱图S计算为:
通过标准方法获得时域信号,该方法涉及利用原始复杂光谱图的相位的反向傅里叶变换,之后为重叠相加过程。
在另一实施方式中,输出信号的光谱图直接重构为S=Ws·Hs。在又一实施方式中,利用了所谓的基于对数的最小均方差幅度估计法(MMSE-LSA)等传统语音增强方法,其中噪声幅度谱的估计由N=Λ-S给出。
在另一实施方式中,分离由受到噪声破坏的录音中的多个音频源。在此种实施方式中,首先通过识别与源相关的光谱基,然后根据上述方法计算幅度谱图来执行每个源的重构。
上述系统300的组件还可实施为方法的步骤。
图4示出了根据实施方式从由受到噪声破坏的输入信号中重构至少一个目标信号的方法400的示意图。
在方法400中,背景噪声B441从噪声输入矩阵V401中估计。光谱基W噪声471和W语音470由NMF模型给出,例如由先验训练或对信号的估计等给出。光谱基W噪声471和W语音470组合到光谱基W451中。执行改进的NMF450来估计基组合的权重。基于改进的NMF分解450的结果,重构460信号461。改进的NMF450认为B441为一种特殊的、随时间而变的分量。
在实施方式中,方法400包括从输入信号中确定第一特征向量集,第一特征向量集形成表示输入信号的信号特点的非负输入矩阵V401。方法400包括从第一特征向量集中确定第二特征向量集,第二特征向量集形成表示输入信号的噪声特征的非负噪声矩阵B441。背景噪声估计420用于确定第二特征向量集。方法400还包括将输入矩阵V401分解成第一矩阵和第二矩阵的和,第一矩阵表示非负基矩阵W451和非负权重矩阵H(未在图4中描述)的乘积,第二矩阵表示噪声矩阵B441和噪声权重向量hb(未在图4中描述)的组合。分解由对应于参照图3所述的FNMF模块350的改进的NMF450执行。非负基矩阵W451基于使用噪声分量W噪声471模型和语音分量W语音470模型对基矩阵W451进行建模的NMF模型402。
方法400还包括基于非负基矩阵W和非负权重矩阵H将至少一个目标信号重构460为降噪语音461。
方法400提供了一种将背景噪声估计法整合到NMF框架中的混合方法。估计的噪声被认为是NMF中的特殊分量。这样可以在同一个系统中处理平稳和非平稳噪声。当NMF着重于非平稳噪声时,相比于谱减法和NMF,方法400提高了语音增强质量。相比于NMF,复杂度有所增加。
因此,方法400提供了一种用于多种情景的单个系统,更好地降低音频通信中的干扰噪声,因而音质更好。
在实施方式中,方法400用于将目标信号,例如噪声信号从嘈杂声音中分离出来,其中噪声的平稳部分依据其自身估计,非平稳部分由NMF估计。在实施方式中,平稳噪声估计在NMF估计中用作随时间而变的分量。在实施方式中,NMF使用的目标和语音基都是在先验训练阶段中获得的。在实施方式中,只获得目标基,而噪声基根据混合信号估计。
图5示出了根据实施方式从受到噪声破坏的输入信号中重构至少一个目标信号的设备500的方框图。
设备500包括从输入信号中确定第一特征向量集的构件501,第一特征向量集形成表示输入信号的信号特点的非负输入矩阵V。设备500包括从第一特征向量集中确定第二特征向量集的构件503,第二特征向量集形成表示输入信号的噪声特征的非负噪声矩阵B。设备500包括将输入矩阵V分解成第一矩阵和第二矩阵的和的构件505,第一矩阵表示非负基矩阵W和非负权重矩阵H的乘积,第二矩阵表示噪声矩阵B和噪声权重向量hb的组合。设备500包括基于非负基矩阵W和非负权重矩阵H重构至少一个目标信号的构件507。
在实施方式中,设备500包括存储表示输入信号的输入非负矩阵的缓冲器,输入非负矩阵的列表示不同时间点的输入信号的特征。第一确定构件501用于确定输入信号的这些特征。第二确定构件503用于估计对应于破坏性噪声的平稳部分的特征。该设备还包括存储背景非负矩阵的缓冲器,与前述缓冲器一样,该矩阵的各列表示同一时间点的破坏性噪声的平稳部分的特征。分解构件505用于将输入非负矩阵分解成两项的和,其中一项是非负基矩阵和非负权重矩阵的乘积,第二项通过将背景非负矩阵的各列乘以非负权重获得。
在实施方式中,非负权重等于一。
在实施方式中,输入非负矩阵为V,非负基矩阵为W,非负权重矩阵为H,背景非负矩阵为B,以及包含非负权重的行向量为hb
在实施方式中,设备500还包括计算近似矩阵的构件。
在实施方式中,近似矩阵的分解通过最小化输入非负矩阵V和近似矩阵之间的发散函数来执行。
在实施方式中,最小化的发散函数为
在实施方式中,该设备还包括根据以下等式更新分解的构件
在实施方式中,非负基矩阵的每个基与其中一个目标信号关联或与噪声关联。
在实施方式中,包含表示每个目标信号的特征的矩阵通过组合其相关基、对应权重、输入非负矩阵和近似矩阵来重构。
在实施方式中,非负基矩阵的一些列根据先验模型固定为恒定值。
在实施方式中,目标信号是语音,即语音信号。
通过阅读以上内容,所属领域的技术人员将清楚地了解,可提供多种方法、系统、记录媒体上的计算机程序及其类似者等等。
本发明还支持包含计算机可执行代码或计算机可执行指令的计算机程序产品,这些计算机可执行代码或计算机可执行指令在执行时使得至少一台计算机执行本文所述的执行及计算步骤。
本发明还支持经配置成执行本文所述的执行及计算步骤的系统。
通过以上启示,对于本领域技术人员来说,许多替代产品、修改及变体是显而易见的。当然,所属领域的技术人员容易意识到除本文所述的应用之外,还存在本发明的众多其它应用。虽然已参考一个或多个特定实施例描述了本发明,但所属领域的技术人员将认识到在不偏离本发明的精神和范围的前提下,仍可对本发明作出许多改变。因此,应理解,只要是在所附权利要求书及其等效文句的范围内,可以用不同于本文具体描述的方式来实践本发明。

Claims (14)

1.一种用于从受到噪声破坏的输入信号(301)中重构至少一个目标信号(361)的方法(300),其特征在于,所述方法(300)包括:
从所述输入信号(301)中确定(310)第一特征向量集(311),所述第一特征向量集(311)形成表示所述输入信号(301)的信号特征的非负输入矩阵(V,331);
从所述第一特征向量集(311)中确定(320)第二特征向量集,所述第二特征向量集形成表示所述输入信号(301)的噪声特征的非负噪声矩阵(B,341);
将所述输入矩阵(V,331)分解成(350)第一矩阵和第二矩阵的和,所述第一矩阵表示非负基矩阵(W,351)和非负权重矩阵(H,352)的乘积,所述第二矩阵表示所述噪声矩阵(B,341)和噪声权重向量(hb,353)的组合;以及
基于所述非负基矩阵(W,351)和所述非负权重矩阵(H,352)重构(360)所述至少一个目标信号(361);
所述噪声权重向量(hb,353)是所有元素都设为1的单位向量。
2.根据权利要求1所述的方法(300),其特征在于,所述第一特征向量集(311)包括所述输入信号(301)的幅度谱。
3.根据权利要求1所述的方法(300),其特征在于,所述第二特征向量集通过使用背景噪声估计技术确定(320)。
4.根据前述权利要求之一方法(300),其特征在于,在确定(310)所述第一特征向量集(311)的同时确定(320)所述第二特征向量集。
5.根据权利要求1-3任意之一所述的方法(300),其特征在于,所述分解(350)所述输入矩阵(V,331)包括:
根据以下公式确定近似矩阵Λ:
其中W表示非负基矩阵,H表示非负权重矩阵,B表示噪声矩阵,hb表示噪声向量,表示只包含1的m维列向量,以及符号表示阿达玛乘积,即元素乘法。
6.根据权利要求1-3任意之一所述的方法(300),其特征在于,所述分解(350)所述输入矩阵(V,331)包括:
使用成本函数(D)将所述第一矩阵和所述第二矩阵的和近似于所述输入矩阵(V)。
7.根据权利要求6所述的方法(300),其特征在于,所述分解(350)所述输入矩阵(V,331)包括:
通过使用乘法更新规则和梯度下降算法之一优化所述成本函数(D)。
8.根据权利要求7所述的方法(300),其特征在于,所述成本函数(D)是根据:
<mrow> <mi>D</mi> <mo>=</mo> <mo>|</mo> <mo>|</mo> <mi>V</mi> <mo>&amp;CircleTimes;</mo> <mi>l</mi> <mi>n</mi> <mfrac> <mi>V</mi> <mi>&amp;Lambda;</mi> </mfrac> <mo>-</mo> <mi>V</mi> <mo>+</mo> <mi>&amp;Lambda;</mi> <mo>|</mo> <msub> <mo>|</mo> <mn>1</mn> </msub> <mo>,</mo> </mrow>
其中V表示非负输入矩阵,Λ表示近似矩阵,运算符号||·||1表示向量1-范数,符号表示阿达玛乘积,即元素乘法,以及对数和除法运算都是按元素的。
9.根据权利要求7所述的方法(300),其特征在于,所述乘法更新规则是根据:
其中W表示非负基矩阵,H表示非负权重矩阵,B表示噪声矩阵,hb表示噪声向量,表示阿玛达乘积,即元素乘法,表示元素除法,.T为换位算子,以及分别为m×n维和1×n维的矩阵,它们的元素都等于1。
10.根据权利要求1-3任意之一所述的方法(300),其特征在于,包括:
根据描述所述至少一个目标信号(361)的先验模型(302)将所述非负基矩阵(W,351)的列的子集设为恒定值。
11.根据权利要求1-3任意之一所述的方法(300),其特征在于,所述非负基矩阵(W,351)的每个基(WS)表示目标信号(361)和噪声之一。
12.根据权利要求11所述的方法(300),其特征在于,所述重构(360)所述至少一个目标信号(361)包括:
组合表示所述至少一个目标信号(361)的所述非负基矩阵(W,351)的所述基(WS)和所述非负权重矩阵(H,352)的相关部分(HS);或者
组合表示所述至少一个目标信号(361)的所述非负基矩阵(W,351)的所述基(WS)、所述非负权重矩阵(H,352)的相关部分(HS)、所述非负输入矩阵(V,331)以及近似矩阵(Λ)。
13.根据权利要求1所述的方法(300),其特征在于,所述至少一个目标信号(361)是特殊信号。
14.用于从输入信号中重构至少一个受到噪声破坏的目标信号的设备(500),其特征在于,所述设备包括:
从所述输入信号中确定第一特征向量集的构件(501),所述第一特征向量集形成表示所述输入信号的信号特征的非负输入矩阵(V);
从所述第一特征向量集中确定第二特征向量集的构件(503),所述第二特征向量集形成表示所述输入信号的噪声特征的非负噪声矩阵(B);
将所述输入矩阵(V)分解成第一矩阵和第二矩阵的和的构件(505),所述第一矩阵表示非负基矩阵(W)和非负权重矩阵(H)的乘积,以及所述第二矩阵表示所述噪声矩阵(B)和噪声权重向量(hb)的组合;以及
基于所述非负基矩阵(W)和所述非负权重矩阵(H)重构所述至少一个目标信号的构件(507);
所述噪声权重向量(hb,353)是所有元素都设为1的单位向量。
CN201280076185.3A 2012-11-21 2012-11-21 用于从嘈杂输入信号中重构目标信号的方法和设备 Active CN104685562B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2012/073148 WO2014079483A1 (en) 2012-11-21 2012-11-21 Method and device for reconstructing a target signal from a noisy input signal

Publications (2)

Publication Number Publication Date
CN104685562A CN104685562A (zh) 2015-06-03
CN104685562B true CN104685562B (zh) 2017-10-17

Family

ID=47290928

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201280076185.3A Active CN104685562B (zh) 2012-11-21 2012-11-21 用于从嘈杂输入信号中重构目标信号的方法和设备

Country Status (4)

Country Link
US (1) US9536538B2 (zh)
EP (1) EP2877993B1 (zh)
CN (1) CN104685562B (zh)
WO (1) WO2014079483A1 (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013040485A2 (en) * 2011-09-15 2013-03-21 University Of Washington Through Its Center For Commercialization Cough detecting methods and devices for detecting coughs
US10306389B2 (en) 2013-03-13 2019-05-28 Kopin Corporation Head wearable acoustic system with noise canceling microphone geometry apparatuses and methods
US9312826B2 (en) 2013-03-13 2016-04-12 Kopin Corporation Apparatuses and methods for acoustic channel auto-balancing during multi-channel signal extraction
JP2015118361A (ja) * 2013-11-15 2015-06-25 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム
JP6371516B2 (ja) * 2013-11-15 2018-08-08 キヤノン株式会社 音響信号処理装置および方法
US9978394B1 (en) * 2014-03-11 2018-05-22 QoSound, Inc. Noise suppressor
US11631421B2 (en) * 2015-10-18 2023-04-18 Solos Technology Limited Apparatuses and methods for enhanced speech recognition in variable environments
JP6434657B2 (ja) * 2015-12-02 2018-12-05 日本電信電話株式会社 空間相関行列推定装置、空間相関行列推定方法および空間相関行列推定プログラム
JP6618493B2 (ja) * 2017-02-20 2019-12-11 日本電信電話株式会社 信号解析装置、方法、及びプログラム
JP7106307B2 (ja) * 2018-03-14 2022-07-26 キヤノンメディカルシステムズ株式会社 医用画像診断装置、医用信号復元方法、医用信号復元プログラム、モデル学習方法、モデル学習プログラム、および磁気共鳴イメージング装置
CN109346097B (zh) * 2018-03-30 2023-07-14 上海大学 一种基于Kullback-Leibler差异的语音增强方法
CN111863014B (zh) * 2019-04-26 2024-09-17 北京嘀嘀无限科技发展有限公司 一种音频处理方法、装置、电子设备和可读存储介质
CN112614500B (zh) * 2019-09-18 2024-06-25 北京声智科技有限公司 回声消除方法、装置、设备及计算机存储介质
CN111276154B (zh) * 2020-02-26 2022-12-09 中国电子科技集团公司第三研究所 风噪声抑制方法与系统以及炮声检测方法与系统
DE102020213051A1 (de) * 2020-10-15 2022-04-21 Sivantos Pte. Ltd. Verfahren zum Betrieb eines Hörhilfegeräts sowie Hörhilfegerät
CN118367884B (zh) * 2024-06-14 2024-09-03 深圳市君威科技有限公司 一种低噪声放大变频器设备的精细控制方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1435817A (zh) * 2002-01-29 2003-08-13 富士通株式会社 语音编码转换方法和装置
CN101441872A (zh) * 2007-11-19 2009-05-27 三菱电机株式会社 利用受限非负矩阵分解对声学信号去噪

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1425738A2 (en) * 2001-09-12 2004-06-09 Bitwave Private Limited System and apparatus for speech communication and speech recognition
US7415392B2 (en) * 2004-03-12 2008-08-19 Mitsubishi Electric Research Laboratories, Inc. System for separating multiple sound sources from monophonic input with non-negative matrix factor deconvolution
US8265928B2 (en) * 2010-04-14 2012-09-11 Google Inc. Geotagged environmental audio for enhanced speech recognition accuracy
US8874441B2 (en) * 2011-01-19 2014-10-28 Broadcom Corporation Noise suppression using multiple sensors of a communication device

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1435817A (zh) * 2002-01-29 2003-08-13 富士通株式会社 语音编码转换方法和装置
CN101441872A (zh) * 2007-11-19 2009-05-27 三菱电机株式会社 利用受限非负矩阵分解对声学信号去噪

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Speech Enhancement Based on Sparse Nonnegative Matrix Factorization with Priors;Luying Sui等;《ICSAI 2012》;20120625;摘要,第275页左栏第9-15行、第276页右栏第25-27行、第277页第9行,公式2、15-18 *

Also Published As

Publication number Publication date
CN104685562A (zh) 2015-06-03
US20150262590A1 (en) 2015-09-17
US9536538B2 (en) 2017-01-03
WO2014079483A1 (en) 2014-05-30
EP2877993A1 (en) 2015-06-03
EP2877993B1 (en) 2016-06-08

Similar Documents

Publication Publication Date Title
CN104685562B (zh) 用于从嘈杂输入信号中重构目标信号的方法和设备
Tu et al. Speech enhancement based on teacher–student deep learning using improved speech presence probability for noise-robust speech recognition
Deng et al. Recursive estimation of nonstationary noise using iterative stochastic approximation for robust speech recognition
Deng et al. Enhancement of log mel power spectra of speech using a phase-sensitive model of the acoustic environment and sequential estimation of the corrupting noise
Srinivasan et al. Codebook-based Bayesian speech enhancement for nonstationary environments
Han et al. Deep neural network based spectral feature mapping for robust speech recognition.
Cui et al. Noise robust speech recognition using feature compensation based on polynomial regression of utterance SNR
CN106486131A (zh) 一种语音去噪的方法及装置
Deng et al. Estimating cepstrum of speech under the presence of noise using a joint prior of static and dynamic features
EP2912660B1 (en) Method for determining a dictionary of base components from an audio signal
González et al. MMSE-based missing-feature reconstruction with temporal modeling for robust speech recognition
Pardede et al. Feature normalization based on non-extensive statistics for speech recognition
Cui et al. A study of variable-parameter Gaussian mixture hidden Markov modeling for noisy speech recognition
Duong et al. Gaussian modeling-based multichannel audio source separation exploiting generic source spectral model
Indrebo et al. Minimum mean-squared error estimation of mel-frequency cepstral coefficients using a novel distortion model
Yao et al. Noise adaptive speech recognition based on sequential noise parameter estimation
Chung et al. Training and compensation of class-conditioned NMF bases for speech enhancement
Kim et al. Non-negative matrix factorization based noise reduction for noise robust automatic speech recognition
Han et al. Reverberation and noise robust feature compensation based on IMM
Borgstrom et al. A unified framework for designing optimal STSA estimators assuming maximum likelihood phase equivalence of speech and noise
Kwon et al. Speech enhancement combining statistical models and NMF with update of speech and noise bases
Ming et al. An iterative longest matching segment approach to speech enhancement with additive noise and channel distortion
Mohammadiha et al. Gamma hidden Markov model as a probabilistic nonnegative matrix factorization
Dat et al. On-line Gaussian mixture modeling in the log-power domain for signal-to-noise ratio estimation and speech enhancement
Cho et al. An efficient HMM-based feature enhancement method with filter estimation for reverberant speech recognition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant