CN103229236B - 信号处理装置、信号处理方法 - Google Patents

信号处理装置、信号处理方法 Download PDF

Info

Publication number
CN103229236B
CN103229236B CN201180056862.0A CN201180056862A CN103229236B CN 103229236 B CN103229236 B CN 103229236B CN 201180056862 A CN201180056862 A CN 201180056862A CN 103229236 B CN103229236 B CN 103229236B
Authority
CN
China
Prior art keywords
signal
frequency
noise
frequency component
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201180056862.0A
Other languages
English (en)
Other versions
CN103229236A (zh
Inventor
杉山昭彦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of CN103229236A publication Critical patent/CN103229236A/zh
Application granted granted Critical
Publication of CN103229236B publication Critical patent/CN103229236B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Noise Elimination (AREA)

Abstract

本发明的目的是实现高质量的信号处理性能。提出了一种具有抑制单元的信号处理装置,该抑制装置通过处理在其中存在第一信号和第二信号的混合信号来抑制第二信号。该信号处理装置具有分析单元和限制单元,分析单元用于对每个频率分量分析包含在混合信号中的第一信号的重要性,限制单元用于基于分析机构的分析结果、在具有低重要性的频率分量之上来限制具有高重要性的频率分量的第二信号的抑制。

Description

信号处理装置、信号处理方法
技术领域
本发明涉及用于通过对其中混合第一信号和第二信号的混合信号进行的处理来抑制第二信号的信号处理技术。
背景技术
众所周知存在噪声抑制技术,这些技术用于通过对其中混合了第一信号和第二信号的混合信号进行的处理来抑制第二信号以输出强调信号(由强调期望的信号产生的信号)。例如,噪声抑制器是用于抑制叠加在期望的语音信号上的噪声的系统。这种噪声抑制器被用在诸如移动移动电话的各种音频终端中。
针对这种的技术,在专利文献(PTL)1中,公开了一种抑制噪声的方法,该方法通过将输入带噪语音信号的振幅频谱分量乘以相对应的频谱增益来抑制噪声,每个频谱增益具有小于或等于“1”的值。此外,在PTL2中,公开了一种通过从带噪语音信号的相对应的频谱分量直接减去估计的噪声的频谱分量来抑制噪声的方法。
引用列表
专利文献
[PTL1]日本专利第4282227号
[PTL2]日本未经审查的专利申请公开第Hei8-221092号
发明内容
技术问题
然而,在以上描述的PTL1公开的方法中,在输入带噪语音信号中包括的噪声是通过使用不考虑输入带噪语音信号是否包括重要信号分量而估计的噪声信息来抑制的。由此,已经存在问题,关于重要信号分量,当所估计的噪声振幅频谱分量值比其实际的振幅频谱分量值大时,输出振幅频谱分量值被降低至合适的振幅频谱分量值以下,从而收听者有时察觉到失真而不是噪声。特别地,当在期望的信号的重要频率分量上的处理导致期望的信号的信号质量的降级时,收听者察觉到声音质量的严重降级而不是噪声。
考虑到以上所述,本发明的目标是提供可能解决上述问题的信号处理技术。
问题的解决方案
根据本发明的一个示例性实施例的信号处理装置包括:用于抑制包括在混合信号中的第二信号的抑制机构,在该混合信号中混合有第一信号和所述第二信号;以及用于对于每个频率分量确定包括在所述混合信号中的所述第一信号的重要程度的分析机构;以及限制机构,该限制机构用于基于由所述分析机构做出的所述确定的结果,对于每个频率分量限制对所述第二信号的所述抑制,使得与所述频率分量中具有低重要度的至少一个频率分量相对应的对所述第二信号的所述抑制相比,将所述频率分量中具有高重要度的至少一个频率分量相对应的对所述第二信号的所述抑制限制到较高的程度。
根据本发明的一个示例性实施例的信号处理方法包括以下步骤:对于每个频率分量确定包括在混合信号中的第一信号的重要程度,在混合信号中混合有所述第一信号和第二信号;以及当对于每个频率分量抑制包括在所述混合信号中的所述第二信号时,限制对所述第二信号的所述抑制,使得与所述频率分量中具有低重要度的至少一个频率分量相对应的对所述第二信号的所述抑制相比,将所述频率分量中具有高重要度的至少一个频率分量相对应的对所述第二信号的所述抑制限制到较高的程度。
使计算机执行根据本发明的处理的信号处理程序包括以下程序:通过处理在其中混合有第一信号和第二信号的混合信号来抑制第二信号的抑制步骤;以及对于每个频率分量确定包括在所述混合信号中的所述第一信号的重要程度的分析步骤;以及基于在所述分析步骤中的所述确定的结果、对于每个频率分量限制对所述第二信号的所述抑制的限制过程,使得与所述频率分量中具有低重要度的至少一个频率分量相对应的对所述第二信号的所述抑制相比,将所述频率分量中具有高重要度的至少一个频率分量相对应的对所述第二信号的所述抑制限制到较高的程度。
发明的有利效果
根据本发明的一些方面,可能实现高质量的信号处理。
附图说明
图1是图示根据本发明的第一示例性实施例的信号处理装置的配置的框图。
图2A是图示根据本发明的第二示例性实施例的噪声抑制装置的配置的框图。
图2B是图示根据本发明的第二示例性实施例的基于重要度的噪声校正单元的配置的示例的框图。
图2C是图示根据本发明的第二示例性实施例的基于重要度的噪声校正单元的配置的示例的框图。
图2D是图示根据本发明的第二示例性实施例的基于重要度的噪声校正单元的配置的示例的框图。
图2E是图示根据本发明的第二示例性实施例的基于重要度的噪声校正单元的配置的示例的框图。
图2F是图示根据本发明的第二示例性实施例的基于重要度的噪声校正单元的配置的示例的框图。
图2G是图示根据本发明的第二示例性实施例的基于重要度的噪声校正单元的配置的示例的框图。
图3是图示根据本发明的第二示例性实施例的变换单元的配置的框图。
图4是图示根据本发明的第二示例性实施例的逆变换单元的配置的框图。
图5是图示根据本发明的第二示例性实施例的噪声估计单元的配置的框图。
图6是图示根据本发明的第二示例性实施例的噪声估计计算器的配置的框图。
图7是图示根据本发明的第二示例性实施例的更新确定单元的配置的框图。
图8是图示根据本发明的第二示例性实施例的加权带噪语音计算器的配置的框图。
图9是图示根据本发明的第二示例性实施例的非线性函数的示例的图。
图10是图示根据本发明的第三示例性实施例的噪声抑制装置的配置的框图。
图11是图示根据本发明的第四示例性实施例的噪声抑制装置的配置的框图。
图12是图示根据本发明的第五示例性实施例的噪声抑制装置的配置的框图。
图13是图示根据本发明的第五示例性实施例的频谱增益生成单元的配置的框图。
图14是图示根据本发明的第五示例性实施例的估计的先验SNR计算器的配置的框图。
图15是图示根据本发明的第五示例性实施例的加权加法单元的配置的框图。
图16是图示根据本发明的第五示例性实施例的噪声频谱增益的配置的框图。
图17是图示根据本发明的第六示例性实施例的噪声抑制装置的配置的框图。
图18是图示根据本发明的第七示例性实施例的噪声抑制装置的配置的框图。
图19是图示根据本发明的第八示例性实施例的噪声抑制装置的配置的框图。
图20是图示根据本发明的第九示例性实施例的噪声抑制装置的配置的框图。
图21是图示根据本发明的第十示例性实施例的噪声抑制装置的配置的框图。
图22是图示根据本发明的第十一示例性实施例的噪声抑制装置的配置的框图。
图23是图示根据本发明的第十二示例性实施例的噪声抑制装置的配置的框图。
图24是图示根据本发明的其它示例性实施例中的一个实施例的噪声抑制装置的配置的框图。
具体实施方式
在下文中,将参考附图详细地说明性描述本发明的示例性实施例。应当注意的是,以下示例性实施例所描述的组件仅是范例,而不旨在将本发明的技术范围限制为仅这些组件。
(第一示例性实施例)
将使用图1描述作为本发明第一示例性实施例的信号处理装置100。该信号处理装置100是用于通过对其中混合了第一信号和第二信号的混合信号进行的处理来抑制第二信号的装置。
如图1所示,信号处理设备100包括信号分析单元101、抑制限制单元102和信号抑制单元103。信号分析单元101对于每个频率分量确定包括在混合信号中的第一信号的重要度。基于确定的结果,抑制限制单元102将对第二信号的、与每个具有高重要度的频率分量有关的抑制限制到与每个具有低重要度的频率分量相关的抑制相比较高的程度。信号抑制单元103通过处理混合信号来抑制第二信号。
在如上描述的配置中,可能通过将重要的信号分量保持原样来实现高质量的信号处理。
(第二示例性实施例)
将使用图2至图11描述为本发明的第二示例性实施例的噪声抑制装置200。该示例性实施例的噪声抑制装置200也用作为诸如数字相机、膝上型计算机以及移动电话的装置的一部分,但是本发明不限制于这种类型的装置,并且可以被应用至需要从输入信号移除噪声的任何类型的信号处理装置。
<整体配置>
图2是图示噪声抑制装置200的整体配置的框图。如在图2中所示的,除了输入端子201之外,噪声抑制装置200包括变换单元202、逆变换单元203和输出端子204、噪声抑制单元205、噪声估计单元206和基于重要度的噪声校正单元208。带噪语音信号(在其中混合有作为第一信号的期望的信号以及作为第二信号的噪声的混合信号)作为采样值序列被提供至输入端子201。被提供至输入端子201的带噪语音信号经过诸如傅里叶变换的变换,并且在变换单元202将该带噪语音信号分解为多个频率分量。对于相应的频率仓(frequencybin)独立处理该多个频率分量。这里,描述将继续集中在一个具体的频率分量。将一个具体频率分量的振幅谱(振幅分量),即带噪语音信号振幅谱220提供至噪声抑制单元205,并且将该具体频率分量的相位谱(相位分量),即带噪语音信号相位谱230提供至逆变换单元203。此外,虽然这里,将带噪语音信号振幅谱220提供至噪声抑制单元205,但本发明不限制于这个配置,而是可以将等效于振幅谱平方的功率谱提供至噪声抑制单元205。
噪声估计单元206通过使用从变换单元202提供的带噪语音信号振幅谱220来对噪声进行估计,并且生成作为估计的第二信号的噪声信息250。此外,基于重要度的噪声校正单元208通过使用从变换单元202提供的带噪语音信号振幅谱220和所生成的噪声信息250针对每个信号的重要度校正噪声。依赖于对应的谱振幅多大程度可能被感知来确定信号的重要度。也就是说,基于重要度的噪声校正单元208不仅基于频谱振幅本身,也可以考虑到由于在邻近频率仓处的信号分量的屏蔽来确定重要度。而且,对于每一个重要频率分量信号,基于重要度的噪声校正单元208校正其中的噪声,使得所抑制的噪声等级变小。也就是说,基于重要度的噪声校正单元208降低噪声抑制程度。
将作为由校正产生的噪声信息的校正的噪声260提供至噪声抑制单元205,并且然后,从带噪语音信号振幅谱220中减去该经校正的噪声260,从而将结果信号提供至逆变换单元203作为强调信号振幅谱240。该逆变换单元203合成从变换单元202提供的带噪语音信号相位谱230以及强调的信号振幅谱240,逆变换所合成的信号,并且提供该逆变换信号至输出端子204作为强调信号。
<基于重要度的噪声校正单元的配置>
图2B至图2G是分别图示基于重要度的噪声校正单元208的内部配置的六个示例的图。在图2B中所示的基于重要度的噪声校正单元208包括信号分析单元251和噪声校正单元252,信号分析单元251检测带噪语音信号振幅频谱分量的峰值作为重要度信息,并且噪声校正单元252执行校正,使得噪声信息等级在相对应的频谱峰变小。
信号分析单元251通过将在每个频率仓的频谱分量与每个频率仓对应的邻近的频率仓的频谱分量比较来检测频谱峰值,并且评估在每个频率仓的频谱分量的幅度是否足够大。例如,信号分析单元251将在每个频率仓的频谱分量与相邻的对应频谱分量(即,相对应的较高和较低频率侧频谱分量)比较,并且如果它们之间的频谱幅度差分别大于阈值,信号分析单元251确定频谱分量为谱峰。这里用于与两侧频谱分量相比较的谱峰检测阈值不必要彼此相等。在2002年3月的日本工业标准:JISX4332-3“音频-可视对象的编码-部分3:音频”中,描述了使在较高频率侧的差值阈值比在较低频率侧的差值阈值小是与人类的听觉特征匹配的。以如该文献中描述的相同的方式,基于重要度的噪声校正单元208也可以通过以下方式检测谱峰:获得关于在较高和较低频率侧的每一侧的多个频率的频谱幅度差值,并且综合这些所获得的多个信息。也就是说,在检测到特定频率仓,对于该特定频率仓在较高和较低频率侧的每一侧,与紧邻的频率仓的谱幅度差值大,并且进一步地,在一些被布置在远离紧邻频率仓方向的一些两个相邻的频率仓对之间的谱幅度差值小的情况下,对应于该特定频率仓的频谱分量产生谱峰。信号分析单元251将具有以这种方式检测出的谱峰的位置(频率仓)提供至噪声校正单元252。
此外,信号分析单元251不需要向噪声检测单元252提供所有已被确定为谱峰的频率仓。例如,信号分析单元251可以仅提取对应于落在范围内的谱峰的频率仓,该范围从最大的谱峰开始并且覆盖根据其所对应的频谱振幅值按降序排列的所有谱峰的给定比例(例如,80%)数目。进一步地,信号分析单元251可以向噪声校正单元252仅提供包括在具体频带之内的谱峰。一个这种具体的频带的示例包括低频带。低频带是感知重要的,并且通过降低对应于包括在低频带内的相应的谱峰分量的噪声抑制程度来提高主观声音质量。此外,在恒定的频率宽度的间隔中存在规则地出现规则的峰值的情况下,或者在恒定时间期间的间隔中存在规则地出现规则的峰值的情况下,信号分析单元251可以将规则的峰值呈现的频率仓确定为更重要的频率仓。类似地,信号分析单元251可以通过利用在时间轴方向的峰值的规则的出现来检测谱峰。也就是说,一旦已经确定一个具体的频率仓对应于谱峰,则以后类似地该频率仓很可能对应于谱峰。这个特性的应用使得信号分析单元251可以通过在曾经检测出谱峰的频率仓处将后续检测的检测阈值设置为比通常的检测阈值小的值,来防止由于来自噪声等的干扰引起的检测故障的发生。此外,从在峰值分量的连续检测之后仍未检测到峰值分量的时间开始的时段期间,信号分析单元251可以使得对应的检测阈值为小。当未检测到任何峰值的时间段变得更长,信号分析单元251可以逐渐地设置该阈值为更小的值,并且当阈值已变得比恒定值更小时,可以再次将该阈值设置为通常的阈值。
在图2B中,噪声校正单元252将已经从信号分析单元251接收的频率仓确定为每个具有高重要度的频率分量,并且从在每个谱峰频率仓处已经输入的噪声信息250中减去恒定值P。因此,如图2B所示,将所输入的噪声信息250校正为校正噪声260。
图2C图示了具有噪声校正单元253的基于重要度的噪声校正单元208,噪声校正单元253执行与图2B中所示的校正不同的处理。图2C中示出的噪声校正单元253,在已经从信号分析单元251接收的谱峰频率仓处、将所输入的噪声信息250乘以恒定值Q(Q是小于或等于“1”的值)。因此,如在图2C中所示,将所输入的噪声信号250校正为校正噪声260。
图2D图示了具有噪声分析单元261的基于重要度的噪声校正单元208,噪声分析单元261执行与图2B中所示的信号分析不同的处理。图2D中示出的信号分析单元261分析“带噪语音信号振幅谱的幅度”而不仅是谱峰,以作为信息的重要度。也就是说,当频谱并不形成谱峰,但具有大振幅值(或功率值),信号分析单元261确定对应于大振幅值的频率仓作为具有高重要度的频率分量,并且检测该频率仓。例如,在频率方向上、每个具有大振幅值的任何连续的频谱分量未被检测为谱峰,但是这部分对于听觉来说是重要的。因此,信号分析单元261将所检测的大频谱振幅的位置(频率仓)提供给噪声校正单元252。这里,信号分析单元261通过分析带噪语音信号振幅谱的强度是否比预定的阈值大来确定带噪语音信号振幅谱是否重要。预定的阈值例如是在相应的所有频率处的功率谱值的平均值、平均值N倍的值、或在特定频带内的振幅值中最大的一个的N倍的值。特别是,当对于每个分段频带确定阈值时,信号分析单元261可以检测在对应的分段频带之内的重要频率分量。当检测到存在于带平均功率值小的区域中的频率分量中的重要的分量时,这个处理能够防止检测泄露。噪声校正单元252与在图2B中已经描述的相同的方式进行操作,并且因此,此处省略了其描述。
图2E图示了将图2D中示出的信号分析单元261与图2C中示出的噪声校正单元253结合而产生的基于重要度的噪声校正单元208。其操作分别与在图2C和图2D中描述的那些相同,并且因此,在此省略其描述。
图2F是图示基于重要度的噪声校正单元208的配置的图,噪声校正单元208选择更重要的谱峰作为重要度信息,并且基于这些信息执行噪声校正。这里信号分析单元271从谱峰频率仓之中选择每一个具有超过恒定值的振幅值的谱峰频率仓。此外,噪声分析单元272执行噪声的削波,从而所选择的谱峰频率仓的每一个的噪声等级变得比一个恒定值低。例如,当谱峰频率仓的噪声上限值由R指示时,在谱峰频率仓处的噪声信息等级大于R的情况下,噪声分析单元272输出R,并且在谱峰频率仓处的噪声信息等级小于R的情况下,输出噪声信息其本身。因此,如图2F中所示,将所输出的噪声信息250校正为经校正的噪声260。
图2G是图示基于重要度的噪声校正单元208的配置的图,噪声校正单元208从带噪语音信号提取出谱峰频率仓和谱峰振幅值作为重要度信息,并且通过使用这些重要度信息校正噪声。信号分析单元281将所检测的谱峰的位置(频率仓)和幅度(振幅值)提供给噪声校正单元282。根据所提供的谱峰的幅度,噪声校正单元282使与所提供的频率仓相对应的估计的噪声等级为小。这里作为一个示例,噪声校正单元282从对应于多条噪声信息(N1、N2、...)的等级中减去与相应所提供的谱峰的幅度(A1、A5、...)成比例的值。因此如图2G所示,将所输入的噪声信息250校正至经校正的噪声260。
此外,基于重要度的噪声校正单元208可以分析针对带噪语音信号振幅谱的噪声似然度。例如,存在于所检测的谱峰之间的低频带处的谱峰中的每一个具有低的噪声似然度。此外,在谱值很小并且未形成谱峰的位置处,噪声似然度高。也就是说,基于重要度的噪声校正单元208可以执行校正,从而在存在于低频带的每一个谱峰频率仓处,使噪声信息的等级为小。
通过基于重要度的噪声校正单元208生成的重要度信息可以是通过将以上描述的谱峰、大的谱振幅和噪声似然度适当的组合在一起产生的。例如,基于重要度的噪声校正单元208可以执行控制,从而在形成大的谱振幅的频带处,甚至可以通过使关于每一个具有大的谱振幅的频谱分量的谱峰检测阈值为小,能够检测到小的谱峰。基于重要度的噪声校正单元208可以通过使用组合的指标获得更准确的重要度信息。此外,正如已在不同的组件的描述中提到的,基于重要度的噪声校正单元208可以应用子带处理等等,在该子带处理等中将处理限制为具体的频带。
根据由基于重要度的噪声校正单元208执行的校正处理,在重要度高的情况下执行弱噪声抑制;而在重要度低的情况下执行强噪声抑制。因此,维持了在重要频率仓的谱振幅,因而显著提高所强调的信号的声音质量。换句话说,通过执行与在噪声的振幅或功率谱上的信号的重要度耦合的抑制,可以获得具有较高质量的输出。
<变换单元的配置>
图3是图示变换单元202的配置的框图。如在图3中所示,变换单元202包括帧分解单元301、加窗单元302和傅里叶变换单元303。将带噪语音信号样本提供给帧分解单元301,并且在帧分解单元301将带噪语音信号样本分段为每个具有K/2个样本的帧。这里,K是偶数。将已被分段为帧的带噪语音信号样本提供给加窗单元302,并且在加窗单元302,乘以窗函数w(t)。从在第n个帧输入信号yn(t)(t=0,1,...,K/2-1)用w(t)加窗而产生的信号通过如下等式(1)给出:
y &OverBar; n ( t ) = w ( t ) y n ( t ) - - - ( 1 )
此外,加窗单元302可能引起每两个连续帧彼此部分重叠并且然后被加窗。假设帧长度的50%是重叠长度,以下等式(2)中的左手侧部分表示加窗单元302在t=0,1,...,K/2-1处的输出。
y &OverBar; n ( t ) = w ( t ) y n - 1 ( t + K / 2 ) y &OverBar; n ( t + K / 2 ) = w ( t + K / 2 ) y n ( t ) - - - ( 2 )
至于实数信号,加窗单元302可以使用对称窗口函数。此外,设计窗口函数,使得当在MMSESTSA方法中频谱增益被设置为1的时候,或当在SS方法中已经减去零时的时候,输入信号和输出信号彼此对应,除非计算误差。这意味着满足等式:w(t)+w(t+K/2)=1。
在下文中,将通过示例的方式继续描述,在该示例中,执行加窗从而使得每两个连续的帧彼此重叠并且在重叠长度是帧长度的50%的状态下。例如,加窗单元402可以使用由以下等式(3)表示的汉林(Hanning)窗作为w(t)。
w ( t ) = 0.5 + 0.5 cos ( &pi; ( t - K / 2 ) K / 2 ) , 0 &le; t < K 0 , otherwise - - - ( 3 )
此外,众所周知各种窗口函数,诸如汉明窗(HammingWindow)、凯塞窗(KaiserWindow)和布拉克曼窗(Blackmanwindow)。将通过执行加窗而获得的输出提供给傅里叶变换单元303,并且在傅里叶变换单元303,将通过执行加窗而获得的输出变换为带噪语音信号谱Yn(k)。将该带噪语音信号谱Yn(k)被分离为相位和振幅,从而将带噪语音信号相位谱argYn(k)提供给逆变换单元203,并且将带噪语音信号振幅谱|Yn(k)|提供给噪声估计单元206。如已描述的,可以使用功率谱作为振幅谱的代替。
<逆变换单元的配置>
图4是图示逆变换单元203的配置的框图。如在图4中所示的,逆变换单元203包括傅里叶逆变换单元401,加窗单元402和帧合成单元403。该傅里叶逆变换单元401将由噪声抑制单元205提供的所强调的信号振幅谱240乘以由变换单元202提供的带噪语音信号相位谱230,并且因而获得强调信号(以下等式(4)的左手侧部分)。
X &OverBar; n ( k ) = | X &OverBar; n ( k ) | &CenterDot; arg Y n ( k ) - - - ( 4 )
逆傅里叶逆变换单元401在所获得的强调信号上执行傅里叶逆变换,并且将所得信号提供给加窗单元402,该所得信号为每一个帧包括K个样本的时域样本值序列:xn(t)(t=0,1,...,K-1)。该加窗单元402将xn(t)乘以窗函数w(t)。通过在第n个帧输入信号xn(t)(t=0,1,...,K-1)上用w(t)执行加窗所获得的信号由以下等式(5)中的左手侧部分给出。
x &OverBar; n ( k ) = w ( t ) x n ( t ) - - - ( 5 )
此外,也广泛地实现,每两个连续帧彼此部分重叠并且然后被加窗。假设帧长度的50%是重叠长度,以下等式(6)的左手侧部分对应于在t=0,1,...,K-1处的加窗单元402的输出,并且该输出被传输至帧合成单元403。
x &OverBar; n ( t ) = w ( t ) x n - 1 ( t + K / 2 ) x &OverBar; n ( t + K / 2 ) = w ( t + K / 2 ) x n ( t ) - - - ( 6 )
帧合成单元403从加窗单元402的输出帧的两个相邻帧分别取出两组K/2个样本,并且重叠该两组K/2个样本,从而获得在t=0,1,...,K-1处的输出信号,如在以下等式(7)的左手侧部分示出的。将所获得的输出信号从帧合成单元403传输至输出端子204。
x ^ n ( t ) = x &OverBar; n ( t + K / 2 ) + x &OverBar; n ( t ) - - - ( 7 )
此外,在图3和图4中,在变换单元202和逆变换单元203中的每一个单元中执行的变换被描述为傅里叶变换,但是可以使用不同的变换作为取代傅里叶变换的代替,诸如余弦变换、修正余弦变换、阿达玛(Hadamard)变换、哈尔(Haar)变换、小波变换。例如,余弦变换和修正余弦变换中的每个变换仅输出谱振幅作为变换结果。因此,在图2中,从变换单元202到逆变换单元203的变换变得不必要。此外,将记录在噪声存储单元的噪声信息也仅是关于谱振幅(或功率)的噪声信息,并且这有助于存储容量的降低,并且降低了在噪声抑制处理中的运算操作量。在变换单元202和逆变换单元203的每一个中使用哈尔变换的情况下,乘法变得不必要。在变换单元202和逆变换单元203中的每一个单元中使用小波变换的情况下,由于时间分辨率可以被改变为对于相应的频率仓不同的时间分辨率,因此可能期望噪声抑制效果的进一步增强。
<噪声估计单元的配置>
图5是图示图2A的噪声估计单元206的配置的框图。噪声估计单元206包括估计噪声计算器501、加权带噪语音计算器502和计数器503。将提供给噪声估计单元206的带噪语音功率谱被传送至估计噪声计算器501和加权带噪语音计算器502。加权带噪语音计算器502通过使用所提供的带噪语音功率谱和估计的噪声功率谱,来计算加权的带噪语音功率谱,并且将所计算的加权的带噪语音功率谱传输至估计噪声计算器501。估计噪声计算器501通过使用带噪语音功率谱、加权的带噪语音功率谱和由计数器503提供的计数值估计噪声的功率谱,输出所得的噪声功率谱作为估计的噪声功率谱,并且进一步,将其反馈回至加权的带噪语音计算器502。
图6是图示包括在图5中的估计噪声计算器501的配置的框图。估计噪声计算器501具有更新确定单元601、寄存器长度存储单元602、估计噪声存储单元603、开关604、移位寄存器605、加法器606、最小值选择单元607、除法器608和计数器609。将加权的带噪语音功率谱提供给开关604。当开关604闭合它的电路时,将加权的带噪语音功率谱传输至移位寄存器605。响应于从更新确定单元601提供的控制信号,移位寄存器605将它的每个内部寄存器的存储值移位至相邻的内部寄存器。移位寄存器的长度等于存储在寄存器长度存储单元602中的值,该寄存器长度存储单元602如下文所述。将移位寄存器605的所有寄存器输出提供给加法器606。加法器606对提供的所有寄存器输出执行加法,并且传输加法结果至除法器608。
同时,提供给更新确定单元601计数值、基于频率的带噪语音功率谱以及基于频率估计的噪声功率谱。在计数值达到预设值之前,该更新确定单元601恒定输出值信号“1”。在计数值以达到预设值之后,在确定所输入的带噪语音信号为噪声的情况下,更新确定单元601输出值信号“1”;否则,更新确定单元601输出值信号“0”。进一步地,更新确定单元601将所输出的值信号传送至计数器609、开关604和移位寄存器605。当从更新确定单元601提供的值信号为“1”时,开关604闭合它的电路,并且当从更新确定单元601提供的值信号为“0”时,开关604断开它的电路。当从更新确定单元601提供的值信号为“1”时,计数器609增加它的计数值,并且当从更新确定单元601提供的值信号为“0”时,计数器609不改变它的计数值。当从更新确定单元601提供的值信号为“1”时,移位寄存器605取得从开关604提供的一个信号样本,并且同时将其内部寄存器中的每一个内部寄存器的存储值移位至与该内部寄存器临近的内部寄存器。将计数器609的输出和寄存器长度存储单元602的输出提供给最小值选择单元607。
最小值选择单元607选择所提供的计数值和寄存器长度中较小的一个,并且将该所选择的计数值或寄存器长度传送至除法器608。该除法器608执行除法,该除法为从加法器606提供的带噪语音功率谱的相加结果值除以计数值和寄存器长度中较小的一个,并且输出它的商作为基于频率的估计噪声功率谱λn(k)。假设Bn(k)(n=0,1,...,N-1)对应于存储在移位寄存器605中的带噪语音功率谱的相应样本值,λn(k)是由以下等式(8)给出的:
&lambda; n ( k ) = 1 N &Sigma; n = 0 N - 1 B n ( k ) - - - ( 8 )
此外,N是计数值和寄存器长度中的一个较小的值。由于计数值从零开始并且单调地增加,除法器608最初执行相加结果值除以计数值,并且然后执行相加结果值除以寄存器长度。执行除以寄存器长度的除法引起存储在移位寄存器中的值的平均值的计算。最初,由于足够多值还未存储在移位寄存器605中,以实际存储有对应值的寄存器单元的数目来执行除法。当计数值比寄存器长度小时,实际存储有对应值的寄存器元件的数目等于计数值,并且当计数值变得比寄存器长度大时,实际存储有对应值的寄存器元件的数目等于寄存器长度。
图7是图示包括在图6中的更新确定单元601的配置的框图。更新确定单元601具有逻辑加法计算器701、比较器702和704、阈值存储单元705和703以及阈值计算器706。将从图5中示出的计数器503所提供的计数值传输至比较器702。将阈值存储单元703的输出的阈值传输至比较器702。该比较器702比较所提供的计数值和阈值,从而在计数值比阈值小的情况下,比较器702将“1”传送至逻辑加法计算器701,并且在计数值比阈值大的情况下将“0”传送至逻辑加法器701。同时,阈值计算器706根据图6中所示的估计噪声存储单元603提供的估计噪声功率谱计算一个值,并且输出所计算的值至阈值存储单元705作为阈值。计算阈值最简单的方法是将估计的噪声功率谱乘以恒定值。
此外,阈值计算器706可以通过使用高阶多项式或非线性函数计算阈值。该阈值存储单元705在其中存储从阈值计算器706输出的阈值,并且向比较器704输出在一个帧之前的时间已存储的阈值。比较器704将从阈值存储单元705提供的阈值与从变换单元202提供的带噪语音功率谱的幅度进行比较,从而当带噪语音功率谱的幅度小于阈值时,比较器704将“1”输出至逻辑加法计算器701,并且当带噪语音功率谱的幅度比阈值大时,比较器704将“0”输出至逻辑加法计算器701。也就是说,基于估计的噪声功率谱的幅度,比较器704确定带噪语音信号是否是噪声。逻辑加法计算器701计算比较器702的输出值和比较器704的输出值的逻辑和,并且将计算结果输出给在图6中示出的开关604、移位寄存器605和计数器609。以这种方式,不仅在初始状态和静默期,而且甚至在非静默期当带噪语音功率的幅度很小的时候,更新确定单元601也输出“1”。也就是说执行估计噪声的更新。由于对每个频率仓计算阈值,可能对于每个频率仓更新估计噪声。
图8是图示加权带噪语音计算器502的配置的框图。该加权带噪语音计算器502具有估计噪声存储单元801、基于频率的SNR计算器802、非线性处理单元804和乘法器803。估计噪声存储单元801在其中存储从在图5中示出的估计噪声计算器501提供的估计噪声功率谱,并且向基于频率的SNR计算器802输出在一帧之前的时间已存储的估计噪声功率谱。基于频率的SNR计算器802通过使用从估计噪声存储单元801提供的估计的噪声功率谱和从变换单元202提供的带噪语音功率谱计算针对每个频带的信噪比(SNR),并且将所计算的SNR输出至非线性处理单元804。具体地,基于频率的SNR计算器802根据下列等式(9)通过执行将所提供的带噪语音功率谱除以所提供的估计噪声功率谱,来计算基于频率的SNRγn(k)随机编码。这里,λn-1(k)是在一帧之前的时间已存储的估计噪声功率谱。
&gamma; ^ n ( k ) = | Y n ( k ) | 2 &lambda; n - 1 ( k ) - - - ( 9 )
非线性处理单元804通过使用从基于频率的SNR计算器802提供的SNR来计算加权系数向量,并且将所计算的加权系数向量输出至乘法器803。乘法器803对于每个频带,计算从变换单元202提供的带噪的功率谱和从非线性处理单元804提供的加权系数向量的乘积,并且将加权的带噪语音功率谱输出至在图5中示出的估计噪声计算器501。
非线性处理单元804具有根据相应的多路输入值输出实数值的非线性函数。在图9中,图示了非线性函数的示例。当假定f1是输入值,在图9中示出的非线性函数的输出值f2通过下列等式(10)表示。此外,a和b分别是预定的实数。
f 2 = 1 , f 1 &le; a f 1 - b a - b , a < f 1 &le; b 0 , b < f 1 - - - ( 10 )
非线性处理单元804通过使用非线性函数,通过处理从基于频率的SNR计算器802提供的基于频带SNR来获得加权系数,并且将加权系数传送至乘法器803。也就是说,非线性处理单元804输出加权系数,该加权系数依赖于SNR采取从“1”到“0”的值。当SNR小于或等于a,非线性处理单元804输出“1”,并且当SNR大于b时,非线性处理单元804输出“0”。
在图8中示出的乘法器803中与带噪语音功率谱相乘的加权系数是基于SNR的值,并且SNR变得越大,也就是说包括在带噪语音中的语音分量的数量变得越大,加权系数的值变得越小。通常,带噪语音功率谱用于估计噪声的更新。然而在这个示例性的实施例中,乘法器803执行基于针对被用于估计噪声更新的带噪语音功率谱的SNR的加权。以这种方式,噪声抑制装置200可以使包括在带噪语音功率谱的语音分量的影响更小,因而使噪声更准确的估计。此外,以上已示出示例,在该示例中当计算加权系数时,乘法器803使用非线性函数,但是乘法器803可以使用除了非线性函数以外的以不同形式表示SNR的函数,诸如高阶多项式表达式的线性函数。
在以上所描述的方式中,根据本示例性实施例的配置,实际上可能通过原样保留重要信号来实现具有高质量的信号处理。
(第三示例性实施例)
图10是图示为本发明的第三示例性实施例的噪声抑制装置1000的示意性配置的框图。不像在第二示例性实施例中的情况一样,根据该示例性实施例的噪声抑制装置1000被配置为包括噪声存储单元1006作为噪声估计单元206的代替。
噪声存储单元1006包括诸如半导体存储器的存储器元件,并且在其中存储噪声信息(关于噪声的特性的信息)。该噪声存储单元1006在其中存储噪声谱的形状作为噪声信息。噪声存储单元1106可以在其中存储特征量,除了谱之外,诸如相位的频率特性、时间变化和具体频率下的强度。此外,噪声信息可以是一种或多种统计(最大、最小、方差和中位数)等。在用1024频率分量表示谱的情况下,关于谱振幅(或功率)的1024个数据存储在噪声存储单元1106。将记录在噪声存储单元1006中的噪声信息250提供给基于重要度的噪声校正单元208。
由于第三示例性实施例的其他组件和操作与第二示例性实施例中的那些组件和操作相同,与第二示例性实施例的那些组件相同的组件通过与第二示例性实施例中的那些组件相同的相应附图标记指示,并且在此省略详细描述。
根据该示例性实施例,正如在第二示例性实施例中的情况一样,实际上也可能通过原样保留重要的信号分量实现高质量的信号处理。
(第四示例性实施例)
图11是图示为本发明的第四示例性实施例的噪声抑制装置110o的示意性配置的框图。与第三示例性实施例的情况不同,噪声抑制装置1100被配置为使噪声修正单元1101修正来自噪声存储单元1006的输出,并且然后将该修正的噪声信息提供给基于重要度的噪声校正单元208。
噪声修正单元1101接收来自噪声抑制单元205的输出240,并且根据噪声抑制结果的反馈修正噪声。
由于第四示例性实施例的其他组件和操作与第三示例性实施例中的那些组件相同,与第三示例性实施例的那些组件相同的组件通过与第三示例性实施例中的那些组件相同的相应附图标记指示,并且在此省略详细描述。
根据该示例性实施例,正如在第三示例性实施例中的情况一样,实际上也可能通过原样保留重要的信号分量实现高质量的信号处理,并且此外可能执行更准确的噪声抑制。
(第五示例性实施例)
图14是图示为本发明的第五示例性实施例的噪声抑制装置1200的示意性配置的框图。当比较图2A和图12时,与在第二示例性实施例中的情况不同,根据本示例性实施例的噪声抑制装置1200被配置为包括频谱增益生成单元1210,该频谱增益生成单元1210通过使用噪声信息和带噪语音信号生成频谱增益。此外,根据本示例性实施例的噪声抑制装置1200包括执行乘法的噪声抑制单元1205。由于第五示例性实施例的其他组件和操作与第二示例性实施例中的那些组件和操作相同,与第二示例性实施例的那些组件相同的组件通过与第二示例性实施例中的那些组件相同的对应附图标记指示,并且在此省略详细描述。
<频谱增益生成单元的配置>
图13是包括在图12中的频谱增益生成单元1210的配置的框图。如在图13中示出的,频谱增益生成单元1210包括后验SNR计算器1301、估计的先验SNR计算器1302、噪声频谱增益计算器1303和语音不存在概率存储单元1304。
后验SNR计算器1301通过使用所输入的带噪语音功率谱和所输入的估计噪声功率谱对某个频率仓计算后验SNR,并且将所计算的后验SNR提供给估计的先验SNR计算器1302和噪声频谱增益计算器1303。估计的先验SNR计算器1302通过使用所输入的后验SNR和从噪声频谱增益计算器1303反馈回的频谱增益估计先验SNR,并且将先验SNR传输至噪声频谱增益计算器1303作为估计的先验SNR。该噪声频谱增益计算器1303通过使用作为输入提供的后验SNR和先验SNR以及来自语音不存在概率存储单元1304提供的语音不存在概率生成噪声频谱增益,并且输出所生成的噪声频谱增益作为频谱增益Gn(k)bar。
图14是图示包括在图13中的估计先验SNR计算器1302的配置的框图。估计先验SNR计算器1302具有范围限制处理单元1401、后验SNR存储单元1402、频谱增益存储单元1403、乘法器1404和1405、加权存储单元1406、加权加法单元1407和加法器1408。将从后验SNR计算器1301提供的后验SNRγn(k)(k=0,1,...,M-1)传输到后验SNR存储单元1402和加法器1408。后验SNR存储单元1402在其中存储后验在第n帧的SNRγn(k),并且同时将在第(n-1)帧处后验SNRγn-1(k)传输至乘法器1405。
频谱增益存储单元1403在其中存储在第n帧处的频谱增益Gn(k)bar,并且同时将在第(n-1)帧的频谱增益Gn-1(k)bar传输至乘法器1404。乘法器1404通过将所提供的Gn-1(k)bar乘以它自己计算Gn-12(k)bar,并且将Gn-12(k)bar传输至乘法器1405。乘法器1405通过将Gn-12(k)bar乘以在k=0,1,...,M-1处的γn-1(k)来计算Gn-12(k)barγn-1(k),并且将计算结果传输至加权加法单元1407作为过去的估计SNR922。
将“-1”提供给加法器1408的另一端子,并且将加法结果γn(k)-1传输至范围限制处理单元1401。范围限制处理单元1401在从加法器1408提供的加法结果γn(k)-1上执行使用范围限制算子P[*]的算术操作,并且将使得的P[γn(k)-1]传输至加权加法单元1407作为瞬时估计SNR921。此外,通过下列等式(11)确定P[*]。
P [ x ] = x , x 1 > 0 0 , x &le; 0 - - - ( 11 )
进一步将来自加权存储单元1406的权重923提供给加权加法单元1407。加权加法单元1407通过使用这些所提供的瞬时估计SNR921、过去估计的SNR922和权重923来计算估计的先验SNR924。假设权重923和ξn(k)hat分别对应于α和估计的先验SNR,可以通过使用以下等式(12)计算ξn(k)hat。本文中,假设满足等式:Gn-12(k)γ-1(k)bar=1。
&xi; ^ n ( k ) = &alpha; &gamma; n - 1 ( k ) G &OverBar; n - 1 2 ( k ) + ( 1 - &alpha; ) P [ &gamma; n ( k ) - 1 ] - - - ( 12 )
图15是图示包括在图14中的加权加法单元1407的配置的框图。加权加法单元1407具有乘法器1501和1503、固定数目乘法器1505以及加法器1502和1504。将来自图14中所示的范围限制处理单元1401的基于频带的瞬时估计SNR、来自图14中所示的乘法器1405的过去的基于频带的SNR以及来自图14中所示的加权存储单元1406的权重作为提供给加权加法单元1407的输入。具有值α的权重被传输至固定数目乘法器1505以及乘法器1503。固定数目乘法器1505将由输入信号乘以“-1”的产生的结果“-α”传输至加法器1504。进一步将“1”提供给加法器1504的另一个输入,从而加法器1504的输出变成两者的和“1-α”。进一步,将“1-α”提供给乘法器1501,并且在乘法器1501乘以另一个输入,即基于频带的瞬时估计SNRP[γn(k)-1],从而将它的乘积即(1-α)P[γn(k)-1]传输至加法器1502。同时,在乘法器1503中,已作为权重提供的α乘以过去估计的SNR,并且将它的乘积即αGn-12(k)barγn-1(k)传输至加法器1502。加法器1502输出(1-α)P[γn(k)-1]和αGn-12(k)barγn-1(k)的和作为基于频带估计的先验SNR。
图16是图示包括在图16中的噪声频谱增益计算器1303的框图。该噪声频谱增益计算器1303包括MMSESTSA增益函数值计算器1601、广义似然率计算器1602和频谱增益计算器1603。在下文中,将基于在IEEETRANSACTIONSONACOUSTICS,SPEECH,ANDSIGNALPROCESSING,1984年12月第32卷第6号1109-1121页中所描述的计算式描述用于计算频谱增益的方法。
这里,假设N表示帧数目,并且k表示频率数目。进一步假设γn(k)表示从后验SNR计算器1301提供的基于频率的后验SNR;ξn(k)hat表示从估计先验SNR计算器1302提供的基于频率的估计的先验SNR;并且q表示从语音不存在概率存储单元1304提供的语音不存在概率。
进一步,假设满足以下等式:ηn(k)=ξn(k)hat/(1-q),以及vn(k)=(ηn(k)γn(k))/(1+ηn(k))。
该MMSESTSA增益函数值计算器1601基于从后验SNR计算器1301提供的后验SNRγn(k)、从估计先验SNR计算器1302提供的估计的先验SNRξn(k)hat和从语音不存在概率存储单元1304提供的语音不存在概率q,对每个频带计算MMSESTSA增益函数值,并且MMSESTSA增益函数值计算器1601将所计算的MMSESTSA增益函数值输出至频谱增益计算器1603。通过以下等式(13)给出对于每个频带的MMSESTSA增益函数值Gn(k)。
G n ( k ) = &pi; 2 v n ( k ) &gamma; n ( k ) + 1 exp ( - v n ( k ) 2 ) [ ( 1 + v n ( k ) ) I 0 ( v n ( k ) 2 ) + v n ( k ) I 1 ( v n ( k ) 2 ) ] - - - ( 13 )
这里,I0(z)是零阶修正贝塞尔(Bessel)函数,并且I1(z)是一阶修正贝塞尔函数。在岩波书店(IwanamiShoten)出版社,374.G页(它的英文版本是数学百科词典)的“IwanamiSugakuJiten”中描述了修正贝塞尔函数。
广义似然率计算器1602基于从后验SNR计算器1301提供的后验SNRγn(k)、从估计先验SNR计算器1302提供的估计的先验SNRξn(k)hat和从语音不存在概率存储单元1304提供的语音不存在概率q对于每个频带计算广义似然率,并且将广义似然率传输至频谱增益计算器1603。通过以下等式(14)给出对于每个频带的广义似然率Λn(k)。
&Lambda; n ( k ) = 1 - q q exp ( v n ( k ) ) 1 + &eta; n ( k ) - - - ( 14 )
频谱增益计算器1603从由MMSESTSA增益函数值计算器1601提供的MMSESTSA增益函数值Gn(k)和由广义似然率计算器1602提供的广义似然率Λn(k)对于每个频带计算频谱增益。通过以下等式(15)给出对于每个频带的频谱增益Gn(k)bar。
G &OverBar; n ( k ) = &Lambda; n ( k ) q &Lambda; n ( k ) + 1 G n ( k ) - - - ( 15 )
频谱增益计算器1603可以计算为包括多个频带的宽频带所共用的SNR,并且对于相应的频带可以使用该SNR代替对SNR进行计算。
通过以上所描述的配置,类似地,在使用频谱增益的噪声抑制中,执行控制从而根据所期望的信号等级和噪声等级使噪声等级变小,因而能够实现具有高质量的信号处理。也就是说,根据该示例性实施例,正如在第二示例性实施例的情况下实际上也可能通过原样保留重要的信号分量来实现具有高质量的信号处理,并且进一步可能执行更准确的噪声抑制。
(第六示例性实施例)
图17是图示为本发明的第六示例性实施例的噪声抑制装置1700的示意性配置的框图。与第五示例性实施例的情况不同,根据本示例性实施例,噪声抑制装置1700被配置为包括已在第三示例性实施例中描述的噪声存储1006作为对于噪声估计单元206的代替。由于第六示例性实施例的其他组件和操作与第五示例性实施例中的相同,如第五示例性实施例中相同的组件通过与第五示例性实施例中相同的相对应的附图标记表示,并且在此省略详细描述。
根据本示例性实施例,与第五示例形式示例相同,实际上也可以通过原样保留重要的信号分量实现具有高质量的信号处理。
(第七示例性实施例)
图18是图示为本发明的第七示例性实施例的噪声抑制装置1800的示意性配置的框图。与第六示例性实施例的情况不同,根据本示例性实施例,噪声抑制装置1800被配置为使噪声修正单元1101在来自噪声存储单元1006的输出上执行修正,并且将所修正的噪声信息250提供给基于重要度的噪声校正单元208。
噪声修正单元1101接收来自噪声抑制单元1205的输出240,并且根据噪声抑制结果的反馈修正噪声。
由于第七示例性实施例的其他组件和操作与第六示例性实施例中的相同,如第六示例性实施例中那些组件相同的组件通过与第六示例性实施例中相同的相对应的附图标记表示,并且在此省略详细描述。
根据本示例性实施例,与第六示例形式示例相同,实际上也可以通过原样保留重要的信号组件实现具有高质量的信号处理,并且进一步,可能执行更准确的噪声抑制。
(第八示例性实施例)
图19是图示为本发明的第八示例性实施例的噪声抑制装置1900的示意性配置的框图。当比较图12和图19时,与第五示例性实施例的情况不同,根据本示例性实施例的噪声抑制装置1900不包括基于重要度的噪声校正单元,并且作为其代替,包括根据相对应的重要度校正由频谱增益生成单元1210所提供的频谱增益的基于重要度的频谱增益校正单元1908。由于第八示例性实施例的其他组件和操作与第五示例性实施例中的相同,与第五示例性实施例中相同的组件通过与第五示例性实施例中相同的对应附图标记表示,并且在此省略详细描述。
基于重要度的频谱增益校正单元1908根据输入信号(频率仓)相对应的重要度校正通过频谱增益生成单元1201生成的频谱增益。具体地,配置基于重要度的频谱增益校正单元1908,从而已在图2B至图2G中描述的噪声校正单元252、253、272和282中的每一个被改为频谱增益校正单元,并且在作为所输入的噪声信息的代替的输入的频谱增益上执行类似的校正。
以这种方式,关于对应的重要频率分量信号,噪声抑制装置1900使频谱增益为小,从而限制在噪声抑制单元1205中相对应的信号抑制。
通过以上所描述的配置,类似地在使用频谱增益的噪声抑制中,执行控制,从而根据所期望的信号等级和噪声等级的比例使频谱增益为小,因而使得能够实现具有高质量的信号处理。也就是说,根据该示例性实施例,与第二示例性实施例的情况一样,实际上通过原样保留重要的信号分量可能实现高质量的信号处理,并且进一步,可能执行更准确的噪声抑制。
(第九示例性实施例)
图20是图示为本发明的第九示例性实施例的噪声抑制装置2000的示意性配置的框图。与第八示例性实施例的情况不同,根据本示例性实施例,噪声抑制装置2000被配置为包括已在第三示例性实施例中描述的噪声存储1006作为噪声估计单元206的代替。由于第九示例性实施例的其他组件和操作与第八示例性实施例中的相同,与第八示例性实施例中那些组件相同的组件通过与第八示例性实施例中相同的对应附图标记表示,并且在此省略详细描述。
根据本示例性实施例,与第八示例形式示例相同,实际上也可以通过原样保留重要的信号组件实现具有高质量的信号处理。
(第十示例性实施例)
图21是图示为本发明的第十示例性实施例的噪声抑制装置2100的示意性配置的框图。与第九示例性实施例的情况不同,根据本示例性实施例,配置噪声抑制装置2100从而将由校正产生的频谱增益反馈回至频谱增益生成单元2110。频谱增益生成单元2110通过使用反馈的频谱增益生成下一个频谱增益。这个操作增加了频谱增益的准确性,并且因此导致声音质量的提高。
由于第十示例性实施例的其他组件和操作与第九示例性实施例中组件和操作的相同,与第九示例性实施例的那些组件相同的组件通过与第九示例性实施例中相同的对应附图标记表示,并且在此省略详细描述。
根据本示例性实施例,与第九示例形式示例相同,实际上也可以通过原样保留重要的信号组件实现具有高质量的信号处理,并且进一步,可能执行更准确的噪声抑制。
(第十一示例性实施例)
图22是图示如本发明的第十一示例性实施例的噪声抑制装置2200的示意性配置的框图。与第九示例性实施例的情况不同,根据本示例性实施例,噪声抑制装置2200被配置引起噪声修正单元1101在来自噪声存储单元1006的输出上执行修正,并且将所修正的噪声信息250提供给频谱增益生成单元1210。
噪声修正单元1101接收来自噪声抑制单元1205的输出240,并且根据噪声抑制结果的反馈来修正噪声。
由于第十一示例性实施例的其他组件和操作与第九示例性实施例中组件和操作的相同,与第九示例性实施例的那些组件相同的组件通过与第九示例性实施例中相同的对应的附图标记表示,并且在此省略详细描述。
根据本示例性实施例,与第九示例形式示例相同,实际上也可以通过原样保留重要的信号组件实现具有高质量的信号处理,并且进一步,可能执行更准确的噪声抑制。
(第十二示例性实施例)
图23是图示为本发明的第十二示例性实施例的噪声抑制装置2200的示意性配置的框图。与第九示例性实施例的情况不同,根据本示例性实施例,噪声抑制装置2200被配置为使得将由校正产生的频谱增益反馈回至频谱增益生成单元2110。频谱增益生成单元2110通过使用反馈的频谱增益生成下一个频谱增益。这个操作增加了频谱增益的准确性,并且因此导致声音质量的提高。此外,根据本示例性实施例噪声抑制装置2200引起噪声修正单元1101在从噪声存储单元1006的输出上执行修正,并且将所修正的噪声信息250提供给频谱增益生成单元2110。该噪声修正单元1101接收来自噪声抑制单元1205的输出240,并且根据噪声抑制结果的反馈来修正噪声。
由于第十二示例性实施例的其他组件和操作与第九示例性实施例中的组件和操作相同,与第九示例性实施例的那些组件相同的组件通过与第九示例性实施例中相同的对应附图标记表示,并且在此省略详细描述。
根据本示例性实施例,与第九示例形式示例相同,实际上也可以通过原样保留重要的信号组件实现具有高质量的信号处理,并且进一步,可能执行更准确的噪声抑制。
(其他实施例)
在以上第一至第十二实施例中,已描述了具有相应的不同特征的噪声抑制装置,但是每一个由任意地组合特征而产生的噪声抑制装置也包括在本发明的类别中。
进一步,可以将本发明应用于包括多种装置的系统,并且也可以被应用至单个装置。此外,本发明也可以被应用于将实现上述示例性实施例的软件的信号处理程序直接或从远程提供给系统或装置的情况。因此,为了使计算机实现根据本发明各方面的功能,安装在计算机中的程序,以及在其中存储该程序的介质和允许程序被下载到计算机的WWW服务器也包括在本发明的类别中。
图24是计算机2400的框图,计算机2400在通过信号处理程序实现第一示例性实施例的情况下执行信号处理程序。计算机2400包括输入单元2401、CPU2402、存储器2403以及输出单元2404。
CPU2402通过在信号处理程序中读取来控制计算机2400的操作。也就是说,CPU2402执行存储在存储器2403中的信号处理程序,并且因而对于相应的频率分量分析包括在混合信号中的第一信号的重要度(S2411),该混合信号混合有第一信号和第二信号。下一步,作为分析的结果,CPU2402执行控制,以便与对应于具有低重要的频率分量上的对第二信号的抑制相比、在对应于具有高重要度的频率分量上将第二信号的抑制限制到较高程度(S2412)。进一步,CPU2402基于限制控制来处理混合信号,并且由此抑制第二信号(S2413)。
以这种方式,可能获得与第一示例性实施例相同的有利效果。
在上文中,已经参考了本发明的示例性实施例描述了本发明,但是本发明不限制于这些示例性实施例。本领域的技术人员可以在配置上以及本发明的细节上在本发明的范围内做出各种可理解的变形。
本申请是基于并且要求来自于2010年11月25日提交的日本专利申请第2010-263023号的优先权,将其公开内容通过引用整体结合于此。

Claims (12)

1.一种信号处理装置,所述信号处理装置包括:
抑制单元,所述抑制单元抑制包括在混合信号中的第二信号,在所述混合信号中混合有第一信号和所述第二信号;
分析单元,所述分析单元针对频率分量中的每一个频率分量,确定包括在所述混合信号中的所述第一信号的重要度;以及
限制单元,所述限制单元基于由所述分析单元做出的所述确定的结果,针对频率分量中的每一个频率分量而限制对所述第二信号的所述抑制,从而使得与对应于所述频率分量中具有低重要度的至少一个频率分量的对所述第二信号的所述抑制相比,对应于所述频率分量中具有高重要度的至少一个频率分量的对所述第二信号的所述抑制被限制到较大程度。
2.根据权利要求1所述的信号处理装置,其中所述分析单元确定至少一个谱峰频率作为具有高重要度的所述至少一个频率分量。
3.根据权利要求2所述的信号处理装置,其中,在与至少一个第一频率对应的值和与邻近所述至少一个第一频率的第二频率对应的值之间的差值大于相对应的预定阈值的情况下,所述分析单元确定所述至少一个第一频率为所述至少一个谱峰频率,所述值是振幅值和功率值中的任一项。
4.根据权利要求2所述的信号处理装置,其中所述分析单元确定被包括在所述至少一个谱峰频率中、并且规则性呈现的至少一个谱峰频率,作为具有高重要度的所述至少一个频率分量。
5.根据权利要求1所述的信号处理装置,其中所述分析单元确定至少一个频率作为具有高重要度的所述至少一个频率分量,在所述至少一个频率处,振幅值和功率值中的任一项大于相对应的预定阈值。
6.根据权利要求1所述的信号处理装置,其中所述分析单元确定至少一个谱峰频率作为具有高重要度的所述至少一个频率分量,在所述至少一个谱峰频率处,振幅值和功率值中的任一项大于相对应的预定阈值。
7.根据权利要求1所述的信号处理装置,
其中所述抑制单元估计混合在所述混合信号中的所述第二信号,并且通过使用估计的所述第二信号对所述混合信号执行所述抑制,以及
其中所述限制单元基于由所述分析单元做出的所述确定的结果,针对各频率分量而执行对估计的所述第二信号的值的校正,从而使得与对应于所述频率分量中具有低重要度的至少一个频率分量的所述估计的第二信号的值相比,对应于所述频率分量中具有高重要度的至少一个频率分量的所述估计的第二信号的值被校正为较小程度。
8.根据权利要求1所述的信号处理装置,
其中所述抑制单元是用于在其中预先存储所述第二信号作为存储的第二信号的机构,所述第二信号被估计为混合在所述混合信号中,并且所述抑制单元通过使用所述存储的第二信号而在所述混合信号上执行所述抑制,以及
其中所述限制单元基于由所述分析单元做出的所述确定的结果、针对各频率分量而执行对所述存储的第二信号的值的校正,从而使得与对应于所述频率分量中具有低重要度的至少一个频率分量的所述存储的第二信号的值相比,对应于所述频率分量中具有高重要度的至少一个频率分量的所述存储的第二信号的值被校正为较小程度。
9.根据权利要求1所述的信号处理装置,
其中所述抑制单元是用于通过将所述混合信号与针对各频率分量的频谱增益相乘来抑制混合在所述混合信号中的所述第二信号的机构,以及
其中所述限制单元针对各频率分量而执行对所述频谱增益的值的校正,从而使得与对应于所述频率分量中具有低重要度的至少一个频率分量的频谱增益的值相比,对应于所述频率分量中具有高重要度的至少一个频率分量的频谱增益的值被校正为较小程度。
10.根据权利要求1所述的信号处理装置,其中所述第二信号是噪声,并且所述限制单元针对各频率分量而执行对估计噪声的值的校正,所述估计噪声被用于由所述抑制单元执行的所述抑制,从而使得与对应于所述频率分量中具有低重要度的至少一个频率分量的所述估计噪声的值相比,对应于所述频率分量中具有高重要度的至少一个频率分量的所述估计噪声的值被校正为较小程度。
11.一种信号处理方法,所述信号处理方法包括:
针对频率分量中的每一个频率分量,确定包括在混合信号中的第一信号的重要度,在所述混合信号中混合有所述第一信号和第二信号;以及
在针对频率分量中的每一个频率分量而抑制包括在所述混合信号中的所述第二信号时,限制对所述第二信号的所述抑制,从而使得与对应于所述频率分量中具有低重要度的至少一个频率分量的对所述第二信号的所述抑制相比,对应于所述频率分量中具有高重要度的至少一个频率分量的对所述第二信号的所述抑制被限制到较大程度。
12.一种信号处理方法,所述信号处理方法包括:
抑制步骤,通过处理混合信号来抑制第二信号,在所述混合信号中混合有第一信号和所述第二信号;
分析步骤,针对频率分量中的每一个频率分量,确定包括在所述混合信号中的所述第一信号的重要度;以及
限制步骤,基于在所述分析步骤中的所述确定的结果,针对频率分量中的每一个频率分量而限制对所述第二信号的所述抑制,从而使得与对应于所述频率分量中具有低重要度的至少一个频率分量的对所述第二信号的所述抑制相比,对应于所述频率分量中具有高重要度的至少一个频率分量的对所述第二信号的所述抑制被限制到较大程度。
CN201180056862.0A 2010-11-25 2011-11-21 信号处理装置、信号处理方法 Active CN103229236B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2010-263023 2010-11-25
JP2010263023 2010-11-25
PCT/JP2011/077283 WO2012070668A1 (ja) 2010-11-25 2011-11-21 信号処理装置、信号処理方法、及び信号処理プログラム

Publications (2)

Publication Number Publication Date
CN103229236A CN103229236A (zh) 2013-07-31
CN103229236B true CN103229236B (zh) 2016-05-18

Family

ID=46146003

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180056862.0A Active CN103229236B (zh) 2010-11-25 2011-11-21 信号处理装置、信号处理方法

Country Status (4)

Country Link
US (1) US9792925B2 (zh)
JP (1) JP6064600B2 (zh)
CN (1) CN103229236B (zh)
WO (1) WO2012070668A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2581904B1 (en) * 2010-06-11 2015-10-07 Panasonic Intellectual Property Corporation of America Audio (de)coding apparatus and method
US10741194B2 (en) 2013-04-11 2020-08-11 Nec Corporation Signal processing apparatus, signal processing method, signal processing program
CN104134444B (zh) * 2014-07-11 2017-03-15 福建星网视易信息系统有限公司 一种基于mmse的歌曲去伴奏方法和装置
US10347273B2 (en) * 2014-12-10 2019-07-09 Nec Corporation Speech processing apparatus, speech processing method, and recording medium
CN104980337B (zh) * 2015-05-12 2019-11-22 腾讯科技(深圳)有限公司 一种音频处理的性能提升方法及装置
JP6501259B2 (ja) * 2015-08-04 2019-04-17 本田技研工業株式会社 音声処理装置及び音声処理方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1155139A (zh) * 1995-06-30 1997-07-23 索尼公司 降低语音信号噪声的方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0459362B1 (en) 1990-05-28 1997-01-08 Matsushita Electric Industrial Co., Ltd. Voice signal processor
JP2979714B2 (ja) * 1990-05-28 1999-11-15 松下電器産業株式会社 音声信号処理装置
JP3451146B2 (ja) 1995-02-17 2003-09-29 株式会社日立製作所 スペクトルサブトラクションを用いた雑音除去システムおよび方法
JP3591068B2 (ja) 1995-06-30 2004-11-17 ソニー株式会社 音声信号の雑音低減方法
SE9700772D0 (sv) * 1997-03-03 1997-03-03 Ericsson Telefon Ab L M A high resolution post processing method for a speech decoder
US6618701B2 (en) * 1999-04-19 2003-09-09 Motorola, Inc. Method and system for noise suppression using external voice activity detection
JP2002149200A (ja) * 2000-08-31 2002-05-24 Matsushita Electric Ind Co Ltd 音声処理装置及び音声処理方法
JP4282227B2 (ja) 2000-12-28 2009-06-17 日本電気株式会社 ノイズ除去の方法及び装置
US7277554B2 (en) * 2001-08-08 2007-10-02 Gn Resound North America Corporation Dynamic range compression using digital frequency warping
US7516067B2 (en) * 2003-08-25 2009-04-07 Microsoft Corporation Method and apparatus using harmonic-model-based front end for robust speech recognition
US7447630B2 (en) * 2003-11-26 2008-11-04 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement
JP4249697B2 (ja) * 2004-12-24 2009-04-02 日本電信電話株式会社 音源分離学習方法、装置、プログラム、音源分離方法、装置、プログラム、記録媒体
JP4533126B2 (ja) 2004-12-24 2010-09-01 日本電信電話株式会社 近接音分離収音方法、近接音分離収音装置、近接音分離収音プログラム、記録媒体
KR100657948B1 (ko) * 2005-02-03 2006-12-14 삼성전자주식회사 음성향상장치 및 방법
JP4645241B2 (ja) * 2005-03-10 2011-03-09 ヤマハ株式会社 音声処理装置およびプログラム
JP5483000B2 (ja) 2007-09-19 2014-05-07 日本電気株式会社 雑音抑圧装置、その方法及びプログラム
CN103000178B (zh) * 2008-07-11 2015-04-08 弗劳恩霍夫应用研究促进协会 提供时间扭曲激活信号以及使用该时间扭曲激活信号对音频信号编码

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1155139A (zh) * 1995-06-30 1997-07-23 索尼公司 降低语音信号噪声的方法

Also Published As

Publication number Publication date
JP6064600B2 (ja) 2017-01-25
JPWO2012070668A1 (ja) 2014-05-19
CN103229236A (zh) 2013-07-31
WO2012070668A1 (ja) 2012-05-31
US20130246056A1 (en) 2013-09-19
US9792925B2 (en) 2017-10-17

Similar Documents

Publication Publication Date Title
CN103229236B (zh) 信号处理装置、信号处理方法
US11100941B2 (en) Speech enhancement and noise suppression systems and methods
Leplat et al. Blind audio source separation with minimum-volume beta-divergence NMF
Kwon et al. NMF-based speech enhancement using bases update
US9837097B2 (en) Single processing method, information processing apparatus and signal processing program
Smaragdis Convolutive speech bases and their application to supervised speech separation
US10811026B2 (en) Noise suppression method, device, and program
WO2011091068A1 (en) Distortion measurement for noise suppression system
EP2209117A1 (en) Method for determining unbiased signal amplitude estimates after cepstral variance modification
US9858946B2 (en) Signal processing apparatus, signal processing method, and signal processing program
CN113470688B (zh) 语音数据的分离方法、装置、设备及存储介质
Ganapathy Multivariate autoregressive spectrogram modeling for noisy speech recognition
CN103238180A (zh) 信号处理设备、信号处理方法及信号处理程序
US11335329B2 (en) Method and system for generating synthetic multi-conditioned data sets for robust automatic speech recognition
Wiem et al. Unsupervised single channel speech separation based on optimized subspace separation
Duong et al. Speech enhancement based on nonnegative matrix factorization with mixed group sparsity constraint
Grais et al. Single channel speech music separation using nonnegative matrix factorization with sliding windows and spectral masks
US8736359B2 (en) Signal processing method, information processing apparatus, and storage medium for storing a signal processing program
WO2013032025A1 (ja) 信号処理装置、信号処理方法、およびコンピュータ・プログラム
Atkins et al. Visualization of Babble–Speech Interactions Using Andrews Curves
Li et al. Robust Non‐negative matrix factorization with β‐divergence for speech separation
Khonglah et al. Clean speech/speech with background music classification using HNGD spectrum
Adrian et al. Synthesis of perceptually plausible multichannel noise signals controlled by real world statistical noise properties
Jassim et al. Speech quality assessment with WARP‐Q: From similarity to subsequence dynamic time warp cost
CN103270772A (zh) 信号处理设备、信号处理方法和信号处理程序

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant