CN103999155A - 音频信号噪声衰减 - Google Patents
音频信号噪声衰减 Download PDFInfo
- Publication number
- CN103999155A CN103999155A CN201280064187.0A CN201280064187A CN103999155A CN 103999155 A CN103999155 A CN 103999155A CN 201280064187 A CN201280064187 A CN 201280064187A CN 103999155 A CN103999155 A CN 103999155A
- Authority
- CN
- China
- Prior art keywords
- signal
- noise
- candidate
- contribution
- code book
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 60
- 238000000034 method Methods 0.000 claims description 60
- 230000009467 reduction Effects 0.000 claims description 22
- 238000007476 Maximum Likelihood Methods 0.000 claims description 9
- 230000004044 response Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims 3
- 230000000875 corresponding effect Effects 0.000 description 19
- 230000006870 function Effects 0.000 description 19
- 230000008569 process Effects 0.000 description 12
- 238000001228 spectrum Methods 0.000 description 12
- 238000012545 processing Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 7
- 230000002349 favourable effect Effects 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 206010038743 Restlessness Diseases 0.000 description 1
- 230000005534 acoustic noise Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005352 clarification Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/012—Comfort noise or silence coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02163—Only one microphone
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02165—Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
Landscapes
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Noise Elimination (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Circuit For Audible Band Transducer (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
- Control Of Amplification And Gain Control (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
一种噪声衰减设备接收包括期望信号分量和噪声信号分量的音频信号。两个码本(109,111)分别包括表示可能的期望信号分量的期望信号候选和表示可能的噪声贡献的噪声信号贡献候选。分段器(103)将音频信号分割成时间段,并且针对每个时间段,噪声衰减器(105)通过为期望信号候选中的每一个作为期望信号候选的成比例版本和噪声信号贡献候选的加权组合的组合来生成估计的信号候选而生成诸多估计的信号候选。噪声衰减器(105)使指示在所述时间段中的音频信号之间与所估计的信号候选的差的成本函数最小化。信号候选然后针对所述时间段从所估计的信号候选被确定,并且音频信号基于这个信号候选被补偿。
Description
技术领域
本发明涉及音频信号噪声衰减,并且特别地但不排他地,涉及针对语音信号的噪声衰减。
背景技术
音频信号中的噪声的衰减在许多应用中被期望来进一步增强或者加重期望信号分量。例如,语音在背景噪声面前的增强由于其实际的相关性已吸引了大量兴趣。特别有挑战的应用是移动通讯中的单话筒噪声降低。单话筒装置的低成本使它在新兴市场中变得有吸引力。另一方面,多个话筒的缺少排除了基于波束形成器的解决方案来抑制可能存在的高水平的噪声。在不稳定条件下很好地工作的单话筒方法因此在商业上是所期望的。
在其中音频波束形成不是切实可行的或优选的多话筒应用中或者附加于这样的波束形成,单话筒噪声衰减算法同样是相关的。例如,这样的算法可能对于混响和漫射不稳定噪声场中的或其中有许多干扰源存在的免提音频和视频会议系统是有用的。诸如波束形成之类的空间滤波技术在这样的场景中仅能够实现有限的成功,并且需要在后置处理步骤中对波束形成器的输出执行附加的噪声抑制。
各种噪声衰减算法已被提出了,包括基于关于期望信号分量的特性的知识或假设的系统。特别地,诸如码本驱动方案这样的基于知识的语音增强方法已被表明即便当对单话筒信号操作时在不稳定噪声条件下也很好地执行。这样的方法的例子在S. Srinivasan, J. Samuelsson和W. B. Kleijn, “Codebook driven short-term predictor parameter estimation for speech enhancement", IEEE Trans. Speech, Audio and Language Processing, vol. 14, no. 1, pp. 163{176, Jan. 2006以及S. Srinivasan, J. Samuelsson和W. B. Kleijn, “Codebook based Bayesian speech enhancement for non-stationary environments," IEEE Trans. Speech Audio Processing, vol. 15, no. 2, pp. 441-452, Feb. 2007中被呈现。
这些方法依赖于语音和噪声谱形状的训练的码本,其通过例如线性预测(LP)系数被参数化。语音码本的使用是直观的并且使其容易地适合于实际的实施方案。语音码本可以是扬声器无关的(使用来自若干扬声器的数据所训练的)或扬声器相关的。后者情形对于例如移动电话应用来说是有用的,因为这些往往是个人的并且常常主要地被单个扬声器使用。然而,归因于在实践中可以遇到的各种噪声类型,在实际的实施方案中使用噪声码本是有挑战性的。作为结果,非常大的噪声码本典型地被使用。
典型地,这样的基于码本的算法寻求找到当被组合时最接近地和所捕获的信号匹配的语音码本条目和噪声码本条目。当适当的码本条目已被找到时,算法基于所述码本条目来补偿所接收到的信号。然而,为了识别适当的码本条目,搜索遍及语音码本条目和噪声码本条目的所有可能的组合被执行。这导致在计算上资源要求很高的过程,其尤其对于低复杂性装置来说常常是不切实际的。此外,大的噪声码本的生成和存储是麻烦的,并且大量可能的噪声候选可能增加错误估计的风险,从而导致次优噪声衰减。
因此,改进的噪声衰减方法将是有利的,并且特别地允许增加的灵活性、降低的计算要求、便利的实施方案和/或操作、降低的成本和/或改进的性能的方法将是有利的。
发明内容
因此,本发明寻求优选地单个地或以任何组合的方式缓和、减轻或者消除上面提到的缺点中的一个或多个。
根据本发明的一个方面,提供了一种噪声衰减设备,其包括:接收机,其用于接收包括期望信号分量和噪声信号分量的音频信号;第一码本,其包括针对期望信号分量的多个期望信号候选,每个期望信号候选表示可能的期望信号分量;第二码本,其包括多个噪声信号贡献候选,每个噪声信号贡献候选表示针对噪声信号分量的可能的噪声贡献;分段器,其用于将音频信号分割成时间段;噪声衰减器,其被布置成针对每个时间段执行以下步骤:通过为第一码本的期望信号候选中的每一个作为期望信号候选的成比例(scaled)版本和噪声信号贡献候选的加权组合的组合来生成估计的信号候选而生成多个估计的信号候选,期望信号候选的比例(scaling)和加权组合的权重被确定成使指示在时间段中的音频信号与所估计的信号候选之间的差的成本函数最小化;从所估计的信号候选生成针对时间段中的音频信号的信号候选;以及响应于所述信号候选衰减时间段中的音频信号的噪声。
本发明可以提供改进的和/或便利的噪声衰减。在许多实施例中,大幅降低的计算资源是需要的。该方法可以在许多实施例中允许更高效的噪声衰减,其可能导致更快的噪声衰减。在许多场景中,该方法可以使能或者允许实时噪声衰减。
与常规方法相比,大幅地较小的噪声码本(第二码本)能够在许多实施例中被使用。这可以降低存储器要求。
在许多实施例中,多个噪声信号贡献候选可能无法反映关于噪声信号分量的特性的任何知识或假设。噪声信号贡献候选可以是通用噪声信号贡献候选,并且可以具体地是固定的、预定的、静态的、永久的和/或非训练的噪声信号贡献候选。这可以允许便利的操作和/或可以便利于第二码本的生成和/或分布。特别地,训练阶段可以在许多实施例中被避免。
期望信号候选中的每一个都可以具有与时间段持续时间相对应的持续时间。噪声信号贡献候选中的每一个都可以具有与时间段持续时间相对应的持续时间。
期望信号候选中的每一个都可以由表征信号分量的一组参数来表示。例如,每个期望信号候选都可以包括用于线性预测模型的一组线性预测系数。每个期望信号候选都可以包括表征谱分布的一组参数,所述谱分布诸如例如功率谱密度(PSD)。
噪声信号贡献候选中的每一个都可以由表征信号分量的一组参数来表示。例如,每个噪声信号贡献候选都可以包括表征谱分布的一组参数,所述谱分布诸如例如功率谱密度(PSD)。用于噪声信号贡献候选的参数的数目可以低于用于期望信号候选的参数的数目。
噪声信号分量可以对应于不是期望信号分量的一部分的任何信号分量。例如,噪声信号分量可以包括白噪声、有色噪声、来自不想要的噪声源的确定性噪声、实施噪声等。噪声信号分量可以是可以针对不同的时间段而改变的不稳定噪声。噪声衰减器对每个时间段的处理对于每个时间段来说可以是独立的。
噪声衰减器可以具体地包括用于通过为第一码本的期望信号候选中的每一个作为期望信号候选的成比例版本和噪声信号贡献候选的加权组合的组合来生成估计的信号候选而生成多个估计的信号候选的处理器、电路、功能单元或装置,期望信号候选的比例和加权组合的权重被确定成使指示在时间段中的音频信号与所估计的信号候选之间的差的成本函数最小化;用于从所估计的信号候选生成针对时间段中的音频信号的信号候选的处理器、电路、功能单元或装置;以及用于响应于该信号候选衰减时间段中的音频信号的噪声的处理器、电路、功能单元或装置。
依照本发明的可选特征,成本函数是最大似然成本函数和最小均方误差成本函数中的一个。
这可以提供对比例和权重的特别高效的且高性能的确定。
依照本发明的可选特征,噪声衰减器被布置成根据反映成本函数相对于比例和权重的导数为零的方程来计算比例和权重。
这可以提供对比例和权重的特别高效的且高性能的确定。在许多实施例中,它可以允许其中比例和权重能够根据闭式方程被直接地计算的操作。在许多实施例中,它可以允许比例和权重在无需任何递归迭代或搜索操作的情况下的直接计算。
依照本发明的可选特征,期望信号候选比加权组合具有更高的频率分辨率。
这可以允许具有高性能的实际的噪声衰减。特别地,它可以在确定所估计的信号候选时允许期望信号候选的重要性相对于噪声信号贡献候选的重要性被加重。
在定义期望信号候选中的自由度可以高于当生成加权组合时的自由度。定义期望信号候选的参数的数目可以高于定义噪声信号贡献候选的参数的数目。
依照本发明的可选特征,多个噪声信号贡献候选覆盖某一频率范围,并且其中一群噪声信号贡献候选中的每个噪声信号贡献候选仅在该频率范围的子范围中提供贡献,该群噪声信号贡献候选的不同噪声信号贡献候选的子范围是不同的。
这可以在一些实施例中允许降低的复杂性、便利的操作和/或改进的性能。特别地,它可以通过调整权重来允许所估计的信号候选对于音频信号的便利的和/或改进的适配。
依照本发明的可选特征,该群噪声信号贡献候选的子范围是不重叠的。
这可以在一些实施例中允许降低的复杂性、便利的操作和/或改进的性能。
在一些实施例中,该群噪声信号贡献候选的子范围可以是重叠的。
依照本发明的可选特征,该群噪声信号贡献候选的子范围具有不等的大小。
这可以在一些实施例中允许降低的复杂性、便利的操作和/或改进的性能。
依照本发明的可选特征,该群噪声信号贡献候选的噪声信号贡献候选中的每一个对应于基本上平坦的频率分布。
这可以在一些实施例中允许降低的复杂性、便利的操作和/或改进的性能。特别地,它可以通过调整权重来允许所估计的信号候选对音频信号的便利的和/或改进的适配。
依照本发明的可选特征,噪声衰减设备进一步包括噪声估计器,所述噪声估计器用于为至少部分地在时间段外的时间间隔中的音频信号生成噪声估计,并且用于响应于该噪声估计来生成噪声信号贡献候选中的至少一个。
这可以在一些实施例中允许降低的复杂性、便利的操作和/或改进的性能。特别地,它可以在许多实施例中允许对噪声信号分量的更准确的估计,特别是对于其中噪声可以具有稳定分量或慢变分量的系统来说。噪声估计例如可以是从一个或多个先前的时间段中的音频信号所生成的噪声估计。
依照本发明的可选特征,加权组合是加权求和。
这可以提供特别高效的实施方案,并且可以特别地降低复杂性以及例如允许权重的便利的确定以用于加权求和。
依照本发明的可选特征,第一码本的期望信号候选和第二码本的噪声信号贡献候选中的至少一个由包括不多于20个参数的一组参数来表示。
这允许低复杂性。本发明可以在许多实施例和场景中甚至为信号和噪声信号分量的相对粗略的估计提供高效的噪声衰减。
依照本发明的可选特征,第一码本的期望信号候选和第二码本的噪声信号贡献候选中的至少一个由谱分布来表示。
这可以提供特别高效的实施方案并且可以特别地降低复杂性。
依照本发明的可选特征,期望信号分量是语音信号分量。
本发明可以提供用于语音增强的有利的方法。
该方法可以特别适合于语音增强。期望信号候选可以表示与语音模型兼容的信号分量。
根据本发明的一个方面,提供了一种噪声衰减的方法,其包括:接收包括期望信号分量和噪声信号分量的音频信号;提供包括针对期望信号分量的多个期望信号候选的第一码本,每个期望信号候选都表示可能的期望信号分量;提供包括多个噪声信号贡献候选的第二码本,每个噪声信号贡献候选都表示针对噪声信号分量的可能的噪声贡献;将音频信号分割成时间段;以及针对每个时间段执行以下步骤:通过为第一码本的期望信号候选中的每一个作为期望信号候选的成比例版本和噪声信号贡献候选的加权组合的组合来生成估计的信号候选而生成多个估计的信号候选,期望信号候选的比例和加权组合的权重被确定成使指示在时间段中的音频信号与所估计的信号候选之间的差的成本函数最小化;从所估计的信号候选生成针对时间段中的音频信号的信号候选;以及响应于所述信号候选衰减时间段中的音频信号的噪声。
本发明的这些和其它方面、特征以及优点从在下文中所描述的(一个或多个)实施例将是明显的,并且将参考在下文中所描述的(一个或多个)实施例而被阐明。
附图说明
将参考附图仅通过例子对本发明的实施例进行描述,在附图中:
图1是依照本发明的一些实施例的噪声衰减设备的元件的例子的图示;
图2是依照本发明的一些实施例的噪声衰减的方法的图示;以及
图3是用于图1的噪声衰减设备的噪声衰减器的元件的例子的图示。
具体实施方式
以下描述集中于可适用于通过对噪声的衰减而进行语音增强的本发明的实施例。然而,应了解本发明不限于本申请,而是可以被应用于许多其它信号。
图1图示了依照本发明的一些实施例的噪声衰减器的例子。
该噪声衰减器包括接收机101,其接收包括期望的分量和不期望的分量两者的信号。不期望的分量被称为噪声信号并且可以包括不是期望信号分量的一部分的任何信号分量。
在图1的系统中,信号是具体地可以被从在给定音频环境中捕获音频信号的话筒信号生成的音频信号。以下描述将集中于其中期望信号分量是来自期望的扬声器的语音信号的实施例。噪声信号分量可以包括环境中的环境噪声、来自不期望的声音源的音频、实施噪声等。
接收机101被耦合到将音频信号分割成时间段的分段器103。在一些实施例中,时间段可以是不重叠的,但在其它实施例中时间段可以是重叠的。进一步地,可以通过应用适当地成形的窗口函数来执行分段,并且具体地噪声衰减设备可以采用分段的众所周知的叠加技术,其使用适合的窗口,诸如汉宁(Hanning)或汉明 (Hamming)窗口。时间段持续时间将取决于特定实施方案,但在许多实施例中将是大约10-100毫秒。
分段器103被馈送到噪声衰减器105,所述噪声衰减器105执行基于段的噪声衰减以便相对于不期望的噪声信号分量加重期望信号分量。结果得到的噪声衰减的段被馈送到输出处理器107,输出处理器107提供连续音频信号。输出处理器可以具体地例如通过执行叠加函数来执行反分段(desegmentation)。应了解,在其它实施例中,输出信号可以被提供为分段的信号,例如在其中对噪声衰减的信号执行进一步的基于段的信号处理的实施例中。
噪声衰减是基于码本方法的,所述码本方法使用与期望信号分量以及与噪声信号分量有关的单独码本。因此,噪声衰减器105被耦合到第一码本109,所述第一码本109是期望信号码本,并且在特定例子中是语音码本。噪声衰减器105被进一步耦合到第二码本111,所述第二码本111是噪声信号贡献码本。
噪声衰减器105被布置成选择语音码本和噪声码本的码本条目使得与所选条目相对应的信号分量的组合最接近地类似该时间段中的音频信号。一旦适当的码本条目(连同这些码本条目的比例一起)已经被找到,它们就表示所捕获的音频信号中的单独的语音信号分量和噪声信号分量的估计。具体地,与所选语音码本条目相对应的信号分量是所捕获的音频信号中的语音信号分量的估计并且噪声码本条目提供噪声信号分量的估计。因此,该方法使用码本方法来估计音频信号的语音和噪声信号分量,并且一旦这些估计已被确定,它们就能够被用来相对于音频信号中的语音信号分量衰减噪声信号分量,因为估计使得区分这些成为可能。
更具体地,考虑其中语音和噪声被假定为独立的加性噪声模型:
,
其中y(n)、x(n)以及w(n)分别表示采样的有噪声语音(输入音频信号)、干净语音(期望的语音信号分量)以及噪声(噪声信号分量)。
现有技术码本方法搜遍码本以便找到针对信号分量和噪声分量的码本条目使得成比例组合最接近地类似所捕获的信号,从而提供针对每个短时间段的语音和噪声PSD的估计。假设Py(ω)表示所观察到的有噪声信号y(n)的PSD,Px(ω)表示语音信号分量x(n)的PSD,以及Pw(ω)表示噪声信号分量的PSD,则
Py(ω)= Px(ω)+ Pw(ω)
假设^表示所对应的PSD的估计,传统的基于码本的噪声衰减可以通过对所捕获的信号应用频域维纳(Wiener)滤波器H(ω)来降低噪声,即:
Pna(ω)= Py(ω)H(ω)
其中维纳滤波器由下式给出:
。
在现有技术方法中,码本分别包括语音信号候选和噪声信号候选,并且关键问题是识别最适合的候选对。
语音和噪声PSD的估计以及因此适当的候选的选择能够遵循最大似然(ML)方法或贝叶斯(Bayesian)最小均方误差(MMSE)方法。
线性预测系数的向量与基础PSD之间的关系能够由下式来确定:
其中是线性预测系数,并且是线性预测模型阶,以及。
使用这种关系,所捕获的信号的所估计的PSD由下式给出:
,
其中gx和gw是与语音和噪声PSD相关联的频率无关的水平增益。这些增益被引入来说明在码本中存储的PSD和在输入音频信号中遇到的PSD之间的水平的变化。
现有技术从头至尾对语音码本条目和噪声码本条目的所有可能的配对执行搜索以便确定使所观察到的有噪声PSD与所估计的PSD之间的特定相似性量度最大化的对,如在下面所描述的那样。
考虑由来自语音码本的第i个PSD和来自噪声码本的第j个PSD所给出的语音和噪声PSD的对。与这个对相对应的有噪声PSD能够被写为
。
在这个方程中,PSD是已知的,然而增益是未知的。因此,对于语音和噪声PSD的每个可能的对,增益必须被确定。这能够基于最大似然方法被完成。期望的语音和噪声PSD的最大似然估计能够在两步过程中被获得。给定对和-已导致所观察到的有噪声PSD的似然的对数由以下方程来表示:
。
在第一步骤中,使最大化的未知水平项和被确定。这样做的一个方式是通过相对于和进行微分、将结果设置为零、以及求解结果得到的联立方程组。然而,这些方程是非线性的并且不服从闭式解。替代方法是基于当时似然被最大化的事实,并且因此增益项能够通过使这两个实体之间的谱距离最小化来获得。
一旦水平项是已知的,的值就能够被确定,因为所有实体都是已知的。这个过程针对语音和噪声码本条目的所有对被重复,并且导致最大似然的对被用来获得语音和噪声PSD。因为这个步骤针对每个短时间段被执行,所以该方法即便在不稳定噪声条件下也能够准确地估计噪声PSD。
假设表示对于给定段导致最大似然的对,并且假设和表示所对应的水平项。然后,语音和噪声PSD由、来给出。
这些结果因此定义维纳滤波器,其被应用于输入音频信号来生成噪声衰减的信号。
因此,现有技术是基于找到对于语音信号分量来说为良好估计的适合的期望信号码本条目和对于噪声信号分量来说为良好估计的适合的噪声信号码本条目的。一旦这些被找到,高效的噪声衰减就能够被应用。
然而,该方法是非常复杂的且资源要求高的。特别地,噪声和语音码本条目的所有可能的组合必须被评估以便找到最佳匹配。进一步地,因为码本条目必须表示各式各样可能的信号,所以这导致非常大的码本,并且因此导致必须被评估的许多可能的对。特别地,例如取决于使用的特定环境等,噪声信号分量可能常常在可能的特性方面具有大的变化。因此,非常大的噪声码本常常被要求来确保足够接近的估计。这导致对于码本的存储的非常高的计算需求以及高要求。此外,特别是噪声码本的生成可能是非常繁琐的或困难的。例如,当使用训练方法时,训练样本集必须足够大到充分地表示噪声场景中的可能的广泛多样化。这可能导致非常费时的过程。
在图1的系统中,码本方法不是基于为许多不同的可能的噪声分量定义可能的候选的专用噪声码本的。相反,噪声码本是在码本条目被认为是对噪声信号分量的贡献而不是必定是噪声信号分量的直接估计的情况下被采用的。噪声信号分量的估计然后通过噪声贡献码本条目的加权组合以及具体地加权求和而被生成。因此,在图1的系统中,噪声信号分量的估计通过一起考虑多个码本条目而被生成,并且实际上所估计的噪声信号分量被典型地给出为噪声码本条目的加权线性组合或具体地为对其的求和。
在图1的系统中,噪声衰减器105被耦合到包括许多码本条目的信号码本109,所述许多码本条目中的每一个都包括定义可能的期望信号分量以及在特定例子中定义期望语音信号的一组参数。
针对期望信号分量的码本条目因此对应于针对期望信号分量的潜在的候选。每个条目都包括表征可能的期望信号分量的一组参数。在特定例子中,每个条目都包括表征可能的语音信号分量的一组参数。因此,由码本条目所表征的信号是具有语音信号的特性的一个信号,并且因此码本条目将语音特性的知识引入到语音信号分量的估计中。
针对期望信号分量的码本条目可以是基于期望音频源的模型的,或者可以附加地或替换地通过训练过程来确定。例如,码本条目可以是用于被开发来表示语音的特性的语音模型的参数。作为另一例子,大量语音样本可以被记录并且统计地处理来生成适合数目的潜在的语音候选,其被存储在码本中。
具体地,码本条目可以是基于线性预测模型的。实际上,在特定例子中,码本的每个条目都可以包括一组线性预测参数。码本条目可能具体地已经通过训练过程而被生成了,其中线性预测参数已经通过对大量语音样本进行拟合而被生成了。
码本条目可以在一些实施例中被表示为频率分布并且具体地表示为功率谱密度(PSD)。PSD可以直接地对应于线性预测参数。
用于每个码本条目的参数的数目典型地是相对小的。实际上,典型地,存在不多于20个以及常常不多于10个指定每个码本条目的参数。因此,期望信号分量的相对粗略的估计被使用。这允许降低的复杂性和便利的处理,但是仍然已被发现在大多数情况下提供高效的噪声衰减。
噪声衰减器105被进一步耦合到噪声贡献码本111。然而,和期望信号码本对比,噪声贡献码本109的条目通常不同样地定义噪声信号分量,而是定义对噪声信号分量估计的可能的贡献。噪声衰减器105因此通过组合这些可能的贡献来生成针对噪声信号分量的估计。
用于噪声贡献码本111的每个码本条目的参数的数目典型地同样是相对小的。实际上,典型地,存在不多于20个以及常常不多于10个指定每个码本条目的参数。因此,噪声信号分量的相对粗略的估计被使用。这允许降低的复杂性和便利的处理,但是仍然已被发现在大多数情况下提供高效的噪声衰减。进一步地,定义噪声贡献码本条目的参数的数目常常小于定义期望信号码本条目的参数的数目。
具体地,对于由字母i所表示的给定语音码本条目,噪声衰减器105将时间段中的音频信号的估计生成为:
其中Nw是噪声贡献码本111中的条目的数目,Pw(ω)是条目的PSD以及Px(ω)是语音码本中的条目的PSD。
对于第i个语音码本条目,噪声衰减器105因此通过确定噪声贡献码本条目的组合来确定针对音频信号的最佳估计。该过程然后针对语音码本的所有条目被重复。
图2更详细地图示了该过程。将参考图3对方法进行描述,图3图示了噪声衰减器105的处理元件。方法在步骤201中启动,其中下一个段中的音频信号被选择。
方法然后在步骤203中继续,其中第一(下一个)语音码本条目被从语音码本109选择。
步骤203后面是步骤205,其中应用于噪声贡献码本111的每个码本条目的权重以及语音码本条目的比例被确定。因此,在步骤205中,gx和对于每个k的gw被针对该语音码本条目所确定。
增益(比例/权重)可以例如使用最大似然方法被确定,但是应了解,在其它实施例中其它方法和准则可以被使用,诸如例如最小均方误差方法。
作为特定例子,给定对和已导致所观察到的有噪声PSD的似然的对数由下式给出:
。
对数似然函数可以被认为是倒数成本函数,即值越大所估计的信号候选与输入音频信号之间的差越小(在最大似然意义上)。
使最大化的未知增益值和被确定。这可以例如通过相对于和进行微分并且将结果设置为零、后面是求解结果到的方程来完成以便提供增益(对应于找到对数似然函数的最大值以及因此对应于找到对数似然成本函数的最小值)。
具体地,该方法可以是基于如下事实的,即:当等于时似然被最大化(并且因此所对应的成本函数被最小化)。因此,增益项能够通过最小化这两个实体之间的谱距离而被获得。
首先,为了标记方便,语音和噪声PSD以及增益项被重命名如下:
使得
。
成本函数通过使下式的逆成本函数最大化而被最小化:
,
其相对于gl的偏导数(1 < l ≤ Nw + 1)能够被设置为零以求解增益项:。
这导致以下线性系统,其的解产生所期望的增益项:
,
其中
应指出,由这些方程所给出的增益可以是负的。然而,为了确保仅真实世界噪声贡献被考虑,增益可以被要求为正的,例如通过应用修改的Karush Kuhn Tucker条件来实现。
因此,步骤205继续为正被处理的语音码本条目生成估计的信号候选。所估计的信号候选被给出为:
其中增益已经像描述的那样被计算。
紧跟步骤205之后,方法继续步骤207,其中评估语音码本的所有语音条目是否以已被处理了。如果不是,则方法返回到步骤203,其中下一个语音码本条目被选择。这针对所有语音码本条目被重复。
步骤201至207被图3的估计器301执行。因此,估计器301是为第一码本109的每个条目确定估计的信号候选的处理单元、电路或功能元件。
如果在步骤207中所有码本条目被发现已被处理,则方法继续步骤209,其中处理器303继续基于所估计的信号候选生成针对时间段的信号候选。信号候选因此通过考虑针对所有i的而被生成。具体地,对于语音码本109中的每个条目,对输入音频信号的最佳近似在步骤205中通过为语音条目以及为噪声贡献码本111中的每个噪声贡献确定相对增益来生成。此外,对数似然值针对每个语音条目被计算,从而提供音频信号是由与所估计的信号候选相对应的语音和噪声信号分量所致的似然的指示。
步骤209可以具体地基于所确定的对数似然值来确定信号候选。作为低复杂性例子,系统可以简单地选择具有最高对数似然值的所估计的信号候选。在更复杂的实施例中,信号候选可以通过对所有估计的信号候选的加权组合以及具体地求和来计算,其中对每个估计的信号候选的加权取决于对数似然值。
步骤209后面是步骤211,其中噪声衰减单元303继续基于所计算的信号候选来补偿音频信号。特别地,通过用维纳滤波器对音频信号进行滤波:
。
应了解,用于基于所估计的信号和噪声分量来降低噪声的其它方法可以被使用。例如,系统可以简单地从输入音频信号减去所估计的噪声候选。
因此,步骤211从时间段中的输入信号生成输出信号,其中噪声信号分量相对于语音信号分量被衰减。方法然后返回到步骤201并且处理下一个段。
所述方法可以提供非常高效的噪声衰减,同时显著地降低复杂性。具体地,因为噪声码本条目对应于噪声贡献而不是必定对应于整个噪声信号分量,所以低得多的数目的条目是必然的。可能的噪声估计中的大的变化通过调整单独贡献的组合而是可能的。同样地,噪声衰减可以以大幅降低的复杂性被实现。例如,和牵涉跨越语音和噪声码本条目的所有组合的搜索的常规方法对比,图1的方法仅包括单个循环,即遍及语音码本条目。
应了解,噪声贡献码本111在不同的实施例中可以包含与不同的噪声贡献候选相对应的不同的条目。
特别地,在一些实施例中,噪声信号贡献候选中的一些或全部都可以一起覆盖噪声衰减在其中被执行的频率范围,然而单独候选仅覆盖这个范围的子集。例如,一群条目可以一起覆盖从假定200Hz至4kHz的频率间隔,但是集合中的每个条目仅包括这个频率间隔的子范围(即一部分)。因此,每个候选可以覆盖不同的子范围。实际上,在一些实施例中,诸条目中的每一个可以覆盖不同的子范围,即该群噪声信号贡献候选的子范围可以是基本上不重叠的。例如,在一个候选的频率子范围内的谱密度可以比在该子范围中的任何其它候选的谱密度高至少6 dB。应了解,在这样的例子中,子范围可以被转变范围分离。这样的转变范围可以优选地低于子范围的带宽的10%。
在其它实施例中,一些或所有噪声信号贡献候选可以是重叠的,使得一个以上的候选在给定频率处提供显著贡献给信号强度。
还应了解,每个候选的谱分布在不同的实施例中可以是不同的。然而,在许多实施例中,每个候选的谱分布在子范围内可以是基本上平坦的。例如,振幅变化可以低于10%。这在许多实施例中可以便利于操作并且特别地可以允许降低的复杂性处理和/或降低的存储要求。
作为特定例子,每个噪声信号贡献候选可以定义在给定频率范围中具有平坦的谱密度的信号。进一步地,噪声贡献码本111可以包括一组这样的候选(可能的附加于其它候选),其覆盖补偿在其中将被执行的整个期望的频率范围。
具体地,对于相等宽度的子范围,噪声贡献码本111的条目可以被定义为
对于并且。
因此,在一些方法中,噪声信号分量在这种情况下被建模为带限的平坦的PSD的加权和。注意的是,在这个例子中,噪声贡献码本111能够简单地通过定义所有条目的简单方程被实施,并且不存在对于存储单独信号例子的专用码本存储器的需要。
注意的是,这样的加权和方法能够对有色噪声建模。噪声估计能够以其被适配于音频信号的频率分辨率由每个子范围的宽度来确定,所述每个子范围的宽度进而由码本条目的数目Nw来确定。然而,噪声信号贡献候选被典型地布置成具有比加权求和(其由对权重的调整产生)的频率分辨率更低的分辨率。因此,可用来匹配噪声估计的自由度低于可用来定义期望信号码本109中的每个期望信号候选的自由度。
这被用来确保基于期望信号码本对期望信号分量的估计是整个信号的估计的中心,并且具体地用来降低错误的或不准确的期望信号候选由于误差被加权求和基于错误的期望信号候选对于音频信号的适配所抵消而被选择的风险。实际上,如果适配噪声分量估计的自由太高,则增益项能够被调整使得任何语音码本条目能够导致同样高的似然。因此,噪声码本中的粗略的频率分辨率(对于期望信号候选的频点带(a band of frequency bins)具有单个增益项)确保接近于基础干净语音的语音码本条目导致较大的似然并且反之亦然。
在一些实施例中,子范围可以有利地具有不等的带宽。例如,每个候选的带宽可以依照心理-声学原理被选择。例如,每个子范围可以被选择成对应于ERB和/或Bark带。
应了解,使用包括相等带宽的许多不重叠的带限PSD的噪声贡献码本111的方法仅仅是一个例子并且许多其它码本可以替换地或附加地被使用。例如,如先前所提到的那样,用于每个码本的不等的宽度和/或重叠带宽可以被考虑。此外,重叠和不重叠带宽的组合能够被使用。例如,噪声贡献码本111可以包含其中感兴趣带宽被划分成第一数目的频带的一组条目和其中感兴趣带宽被划分成不同数目的频带的另一组条目。
在一些实施例中,系统可以包括生成针对音频信号的噪声估计的噪声估计器,其中噪声估计考虑到至少部分地在正被处理的时间段外的时间间隔而被生成。例如,噪声估计可以基于比该时间段长很多的时间间隔被生成。这种噪声估计然后可以在处理该时间间隔时被作为噪声信号贡献候选包括在噪声贡献码本111中。
这可以给算法提供很可能接近于较长期平均噪声分量的码本条目,同时允许使用其它候选的适配对此进行修改以便估计成遵循较短期噪声变化。例如,噪声码本的一个条目能够被专用于存储从不同的噪声估计所获得的噪声PSD的最近估计,诸如例如在R. Martin, “Noise power spectral density estimation based on optimal smoothing and minimum statistics" IEEE Trans. Speech and Audio Processing, vol. 9, no. 5, pp. 504-512, Jul. 2001中所公开的算法。以这种方式,该算法可以被预期至少像现有算法一样地执行,并且在困难的条件下较好地执行。
作为另一例子,系统可以对结果得到的噪声贡献估计求平均并且将较长期平均作为条目存储在噪声贡献码本111中。
系统能够被用在许多不同的应用中,所述应用例如包括需要单个话筒噪声降低的应用(例如,移动通讯和DECT电话)。作为另一例子,该方法能够被用在多话筒语音增强系统(例如,助听器、基于阵列的免提系统等)中,其通常具有单通道后置处理器以用于进一步的噪声降低。
应了解,上述描述为了清楚起见已经参考不同的功能电路、单元以及处理器描述了本发明的实施例。然而,将明显的是,在不偏离本发明的情况下可以使用功能性在不同的功能电路、单元或处理器之间的任何适合的分布。例如,图示成被单独的处理器或控制器执行的功能性可以被相同的处理器或控制器执行。从而,对特定功能单元或电路的参考将仅被视为对用于提供所描述的功能性的适合的装置的参考,而不是指示严格的逻辑或物理结构或组织。
本发明能够以包括硬件、软件、固件或这些的任何组合的任何适合的形式被实施。本发明可以可选地被至少部分地实施为在一个或多个数据处理器和/或数字信号处理器上运行的计算机软件。本发明的实施例的元件和构件可以在物理上、功能上以及逻辑上以任何适合的方式被实施。实际上,功能性可以在单个单元中、在多个单元中或者作为其它功能单元的一部分被实施。因此,本发明可以被实施在单个单元中,或者可以在物理上和功能上被分布在不同的单元、电路以及处理器之间。
尽管已经与一些实施例有关地描述了本发明,但是本发明不旨在限于本文中所阐述的特定形式。相反地,本发明的范围仅被所附权利要求限制。附加地,尽管特征可能似乎被与特定实施例有关地描述,但是本领域的技术人员将认识到,所描述的实施例的各种特征可以依照本发明被组合。在权利要求中,术语包括不排除其它元件或步骤的存在。
此外,尽管被单独地列举,但是多个装置、元件、电路或方法步骤可以由例如单个电路、单元或处理器来实施。附加地,尽管单独的特征可以被包括在不同的权利要求中,但是这些有可能被有利地组合,并且不同权利要求中的包括不暗示特征的组合不是可行的和/或有利的。同样地,将特征包括在一个类别的权利要求中不暗示对这个类别的限制,而是指示特征视情况而定同样地可适用于其它权利要求类别。此外,权利要求中的特征的顺序不暗示特征必须以其工作的任何特定顺序,并且特别地,方法权利要求中的单独步骤的顺序不暗示步骤必须被以此顺序执行。相反地,步骤可以被以任何适合的顺序执行。此外,单数参考不排除多个。因此,对“一”、“一个”、“第一”、“第二”等的参考不排除多个。权利要求中的附图标记仅仅作为澄清例子被提供,不应该被解释为以任何方式限制权利要求的范围。
Claims (15)
1. 一种噪声衰减设备,其包括:
- 接收机(101),其用于接收包括期望信号分量和噪声信号分量的音频信号;
- 第一码本(109),其包括针对期望信号分量的多个期望信号候选,每个期望信号候选表示可能的期望信号分量;
- 第二码本(111),其包括多个噪声信号贡献候选,每个噪声信号贡献候选表示针对噪声信号分量的可能的噪声贡献;
- 分段器(103),其用于将音频信号分割成时间段;
- 噪声衰减器(105),其被布置成针对每个时间段执行以下步骤:
通过为第一码本的期望信号候选中的每一个、作为期望信号候选的成比例版本和噪声信号贡献候选的加权组合的组合来生成估计的信号候选而生成多个估计的信号候选,期望信号候选的比例和加权组合的权重被确定成使指示在时间段中的音频信号与所估计的信号候选之间的差的成本函数最小化;
从所估计的信号候选生成针对时间段中的音频信号的信号候选;以及
响应于所述信号候选衰减时间段中的音频信号的噪声。
2. 根据权利要求1所述的噪声衰减设备,其中成本函数是最大似然成本函数和最小均方误差成本函数中的一个。
3. 根据权利要求1所述的噪声衰减设备,其中噪声衰减器(105)被布置成根据反映成本函数相对于比例和权重的导数为零的方程来计算比例和权重。
4. 根据权利要求1所述的噪声衰减设备,其中期望信号候选比加权组合具有更高的频率分辨率。
5. 根据权利要求1所述的噪声衰减设备,其中多个噪声信号贡献候选覆盖一频率范围,并且其中一群噪声信号贡献候选中的每个噪声信号贡献候选仅在所述频率范围的子范围中提供贡献,该群噪声信号贡献候选的不同噪声信号贡献候选的子范围是不同的。
6. 根据权利要求5所述的噪声衰减设备,其中该群噪声信号贡献候选的子范围是不重叠的。
7. 根据权利要求5所述的噪声衰减设备,其中该群噪声信号贡献候选的子范围具有不等的大小。
8. 根据权利要求5所述的噪声衰减设备,其中该群噪声信号贡献候选的噪声信号贡献候选中的每一个都对应于基本上平坦的频率分布。
9. 根据权利要求1所述的噪声衰减设备,进一步包括噪声估计器,所述噪声估计器用于为至少部分地在时间段外的时间间隔中的音频信号生成噪声估计,并且用于响应于所述噪声估计来生成噪声信号贡献候选中的至少一个。
10. 根据权利要求1所述的噪声衰减设备,其中加权组合是加权求和。
11. 根据权利要求1所述的噪声衰减设备,其中第一码本的期望信号候选和第二码本的噪声信号贡献候选中的至少一个由包括不多于20个参数的一组参数来表示。
12. 根据权利要求1所述的噪声衰减设备,其中第一码本的期望信号候选和第二码本的噪声信号贡献候选中的至少一个由谱分布来表示。
13. 根据权利要求1所述的噪声衰减设备,其中期望信号分量是语音信号分量。
14. 一种噪声衰减的方法,其包括:
- 接收包括期望信号分量和噪声信号分量的音频信号;
- 提供包括针对期望信号分量的多个期望信号候选的第一码本(109),每个期望信号候选表示可能的期望信号分量;
- 提供包括多个噪声信号贡献候选的第二码本(111),每个噪声信号贡献候选都表示针对噪声信号分量的可能的噪声贡献;
- 将音频信号分割成时间段;以及
针对每个时间段执行以下步骤:
通过为第一码本的期望信号候选中的每一个、作为期望信号候选的成比例版本和噪声信号贡献候选的加权组合的组合来生成估计的信号候选而生成多个估计的信号候选,期望信号候选的比例和加权组合的权重被确定成使指示在时间段中的音频信号与所估计的信号候选之间的差的成本函数最小化;
从所估计的信号候选生成针对时间段中的音频信号的信号候选;以及
响应于所述信号候选衰减时间段中的音频信号的噪声。
15. 一种包括计算机程序代码装置的计算机程序产品,所述计算机程序代码装置被适配成当所述程序在计算机上被运行时执行权利要求14的所有步骤。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201161550512P | 2011-10-24 | 2011-10-24 | |
US61/550512 | 2011-10-24 | ||
US61/550,512 | 2011-10-24 | ||
PCT/IB2012/055792 WO2013061232A1 (en) | 2011-10-24 | 2012-10-22 | Audio signal noise attenuation |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103999155A true CN103999155A (zh) | 2014-08-20 |
CN103999155B CN103999155B (zh) | 2016-12-21 |
Family
ID=47324238
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280064187.0A Active CN103999155B (zh) | 2011-10-24 | 2012-10-22 | 音频信号噪声衰减 |
Country Status (8)
Country | Link |
---|---|
US (1) | US9875748B2 (zh) |
EP (1) | EP2774147B1 (zh) |
JP (1) | JP6190373B2 (zh) |
CN (1) | CN103999155B (zh) |
BR (1) | BR112014009647B1 (zh) |
IN (1) | IN2014CN03102A (zh) |
RU (1) | RU2616534C2 (zh) |
WO (1) | WO2013061232A1 (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10013975B2 (en) * | 2014-02-27 | 2018-07-03 | Qualcomm Incorporated | Systems and methods for speaker dictionary based speech modeling |
CN104952458B (zh) * | 2015-06-09 | 2019-05-14 | 广州广电运通金融电子股份有限公司 | 一种噪声抑制方法、装置及系统 |
US10565336B2 (en) | 2018-05-24 | 2020-02-18 | International Business Machines Corporation | Pessimism reduction in cross-talk noise determination used in integrated circuit design |
CN112466322B (zh) * | 2020-11-27 | 2023-06-20 | 华侨大学 | 一种机电设备噪声信号特征提取方法 |
TWI790718B (zh) * | 2021-08-19 | 2023-01-21 | 宏碁股份有限公司 | 會議終端及用於會議的回音消除方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040167777A1 (en) * | 2003-02-21 | 2004-08-26 | Hetherington Phillip A. | System for suppressing wind noise |
CN1530928A (zh) * | 2003-02-21 | 2004-09-22 | 哈曼贝克自动系统-威美科公司 | 抑制风噪声的系统 |
US20080140396A1 (en) * | 2006-10-31 | 2008-06-12 | Dominik Grosse-Schulte | Model-based signal enhancement system |
CN103890843A (zh) * | 2011-10-19 | 2014-06-25 | 皇家飞利浦有限公司 | 信号噪声衰减 |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3275247B2 (ja) | 1991-05-22 | 2002-04-15 | 日本電信電話株式会社 | 音声符号化・復号化方法 |
JPH11122120A (ja) * | 1997-10-17 | 1999-04-30 | Sony Corp | 符号化方法及び装置、並びに復号化方法及び装置 |
US6970558B1 (en) * | 1999-02-26 | 2005-11-29 | Infineon Technologies Ag | Method and device for suppressing noise in telephone devices |
EP1376539B8 (en) * | 2001-03-28 | 2010-12-15 | Mitsubishi Denki Kabushiki Kaisha | Noise suppressor |
EP1414024A1 (en) * | 2002-10-21 | 2004-04-28 | Alcatel | Realistic comfort noise for voice calls over packet networks |
US7343289B2 (en) * | 2003-06-25 | 2008-03-11 | Microsoft Corp. | System and method for audio/video speaker detection |
GB0321093D0 (en) * | 2003-09-09 | 2003-10-08 | Nokia Corp | Multi-rate coding |
CA2457988A1 (en) * | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
WO2006089055A1 (en) * | 2005-02-15 | 2006-08-24 | Bbn Technologies Corp. | Speech analyzing system with adaptive noise codebook |
EP1760696B1 (en) * | 2005-09-03 | 2016-02-03 | GN ReSound A/S | Method and apparatus for improved estimation of non-stationary noise for speech enhancement |
JP4823001B2 (ja) * | 2006-09-27 | 2011-11-24 | 富士通セミコンダクター株式会社 | オーディオ符号化装置 |
KR100919223B1 (ko) * | 2007-09-19 | 2009-09-28 | 한국전자통신연구원 | 부대역의 불확실성 정보를 이용한 잡음환경에서의 음성인식 방법 및 장치 |
DK2081405T3 (da) * | 2008-01-21 | 2012-08-20 | Bernafon Ag | Høreapparat tilpasset til en bestemt stemmetype i et akustisk miljø samt fremgangsmåde og anvendelse |
US8483854B2 (en) * | 2008-01-28 | 2013-07-09 | Qualcomm Incorporated | Systems, methods, and apparatus for context processing using multiple microphones |
EP4407610A1 (en) * | 2008-07-11 | 2024-07-31 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and computer program |
EP2246845A1 (en) | 2009-04-21 | 2010-11-03 | Siemens Medical Instruments Pte. Ltd. | Method and acoustic signal processing device for estimating linear predictive coding coefficients |
EP2439736A1 (en) * | 2009-06-02 | 2012-04-11 | Panasonic Corporation | Down-mixing device, encoder, and method therefor |
US20110096942A1 (en) * | 2009-10-23 | 2011-04-28 | Broadcom Corporation | Noise suppression system and method |
EP2363853A1 (en) * | 2010-03-04 | 2011-09-07 | Österreichische Akademie der Wissenschaften | A method for estimating the clean spectrum of a signal |
WO2011114192A1 (en) * | 2010-03-19 | 2011-09-22 | Nokia Corporation | Method and apparatus for audio coding |
US20130297299A1 (en) * | 2012-05-07 | 2013-11-07 | Board Of Trustees Of Michigan State University | Sparse Auditory Reproducing Kernel (SPARK) Features for Noise-Robust Speech and Speaker Recognition |
US9336212B2 (en) * | 2012-10-30 | 2016-05-10 | Slicethepie Limited | Systems and methods for collection and automatic analysis of opinions on various types of media |
-
2012
- 2012-10-22 EP EP12798398.9A patent/EP2774147B1/en active Active
- 2012-10-22 JP JP2014536402A patent/JP6190373B2/ja active Active
- 2012-10-22 WO PCT/IB2012/055792 patent/WO2013061232A1/en active Application Filing
- 2012-10-22 US US14/351,646 patent/US9875748B2/en active Active
- 2012-10-22 CN CN201280064187.0A patent/CN103999155B/zh active Active
- 2012-10-22 BR BR112014009647-3A patent/BR112014009647B1/pt active IP Right Grant
- 2012-10-22 RU RU2014121031A patent/RU2616534C2/ru active
-
2014
- 2014-04-24 IN IN3102CHN2014 patent/IN2014CN03102A/en unknown
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040167777A1 (en) * | 2003-02-21 | 2004-08-26 | Hetherington Phillip A. | System for suppressing wind noise |
CN1530928A (zh) * | 2003-02-21 | 2004-09-22 | 哈曼贝克自动系统-威美科公司 | 抑制风噪声的系统 |
US20080140396A1 (en) * | 2006-10-31 | 2008-06-12 | Dominik Grosse-Schulte | Model-based signal enhancement system |
CN103890843A (zh) * | 2011-10-19 | 2014-06-25 | 皇家飞利浦有限公司 | 信号噪声衰减 |
Also Published As
Publication number | Publication date |
---|---|
BR112014009647A2 (pt) | 2017-05-09 |
WO2013061232A1 (en) | 2013-05-02 |
US20140249809A1 (en) | 2014-09-04 |
RU2014121031A (ru) | 2015-12-10 |
BR112014009647B1 (pt) | 2021-11-03 |
JP2014532891A (ja) | 2014-12-08 |
EP2774147A1 (en) | 2014-09-10 |
US9875748B2 (en) | 2018-01-23 |
EP2774147B1 (en) | 2015-07-22 |
RU2616534C2 (ru) | 2017-04-17 |
CN103999155B (zh) | 2016-12-21 |
IN2014CN03102A (zh) | 2015-07-03 |
JP6190373B2 (ja) | 2017-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10446171B2 (en) | Online dereverberation algorithm based on weighted prediction error for noisy time-varying environments | |
US10403299B2 (en) | Multi-channel speech signal enhancement for robust voice trigger detection and automatic speech recognition | |
WO2020108614A1 (zh) | 音频识别方法、定位目标音频的方法、装置和设备 | |
US7295972B2 (en) | Method and apparatus for blind source separation using two sensors | |
US20100278351A1 (en) | Methods and systems for reducing acoustic echoes in multichannel communication systems by reducing the dimensionality of the space of impulse resopnses | |
Wang et al. | Noise power spectral density estimation using MaxNSR blocking matrix | |
US9520138B2 (en) | Adaptive modulation filtering for spectral feature enhancement | |
CN106887239A (zh) | 用于高度相关的混合物的增强型盲源分离算法 | |
CN103999155B (zh) | 音频信号噪声衰减 | |
Nesta et al. | A flexible spatial blind source extraction framework for robust speech recognition in noisy environments | |
Habets et al. | Dereverberation | |
CN103890843B (zh) | 信号噪声衰减 | |
GB2510650A (en) | Sound source separation based on a Binary Activation model | |
US11902757B2 (en) | Techniques for unified acoustic echo suppression using a recurrent neural network | |
Delcroix et al. | Multichannel speech enhancement approaches to DNN-based far-field speech recognition | |
Nakatani et al. | Simultaneous denoising, dereverberation, and source separation using a unified convolutional beamformer | |
US20240212701A1 (en) | Estimating an optimized mask for processing acquired sound data | |
CN115862632A (zh) | 语音识别方法、装置、电子设备和存储介质 | |
Di Persia et al. | Correlated postfiltering and mutual information in pseudoanechoic model based blind source separation | |
Li et al. | Distant-talking speech recognition based on multi-objective learning using phase and magnitude-based feature | |
Chen et al. | Early Reflections Based Speech Enhancement | |
Nakatani et al. | Robust blind dereverberation of speech signals based on characteristics of short-time speech segments | |
WO2023219751A1 (en) | Temporal alignment of signals using attention | |
Rana | A Survey on Speech Enhancement. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |