CN1989550B - 音频信号去混响 - Google Patents

音频信号去混响 Download PDF

Info

Publication number
CN1989550B
CN1989550B CN2005800246316A CN200580024631A CN1989550B CN 1989550 B CN1989550 B CN 1989550B CN 2005800246316 A CN2005800246316 A CN 2005800246316A CN 200580024631 A CN200580024631 A CN 200580024631A CN 1989550 B CN1989550 B CN 1989550B
Authority
CN
China
Prior art keywords
parameter
signal
frequency spectrum
frame
reverberation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2005800246316A
Other languages
English (en)
Other versions
CN1989550A (zh
Inventor
R·M·M·德克克斯
C·P·詹塞
C·博斯卡里诺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
MediaTek Inc
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN1989550A publication Critical patent/CN1989550A/zh
Application granted granted Critical
Publication of CN1989550B publication Critical patent/CN1989550B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B3/00Line transmission systems
    • H04B3/02Details
    • H04B3/20Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other
    • H04B3/23Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other using a replica of transmitted signal in the time domain, e.g. echo cancellers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M9/00Arrangements for interconnection not involving centralised switching
    • H04M9/08Two-way loud-speaking telephone systems with means for conditioning the signal, e.g. for suppressing echoes for one or both directions of traffic
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Telephone Function (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

一种估计声信号(y)中混响的方法,包括步骤:确定信号(y)的频谱(Y),提供指示所述信号的混响部分(r)随时间衰减的第一参数(α),提供指示所述信号(y)的直接部分(d)对于混响部分(r)的幅值的第二参数(β)。使用先前帧的频谱(Y)、第一参数(α)和第二参数(β)产生混响信号(r)的估计频谱
Figure 200580024631.6_AB_0
第二参数(β)优选与所述信号(y)的早晚比成反比。

Description

音频信号去混响
本发明涉及音频信号的去混响。本发明特别涉及用于估计音频信号中的混响的方法和设备,尤其是诸如语音的非静态音频信号。
已经广为人知的是,诸如声信号的信号可能包括来自不同表面的混响或者回声。例如,在房间中,声信号(诸如语音或者音乐)由墙、天花板和地板反射。因此房间中存在的麦克风将接收到作为直接信号(直接从声源接收)和间接信号(通过反射表面接收)组合的声信号。该间接信号被称为所接收信号的混响部分。
已经进行了许多尝试以将期望(即,直接)信号与其混响分离。例如,论文“A New Method Based on Spectral Subtraction forSpeech Dereverberation”(K.Lebart,J.M.Boucher和P.N.Denbigh著,Acta Acustica,Vol.87,pages 359-366(2001))公开了一种基于谱减法(Spectral Subtraction)抑制语音信号中的滞后房间混响(late room reverberation)的方法。在该已知的方法中,使用所接收信号的延迟频谱以及指示所述混响部分随时间衰减的(第一)参数来估计所接收信号混响部分的频谱。然后可以通过谱减法使用所述混响部分的频谱来估计所述直接部分的频谱。
该已知方法适用于直接部分和混响部分的幅值相似的信号,或者换句话讲,直接部分的能含量比混响部分的能含量小(的多)的信号。然而,当直接信号的幅值(因此其能含量)比混响信号的幅值(和能含量)大很多时,该已知方法将引入误差,这样导致信号失真。
因此本发明的目标是克服现有技术的这些和其他问题,提供一种将直接部分和混响部分的能含量的任何差异都考虑在内的估计声信号的混响部分的方法和设备。
因此,本发明提供了一种估计信号中的混响的方法,所述信号包括直接部分和混响部分,所述方法包括使用第一参数、第二参数和所述信号的频谱提供混响部分的频谱估计的步骤,其中第一参数是所述混响部分随时间衰减的指示,第二参数是所述信号的直接部分相对于混响部分的幅值的指示。
通过提供指示直接部分相对于混响部分的幅值的第二参数,将这两个信号部分的相对幅值考虑在内。结果是,可能补偿幅值的任何差异,并因此获得更加准确的估计。
应当理解的是,可以从使用已知谱减法技术估计的混响部分的估计频谱中得到所述直接部分的频谱,因此得到直接信号部分本身。
在优选的实施例中,第二参数与信号的早晚比(early-to-lateratio)成反比。所述早晚比是指示信号的直接(早)部分相对于混响(晚)部分的幅值的比值。
在有利的实施例中,提供混响部分频谱估计的步骤涉及使用混响部分的频谱先前估计。采用这样的方法,使用先前值以及更新项来确定所述估计,所述更新项优选包括信号的频谱。
因此在优选的实施例中,混响部分的频谱估计等于第一参数乘以频谱的先前绝对值,减去第三参数乘以频谱的先前绝对值与混响信号的频谱先前估计的差值,其中第三参数等于第一参数减去第二参数。
在实用的实施例中,本发明的方法包括另外的步骤:
定义包含所述信号的有限时间(time-limited)段的帧,和
为每个帧确定信号的频谱。
所述帧可以部分重叠,因此不止一次使用一些信号值。
尽管对于其中声源和麦克风的距离(因此直接信号的相对幅值)不变的情形,可以确定单个第二参数值,但是优选的是,对于每个帧单独确定第二参数。采用这样的方式,使得可能更加准确地确定第二参数,尤其是当涉及运动时。根据本发明,优选仅使用所述信号及其导数来确定第二参数。
另外还优选的是,对于信号的每个时间段,使用前一个时间段确定信号本身的频谱和用于当前时间段中混响部分频谱估计的直接部分的估计频谱。
为了得到甚至更好的估计,优选的是,对于每个频带的每个帧确定所述信号的频谱,并且还优选对于每个频带确定第二参数、直接信号的估计频谱和混响部分的估计频谱。采用这样的方式,对于个别频带进行单独估计。可以通过特定信号命令频带的选择。
如上所述,使用先前帧的频谱、第一参数、第二参数和先前帧的混响部分的估计频谱(对于第一帧,先前帧的估计可以假设为具有预定值,例如零)来估计混响部分的频谱。所述方法可以包括使用混响部分的频谱估计来对所述信号去混响的另外步骤,优选使用谱减法和基于所述减法产生的频谱的去混响信号的重构来实施。
本发明还提供了用于执行上述定义方法的计算机程序产品。该计算机程序产品可以包括其上以电子或者光学形式存储了计算机程序的载体,诸如CD、DVD或者软盘。计算机程序规定了将由通用计算机或者专用计算机执行的方法步骤。
本发明另外提供了用于执行上述定义方法的设备以及音频系统,诸如包括这种设备的语音识别系统。
下面将参考附图中示出的示范性实施例对本发明进行进一步说明,图中:
图1示意性地示出了房间的脉冲响应的典型实例
图2示意性地示出了图1的房间脉冲响应的能量衰减曲线。
图3示意性地示出了根据本发明用于估计混响的滤波器装置。
图4示意性地示出了根据本发明用于估计混响的设备。
图5示意性地示出了包括图4的本发明设备的系统。
图1中示出的示范性信号代表房间的脉冲响应,即,在房间内产生声脉冲(持续时间极短的脉冲)时由相同房间中的麦克风所接收的信号。该脉冲响应包含没有包括重要信号分量的第一(信号延迟)部分I、包含直接信号部分d的第二部分II和包含混响信号间接部分r的第三部分III。直接信号部分d和混响信号部分r一起构成信号y,所述信号的幅值yi作为采样指数(sample index)i的函数绘制。应当理解的是,被采样(被数字化)信号的采样指数i对应于模拟信号中的时间。
直接信号部分d通过直接信号路径(即没有被反射)接收,而间接或者混响部分r通过墙或者其他反射表面接收。正如可以看出的,混响部分r的幅值yi以指数衰减。这一点在图2中同样示出,图2表示作为采样指数i函数的信号y的能量衰减曲线EDC。所述EDC定义为:
EDC ( i ) = 10 log Σ m = i ∞ y m 2 - - - ( 1 )
用语言表示,对于给定采样指数i所述能量衰减曲线EDC等于信号剩余能量的对数的10倍。可以看出,在包含混响部分r的EDC的第三部分III中,EDC近似为线性(注意在当前实例中所有yi的值都远远小于1时,示出的EDC值为负)。由于EDC为对数,因此该EDC的线性衰减表示信号y的指数衰减。在第三部分III中EDC的斜率可以由参数αr表示,其中下标r指的是混响。
在图2中进一步可以看出,在区域I和区域III之间的EDC中发生了阶跃。该阶跃代表直接信号部分d相对于混响部分r的能量(图1)。在一些情形下,该阶跃相对较小,混响部分r具有与直接部分d相似(或比其更大)的幅值。然而,在示出的实例中,由于图1的直接部分d显著大于混响部分r,因此EDC中的阶跃相对较大。估计混响部分r(的频谱)时忽略该阶跃可能导致估计误差。然而,本发明使用另一参数β将该阶跃考虑在内,因此产生了有很大改善的结果。
可以使用已知技术对图1的信号y去混响,诸如使用混响频谱的估计来代替噪声频谱的单通道噪声抑制技术。在谱减法的情况下,这涉及到确定信号的频谱Y,估计混响的频谱R,从信号频谱中减去估计的混响频谱,以得到直接信号部分的估计频谱,以及根据直接信号部分的估计频谱重构直接信号。
根据上述提到的现有技术,可以如下实现。将信号y分成帧,每个帧包括数个数字化信号的采样。每个帧例如可以包括128至256个采样。可以添加零(所谓的“零填充”)以达到每帧适当的采样数。帧通常并不需要部分重叠,术语“块(block)”用于指示每个帧的“新”采样。
有利地,利用窗(例如,本身已知的汉明(Hamming)窗)来减轻伪像(artifact)的引入。对于每个帧,使用已知的快速傅立叶变换(FFT)来确定频谱Y。对于每个帧k,通过下式来确定混响频谱R的估计
R ^ ( κB , m ) = α r · | Y ( ( κ - 1 ) B , m ) | - - - ( 2 )
其中B为块大小(即,每个帧中新采样的数量),m为频率,竖直线表示绝对值,αr是指示混响部分r的衰减速度的参数。在数学上,αr可以定义为:
α r = ( e - 2 Δ B F s ) 1 2 - - - ( 3 )
其中Fs为采样频率并且
Δ = 3 ln 10 T 60 - - - ( 4 )
1n为自然对数(31n10近似等于6.9),T60为混响时间,即,在其后信号水平相对于原始信号水平已经下降60dB(分贝)的时间长度。
混响频谱的估计可以用于确定增益函数:
G ( κB , m ) = max ( | Y ( κB , m ) | - R ^ ( κB , m ) | Y ( κB , m ) | , λ ) - - - ( 5 )
其中λ为所谓的频谱基(spectral floor),保证可避免去混响信号的任何严重失真的值。尽管还可以使用其他值,但λ的典型值为0.1。将原始信号的频谱Y乘以增益因子G(kB,m)以到直接(去混响)信号d的频谱D。
尽管该已知的方法非常有效,但是当信号y的直接部分d相对于混响部分r具有大幅值(能量)时,或者换句话讲,当在图2的区域II中信号显示出大阶跃时,这种已知的方法将导致信号失真。直接部分相对于混响部分的幅值可以使用早晚比ELR来表示,早晚比可以写为:
ELR ( k ) = 10 log ( Σ i = 0 k y i 2 / Σ i = k ∞ y i 2 ) - - - ( 6 )
其中k为图2中分隔区域II和III采样号(sample number),即EDC曲线下降结束和相对较直部分开始处的点。因此ELR确定了直接部分(至采样点k)和混响部分(从采样点k)的(对数)能量比。有时ELR也称作透明度指数(clarity index)。
当早晚比ELR较小(例如使用上述定义小于0dB)时,直接部分d的能含量与信号y的混响部分r相比较小,可以有效地使用上述讨论的现有技术方法对信号y去混响。然而,当ELR较大时(例如使用上述定义大于0dB或者大于5dB)时,由于忽略了EDC的区域II(图2)中的阶跃,因而已知方法引入了失真。
因此,本发明使用了一种改善的估计方法,其中考虑了直接信号部分d和混响信号部分r的相对能含量。
从上述等式(2)开始,本发明提议通过减去一个校正项γ.C(κ)来校正混响部分r的频谱R的估计,其中γ为取决于ELR的因子,其中C为帧编号k(即,时间)和可能的块大小B和频率m的函数,
R ^ ( κB , m ) = α r · | Y ( ( κ - 1 ) B , m ) | - γ . C ( ( κ - 1 ) B , m ) - - - ( 7 )
本发明还提议使用直接部分频谱D的估计
Figure B2005800246316D00062
作为函数C:
R ^ ( κB , m ) = α r · | Y ( ( κ - 1 ) B , m ) | - γ . D ^ ( ( κ - 1 ) B , m ) - - - ( 8 )
应当理解,还可能存在其他具有所需特性的函数C。
由于直接部分频谱D的估计
Figure B2005800246316D00064
可以表示为:
D ^ ( κB , m ) = | Y ( κB , m ) | - R ^ ( κB , m ) - - - ( 9 )
因此等式(8)可以写为:
R ^ ( κB , m ) = ( α r - γ ) · | Y ( ( κ - 1 ) B , m ) | + γ . R ^ ( ( κ - 1 ) B , m ) - - - ( 10 )
引入参数β(κB)=αr-γ,其中0≤β(κB)≤αr’,等式(10)可以写为:
R ^ ( κB , m ) = β ( κB ) · | Y ( ( κ - 1 ) B , m ) | + ( α r - β ( κB ) ) . R ^ ( ( κ - 1 ) B , m ) - - - ( 11 )
使用等式(9),等式(11)还可以表示为:
R ^ ( κB , m ) = β ( κB ) · D ^ ( ( κ - 1 ) B , m ) + α r · R ^ ( ( κ - 1 ) B , m ) - - - ( 12 )
可以示出:
β ( κB ) = ( 1 - α r ) ELR ( κB ) - - - ( 13 )
换句话讲,(第二)参数β(kB)与早晚比ELR成反比。还注意到ELR和β都是时间的函数(即帧指数k乘以块指数B),所述β(和ELR)还可以取决于频率(或者子频带)m:β(kB,m)。
从等式(11)可以看出根据本发明的估计将先前帧的频谱Y(的绝对值)和先前估计结合起来,同时考虑了ELR。从等式(11)和(12)还可以进一步看出,对于大ELR,β(kB)较小,估计有效地基于先前估计,抑制了频谱Y的影响。对于小ELR,β(kB)“较大”,近似等于αr,因而近似等于αr·|Y((κ-1)B,m)|,与现有技术相同。
因此可以看出,在早晚比ELR较小时,本发明的方法与现有技术是一致的,而当ELR较大时提供了重大改善。
注意,本发明的方法可以对每个子频带执行,即每个频率m,或者对于所有频率使用单个项而独立于频率地执行。
本发明的方法可以以软件或者硬件实施。图3中示出了示范性的硬件实施,其中示出了滤波器部分10。滤波器部分10包括第一延迟元件11、第一放大器12、结合元件13、第二延迟元件14和第二放大器15。
在示出的实例中,第一延迟元件11接收频谱Y的绝对值(即,幅值)|Y(kB,m)|,并输出延迟的绝对值|Y((k-1)B,m)|。在优选的实施例中,延迟Δ等于一个帧。在放大器12中,将该延迟的绝对值乘以(第二)参数β并馈送给优选由加法器构成的结合元件13。
结合元件13还接收第二放大器15的输出信号并输出估计
Figure B2005800246316D00071
该估计由第二延迟元件14接收,所述第二延迟元件向第二放大器15输出延迟估计在放大器15中将该延迟估计
Figure B2005800246316D00073
乘以因子(αr-β),并将其馈送至结合元件13。可以看出,滤波器部分10产生了与上述等式(11)相同的结果。
参数β(或β(kB))可以预先确定。例如,对于假定该情形下ELR的估计已知的情形,可以使用固定值0.1或0.2。然而,优选的是,针对每个信号估计β(kB)。当然,可以使用上述公式(13)基于早晚比来估计β(kB)。然而,从β(kB)的初始值(可以为预定值,例如为零)开始,可以使用下列公式提供更新:
β ( κB ) = β ( ( κ - 1 ) B ) + f ( | Y ( κB , m ) | , R ^ ( κB , m ) , λ ) - - - ( 14 )
其中函数f()为更新函数,而参数λ为上述提及的频谱基。使用绝对值|Y(kB,m)|和估计频谱
Figure B2005800246316D00075
的更新函数的实例为:
β ( κB ) = β ( ( κ - 1 ) B ) + μ Σ m = 0 M - 1 ( 1 - λ ) | Y ( κB , m ) | - R ^ ( κB , m ) Σ m = 0 M - 1 ( 1 - κ ) | Y ( κB , m ) | + ϵ - - - ( 15 )
其中,ε为辅助参数,其具有防止被零除的(非常小的)值,其中μ为控制β(kB)更新精确度和速度的非负参数。
在图4中示意性地示出了用于去混响信号的设备的优选实施例。图4中示出的示范性设备1包括滤波器单元10、FFT单元20、频谱分解单元30、参数估计单元40、增益确定单元50、延迟单元60、乘法单元70、频谱重构单元80和反FFT单元90。
FFT单元20接收(数字)信号y(k)并对于信号采样的帧执行公知的快速傅立叶变换。应当理解的是,如果原始信号为模拟信号则可以存在A/D(模拟/数字)转换器。将由FFT单元20产生的(复数)频谱Y(m)馈送给分解单元30,该分解单元将复数频谱分解成相位部分φ和幅值部分ρ。该幅值ρ等于绝对值|Y(kB,m)|,此处k为帧指数(帧编号),B为块大小,m为频率,与前面相同。将相位部分φ直接馈送至频谱重构单元80,而将幅值部分ρ馈送给滤波器单元10、参数单元40、增益单元50和乘法单元70。
滤波器单元10可以与图3的滤波器单元10相同,同样接收参数αr和β(kB)以产生被馈送至单元40和50的估计混响频谱单元40例如根据等式15使用估计参数λ和由延迟(Δ)单元60输出的延迟值β((k-1)B)来产生β(kB)的更新值。
单元50例如根据等式(5)产生增益因子G(kB,m)。该增益因子馈送至乘法器70,此处将该增益因子乘以绝对值频谱|Y(kB,m)|以产生去混响频谱幅值ρ’。重构单元80根据φ和ρ’重构去混响频谱
Figure B2005800246316D00083
然后通过IFFT(反快速傅立叶变换)单元90将该频谱转换为去混响时间信号
Figure B2005800246316D00085
在图5中示意性地示出了包括图4的设备1的音频系统。该系统9包括去混响设备1、信号处理设备2、麦克风3和扬声器4。去混响设备1优选是图4的设备1或者其等效设备。信号处理设备2可以包括放大器和/或任何其他适当的音频信号处理装置。麦克风3可以由一组麦克风替代。同样扬声器4也可由一组扬声器或者其他适当的转换器替代。去混响设备1和信号处理设备2的顺序可以倒置,可以添加其他设备(未示出)。系统9例如可以构成会议系统、免提电话系统或者语音识别系统。
本发明基于这样的认识,即当去混响信号时必须考虑直接信号部分和混响信号部分的能含量比。通过引入与该能含量比相关的参数,实现了引入信号失真较少的更好的去混响。
本发明可以总结为一种估计信号中混响的方法,所述信号包括直接部分和混响部分,所述方法包括步骤:使用第一参数和信号频谱来估计混响部分的频谱,使用涉及第二参数的校正项来校正所估计的频谱,其中第二参数指示了信号的直接部分相对于混响部分的幅值。
注意,在该文件中使用的任何术语不应理解为是对本发明范围的限制。特别地,词语“包括”和“包含”并不意味着排除了任何没有明确陈述的元件。可以使用多个(电路)元件或者其等效物替代单个(电路)元件。
术语计算机程序产品应当理解为包括任何物理实现,例如使得通用处理器或者专用处理器在一系列的加载步骤之后,能够得到处理器中的命令并执行任何本发明特征函数的命令集合制造的产品。特别地,可以作为程序代码、从该程序代码衍生的处理器改编代码(processor adapted code)或者该程序代码的中间译码来实现所述计算机程序产品,可以位于载体上(诸如磁盘或者其他可插入部件)、存在于内存中、临时存在于有线或者无线连接网络上或者是存在于纸上的代码。除程序代码之外,程序所需的本发明特征数据同样可以以计算机程序产品来实施。
本领域技术人员应当理解的是,本发明并未受到上述示出的实施例的限制,在并未偏离本发明附属权利要求书所限定的本发明范围的情况下,可以进行许多变型和附加。

Claims (28)

1.一种估计信号(y)中混响的方法,所述信号包括直接部分(d)和混响部分(r),所述方法包括步骤:使用第一参数(α)、第二参数(β)和所述信号(y)的频谱(Y)提供混响部分(r)的频谱(R)的估计
其中第一参数(α)是所述混响部分(r)随时间衰减的指示,其中第二参数(β)是所述信号(y)的直接部分(d)对于混响部分(r)的幅值的指示。
2.根据权利要求1所述的方法,其中所述第二参数(β)与所述信号(y)的早晚比成反比。
3.根据权利要求1所述的方法,其中所述提供混响部分(r)的频谱(R)的估计的步骤涉及使用混响部分(r)的频谱(R)的先前估计
Figure F2005800246316C00013
4.根据权利要求1所述的方法,其中混响部分(r)的频谱(R)的估计等于第一参数(α)乘以频谱(Y)的先前绝对值,减去第三参数(γ)乘以频谱(Y)的先前绝对值与混响信号(r)的频谱(R)的先前估计
Figure F2005800246316C00015
的差值,其中第三参数(γ)等于第一参数(α)减去第二参数(β)。
5.根据权利要求1所述的方法,还包括步骤:
定义包含所述信号(y)有限时间段的帧(k),和
为每个帧(k)确定信号(y)的频谱(Y)。
6.根据权利要求5所述的方法,其中所述帧部分重叠。
7.根据权利要求5所述的方法,还包括步骤:
使用先前帧的频谱(Y)、第一参数(α)、第二参数(β)和先前帧的混响部分(r)的估计频谱
Figure F2005800246316C00016
为每个帧(k)提供混响部分(r)的估计频谱
8.根据权利要求7所述的方法,其中所述先前帧是前一帧.
9.根据权利要求5所述的方法,其中对于每个帧(k)单独确定所述第二参数(β)。
10.根据权利要求1所述的方法,还包括步骤:使用混响部分(r)的频谱(R)的估计
Figure F2005800246316C00018
对信号(y)去混响。
11.根据权利要求9所述的方法,其中仅使用信号(y)及其导数对于每个帧(k)单独确定所述第二参数(β)。
12.一种用于估计信号(y)中混响的设备(1),所述信号包括直接部分(d)和混响部分(r),所述设备包括使用第一参数(α)、第二参数(β)和所述信号(y)的频谱(Y)提供混响部分(r)的频谱(R)的估计
Figure F2005800246316C00021
的装置,
其中第一参数(α)是所述混响部分(r)随时间衰减的指示,其中第二参数(β)是所述信号(y)的直接部分(d)对于混响部分(r)的幅值的指示。
13.根据权利要求12所述的设备,其中所述第二参数(β)与所述信号(y)的早晚比成反比。
14.根据权利要求12所述的设备,其中将所述用于提供混响部分(r)的频谱(R)的估计
Figure F2005800246316C00022
的装置(10)布置成使用混响部分(r)的频谱(R)的先前估计
Figure F2005800246316C00023
15.根据权利要求12所述的设备,其中混响部分(r)的频谱(R)的估计等于第一参数(α)乘以频谱(Y)的先前绝对值,减去第三参数(γ)乘以频谱(Y)的先前绝对值与混响信号(r)的频谱(R)的先前估计
Figure F2005800246316C00025
的差值,其中第三参数(γ)等于第一参数(α)减去第二参数(β)。
16.根据权利要求12所述的设备,还包括装置(20),用于
定义包含所述信号(y)的有限时间段的帧(k),和
为每个帧(k)确定信号(y)的频谱(Y)。
17.根据权利要求16所述的设备,其中所述帧部分重叠。
18.根据权利要求16所述的设备,还包括装置(10),用于
使用先前帧的频谱(Y)、第一参数(α)、第二参数(β)和先前帧的混响部分(r)的估计频谱
Figure F2005800246316C00026
为每个帧(k)提供混响部分(r)的估计频谱
19.根据权利要求18所述的设备,其中所述先前帧是前一帧。
20.根据权利要求12所述的设备,还包括用于确定第二参数(β)的装置(40,60)。
21.根据权利要求20所述的设备,其中将所述用于提供第二参数(β)的装置(40,60)布置成为每个帧(k)单独确定所述第二参数(β)。
22.根据权利要求12所述的设备,还包括使用先前帧的频谱(Y)和混响部分(r)的估计频谱来确定增益因子G(kB,m)的装置(50)。
23.根据权利要求12所述的设备,还包括将增益因子G(kB,m)和频谱(Y)相乘以产生直接信号(d)的频谱估计的装置(70)。
24.根据权利要求12所述的设备,还包括分解频谱的相位(φ)和幅值(ρ)的分解装置(30),和/或使用相位(φ)和幅值(ρ)重构频谱的重构装置(80)。
25.根据权利要求12所述的设备,还包括使用直接信号(d)频谱的估计
Figure F2005800246316C00033
来确定直接信号(d)的装置(90)。
26.根据权利要求21所述的方法,其中将所述用于提供第二参数(β)的装置(40,60)布置成仅使用信号(y)及其导数为每个帧(k)单独确定所述第二参数(β)。
27.一种音频处理系统(9),包括根据权利要求12至25任一项所述的设备(1)。
28.权利要求27的音频处理系统(9)是语音识别系统、会议系统或者免提电话系统。
CN2005800246316A 2004-07-22 2005-07-18 音频信号去混响 Active CN1989550B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP04103509 2004-07-22
EP04103509.8 2004-07-22
PCT/IB2005/052377 WO2006011104A1 (en) 2004-07-22 2005-07-18 Audio signal dereverberation

Publications (2)

Publication Number Publication Date
CN1989550A CN1989550A (zh) 2007-06-27
CN1989550B true CN1989550B (zh) 2010-10-13

Family

ID=34972925

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2005800246316A Active CN1989550B (zh) 2004-07-22 2005-07-18 音频信号去混响

Country Status (6)

Country Link
US (1) US8116471B2 (zh)
EP (1) EP1774517B1 (zh)
JP (1) JP5042823B2 (zh)
KR (1) KR101149591B1 (zh)
CN (1) CN1989550B (zh)
WO (1) WO2006011104A1 (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1993320B1 (en) * 2006-03-03 2015-01-07 Nippon Telegraph And Telephone Corporation Reverberation removal device, reverberation removal method, reverberation removal program, and recording medium
EP1885154B1 (en) 2006-08-01 2013-07-03 Nuance Communications, Inc. Dereverberation of microphone signals
US8036767B2 (en) 2006-09-20 2011-10-11 Harman International Industries, Incorporated System for extracting and changing the reverberant content of an audio input signal
WO2008122930A1 (en) * 2007-04-04 2008-10-16 Koninklijke Philips Electronics N.V. Sound enhancement in closed spaces
EP2058804B1 (en) 2007-10-31 2016-12-14 Nuance Communications, Inc. Method for dereverberation of an acoustic signal and system thereof
JP4532576B2 (ja) * 2008-05-08 2010-08-25 トヨタ自動車株式会社 処理装置、音声認識装置、音声認識システム、音声認識方法、及び音声認識プログラム
JP5645419B2 (ja) * 2009-08-20 2014-12-24 三菱電機株式会社 残響除去装置
GB2490092B (en) * 2011-02-16 2018-04-11 Skype Processing audio signals
JP5654955B2 (ja) * 2011-07-01 2015-01-14 クラリオン株式会社 直接音抽出装置および残響音抽出装置
JP5751110B2 (ja) * 2011-09-22 2015-07-22 富士通株式会社 残響抑制装置および残響抑制方法並びに残響抑制プログラム
JP5898534B2 (ja) * 2012-03-12 2016-04-06 クラリオン株式会社 音響信号処理装置および音響信号処理方法
CN102750956B (zh) * 2012-06-18 2014-07-16 歌尔声学股份有限公司 一种单通道语音去混响的方法和装置
FR3009121B1 (fr) * 2013-07-23 2017-06-02 Arkamys Procede de suppression de la reverberation tardive d'un signal sonore
JP6299279B2 (ja) * 2014-02-27 2018-03-28 ヤマハ株式会社 音響処理装置および音響処理方法
CN103956170B (zh) * 2014-04-21 2016-12-07 华为技术有限公司 一种消除混响的方法、装置和设备
JP6371167B2 (ja) * 2014-09-03 2018-08-08 リオン株式会社 残響抑制装置
US20180268840A1 (en) * 2017-03-15 2018-09-20 Guardian Glass, LLC Speech privacy system and/or associated method
US10726855B2 (en) 2017-03-15 2020-07-28 Guardian Glass, Llc. Speech privacy system and/or associated method
CN110136733B (zh) * 2018-02-02 2021-05-25 腾讯科技(深圳)有限公司 一种音频信号的解混响方法和装置
CN113362841B (zh) * 2021-06-10 2023-05-02 北京小米移动软件有限公司 音频信号处理方法、装置和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6622030B1 (en) * 2000-06-29 2003-09-16 Ericsson Inc. Echo suppression using adaptive gain based on residual echo energy

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4796237A (en) * 1987-01-28 1989-01-03 Amoco Corporation Method for acoustic reverberation removal
US20040213415A1 (en) * 2003-04-28 2004-10-28 Ratnam Rama Determining reverberation time
US7844059B2 (en) * 2005-03-16 2010-11-30 Microsoft Corporation Dereverberation of multi-channel audio streams
EP1885154B1 (en) * 2006-08-01 2013-07-03 Nuance Communications, Inc. Dereverberation of microphone signals

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6622030B1 (en) * 2000-06-29 2003-09-16 Ericsson Inc. Echo suppression using adaptive gain based on residual echo energy

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LEBART K ET AL.A new method based on spectral subtraction for speechdereverberation.ACUSTICA - ACTA ACUSTICA S. HIRZEL VERLAG GERMANY87 3.2001,87(3),359-366.
LEBART K ET AL.A new method based on spectral subtraction for speechdereverberation.ACUSTICA-ACTA ACUSTICA S.HIRZEL VERLAG GERMANY87 3.2001,87(3),359-366. *
MARTIN R.SPECTRAL SUBTRACTION BASED ON MINIMUMSTATISTICS.SIGNAL PROCESSING: THEORIES AND APPLICATIONS2.1994,21182-1185. *

Also Published As

Publication number Publication date
US8116471B2 (en) 2012-02-14
CN1989550A (zh) 2007-06-27
EP1774517A1 (en) 2007-04-18
JP5042823B2 (ja) 2012-10-03
KR101149591B1 (ko) 2012-05-29
EP1774517B1 (en) 2017-01-04
WO2006011104A1 (en) 2006-02-02
US20080300869A1 (en) 2008-12-04
KR20070036777A (ko) 2007-04-03
JP2008507720A (ja) 2008-03-13

Similar Documents

Publication Publication Date Title
CN1989550B (zh) 音频信号去混响
Swanson Signal processing for intelligent sensor systems with MATLAB
EP1993320B1 (en) Reverberation removal device, reverberation removal method, reverberation removal program, and recording medium
JP4963787B2 (ja) サブバンド音声信号のノイズ削減
US11443756B2 (en) Detection and suppression of keyboard transient noise in audio streams with aux keybed microphone
CN103325380B (zh) 用于信号增强的增益后处理
JP5127754B2 (ja) 信号処理装置
JP5233827B2 (ja) 信号分離装置、および信号分離方法、並びにコンピュータ・プログラム
CN103137136B (zh) 声音处理装置
CN1325222A (zh) 时域噪声抑制
KR102191736B1 (ko) 인공신경망을 이용한 음성향상방법 및 장치
CN111213359B (zh) 回声消除器和用于回声消除器的方法
Kumar Real-time performance evaluation of modified cascaded median-based noise estimation for speech enhancement system
US8223979B2 (en) Enhancement of speech intelligibility in a mobile communication device by controlling operation of a vibrator based on the background noise
US20240177726A1 (en) Speech enhancement
CN113077806A (zh) 音频处理方法及装置、模型训练方法及装置、介质和设备
Tu et al. A complex-valued multichannel speech enhancement learning algorithm for optimal tradeoff between noise reduction and speech distortion
JP5443547B2 (ja) 信号処理装置
Godsill et al. Detection and suppression of keyboard transient noise in audio streams with auxiliary keybed microphone
JP6840302B2 (ja) 情報処理装置、プログラム及び情報処理方法
CN112908351A (zh) 一种音频变调方法、装置、设备及存储介质
CN101014995A (zh) 用于将混响添加到输入信号中的设备和方法
CN111226278A (zh) 低复杂度的浊音语音检测和基音估计
US20070140502A1 (en) Signal processing
Tsilfidis et al. Blind single-channel dereverberation for music post-processing

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: No. 5, 5656 Hi-tech Park, Einhofen, Netherlands

Patentee after: KONINKLIJKE PHILIPS N.V.

Address before: Holland Ian Deho Finn

Patentee before: Koninklijke Philips Electronics N.V.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20190507

Address after: China Taiwan Hsinchu Science Park Hsinchu city Dusing a road No.

Patentee after: MEDIATEK Inc.

Address before: No. 5, 5656 Hi-tech Park, Einhofen, Netherlands

Patentee before: KONINKLIJKE PHILIPS N.V.