CN101226746B - 用于提供带有扩展带宽的听觉信号的方法和装置 - Google Patents

用于提供带有扩展带宽的听觉信号的方法和装置 Download PDF

Info

Publication number
CN101226746B
CN101226746B CN2008100030730A CN200810003073A CN101226746B CN 101226746 B CN101226746 B CN 101226746B CN 2008100030730 A CN2008100030730 A CN 2008100030730A CN 200810003073 A CN200810003073 A CN 200810003073A CN 101226746 B CN101226746 B CN 101226746B
Authority
CN
China
Prior art keywords
signal
audible signal
high frequency
received
frequency spread
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2008100030730A
Other languages
English (en)
Other versions
CN101226746A (zh
Inventor
B·伊泽尔
G·尼斯勒
G·施密特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
Nuance Communications Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nuance Communications Inc filed Critical Nuance Communications Inc
Publication of CN101226746A publication Critical patent/CN101226746A/zh
Application granted granted Critical
Publication of CN101226746B publication Critical patent/CN101226746B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Noise Elimination (AREA)
  • Telephone Function (AREA)

Abstract

本发明涉及一种用于提供带有扩展带宽的听觉信号的方法和装置,包括提供高频扩展信号,高频扩展信号用于在高频对所接收到的听觉信号进行扩展,其中提供高频扩展信号包括将至少高于预定频率下限值和/或低于预定频率上限值的所接收到的听觉信号偏移预定的移频值,以获得偏移信号。

Description

用于提供带有扩展带宽的听觉信号的方法和装置
技术领域
本发明涉及一种用于提供带有扩展带宽的听觉信号,特别是语音信号的方法和装置。
背景技术
经过模拟或者数字信号通路传输的听觉信号通常受到信号通路仅有有限带宽的不利影响,以致于所传输的听觉信号与原始信号存在相当大的区别。例如,就传统的电话连接而言,使用8kHz的采样率会产生4kHz的最大信号带宽。较之于音频CD的情况,语音和音频质量明显下降。
此外,许多种传输方式会显出附加的带宽限制。在模拟电话连接的情况下,仅传输300Hz和3.4kHz之间的频率。因而,仅有3.1kHz的带宽是可用的。
例如,在语音信号的情况下,缺少高频会导致难于理解。此外,由于丢失低频分量,因而通话质量降低。
一般地,使用宽带或者宽频带数字编码和解码方法(所谓的宽带编解码器)可以增加电话连接的带宽。然而,在这种情况下,发射机和接收机都必须支持相对应的编码和解码方法,这些方法将需要实现新的标准。
作为一种可选择的方式,例如可采用在P.Jax,Enhancement ofBandwidth Limited Speech Signals:Algorithms and Theoretical Bounds,Dissertation,Aachen,Germany,2002或者E.Larsen,R.M.Aarts,AudioBandwidth Extension,Wiley,Hoboken,NJ,USA,2004中所述的用于带宽扩展的系统。这些系统将仅在接收机一侧实现,以便不必改变现存的电话连接。在这些系统中,带宽小的输入信号的丢失频率分量被估计并被加入到输入信号中。
在图8中示出了现有带宽扩展系统的这种状态下的结构和对应信号流的实例。通常,丢失频率分量被逐块地再合成。
在模块801中,以数字化形式输入或者接收的信号x(n)由分析滤波器组处理,以便获得频谱矢量X(ejΩμ,n)。这里,变量n代表时间。在该图中,假定通过增大采样率,已将输入信号x(n)转换到所需带宽。在这个转换步骤中,将不会产生附加的频率分量,这可以通过例如使用适当的抗锯齿或者抗假像滤波元件来实现。为了不修正传输的信号,仅在丢失频率范围内进行带宽扩展。扩展涉及低频(例如,从0到300Hz)范围和/或高频(例如,3400Hz到所需采样率的一半)范围,这取决于传输方法。
在模块802中,例如,从窄带信号提取出窄带谱包络,这种窄带信号受到电话信道的带宽限制的约束。借助于非线性映射,从窄带包络估计出对应的宽带包络。这种影射是基于,例如,码-表对(code-book pairs)(请参见J.Epps,W.H.Holmes,A New Technique forWideband Enhancement of Coded Narrowband Speech,IEEE Workshopon Speech Coding,Conference Proceedings,第174至176页,1999年6月),或基于神经网络(请参见J.-M.Valin,R.Lefebvre,BandwidthExtension of Narrowband Speech for Low Bit-Rate Wideband Coding,IEEE Workshop on Speech Coding,Conference Proceedings,第130至132页,2000年9月)。在这些方法中,使用需要大量处理器和存储器资源的训练方法来产生码表的条目或者新网络的权重。
此外,在模块803中,从窄带信号产生具有扁平谱包络的宽波段或者宽带激励信号Xexc(ejΩμ,n)。该激励信号对应于将紧接在声带(vocalchords)之后被记录的信号,即,激励信号包含有关清浊音和音高的信息,但通常不包括有关形式和结构或者频谱形状的信息(例如参见B.Iser,G.Schmidt,Bandwidth Extension of Telephony Speech,EURASIPNewsletter,卷16,第2号,第2至24页,2005年6月)。
因此,为了取回完整的信号(例如语音信号),激励信号必须用谱包络来加权。对于激励信号的产生,例如,可以使用诸如双向整流或修整的非线性特性曲线(参见,U.Kornagel,Spectral Widening of theExcitation Signal for Telephone-Band Speech Enhancement,IWAENC’01,Conference Proceedings,第215至218页,2001年9月)。对于带宽扩展而言,在模块804中,使用包络对激励信号Xexc(ejΩμ,n)进行频谱着色。
然后,在模块806中,使用带阻滤波器来提取出用于扩展的频谱范围,得到信号频谱Yext(ejΩμ,n)。带阻滤波器可以在例如200到3700Hz的范围内有效。
在模块805中,接收信号的频谱X(ejΩμ,n)通过补偿带通滤波器。然后,将信号分量Yext(ejΩμ,n)和Ytel(ejΩμ,n)相加,以获得带有扩展带宽的频谱Y(ejΩμ,n)。在模块807中,不同的频谱被再次聚集在综合滤波器组中,从而产生具有扩展带宽的输出信号y(n)。
例如,附加的元件可以存在于本系统中,以进行预加重和/或去加重步骤或者调整频谱Yext(ejΩμ,n)和Ytel(ejΩμ,n)的功率。在很多情况下,在子频带或者频域中进行信号处理。
在现有技术的系统中,为样本值的全部分块确定诸如基本语音频率、平均功率、谱包络等信号参数。至少对于一个分块而言,这些参数保持不变。根据这些参数,生成扩展信号和宽带谱包络。在最后的步骤中,合并带有50%到75%的重叠的后续分块,并创建扩展频谱的输出信号。在整个分块长度约为20ms的情况下,这将引起约5到10ms的典型的分块偏移。
这将导致在剧烈改变语音信号通道的情况下出现大量的赝像。此外,由于这种分块处理,在信号通路中插入了延迟。尤其对于免持系统而言,在发射机通路中也表现出信号处理延迟。在这种情况下,这些延迟的总和所产生的整个延迟值大于由ETSI(ETS300903(GSM03.50),Transmission Planning Aspects of the Speech Service in the GSMPublic Land Mobile Network(PLMS)System,ETSI,France,1999)或ITU(ITU-T Recommendation G.167,General Characteristics ofInternational Telephone Connections and International Telephone Circuits-Acoustic Echo Controllers,Helsinki,Finland,1993)所建议的最大值。尤其对于固定电话或免持系统而言,因附加信号处理而引起的最大延迟应为2ms。然而,利用上述现有技术系统无法实现这种要求。
发明内容
因此,本发明的目的是提供一种用于提供带有扩展带宽的听觉信号的方法和装置,其克服了上述缺点,并且尤其减少了信号延迟。
通过根据权利要求1的方法和根据权利要求25的装置实现了这个目标。
相应地,本发明提供一种用于提供带有扩展带宽的听觉信号的方法,包括提供高频扩展信号,用于对在高频接收到的听觉信号进行扩展,其中提供高频扩展信号包括将至少高于预定频率下限值和/或低于预定频率上限值的所接收到的听觉信号偏移预定的移频值,从而获得偏移信号。
因为是基于偏移所接收到的听觉信号来提供扩展信号的,即,通过提供接收信号的偏移拷贝来提供扩展信号,所以不需要基于分块的信号处理。因此,相对于上述基于分块的信号处理而言,在信号处理期间出现的延迟得以减少。
为了获得高频扩展信号,可以偏移超过其全波段的所接收到的听觉信号。可替代地,可以仅偏移所接收到的听觉信号中的一部分,也就是高于预定频率下限值和/或低于预定频率上限值的所接收到的听觉信号。
在上述描述中,术语“高频”并不一定表示预定的频率范围,而是指所接收到的听觉信号在位于较高频率范围和/或超过接收到的听觉信号的频率范围的频率上被扩展或补偿。
一般地,所获得的偏移信号可作为高频扩展信号。然而,还可对偏移信号进行另外的处理。可以选择预定的移频值,以使偏移信号覆盖适合用于补偿所接收到的听觉信号的频率范围。
所接收到的听觉信号可以是数字信号或者可以被数字化。
在上述方法中,在偏移步骤之前,可以对所接收到的听觉信号进行高通滤波。
为了避免对所接收到的听觉信号进行偏移所产生的信号与所接收到的听觉信号重叠,这样做是非常有用的。通过进行这种高通滤波,只有在所接收到的听觉信号超出预定频率下限的部分才被偏移,其中预定频率下限是高通滤波器的截止频率;因此,可以避免偏移信号和所接收到的听觉信号重叠。
在上述方法中,在偏移步骤之后,可以接着对偏移信号进行高通滤波,从而获得滤波后的偏移信号。
这种后续的高通滤波更进一步地确保消除了将会与原始接收到的听觉信号相重叠的偏移信号的分量。滤波后的偏移信号可以作为高频扩展信号。然而,还可对滤波后的偏移信号进行另外的处理。
用于对偏移信号进行高通滤波的高通滤波器的截止频率可以相当于对所接收到的听觉信号进行滤波的高通滤波器的截止频率加上预定的移频值。为了避免偏移信号和所接收到的听觉信号重叠,这是一种相当有利的选择。
在上述方法中,可以使用递归滤波器,尤其是Chebyshev和/或Butterworth滤波器对所接收到的听觉信号进行高通滤波,和/或对偏移信号进行高通滤波。
这些IIR滤波器允许高效地实现高通滤波器。
偏移步骤可以包含对接收信号进行余弦调制。这种调制的结果是对所接收到的听觉信号进行有效和可靠的偏移。
通过所接收到的听觉信号与调制函数相乘获得余弦调制,调制函数即是以移频和时间变量的乘积作为自变量的余弦函数。
因为余弦调制使得信号在正负频率方向均发生偏移,所以在进行余弦调制之前和之后对所接收到的听觉信号进行高通滤波是相当有利的。
上述方法可以更进一步包括通过提供所接收到的听觉信号和高频扩展信号的加权总和,来合并所接收到的听觉信号和高频扩展信号。
这样,最终获得带有扩展带宽(尤其对于高频而言)的听觉信号。高频扩展信号可以是例如如上所述的偏移信号或者滤波后的偏移信号。
加权总和的权重可以是随时间变化的。这样提高了产生的信号质量并减少了赝像的出现。
高频扩展信号可以用第一因子加权,其中第一因子是所接收到的听觉信号的估计信噪比的函数。
信噪比(SNR)是用于确定所接收到的听觉信号是否包括所需信号(尤其是语音信号)的合适的变量。这样,可以通过权重来实现衰减或者放大,其中权重取决于在所接收到的听觉信号中是否存在所需信号。通过对所接收到的听觉信号的绝对值的一阶IIR平滑,并有可能对接收到的听觉信号进行高通滤波,可以基于噪声电平的绝对值或者模的估计值来估计信噪比。
特别地,第一因子可以是所接收到的听觉信号的估计信噪比的单调递增函数。这样,如果所接收到的听觉信号表现出小的信噪比,这种小的信噪比对应于没有语音分量的信号部分,那么对高频扩展信号进行衰减。如果所接收到的听觉信号表现出较大的信噪比,那么高频扩展信号的衰减减少,有可能达到零衰减。
高频扩展信号可以用第二因子加权,其中第二因子是高频扩展信号中估计的噪声电平的函数。
这样,可以根据高频率的噪声电平,对高频扩展信号进行衰减。第二因子可以以替代第一因子的方式或者以附加的方式使用。如果这两个因子都使用,优选地,将采用第一因子和第二因子的乘积。
第二因子可以是高频扩展信号中估计的噪声电平的单调减函数。这样,如果高频率的噪声电平高,那么可以对高频扩展信号进行更多衰减。
在上述方法中,可以根据相应的短时信号功率,对估计信噪比和/或估计噪声电平进行估计。对于这种估计,这是相当有效和可靠的方法。
在上述方法中,高频扩展信号可以用第三因子加权,其中根据所接收到的听觉信号的估计信号电平与高频扩展信号的估计信号电平的比值对第三因子进行控制。
这允许更合适地处理信号功率大部分确实处于低频率的情况;在这种情况下,高频扩展信号的衰减可以适于产生更自然的扩展信号。
第三因子可以是所接收到的听觉信号的估计信号电平与高频扩展信号的估计信号电平的比值的单调递增函数。其结果是如果信号功率的大部分处于低频率,那么对高频扩展信号进行衰减。
关于第三因子,应当注意,可以以替代第一因子或者第二因子的方式或者以附加方式来使用第三因子。特别地,高频扩展信号的权重可以是第一因子、第二因子和/或第三因子的乘积。
在上述方法中,通过提供在当前时间和当前时间减去一个时间步长处所接收到的听觉信号的加权总和,可以对所接收到的听觉信号进行加权。通过考虑当前时间和之前一个时间步长二者的所接收到的听觉信号,使得产生的信号听起来更为谐调。时间步长取决于信号的采样率。
特别地,在当前时间和当前时间减一个时间步长处的所接收到的听觉信号的加权总和的权重可以是所接收到的听觉信号的估计信噪比和/或高频扩展信号中估计噪声电平的函数。
通过以这种方法修改所接收到的听觉信号,在合并所接收到的听觉信号和高频扩展信号之后,获得了更自然的扩展信号。特别地,权重可以是上述第一和第二因子的函数或者取决于上述第一和第二因子。
前述方法可以进一步包括提供用于扩展处于较低频率的接收信号的低频扩展信号。通过增加低频分量,将获得显著改进的语音质量。
提供低频扩展信号可以包括对所接收到的听觉信号施加非线性(特别是二次)特性曲线。换句话说,例如,施加二次特性曲线则由所接收到的听觉信号和所接收到的听觉信号的平方的加权总和来表示。通过使用非线性特性曲线,产生谐波,以便可以获得丢失的频率。
非线性特性曲线可以是随时间变化的。因此,非线性特性曲线的参数是随时间变化的。具体地,在二次特性曲线的情况下,权重或者因子将是随时间变化的。
施加非线性特性曲线之后可以对产生的信号进行带通滤波。在施加特性曲线之后对信号进行带通滤波允许提供低频扩展信号,这种低频扩展信号中已经消除了低于预定频率值的分量(诸如基本的语音频率),和/或高于所接收到的听觉信号最小频率的分量,从而避免在产生的扩展信号中出现干扰。
上述方法可以进一步包括通过提供所接收到的听觉信号和低频扩展信号的加权总和来合并所接收到的听觉信号和低频扩展信号。
低频扩展信号可用第四因子加权,其中第四因子是所接收到的听觉信号的估计信噪比的函数。特别地,第四因子可以是上述第一因子的函数。
本发明更进一步地提供一种包括一个或多个计算机可读介质的计算机程序产品,计算机可读介质具有在计算机上运行时用于执行前述权利要求之一的方法的步骤的计算机可执行指令。
此外,本发明提供一种用于提供带有扩展带宽的听觉信号的装置,包括提供用于在高频对所接收到的听觉信号进行扩展的高频扩展信号的装置,其中用于提供高频扩展信号的装置被配置成将至少高于预定频率下限值和/或低于预定频率上限值的所接收到的听觉信号偏移预定的移频值,从而获得偏移信号。
用于提供高频扩展信号的装置可以更进一步地配置成执行上述方法之一的步骤。
下文将参考附图和示意性实例来描述其它方面。
附图说明
图1示意性地表示提供带有扩展带宽的听觉信号的方法中的信号流的实例;
图2显示高通滤波器实例的频率响应的模;
图3显示带通滤波器实例的频率响应的模;
图4表示语音信号和相对应的短时功率估计值的实例;
图5显示接收到的听觉信号和对应的衰减因子的实例;
图6显示自适应高通滤波器实例的频率响应的模;
图7表示接收到的听觉信号和对应的带有扩展带宽的信号的实例;
图8表示现有方法的实例。
具体实施方式
图1表示用于提供带有扩展带宽的听觉信号的方法中的信号流的实例。在所示实例中,对高低频率都进行扩展。然而,一般地,提供高频扩展信号和低频扩展信号是相互独立的。因此,也可以仅提供一种扩展信号。
对接收到的听觉信号x(n)执行该方法,其中该信号是数字信号或者数字化信号,并且n表示时间变量。
下面将会更详细描述,将所接收到的听觉信号x(n)通过高通滤波器101,在模块102中进行频谱偏移,然后将偏移信号通过高通滤波器103,从而获得高频扩展信号yhigh(n)。
通过进行余弦调制,在模块102中进行频谱偏移。在本实例中,采用大约1380Hz的调制频率Ω0。如果听觉信号的采样频率是fs=11,025Hz,必须存储的仅是Nmod=8个余弦值。由于余弦调制在正负频率方向上都进行频移,
FT { x ( n ) cos ( Ω 0 n ) } = 1 2 X ( e j ( Ω + Ω 0 ) ) + 1 2 X ( e j ( Ω - Ω 0 ) )
在模块101中进行高通滤波,以免偏移的频谱重叠。
作为高通滤波器101,采用带有差分方程
x high ( n ) = Σ k = 0 N hp , 1 b hp , 1 , k x ( n - k ) + Σ k = 1 N ~ hp , 1 a hp , 1 , k x high ( n - k )
的递归滤波器。FIR和IIR这两个部分中的滤波器的阶数可以在从4到7的范围内。特别地,可以采用
N hp , 1 = N ~ hp , 1 = 6
这种高通滤波器产生的频率响应的模如图2所示(实线)。
例如,如果所接收到的听觉信号(输入信号)仅含有截至4kHz的信号分量,那么所产生的信号xhigh(n)基本上将仅含有大约2kHz到4kHz之间的相关信号分量。
在模块102中,将这个信号乘以余弦函数
xmod(n)=xhigh(n)cos(Ω0mod(n,Nmod))
其中mod(n,Nmod)称为模编址。如果调制频率Ω0被选定为1380Hz(参见上文)并且采样频率是11025Hz,那么仅有Nmod=8个余弦值是必需的。由于余弦调制还会导致向低频的频移,所以对调制信号xmod(n)施加第二高通滤波器103;
y high ( n ) = Σ k = 0 N hp , 2 b hp , 2 , k x mod ( n = k ) + Σ k = 1 N ~ hp , 1 a hp , 2 , k y high ( n - k )
第二高通滤波器的阶数可以但不必须等于第一高通滤波器的情况。然而,在这种情况下也希望选取
N hp , 2 = N ~ hp , 2 = 6
高通滤波器已经被设计成使得转变范围从大约3400Hz开始。图2(虚线)显示第二高通滤波器的频率响应的模。也可以采用其它的转变范围,特别是取决于所接收到的听觉信号的带宽的转变范围。
在模块104中,通过对所接收到的听觉信号x(n)施加非线性二次特性曲线,可以获得低频扩展信号。在模块105中,确定这个非线性特性曲线的系数。为此,首先估计所接收到的听觉信号的模的短时最大值xmax(n)。这样可以递归进行:
x max ( n ) = max { k max | x ( n ) | , k inc x max ( n - 1 ) } , if | x ( n ) | > x max ( n - 1 ) , κ dec x max ( n - 1 ) else .
对于在该估计中使用的常数κdec和κinc而言,可以采用下列条件:
0<κdec<1<κinc
常数κmax可以从以下区间中选择
0.25<κmax<4。
举例来说,可以选择以下特定值:
κmax=0.8,
κinc=1.05,
κdec=0.995。
根据特定实例,非线性特性曲线可以是带有随时间变化的系数的二次特性曲线。
xnl(n)=c2(n)x2(n)+c1(n)x(n)。
相应地采用何种非线性特性曲线,非线性容许产生不存在的频率的信号分量。使用功率特性允许由基频的倍频组成的信号分量仅产生谐波或者丢失的基波。
一般地,系数不必须是随时间变化的。然而,当使用随时间变化的系数时,可以补偿因特性曲线引起的信号动态的改变。特别地,系数可以适合于当前输入信号,以便仅允许从输入信号到输出信号发生小的功率改变。举例来说,系数可以挑选如下:
c 2 ( n ) = K nl , 2 g max x max ( n ) + ϵ ,
c1(n)=Knl,1-c2(n)xmax(n)。
常数ε的作用是为了避免被零除。其它常数可以取以下示例值:
Knl,1=1.2,
Knl,2=1,
gmax=2,
ε=10-5
自适应二次特性曲线的输出信号xnl(n)包括所期望的低频信号分量。然而,此外,可以存在电话波段的附加分量(诸如300Hz和3400Hz之间)以及低于基本语音频率(诸如低于100Hz)的附加分量。为了消除这些分量,在模块106中进行带通滤波。
具体地,使用IIR滤波器(诸如,一阶Butterworth滤波器)可以消除低频干扰。这种高通滤波器的输出信号是
x ~ nl ( n ) = b hp ( x nl ( n - 1 ) - x nl ( n ) ) + a hp x ~ nl ( n - 1 )
其中滤波器系数可以取以下值
ahp=0.95,
bhp=0.99。
可以使用更高阶的IIR滤波器来消除高频(诸如电话频带)的信号分量:
y low ( n ) Σ i = 0 N lp b hp , i x ~ nl ( n - i ) + Σ i = 1 N ~ lp a hp , i y low ( n - i )
举例来说,可以采用阶数为 N lp = N ~ lp = 4 , . . . , 7 的Chebyshev低通滤波器。
这种高通滤波器和低通滤波器的组合得到了一个具有例如图3所示的频率响应的带通滤波器。
当合并所接收到的听觉信号和高频扩展信号和/或低频扩展信号时,可以考虑所接收到的听觉信号是否包括所需信号分量(诸如语音信号)。此外,也可以考虑所接收到的听觉信号中的干扰。有鉴于此,将所接收到的听觉信号、高频扩展信号和/或低频扩展信号的加权总和作为得到的带有扩展带宽的输出信号。优选地,将权重选择为随时间变化的。
在下文中将讨论用于适当权重的实例。对于这些示例性权重,将使用所接收到的听觉信号的短时功率估计值和高频扩展信号的短时功率估计值。
为此目的,对信号x(n)和xhigh(n)的模进行一阶IIR平滑:
x ( n ) ‾ = β x | x ( n ) | + ( 1 - β x ) x ( n - 1 ) ‾ ,
x high ( n ) ‾ = β x | x high ( n ) | + ( 1 - β x ) x high ( n - 1 ) ‾ .
时间常数βx被选为:
0<βx≤1。
特别地,该常数的值可以取0.01。根据这些短时平滑值,噪声电平的估计值可以被确定为:
b ( n ) ‾ = max { b min , min { x ( n ) , ‾ b ( n - 1 ) ‾ ( 1 + ϵ ) } } ,
b high ( n ) ‾ = max { b min , min { x high ( n ) ‾ , b high ( n - 1 ) ‾ ( 1 + ϵ ) } } .
在这种情况下,常数ε应当满足
0<ε<<1。
特别地,该常数可以取值为0.00005。
上述等式中的常数bmin将避免估计值达到0值并停在该点处。如果信号用16位量化,那么它们处于幅度范围:
-215≤x(n)<215
对于该调制范围,可以选择bmin=0.01。图4的上方的图示出了输入信号(接收到的听觉信号)的实例。在下方的图中,示出了接收信号的估计的短时功率和得到的噪声功率估计值
Figure S2008100030730D00126
(虚线)。
现在可以用通过这种方法估计的短时功率来确定用于加权信号分量的不同因子。第一因子gsnr(n)是估计的信噪比的函数。在语音通道的情况下,这个因子用来衰减高频扩展信号,即,在信噪比低的情况下。在语音信号具有高信噪比的情况下,不进行或者几乎不进行衰减。例如,这可以通过以下来实现
g snr ( n ) = β snr g snr , max + ( 1 - β snr ) g snr ( n - 1 ) , if x ( n ) ‾ > k snr b ( n ) ‾ , β snr g snr , min + ( 1 - β snr ) g anr ( n - 1 ) , else .
参数gx,max和gsnr,min对应于最大衰减和最小衰减。举例来说,这些参数可以取值如下:
gsnr,max=1
gsnr,min=0.3。
作为转换衰减值的阈值,已经选择
Ksnr=3。
换句话说,为了减少衰减,估计的信号功率必须超过估计的噪声功率大约10dB。IIR平滑的时间常数从以下区间中选择
0<βsnr≤1
以便获得稳定的平滑滤波器。具体地,这个常数可以选为0.005。
图5示出了输入信号x(n)(上方的图)和以dB为单位的所产生的衰减因子gsnr(n)的实例。可以看出,在语音停顿期间,衰减增大。
为了获得更自然的输出信号,采用第二因子gnoise(n)来解释高输入背景噪声电平。如果高频扩展信号中的噪声电平超过预定阈值,那么这个第二因子gnoise(n)增大。此外,可以实现滞后以避免该因子改变过大。
举例来说,该因子gnoise(n)可以确定如下
g noise ( n ) = min { 1 , g noise ( n - 1 ) &Delta; inc } , if b high ( n ) &OverBar; < b 0 &OverBar; k b , max { g noise , min , g noise ( n - 1 ) &Delta; dec } , if b high ( n ) &OverBar; k b > b 0 &OverBar; , g noise ( n - 1 ) , else .
常数gnoise,min对应于最大衰减,取值为40dB,换句话说,
gnoise,min=0.01。
对于大约6dB的滞后,必须取
Kb=1.4
附加因子满足
0<Δdec<1<Δinc
根据优选实例,可以采取
Δdec=0.9999,
Δinc=1.0001。
通过这种方式,获得约10dB/s的最大校正。
在大部分信号功率处于低频的情况下,可采用第三因子ghlr(n)来作用于高频扩展信号,以对高频扩展信号进行衰减。这可以通过以下来实现
g hlr ( n ) = &beta; hlr g hlr , max + ( 1 - &beta; hlr ) g hlr ( n - 1 ) , if x ( n ) &OverBar; < k hlr x high ( n ) , &OverBar; &beta; hlr g hlr , min + ( 1 - &beta; hlr ) g hlr ( n - 1 ) , else .
在这个IIR平滑中的衰减值被选为
ghlr,max=1
ghlr,min=0.1。
对于所接收到的听觉信号的估计信号功率与高频功率
Figure S2008100030730D00143
的比值而言,采用的阈值为
Khlr=15。
如上述第一阶IIR平滑滤波器的情况,从以下区间中选出平滑常数βhlr
0<βhlr≤1。
特别地,常数可以取以下值:
βhlr=0.0005。
除了对高频扩展信号加权之外,也可以对所接收到的听觉信号的频带中的信号进行加权或者修改。这样将产生更谐调的带有扩展带宽的信号。通过带有两个随时间变化的系数的FIR滤波器,根据以下关系式,可以实现对所接收到的听觉信号x(n)的这种修改或者加权
ytel(n)=h0(n)x(n)+h1(n)x(n-1)
根据以下关系式,滤波器的系数相互依赖
h 0 ( n ) = 1 1 - a g h ( n )
h1(n)=1-h0(n)。
以这种方式,在模块108中执行在时间n和时间n-1所接收到的听觉信号的加权求和。如同用于其它信号部分的因子的情况那样,在模块107中确定用于该处理的权重。
滤波器108可以表现出小的高通特性曲线,该特性曲线可以通过参数a和随时间变化的因子gh(n)而进行激活或者使之无效。可以从以下区间中挑选参数a
0.2<a<0.8
小的a值仅在高频中产生小的增量,而大的a值则产生大的增量。因子gh(n)可以选为
gh(n)=gsnr(n)gnoise(n)。
这样,仅在语音活动期间并且仅对带有低噪音电平的所接收到的听觉信号激活滤波器108。这种带有不同因子gh(n)的参数a=0.3的滤波器特性曲线的实例如图6中所示。
低频扩展信号ylow(n)也可以使用随时间变化的因子glow(n)进行加权:
glow(n)=glow,fixgsmr(n);
其中常数因子glow,fix是在以下范围之间作出选择
0≤glow,fix≤10。
举例来说,因子glow,fix可以取值为2。
由所接收到的听觉信号进行上述处理得到扩展带宽,表现出这种扩展带宽的输出信号是修改后的输入信号(修改后的接收到的听觉信号)ytel(n)、低频扩展信号ylow(n)和高频扩展信号yhigh(n)的加权总和;
y(n)=ytel(n)+glow(n)ylow(n)+ghigh(n)yhigh(n)。
用于高频扩展信号的整个因子可以选择为
ghigh(n)=ghigh,fixg2 snr(n)gnoise(n)ghfr(n)。
也可以从以下区间中挑选常数因子ghigh,fix
0≤ghigh,fix≤10。
举例来说,ghigh,fix=4。
图7示出了上述方法的实例。在该图的上方图中,示出了对通过GSM电话接收到的信号x(n)进行的时频分析。可以看出,不存在低于约200Hz和高于约3700Hz的频率分量。
一旦执行提供高频扩展信号和低频扩展信号的上述方法,即可重构丢失的频率分量。在图7的下方图中,示出了对输出信号y(n)的时频分析。
应当理解,上述方法和装置的不同部分和部件可以相互独立地实现,也可以组合成不同形式。此外,应当仅将上述实施例理解为示例性的实施例。

Claims (21)

1.一种用于从听觉信号生成扩展带宽听觉信号的方法,包括提供高频扩展信号,所述高频扩展信号用于在高频对所接收到的听觉信号进行扩展,其中提供所述高频扩展信号包括:
使用第一高通滤波器对所接收到的听觉信号进行高通滤波;
通过余弦调制将至少高于预定频率下限值和/或低于预定频率上限值的所接收到的经过高通滤波的听觉信号偏移预定的移频值,以获得偏移信号;
使用第二高通滤波器对偏移信号进行高通滤波,其中所述第二高通滤波器的截止频率对应于所述第一高通滤波器的截止频率加上预定的移频值;
基于所述接收到的听觉信号和所述高频扩展信号,通过提供所接收到的听觉信号和所述高频扩展信号的加权总和,来合并所接收到的听觉信号和所述高频扩展信号,生成所述扩展带宽听觉信号。
2.如权利要求1所述的方法,其中使用包括Chebyshev和/或Butterworth的递归滤波器,对所接收到的听觉信号进行高通滤波和/或对所述偏移信号进行高通滤波。
3.如权利要求1所述的方法,其中所述加权总和的权重是随时间变化的。
4.如权利要求1所述的方法,其中所述高频扩展信号用第一因子来加权,其中所述第一因子是所接收到的听觉信号的估计信噪比的函数。
5.如权利要求4所述的方法,其中所述第一因子是所接收到的听觉信号的估计信噪比的单调递增函数。
6.如权利要求1所述的方法,其中所述高频扩展信号用第二因子来加权,其中所述第二因子是所述高频扩展信号中的估计噪声电平的函数。
7.如权利要求6所述的方法,其中所述第二因子是所述高频扩展信号中的估计噪声电平的单调减函数。
8.如权利要求4所述的方法,其中基于短时信号功率,对估计信噪比进行估计。
9.如权利要求1所述的方法,其中所述高频扩展信号用第三因子来加权,其中基于所接收到的听觉信号的估计信号电平与所述高频扩展信号的估计信号电平的比值,对所述第三因子进行控制。
10.如权利要求9所述的方法,其中所述第三因子是所接收到的听觉信号的估计信号电平与所述高频扩展信号的估计信号电平的比值的单调递增函数。
11.如权利要求1所述的方法,其中通过提供在当前时间和当前时间减去一个时间步长处所接收到的听觉信号的加权总和,来对所接收到的听觉信号进行加权。
12.如权利要求11所述的方法,其中在当前时间和当前时间减去一个时间步长处所接收到的听觉信号的加权总和的权重是所接收到的听觉信号的估计信噪比和/或所述高频扩展信号中的估计噪声电平的函数。
13.如权利要求1所述的方法,进一步包括提供低频扩展信号,所述低频扩展信号用于在低频对所接收到的信号进行扩展。
14.如权利要求13所述的方法,其中提供低频扩展信号包括对所接收到的听觉信号施加非线性的特性曲线。
15.如权利要求14所述的方法,其中提供低频扩展信号包括对所接收到的听觉信号施加二次的特性曲线。
16.如权利要求14所述的方法,其中所述非线性特性曲线是随时间变化的。
17.如权利要求14所述的方法,其中在施加非线性特性曲线之后对产生的信号进行带通滤波。
18.如权利要求13所述的方法,进一步包括通过提供所接收到的听觉信号和所述低频扩展信号的加权总和,来合并所接收到的听觉信号和所述低频扩展信号。
19.如权利要求18所述的方法,其中所述低频扩展信号用第四因子来加权,其中所述第四因子是所接收到的听觉信号的估计信噪比的函数。
20.如权利要求6所述的方法,其中基于短时信号功率,对估计噪声电平进行估计。
21.一种用于从听觉信号生成扩展带宽听觉信号的装置,包括用于提供高频扩展信号的装置,所述高频扩展信号用于在高频对所接收到的听觉信号进行扩展,其中,所述用于提供高频扩展信号的装置包括:
用于使用第一高通滤波器对所接收到的听觉信号进行高通滤波的装置;
用于通过余弦调制将至少高于预定频率下限值和/或低于预定频率上限值的所接收到的经过高通滤波的听觉信号偏移预定的移频值,以获得偏移信号的装置;
用于使用第二高通滤波器对偏移信号进行高通滤波的装置,其中所述第二高通滤波器的截止频率对应于所述第一高通滤波器的截止频率加上预定的移频值;和
用于基于所述接收到的听觉信号和所述高频扩展信号,通过提供所接收到的听觉信号和所述高频扩展信号的加权总和,来合并所接收到的听觉信号和所述高频扩展信号从而生成所述扩展带宽听觉信号的装置。
CN2008100030730A 2007-01-18 2008-01-18 用于提供带有扩展带宽的听觉信号的方法和装置 Expired - Fee Related CN101226746B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP07001062.4 2007-01-18
EP07001062.4A EP1947644B1 (en) 2007-01-18 2007-01-18 Method and apparatus for providing an acoustic signal with extended band-width

Publications (2)

Publication Number Publication Date
CN101226746A CN101226746A (zh) 2008-07-23
CN101226746B true CN101226746B (zh) 2013-12-25

Family

ID=38053436

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008100030730A Expired - Fee Related CN101226746B (zh) 2007-01-18 2008-01-18 用于提供带有扩展带宽的听觉信号的方法和装置

Country Status (6)

Country Link
US (1) US8160889B2 (zh)
EP (1) EP1947644B1 (zh)
JP (1) JP2008176328A (zh)
KR (1) KR101424005B1 (zh)
CN (1) CN101226746B (zh)
CA (1) CA2618316C (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010079275A (ja) * 2008-08-29 2010-04-08 Sony Corp 周波数帯域拡大装置及び方法、符号化装置及び方法、復号化装置及び方法、並びにプログラム
GB2466201B (en) 2008-12-10 2012-07-11 Skype Ltd Regeneration of wideband speech
US9947340B2 (en) 2008-12-10 2018-04-17 Skype Regeneration of wideband speech
GB0822537D0 (en) 2008-12-10 2009-01-14 Skype Ltd Regeneration of wideband speech
JP5126145B2 (ja) * 2009-03-30 2013-01-23 沖電気工業株式会社 帯域拡張装置、方法及びプログラム、並びに、電話端末
US9443534B2 (en) 2010-04-14 2016-09-13 Huawei Technologies Co., Ltd. Bandwidth extension system and approach
JP5552988B2 (ja) * 2010-09-27 2014-07-16 富士通株式会社 音声帯域拡張装置および音声帯域拡張方法
US20130346073A1 (en) * 2011-01-12 2013-12-26 Nokia Corporation Audio encoder/decoder apparatus
SG10201710507RA (en) * 2013-06-19 2018-01-30 Creative Tech Ltd Acoustic feedback canceller
EP2871641A1 (en) * 2013-11-12 2015-05-13 Dialog Semiconductor B.V. Enhancement of narrowband audio signals using a single sideband AM modulation
US9564141B2 (en) * 2014-02-13 2017-02-07 Qualcomm Incorporated Harmonic bandwidth extension of audio signals
US9837089B2 (en) 2015-06-18 2017-12-05 Qualcomm Incorporated High-band signal generation
US10847170B2 (en) 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
TW201709155A (zh) * 2015-07-09 2017-03-01 美高森美半導體美國公司 音響警報偵測器
US11227622B2 (en) 2018-12-06 2022-01-18 Beijing Didi Infinity Technology And Development Co., Ltd. Speech communication system and method for improving speech intelligibility
CN114584902B (zh) * 2022-03-17 2023-05-16 睿云联(厦门)网络通讯技术有限公司 一种基于音量控制的对讲设备非线性回音消除方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0732687A2 (en) * 1995-03-13 1996-09-18 Matsushita Electric Industrial Co., Ltd. Apparatus for expanding speech bandwidth
CN1272259A (zh) * 1997-06-10 2000-11-01 拉斯·古斯塔夫·里杰利德 采用频带复现增强源编码
CN1639770A (zh) * 2002-03-28 2005-07-13 杜比实验室特许公司 根据频率变换重建具有不完全频谱的音频信号的频谱
CN1750124A (zh) * 2004-09-17 2006-03-22 哈曼贝克自动系统股份有限公司 带限音频信号的带宽扩展
CN1893412A (zh) * 2005-06-28 2007-01-10 哈曼贝克自动系统-威美科公司 谐波信号的频率扩展

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
US6889182B2 (en) * 2001-01-12 2005-05-03 Telefonaktiebolaget L M Ericsson (Publ) Speech bandwidth extension
SE522553C2 (sv) * 2001-04-23 2004-02-17 Ericsson Telefon Ab L M Bandbreddsutsträckning av akustiska signaler
JP2005501278A (ja) 2001-08-31 2005-01-13 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声信号の帯域幅拡張
US6988066B2 (en) * 2001-10-04 2006-01-17 At&T Corp. Method of bandwidth extension for narrow-band speech
JP2005010621A (ja) 2003-06-20 2005-01-13 Matsushita Electric Ind Co Ltd 音声帯域拡張装置及び帯域拡張方法
JP2005037650A (ja) * 2003-07-14 2005-02-10 Asahi Kasei Corp 雑音低減装置
US8036394B1 (en) * 2005-02-28 2011-10-11 Texas Instruments Incorporated Audio bandwidth expansion
US20070005351A1 (en) * 2005-06-30 2007-01-04 Sathyendra Harsha M Method and system for bandwidth expansion for voice communications
CA2558595C (en) * 2005-09-02 2015-05-26 Nortel Networks Limited Method and apparatus for extending the bandwidth of a speech signal
US20070299655A1 (en) * 2006-06-22 2007-12-27 Nokia Corporation Method, Apparatus and Computer Program Product for Providing Low Frequency Expansion of Speech

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0732687A2 (en) * 1995-03-13 1996-09-18 Matsushita Electric Industrial Co., Ltd. Apparatus for expanding speech bandwidth
CN1272259A (zh) * 1997-06-10 2000-11-01 拉斯·古斯塔夫·里杰利德 采用频带复现增强源编码
CN1639770A (zh) * 2002-03-28 2005-07-13 杜比实验室特许公司 根据频率变换重建具有不完全频谱的音频信号的频谱
CN1750124A (zh) * 2004-09-17 2006-03-22 哈曼贝克自动系统股份有限公司 带限音频信号的带宽扩展
CN1893412A (zh) * 2005-06-28 2007-01-10 哈曼贝克自动系统-威美科公司 谐波信号的频率扩展

Also Published As

Publication number Publication date
US20080195392A1 (en) 2008-08-14
JP2008176328A (ja) 2008-07-31
KR101424005B1 (ko) 2014-08-01
EP1947644A1 (en) 2008-07-23
US8160889B2 (en) 2012-04-17
CA2618316C (en) 2016-05-03
CN101226746A (zh) 2008-07-23
KR20080068560A (ko) 2008-07-23
CA2618316A1 (en) 2008-07-18
EP1947644B1 (en) 2019-06-19

Similar Documents

Publication Publication Date Title
CN101226746B (zh) 用于提供带有扩展带宽的听觉信号的方法和装置
US6694018B1 (en) Echo canceling apparatus and method, and voice reproducing apparatus
US9245533B2 (en) Enhancing performance of spectral band replication and related high frequency reconstruction coding
EP2144232B1 (en) Apparatus and methods for enhancement of speech
US6856653B1 (en) Digital signal sub-band separating/combining apparatus achieving band-separation and band-combining filtering processing with reduced amount of group delay
KR100517229B1 (ko) 적응형 필터링에 의해 고주파 복원 코딩 방법의 인식성능을 향상시키기 위한 방법 및 장치
US9203972B2 (en) Efficient audio signal processing in the sub-band regime
CN101336451B (zh) 音频信号编码的方法和装置
JP4777918B2 (ja) 音声処理装置及び音声を処理する方法
EP2374126B1 (en) Regeneration of wideband speech
CN102652336B (zh) 声音信号复原装置以及声音信号复原方法
EP1772855A1 (en) Method for extending the spectral bandwidth of a speech signal
JP3881946B2 (ja) 音響符号化装置及び音響符号化方法
JP2004101720A (ja) 音響符号化装置及び音響符号化方法
KR101398189B1 (ko) 음성수신장치 및 음성수신방법
KR20070000995A (ko) 고조파 신호의 주파수 확장 방법 및 시스템
CN101141533A (zh) 用于提供具有扩展带宽的声音信号的方法和系统
JP2010055002A (ja) 信号帯域拡張装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: NEW ANST COMMUNICATION CO., LTD.

Free format text: FORMER OWNER: HAMANBECK AUTOMATED SYSTEMS CO., LTD.

Effective date: 20100421

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: KARLSBAD, GERMANY TO: MASSACHUSETTS STATE, U.S.A

TA01 Transfer of patent application right

Effective date of registration: 20100421

Address after: Massachusetts, USA

Applicant after: Nuance Communications Inc

Address before: Carlsbad

Applicant before: Harman Becker Automotive Sys

C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20131225

Termination date: 20170118

CF01 Termination of patent right due to non-payment of annual fee