CN101390159A - 在解码器和相应设备中可靠识别和衰减数字信号中的回声的方法 - Google Patents

在解码器和相应设备中可靠识别和衰减数字信号中的回声的方法 Download PDF

Info

Publication number
CN101390159A
CN101390159A CNA2007800060231A CN200780006023A CN101390159A CN 101390159 A CN101390159 A CN 101390159A CN A2007800060231 A CNA2007800060231 A CN A2007800060231A CN 200780006023 A CN200780006023 A CN 200780006023A CN 101390159 A CN101390159 A CN 101390159A
Authority
CN
China
Prior art keywords
echo
signal
frequency band
present frame
index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2007800060231A
Other languages
English (en)
Other versions
CN101390159B (zh
Inventor
巴拉斯·克韦希
阿兰·乐居亚代
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of CN101390159A publication Critical patent/CN101390159A/zh
Application granted granted Critical
Publication of CN101390159B publication Critical patent/CN101390159B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B3/00Line transmission systems
    • H04B3/02Details
    • H04B3/20Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

本发明涉及一种用于对由变换编码所产生的数字音频信号的回声进行经训练的识别和衰减的方法,该方法包括对于该信号的每一当前帧的以下步骤:在至少一个频带中,将从回声产生信号的一个特征得到的变量与从无回声产生信号的一个特征得到的变量在一个阈值处进行实时比较(A),由此推断从变换编码所得到的回声的存在(B)或者不存在(C),识别回声的存在并且限定数字音频信号的高能量部分中的错误报警区(D),确定一初始处理并且衰减与低能量错误报警区互补的各部分中的回声(E),阻止对错误报警区中回声的衰减。本发明可用于编码器/解码器的技术,尤其是分级编码器/解码器。

Description

在解码器和相应设备中可靠识别和衰减数字信号中的回声的方法
本发明涉及一种用于在解码器和相应设备中可靠识别和衰减数字信号中的回声的方法和设备。
对于数字音频信号在不论是固定、移动还是广播网络的传输网络中的传输,或者对于这些信号的存储来说,使用压缩过程来实现(可能是预测的)时间编码型或者所谓变换编码型的编码系统。
本发明的主题的方法和设备可应用于声音信号的压缩,这些声音信号特别是编码数字音频信号和语音信号,编码数字音频信号的帧是由乐器所产生的声音增大和/或减小的源,语音(voice)信号包括爆破音节,特别地,本发明的主题的方法和设备可应用于包括时域(预测的或其他)解码器和逆频率变换解码器多层解码设备。
图1示例性示出了根据现有技术通过变换和相加/叠加来编码和解码数字音频信号的示意图。
对上述编码和解码过程的更详细的说明,可以参考例如对于本申请人在2005年7月12日提交的0507471号法国专利申请的说明书介绍。
一些乐音,例如敲打声和某些语音序列例如爆破音节,其特征是具有非常突然的冲击(abrupt attack),反映为几个样本的空间(图1中从样本410开始)内采样信号的动态范围中非常强烈变化下的非常迅速的转变(transitions)。
变换编码所采用的将样本细分为连续的块的方式完全独立于该声音信号,因此这些转变出现在分析窗口中的任意点。现在,在变换编码中,噪声以时间顺序不均匀地分布在长度为2L的采样块的整个时间段。这反映为该转变之前的前回声(pre-echoes)的出现和该转变之后的后回声(post-echoes)的出现。
该噪声水平低于紧接在转变后的高能量样本的信号的噪声水平,但是高于低能量样本的信号的噪声水平,特别是显著高于该转变前的那部分(图1中的样本160—410)。对于上述部分,信噪比非常不好,并且命名为前回声的所导致的劣化可能非常讨厌。
从图1中可见,该前回声会影响该转变前的帧和其中发生转变的帧。
在实践中,在该冲击的生理传导之前,人耳应用一种相对有限的几毫秒级的前屏蔽(pre-masking)。
当该前回声的时长大于该前屏蔽时长时,所产生的噪声或前回声是可以听到的。
人耳还对从高能序列到低能序列的转变应用一种更长时间段即5—60毫秒的后屏蔽(post-masking)。因此,后回声可以被忍受的讨厌级别或水平大于前回声。
当根据样本数的各块的长度增加时,更严重的前回声现象更讨厌。现在,在变换编码中,需要有对最重要频率区的精确分辨。在固定采样频率和固定比特率的情况下,如果窗口的点数增加,那么就有更多比特可用于对被音质模型(psycho-acoustic model)认为有用的频率行编码,因而具有使用较长长度块的优点。当执行一个编码过程例如AAC(高级音频编码)时,较长长度的窗口包含固定数量2048个样本,即在采样频率为32kHz时64ms时长上的样本。用于对话应用的编码器经常使用一窗口,其具有16kHz下的40ms时长,和20ms的帧更新时长。
为了减小上述前回声现象的讨厌影响以及将后回声现象的讨厌影响减小到更小程度,至今已经提出了各种解决方案。
第一种方案需要应用滤波。在由于冲击而发生的传输之前的区中,重建的信号实际上是由原始信号和叠加在该信号上的量化噪声构成的。
在Y.Mahieux和J.P.Petit于1994年11月发表于IEEE Trans onCommunications Vol 42 No.11上的、题目为High Quality Audio TransformCoding at 64 kbits的文章中描述了相应的滤波技术。
实施这种滤波需要知道各参数,其中一些参数在解码器上根据噪声影响的样本来估计。然而,有些信息例如原始信号的能量仅能由编码器知道,因此必须被传输。当接收的块包含动态范围的突变时,对其进行滤波处理。
上述滤波过程不能重新得到原始信号,而是显著减小了前回声。然而,它要求将额外的辅助参数传输到解码器。
第二种方案涉及通过动态切换各窗口来减小前回声。
在授予B.Edler的美国专利5214742中描述了这种技术。这种方案已经成为根据国际标准的各种音频编码方案的应用主题。
根据这种方案,由于信号的时间和频率分辨率严重依赖于编码窗口的长度,所以频率编码器在用于静态信号的长窗口(例如2048个样本)与用于动态范围大幅变化的信号或瞬时信号的短窗口(例如256个样本)之间切换。这种适应在AAC模块中执行,在编码器上逐帧进行判定。
该第二种方案的一个缺点是它包括N/2样本数级的额外延迟,因为如果转变是在下一窗口中开始,它就必须能够准备该转变并且调节到使它能够保持完美重建的转变窗口。
然而,当解码器包括几个时间解码阶段(可能是预测的)和变换解码阶段时,在分级编码器中很容易实现回声的减小。在这种情况下,可以使用该时间解码阶段来检测回声。在K.Kikuiri等的美国专利申请2003/0154074中介绍了这种解码的例子。
上述美国专利申请描述的现有技术已知的方法包括,基于解码的CELP基础核心信号排他地执行前回声检测,CELP表示码激励线性预测(Code ExcitedLinear Prediction)。
因此,这种方法不能使得基于所附的信息以及与来自时间解码器和变换解码器的重建帧同步地进行前回声减小处理。
上述法国专利申请0507471使得能够识别回声的存在,以及衰减由来自产生回声的变换编码和不产生回声的时间编码的多层分级编码所产生的数字音频信号的回声。在这一专利申请中,在解码中,对于该数字音频信号的每一当前帧,将由产生回声的解码所获得的信号幅度与由不产生回声的解码所获得的信号幅度之比值与一个阈值进行实时比较。如果该比值大于或等于该阈值,就可以推断在当前帧中存在由变换编码得到的回声。否则,如果该比值小于该阈值,就可以推断在当前帧中不存在由变换编码得到的回声。
图2a和2b描述了这种方法,其对应于上述专利申请的图3a和3b。在下文对于本专利申请说明书的介绍中,括号中的图号表示为了参考目的而引入到本申请中的该法国专利申请0507471中的图号。
图2a描述了一种分级解码器,包括称为“预测解码层i”的多个不产生回声的解码器,以及称为“变换解码层j”的多个变换解码器。
图2b(图3b)描述了用于识别回声的设备1,其以从时间解码器获得的解码信号和从变换解码器获得的信号作为输入。该回声设备的输出通过衰减相加/叠加输出中的解码信号来控制回声衰减设备2。
图2c(图3c)显示了如何计算分别从时间解码器和变换解码器获得的各信号的时间包络以及回声存在标志(flag)。
图2d(图3e)示出了如何通过将该相加/叠加输出信号乘以一个增益g(k)而在回声存在的时间段上执行回声衰减,该增益g(k)等于该时间信号的包络与变换解码信号的包络的比。
g(k)=Min(EnvPi(k)/EnvTj(k),1)
在该图中,当POS的值为零时,在整个帧上执行前回声处理。
图2e(图11)描述了在多层系统中识别回声的原理,其中以一种非限制方式在两个频率子带中执行回声的识别及其衰减。
在这一例子中,通过对时间信号xPi(n)进行时间滤波,或者通过将该时间信号变换为MDCT系数然后处理该MDCT系数(将该MDCT系数设置为零、相加、替换等)并且最后进行逆MDCT变换后对每个子带相加/叠加,从而在MDCT(修正的离散余弦变换Modified Discrete Cosine Transform)频域中进行滤波,这样来执行信号滤波操作。
上述法国专利申请0507471所描述的方法和设备针对前述现有技术的缺点提供了一种解决方案。
在法国专利申请0507471中所述的方案中,为了修正回声衰减设备的误触发,在编码器上使用一个预测该回声衰减设备的触发的过程。
更具体地说,由于编码器具有要被变换编码的信号,所以在编码器上对该未量化的信号进行回声识别,并且由于编码器不易发生前回声,所以任何触发都可以被确认是错误。在该编码器上检测回声,如果有一异常检测,那么就在该帧中传输一个标志以阻止在解码器上衰减回声。
本发明的目的是避免误触发回声衰减设备的情况,一方面不需要从编码器传输一个特别辅助指示,另一方面是不需要在编码中引入额外的复杂性。
此外,本发明的另一目的是,在没有从编码器传输错误报警指示的情况下,使得能够与冲击的出现同步来阻止回声的衰减,这是现有技术的设备中不能实现的,因为时间编码器一般不能立即对冲击作出反应。
此外,本发明的另一目的是,避免在从变换解码器获得的信号具有恒定动态范围时误触发回声衰减设备,这时由于没有冲击而不需要激活回声衰减设备,这与现有技术的设备不同,在现有技术的设备中,当时间解码器解码的信号相对于变换解码器解码的信号较弱时,回声衰减设备受到触发。
本发明的另一目的是提供一种在低数据率被分配到时间编码器从而不能对全部输入信号正确编码的情况下的实现方式。
一个可以引用的例子是现有技术的某些时间编码器在信号的减少的频带4000到7000Hz中工作的情况,这些编码器不能正确编码该频带中存在的正弦曲线。所以时间编码器输出的信号较弱,并且错误地激活回声衰减而产生严重的编码劣化。
本发明的另一目的是还提供在多层解码器中可靠识别和衰减数字信号的回声的方法和设备的实现方式,其使得能够防止前一帧中存在冲击时错误地阻止后回声的衰减。
本发明的主题,即用于识别和衰减由产生回声的变换编码生成的数字音频信号的回声的方法,其值得注意的地方是,它包括至少在解码中的、对于该数字音频信号的每一当前帧的以下步骤:识别转变到高能量区的转变之前的低能量区,限定与当前帧的未识别区对应的错误报警区,利用衰减增益值确定回声的初始处理,根据对当前帧的所识别的低能量区中回声进行的初始处理来衰减回声,阻止错误报警区中该初始处理中对回声的衰减。
本发明主题的方法使得能够消除回声,前回声和后回声,而不会导致由冲击产生的高能量信号劣化。
在下文中,参照图2f,使用以下符号和以下等式:
xrec(n)=h(n+L)xprev(N+L)+h(n)xcur(n)其中n∈[0,L-1]
在变换编码器中,通过将前一帧的MDCT系数的逆MDCT输出的第二部分(xprev(n),n=L到2L-1)与当前帧的MDCT系数的逆MDCT输出的第一部分(xcur(n),n=0到L-1)加权相加,获得当前帧的重建信号(xrec(n),n=0到L-1)。当前帧的MDCT系数的逆MDCT输出的第二部分(xcur(n),n=L到2L-1)将被保留在存储器中以用于获得下一帧的重建信号。在下文中,为了简单起见,将使用术语“当前帧的第一部分”、“当前帧的第二部分”、“当前帧的重建信号”。因此,在下一帧中,当前帧的第二部分成为前一帧的第二部分。
特别地,对于位于当前帧第一部分或第二部分中的冲击,本发明主题的方法包括:由当前帧的重建信号和当前帧的第二部分的信号生成拼接信号,将该拼接信号分割成偶数个确定长度的样本子块,计算确定长度的子块中每个子块的信号能量,计算代表最大能量样本的序号(rank)的第一指数(index)和代表最后高能量样本的第二指数,计算数字音频信号的偶数个子块的一半数量的第一子块中的最小能量,以及当该最大能量与最小能量的比大于一个确定阈值时,就表明仅在该信号的低能量部分中有前回声的风险,阻止对序号处于第一指数和第二指数之间的高能量样本进行任何衰减动作。
确定第一指数和第二指数使得能够将与高能量信号对应的错误报警范围限定在后者之间,其中必须消除无意义的或者对信号有损害的回声衰减。
本发明的主题的用于在解码器中识别和衰减由多层分级编码器产生的数字音频信号的回声的设备中,该解码器包括至少一个不产生回声的时间解码器和至少一个能表现出回声的变换解码器,该设备值得注意之处是,该设备包括,至少在时间解码器和变换解码器上:识别转变到高能量区的转变之前的低能量区的装置,限定与当前帧的未识别区对应的错误报警区的装置,利用衰减增益值确定回声的初始处理的装置,根据应用到当前帧的所识别的低能量区的回声的初始处理而衰减回声的装置,和阻止初始处理中的回声的衰减应用到错误报警区的装置。
通过阅读本说明书和研究以下附图将能够更好地理解本发明,其中除了涉及如法国专利申请0507471中所述的现有技术的图1和图2a到2e,以及涉及现有技术的图2f:
—图3a借助图解示出了用于实现本发明主题的方法的各步骤的总体流程图;
—图3b示出了一个CELP预测/多层变换编码器中的数字音频信号的低频带的时间图,其中未进行回声衰减;
—图3c示出了具有图2b所示的现有技术进行的回声衰减一个CELP预测/多层变换编码器中的数字音频信号的低频带的时间图;
—图3d示出了具有回声衰减的激活和错误激活衰减的阻止的一个CELP/多层变换编码器中的音频信号的低频带的时间图;
—图4a借助图解示出了根据本发明的第一典型优选非限制实施例的、用于信号控制回声衰减的阻止的所述拼接信号;
—图4b借助图解示出了根据本发明的第二典型优选非限制实施例的、用于信号控制回声衰减的阻止的所述拼接信号;
—图4c示出了一个时间/多层变换解码器中的数字音频信号的高频带的时间图,其中未进行回声衰减,它是解码一个正弦曲线的情况;
—图4d示出了具有根据现有技术对回声衰减的激活的一个时间/多层变换解码器中的音频信号的高频带的时间图,它是解码一个正弦曲线的情况;
—图4e示出了具有根据本发明主题的方法对衰减的激活和对回声衰减的阻止的一个时间/多层变换解码器中的音频信号的高频带的时间图,它是解码一个正弦曲线的情况;
—图5借助图解示出了根据本发明的第一典型优选非限制实施例的、用于信号控制回声衰减的阻止的所述拼接信号;
—图6示出了变换编码和帧相加/叠加过程中后回声的产生;
—图7借助图解示出了根据本发明的主题的用于识别和衰减由多层分级编码器产生的数字音频信号的回声的设备的功能图,其配备有回声衰减和回声衰减阻止装置;
—图8a借助图解示出了用于计算前回声衰减阻止样本的范围的流程图;
—图8b借助图解示出了用于计算前回声和后回声衰减阻止样本的范围的时间图;
—图8c借助图解示出了实现前回声衰减阻止的流程图;
—图8d借助图解示出了增益因子平滑流程图;
—图9a借助图解示出了用于限定错误报警区的模块的框图;
—图9b借助图解示出了用于计算图9a的增益计算子模块中各增益的流程图。
现在将参照图2b和3a给出对于本发明主题的方法的更具体说明。
本发明主题的方法使得能够在对由包括变换编码和预测编码的多层分级编码生成的数字音频信号解码时,识别该数字音频信号中的回声。
参照图2b:
—xTj(n)表示由多层分级解码器的第j层变换解码器进行的逆变换解码得到的信号;
Figure A200780006023D00141
表示由相应的分级解码器的第i层预测解码器进行的预测解码得到的信号。该信号
Figure A200780006023D00142
可以是来自不产生回声的预测解码器的输出信号或者该信号的滤波后的形式,或者是该信号的短期能量表示。
参照图2a、图2b和图3a,应当指出的是,本发明主题的方法包括,在步骤A中,将从产生回声的解码得到的信号幅度与从不产生回声的解码得到的信号幅度之比值R(k)和阈值S进行实时比较。
在图3a中,从产生回声的解码得到的信号幅度被表示为EnvTj(k),从不产生回声的解码得到的信号幅度被表示为EnvPi(k)。
参照所指出的符号将会理解,特别是,从产生回声的解码得到的信号幅度和从不产生回声的解码得到的信号幅度可以有利地分别由回声产生解码信号xTj(n)和从无回声生成解码得到的信号
Figure A200780006023D00151
的包络信号表示。
在图3a中,幅度信号的获得由如下关系表示:
xTj(n)→EnvTj(k)
xPi a ( n ) → Env Pi ( k )
一般地,应当指出的是,分别从产生回声的解码得到的信号和从不产生回声的解码得到的信号的幅度信号不仅可以由上述包络信号表示,还可以由代表上述幅度的任何信号例如绝对值表示。
参照图3a,应当指出的是,从产生回声的解码得到的信号幅度与从不产生回声的解码得到的信号幅度之比值由如下关系表示:
R ( k ) = Env Tj ( k ) Env Pi ( k )       k=0,K-1
参照前述符号,应当指出的是,图3a的比较步骤A包括将比值R(k)与阈值S比较,应用大于(superiority)和等于比较。
如果上述比值大于或等于阈值S,正向响应于步骤A,那么上述测试使得能够在步骤B中推断出在当前帧中存在从变换编码得到的回声,于是在解码中表现出该回声。
在步骤B中,回声的存在由如下关系表示:
Figure A200780006023D00154
 回声xTj(n)
否则,负向响应于步骤A的测试,如果上述比值小于阈值S,那么步骤A的测试使得能够在步骤C中推断出在当前帧中不存在从变换编码得到的回声。
在步骤C中该关系由下式表示:
Figure A200780006023D00155
 回声xTj(n)
根据本发明主题的方法的实施例,以一种特别有利的方式,应当指出,当前帧中回声的原始位置实际上由当前帧中约等于阈值S的比值的位置给出。
上述值在图3a的步骤B中由以下关系式给出:
Pos k|R(k)=S
作为一般规则,关于图2b或3a中的步骤A的测试以及最终的测试C和B,特别是步骤A之后的步骤B,将会理解的是,该比值R(k)可以被计算为在当前帧上的平滑值,从而将上述比值与阈值S进行实时比较。当上述比值等于S的值时,回声的原始位置就由该解码信号在当前帧中的对应样本的序号k的特定值给出。
当回声存在时,步骤B之后是步骤D,步骤D包括识别表示为XTj(n)low的各低能量数字音频信号部分中回声的存在。相应的回声表示为EXTj(n)low。此外,步骤D使得能够根据上述识别来对应于当前帧的未识别区而限定一个错误报警区。
在步骤D中的识别之后,执行步骤E,步骤E包括利用衰减增益值来确定回声的初始处理和衰减各低能量数字音频信号部分中的回声。步骤E之后是步骤F,步骤F包括阻止在表示为XTj(n)hiw各高能量数字音频信号部分中衰减回声。
作为一般规则,可以通过在几个信号频带中执行回声的识别和衰减来实现本发明主题的方法,以两个频带的情况作为非限制性的例子:低频带[0-4kHz]和高频带[4-8kHz]。在该例子中,在信号的每个频带中应用时间/变换多层编码器。在低频带中,变换编码器量化原始信号和解码的CELP信号之间在感知域中的差别(在通过感知滤波器W(z)滤波之后),同时,在高频带中,它量化该原始信号而不进行感知滤波,并且在解码时,正确解码的频带替换从频带扩展模块提供的时间信号的MDCT得到的已经解码的频带。因此,对每个子频带的设备描述了本发明提供的相加。
图3b显示了在图2a所述类型的CELP预测/多层变换解码器中同步该信号的低频带时所涉及的音频信号。可以看出,该预测/CELP解码阶段不产生回声,与易发生样本n=0到n=85之间前回声形式的回声的出现的变换输出阶段(从TDAC(时域混叠消除Time Domain Aliasing Cancellation)解码器,具有完美重建的滤波器组输出信号)不同。由此,可以使用该CELP预测编码器的输出阶段结合变换解码阶段的输出,来衰减回声。
由解码的CELP信号与解码的变换信号相加而得到的最终输出信号本身也是同一回声现象的源。
当现有技术的回声衰减设备(例如图2b的设备)被激活时,获得图3c的信号。前三个图表示与图3b相同的信号。接着的三个图分别表示:
—具有在0和1之间的值的前回声处理增益(图2b中的矩形1)。
—在前回声处理之后从变换解码阶段输出的信号(TDAC解码器输出)。可以看出,虽然冲击之前的回声已经被消除,但是从变换解码器得到的冲击的部分被错误地衰减了。本发明主题地方法和设备的一个基本优点是克服了这个缺点。
—最终输出信号,来自CELP解码器的输出信号和来自TDAC解码器的输出的和,其不存在前回声,但是其冲击几乎消失,反映在听觉经验上就是该数字音频信号的劣化。
本发明主题的方法和设备使得能够修正如图3d所示的现有技术中对于变换解码阶段或者各阶段的输出的错误衰减。在该图中,音频输出与前面图中的相同。
通过比较图3c和3d,可以看出,本发明主题的方法使得能够阻止对于冲击时刻(样本80到120)的回声的衰减,同时消除该冲击之前的回声(见前回声处理增益)。这样的结果就是,在前回声的处理之后,在TDAC解码器的输出处恢复的信号不再有回声,获得了对于冲击的良好恢复。同样的处理应用到通过将该信号与CELP解码器的输出相加所得到的最终输出信号上,并且它也不再表现出回声。
现在将参照图4a和4b解释该回声处理增益产生过程。
如果存在回声,信号在MDCT窗口中的一部分的能量(冲击)一定显著大于其它部分的能量。回声在低能量部分被发现,所以仅需要衰减这些部分中的回声而不需要衰减高能量区中的部分。
有两种可能的情况:冲击位于当前帧或下一帧中。在第一种情况下,有错误衰减回声的风险。
参照图2f,图4a示出了样本n=0到2L-1的所述拼接信号。对于样本=n=0到n=L-1(L=160),它等于当前帧的重建信号,而对于样本n=L到n=2L-1,它等于当前帧的第二部分。在下一帧中,该第二部分变成前一帧,对应于信号xprev(n+L)。
本发明主题的回声衰减校正过程提供两个指数,ind1和ind2,表示其中需要阻止现有技术的设备的减小回声动作的可能区域的开始和结束。ind1>ind2表示在当前帧中不存在这种区。
现在将参照图4a和4b给出对本发明主题的方法的一个非限制性优选实施例的更具体说明。
根据上述实施例,如图4a所示,本发明主题的方法包括:
—将图4a的信号细分为2K2个长度为N2=L/K2的子块,
—计算图4a所示信号的长度为N2的每个子块的能量。应当注意的是,由于该信号后一半的对称性,仅必须计算前1.5K2个块的能量。
它还包括:
—计算最大能量块的第一样本的指数ind1,和
—计算重建信号xrec(n)的前K2个块中的最小能量。
当最大能量与最小能量的比大于阈值S时,有前回声的风险,但是仅在低能量区中。在高能量样本中没有回声。
对于衰减回声的现有技术的回声检测设备,需要阻止后者对高能量样本的衰减动作,该高能量样本由指数ind1和ind2界定,其限定了包含该高能量样本的信号的区,并且将增益的值重设为1。这两个指数的表示出现在图4a底部,其以如下方式确定:
—ind1是出现能量最大值的块的第一个样本的指数,
—ind2是ind1+C-1和被处理块的结尾的指数L-1之间的最小值。C是作为样本数的错误报警区的长度,设定为一个或更多块的时长级的值。例如,C=80的值给出良好的结果。
在图4a的例子中,没有阻止回声衰减,因为在下一帧中检测到了引起前回声的冲击,ind1大于ind2。这样的结果是在整个当前帧中即样本n=0到159中正确衰减了回声。
如图4b所示,对一个信号帧(L=160个样本)进行了偏移,因此冲击现在位于当前帧中。
L=160;K2=4;N2=L/K2=40;C=80
在这种情况下,重复前述用于计算能量最大值和最小值的过程。
可以看出,在从n=80开始的块中发现了能量最大值,并且这时最大能量与最小能量的比相当高,更不用说大于阈值S了。例如,S=8的值给出很好的结果。
在这种情况下,在能量最大值之前有前回声,但是相反,最大值所在的块和随后的一些块中不易发生回声现象。根据本发明主题的方法,因此需要阻止冲击时刻及其之后激活回声衰减。这就是图4b中所示对于从n=80到159的样本所作的操作,包含在上述样本n=80到159之间的区被定义为错误报警区。
因此,在图3d中,获得了一个实际上对于样本n=80到120来说等于1的增益(平滑的),通过比较图3c中的相同样本,增益衰减已经被阻止,并且在该前回声处理之后从TDAC解码器输出的信号的n=80到n=160的样本不再被错误衰减。这样的结果是现在可以正确地恢复将该信号与CELP解码器的输出信号相加而获得的最终输出信号。
本发明主题的方法还可以以一种特别的变型实现,用于衰减正弦信号的低或高频带的多层编码器的回声,如下面将要参照图4c说明的那样。
图4c示出了在一个时间解码器中合成信号所涉及的音频信号,可能是图2a所述类型的音频信号的高频带的预测/多层变换。该被解码的信号是正弦曲线。可以看出,与输入信号相比,该时间解码阶段的输出被劣化。这是由于在这种情况下,时间解码器以一个太低的比特率工作以致于不能正确恢复该正弦曲线。TDAC解码器的输出信号是正确的。对于最终输出信号也是同样的。
当例如图2a所示的现有技术的回声衰减过程被激活时,获得图4d的信号。前三个图表示与图4c相同的信号。接着的三个图分别表示:
—具有在0和1之间的值的回声衰减增益(图2b中的矩形1),
—在回声的处理之后从TDAC解码器输出的信号。可以看出,回声的衰减已经被激活,由于乘以衰减增益,其产生了一个等于幅度调制的正弦曲线的TDAC阶段输出信号,并且其没有忠实地再现最初的正弦曲线,
—最终输出信号,其表现出与该TDAC解码器输出信号相同的缺陷,这两个信号是相同的。
本发明使得能够修正如图4e所示信号的不良建模。
现在将参照图5描述在正弦曲线的情况下阻止回声衰减的操作。前述用于计算能量最大值和最小值的过程将再次进行。
从上述图中可以看出,不存在最大的净能量。这时最大能量与最小能量的比相对较低,小于阈值S。这表示不存在回声。根据本发明主题的方法,因此必须阻止在整个帧中激活回声衰减。这表示为图4e中范围从n=0到n=159的样本,其中对于这些样本来说,回声处理增益等于1。在前回声处理之后的TDAC解码器输出的信号不再被错误衰减。这样的结果是现在可以正确恢复与该信号相同的最终输出信号。
在图5中:
L=160;K2=4;N2=L/K2=40;C=80;S=8
图6示出了后回声现象。
参照图6,可以在包含输入信号的迅速下降的帧和下一帧的输出信号中观察到后回声现象。在强烈下降后的帧中(后回声区),显然决不能阻止回声衰减。
可以通过检验前一帧和当前帧的最大能量之间的比来检测该后回声情形。当该比大于一个阈值时,该帧就被认为是生成后回声的帧,并且回声衰减算法被保留以衰减该帧的回声。
现在将参照图7给出对于根据本发明主题的、用于识别和衰减由多层分级编码器产生的数字音频信号的回声的设备的更具体说明。
一般地,将会理解到,图7所示的本发明主题的设备被结合在图2b所示的现有技术的回声识别设备中。
以与现有技术的识别设备相似的方式,它包括用于计算回声的原始存在位置和一衰减值的模块,一方面接收由多个预测解码器中的第i个预测解码器的第二输出提供的辅助信号
Figure A200780006023D00201
另一方面接收由多个逆变换解码器中的第j个逆变换解码器的输出提供的解码信号xTj(n)。
此外,为了确保衰减不希望的回声,它包括一个回声衰减模块,其接收由第j个逆变换解码器提供的当前帧的重建信号和一个存在、原始回声位置和可用的回声衰减值信号。
从而,在图7中,以一种根据前述结构的非限制性的方式表示出了第i个预测解码器和第j个变换解码器,MDCT解码器。
现在将参照图7给出对于根据本发明主题的、用于识别和衰减由多层分级编码器生成的数字音频信号的回声的设备的一个非限制性优选实施例。
如图7所示本发明主题的设备使用了与图2b所示现有技术的设备相同的结构,但是特别示出了其特定的部件。
特别地,如图7所示,该用于计算在当前帧的至少一个低频带和/或高频带中回声的存在和初始位置的结构有利地包括:连接到该设备的多路分配器00的,表示为通道L的用于数字音频信号的低频带解码通道,和表示为通道H的用于数字音频信号的高频带解码通道。
另外,求和电路14接收分别由高频带解码通道H和低频带解码通道L提供的信号并且传输重建的数字音频信号。
特别地由研究图7而将会认识到,该高频带解码通道和低频带解码通道大致对应于图2b所示现有技术结构的第i个预测解码器和第j个变换解码器。
特别地,如图7所示,该低频带解码通道L有利地包括:接收多路分配的数字音频比特流和传输通过预测解码得到的信号的预测解码模块01,以及接收多路分配的数字音频比特流和传输表示为
Figure A200780006023D00211
的低频带中的编码差信号的谱系数的变换解码模块04。
该低频带解码通道L还包括逆变换频率—时间转换模块05,其接收低频带中的编码差信号
Figure A200780006023D00212
的谱系数并且传输表示为
Figure A200780006023D00213
的低频带数字音频信号。
此外,如图7所示,用于识别低能量信号各部分中的回声存在的设备和专用于该低频带解码通道L的衰减阻止设备包括:用于限定错误报警区的模块15,和用于从低频带数字音频信号
Figure A200780006023D00214
和通过预测解码所解码的信号中检测回声的模块16。该回声检测模块16提供一个表示为Glo的低频增益值。
最后,该低频带解码通道L包括用于对经变换解码和被WNB(z)-1滤波的信号应用低频增益值Glo的电路17,加法装置08,后滤波装置09,过度采样装置10,和QMF合成滤波装置11,这些各种部件被级联联连接并且向求和器14传输数字音频低频带合成信号。
此外,如图7所示,该高频带解码通道H有利地包括频带扩展通道02,其接收多路分配的数字音频比特流和传输没有前回声的时间参考信号。该信号被用作该高频带解码通道的参照,并且实质上提供了用于低频带解码通道L的预测解码功能。
该高频带解码通道H还包括变换解码模块04,其接收多路分配的数字音频比特流和通过MDCT变换时间—频率转换设备03接收时间参考信号的谱系数,该转换设备03使的能够将该时间参考信号在高频时(表示为
Figure A200780006023D00215
)的谱系数传输到变换解码模块04。
转换设备03提供表示为
Figure A200780006023D00216
的、高频带编码的数字音频信号的谱系数。
该用于数字音频信号的高频带解码通道H还包括逆变换频率—时间转换模块06,逆变换操作被表示为MDCT-1,然后是表示为“相加/叠加”的相加—叠加操作,该模块接收在高频带中数字音频信号
Figure A200780006023D00221
的谱系数并传输表示为
Figure A200780006023D00222
的高频带时间数字音频信号。
以与低频带解码通道的结构相似的方式,提供用于限定前回声错误报警区的装置18和用于检测前回声的的装置19以形成回声衰减阻止装置。后者包括用于限定错误报警区的模块18以及用于从高频带数字音频信号
Figure A200780006023D00223
和从频带扩展通道输出的信号中检测回声的模块19,该用于检测回声特别是前回声的模块19传输表示为Ghi的高频增益值信号。
最后,提供用于向高频带数字音频信号应用该高频增益值的电路20,然后是过度采样12和高通滤波13的电路,该后一电路向求和电路14传输数字音频信号的高频带合成信号。
图7所示本发明主题的设备的操作如下。在多路分配器00中,多路分配描述每20ms的帧的比特位。这里,说明用于解码从8到32比特位的工作。实际上,该比特流具有8、12、14的值,然后可以根据需要在14和32kbit/s之间选择比特率。
8和12kbit/s的各层的比特流被CELP解码器使用以生成第一窄带合成(0—4000Hz)。该比特流与14kbit/s的层相关的部分被频带扩展模块02解码。在高频带(4000—7000Hz)中获得的时间信号被MDCT模块03变换为谱
Figure A200780006023D00224
所接收的比特率(14到32kbit/s)的可变部分控制低频带差信号和高频带替代信号的MDCT系数的解码,模块04用于解码MDCT系数,其被编码是为了感知的重要性。在低频带中,该编码差信号
Figure A200780006023D00225
的谱包含重建的谱带,对于在解码器中没有接收的未解码带用零表示。在高频带中,
Figure A200780006023D00226
包含从频带扩展得到的谱
Figure A200780006023D00227
和直接编码的高频带的MDCT系数的谱带的组合。这两个谱被逆MDCT频率—时间转换和相加/叠加模块05和06调节到时域
Figure A200780006023D00228
Figure A200780006023D00229
模块15和18确定其中在重建帧中需要阻止现有技术的回声衰减的任何区。
如前所述,模块15接收当前帧的重建信号
Figure A200780006023D002210
和在图7中表示为Memlo的当前帧的第二部分作为输入信号。
图8a和8b显示了用于执行模块15的功能的流程图的两个例子。模块15的输出包括两个指数,界定了其中不需要应用回声衰减并且定为错误报警区的区的开始和结束。如果这两个指数相同,就意味着不需要在当前帧中修正根据现有技术的回声衰减。
方框07对逆变换解码器05的输出执行相对于编码器中所执行操作的逆感知滤波。根据该信号的包络和CELP解码器的输出信号的包络之间的比,还考虑了在本发明的模块15中获得的指数,模块16确定前回声衰减增益。在模块16中,增益值的某些范围被重设为1,这实际上是通过将它们重设为1也就是没有回声衰减的状态,从而抑制了根据现有技术建立的增益值。
模块16的一个典型实施例由图8c的流程图给出,其结合了现有技术的状态和根据本发明所作的校正,见图8c的方框310—313。模块16还包括通过低通滤波平滑增益的模块,在图8d中给出了其一个典型实施例。
模块17向被逆感知滤波器07滤波的变换解码器的输出信号应用由模块16计算的增益以得到具有衰减回声的信号。然后利用求和器08将该信号与CELP解码器的输出信号相加以得到新的信号,该新信号被后滤波模块09进行后滤波,成为重建的低频带信号。在经过过度采样10和传输到低频带合成QMF滤波器11之后,该信号被求和器14加到高频带的信号中以得到重建信号。
在高频带中,模块18的操作与模块15的操作相同。根据当前帧的重建信号
Figure A200780006023D00231
和图7中表示为Memhi的当前帧的第二部分,模块18确定其中不需要应用回声衰减的区的开始和结束处。
根据频率—时间转换06的输出信号和频带扩展02的输出的包络的比,以及考虑了模块18所获得的指数,模块19确定前回声衰减增益,见图8a和8b的流程图,增益根据本发明被设定为值1,见图8c。然后通过低通滤波来平滑获得的增益,见图8d。模块20将该模块19计算的增益应用到频率—时间转换06的输出的组合信号
Figure A200780006023D00232
通过将经过过度采样10和低通滤波11合成的低频带信号与同样经过过度采样12和高通滤波13的高频带信号相加14获得了以16kHz采样的宽频带输出信号。
参照图8a的流程图以及与图4a、4b和4c相关的解释来描述图7的模块15和18所执行的回声衰减阻止操作。
流程图的第一部分围绕着步骤103,包括计算相加/叠加之后的重建信号xrec(n)的K2个子块的能量。该流程图中的xrec(n)分别对应于图7中的信号
Figure A200780006023D0024102225QIETU
下一部分围绕着步骤107,包括计算逆MDCT输出的当前帧的第二部分的每个子块的能量。由于该信号的这部分的对称性,仅有K2/2个值是不同的。
步骤110计算了重建信号的K2个子块中的能量最小值minen。步骤111中计算了K2+K2/2个块上信号子块xrec(n)和xcur(n)的能量最大值。
图8a所示流程图的最后一部分包括计算指数ind1和ind2,其使得能够将回声衰减增益重设为1,从而阻止了现有技术的增益衰减。为此,计算该最大能量与最小能量的比,并且在步骤112中将其与阈值S相比较。如果该比值小于阈值S,那么就将ind1设定为0,将ind2设定为L-1,也就是说,随后在整个当前帧中从n=0到n=L-1的范围内将增益重设为1。在实践中,能量之间的差较低,因此没有冲击。否则,例如用值ind1+C-1来表示ind2,C是确定的样本数。从而通过在冲击所在的样本范围上阻止回声增益衰减,选择了一个样本范围在该范围内增益重设为1。如果值ind2超过了帧长度(L),就将它设定为L-1,ind2指向该帧的最后样本。
根据图8a的流程图的过程错误地阻止了后回声衰减。在后回声的情况下,冲击位于前一帧中,同时当前帧和下一帧中的能量都是相对均匀的。此外,该能量通常减少。由于这两个原因中的一个,图8a的过程错误地检测到错误报警。
为了保持后回声衰减处理的完整,对图8a所示的过程进行修正。然后在参照图8b的修正过程中说明用于计算阻止前回声和后回声衰减的样本范围的修正流程图。
图8b的直到步骤208的流程图的第一部分与图8a的流程图中到步骤108的部分相似。
下一个部分还考虑了后回声的情况,其中不需要阻止后回声增益衰减的激活。
首先在步骤210中计算重建信号的K2个块中的能量最大值maxrec。如果前一帧的最大能量maxprev已经被保存在存储器中,那么比较maxprev与当前最大能量maxrec的比。当该比值大于阈值S1时,存在后回声情形,不应阻止该后回声衰减。因此,存储maxrec以用于下一帧,步骤212例示了ind1为L,ind2为L-1,然后结束该过程。否则,在步骤213中存储maxrec以用于下一帧,然后在步骤214计算拼接信号的所有1.5K2个块的能量最大值maxen和最大能量块的起始指数。然后,计算最小能量,之后以与图8a的流程图中的步骤112、113、114和115相似的方式比较能量最大值与最小值的比值。在该比值小于该阈值的情况下,将ind1设定为0,将ind2设定为L-1,也就是说,通过在从0到L-1的样本范围内或者在整个帧中将增益设定为1来阻止回声衰减。在相反情况下,将ind2设定为值ind1+C-1,C是固定的样本数,然后在从ind1到ind2的样本范围内将增益例示为1。如果ind2的值超过了帧长度(L),就将它例如设定为L-1,ind2指向该帧的最后样本。
现在将参照图8c描述阻止错误报警区中对回声的衰减。图8c的流程图在第一部分重复了图2d的现有技术中用于计算回声衰减的流程图。
用于计算从变换编码器得到的信号的包络的步骤301和用于计算从时间编码器得到的信号的包络的步骤302被增加到该流程图的开头。然后,与图2d相比,被增加到图8c中的关键部分涉及图8c中的步骤310到314。该部分涉及将样本ind1和ind2之间的回声衰减增益设定为1。根据本发明主题的方法,ind1到ind2的范围被确定为其中现有技术中错误激活回声衰减因而必须如前所述进行修正的样本范围。
为了实施图8c所示的方法,实际上,利用一阶递归滤波器在该信号的每个样本上平滑该初始增益因子g(n)以避免不连续。该平滑滤波器的传递函数为:
g ( z ) = α 1 - α z - 1
因而,时域中的滤波公式为:
g′(n)=αg′(n-1)+(1-α)g(n)
在前述关系式中,α是0和1之间的实数。
在实践中,对每k2(典型地,k2=40)个样本计算该初始增益,并且对该子块的所有样本重复其值,这就使它具有阶梯状,因而使用图8d的流程图所述的平滑。回声衰减增益的平滑表现得很清楚,例如,在图3d中,该增益从一个较低值缓缓增加到1。
可以注意到,用于限定错误报警区的模块15和/或18仅对是从相加/叠加的逆变换得到的信号的输入信号进行操作。该模块可以实现为任何使用相加/叠加的逆变换以生成重建信号的解码器(分级或不分级,多频带或非多频带),用以确保由另一设备给出的初始回声衰减判定。
以下通过图9a示出了一个典型实施例。增益的初始化可以来自于任何计算回声衰减增益的其他方法。
在图9a中,成对的标记05,06;15,18;16a,19a和17,20实际上表示图7中的对应部件,即用于限定错误报警区的模块15、18。此外,还增加了增益初始化子模块16a,19a。
以下参照图9b给出了计算初始增益的一个典型实施例。在这种情况下,将增益初始设定为零,在所有不存在回声的区中使用回声衰减阻止过程以该增益设定为1。
与用于限定错误报警区的模块15和18同样,相应的子步骤包括:利用零值来初始化样本n的序号的增益G(n)的子步骤500,利用第一指数值ind1例示被处理的样本序号的步骤501,用于比较序号n是否小于第二指数值减1的测试步骤502。
只要没到达该值,步骤503就将增益值G(n)修正为1,并且该方法通过n=n+1继续到下一个序号的样本504,,在子步骤502,该增益修正操作结束。
本发明主题的方法使用了一个计算冲击开始的特定例子(对每个子块搜索能量最大值),其也可以使用其他任何确定冲击开始的方法。
本发明主题的方法和上述变型用于任何变换编码器中的回声衰减,该变换编码器可以使用MDCT滤波器组或任何具有实数值或复数值的完美重建的滤波器组,或者具有几乎完美重建的滤波器组,以及使用富里叶变换或小波变换的滤波器组。
本发明还涵盖了一种计算机程序,包括存储在介质上的由计算机或专用设备执行的一系列指令,要注意的是,在执行这些指令时,后者执行如前参照图3a到5b所述的本发明主题的方法。
上述计算机程序是一种直接可执行程序,安装在如前参照图7到8d所述的回声衰减检测设备中的用于识别各低能量信号部分中的回声存在的模块,回声衰减模块和用于阻止当前帧的信号的各高能量部分中的回声衰减的模块中。

Claims (22)

1.一种用于识别和衰减由产生回声的变换编码生成的数字音频信号的回声的方法,其特征在于,该方法包括至少在解码中的、对于该数字音频信号的每一当前帧的以下步骤:
识别转变到高能量区的转变之前的低能量区;
限定与当前帧的未识别区对应的错误报警区;
利用当前帧的衰减增益值确定回声的初始处理;
根据对当前帧的所识别的所述低能量区中的回声进行的初始处理,衰减回声;
阻止在错误报警区中该初始处理中对回声的衰减。
2.如权利要求1所述的方法,其特征在于,该编码还包括与产生回声的变换编码阶段并行的不产生回声的时间编码阶段,所述确定回声的初始处理包括,在解码中,对该数字音频信号的每一当前帧:
在至少一个频带中,将代表从产生回声的解码所得到信号的时间包络的一个特征获得的变量和从不产生回声的解码所得到信号的相应特征获得的变量的值,与一个阈值进行实时比较;和
根据该比较的结果,推断从变换编码所得到的回声在当前帧中是否存在;以及,如果存在回声,
根据从所述产生回声的解码和所述不产生回声的解码所获得的所述变量确定该回声的初始衰减增益。
3.如权利要求1所述的方法,其特征在于,所述确定回声的初始处理包括,在解码器上,对该数字音频信号的每一当前帧,将零赋值给当前帧的初始增益赋值。
4.如权利要求1、2或3所述的方法,其特征在于,当前帧包括第一和第二部分,包括限定错误报警区的步骤包括至少以下步骤:
由当前帧的重建信号和当前帧的第二部分的信号生成拼接信号;
将所述拼接信号分割成偶数个确定长度的样本子块;
计算确定长度的子块中每个子块的信号能量;
计算所有子块的最大能量值;
计算当前帧的重建信号的子块的最小能量值;和
当最大能量与最小能量的比小于或等于一个确定阈值时,就表明当前帧中全部都没有回声,将当前帧的第一采样样本的序号赋值给第一指数,并将当前帧的最后样本的序号赋值给第二指数;
将当前帧中包含在所述第一指数和第二指数之间的样本标识为所述错误报警区。
5.如权利要求4所述的方法,其特征在于,当所述最大能量与最小能量的比大于所述确定阈值时,就表明仅在该信号的低能量部分中有前回声的风险,所述方法还包括用于计算代表高能量区的第一样本的序号的第一指数和代表高能量区域的最后样本的第二指数的步骤。
6.如权利要求5所述的方法,其特征在于,所述第一指数是第一高能量子块的第一样本的指数。
7.如权利要求4—6之一所述的方法,其特征在于,所述第二指数被计算为,该第一指数加上根据样本数量的最大错误报警长度减1的值与被处理的当前帧的结尾样本的指数减1的值之间的最小值。
8.如权利要求1—7之一所述的方法,其中所述阻止这样执行:在所述错误报警区中将衰减增益值设定为1,同时将初始增益值保持在错误报警区之外,并且将所得到的衰减增益值应用到当前帧的重建信号的样本中。
9.如权利要求8所述的方法,其特征在于,通过在应用到当前帧的重建信号的样本中之前进行滤波来平滑所述得到的增益值。
10.如权利要求1—9之一所述的方法,其特征在于,存储前一帧的最大能量的比,和
当该前一帧的能量与当前帧的能量的比值大于一个确定阈值时,就表明在当前帧中有后回声的风险,所述方法还包括:
根据当前帧中回声的初始处理来衰减回声。
11.一种用于识别和衰减由能表现出回声的变换编码器生成的数字音频信号的回声的设备,其特征在于,所述设备包括,至少在一个变换解码器上:
识别转变到高能量区的转变之前的低能量区的装置;
限定与当前帧的未识别区对应的错误报警区的装置;
利用衰减增益值确定回声的初始处理的装置;
根据应用到当前帧的所识别的所述低能量区的回声的初始处理而衰减回声的装置;
阻止应用到错误报警区的初始处理的对回声的衰减的装置。
12.如权利要求11所述的设备,其特征在于,在解码器中,对于由多层分级编码器生成的数字音频信号,所述解码器包括至少一个不产生回声的时间解码器和至少一个能表现出回声的变换解码器,所述设备包括,至少在一个时间解码器和一个变换解码器上:
识别转变到高能量区的转变之前的低能量区的装置,其提供其中必须阻止回声的衰减的区的指数;
计算当前帧的至少一个频带中回声的存在及其原始位置、至少接收其中必须阻止回声的衰减的区的所述指数以及提供能用于当前帧中的回声衰减值的装置;
接收由所述逆变换解码器提供的当前帧的所述解码信号和能用于当前帧中的所述回声衰减值并且衰减回声的装置。
13.如权利要求11或12所述的设备,其特征在于,所述计算当前帧的至少一个低频带和一个高频带中回声的存在及其原始位置的装置是集成的,并且包括连接到所述解码器的多路分配器的:
用于数字音频信号的低频带解码通道;
用于数字音频信号的高频带解码通道;
求和电路,其接收分别由高频带解码通道和低频带解码通道提供的信号并提供重建数字音频信号。
14.如权利要求13所述的设备,其特征在于所述低频带解码通道包括:
预测解码模块,其接收多路分配的比特流和提供通过预测解码而解码的信号;
谱系数解码模块,其接收多路分配的比特流和提供低频带编码差信号
Figure A200780006023C00041
的谱系数;
频率/时间转换模块,其接收低频带编码差信号(
Figure A200780006023C00042
)的谱系数和提供低频带数字音频信号(
Figure A200780006023C00043
),以及形成所述识别低能量信号各部分中回声的存在的装置和所述衰减阻止装置,
限定错误报警区的装置,其从滤波信号(
Figure A200780006023C00044
)的低频带数字音频信号
Figure A200780006023C00045
Memlo和通过预测解码所解码的信号中检测回声、并且提供低频增益值信号(Glo);
向由变换解码所解码的并且可能被滤波的信号应用该低频增益值(Glo)、相加、后滤波、过度采样以及QMF合成滤波来提供数字音频信号的低频带合成信号的装置。
15.如权利要求13所述的设备,其特征在于,所述高频带解码通道包括:
频带扩展通道,其接收所述多路分配的比特流和提供没有前回声的数字音频信号的时间包络参考信号;
所述谱系数解码模块,其接收所述多路分配的比特流和时间参考信号的谱系数,并提供高频带编码数字音频信号(
Figure A200780006023C00051
)的谱系数;
频率/时间转换模块,其接收该高频带编码数字音频信号的谱系数和提供该高频带数字音频信号(
Figure A200780006023C00052
),以及形成所述识别低能量信号各部分中回声的存在的装置和所述衰减阻止装置,
限定错误报警区的装置,其从高频带数字音频信号()Memhi和频带扩展模块的输出中检测回声并且提供高频带增益值信号(Ghi);
向所述高频带数字音频信号应用该高频增益值、过度采样以及高通滤波来提供数字音频信号的高频带合成信号的装置。
16.如权利要求14所述的设备,其特征在于,在所述低频带解码通道中,所述限定错误报警区的装置包括计算当前帧中的第一指数和第二指数的装置,该第一指数代表最大能量样本的序号,该第二指数代表最后高能量样本,其中,所述回声检测装置通过使用所述第一指数和第二指数、被与编码中使用的滤波器逆反的感知加权滤波器加权的低频带数字音频信号(
Figure A200780006023C00054
)和由预测解码所解码的信号提供所述低频增益值信号(Glo),所述增益值通过可调增益放大器应用到所述被与编码中使用的滤波器逆反的感知加权滤波器加权的低频带数字音频信号(
Figure A200780006023C00055
)中。
17.如权利要求15所述的设备,其特征在于,在所述高频带解码通道中,所述限定错误报警区的装置包括计算当前帧中第一指数和第二指数的装置,该第一指数代表最大能量样本的序号,该第二指数代表最后高能量样本,其中,所述回声检测装置通过使用所述第一指数和第二指数、高频带数字音频信号
Figure A200780006023C00056
和从频带扩展模块得到的数字音频信号提供所述高频增益值信号(Ghi),所述增益值通过可调放大器应用到所述高频带数字音频信号
Figure A200780006023C00061
18.如权利要求16或17之一所述的设备,其特征在于,在存在回声的情况下,为了将错误报警区限定在该第一指数和第二指数之间,所述限定装置至少包括:
计算分别在低频带(
Figure A200780006023C00062
)和高频带(
Figure A200780006023C00063
)中的当前帧的重建信号的K2个子块的能量;
计算分别在低频带和高频带中的当前帧的第二部分的数字音频信号的前K2/2个子块的能量Memlo和Memhi;
计算分别在低频带和高频带中的当前帧的重建信号的所述K2个子块中的最小能量;
计算分别在低频带和高频带中的所有被计算的能量中这些子块的最大能量;
通过将该最大能量与最小能量的比值和一个确定阈值进行劣化比较(inferiority comparison)来计算该第一指数和第二指数,当该劣化比较被确认成立时,该第一指数的值例如为0,第二指数的值例如为根据当前帧的样本数的最大值减1,应用到回声的增益被取成等于1,阻止了当前帧的全部长度上的衰减;
否则,该第一指数例如取为最大能量块的第一样本的位置,第二指数的值为该第一指数的最小值加上确定的样本数减去1和该帧的最后样本的指数,应用到其中冲击位于第一指数和第二指数之间的样本范围内信号的增益被取成等于1,阻止了衰减。
19.如权利要求18所述的设备,其特征在于,考虑到后回声的处理以及通过消除对于后回声衰减的阻止来执行前回声的处理和后回声的处理,所述计算当前帧信号的每个子块的能量的装置包括:
计算当前帧的重建信号的所述K2个子块的最大能量;
通过优化比较(superiority comparison)将前一帧的最大能量与当前帧最小能量的比值和一个确定阈值进行比较,以及当优化比较成功时,就表明存在后回声;
存储当前帧的最大能量以用于下一帧并且返回结束状态,计算最小能量、最大能量以及被阻止的第一指数和第二指数,并且消除对于该后回声衰减的阻止,其由大于第二指数的值的第一指数的值所指示出;以及当优化比较不成功时,表明不存在后回声;
存储重建信号的帧的最大能量以用于下一帧;
如权利要求12所述地计算第一指数和第二指数。
20.如权利要求11所述的设备,其特征在于,所述衰减回声的装置包括可调增益放大器,可调增益值例如被设定为0,通过将该增益值设定为1而阻止对于包含在第一和第二指数值之间的样本的衰减,这样就能够阻止对高能量数字音频信号的样本应用衰减,但保持分别应用到由于当前帧和前一帧中出现转变而生成的后回声和前回声的衰减。
21.一种计算机程序,包括存储在介质上的用于被计算机或专用设备运行的一系列指令,其特征在于,在运行所述指令时,后者实现如权利要求1—10之一所述的识别和衰减数字音频信号的回声的方法。
22.如权利要求21所述的计算机程序,其特征在于,所述程序是一种直接可执行程序,嵌入在如权利要求11—20之一所述用于检测和衰减回声的设备中的用于识别信号的低能量各部分中回声的存在的模块、用于衰减回声的模块和用于阻止当前帧或者前一帧的信号的高能量各部分中的回声衰减的模块中。
CN2007800060231A 2006-02-20 2007-02-13 识别和衰减变换编码生成的数字信号中回声的方法和设备 Active CN101390159B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR0601466A FR2897733A1 (fr) 2006-02-20 2006-02-20 Procede de discrimination et d'attenuation fiabilisees des echos d'un signal numerique dans un decodeur et dispositif correspondant
FR0601466 2006-02-20
PCT/FR2007/050786 WO2007096552A2 (fr) 2006-02-20 2007-02-13 Procede de discrimination et d'attenuation fiabilisees des echos d'un signal numerique dans un decodeur et dispositif correspondant

Publications (2)

Publication Number Publication Date
CN101390159A true CN101390159A (zh) 2009-03-18
CN101390159B CN101390159B (zh) 2012-07-04

Family

ID=36968787

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007800060231A Active CN101390159B (zh) 2006-02-20 2007-02-13 识别和衰减变换编码生成的数字信号中回声的方法和设备

Country Status (8)

Country Link
US (1) US8756054B2 (zh)
EP (1) EP2002428B1 (zh)
JP (1) JP5202335B2 (zh)
KR (1) KR101376762B1 (zh)
CN (1) CN101390159B (zh)
AT (1) ATE520123T1 (zh)
FR (1) FR2897733A1 (zh)
WO (1) WO2007096552A2 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106716529A (zh) * 2014-09-12 2017-05-24 奥兰治 对数字音频信号中的前回声进行辨别和衰减
CN104395958B (zh) * 2012-06-29 2017-09-05 奥林奇公司 数字音频信号中的有效前回声衰减
CN107595311A (zh) * 2017-08-30 2018-01-19 沈阳东软医疗系统有限公司 双能量ct图像处理方法、装置以及设备

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2911228A1 (fr) * 2007-01-05 2008-07-11 France Telecom Codage par transformee, utilisant des fenetres de ponderation et a faible retard.
JP5255575B2 (ja) * 2007-03-02 2013-08-07 テレフオンアクチーボラゲット エル エム エリクソン(パブル) レイヤード・コーデックのためのポストフィルタ
US8463603B2 (en) * 2008-09-06 2013-06-11 Huawei Technologies Co., Ltd. Spectral envelope coding of energy attack signal
EP2347411B1 (fr) * 2008-09-17 2012-12-05 France Télécom Attenuation de pre-echos dans un signal audionumerique
CA3160488C (en) 2010-07-02 2023-09-05 Dolby International Ab Audio decoding with selective post filtering
AR085895A1 (es) 2011-02-14 2013-11-06 Fraunhofer Ges Forschung Generacion de ruido en codecs de audio
CN103534754B (zh) 2011-02-14 2015-09-30 弗兰霍菲尔运输应用研究公司 在不活动阶段期间利用噪声合成的音频编解码器
CA2827000C (en) 2011-02-14 2016-04-05 Jeremie Lecomte Apparatus and method for error concealment in low-delay unified speech and audio coding (usac)
SG192746A1 (en) 2011-02-14 2013-09-30 Fraunhofer Ges Forschung Apparatus and method for processing a decoded audio signal in a spectral domain
AU2012217153B2 (en) 2011-02-14 2015-07-16 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for encoding and decoding an audio signal using an aligned look-ahead portion
MY159444A (en) 2011-02-14 2017-01-13 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V Encoding and decoding of pulse positions of tracks of an audio signal
PL3471092T3 (pl) 2011-02-14 2020-12-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Dekodowanie pozycji impulsów ścieżek sygnału audio
ES2534972T3 (es) 2011-02-14 2015-04-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Predicción lineal basada en esquema de codificación utilizando conformación de ruido de dominio espectral
AU2012217216B2 (en) 2011-02-14 2015-09-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for coding a portion of an audio signal using a transient detection and a quality result
CN102959620B (zh) * 2011-02-14 2015-05-13 弗兰霍菲尔运输应用研究公司 利用重迭变换的信息信号表示
CN102800317B (zh) * 2011-05-25 2014-09-17 华为技术有限公司 信号分类方法及设备、编解码方法及设备
EP2772909B1 (en) * 2011-10-27 2018-02-21 LG Electronics Inc. Method for encoding voice signal
US9173025B2 (en) 2012-02-08 2015-10-27 Dolby Laboratories Licensing Corporation Combined suppression of noise, echo, and out-of-location signals
US8712076B2 (en) 2012-02-08 2014-04-29 Dolby Laboratories Licensing Corporation Post-processing including median filtering of noise suppression gains
FR3000328A1 (fr) 2012-12-21 2014-06-27 France Telecom Attenuation efficace de pre-echos dans un signal audionumerique
FR3003682A1 (fr) * 2013-03-25 2014-09-26 France Telecom Mixage partiel optimise de flux audio codes selon un codage par sous-bandes
FR3003683A1 (fr) * 2013-03-25 2014-09-26 France Telecom Mixage optimise de flux audio codes selon un codage par sous-bandes
GB201401689D0 (en) * 2014-01-31 2014-03-19 Microsoft Corp Audio signal processing
FR3024581A1 (fr) 2014-07-29 2016-02-05 Orange Determination d'un budget de codage d'une trame de transition lpd/fd
EP3382700A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using a transient location detection
US10984808B2 (en) * 2019-07-09 2021-04-20 Blackberry Limited Method for multi-stage compression in sub-band processing

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2687871B1 (fr) * 1992-02-25 1995-07-07 France Telecom Procede et dispositif de filtrage pour la reduction des preechos d'un signal audio-numerique.
JP3341440B2 (ja) * 1994-02-04 2002-11-05 ソニー株式会社 情報符号化方法及び装置、情報復号化方法及び装置、並びに情報記録媒体
JPH08223049A (ja) * 1995-02-14 1996-08-30 Sony Corp 信号符号化方法及び装置、信号復号化方法及び装置、情報記録媒体並びに情報伝送方法
JP3307138B2 (ja) * 1995-02-27 2002-07-24 ソニー株式会社 信号符号化方法及び装置、並びに信号復号化方法及び装置
JP4290917B2 (ja) * 2002-02-08 2009-07-08 株式会社エヌ・ティ・ティ・ドコモ 復号装置、符号化装置、復号方法、及び、符号化方法
JP2005049429A (ja) * 2003-07-30 2005-02-24 Sharp Corp 符号化装置及びそれを用いた情報記録装置
US7443978B2 (en) * 2003-09-04 2008-10-28 Kabushiki Kaisha Toshiba Method and apparatus for audio coding with noise suppression
WO2006114368A1 (de) * 2005-04-28 2006-11-02 Siemens Aktiengesellschaft Verfahren und vorrichtung zur geräuschunterdrückung
FR2888704A1 (zh) * 2005-07-12 2007-01-19 France Telecom

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104395958B (zh) * 2012-06-29 2017-09-05 奥林奇公司 数字音频信号中的有效前回声衰减
CN106716529A (zh) * 2014-09-12 2017-05-24 奥兰治 对数字音频信号中的前回声进行辨别和衰减
CN106716529B (zh) * 2014-09-12 2020-09-22 奥兰治 对数字音频信号中的前回声进行辨别和衰减
CN107595311A (zh) * 2017-08-30 2018-01-19 沈阳东软医疗系统有限公司 双能量ct图像处理方法、装置以及设备

Also Published As

Publication number Publication date
KR20080103088A (ko) 2008-11-26
WO2007096552A2 (fr) 2007-08-30
KR101376762B1 (ko) 2014-03-21
US20090313009A1 (en) 2009-12-17
FR2897733A1 (fr) 2007-08-24
EP2002428B1 (fr) 2011-08-10
JP5202335B2 (ja) 2013-06-05
EP2002428A2 (fr) 2008-12-17
US8756054B2 (en) 2014-06-17
ATE520123T1 (de) 2011-08-15
JP2009527773A (ja) 2009-07-30
WO2007096552A3 (fr) 2007-10-18
CN101390159B (zh) 2012-07-04

Similar Documents

Publication Publication Date Title
CN101390159B (zh) 识别和衰减变换编码生成的数字信号中回声的方法和设备
US10403295B2 (en) Methods for improving high frequency reconstruction
JP5520967B2 (ja) 適応的正弦波コーディングを用いるオーディオ信号の符号化及び復号化方法及び装置
JP4950210B2 (ja) オーディオ圧縮
CN100454389C (zh) 声音编码设备和声音编码方法
CN101276587B (zh) 声音编码装置及其方法和声音解码装置及其方法
EP1852851A1 (en) An enhanced audio encoding/decoding device and method
CN102194457B (zh) 音频编解码方法、系统及噪声水平估计方法
WO2009029035A1 (en) Improved transform coding of speech and audio signals
CN101878504A (zh) 使用时间分辨率能选择的低复杂性频谱分析/合成
CN102272831A (zh) 基于峰值检测的选择性缩放掩码计算
EP0446037A2 (en) Hybrid perceptual audio coding
CN102265337A (zh) 用于在多信道音频代码化系统内生成增强层的方法和装置
EP1873753A1 (en) Enhanced audio encoding/decoding device and method
JP5730860B2 (ja) 階層型正弦波パルスコーディングを用いるオーディオ信号の符号化及び復号化方法及び装置
US8676365B2 (en) Pre-echo attenuation in a digital audio signal
CN104103276A (zh) 一种声音编解码装置及其方法
CN104981981A (zh) 数字音频信号中的前回声的有效衰减
CN109427338B (zh) 立体声信号的编码方法和编码装置
RU2409874C9 (ru) Сжатие звуковых сигналов
KR101786863B1 (ko) 고 주파수 복원 알고리즘들을 위한 주파수 대역 테이블 설계

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant