CN102770912B - 使用线性预测滤波的前向时域混叠消除 - Google Patents

使用线性预测滤波的前向时域混叠消除 Download PDF

Info

Publication number
CN102770912B
CN102770912B CN201180006073.6A CN201180006073A CN102770912B CN 102770912 B CN102770912 B CN 102770912B CN 201180006073 A CN201180006073 A CN 201180006073A CN 102770912 B CN102770912 B CN 102770912B
Authority
CN
China
Prior art keywords
frame
forward direction
coding
aliasing
weighting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201180006073.6A
Other languages
English (en)
Other versions
CN102770912A (zh
Inventor
B.贝塞特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
VoiceAge Corp
Original Assignee
VoiceAge Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by VoiceAge Corp filed Critical VoiceAge Corp
Publication of CN102770912A publication Critical patent/CN102770912A/zh
Application granted granted Critical
Publication of CN102770912B publication Critical patent/CN102770912B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

在编码器中,用于产生前向混叠消除(FAC)参数的方法,所述FAC参数用于消除由在具有重叠窗口的使用第一编码模式的第一变换编码帧和具有非重叠窗口的使用第二编码模式的第二帧之间的转换对在所述第一变换编码帧中的编码音频信号造成的时域混叠,包括:计算表示编码前的第一帧的音频信号和第一变换编码帧的编码音频信号的合成之间的差的FAC目标;以及加权所述FAC目标以产生所述FAC参数。在解码器中,加权的前向混叠消除(FAC)参数被接收并逆加权,以产生FAC合成。基于所述第一帧中的编码音频信号的合成,使用所述FAC合成从所述音频信号合成中消除所述时域混叠。

Description

使用线性预测滤波的前向时域混叠消除
技术领域
本公开涉及编码和解码音频信号领域。更具体地,本公开涉及在编码音频信号中的时域混叠消除。
背景技术
音频编码技术发展水平为了数据简化,以一种有意义的方式,使用时频分解来表示信号。更具体地,音频编码器使用变换以执行将时域样本到频域系数的映射。用于这种时间-频率映射的离散时间变换通常基于正弦函数内核,诸如离散傅里叶变换(DFT)和离散余弦变换(DCT)。可以显示的是,这样的变换实现音频信号的能量紧致(compaction)。能量紧致意味着,在变换(或频率)域内,相比于在时域样本中,能量分布被局部化在更少的重要(significant)频域系数中。接着可以通过将自适应比特分配(adaptive bitallocation)以及适当的量化施加于频域系数,而实现编码增益。在接收端,表示量化和编码的参数(包括频域系数)的比特用以恢复量化的频域系数(或其它量化数据,诸如增益),并且逆变换产生时域音频信号。这种编码方案通常被称为变换编码。
通过定义,变换编码在输入音频信号样本的连续块(通常称为“帧”)上操作。由于量化在每个音频信号的合成块中引入某些失真,使用非重叠块可能在块边界处引入中断,其可能降低音频信号的质量。因此,在变换编码中,为了避免中断,在应用变换之前将音频信号的编码块重叠,并且在重叠片段中适当开窗以允许从样本的一个解码块平滑转换(transition)到下一个。很遗憾,使用诸如DFT(或其快速等价的快速傅里叶变换(FFT))或DCT的变换并将其应用到样本的重叠块导致所谓的“非临界(non-critical)采样”。例如,采取典型的50%重叠的情况,编码N个连续时域样本的块实际上要求对2N个连续样本进行变换,2N个连续样本包括N个来自当前块的样本和N个来自前一个块和下一个块的重叠部分的样本。因此,对于每N个时域样本的块,编码2N个频域系数。频域中的临界(critical)采样意味着N个输入时域样本仅产生N个频域系数以进行量化和编码。
已经设计了专门的变换以允许使用重叠窗口并且在变换域中仍然保持临界采样。用这种专门的变换,变换输入的2N个时域样本导致变换输出的N个频域系数。为了实现这点,首先通过特殊的时间反演(time inversion)、在窗口的一端为2N个样本长加窗(windowed)信号的特定部分进行求和、以及在窗口的另一端2N个样本长加窗信号的特定部分彼此相减,将2N个时域样本的块减少为N个时域样本的块。这些特殊的时间反演、求和和减法引入所谓的“时域混叠(time-domain aliasing,TDA)”。一旦将TDA引入音频信号样本的块中,将不能仅使用该块将其移除。是作为大小为N(而不是2N)的变换的输入的这个时域混叠的信号产生N个变换的频域系数。为了恢复N个时域样本,在称为“时域混叠消除(TDAC)”的过程中,逆变换使用来自两个连续并重叠的帧或块的变换系数,以抵消TDA。
被广泛使用于音频编码中的这样的应用TDAC的变换的示例是改进的离散余弦变换(MDCT)。实际上,MDCT引入TDA而没有时域中的显式(explicit)折叠。实际上,当考虑样本的单个块的直接(direct)MDCT和逆MDCT(IMDCT)这二者时,会引入时域混叠。这来自于MDCT的数学构造并且为本领域普通技术人员众所周知。然而还已知的是,该隐式(implicit)时域混叠可视为等同于时域样本的第一个反向部分并且将这个反向部分加上(或减去)信号的其它部分。这称为“折叠”。
当音频编码器在一个使用TDAC而另一个不使用TDAC的两种编码模式之间切换时,会产生问题。例如,假设编解码器(codec)从TDAC编码模式切换到非TDAC编码模式。使用TDAC编码模式编码的样本块的一侧(其对不使用TDAC编码的块是公用的)包含TDA,其不能用使用非TDAC编码模式编码的样本块抵消。
第一种解决方案是丢弃包含不能被抵消的混叠的样本。
该第一种解决方案导致传输带宽的低效使用,这是因为TDA不能被抵消的样本块被编码两次,一次是由基于TDAC的编解码器编码,第二次是由基于非TDAC的编解码器编码。
第二种解决方案是使用特殊设计的窗口,当应用时间反演和求和/减法过程时,在窗口的至少一个部分中不引入TDA。图1是在其左侧引入TDA而没有在其右侧引入TDA的2N个样本窗口的示例的示意图。图1的窗口100对于从基于TDAC的编解码器转换到基于非TDAC的编解码器是有用的。窗口100的前半部分被成形(shape),从而它引入TDA 110,如果前一个窗口也使用具有重叠的TDA,则TDA 110可以被消除。然而,图1中的窗口100右侧,在3N/2位置上的折叠点之后具有零值区域120。因此当在3N/2位置上的折叠点周围执行时间反演和求和/减法(或折叠)过程时,窗口100的这个区域120不引入任何TDA。
如图1所示,窗口100包含平坦区域130,之前为左侧锥形区域140。锥形区域140的目的是当计算变换时提供良好的光谱分辨率以及在相邻块之间的重叠和相加操作期间平滑转换。增加窗口100的平坦区域130的持续时间会减少信息的开销。然而,由于区域120中仅传达零值样本信息,所以区域120会降低窗口100光谱性能。
因此,例如在多模动态图象专家组(Moving Pictures Expert Group,MPEG)联合语音音频编解码器(Unified Speech and Audio Codec,USAC)中,需要有用的改善的TDAC技术,以管理在使用矩形非重叠窗口的帧和使用非矩形重叠的窗口的帧之间的转换,同时确保适当的光谱分辨率、数据开销减少并且在这些不同的帧类型之间的转换的平滑。
发明内容
因此,需要用于支持编码模式之间的切换的混叠消除技术,其中所述技术在这些模式之间的切换点上补偿混叠效应。
因此,根据第一个方面,提供了一种用于产生前向混叠消除(forwardaliasing cancellation,FAC)参数的方法,所述FAC参数用于消除由在具有重叠窗口的使用第一编码模式的第一变换编码帧和具有非重叠窗口的使用第二编码模式的第二帧之间的转换对在所述第一变换编码帧中的编码音频信号造成的时域混叠,包括:计算表示编码前的第一帧的音频信号和第一变换编码帧的编码音频信号的合成之间的差的FAC目标;以及加权所述FAC目标以产生所述FAC参数。
根据第二个方面,提供了一种用于前向消除时域混叠的方法,所述时域混叠是由在具有重叠窗口的使用第一编码模式的第一变换编码帧和具有非重叠窗口的使用第二编码模式的第二帧之间的转换对在所述第一变换编码帧中的编码音频信号造成的时域混叠,所述方法包括:接收加权的前向混叠消除(FAC)参数;逆加权所述加权的FAC参数,以产生FAC合成;以及基于所述第一帧中的编码音频信号的合成,使用所述FAC合成从所述音频信号合成中消除所述时域混叠。
根据第三个方面,提供了用于产生前向混叠消除(FAC)参数的设备,用于消除由在具有重叠窗口的使用第一编码模式的第一变换编码帧和具有非重叠窗口的使用第二编码模式的第二帧之间的转换对在所述第一变换编码帧中的编码音频信号造成的时域混叠,包括:FAC目标计算器,该FAC目标表示编码前的第一帧的音频信号和第一变换编码帧的编码音频信号的合成之间的差;以及加权滤波器,提供有所述FAC目标,以产生所述FAC参数。
根据第四个方面,提供了一种音频信号编码器,包括:使用具有重叠窗口的帧以第一变换编码模式对所述音频信号编码的第一编码器;使用具有非重叠窗口的帧以第二编码模式对所述音频信号编码的编码器;以及如上文所述的用于产生FAC参数的设备,所述FAC参数用于消除由在具有重叠窗口的使用第一编码模式的第一帧和具有非重叠窗口的使用第二编码模式的第二帧之间的转换对在所述具有重叠窗口的第一帧中以第一编码模式编码的音频信号造成的时域混叠。
根据第五个方面,提供了一种用于前向消除时域混叠的设备,所述时域混叠是由在具有重叠窗口的使用第一编码模式的第一变换编码帧和具有非重叠窗口的使用第二编码模式的第二帧之间的转换对在所述第一变换编码帧中的编码音频信号造成的时域混叠,所述设备包括:用于接收加权的前向混叠消除(FAC)参数的输入器;逆加权滤波器,提供有所述加权的FAC参数,以产生FAC合成;以及响应于所述FAC合成对所述编码音频信号解码以产生第一帧中消除了时域混叠的音频信号合成的解码器。
根据第六个方面,提供了一种音频信号解码器,包括:对使用具有重叠窗口的帧以第一变换编码模式编码的音频信号解码的第一解码器;对使用具有非重叠窗口的帧以第二编码模式编码的音频信号解码的第二解码器;以及如上文所述的设备,用于前向消除由在具有重叠窗口的使用第一编码模式的第一帧和具有非重叠窗口的使用第二编码模式的第二帧之间的转换对在所述具有重叠窗口的帧中以第一编码模式编码的音频信号造成的时域混叠。
前述的和其它特性将在阅读以下为了仅参考附图的示例而给出的用于前向取消时域混叠的设备和方法的说明实施例的非限定性描述时,将会更加显而易见。
附图说明
在附图中:
图1是在其左侧而不在其右侧引入TDA的窗口的示例的示意图;
图2是从使用非重叠矩形窗口的帧转换到使用重叠窗口的帧的示例的示意图;
图3是示出折叠和应用于图2的图的TDA的示意图;
图4是计算FAC目标(target)的示例性方法的操作顺序的示意图;
图5是示出图4的FAC目标的量化的示意框图;
图6是使用代表图4的FAC目标的FAC参数、计算音频信号的合成的说明性方法的操作顺序的示意图;
图7是用于前向消除在比特流中接收的编码音频信号中的时域混叠的设备的非限制性示例的示意框图;以及
图8是用于在传输到解码器的编码音频信号中的前向时域混叠消除的设备的非限制性示例的框图。
具体实施方式
以下公开针对当在连续帧中使用重叠和非重叠窗口二者编码音频信号时,消除时域混叠和非矩形开窗效应的问题。使用此处所述的技术,可以避免特殊的非最优窗口的使用,同时仍然允许对使用矩形非重叠窗口和非矩形重叠窗口这二者的编码模式之间的帧转换的适当管理。
线性预测(Linear Predictive,LP)编码(例如,ACELP(AlgebraicCode-Excited Linear Predication,代数码本激励线性预测)编码)是其中使用矩形、非重叠开窗(windowing)来对帧编码的编码模式的示例。另外,使用非矩形、重叠开窗的编码模式的示例是在MPEG联合语音音频编解码器(USAC)中应用的变换码激励(Transform Coded eXcitation,TCX)编码。使用非矩形、重叠开窗的编码模式的另一个示例是USAC的FD模式中的感知变换编码,其中也使用MDCT作为变换并且感知模式用以将比特动态分配到变换系数。在USAC中,TCX帧使用重叠窗口和改进的离散余弦变换(Modified Discrete Cosine Transform,MDCT),这引入时域混叠(TDA)。USAC也是连续帧可以使用矩形、非重叠窗口(诸如在ACELP帧中)或者非矩形、重叠窗口(诸如在TCX帧中)进行编码的典型示例。不失一般性,本公开因而考虑USAC的特定示例以示出前向消除时域混叠的设备和方法的益处。
本公开针对两种不同情况。第一种情况与从使用矩形非重叠窗口的帧转换到使用非矩形重叠窗口的帧有关。第二种情况与从使用非矩形重叠窗口的帧转换到使用矩形非重叠窗口的帧有关。为了说明而非限制的目的,使用矩形非重叠窗口的帧可以使用ACELP编码模式编码,并且使用非矩形重叠窗口的帧可以使用TCX编码模式编码。此外,可以将特定持续时间用于某些帧,例如,对于TCX帧为20毫秒,记为TCX20。然而,应该记住的是,这些示例仅用于说明的目的,并且可以设想其它帧长度和除ACELP和TCX以外的编码模式。
现在将采取结合图2的以下详细描述,陈述从具有矩形非重叠窗口的帧转换到具有非矩形重叠窗口的帧的情况,图2是从使用非重叠矩形窗口的帧转换到使用重叠窗口的帧的示例的示意图。
更具体地,图2示出使用矩形非重叠窗口202的ACELP帧201的示例和使用非矩形重叠窗口204的TCX20帧203的示例。TCX20是指USAC中的短TCX帧,其额定(nominally)具有20ms持续时间,如许多应用中的ACELP帧一样。图2显示在每帧中使用哪些样本,以及在编码器处如何对它们开窗。在解码器应用同样的窗口204,使得解码器处见到的组合效果是图2中所示的窗口形状的平方(square)。当然,这种双开窗(doule windowing),一次在编码器处以及第二次在解码器处在变换编码中很典型。选择图2中示出的用于TCX20帧203的非矩形窗口204,使得如果前一帧和下一帧也使用重叠非矩形的窗口,那么窗口204的重叠部分204a和204d在解码器处的第二次开窗之后是互补的,并且允许恢复在窗口的重叠区域中的“非开窗”信号。
为了以高效方式编码图2的TCX20帧203,典型地,对于这个TCX20帧203的开窗的样本应用时域混叠(TDA)。更具体地,窗口204的左部204a和右部204d被折叠并组合。图3是示出折叠并应用到图2的图的TDA的示意图。在图3中,示出图2的非矩形窗口204被四等分。以虚线示出第一和第四个1/4,即窗口204的204a和204d,因为它们与以实线示出的第二和第三个1/4 204b、204c相组合。第一和第四个1/4 204a、204d与第二和第三个1/4204b、204c的组合如下使用与在MDCT编码中使用的处理类似的处理。将第一个1/4 204a时间反转,接着将它与窗口的第二个1/4 204b一个样本一个样本地对齐,并且最终从窗口203的第二个1/4 204b中减去时间反转和移动的第一个1/4 204e。类似地,将窗口的第四个1/4 204d时间反转并移动,以形成与窗口204的第三个1/4 204c对齐的时间反转和移动的1/4 204f,并且最终与窗口的第三个1/4 204c相加。如果图2中示出的TCX20窗口204具有2N个样本,那么在该处理结束时获得从图3的TCX20帧206的开始到结束精确延伸的N个样本。接着这N个样本形成适当变换的输入,以供变换域中的高效编码。使用图3中描绘的特定时域混叠,MDCT可以是用于这个目的的变换。
在图3中所述的窗口的时间反转和移动的部分的组合之后,不再有可能恢复TCX20帧中的原始时域样本,因为它们与TCX20帧外部的样本的时间反转的版本混合了。在基于MDCT的音频编码器诸如MPEG AAC中,其中所有帧都使用同样的变换和重叠窗口编码,能够消除该时域混叠,并且通过使用两个连续重叠的帧能够恢复音频样本。然而,当连续帧没有使用相同的开窗和重叠处理时,如图2中的TCX20帧(非矩形重叠窗口)之前是ACELP帧(矩形非重叠窗口),非矩形窗口效应和时域混叠不能仅使用来自前一ACELP帧和下一TCX20帧的信息而消除。
上文中介绍了管理这种类型的转换的技术。本公开提出管理这些转换的替代方法。该方法没有使用其中使用基于MDCT的变换域编码的帧中的非最优、非对称窗口。代替地,此处引入的设备和方法允许使用居中位于编码帧的中央的对称窗口,诸如例如图3的TCX20帧,并且有50%与也使用非矩形窗口的MDCT编码的帧重叠。此处引入的设备和方法因此提出从编码器到解码器发送校正信息,作为比特流中的附加信息,该校正信息用于消除当从以矩形非重叠窗口编码的帧切换到以非矩形重叠窗口编码的帧时的开窗效应和时域混叠,反之亦然。
在图2中,为ACELP帧显示矩形非重叠开窗,而为TCX20帧显示非矩形重叠开窗。使用图3中引入的TDA,首先接收来自ACELP帧的比特的解码器具有充足的信息来完全解码该ACELP帧直至其最后一个样本。然而接着,接收来自TCX20帧的比特,适当地解码TCX20帧的所有样本被由前面的ACELP帧的存在导致的时间混叠效应损害。如果下一个帧也使用重叠窗口,那么在所示TCX20帧的后半部分中,能够消除在编码器处引入的非矩形开窗和TDA,并且样本可以被合适地解码。因而情况是在图3的TCX20帧的前半部分中,在该前半部分中从第二个1/4 204b中减去时间反转和移动的第一个1/4 204e,由于前一ACELP帧使用矩形非重叠窗口,所以在编码器引入的非矩形窗口效应和TDA不能被消除。
此处引入的设备和方法提出发送前向混叠消除(Forward AliasingCancellation,FAC)参数形式的附加信息,用于消除这些效应以及用于合适地恢复TCX帧。
一个特别感兴趣的实施例使用频域噪声整形(Frequency-Domain NoiseShaping,FDNS)以对在诸如TCX帧的变换编码的帧中的量化噪声进行整形,该频域噪声整形(FDNS)例如如在题为“用于TDAC变换的同时时域和频域噪声整形(SIMULTANEOUS TIME-DOMAIN ANDFREQUENCY-DOMAIN NOISE SHAPING FOR TDAC TRANSFORMS)”的2010年10月15日提交的PCT申请No.PCT/CA2010/001649中所介绍的。在该实施例中,可以在原始信号域诸如未对其应用加权的音频信号中直接应用FAC校正。在多模式切换编解码器诸如USAC中,这意味着在涉及变换的所有编码模式中,例如使用MDCT,在变换域中执行量化噪声整形。具体地,在TCX帧中使用FDNS,(如在感知变换编码模式中)直接对原始信号而不是对加权余量(weighted residual)应用变换(MDCT)加权余量。FDNS以在TCX帧中获得噪声整形的方式操作,,这基本等价于使用时域感知加权滤波器,但仅在变换(MDCT)系数上操作。接着可以利用下文描述的过程应用FAC校正。
此处使用USAC音频编解码器作为编解码器的非限制性示例。对于USAC编解码器提出如下三种编码模式:
编码模式1:原始音频信号的感知变换编码;
编码模式2:LPC滤波器的加权余量的变换编码;
编码模式3:ACELP编码。
在编码模式1中,通过应用从感知(perceptual)模型导出的比例因子(scalefactor),在变换域中已经完成量化噪声整形,如音频编码领域的技术人员所熟知的。然而,在编码模式2中,通常使用从为当前帧计算的线性预测编码(LPC)滤波器导出的感知(或加权)滤波器W(z)在时域中应用量化噪声整形。在这个时域滤波之后应用变换,例如DTC变换,以获得要被量化并编码为FAC目标的FAC参数。这禁止直接使用MDCT MDCT的时域混叠消除(TDAC)特性连接(join)以模式1和2编码的连续帧,因为对于编码模式1和2,不在同一个域中应用MDCT。
所以,在用于前向取消时域混叠的设备和方法的实施例中,通过使用PCT申请No.PCT/CA2010/001649的FDNS处理的频域滤波而不是时域滤波,进行用于编码模式2的量化噪声整形。因此,对原始音频信号,而不是该音频信号在滤波器W(z)输出的加权版本应用变换,该变换例如在USAC的情况下是MDCT。这确保了编码模式1和编码模式2之间的一致性,并允许使用MDCT的TDAC特性连接模式1和2编码的连续帧。
然而,当处理从ACELP模式的转换和到ACELP模式的转换时,在编码模式2的变换域中应用量化噪声整形使用特殊处理。
图4是计算FAC目标的示例性方法的操作顺序的示意图。示出编码器处的处理,此时以模式2编码的帧402之前是以模式3编码的帧404并且之后是以模式3编码的帧406,其中仅为说明的目的而将ACELP用作模式3的示例。图4示出时域标记(marker)诸如408和帧边界。具体地,特别以垂直虚线标记LPC1和LPC2标识的帧边界显示帧402的开始和结束,其中帧402以模式2编码。标记LPC1和LPC2还指示分析窗口的中心以计算两个LPC滤波器:在帧402开始处(其也对应于窗口的左折叠点)计算的第一LPC滤波器和在同一个帧402结束处(其也对应于窗口的右折叠点)计算的第二LPC滤波器。
图4中有四条线。每条线表示在编码器的处理中的操作。如图所示,图4的线1-4是彼此时间对齐的。
图4的线1表示原始音频信号410,按由标记LPC1和LPC2界定的帧而被分段。因此,在标记LPC1左边,以模式3编码原始音频信号。在标记LPC1和LPC2之间,以模式2编码原始音频信号,其中使用例如如PCT申请No.PCT/CA2010/001649中的FDNS处理直接在变换域中而不是在时域中应用量化噪声整形。在标记LPC2右边,再次以编码模式3编码原始音频信号。选择这个涉及模式3中的ACELP、接着模式2中的TCX、接着再次模式3中的ACELP的编码模式顺序,以示出关于从模式3到模式2的转换和从模式2到模式3的转换二者的处理。在多模编解码器中,当然也有可能使用其它模式顺序。显然,本公开不限定于图4的示例中选择的特定模式顺序。
图4的线2对应于每帧中解码的合成信号412、414、416。在标记LPC1左边是以模式3编码的帧404的合成信号414。因此,合成信号414被标识为ACELP合成信号。ACELP合成信号414和帧404中的原始信号原则上有高相似性,这是因为ACELP编码模式试图尽可能准确地编码并合成音频信号。接着,在图4的线2上的标记LPC1和LPC2之间的帧402表示作为对对应帧应用逆MDCT(IMDCT)的输出而获得的合成信号412。图4描述了其中在变换域中完成变换编码(TC)帧402中的量化噪声整形的实施例。这可以例如通过使用来自如上文中所说明的在帧边界或标记LPC1和LPC2处计算的上述第一和第二LPC滤波器的光谱信息来滤波MDCT系数而实现。并且,合成信号412在帧402的开始和结束处包含开窗效应和时域混叠或折叠效应。该折叠效应由分别来自帧404和406的开窗、折叠的ACELP合成部分418和420形成。开窗、折叠的ACELP合成部分418和420形成变换编码误差信号的两个部分。合成信号412的从帧402的开始到结束延伸的上面曲线显示合成信号412中的开窗效应,其在帧402的中间(而不是在开始和结束部分)是相对平坦的。折叠效应由分别在帧402的开始和结束处的下面的开窗、折叠的ACELP合成部分418和420而示出。与在帧402开始处的开窗、折叠的ACELP合成部分418相关联的“-”符号指示从合成信号412减去该开窗、折叠的ACELP合成部分418,而与在帧402结束处的开窗、折叠的ACELP合成部分420相关联的“+”符号(sign)指示向合成信号412加上开窗、折叠的ACELP合成部分420。这个开窗效应和时域混叠或折叠效应是MDCT固有的。如在上文中所说明的,当使用MDCT编码连续帧时,可以消除该变换编码误差信号。然而,在MDCT编码的帧之前和/或之后不是另一个MDCT编码的帧的情况下,这个开窗效应和时域混叠或折叠效应不会被消除并且在IMDCT之后保留在时域信号中。那么可以使用FAC来校正这些效应。最终,图4中标记LPC2之后的帧406也使用例如ACELP,以模式3编码。为了获得在这个帧406中的合成信号416,以下文中所述的方式,设置帧406的开始处的长期和短期预测器(predictor)的存储器中的滤波器状态,滤波器状态意味着在标记LPC1和LPC2之间的前一帧402结束处的开窗和时域混叠或折叠效应通过FAC的应用而消除了。总结起来,图4中的线2包含来自连续帧404、402、406的合成信号414、412、416,包括标记LPC1和LPC2之间的帧402中的IMDCT输出处的由窗口和时域混叠所造成的变换编码误差信号部分418、420。
接着,可以使用示例性ACELP编码的细节来至少部分缓解在合成信号412的开始处包括的变换编码误差信号。在图4的线3上显示用于减少变换编码误差信号的能量中使用的预测。该预测基于最终ACELP合成输出的估算,假设在帧402开始处使用了ACELP的话。该预测基于紧接在LPC1标记之前和之后的原始音频信号410的预期的自相似性,并且可以如下获得:
在线3的标记LPC1和LPC2之间的帧402的开始处,可以放置来自紧接在标记LPC1的左边的ACELP合成滤波器状态的两个影响成分(contribution)。第一个影响成分422包含帧404的最后(last)ACELP合成样本的开窗、时间反转或折叠的版本。这个时间反转的信号422的窗口长度和形状与线2上解码的变换编码(Transform Coding,TC)帧402左侧的开窗、折叠的ACELP合成部分418相同。这个组分422给出在线2的TC帧中存在的时域混叠的良好近似。第二个影响成分424包括紧接在标记LPC1的左侧的ACELP合成滤波器的开窗的零输入响应(zero-input response,ZIR),该ACELP合成滤波器的初始状态取在ACELP合成帧404的结束处的该滤波器的最终状态。该第二影响成分424的窗口长度和形状取为在变换编码的帧(在USAC的示例性情况下为MDCT)中使用的变换窗口的平方(square)的补充。
接着,在可选地将这两个预测影响成分(开窗、折叠的ACELP合成422以及开窗的ACELP ZIR 424)放置在线3上之后,通过使用加法器426和427从线1中减去线2和线3而获得线4。应该指出的是,在这个操作期间计算的差在标记LPC2处。在线4上显示变换编码误差信号的预期的时域包络线(envelope)的近似视图。预期ACELP帧404中的ACELP编码误差430的时域包络线在幅度上是近似平坦的,假若在这段期间内编码的信号是静止的话。接着,预期标记LPC1和LPC2之间的TC帧402中的变换编码误差的时域包络线展现出线4上的这个帧中所示的一般形状。变换编码误差的时域包络线的这个期望的形状仅为说明的目的而在此示出,并且可以根据在标记LPC1和LPC2之间的TC帧中编码的信号而变化。变换编码误差的时域包络线的这个图解说明预期变换编码误差在标记LPC1和LPC2之间的TC帧402的开始和结束附近是相对较大的。在帧402的开始处,其中示出第一FAC目标部分432,使用线3上所示的两个ACELP预测影响成分422、424减小变换编码误差。这个减小并未出现在TC帧402的结束处,其中显示第二个FAC目标部分434。在第二个FAC目标部分434中,窗口和时域混叠效应不能使用来自在标记LPC2之后开始的下一个帧的合成减小,这是因为TC帧402需要在下一个帧能够被解码之前而被解码。
当解码器仅使用线2的合成信号414、412、416以产生解码的音频信号时,量化噪声可以典型地如图4的线4上所示的误差信号的预期包络线。这个误差源于为MDCT/IMDCT对(pair)固有的开窗和时域混叠效应。通过加上来自前一ACELP帧404的前述两个影响成分而在TC帧402的开始处减小了开窗和时域混叠效应,但是当TC用作唯一编码模式时,不能像在MDCT的实际TDAC操作中一样完全消除开窗和时域混叠效应。此外,在图4的线4上的TC帧右边,就在标记LPC2之前,来自MDCT/IMDCT对的所有窗口和时域混叠效应都保留。在TC帧402的开始和结束处的、线4的编码误差信号的高幅度部分432和434构成FAC目标的两部分,其为FAC校正的对象。
因此理解到用于FAC纠正的参数将会被发送到解码器以补偿这个编码误差信号,其影响TC帧402的开始和结束。以下述方式消除开窗和混叠效应,该方式经量化噪声维持在与ACELP帧的水平类似的适当水平上,,并且避免在TC帧402和诸如404和406的以其它模式编码的帧之间的边界处的中断。可以在频域中使用FAC而消除这些开窗和混叠效应。这将通过使用在LPC1和LPC2边界处计算的第一和第二个LPC滤波器导出的信息来滤波MDCT系数而实现,尽管也可以使用其它频域噪声整形(FDNS)。
为了有效补偿在图4的线4上的TC帧402的开始和结束处的开窗和时域混叠效应,在图4中所述的处理之后应用FAC。图5是显示图4的FAC目标的量化的框图。在例如在PCT申请No.PCT/CA2010/001649中的FDNS处理的情况下,如图5中所示的量化特别令人感兴趣。FAC使用在帧边界处的LPC在加权域中量化变换编码误差。由量化导致的潜在不连续性通过逆滤波而隐藏(mask)。为标记LPC1周围的TC帧402的左部和标记LPC2周围的TC帧402的右部描述该处理。如上文中所述,图4的TC帧402之前是在标记LPC1边界处的ACELP帧404,并且之后是在标记LPC2边界处的ACELP帧406。
为了补偿标记LPC1周围的开窗和时域混叠效应,处理可以是如图5顶部所描述的处理。首先,在FDNS的情况下,可以从在帧边界LPC1处计算的第一LPC滤波器、或者从使用在帧边界LPC1处计算的第一LPC滤波器和在帧边界LPC2处计算的第二LPC滤波器二者的插值(interpolated)LPC滤波器,而计算加权滤波器W1(z)501。通过加权滤波器W1(z)501滤波来自图4的线4上的TC帧402的开始处的第一FAC目标部分432。加权滤波器W1(z)501已经具有由图4的线4上所示的ACELP误差430构成的初始状态或滤波器存储器。接着,图5的滤波器W1(z)的输出形成变换(例如DCT 502)的输入。来自DCT 502的变换系数接着在量化器Q 503中被量化,并且还可以在量化器Q 503中被编码。接着将这些编码的系数作为FAC参数发送到解码器。FAC参数包括量化的DCT系数,该DCT系数接着在解码器处变成逆变换(例如IDCT 504)的输入,用以形成时域信号。接着可以通过具有零初始状态的逆滤波器1/W1(z)505滤波这个时域信号。通过逆滤波器1/W1(z)505的滤波使用对于在第一个FAC目标部分之后延伸的样本的零输入而经过第一个FAC目标部分432的长度而延伸。逆滤波器1/W1(z)的输出是第一FAC合成部分506,其为现在可以在TC帧402的开始处应用的校正信号,以补偿窗口和时域混叠效应。
现在,转向对于在标记LPC2之前的TC帧402结束处的开窗和时域混叠校正的处理,考虑图5的底部部分。在图4的线4上的TC帧402结束处的第二个FAC目标部分434可以通过从在帧边界LPC2处计算的第二个LPC滤波器、或者使用在帧边界LPC1处计算的第一个LPC滤波器和在帧边界LPC2处计算的第二个LPC滤波器二者的插值LPC滤波器而计算的加权滤波器W2(z)501来滤波。在帧边界LPC2处计算的第二个LPC滤波器具有由图4的线4上的TC帧中的变换编码误差形成的初始状态或滤波器存储器。接着,除了使用加权滤波器W2(z)而不是加权滤波器W1(z)之外,所有进一步的处理操作与关于在TC帧402的开始处的FAC目标的处理的图5的顶部所示相同(见DCT 508、量化器Q 509、IDCT 510、以及逆加权滤波器1/W2(z)511),从而提供了第二FAC合成部分512。
当在编码器处应用时,执行图5的整个处理,从而获得本地FAC合成。在解码器处,仅在从编码器的量化器Q 503或509接收的FAC参数作为IDCT中的输入的点起才应用图5的处理。
图6是使用代表图4的FAC目标的FAC参数,计算原始音频信号的合成的示例型方法的操作顺序的示意图。使用FAC在原始域中进行合成的计算。LPC的使用允许在FDNS的情境下使用FAC,FDNS是如例如在题为“用于TDAC变换的同时时域和频域噪声整形(SIMULTANEOUSTIME-DOMAIN AND FREQUENCY-DOMAIN NOISE SHAPING FOR TDACTRANSFORMS)”的2010年10月15日提交的PCT申请No.PCT/CA2010/001649中所述的。通过逆滤波隐藏可能的中断,如使用LPC在TCX的情境中所做的。图6显示如何通过使用图5中所示的FAC合成以及应用图4的操作的逆而获得完整的合成信号604、602、606。在图6中,直到标记LPC1,已经合成了在标记LPC1左边的ACELP帧404,显示为线B上的ACELP合成604。标记LPC2之后的帧406也是ACELP帧。接着,为了产生在标记LPC1和LPC2之间的TC帧402中的合成信号602,执行以下步骤:
接收的MDCT编码的TC帧402通过IMDCT被解码,产生标记LPC1和LPC2之间的作为结果的时域信号608,如图6的线B上所示。这个解码的TC帧402包含开窗和时域混叠效应610、612。
如图5中的FAC合成信号506、512位于TC帧402的开始和结束处。更具体地,接收的FAC参数被解码,如果适用,则例如使用IDCT(504、510)进行逆变换,并使用滤波器1/W1(z)505对其滤波以产生第一部分506、以及使用滤波器1/W2(z)511对其滤波以产生第二部分512。这产生图5中示出的两个FAC合成部分506、512。第一FAC合成部分506位于线A上的TC帧402的开始处,而第二FAC合成部分512位于线A上的TC帧402的结束处。
来自TC帧402之前的ACELP帧404的开窗、折叠(时间反转)的ACELP合成618和ACELP合成滤波器的ZIR 620位于TC帧402的开始处。这在线C上示出。
通过加法器622和624将线A、B和C相加,以形成线D上的原始域中的TC帧的合成信号602。这个处理已经在TC帧402中产生合成信号602,其中时域混叠和窗口效应已经在帧402的开始和结束处被消除,并且标记LPC1周围的帧边界处的潜在中断通过图5的滤波器1/W1(z)505和1/W2(z)511已经进一步平滑和感知地(perceptually)隐藏了。
当然,从线A到C的信号相加可以以任何顺序执行,而不改变所述处理的结果。
也可以将FAC直接应用于在解码器处的没有任何窗口的TC帧的合成输出。在这种情况下,考虑解码的TC帧402的不同开窗(或没有开窗)而调整FAC的形状。
可以在编码期间改变FAC帧的长度。例如,取决于信号的性质,示例性帧长度可以是64或128个样本。例如,在无声信号的情况下,可以使用较短的FAC帧。可以使用例如1比特指示器或标志(flag),将关于FAC帧长度的信息发信号到解码器,以指示64或128个样本的帧。包括将FAC长度发信号的传输顺序的示例包括下列套件(suite):
-具有重叠的TC(256比特)
-FAC+将FAC长度发信号(128比特)
-ACELP
-FAC+将FAC长度发信号(64比特)
-具有重叠的TC(128比特)
此外可以发送发信号的信息,以指示将由解码器执行的某些处理功能。一个示例是特定于ACELP帧的后处理的激活的信号发送。后处理可以在由几个连续ACELP帧组成的某个时段打开或关闭。在从TC到ACELP的转换中,1比特标志可以被包含于FAC信息中,以对后处理的激活发信号。在实施例中,仅在几个ACELP帧的序列中的第一个帧中发送该标志。这样,可以将该标志添加到也在第一ACELP帧发送的FAC信息。
图7是用于前向消除在比特流中接收的编码音频信号中的时域混叠的设备的非限定性示例的框图。参考图5和图6的FAC目标,用于说明的目的,使用来自ACELP模式的信息而给出设备700。本领域技术人员将意识到,可以与每个本公开中给出的编码模式和FAC校正的其它示例有关地实施对应的设备700。
设备700包括用于接收代表编码音频信号的比特流701的接收器,该编码音频信号包括代表FAC目标的FAC参数。
将来自比特流701的用于ACELP帧的参数(prm)从接收器710提供到包括ACELP合成滤波器的ACELP解码器711。ACELP解码器711产生ACELP合成滤波器的零输入响应(ZIR)704。而且,ACELP合成解码器711产生ACELP合成信号702。将ACELP合成信号702和ZIR 704相接(concatenate)以形成ACELP合成信号其后跟着ZIR。接着将具有与图6中线C应用的开窗相匹配的特性的FAC窗口703应用到相接的信号707和704。将ACELP合成信号707开窗并折叠,以产生图6的线C的ACELP合成618,同时将ZIR 704开窗以产生图6的ACELP ZIR 620。将二者在处理器705中相加,并接着应用于加法器720的正输入,以产生TCX帧中的音频信号的第一(可选)部分。
将来自比特流701的用于TCX 20帧的参数(prm)提供给TCX解码器706,随后是IMDCT变换713和用于IMDCT的窗口714,以产生TCX 20合成信号702(见图6的线B的608、610和612),将其应用于加法器716的正输入,以产生TCX 20帧中的音频信号的第二部分。
然而,当在编码模式之间转换(例如从ACELP帧到TCX 20帧)时,不使用FAC处理器715将无法正确解码部分音频信号。在图7的示例中,FAC处理器715包括用于从接收的比特流701解码FAC参数(图5的DCT 502和508的输出)的FAC解码器717,该FAC参数对应于滤波(见图5的滤波器501和507)以及DCT变换(见图5的DCT 502和508)之后,如图5的量化器Q(503、509)所产生的的FAC目标。IDCT 718(对应于图5的IDCT 504和505)对来自解码器717的解码的FAC参数应用逆DCT,并且将IDMCT 718的输出提供给加法器720的正输入。将加法器720的输出提供给滤波器719,其将逆加权滤波器1/W1(z)(图5的505)的特性应用于FAC目标的第一部分(对应于图5的432),并将逆加权滤波器1/W2(z)(图5的511)的特性应用于FAC目标的第二部分(对应于图5的434)。将滤波器719的输出提供给加法器716的正输入。
加法器716的全局输出表示用于跟随在ACELP帧之后的TCX帧的消除了FAC的合成信号(图6的602)。
图8是用于传输到解码器的编码信号中的前向时域混叠消除的设备800的非限定性示例的框图。为了说明性的目的,参考图4和5的FAC目标,使用来自ACELP模式的信息而给出设备800。本领域技术人员将意识到,可以与每个本公开中给出的编码模式和FAC校正的其它示例有关地实施对应的设备800。
将要编码的音频信号801应用于设备800。一个逻辑(未示出)将音频信号801的ACELP帧应用于ACELP编码器810。将ACELP编码器810的输出,即ACELP编码的参数802,应用于多路复用器(MUX)811的第一输入,以传输到接收器(未示出)。ACELP编码器的另一个输出是ACELP合成信号860,其后跟随形成ACELP编码器810的一部分的ACELP合成滤波器的零输入响应(ZIR)861。通过FAC窗口处理器805,将具有与图4的线3上应用的开窗相匹配的特性的FAC窗口805应用到信号860和861的相接。将FAC窗口处理器805的输出(对应于图4的线3)应用于加法器851的负输入(对应于图4的加法器427)。
该逻辑(未示出)还将音频信号801的TCX 20帧(见图4的帧402)应用于MDCT编码模式812,以产生TCX 20编码的参数803,将其应用于多路复用器811的第二输入,以传输到接收器(未示出)。MDCT编码模块812包括MDCT窗口831、MDCT变换832、以及量化器833。将音频信号801通过MDCT窗口831开窗,并且从MDCT窗口831将MDCT开窗信号提供到加法器850(对应于图4的加法器426)的正输入。还将来自MDCT窗口831的MDCT开窗信号提供给MDCT,以产生MDCT系数,将其提供给量化器833,以产生TCX参数803和量化MDCT系数804,并将量化MDCT系数804应用到逆MDCT(IMDCT)833。IMDCT 833的输出是合成信号(对应于图4的合成信号412),将其提供给加法器850(对应于图4的加法器426)的负输入。加法器850的输出形成TCX量化误差,其在处理器836中开窗。将处理器836的输出提供给加法器851的正输入。
当在编码模式之间转换时(例如从ACELP帧到TCX 20帧),通过MDCT模块812编码的某些音频帧可能无法在没有附加信息的情况下被正确解码。计算器813提供该附加信息,更具体地,编码和量化的FAC目标。计算器813的所有组件可以视为FAC参数806的产生器。加法器851的输出是FAC目标(对应于图4的线4)。将FAC目标输入到滤波器808,滤波器808将加权滤波器W1(z)501(图5)的特性应用于FAC目标的第一部分432并且将加权滤波器W2(z)507(图5)的特性应用于FAC目标的第二部分434。接着将滤波器804的输出应用于DCT 834(对应于图5的DCT 502和508),接着是在量化器837(对应于图5的量化器503和509)中量化DCT 834的输出,以产生FAC参数806,将FAC参数806应用于多路复用器811的输入,以传输到接收器(未示出)。
多路复用器811的输出处的信号代表要在编码的比特流857中通过发送器856而发送到接收器(未示出)的编码音频信号855。
本领域普通技术人员将认识到,用于前向消除在编码信号中的时域混叠的设备和方法的描述仅为说明而不意图以任何方式限制。本领域普通技术人员将从本公开中受益而容易地领悟到其它实施例。此外,可以定制公开的设备和方法,以为消除编码信号中的时域混叠的现有需要和问题提供有价值的解决方案。
本领域普通技术人员也将意识到,终端或其它装置的多种类型可以在同一个设备中实施用于编码音频传输的编码的方面、以及跟随编码音频的接收而进行解码的方面这二者。
为了清晰起见,并未显示和描述编码信号中的时域混叠的前向消除的实施方式的所有常规特征。当然,将会意识到,在音频编码的任何这样的实施方式的开发中,为了实现开发者的特定目标(诸如遵守应用、系统、网络和商务相关的约束),以及这些特定目标将会根据实施方式不同以及根据开发者不同而变化,必须做出大量实施方式特定的决定。此外,将会意识到,开发计划可以是复杂并耗时的,但无论如何,具有本公开的优点的音频编码系统将会是本领域普通技术人员的设计的常规工作。
依据本公开,可以使用各种类型的操作系统、计算平台、网络设备、计算机程序、和/或通用机来实施此处所述的组件、处理步骤、和/或数据结构。此外,本领域普通技术人员将认识到,也可以使用较少通用性的设备,诸如硬连线设备、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、等等。通过计算机或机器实施包括一系列过程步骤的方法,并且这些过程步骤可以作为一系列机器可读指令而存储,其可以存储于有形介质上。
此处所述的系统和模块可以包括软件、固件、硬件,或适合于此处所述目的的软件、固件或硬件的任何组合。软件和其它模块可以位于服务器、工作站、个人电脑、平板电脑、PDA、以及适合于此处所述目的的其它设备上。软件和其它模块可以经由本地存储器、经由网络、经由浏览器或ASP环境中的其它应用、或者经由适合于此处所述目的的其它手段而访问。此处所述的数据结构可以包括计算机文件、变量、编程阵列、编程结构,或者任何电子信息存储方案或方法,或其适合于此处所述目的的任何组合。
尽管在上文中通过其非限制性说明性实施例的方式而对本公开进行了描述,但在不脱离本公开的精神和特性的情况下,这些实施例可以在附加权利要求的范围之内进行修改。

Claims (36)

1.一种用于产生前向混叠消除参数的方法,所述前向混叠消除参数用于消除由在具有重叠窗口的使用第一变换编码模式的第一帧和具有非重叠窗口的使用第二编码模式的第二帧之间的转换对在所述第一帧中的编码音频信号造成的时域混叠,包括:
计算表示编码前的第一帧的音频信号和第一帧的编码音频信号的合成之间的差的前向混叠消除目标;以及
加权所述前向混叠消除目标以产生所述前向混叠消除参数,并且其中
加权所述前向混叠消除目标包括通过加权滤波器处理所述前向混叠消除目标部分,所述加权滤波器从用于对所述第一帧中的编码噪声进行整形的LPC滤波器导出。
2.如权利要求1所述的方法,包括通过对所述加权的前向混叠消除目标应用编码变换而变换所述加权的前向混叠消除目标。
3.如权利要求1所述的方法,其中所述前向混叠消除目标包括邻近所述第二帧的第一前向混叠消除目标部分,其中加权所述前向混叠消除目标包括通过加权滤波器处理所述第一前向混叠消除目标部分。
4.如权利要求1所述的方法,其中所述第二帧在所述第一帧之前,并且其中所述方法进一步包括:从编码前的第一帧的音频信号和第一帧的编码音频信号的合成之间的差中,减去下述影响成分,该影响成分包括所述第二帧的上一合成样本的开窗和时间反转的版本以及在所述第二帧中使用的合成滤波器的开窗的零输入响应。
5.如权利要求1所述的方法,其中所述第一帧是基于MDCT的变换编码帧,并且所述第二帧是ACELP帧。
6.如权利要求3中所述的方法,其中所述加权滤波器是从LPC滤波器导出的。
7.如权利要求5中所述的方法,其中对所述基于MDCT的变换编码帧应用频域噪声整形。
8.如权利要求2所述的方法,其中变换所述加权的前向混叠消除目标包括对所述加权的前向混叠消除目标应用DCT变换。
9.一种用于前向消除时域混叠的方法,所述时域混叠是由在具有重叠窗口的使用第一变换编码模式的第一帧和具有非重叠窗口的使用第二编码模式的第二帧之间的转换对在所述第一帧中的编码音频信号造成的时域混叠,所述方法包括:
接收加权的前向混叠消除参数;
逆加权所述加权的前向混叠消除参数,以产生前向混叠消除合成;以及
基于所述第一帧中的编码音频信号的合成,使用所述前向混叠消除合成从所述音频信号合成中消除所述时域混叠,其中
逆加权所述加权的前向混叠消除参数包括通过从LPC滤波器导出的逆加权滤波器处理所述加权的前向混叠消除参数。
10.如权利要求9中所述的方法,其中所述接收的前向混叠消除参数是变换的加权的前向混叠消除参数,并且其中所述方法包括通过对所述变换加权的前向混叠消除参数应用逆编码变换来逆变换所述变换的加权的前向混叠消除参数,以产生逆变换的加权的前向混叠消除参数。
11.如权利要求9中所述的方法,其中所述前向混叠消除合成包括邻近所述第二帧的前向混叠消除合成部分。
12.如权利要求11中所述的方法,包括从用于对所述第一帧中的编码噪声进行整形的LPC滤波器导出所述逆加权滤波器。
13.如权利要求9所述的方法,其中消除所述时域混叠包括将所述前向混叠消除合成和所述第一帧的编码音频信号的合成相加。
14.如权利要求13中所述的方法,其中所述第二帧在所述第一帧之前,并且其中所述方法进一步包括:向所述前向混叠消除合成和所述第一帧的编码音频信号的合成的相加加上下述影响成分,该影响成分包括所述第二帧的上一合成样本的开窗和时间反转的版本以及在所述第二帧中使用的合成滤波器的开窗的零输入响应。
15.如权利要求9所述的方法,其中所述第一帧是基于MDCT的变换编码帧,并且所述第二帧是ACELP帧。
16.如权利要求15中所述的方法,其中对所述基于MDCT的变换编码帧应用频域噪声整形。
17.如权利要求10中所述的方法,其中逆变换所述变换的加权的前向混叠消除参数包括对所述变换的加权的前向混叠消除参数应用逆DCT变换,旨在产生逆变换的加权的前向混叠消除参数。
18.一种用于产生前向混叠消除参数的设备,所述前向混叠消除参数用于消除由在具有重叠窗口的使用第一变换编码模式的第一帧和具有非重叠窗口的使用第二编码模式的第二帧之间的转换对在所述第一帧中的编码音频信号造成的时域混叠,包括:
前向混叠消除目标计算器,该前向混叠消除目标表示编码前的第一帧的音频信号和第一帧的编码音频信号的合成之间的差;以及
加权滤波器,提供有所述前向混叠消除目标,以产生所述前向混叠消除参数,其中
所述加权滤波器从用于对所述第一帧中的编码噪声进行整形的LPC滤波器导出。
19.如权利要求18所述的设备,包括应用于所述加权的前向混叠消除目标的编码变换。
20.如权利要求18所述的设备,其中所述前向混叠消除目标包括邻近所述第二帧的前向混叠消除目标部分。
21.如权利要求18所述的设备,其中所述第二帧在所述第一帧之前,并且其中所述设备进一步包括加法器,用于从编码前的第一帧的音频信号和第一帧的编码音频信号的合成之间的差中,减去下述影响成分,该影响成分包括所述第二帧的上一合成样本的开窗和时间反转的版本以及在所述第二帧中使用的合成滤波器的开窗的零输入响应。
22.如权利要求18所述的设备,其中所述第一帧是基于MDCT的变换编码帧,并且所述第二帧是ACELP帧。
23.如权利要求22所述的设备,其中所述加权滤波器是从LPC滤波器导出的。
24.如权利要求22所述的设备,其中对所述基于MDCT的变换编码帧应用频域噪声整形。
25.如权利要求19所述的设备,其中所述编码变换是DCT变换。
26.一种音频信号编码器,包括:
使用具有重叠窗口的帧以第一变换编码模式对所述音频信号编码的第一编码器;
使用具有非重叠窗口的帧以第二编码模式对所述音频信号编码的第二编码器;以及
如权利要求18所述的用于产生前向混叠消除参数的设备,所述前向混叠消除参数用于消除由在具有重叠窗口的使用第一编码模式的第一帧和具有非重叠窗口的使用第二编码模式的第二帧之间的转换对在所述具有重叠窗口的第一帧中以第一编码模式编码的音频信号造成的时域混叠。
27.一种用于前向消除时域混叠的设备,所述时域混叠是由在具有重叠窗口的使用第一变换编码模式的第一帧和具有非重叠窗口的使用第二编码模式的第二帧之间的转换对在所述第一帧中的编码音频信号造成的时域混叠,所述设备包括:
用于接收加权的前向混叠消除参数的输入器;
逆加权滤波器,提供有所述加权的前向混叠消除参数,以产生前向混叠消除合成;以及
响应于所述前向混叠消除合成对所述编码音频信号解码以产生第一帧中消除了时域混叠的音频信号合成的解码器,其中
所述逆加权滤波器是从用于对所述第一帧中的编码噪声进行整形的LPC滤波器导出的。
28.如权利要求27所述的设备,其中所述接收的前向混叠消除参数是变换的加权的前向混叠消除参数,并且其中所述设备包括应用于所述变换的加权的前向混叠消除参数以产生逆变换的加权的前向混叠消除参数的逆变换。
29.如权利要求27中所述的设备,其中所述前向混叠消除合成包括邻近所述第二帧的前向混叠消除合成部分。
30.如权利要求27所述的设备,其中所述解码器包括为了消除时域混叠将所述前向混叠消除合成和所述第一帧的编码音频信号的合成相加的加法器。
31.如权利要求30中所述的设备,其中所述第二帧在所述第一帧之前,并且其中所述设备进一步包括加法器,用于向所述前向混叠消除合成和所述第一帧的编码音频信号的合成的相加加上下述影响成分,该影响成分包括所述第二帧的上一合成样本的开窗和时间反转的版本以及在所述第二帧中使用的合成滤波器的开窗的零输入响应。
32.如权利要求27所述的设备,其中所述第一帧是基于MDCT的变换编码帧,并且所述第二帧是ACELP帧。
33.如权利要求32中所述的设备,其中所述逆加权滤波器是从LPC滤波器导出的。
34.如权利要求32中所述的设备,其中对所述基于MDCT的变换编码帧应用频域噪声整形。
35.如权利要求28中所述的设备,其中所述逆变换是逆DCT变换。
36.一种音频信号解码器,包括:
对使用具有重叠窗口的帧以第一变换编码模式编码的音频信号解码的第一解码器;
对使用具有非重叠窗口的帧以第二编码模式编码的音频信号解码的第二解码器;以及
如权利要求29所述的设备,用于前向消除由在具有重叠窗口的使用第一编码模式的第一帧和具有非重叠窗口的使用第二编码模式的第二帧之间的转换对在所述具有重叠窗口的第一帧中以第一编码模式编码的音频信号造成的时域混叠。
CN201180006073.6A 2010-01-13 2011-01-13 使用线性预测滤波的前向时域混叠消除 Active CN102770912B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US29468810P 2010-01-13 2010-01-13
US61/294,688 2010-01-13
PCT/CA2011/000040 WO2011085483A1 (en) 2010-01-13 2011-01-13 Forward time-domain aliasing cancellation using linear-predictive filtering

Publications (2)

Publication Number Publication Date
CN102770912A CN102770912A (zh) 2012-11-07
CN102770912B true CN102770912B (zh) 2015-06-10

Family

ID=44303760

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180006073.6A Active CN102770912B (zh) 2010-01-13 2011-01-13 使用线性预测滤波的前向时域混叠消除

Country Status (6)

Country Link
US (1) US9093066B2 (zh)
EP (1) EP2524374B1 (zh)
CN (1) CN102770912B (zh)
ES (1) ES2706061T3 (zh)
TR (1) TR201900663T4 (zh)
WO (1) WO2011085483A1 (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8457975B2 (en) 2009-01-28 2013-06-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program
ES2673637T3 (es) * 2009-06-23 2018-06-25 Voiceage Corporation Cancelación prospectiva de solapamiento en dominio de tiempo con aplicación en dominio de señal ponderada u original
JP5547810B2 (ja) * 2009-07-27 2014-07-16 インダストリー−アカデミック コーペレイション ファウンデイション, ヨンセイ ユニバーシティ オーディオ信号を処理する方法及び装置
PL4120248T3 (pl) * 2010-07-08 2024-05-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Dekoder wykorzystujący kasowanie aliasingu w przód
US20140058737A1 (en) * 2011-10-28 2014-02-27 Panasonic Corporation Hybrid sound signal decoder, hybrid sound signal encoder, sound signal decoding method, and sound signal encoding method
WO2013168414A1 (ja) * 2012-05-11 2013-11-14 パナソニック株式会社 音信号ハイブリッドエンコーダ、音信号ハイブリッドデコーダ、音信号符号化方法、及び音信号復号方法
CN103915100B (zh) * 2013-01-07 2019-02-15 中兴通讯股份有限公司 一种编码模式切换方法和装置、解码模式切换方法和装置
WO2014128194A1 (en) * 2013-02-20 2014-08-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating an encoded signal or for decoding an encoded audio signal using a multi overlap portion
MY175355A (en) * 2013-08-23 2020-06-22 Fraunhofer Ges Forschung Apparatus and method for processing an audio signal an aliasing erro signal
EP2980796A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for processing an audio signal, audio decoder, and audio encoder
EP2980797A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition
US10741195B2 (en) * 2016-02-15 2020-08-11 Mitsubishi Electric Corporation Sound signal enhancement device
US10438597B2 (en) * 2017-08-31 2019-10-08 Dolby International Ab Decoder-provided time domain aliasing cancellation during lossy/lossless transitions
EP3451332B1 (en) * 2017-08-31 2020-03-25 Dolby International AB Decoder-provided time domain aliasing cancellation during lossy/lossless transitions
WO2020094263A1 (en) * 2018-11-05 2020-05-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and audio signal processor, for providing a processed audio signal representation, audio decoder, audio encoder, methods and computer programs
CN110211591B (zh) * 2019-06-24 2021-12-21 卓尔智联(武汉)研究院有限公司 基于情感分类的面试数据分析方法、计算机装置及介质
US11074926B1 (en) * 2020-01-07 2021-07-27 International Business Machines Corporation Trending and context fatigue compensation in a voice signal
EP4154249B1 (en) * 2020-05-20 2024-01-24 Dolby International AB Methods and apparatus for unified speech and audio decoding improvements

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6134518A (en) * 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
US6314393B1 (en) * 1999-03-16 2001-11-06 Hughes Electronics Corporation Parallel/pipeline VLSI architecture for a low-delay CELP coder/decoder
CN1672418A (zh) * 2000-08-16 2005-09-21 多尔拜实验特许公司 响应补克信息修改音频或视频感知编码系统的一个或多个参数
CN1954367A (zh) * 2004-05-19 2007-04-25 诺基亚公司 支持音频编码器模式间的转换
CN101231850A (zh) * 2007-01-23 2008-07-30 华为技术有限公司 编解码方法及装置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5297236A (en) 1989-01-27 1994-03-22 Dolby Laboratories Licensing Corporation Low computational-complexity digital filter bank for encoder, decoder, and encoder/decoder
US6049517A (en) 1996-04-30 2000-04-11 Sony Corporation Dual format audio signal compression
WO1999010719A1 (en) * 1997-08-29 1999-03-04 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
US6327691B1 (en) 1999-02-12 2001-12-04 Sony Corporation System and method for computing and encoding error detection sequences
CA2392640A1 (en) 2002-07-05 2004-01-05 Voiceage Corporation A method and device for efficient in-based dim-and-burst signaling and half-rate max operation in variable bit-rate wideband speech coding for cdma wireless systems
DE10345996A1 (de) 2003-10-02 2005-04-28 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Verarbeiten von wenigstens zwei Eingangswerten
US7516064B2 (en) 2004-02-19 2009-04-07 Dolby Laboratories Licensing Corporation Adaptive hybrid transform for signal analysis and synthesis
US8032359B2 (en) 2007-02-14 2011-10-04 Mindspeed Technologies, Inc. Embedded silence and background noise compression
CN101925953B (zh) 2008-01-25 2012-06-20 松下电器产业株式会社 编码装置、解码装置以及其方法
WO2009113316A1 (ja) 2008-03-14 2009-09-17 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
ES2683077T3 (es) 2008-07-11 2018-09-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada
MX2011000375A (es) * 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada.
KR101649376B1 (ko) * 2008-10-13 2016-08-31 한국전자통신연구원 Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치
ES2673637T3 (es) * 2009-06-23 2018-06-25 Voiceage Corporation Cancelación prospectiva de solapamiento en dominio de tiempo con aplicación en dominio de señal ponderada u original
EP2489041B1 (en) 2009-10-15 2020-05-20 VoiceAge Corporation Simultaneous time-domain and frequency-domain noise shaping for tdac transforms
MX2012004648A (es) * 2009-10-20 2012-05-29 Fraunhofer Ges Forschung Codificacion de señal de audio, decodificador de señal de audio, metodo para codificar o decodificar una señal de audio utilizando una cancelacion del tipo aliasing.
PL4120248T3 (pl) 2010-07-08 2024-05-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Dekoder wykorzystujący kasowanie aliasingu w przód
JP2012118517A (ja) 2010-11-11 2012-06-21 Ps-Tokki Inc 手振れ補正ユニット

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6134518A (en) * 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
US6314393B1 (en) * 1999-03-16 2001-11-06 Hughes Electronics Corporation Parallel/pipeline VLSI architecture for a low-delay CELP coder/decoder
CN1672418A (zh) * 2000-08-16 2005-09-21 多尔拜实验特许公司 响应补克信息修改音频或视频感知编码系统的一个或多个参数
CN1954367A (zh) * 2004-05-19 2007-04-25 诺基亚公司 支持音频编码器模式间的转换
CN101231850A (zh) * 2007-01-23 2008-07-30 华为技术有限公司 编解码方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Convolutional Effects in Transform Coding with TDAC:An Optimal Window;Anibal J.S. Ferreira;《IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING》;19960331;第4卷(第2期);第104-114页 *
Efficient cross-fade windows for transitions between LPC-based and non-LPC based audio coding;Jeremie Lecomte et.al;《Audio Engineering Society》;20090510;第1-9页 *
Unified Speech and Audio Coding Scheme for High Quality at Low Bitrates;M.Neuendorf et.al;《ICASSP 2009》;20091231;第1-4页 *

Also Published As

Publication number Publication date
CN102770912A (zh) 2012-11-07
WO2011085483A1 (en) 2011-07-21
US9093066B2 (en) 2015-07-28
US20120022880A1 (en) 2012-01-26
TR201900663T4 (tr) 2019-02-21
EP2524374A1 (en) 2012-11-21
ES2706061T3 (es) 2019-03-27
EP2524374A4 (en) 2014-08-27
EP2524374B1 (en) 2018-10-31

Similar Documents

Publication Publication Date Title
CN102770912B (zh) 使用线性预测滤波的前向时域混叠消除
RU2557455C2 (ru) Прямая компенсация наложения спектров во временной области с применением в области взвешенного или исходного сигнала
EP3693964B1 (en) Simultaneous time-domain and frequency-domain noise shaping for tdac transforms
CN101425294B (zh) 声音编解码与发送接收设备及编码方法、通信终端和基站
CN102859588B (zh) 音频信号编码器、音频信号译码器、用以提供音频内容的编码表示型态的方法、用以提供音频内容的译码表示型态的方法
EP3268962B1 (en) Decoder for decoding an encoded audio signal and encoder for encoding an audio signal
CN103384900B (zh) 在预测编码与变换编码之间交替的低延迟声音编码
US11475901B2 (en) Frame loss management in an FD/LPD transition context
CN103703512A (zh) 用于音频编码和解码的方法和装置
EP2772914A1 (en) Hybrid sound-signal decoder, hybrid sound-signal encoder, sound-signal decoding method, and sound-signal encoding method
US20180130478A1 (en) Encoding apparatus and decoding apparatus for transforming between modified discrete cosine transform-based coder and different coder
US9984696B2 (en) Transition from a transform coding/decoding to a predictive coding/decoding
US8880411B2 (en) Critical sampling encoding with a predictive encoder
US9620139B2 (en) Adaptive linear predictive coding/decoding

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant