CN108463850B - 用于音频变换编码中重叠率的信号自适应切换的编码器、解码器以及方法 - Google Patents
用于音频变换编码中重叠率的信号自适应切换的编码器、解码器以及方法 Download PDFInfo
- Publication number
- CN108463850B CN108463850B CN201680067262.7A CN201680067262A CN108463850B CN 108463850 B CN108463850 B CN 108463850B CN 201680067262 A CN201680067262 A CN 201680067262A CN 108463850 B CN108463850 B CN 108463850B
- Authority
- CN
- China
- Prior art keywords
- audio samples
- time
- domain audio
- domain
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/11—Complex mathematical operations for solving equations, e.g. nonlinear equations, general mathematical optimization problems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/14—Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
- G06F17/147—Discrete orthonormal transforms, e.g. discrete cosine transform, discrete sine transform, and variations therefrom, e.g. modified discrete cosine transform, integer transforms approximating the discrete cosine transform
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Theoretical Computer Science (AREA)
- Computational Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Discrete Mathematics (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
提供了用于解码多个频谱域音频样本的解码器。该解码器包括用于从频谱域音频样本生成第一组时域中间音频样本和第二组时域中间音频样本的第一解码模块(110)。而且,该解码器包括重叠加法器(130),用于以多于5%且至多50%的重叠将第一组时域中间音频样本和第二组时域中间音频样本重叠相加。此外,该解码器包括用于从频谱域音频样本生成第三组时域中间音频样本和第四组时域中间音频样本的第二解码模块(120)。而且,该解码器包括输出接口(140)。重叠加法器(130)被配置为以多于60%且少于100%的重叠将至少第三组时域中间音频样本和第四组时域中间音频样本重叠相加。而且,重叠加法器(130)被配置为将至少第二组时域中间音频样本和第三组时域中间音频样本重叠相加,或者将至少第四组时域中间音频样本和第一组时域中间音频样本重叠相加。
Description
技术领域
本发明涉及音频信号编码、处理和解码,并且特别地涉及用于音频变换编码中重叠率的信号自适应切换的编码器、解码器和方法。
背景技术
在过去的20年中,特别是自从MPEG-1层3(MP3)和AC-2(杜比数字)编码器的发展以来,感知音频编码完全依赖于由Princen等人引入(参见[1],[2])的并针对波形保持谱量化由Malvar以调制重叠变换(MLT)的名义进一步研究(参见[3])的改进的离散余弦变换(MDCT)。给定帧索引i的长度为M的谱Xi′,这个变换的逆可以写为
其中0≤n<N并且N是窗口长度。由于因此重叠率为50%。在基于MPEG-2高级音频编码(AAC)规范的最近标准(参见[4],[5])中,这个概念已经扩展到也允许参数化工具(诸如MDCT域中的噪声填充)。例如,MPEG-H 3D音频框架(参见[6],[7])为以下提出:半参数变换域编码,例如,一些频率上的归零谱线的噪声填充功能;用于半参数联合立体声编码的立体声填充(参见[8],[9]);以及用于扩展带宽的智能间隙填充(IGF)(参见[10])。
在[9]中,IGF和立体声填充的结合([8]中标题为谱带替换(SBS)),辅以针对具有非平凡声道间相位差的输入的变换内核切换,被示出为大部分信号提供良好的音频质量。但是,对于准静止谐波段,主观性能低于在伪QMF域中使用谱带复制(SBR)和“统一立体声”MPEG环绕的替代高延迟/复杂3D音频配置。对这种行为的解释是在后一种配置中使用的MDCT的较高频率分辨率:在48kHz的给定输出采样率下,M大小的核心变换在24kHz的下采样降混和残余信号上操作,从而使帧长度加倍。
基于SBS的3D音频编码由于其延迟、复杂性和时间分辨率优势[8]而至少针对单声道和立体声信号表现选择的变体,并且期望改进其设计-同时维持帧长度-使得其性能可以与基于QMF的配置相匹配,即使在单乐器和其它音调录制上。准静止段上提高频谱效率的可行解决方案是由Malvar提出的扩展重叠变换(ELT)(参见[11],[12]),除0≤n<L且L≥4M以外,其逆(合成)版本与(1)完全相同。
因此,公式(1)指示逆MLT以及逆ELT。唯一的区别是,在逆MLT的情况下,n被定义为0≤n<N,例如N=2·M,在逆ELT的情况下,n被定义为0≤n<L,例如,L≥4M。
遗憾的是,如下所示,ELT的重叠率至少为75%,而不是MDCT的50%,这常常导致瞬态波形部分(如鼓击或音调开始)的可听的伪影。而且,与MDCT编解码器中用于精确地这种瞬态帧的技术类似,用于不同长度的ELT之间或者ELT与MLT之间的块长度切换的实际解决方案尚未给出并且仅公开了理论工作(参见例如[13],[14],[15],[16],[17])。
发明内容
本发明的目标是为音频信号编码、处理和解码提供改进的概念。
提供了用于解码多个频谱域音频样本的解码器。解码器包括第一解码模块,其用于从频谱域音频样本生成第一组时域中间音频样本和第二组时域中间音频样本。而且,解码器包括重叠加法器,其用于以多于5%且至多50%的重叠将第一组时域中间音频样本与第二组时域中间音频样本重叠相加。此外,解码器包括第二解码模块,其用于从频谱域音频样本生成第三组时域中间音频样本和第四组时域中间音频样本。而且,解码器包括输出接口。重叠加法器被配置为以多于60%且少于100%的重叠将至少第三组时域中间音频样本与第四组时域中间音频样本重叠相加。而且,重叠加法器被配置为至少重叠相加第二组时域中间音频样本和第三组时域中间音频样本,或者重叠相加至少第四组时域中间音频样本和第一组时域中间音频样本。
特别地,提供了用于解码多个频谱域音频样本的解码器。解码器包括第一解码模块,其用于通过从第一组频谱域音频样本的频谱域音频样本生成第一组时域中间音频样本来解码第一组频谱域音频样本,以及用于通过从第二组频谱域音频样本的频谱域音频样本生成第二组时域中间音频样本来解码第二组频谱域音频样本。
而且,解码器包括重叠加法器,其中重叠加法器被配置为对恰好两组时域中间音频样本进行重叠相加,所述恰好两组是第一组时域中间音频样本和第二组时域中间音频样本,其中重叠加法器被配置为以多于5%且至多50%的重叠将所述恰好两组重叠相加,其中所述恰好两组的所述重叠相加导致生成音频信号的第一多个时域音频输出样本。
此外,解码器包括第二解码模块,其用于通过从第三组频谱域音频的频谱域音频样本生成第三组时域中间音频样本来解码第三组频谱域音频样本,并且用于通过从第四组频谱域音频样本的频谱域音频样本生成第四组时域中间音频样本来解码第四组频谱域音频样本。
而且,解码器包括输出接口,其用于输出音频信号的第一多个时域音频输出样本、音频信号的第二多个时域音频输出样本和音频信号的第三多个时域音频输出样本。
重叠加法器被配置为使用以多于60%且少于100%的重叠将至少第三组时域中间音频样本与第四组时域中间音频样本重叠相加来获得第二多个时域音频输出样本。
而且,重叠加法器被配置为使用至少第二组时域中间音频样本与第三组时域中间音频样本的重叠相加来获得第三多个时域音频输出样本,或者其中重叠加法器被配置为使用至少第四组时域中间音频样本与第一组时域中间音频样本的重叠相加来获得第三多个时域音频输出样本。
而且,提供了一种编码器,其用于通过从多组时域音频样本生成多组频谱域音频样本来对音频信号的多个时域音频样本进行编码。
该编码器包括第一编码模块,其用于从多组时域音频样本的第一组生成多组频谱域音频样本的第一组,并且用于从多组时域音频样本的第二组生成多组频谱域音频样本的第二组,其中第一组时域音频样本和第二组时域音频样本在多组时域音频样本中在时间上相邻,其中第一组时域音频样本包括第二组时域音频样本的多于5%且至多50%的音频样本,并且其中第二组时域音频样本包括第一组时域音频样本的多于5%且至多50%的音频样本。
此外,编码器包括第二编码模块,其用于从多组时域音频样本的第三组生成多组频谱域音频样本的第三组,并且用于从多组时域音频样本的第四组生成多组频谱域音频样本的第四组,其中第三组时域音频样本包括第四组时域音频样本的多于60%且少于100%的音频样本,并且其中第四组时域音频样本包括第三组时域音频样本的多于60%且少于100%的音频样本。
而且,编码器包括输出模块,其用于输出第一组频谱域音频样本、第二组频谱域音频样本、第三组频谱域音频样本和第四组频谱域音频样本。
第三组时域音频样本包括第二组时域音频样本的音频样本,或者其中第四组时域音频样本包括第一组时域音频样本的音频样本。
此外,提供了一种系统。该系统包括根据上述实施例的一个的编码器和根据上述实施例的一个的解码器。编码器被配置为通过生成多个频谱域音频样本来对音频信号的多个时域音频样本进行编码。而且,解码器被配置为从编码器接收多个频谱域音频样本。此外,解码器被配置为解码多个频谱域音频样本。
而且,提供了用于解码多个频谱域音频样本的方法。该方法包括:
-通过从第一组频谱域音频样本的频谱域音频样本生成第一组时域中间音频样本来解码第一组频谱域音频样本,并且通过从第二组频谱域音频样本的频谱域音频样本生成第二组时域中间音频样本来解码第二组频谱域音频样本。
-恰好两组时域中间音频样本的重叠相加,所述恰好两组是第一组时域中间音频样本和第二组时域中间音频样本,其中所述恰好两组以多于5%且至多50%的重叠被重叠相加,其中所述恰好两组的所述重叠相加导致生成音频信号的第一多个时域音频输出样本。
-通过从第三组频谱域音频样本的频谱域音频样本生成第三组时域中间音频样本来解码第三组频谱域音频样本,并且通过从第四组频谱域音频样本的频谱域音频样本生成第四组时域中间音频样本来解码第四组频谱域音频样本。
-输出音频信号的第一多个时域音频输出样本、音频信号的第二多个时域音频输出样本和音频信号的第三多个时域音频输出样本。
-使用至少第三组时域中间音频样本与第四组时域中间音频样本以多于60%且少于100%的重叠进行重叠相加来获得第二多个时域音频输出样本。以及
-使用至少第二组时域中间音频样本与第三组时域中间音频样本的重叠相加来获得第三多个时域音频输出样本,或者使用至少第四组时域中间音频样本与第一组时域中间音频样本的重叠相加来获得第三多个时域音频输出样本。
此外,提供了用于通过从多组时域音频样本生成多组频谱域音频样本来对音频信号的多个时域音频样本进行编码的方法。该编码器包括:
-从多组时域音频样本的第一组生成多组频谱域音频样本的第一组,并且从多组时域音频样本的第二组生成多组频谱域音频样本的第二组,其中第一组时域音频样本和第二组时域音频样本在多组时域音频样本内在时间上相邻,其中第一组时域音频样本包括第二组时域音频样本的多于5%且至多50%的音频样本,并且其中第二组时域音频样本包括第一组时域音频样本的多于5%且至多50%的音频样本。
-从多组时域音频样本的第三组生成多组频谱域音频样本的第三组,并且从多组时域音频样本的第四组生成多组频谱域音频样本的第四组,其中第三组时域音频样本包括第四组时域音频样本的多于60%且少于100%的音频样本,并且其中第四组时域音频样本包括第三组时域音频样本的多于60%且少于100%的音频样本。
-输出第一组频谱域音频样本、第二组频谱域音频样本、第三组频谱域音频样本和第四组频谱域音频样本。
第三组时域音频样本包括第二组时域音频样本的音频样本,或者其中第四组时域音频样本包括第一组时域音频样本的音频样本。
而且,提供了计算机程序,其中每个计算机程序被配置为当在计算机或信号处理器上执行时实现上述方法中的一个,使得上述方法中的每一个由计算机程序的一个实现。
现代的感知音频编码器即使在低位速率下也提供良好的编码质量,所有这些编码器都应用重叠率为50%的改进的离散余弦变换(MDCT)用于频域量化。
但是,实施例基于这样的发现,即,对于准静止谐波输入也需要相对较长的帧以实现可接受的低位速率性能,从而导致增加的算法等待时间和降低的时间编码分辨率。
一些实施例将重叠变换编码中的重叠率扩展到比现代音频编解码器中采用的常规50%更多。
根据一些实施例,在这种输入上采用具有75%重叠率的扩展重叠变换(ELT)。为了维持过渡段的编码的高时间分辨率,对ELT定义进行修改,使得ELT(用于准静止)与MDCT编码(用于非静止或非音调(tonal)区域)之间的按帧切换变得可能,具有完整的时域混叠消除(TDAC)并且帧长度不增加。
一些实施例提供ELT概念的创造性修改和ELT公式的创造性修改,从而允许完全重构具有50%重叠率的变换和具有75%重叠率的变换之间的过渡。在实施例中,实现了具有50%的重叠率的MDCT编码与具有75%的重叠率的ELT编码之间的适当TDAC。
在一些实施例中,提供了一种新颖的创造性ELT窗口。例如,在一些实施例中,提供了具有改进的旁瓣抑制/低旁瓣电平(level)以避免成帧伪影的新颖的创造性ELT窗口函数。
根据一些实施例,ELT概念的创造性修改和ELT公式的创造性修改可以例如与新颖的创造性ELT窗口结合使用。
一些实施例提供应用切换的比率的原理的信号自适应编码方案。提供了基于MPEG-H3D音频规范的完整编码方案(有关MPEG-H 3D音频规范的详细信息,请参见[7])。
实施例提供了用于在MDCT、MDST和余弦或正弦调制的ELT编码之间自适应切换信号的编码器、解码器、系统和方法。实施例实现具有高时间分辨率的瞬态输入的编码。
在从属权利要求中提供了优选实施例。
附图说明
在下文中,参考附图更详细地描述本发明的实施例,其中:
图1A图示了根据实施例的解码器,
图1B图示了根据实施例的编码器,
图1C图示了根据实施例的系统,
图2A图示了,当进行从短组到长组的切换时,根据实施例的四组时域音频样本的重叠,
图2B图示了,当进行从短组到长组的切换时,根据实施例的六组时域音频样本的重叠,
图3A图示了,当进行从长组到短组的切换时,根据实施例的四组时域音频样本的重叠,
图3B图示了,当进行从长组到短组的切换时,根据实施例的六组时域音频样本的重叠,
图4在图4(a)中图示了对于MLT在重叠变换中的重叠相加(OLA)期间的TDAC,在图4(b)中图示了对于ELT在重叠变换中的重叠相加(OLA)期间的TDAC,并且在图4(c)中图示了经由ELT对于MLT在重叠变换中的重叠相加(OLA)期间的TDAC,
图5图示了根据实施例的具有过渡变换的从MLT到ELT的切换,其中图5(a)示出了错误的不完全重构,其中图5(b)绘出了期望的完全重构,并且其中图5(c)图示了经由期望的(改进的)ELT的MLT,
图6图示了根据实施例的具有过渡变换的从ELT到MLT的切换,
图7在图7(a)中图示了用于MLT的完全重构窗口设计,在图7(b)中图示了用于ELT的完全重构窗口设计,并且在图7(c)中图示了用于根据实施例的过渡的完全重构窗口设计,
图8图示了根据实施例的用于四个输入信号的作为结果的按帧的ELT和MDCT选择,
图9图示了根据实施例的具有95%置信区间的收听测试结果的放大视图,
图10图示了根据实施例的多个分析窗口,
图11图示了根据实施例的多个合成窗口,
图12图示了根据一些特定实施例的具有重叠变换的基本滤波器组,其中图12(a)图示了MDCT/MDST,并且其中图12(b)图示了ELT,
图13图示了根据一些特定实施例的均匀堆叠的滤波器组中的TDAC,其中图13(a)图示了Princen-Bradley,并且其中图13(b)图示了MELT-II,
图14图示了根据特定实施例的用于MELT-IV滤波器组的特定的符合TDAC的内核切换,其中图14(a)图示了从余弦到正弦调制的过渡,并且其中图14(b)图示了从正弦到余弦调制的过渡,以及
图15图示了根据特定实施例的、在暂时过渡期间具有特殊“停止-开始”形状(用虚线指示)的改进的正确窗口,其中图15(a)图示了从75%到50%的重叠率的暂时过渡,并且其中图15(b)图示了从50%到75%的重叠率的暂时过渡。
具体实施方式
在详细描述具体实施例之前,描述重叠变换编码的原理。
如上面所提到的,ELT、MLT和MDCT可以被认为是一般重叠变换公式的具体实现,公式(1)用于确定逆并且0≤k<M并且对于正(分析)情况
在公式(2)中,cos()函数被占位符cs()替代,以强调也可以在(1,2)中使用sin()函数来获得正弦调制形式,如应用于MCLT(调制复数重叠变换)中的改进的离散正弦变换(MDST)(参见[18]并且在[8]、[9]中)。
因此,cs()是占位符,以指示可以使用sin()或cos()。
代替用于逆MLT(实现MLT的合成)的公式(1)或用于(正)ELT(实现ELT的分析)的公式(2),当进行MLT(例如,MDCT或MDST)或ELT时,采用多个其它公式作为重叠变换方程。现在将这些方程的示例作为公式(2a)-(2j)给出。
在所有的公式(2a)-(2j)和下面的公式(4a)-(4h)中,0≤k<M和0≤n适用,其中Xi(k)是在k处的频率样本并且xi(n)是在n处的时间样本。
例如,广义的重叠变换公式可以如公式(2a)和(2b)中被公式化:
正(分析)广义重叠变换定义:
逆(合成)广义重叠变换定义:
例如,可以如公式(2c)-(2j)中公式化具有50%重叠率的重叠变换:
具有75%重叠率的重叠变换(例如,Malvar的正或逆扩展重叠变换(ELT))可以例如如公式(2c)和(2d)被相同的方式公式化,但是具有N=L和n<L。
为了至少在不存在频谱失真的情况下在分别经历公式(1)和(2)中的分析和合成变换之后获得输入信号si(n)的完全重构(PR)(例如,通过量化(由公式(1)中的a'指示)),使用窗口w(n)来对L大小分析输入以及合成输出进行加权。由于因重叠变换的临界采样特性而表现出时域混叠(TDA),因此w(n)必须满足特定的设计约束(参见[1]、[2]、[12])。对于具有偶数的ELT,假设相等、对称的w(n)用于分析和合成,这些由下式给出:
对于MLT、MDCT或MOST(这三个术语在下文中可以互换使用),通过借助于重叠相加(OLA)过程组合的第一个时间半部分和前一帧的第二个半部分来取消TDA。作为结果的变换间重叠率为在L=4M的ELT的情况下,OLA步骤必须将的第一个四分之一与的第二个四分之一、的第三个四分之一和的第四个四分之一组合,因此比率增长到
图4图示了这种差异和最坏情况的预回声(编码错误的时间扩散)。有关TDA和完全重构的更详细讨论可以在[15]、[16]、[17]、[18]、[19]和[20]中找到。
特别地,图4图示了在重叠变换中OLA期间的TDAC,图4(a)中是针对MLT,图4(b)中是针对ELT,并且图4(c)中是针对经由ELT的MLT。窗口下方的线的长度指示最大预回声。可以看出,在ELT情况下的最大预回声比在MLT情况下更长。
还应当注意的是,基于DCT-II的偶数堆叠的线性相位ELT或具有例如L=3M的奇数长度ELT也是可能的(参见[21]、[22]),并且下面描述的实施例也适用于这种ELT。
关注长度为4M的ELT可以观察到,如图5(a)中所示,由于TDA对称性不兼容,因此在切换到MLT编码和从MLT编码切换的期间无法实现完全重构。换句话说,在帧i-4和i-3之间违反了相邻奇偶组合的必要性(参见[9]、[19])。
现在详细描述实施例。
图1B图示了根据实施例的用于通过从多组时域音频样本生成多组频谱域音频样本来对音频信号的多个时域音频样本进行编码的编码器。
编码器包括第一编码模块210,其用于从多组时域音频样本的第一组生成多组频谱域音频样本的第一组,并且用于从多组时域音频样本的第二组生成多组频谱域音频样本的第二组,其中第一组时域音频样本和第二组时域音频样本在多组时域音频样本内在时间上相邻,其中第一组时域音频样本包括第二组时域音频样本的多于5%且至多50%的音频样本,并且其中第二组时域音频样本包括第一组时域音频样本的多于5%且至多50%的音频样本。
此外,编码器包括第二编码模块220,其用于从多组时域音频样本的第三组生成多组频谱域音频样本的第三组,并且用于从多组时域音频样本的第四组生成多组频谱域音频样本的第四组,其中第三组时域音频样本包括第四组时域音频样本的多于60%且少于100%的音频样本,并且其中第四组时域音频样本包括第三组时域音频样本的多于60%且少于100%的音频样本。
而且,编码器包括输出模块230,其用于输出第一组频谱域音频样本、第二组频谱域音频样本、第三组频谱域音频样本和第四组频谱域音频样本。
第三组时域音频样本包括第二组时域音频样本的音频样本,或者其中第四组时域音频样本包括第一组时域音频样本的音频样本。
实施例尤其基于以下发现:对于时域音频信号的一些部分,具有较高重叠的较长变换窗口更合适,而对于时域音频信号的部分的其它信号组,具有较低重叠的较短变换窗口更合适。因此在运行时实现不同变换窗口之间的切换。为了实现没有可听伪影的音频编码,即使其窗口长度改变,相邻的变换窗口也重叠。
在图1B中,第一编码模块210用于编码与其它组的时域音频样本具有较小重叠的较小组的时域音频样本。但是,即使对于第一编码模块210,也应当存在至少一些重叠,需要多于5%的重叠。
与由第一编码模块210处理的那些组相比,第二编码模块220用于编码具有较大重叠的较大组的时域音频样本。需要多于60%的最小重叠。
图2A图示了,当进行从短组到长组的切换时,根据实施例的四组时域音频样本的重叠。
特别地,第一组时域音频样本410、第二组时域音频样本420、第三组时域音频样本430和第四组时域音频样本440中的每一个由对应的块示意性地绘出。虚线有助于识别重叠区域。
可以看出,第一组时域音频样本410和第二组时域音频样本420具有50%的重叠。因此,第一组时域音频样本410包括第二组时域音频样本420的时域音频样本的恰好50%,反之亦然。
而且,可以看出,第三组时域音频样本430和第四组时域音频样本440具有75%的重叠。因此,第三组时域音频样本430包括第四组时域音频样本440的时域音频样本的恰好75%,反之亦然。
此外,可以看出,第三组时域音频样本430包括第二组时域音频样本420的音频样本,因为两个组具有重叠范围。
总结图2A的实施例,在时间上第一组时域音频样本410在第二组时域音频样本420之前,在时间上第二组时域音频样本420在第三组时域音频样本430之前,在时间上第三组时域音频样本430在第四组时域音频样本440之前,并且第三组时域音频样本430包括音频样本第二组时域音频样本420。对于图2B的实施例同样如此。
图3A提供了从长组到短组的切换的示例。
图3A图示了,当进行从长组到短组的切换时,根据实施例的四组时域音频样本的重叠。
特别地,同样地,第一组时域音频样本411、第二组时域音频样本421、第三组时域音频样本431和第四组时域音频样本441中的每一个由对应的块示意性绘出。虚线再次帮助识别重叠区域。
可以看出,第一组时域音频样本411和第二组时域音频样本421具有50%的重叠。因此,第一组时域音频样本411包括第二组时域音频样本421的时域音频样本的恰好50%,反之亦然。
而且,可以看出,第三组时域音频样本431和第四组时域音频样本441具有75%的重叠。因此,第三组时域音频样本431包括第四组时域音频样本441的时域音频样本的恰好75%,反之亦然。
此外,可以看出,第四组时域音频样本441包括第一组时域音频样本411的音频样本,两个组都具有重叠范围。
总结图3A的实施例,在时间上第三组时域音频样本431在第四组时域音频样本441之前,在时间上第四组时域音频样本441在第一组时域音频样本411之前,在时间上第一组时域音频样本411在第二组时域音频样本421之前,并且第四组时域音频样本441包括第一组时域音频样本411的音频样本。对于图3B的实施例同样如此。
根据实施例,第一组时域音频样本410、411可以例如包括第二组时域音频样本420、421的音频样本的恰好50%,并且第二组时域音频样本可以例如包括第一组时域音频样本的音频样本的恰好50%。图2A、图3A、图2B和图3B实现了这种实施例。
第三组时域音频样本430、431可以例如包括第四组时域音频样本440、441的音频样本的至少75%且少于100%,并且第四组时域音频样本440、441可以例如包括第三组时域音频样本430、431的音频样本的至少75%且少于100%。图2A、图3A、图2B和图3B也实现了这种实施例。
在实施例中,第一编码模块210可以例如被配置为进行改进离散余弦变换或改进离散正弦变换,并且第二编码模块220可以例如被配置为进行扩展重叠变换或改进的扩展重叠变换。
根据实施例,第三组时域音频样本430、431可以例如包括第四组时域音频样本440、441的音频样本的恰好75%,并且第四组时域音频样本440、441可以例如包括第三组时域音频样本430、431的音频样本的恰好75%。
在实施例中,第一组时域音频样本的时域音频样本的第一数量可以例如等于第二组时域音频样本的时域音频样本的第二数量。第三组时域音频样本的时域音频样本的第三数量可以例如等于第四组时域音频样本的时域音频样本的第四数量。第二数量可以例如等于第三数量除以2,并且其中第一数量可以例如等于第四数量除以2。
例如,这种实施例的特定示例是由第二编码模块220编码的所有组恰好具有由第一编码模块210编码的所有组的样本的两倍。
根据图1B的编码器的实施例,第二编码模块220被配置为从第五组时域音频样本生成第五组频谱域音频样本,并且其中第二编码模块220被配置为从第六组时域音频样本生成第六组频谱域音频样本。第三组时域音频样本或第四组时域音频样本包括第五组时域音频样本的音频样本的至少75%且少于100%,其中第五组时域音频样本包括第三组时域音频样本或第四组时域音频样本的音频样本的至少75%且少于100%,其中第五组时域音频样本包括第六组时域音频样本的音频样本的至少75%且少于100%,其中第六组时域音频样本包括第五组时域音频样本的音频样本的至少75%且少于100%。输出模块230被配置为进一步输出第五组频谱域音频样本和第六组频谱域音频样本。
图2B图示了,当进行从短组到长组的切换时,根据实施例的六组时域音频样本的重叠。
可以看出,第四组时域音频样本440和第五组时域音频样本450具有75%的重叠。因此,第五组时域音频样本450恰好包括第四组时域音频样本440的时域音频样本的75%,反之亦然。
而且,可以看出,第五组时域音频样本450和第六组时域音频样本460具有75%的重叠。因此,第六组时域音频样本460恰好包括第五组时域音频样本450的时域音频样本的75%,反之亦然。
根据实施例,第一组时域音频样本410、411和第二组时域音频样本420、421在时间上相邻。例如,在图2B中图示了六组时域音频样本,即,410、420、430、440、450、460。可以为这六个组定义时间序列。
例如,第一组时域音频样本410的第一样本涉及比第二组时域音频样本420的第一样本更早(过去更多)的时间点。
第二组时域音频样本420的第一样本涉及与第三组时域音频样本430的第一样本相同的时间点。但是,第二组时域音频样本420的最后一个样本涉及比第三组时域音频样本430的最后一个样本更早的时间点。
第三组时域音频样本430的第一样本涉及比第四组时域音频样本440的第一样本更早的时间点。
第四组时域音频样本440的第一样本涉及比第五组时域音频样本450的第一样本更早的时间点。
第五组时域音频样本450的第一样本涉及比第六组时域音频样本460的第一样本更早的时间点。
图2B中结果所得的时间序列是410、420、430、440、450、460。
对图3B应用相同的推理涉及图3B中的时间序列:461、451、431、441、411、421。
确定时间序列的原因是:
如果时域音频样本组A的第一样本涉及比时域音频样本组B的第一样本更早的时间点,那么组A在时间序列中较早出现,然后组B。
如果时域音频样本组A的第一样本涉及与组B的第一样本相同的时间点,那么,如果时域音频样本组A的最后一个样本涉及比组B的最后一个样本更早的时间点,则组A在时间序列中较早出现,然后组B。
如果两组时域音频样本在时域音频样本组的时间序列中是(直接)邻居,那么这两组时域音频样本在时间上是相邻的。
例如,考虑图2B的时间序列:410、420、430、440、450、460。其中,组410和420在时间上相邻,组420和430在时间上相邻,组430和440在时间上相邻,组440和450在时间上相邻,组450和460在时间上相邻,但没有其它两组的对在时间上相邻。
例如,考虑图3B的时间序列:461、451、431、441、411、421。其中,组461和451在时间上相邻,组451和431在时间上相邻,组431和441在时间上相邻,组441和411在时间上相邻,组411和421在时间上相邻,但没有其它两组的对在时间上相邻。
关于图3B,图3B图示了,当进行从长组到短组的切换时,根据实施例的六组时域音频样本的重叠。
可以看出,第三组时域音频样本431和第五组时域音频样本451具有75%的重叠。因此,第五组时域音频样本451恰好包括第三组时域音频样本431的时域音频样本的75%,反之亦然。
而且,可以看出,第五组时域音频样本451和第六组时域音频样本461具有75%的重叠。因此,第六组时域音频样本461恰好包括第五组时域音频样本451的时域音频样本的75%,反之亦然。
在实施例中,窗口函数可以由第一编码模块210或第二编码模块220应用在时域音频样本上,以获得加权的时域样本,并且之后,第一编码模块210或第二编码模块220可以从加权的时域样本生成频谱域音频样本。
在实施例中,编码器被配置为或者采用第一编码模块210或者采用第二编码模块220来取决于时域音频信号的一部分的信号特性来生成当前组的频谱域音频样本。
根据实施例,编码器被配置为确定多个时域音频样本的当前组是否包括非静止区域和非音调区域中的至少一个,作为信号特性。编码器被配置为,如果多个时域音频样本的当前组包括非静止区域和非音调区域中的至少一个,那么采用第一编码模块210来取决于多个时域音频样本的当前组生成当前组的频谱域音频样本。而且,编码器被配置为,如果多个时域音频样本的当前组不包括非静止区域和非音调区域中的至少一个,那么采用第二编码模块220来取决于多个时域音频样本的当前组生成当前组的频谱域音频样本。
在实施例中,输出模块230被配置为输出取决于信号特性而具有第一位值或第二位值的位。因此,可以在解码器侧采用该位来确定编码器是使用第一编码模块210还是第二编码模块220来进行编码。
图1A图示了根据实施例的用于解码多个频谱域音频样本的解码器。
解码器包括第一解码模块110,其用于通过从第一组频谱域音频样本的频谱域音频样本生成第一组时域中间音频样本来解码第一组频谱域音频样本,并且用于通过从第二组频谱域音频样本的频谱域音频样本生成第二组时域中间音频样本来解码第二组频谱域音频样本。
而且,解码器包括重叠加法器130,其中重叠加法器130被配置为对恰好两组时域中间音频样本进行重叠相加,所述恰好两组是第一组时域中间音频样本和第二组时域中间音频样本,其中重叠加法器130被配置为将所述恰好两组以多于5%且至多50%的重叠进行重叠相加,其中所述恰好两组的重叠相加导致生成音频信号的第一多个时域音频输出样本。
此外,解码器包括第二解码模块120,其用于通过从第三组频谱域音频样本的频谱域音频样本生成第三组时域中间音频样本来解码第三组频谱域音频样本,并且用于通过从第四组频谱域音频样本的频谱域音频样本生成第四组时域中间音频样本来解码第四组频谱域音频样本。
而且,解码器包括输出接口140,其用于输出音频信号的第一多个时域音频输出样本、音频信号的第二多个时域音频输出样本和音频信号的第三多个时域音频输出样本。
重叠加法器130被配置为使用以多于60%且少于100%的重叠对至少第三组时域中间音频样本和第四组时域中间音频样本进行重叠相加来获得第二多个时域音频输出样本。
而且,重叠加法器130被配置为使用至少第二组时域中间音频样本和第三组时域中间音频样本的重叠相加来获得第三多个时域音频输出样本,或者其中重叠加法器130被配置为使用至少第四组时域中间音频样本和第一组时域中间音频样本的重叠相加来获得第三多个时域音频输出样本。
已经参考图2A、图2B、图3A和图3B提供的用于时域音频样本组410、411,420、421、430、431、440、441、450、451、460和461的重叠的解释同样适用于时域中间音频样本组。
在实施例中,基于重叠相加第一时域音频输出样本和第二时域音频输出样本来生成第一音频输出样本,基于重叠相加第三时域音频输出样本和第四时域音频输出样本来生成第二音频输出样本。
在与图2A和图2B中的情形对应的解码器实施例中,音频信号的第一多个时域音频输出样本在时间上在音频信号的第三多个时域音频输出样本之前,并且其中音频信号的第三多个时域音频输出样本在时间上在音频信号的第二多个时域音频输出样本之前,并且其中重叠加法器130被配置为使用至少第二组时域中间音频样本和第三组时域中间音频样本的重叠相加来获得第三多个时域音频输出样本,或者
在与图3A和图3B中的情形对应的解码器实施例中,音频信号的第二多个时域音频输出样本在时间上在音频信号的第三多个时域音频输出样本之前,并且其中音频信号的第三多个时域音频输出样本在时间上在音频信号的第一多个时域音频输出样本之前,并且其中重叠加法器130被配置为使用至少第二组时域中间音频样本和第三组时域中间音频样本的重叠相加来获得第三多个时域音频输出样本。
而且,已经概述了第一组时域中间音频样本和第二组时域中间音频样本以多于5%且至多50%重叠。在大多数实施例中,第一解码模块110生成具有相同数量样本的时域中间音频样本组,换句话说,由第一解码模块110使用的窗口一般总是具有相同的尺寸。然后,为了确定第一组时域中间音频样本和第二组时域中间音频样本的重叠,在重叠相加中与第二组时域中间音频样本的样本重叠的第一组的中间时域音频样本的数量(例如,1024个样本)被除以第一组时域中间音频样本的样本的总数(例如,2048个样本),以确定重叠相加的重叠(1024/2048=50%)。但是,在第一解码模块110生成具有不同数量样本的时域中间音频样本组的特殊实施例中,考虑时域中间音频样本组中的较大一个,并且将重叠定义为与较小组的样本重叠的较大组的时域中间音频样本的数量(例如,768个样本)除以较大组的样本的总数(例如,2048个样本)(重叠:768/2048=37.5%)。
此外,已经概述了第三组时域中间音频样本和第四组时域中间音频样本以多于60%且少于100%重叠。在大多数实施例中,第二解码模块120生成具有相同样本数量的时域中间音频样本组,换句话说,第二解码模块120使用的窗口一般总是具有相同的尺寸(但是组/窗口的尺寸常常不同于由第一解码模块110生成/使用的组/窗口的尺寸)。然后,为了确定第三组时域中间音频样本和第四组时域中间音频样本的重叠,在重叠相加中与第四组时域中间音频样本的样本重叠的第三组的中间时域音频样本的数量(例如,3584个样本)被除以第三组时域中间音频样本的样本总数(例如,4096个样本),以确定重叠相加的重叠(3584/4096=87.5%)。但是,在第二解码模块120生成具有不同数量样本的时域中间音频样本组的特殊实施例中,考虑时域中间音频样本组中的较大一个,并且将重叠定义为与较小组的样本重叠的较大组的时域中间音频样本的数量(例如,3072个样本)除以较大组的样本总数(例如,4096个样本)(重叠:3072/4096=75%)。
重叠相加是本领域技术人员众所周知的。重叠相加两组时域音频样本是本领域技术人员特别众所周知的。
实现三个或更多个组的重叠相加的一种方式可以是例如重叠相加三个或更多个组中的两个以获得中间重叠相加结果,然后将三个或更多个组中的第三组重叠相加到中间重叠相加结果,并同样地继续进行,直到所有组都与(更新的)中间结果重叠相加。
另一种做法是首先适当地重叠所有三个或更多个组,然后相加重叠中的组的对应样本,以获得重叠相加的结果。
根据实施例,重叠加法器130可以例如被配置为以恰好50%的重叠将第一组时域中间音频样本和第二组时域中间音频样本重叠相加。重叠加法器130可以例如被配置为以至少75%且少于100%的重叠将至少第三组时域中间音频样本和第四组时域中间音频样本重叠相加。
在实施例中,第一解码模块110可以例如被配置为进行逆改进离散余弦变换或逆改进离散正弦变换。第二解码模块120被配置为进行逆扩展重叠变换或逆改进扩展重叠变换。
根据实施例,重叠加法器130可以例如被配置为以恰好75%的重叠将至少第三组时域中间音频样本和第四组时域中间音频样本重叠相加。
在实施例中,第一组时域中间音频样本的时域中间音频样本的第一数量可以例如等于第二组时域时域中间音频样本的时域中间音频样本的第二数量。第三组时域中间音频样本的时域中间音频样本的第三数量可以例如等于第四组时域中间音频样本的时域中间音频样本的第四数量。第二数量可以例如等于第三数量除以2,并且其中第一数量等于第四数量除以2。
根据图1A的解码器的实施例,第二解码模块120可以例如被配置为通过从第五组频谱域音频样本的频谱域音频样本生成第五组时域中间音频样本来解码第五组频谱域音频样本,并且用于通过从第六组频谱域音频样本的频谱域音频样本生成第六组时域中间音频样本来解码第六组频谱域音频样本。重叠加法器130被配置为通过将第三组时域中间音频样本和第四组时域中间音频样本以及第五组时域中间音频样本和第六组时域中间音频样本重叠相加来获得第二多个时域音频输出样本,使得第三组时域中间音频样本或第四组时域中间音频样本以至少75%且少于100%与第五组时域中间音频样本重叠,并且使得第五组时域中间音频样本以至少75%且少于100%与第六组时域中间音频样本重叠。
参考上面关于图2B和图3B中的时域音频样本组410、411、420、421、430、431、440、441、450、451、460和461提供的解释,这些解释同样适用于时域中间音频样本组。
在实施例中,重叠加法器130被配置为至少将第二组时域中间音频样本和第三组时域中间音频样本重叠相加,使得第二组时域中间音频样本的所有时域中间音频样本与第三组时域中间音频样本的时域中间音频样本重叠。或者,重叠加法器130被配置为至少将第四组时域中间音频样本与第一组时域中间音频样本重叠相加,使得第一组时域中间音频样本的所有时域中间音频样本与第四组时域中间音频样本重叠。
图1C图示了根据实施例的系统。该系统包括根据上述实施例的一个的编码器310和根据上述实施例的一个的解码器320。编码器310被配置为通过生成多个频谱域音频样本来编码音频信号的多个时域音频样本。而且,解码器320被配置为从编码器接收多个频谱域音频样本。此外,解码器被配置为解码多个频谱域音频样本。
为了减少或避免时域混叠,关于图1B的编码器的实施例,第二编码模块220被配置为取决于cs(a(n+b)(k+c))生成第三组频谱域音频样本和第四组频谱域音频样本中的至少一组,
其中cs()是cos()或sin(),
其中n指示第三组时域音频样本或第四组时域音频样本的时域音频样本的一个的时间索引,
其中k指示第一组频谱域音频样本或第二组频谱域音频样本或第三组频谱域音频样本或第四组频谱域音频样本的频谱域音频样本的一个的频谱索引,
其中-0.1≤c≤0.1或0.4≤c≤0.6或0.9≤c≤1.1,
其中0.9·π≤q≤1.1·π。
M指示第一组频谱域音频样本或第二组频谱域音频样本或第三组频谱域音频样本或第四组频谱域音频样本的频谱域音频样本的数量,
其中1.5≤s≤4.5。
在实施例中,第一编码模块210被配置为取决于cs1(a(n1+b1)(k+c1))生成第一组频谱域音频样本和第二组频谱域音频样本中的至少一组,
其中cs1()是cos()或sin(),
其中n1指示第一组时域音频样本或第二组时域音频样本的时域音频样本的一个的时间索引,
其中-0.1≤c1≤0.1或0.4≤c1≤0.6或0.9≤c1≤1.1,
根据实施例,c=0或c=0.5或c=1,q=π和s=3。
设置s=3实现最优地减少时域混叠,而设置1.5≤s≤4.5且s≠3实现某种程度的时域混叠减少,但是一般而言不会像s=3减少那么多。
特定实施例特别良好地工作。参见表1和表2:
表1
表1示出了从MLT到ELT的切换。在每一行中,图示了用于四个连续的窗口/对应的时域音频样本组的函数。前两列与最后两个MLT窗口(倒数第二个和最后一个MLT窗口)相关,第3列和第4列分别与第一个和第二个ELT窗口相关。每行表示用于连续窗口的函数的特别好的组合。关于公式(2a)-(2j)和(4a)-(4h),给出用于MDCT-II、MDST-II、MDCT-IV和MDST-IV以及用于MECT-II、MEST-II、MECT-IV和MEST-IV的公式。所示出的组合对于具有反函数的逆变换同样良好地工作。
因此,例如,在实施例中,q=π,其中s=3,其中cs()是cos(),并且csl()是cos(),并且其中c=0.5且c1=0.5。
在另一个实施例中,q=π,其中s=3,其中cs()是sin(),并且csl()是cos(),并且其中c=1且c1=0。
在另一个实施例中,q=π,其中s=3,其中cs()是sin(),并且csl()是sin(),并且其中c=0.5且c1=1。
在另一个实施例中,q=π,其中s=3,其中cs()是cos(),并且csl()是sin(),并且其中c=0且c1=1。
在另一个实施例中,q=π,其中s=3,其中cs()是sin(),并且csl()是sin(),并且其中c=0.5且c1=0.5。
在另一个实施例中,q=π,其中s=3,其中cs()是cos(),并且csl()是sin(),并且其中c=0且c1=0.5。
在另一个实施例中,q=π,其中s=3,其中cs()是cos(),并且csl()是cos(),并且其中c=0.5且c1=0。
在另一个实施例中,q=π,其中s=3,其中cs()是sin(),并且csl()是cos(),并且其中c=1且c1=0。
表2
表2示出了从ELT到MLT的切换。在每行中,图示了用于四个连续窗口(对应的时域音频样本组)的函数。前两列与最后两个ELT窗口(倒数第二个和最后一个ELT窗口)相关,第3列和第4列分别与第一个和第二个MLT窗口相关。每行表示用于连续窗口的函数的特别好的组合。关于公式(2a)-(2j)和(4a)-(4h),给出了用于MDCT-II、MDST-II、MDCT-IV和MDST-IV以及用于MECT-II、MEST-II、MECT-IV和MEST-IV的公式。所示的组合对于具有反函数的逆变换同样良好地工作。
在实施例中,第二编码模块220被配置为取决于
取决于
取决于
取决于
生成第三组频谱域音频样本和第四组频谱域音频样本中的至少一个,
在实施例中,第二组时域音频样本的所有时域音频样本与第三组时域音频样本的时域音频样本重叠,或者其中第一组时域音频样本的所有时域音频样本与第四组时域音频样本重叠。
类似地,关于图1A的解码器,在实施例中,第二解码模块120被配置为取决于cs(a(n+b)(k+c))生成第三组时域中间音频样本和第四组时域中间音频样本中的至少一个,其中cs()是cos()或sin(),其中n指示第三组时域中间音频样本或第四组时域中间音频样本的时域中间音频样本的一个的时间索引,其中k指示第三组频谱域音频样本或第四组频谱域音频样本的频谱域音频样本的一个的频谱索引,
其中-0.1≤c≤0.1或0.4≤c≤0.6或0.9≤c≤1.1,
其中0.9·π≤q≤1.1·π,
其中M指示第三组频谱域音频样本或第四组频谱域音频样本的频谱域音频样本的数量,
其中1.5≤s≤4.5。
在实施例中,第一解码模块110被配置为取决于cs1(a(n1+b1)(k1+c1))生成第一组时域中间音频样本和第二组时域中间音频样本中的至少一个,
其中cs()是cos()或sin(),
其中n指示第三组时域中间音频样本或第四组时域中间音频样本的时域中间音频样本的一个的时间索引,
其中k指示第一组频谱域音频样本或第二组频谱域音频样本或第三组频谱域音频样本或第四组频谱域音频样本的频谱域音频样本的一个的频谱索引,
其中-0.1≤c≤0.1或0.4≤c≤0.6或0.9≤c≤1.1,
其中0.9·π≤q≤1.1·π,
其中M指示第一组频谱域音频样本或第二组频谱域音频样本或第三组频谱域音频样本或第四组频谱域音频样本的频谱域音频样本的数量,
其中1.5≤s≤4.5。
在实施例中,第一解码模块110被配置为取决于cs1(a(n1+b1)(k+c1))生成第一组时域中间音频样本和第二组时域中间音频样本中的至少一个,
其中cs1()是cos()或sin(),
其中n1指示第一组时域中间音频样本或第二组时域中间音频样本的时域中间音频样本的一个的时间索引,
其中-0.1≤c1≤0.1或0.4<c1≤0.6或0.9≤c1≤1.1,
根据实施例,c=0或c=0.5或c=1,q=π并且s=3。
设置s=3实现最优地减少时域混叠,而设置1.5≤s≤4.5且s≠3实现某种程度的时域混叠减少,但是一般而言不会像s=3减少那么多。
在实施例中,第二解码模块120被配置为取决于
取决于
取决于
取决于
生成第三组时域中间音频样本和第四组时域中间音频样本中的至少一个,
其中M指示第一组频谱域音频样本或第二组频谱域音频样本或第三组频谱域音频样本或第四组频谱域音频样本的频谱域音频样本的数量,
其中k是具有0≤k<M的数字,
其中d是实数,
L指示第三组时域音频样本或第四组时域音频样本的样本的数量。
第三组时域音频样本包括第二组时域音频样本的音频样本,并且其中第二编码模块220被配置为将第一窗口函数welt应用于第四组时域音频样本,并且其中第二编码模块220被配置为将第二窗口函数wtr应用于第三组时域音频样本。或者,第四组时域音频样本包括第一组时域音频样本的音频样本,并且其中第二编码模块220被配置为将第一窗口函数welt应用于第三组时域音频样本,并且其中第二编码模块220被配置为将第二窗口函数wtr应用于第四组时域音频样本。
其中N指示第一组时域音频样本或第二组时域音频样本的时域音频样本的数量。
第三组时域音频样本包括第二组时域音频样本的音频样本,并且其中第二编码模块(220)被配置为将第三窗口函数wtr1应用于第二组时域音频样本。或者,第四组时域音频样本包括第一组时域音频样本的音频样本,并且其中第二编码模块(220)被配置为将第三窗口函数wtr1应用于第一组时域音频样本。
在实施例中,第一窗口函数welt根据下式来定义
其中
其中b0、b1和b2是实数。
其中0≤t<L,并且其中K是正整数,并且其中ck指示实数。
根据实施例,K=3;
0.3≤b0≤0.4;-0.6≤b1≤-0.4;0.01≤b2≤0.2;
0.001≤c1≤0.03;0.000001≤c2≤0.0005;0.000001≤c3≤0.00002。
根据实施例,
0.8≤d≤1.25。
根据替代实施例,d=1。
其中M指示第一组频谱域音频样本或第二组频谱域音频样本或第三组频谱域音频样本或第四组频谱域音频样本的频谱域音频样本的数量,其中k是具有0≤k<M的数字,其中d是实数,
L指示第三组时域中间音频样本或第四组时域中间音频样本的样本的数量。
重叠加法器130被配置为将至少第二组时域中间音频样本和第三组时域中间音频样本重叠相加,其中第二解码模块120被配置为取决于第一窗口函数welt生成第四组时间中间音频样本,并且其中第二解码模块120被配置为取决于第二窗口函数wtr生成第三组时域中间音频样本。或者,重叠加法器130被配置为将至少第四组时域中间音频样本与第一组时域中间音频样本重叠相加,其中第二解码模块120被配置为取决于第一窗口函数welt生成第三组时域中间音频样本,并且其中第二解码模块120被配置为取决于第二窗口函数wtr生成第四组时域中间音频样本。
其中N指示第一组时域中间音频样本或第二组时域中间音频样本的时域中间音频样本的数量。
重叠加法器(130)被配置为将至少第二组时域中间音频样本和第三组时域中间音频样本重叠相加,并且其中第一解码模块(110)被配置为取决于第三窗口函数wtr1生成第二组时域中间音频样本。重叠加法器(130)被配置为将至少第四组时域中间音频样本和第一组时域中间音频样本重叠相加,并且其中第一解码模块(110)被配置为取决于第三窗口函数wtr1生成第一组时域中间音频样本。
在实施例中,第一窗口函数welt是根据下式定义的
其中b0、b1和b2是实数,其中0≤t<L,并且其中K是正整数,并且其中ck指示实数。
根据实施例,K=3;
0.3≤b0≤0.4;-0.6≤b1≤-0.4;0.01≤b2≤0.2;
0.001≤c1≤0.03;0.000001≤c2≤0.0005;0.000001≤c3≤0.00002。
在实施例中,
0.8≤d≤1.25。
在替代实施例中,d=1。
关于图1C的系统,根据实施例,系统的解码器320使用过渡窗口函数
系统的编码器310使用过渡窗口函数
根据特定实施例,系统的解码器320使用过渡窗口函数
系统的编码器310使用过渡窗口函数
根据实施例,图1A的解码器被配置为接收指示多个频谱域音频样本的一部分是要由第一解码模块110还是由第二解码模块120解码的解码信息。解码器被配置为取决于解码信息通过采用第一解码模块110或第二解码模块120来解码多个频谱域音频样本的所述部分,以获得第一组时域中间音频样本或第二组时域中间音频样本或第三组时域中间音频样本或第四组时域中间音频样本。
在实施例中,解码器被配置为接收第一位和第二位,其中第一位和第二位一起具有第一位值组合或不同于第一位值组合的第二位值组合,或者不同于第一位值组合和第二位值组合的第三位值组合,或者不同于第一位值组合和第二位值组合和第三位值组合的第四位值组合。而且,如果第一位和第二位一起具有第一位值组合,那么解码器被配置为通过采用第一解码模块110根据Kaiser-Bessel函数来解码多个频谱域音频样本的一部分,以获得第一组时域中间音频样本或第二组时域中间音频样本。此外,如果第一位和第二位一起具有第二位值组合,那么解码器被配置为通过采用第一解码模块110根据正弦函数或余弦函数来解码多个频谱域音频样本的一部分,以获得第一组时域中间音频样本或第二组时域中间音频样本。如果第一位和第二位一起具有第三位值组合,那么解码器被配置为通过采用第一解码模块110来解码多个频谱域音频样本的一部分,以获得第一组时域中间音频样本或第二组时域中间音频样本。而且,如果第一位和第二位一起有第四位值组合,那么解码器被配置为通过采用第二解码模块120来解码多个频谱域音频样本的所述部分,以获得第三组时域中间音频样本或第四组时域中间音频样本。
现在更详细地描述特定实施例。
实施例提供了改进的扩展重叠变换,其在下面进行描述。
为了通过在瞬态的3部分OLA区域中也实现完整TDA消除(TDAC)来校正图5(a)中的完全重构问题,应当重新定义一个变换类,使得其TDA对称性与其它的TDA对称性(例如,如图5(b)和图5(c)中所示)互补。
特别地,图5图示了具有过渡变换的从MLT到ELT的切换,其中图5(a)图示了不正确的非完全重构,其中图5(b)绘出了期望的完全重构,并且其中图5(c)图示了经由期望的ELT的MLT。
而且,类似地,图6图示了根据实施例的具有过渡变换的从ELT到MLT的切换。
由于期望避免改变现有的MDCT和MDST实现,因此重点放在ELT上。而且,为了容易地获得针对所有变换的完全重构过渡和稳态窗口,对应的分析表达式是期望的。
首先,描述根据实施例的用于重叠率的调整的修改。
为了给予ELT与MLT的期望的TDA兼容性,时间相移在其基本函数中被更改:
如上面所解释的,例如,通过设置N=L(例如,对于分析公式(2c)、(2e)、(2g)和(2i))并且通过设置0≤n<L(例如,对于合成公式(2d)、(2f)、(2h)和(2j))来修改公式(2c)-(2j),获得ELT公式和逆ELT公式。
对这些ELT和逆ELT公式应用公式(4)的概念导致表示新的创造性的改进扩展重叠变换(MELT)实施例的公式(4a)-(4h)。公式(4a)-(4h)的特定实施例实现具有75%重叠率的重叠变换:
正余弦调制MELT,类型4,现在称为MECT-IV:
逆余弦调制MELT,类型4,现在称为IMECT-IV,n<L:
正余弦调制MELT,类型2,现在称为MECT-II:
逆余弦调制MELT,类型2,现在称为IMECT-II,n<L:
正正弦调制MELT,类型4,现在称为MEST-IV:
逆正弦调制MELT,类型4,现在称为IMEST-IV,n<L:
正正弦调制MELT,类型2,现在称为MEST-II:
逆正弦调制MELT,类型2,现在称为IMEST-II,n<L:
一些实施例提供用于从MLT到ELT和从ELT到MLT的过渡的特定合适窗口设计,这在下文中描述。
可以看出,如图5所指示的,瞬态MLT和ELT窗口的4个四分之一是基于相应的稳态加权,第一和/或第四四分之一设置为零,并且关键的四分之一被描述为
其中对于如图5中的切换,或者对于逆ELT到MLT变换,对于ELT和MLT过渡权重二者使用公式(5)来获取关键四分之一511、512、521、522(图5中示出)和关键四分之一631、632(图6中示出)完成瞬态窗口的定义,只留下稳态函数的选择。
例如,公式(5)的用于扩展重叠变换的过渡窗口的完整定义将被定义为方程(5a)中用于从50%重叠率到75%重叠率的过渡的(M)ELT窗口:
对于重叠率从75%到50%过渡的(M)ELT窗口,定义将是方程(5a)的定义,但是wtr将在时间上反向。
在方程(5a)中,d可以是例如常数,例如实数。
在方程(5)和(5a)中,例如,welt(n)可以例如指示用于扩展重叠变换的窗口,例如,现有技术的扩展重叠变换窗口(参见参考文献[11](S.Malvar,“Modulated QMF FilterBanks with Perfect Reconstruction”,Electronics Letters,第26卷,第13期,第906-907页,1990年6月)中由公式(16)-(19)定义的窗口序列)。
或者,在方程(5)和(5a)中,welt(n)可以例如是如下面公式(8)中所定义的新颖的、具有创造性的扩展重叠变换窗口。
在公式(5a)中,n是数字,例如在0≤n<L的范围内。k是数字。
在公式(5)和(5a)中,k被定义在0≤k<M的范围内。
在下文中,参考图7描述根据实施例的稳态完全重构重叠变换窗口。
图7图示了根据实施例的完全重构窗口设计,图7(a)中是针对MLT,图7(b)中是针对ELT,以及图7(c)中是针对过渡。
已经记录了强制执行用于完全重构的所谓Princen-Bradley条件的几个功率互补(PC)MLT窗口(参见[2])。图7(a)绘出了MPEG音频编解码器中使用的窗口的形状和对应的过采样传递函数(参见[5]、[7]),MLT正弦(参见[3]、[11])和Kaiser-Bessel导出(KBD)窗口(参见[23])。还示出了[24]中的功率互补函数,其形状与KBD窗口的形状类似,但是如可以指出的,其展现较低的第一(近场)旁瓣电平。最后,如在双速率SBR的情况下采用的,用于双倍帧长度的正弦窗口用作参考,并且说明较长的窗口可以显著降低通带宽度和阻带电平。
在理想情况下,受到公式(3)的完全重构约束的ELT窗口应当展现出与双倍长度正弦窗口相当的频率响应,但可以观察到,由于完全重构限制,通过允许较少的旁瓣衰减,只能使主瓣宽度最小化。如图7(b)中所示,例如具有p=1的Malvar的窗口[11]被发现在所有ELT设计中具有最低可能的主瓣宽度,但也具有不期望的高阻带电平。它的时间边界明显不连续(因为假设窗口延伸范围之外的样本等于零),从而导致我们实验中的旁瓣衰减仅为-6dB/倍频程(参见[24])和成帧伪像。Temerinac和Edler(参见[16])给出了递归设计做法,他们用它来获得图7中所示的ELT窗口(应当注意的是,在他们的表1的列“L=4N”中缺少值-0.038411 1)。可以用具有p=4的Malvar方程来紧密近似的这个窗口提供更多但仍然非常弱的阻带衰减。
值得注意的是,对于p=1,Malvar的公式可以被修改为与Hann窗口相似的记法:
其中0≤t<L表示窗口的时间样本,并且a0=2-3/2被选择以强制执行完全重构约束(参见[11]、[12]、[13]、[14])。直观地说,具有更多旁瓣衰减的函数(诸如
其中b2>0,其可用于导出Blackman窗口(参见[24]))似乎也适用。遗憾的是,可以示出,无论b0的值是多少,用这种窗口类都无法实现完全重构。
但是,根据实施例,添加更多的项。
根据实施例,提供welt(t):
利用如上所述的bk,对于的任何选择所得到的形状可以被校正,使得完全重构被任意接近地逼近。特别是针对低阻带电平以及除了完全重构条件外还要强加对保序(isotone)左半边以及因此反序(antitone)右半边窗口斜率的限制,完全重构可以以低于4·10-6的误差来近似,通过使用K=3,b2=0.176758,并且取决于这些值,b0=0.3303并且
c1=0.023663,c2=0.0004243,c3=0.00001256. (9)。
如图7(b)中绘出的,这种ELT窗口函数在其边界处比如[11]和[16]的提议更小的不连续,因此,允许与图7(a)的双倍长度正弦窗口相同的旁瓣抑制(rejection)水平。同时,它的主瓣仍然比MLT正弦窗口的窄。有趣的是,它也类似后者窗口的形状。
图7(c)图示了基于[24]的功率互补设计和使用公式(8)和(9)的welt的MDCT/MDST和ELT过渡窗口以及作为比较的AAC的双倍长度开始窗口的频谱和时间形状。
实施例采用广义双正交ELT过渡窗口。
方程(5)指定如何可以确定从MLT到ELT编码或从ELT到MLT编码的过渡的长度为4M的扩展重叠变换(ELT)窗口的关键四分之一。
在实施例中,通过乘以常数d(作为示例,参见公式(5a))如下来调整方程(5):
其中k=0,1,...,M–1并且t如先前使用k和L定义的。这允许针对切换比率的过渡加窗的所谓双正交做法,其中不同的临界窗口四分之一可以被用于分析和合成变换。更具体而言,为了实现TDAC以及因此完全重构,wtr(t)可以在分析(编码器)侧使用d=d',并且在合成(解码器)侧,wtr(t)可以应用逆,即,d=1/d'。给定特定的稳态ELT窗口welt,优选地经由本文的方程(8)和(9)导出的welt,d'优选地基于以下两个考虑来确定。
优选地,为了确定d',选择方程(10)以在所有比率切换过渡期间产生分析窗口的最优频谱属性和解码后的最大输出衰减。
为了实现分析加窗的最优频谱特性,一些实施例在分析窗口中实现最小可能的主瓣宽度量和最大可能的旁瓣衰减量,以便最大化频谱压缩,尤其是静止的谐波音频信号的频谱压缩。给定稳态welt窗口已经为此目的进行了优化,可以示出,这可以通过避免四个窗口四分之一之间边界处的不连续性在wtr中实现。更确切地说,通过选择d'使得(10)中wtr(t)的最大值等于welt(n)的最大值,其中n=0,1,...,L–1,完全避免了瞬态窗口形状的跳跃。
因此,在实施例中,d'应该反映所述两个最大值之间的比率,这在公式(8)和(9)的情况下可以通过d'=4096/4061→1/d'=4061/4096来近似。
根据实施例,实现了合成加窗后的最大输出衰减。为了尽可能多地抑制由于对变换块(bin)进行量化引入的音频编码中的频谱域失真,尽可能多地在OLA处理之前的合成加窗处理期间衰减输出波形可以是有用的。但是,由于完全重构/TDAC要求,窗口的强衰减是不可行的,因为这种做法会使互补分析窗口在效率方面受到损害。可以示出,通过再次选择1/d'=4061/4096→d'=4096/4061,可以获得好的窗口特性与可接受的解码器侧输出衰减之间的良好折衷。
换句话说,用于wte的这两种优化做法优选地导致相同的d'值。
已经提供了变换的示例,例如公式(2a)-(2j)的现有技术变换或者公式(4a)-(4h)的新颖的本发明的变换。
例如,根据实施例的方程(10)的过渡窗口的示例由上面的方程(5a)提供。
图10图示了根据如上所述的实施例的对应分析窗口。
同样,图11图示了根据如上所述的实施例的对应合成窗口。
在下文中,描述输入自适应重叠率选择。
上面提供的切换编码做法(例如,使用上面提供的窗口)可以被集成到变换编解码器中。这尤其验证了它在音调输入方面预期的主观优势。为了简洁起见,仅描述高层级的方面。
考虑解码器的规格和合成变换。
每信道和/或帧接收ELT的额外位,信令应用,其中长变换(无块切换)已经被编码器利用。在MPEG编码的情况下,为了这个目的,可以重新使用窗口形状位(例如,“0”意味着:采用参考文献[23]或参考文献[24]的MLT使用窗口,例如,“1”意味着:采用实施例的ELT概念)。
如上所述,基于针对当前帧和最后帧的这个位以及窗口序列(变换长度和类型),解码器可以使用正确的重叠率和窗口来推断和应用逆重叠变换,如上所述。
例如,额外的位可以指示编码器是否可以在MLT和ELT之间切换。如果额外的位指示编码器可以在MLT和ELT之间切换,那么窗口形状位被重新使用用于指示例如对于当前帧,是使用MLT还是ELT。
现在考虑ELT检测器以及编码器的分析变换。
应用和发送每通道/帧MLT/ELT选择使得编码器和解码器同步的编码器可以通过计算输入的线性预测编码(LPC,例如阶数为16)残余来检测静止的谐波帧,如在语音编码器中那样(参见[25])。
编码器例如从其导出时间平坦度ft,作为下一帧与当前帧的残余能量之间的比率,其中静止性被指定为而且,编码器例如从其导出也被称为Wiener熵的频谱平坦度fs,它是从当前帧与下一帧的级联残差的DFT功率谱获得的,具有由指示的高音调(tonality)。
在下文中,提供根据一些实施例的改进扩展重叠变换(MELT)的其它方面。
特别地,提供将可切换MELT集成到MPEG-H 3D音频核心编码系统中的优选实施例的实现方面的详细描述。
首先,描述根据一些实施例的解码器、其规范和合成变换。
全局的一位语法元素,例如所谓的use_melt_extension,被引入到单通道元素(SCE)、通道对元素(CPE)以及可选地低频增强元素(LFE)语法规范的流配置中。这可以通过将use_meit_extension放入标准文本的mpegh3DACoreConfig()表中来实现。当给定的位流特征use_melt_extension=0时,核心解码器按照现有技术中指定的以常规MPEG-H方式工作。这意味着只有具有50%变换重叠率的MDCT(或者MDST,在帧/通道中激活内核切换的情况下,参见[28],特别参见[28]的第4节“Discrete Multi-Channel Coding Tool”的末尾)被允许,并且关于window_sequence(仅长、长开始、八短、长停止、停止-开始)和window_shape(正弦或KBD)没有新的限制。(在[28]中,自适应频谱-时间转换器在第一组变换内核与第二组变换内核的变换内核之间切换,其中第一组变换内核具有在内核的两侧具有不同对称性的一个或多个变换内核,第二组变换内核包括在变换内核的两侧具有相同对称性的一个或多个变换内核)。
但是,当位流中的use_melt_extension=1时,优选地修改具有“仅长”window_sequence的帧/通道的每帧一位window_shape元素的含义,如前所述(0:使用现有KBD窗口函数的MDCT/MDST,其中α=4(参见[23]),1:具有本文提出的welt窗口函数的MELT)。
示出了用于解码经编码的音频信号4的解码器2的示意性框图。该解码器包括自适应频谱-时间转换器6和重叠相加处理器8。自适应频谱-时间转换器将频谱值4'的连续块转换成时间值10的连续块,例如经由频率-时间变换。此外,自适应频谱-时间转换器6接收控制信息12并且响应于控制信息12而在第一组变换内核与第二组变换内核的变换内核之间切换,其中第一组变换内核具有在内核的两侧具有不同对称性的一个或多个变换内核,第二组变换内核包括在变换内核的两侧具有相同对称性的一个或多个变换内核。而且,重叠相加处理器8重叠并相加时间值10的连续块,以获得解码的音频值14,其可以是解码的音频信号。
这种设计有三个原因。首先,由于稳态MELT只有一个期望的窗口函数,并且在现有技术中不存在由Kaiser-Bessel函数导出的ELT窗口,因此用于“仅长”帧/通道和激活的MELT的window_shape位可以被认为是废弃的,因此是不必要的,因为它的值(当如现有技术中所定义的那样被解释时)将需要被忽略。
其次,不支持在不是“仅长”的帧/通道中使用MELT编码–例如,八个短MELT的序列代替MDCT/MDST是可行的,但是使块切换技术大大复杂化并且从感知的角度来看是事与愿违的,因为“八短”序列的目标是最大化时间编码分辨率。
第三,发明人发现,在给定的输入信号部分上,当在相同的信号部分上被激活时,正弦窗口产生比KBD窗口更好的编码质量的“仅长”帧/通道从所提出的ELT设计中受益甚至更多。换句话说,具有“正弦”window_shape的MDCT/MDST在波形段上与ELT提议相匹配或者甚至在主观上超越,在波形段上它们进而明显超越具有“KBD”window_shape的MDCT/MDST编码。因此,当window_sequence为“仅长”并且use_melt_extension=1时,通过重新利用和重新指定现有的window_shape位,完全避免了冗余,并且不需要进一步的每帧位来用于信号通知是否在给定的帧/通道中使用所提出的到MELT的切换或从MELT的切换。
对于具有use_melt_extension=1的位流,除了如下进行的逆变换和重叠和相加(OLA)处理之外,像往常一样执行频域(FD)MPEG-H核心解码。
对于具有window_sequence=“仅长”和window_shape=0(KBD)或者具有window_sequence≠“仅长”以及任何window_shape的帧/通道,按帧的逆变换、合成加窗和OLA如MPEG-H3D音频标准(即,ISO/IEC 23008-3:2015,子条款5.5.3.5.1和ISO/I EC 23003-3:2012,子条款7.9)中规定的那样执行。
但是,为了解释可切换的MELT的增加的窗口等待时间,由OLA步骤产生的每帧波形段的输出被延迟一帧。这意味着例如当给定的帧是流中的第一帧时,输出零波形。
对于具有window_sequence=“仅长”和window_shape=1(先前为:正弦)的帧/通道,使用本文提出的用于MELT的公式执行逆变换,其等同于在ISO/I EC 23003-3:2012,子条款7.9.3.1中给出的方程,除0≤n<2N和n0=(3N/2+1)/2之外。要注意的是,对内核切换的修改,即,使用sin()代替cos()函数以及k0=0(对于II型余弦调制)或k0=1(对于II型正弦调制),对于MELT(假设TDA兼容的排序)也是可能的。然后,利用如表3中制表的检测到的过渡窗口,针对给定通道使用当前帧和前一帧的window_shape和window_sequence值,如前面的第2节和第3节所述,应用合成加窗。表3还指示所有允许的序列/形状过渡的集合。
应当注意的是,可以使用现有的MDCT和MDST实现来实施逆MELT(或原始ELT,就此而言),其进而应用基于快速傅立叶变换(FFT)的快速DCT/DST实施。更具体而言,正弦调制的逆MELT可以通过取消每个奇数索引的频谱样本(其中索引从零开始),随后应用逆MDCT-IV并最后通过用否定符号在时间上重复结果所得的2N个输出样本来实现。
同样,余弦调制的逆MELT可以通过取消每个偶数索引的频谱样本,随后执行逆MDST-IV并且最后通过用否定符号进行相同的时间重复来获得。对于如在内核切换的情况下使用的II型余弦或正弦调制的逆MELT以及对于所有上述MELT配置的正(分析)变换,可以实现类似的实现。因此,与传统的MDCT/MDST算法相比,由MELT处理引起的唯一复杂性增加是由于需要取消的时间重复(逆情况下的扩展或正情况下的压缩),其表示具有2N个输入或输出样本的以-1)的缩放的简单的复制/乘-加操作,两倍于MDCT/MDST的样本的分析或合成加窗(4N而不是2N),以及解码器中的OLA期间的更多相加。换句话说,给定变换的O(n(logn+c))算法复杂度,在MELT(或ELT)的情况下仅增加常数c,并且由于在本实施例中n=1024或768,因此c按照近似二至三的因子的任何增加可以被认为可以忽略不计(即,它仅仅总计小于总变换、加窗和OLA/成帧复杂度的四分之一,而这转而仅仅是整个3D音频解码器的复杂度的一小部分)。
表3图示了在MELT切换方案的情况下所支持的窗口序列。LONG序列意味着MDCT/MDST,其中仅“KBD”窗口形状被允许,因为具有“正弦”窗口配置的LONG被重新用于发信号通知ELT-LONG序列。
表3:
√=允许;x=不允许
tr<-tr;=从ELT过渡;tr->tr=过渡到ELT;
KBD=Kaiser-Bessel导出
在下文中,描述已经进行的编解码器集成的评估。切换比的提议的盲目主观评估证实了信号自适应设计的益处。参考图8和图9。
图8图示了基于频谱和时间平坦性的ELT的选择。特别地,图8图示了针对四个输入信号(MDST在该素材上未使用)的结果所得的按帧ELT和MDCT选择。可靠地检测静止的音调通路。下面的(粉色)“sel”线对于MELT具有值“0”,对于MLT具有值“-1”。
图9图示了具有95%置信区间的收听测试结果的放大视图。为了清楚起见,省略3.5kHz锚得分。
集成到3D音频编解码器中的这种方案的主观测试的设计和结果在下面讨论:
根据MUSHRA(具有隐藏参考和锚的多刺激)原理进行两次盲收听实验(参见[26]),以评估与仅采用MDCT(或MDST,如在内核切换提议的情况下,参见[9])的常规方案相比而言切换MDCT-ELT编码系统的主观性能。为此,切换比体系架构被集成到MPEG-H 3D音频编解码器的编码器和解码器实现中,在48kbit/s立体声处使用IGF用于带宽扩展并且使用立体声填充(SF)用于半参数通道对编码,如[8]、[9]中所描述的。由12位有经验的听众(年龄39岁及以下,包括1名女性)使用无风扇电脑和现代STAX耳机在安静的房间进行测试。
第一个进行的实验是使用音调乐器信号的48kbit/s测试,旨在量化ELT相对于传统MDCT编码在音调谐波音频素材上的优势,以及从ELT切换到MDCT编码对瞬态和音调起始(onset)的益处,如上一节所讨论的。对于过去MPEG编解码器评估[25]、[27]中已经使用的四个音调测试信号中的每一种(手风琴、风笛/调音管和大键琴),具有和不具有可切换ELT的3D音频编码刺激与采用统一的立体声SBR和MPEG环绕2-1-2(以及因此,加倍的帧长度)的3D音频参考条件一起给出。
这个测试的结果连同每刺激的95%置信区间一起在图9(a)中被图示为总体平均得分,并且在图9(b)中被图示为相对于ELT条件的差异平均得分。它们证明,对于四个项中的三个,基于SBS的3D音频编解码器的质量可以通过在静止信号通路期间切换到ELT来显著改进。而且,通过在非静止音调起始和瞬变期间求助于DCT编码,避免由于更强的预回声伪影引起的感知降级。最后,可以使具有IGF和SF的3D音频配置的主观性能更接近于用于这些项的较长帧尺寸的统一立体声参考的主观性能。除sm01(风笛)之外的所有刺激现在均展现出良好的质量。
进行第二个“虚拟”收听测试(使用各种信号类型的48kbit/s虚拟测试),其中将[9]中的主观评估结果与phi7项的当前数据(调音管,[9]中的仅有的信号,ELT在多于几帧中被应用)相结合。
这个设置应当揭示由可切换的ELT方案进行增强的基于SBS的3D音频编码是否可以在各种测试集上超越基于QMF的3D音频配置。
图9(c)绘出了针对这个测试的每刺激和总体绝对平均得分,同样具有置信区间。事实上,由于在信号(诸如phi7)上的ELT引起的质量增益,SBS+ELT配置的平均感知性能比统一立体声参考的平均感知性能好得多。给定后者由于需要附加的伪QMF组而展现出更高的算法等待时间和复杂性,这个结果非常令人满意。
切换ELT做法的感知益处通过正式的主观评估被证实,该评估揭示在3D音频框架上没有质量降级,并且进一步指示发明人在48kbit/s立体声的每种类型的输入信号上的良好编码质量的长期目标实际上只需要多一点编码器调谐即可实现。
一些实施例通过改进的扩展重叠变换(MELT)的自适应应用来提供对准静止谐波信号通路的改进。
在这个上下文下,图12图示了根据一些特定实施例的具有重叠变换的基本滤波器组,其中图12(a)图示了MDCT/MDST,并且其中图12(b)图示了ELT。
基于ELT,在一些实施例中,如图12(b)中所绘出的,MELT构造具有75%变换间重叠的奇数堆叠的滤波器组,从而,以相同的帧长度M,产生比具有50%重叠的MDCT或MDST滤波器组更大的频率选择性,如图12(a)中所示。但是,与ELT不同,MELT允许例如在一些实施例中仅使用特殊瞬态窗口向MDCT和从MDCT的直接过渡。特别地,一些实施例可以例如提供相应的按帧的信号自适应重叠率切换方案。
现在描述实现余弦和正弦调制MELT编码的特定实施例。
如上面已经解释过的,给定时间信号x并返回频谱X,用于索引为i处的帧的正(分析)MDCT例如可写为
其中窗口长度N=2M且0≤k<M。同样,正MDST使用正弦代替余弦项被定义为:
在实施例中,通过更改时间长度和相位偏移,这产生MELT,
具有增加的窗口长度L=4M和余弦调制。自然,也可以指定正弦调制的对应物,
逆(合成)MELT变体是例如用于应用公式(11c)的余弦组的
以及分别用于正弦组的
其中'表示频谱处理,并且0≤n<L。
应当注意的是,虽然所采用的窗口长度可以例如在公式(11a)、(11b)与公式(11c)、(11d)、(11e)和(11f)之间变化,但是变换长度M以及由此图12中所示的变换间步长保持完全相同,这解释了重叠率的差异。公式(11c)、(11d)、(11e)和(11f)的余弦和正弦调制MELT定义在一些实施例中可以被进一步改进,用于实现内核切换以及因此具有±90度IPD的信号的高效编码,即使在75%的变换间重叠的情况下。例如,当在IV型MDCT与MDST之间切换时,可以将从偶数堆叠的Princen-Bradley滤波器组采用的II型过渡变换用于时域混叠消除(TDAC),参见公式(11a)和(11b)。具体而言,在通道中从MDCT-IV到MDST-IV编码改变期间需要MDST-II,并且在恢复到MDCT-IV编码时需要MDCT-II。
除了上面提到的IV型定义(参见公式(11c)、(11d)、(11e)和(11f))之外,还可以构建允许使用DCT-II的快速实现的基于ELT的滤波器组,这证明具有多于50%变换间重叠的II型滤波器组实际上是可行的。遵循TDAC滤波器组设计的替代但等效的做法是经由交替使用II型余弦调制MELT版本来设计偶数堆叠的系统,
其中Kronecker增量δ(0)=1,以及II型基于正弦的MELT,
其中k′=M–1–k用于Nyquist系数的缩放。
在分析测的公式(11g)和(11h)以及分别在合成侧的公式
和
导致TDAC,如图13中所绘出的。
特别地,图13绘出了根据一些特定实施例的偶数堆叠的滤波器组中的TDAC,其中图13(a)图示了Princen-Bradley,并且其中图13(b)图示了MELT-II。在相邻变换之间的偶数-奇数或奇数-偶数时域混叠组合的情况下,TDAC是可能的。
关于MELT编码和内核切换的组合,可以示出,当类似于50%重叠的处理,在IV型余弦调制与正弦调制MELT之间切换时采用(11g)和(11i)或公式(11h)和(11j)的瞬态II型实例时,TDAC是不可能的,参见公式(11c)、(11d)、(11e)和(11f)。由于无论瞬间重叠率如何在允许内核切换时期望保持编解码器的体系架构复杂性低,因此提出了以下解决方法。为了从余弦调制的MELT-IV(参见公式(11c)和(11e))切换到正弦调制的MELT-IV(参见公式(11d)和(11f)),可以例如在分析侧和合成侧都采用与重叠率暂时降低到50%组合的瞬态MDST-II帧。同样,当从基于正弦的MELT编码恢复到基于余弦的MELT编码时,可以采用中间MDCT-II。图14图示了根据特定实施例的用于MELT-IV滤波器组的特定的符合TDAC的内核切换,其中图14(a)图示了从余弦到正弦调制的过渡,并且其中图14(b)图示了从正弦到余弦调制的过渡。
在这两种情况下都获得完整的TDAC,如图14中可视化的,每个II型过渡与其IV型MELT邻居之间的重叠长度被限制到因此,在需要TDAC的余弦调制与正弦调制MELT-IV之间不存在时间混叠边界重叠。为了实现适当的加窗,在实施例中,应当对II型变换应用特殊的“停止-开始”窗口,如图15(a)中所示。根据一些实施例,基于不对称瞬态加权的这种例如对称窗口在下面更详细地描述。
特别地,图15图示了根据特定实施例的改进的加窗,其在暂时过渡期间具有由虚线指示的特殊“停止-开始”形状,其中图15(a)图示了从75%到50%重叠比的暂时过渡,并且其中图15(b)图示了从50%到75%重叠率的暂时过渡。
在下文中,描述根据一些实施例的从MELT帧和到MELT帧的过渡。
根据一些实施例,帧到帧的切换可以例如从具有50%重叠率的类MDCT变换到具有75%重叠率的MELT来实现,反之亦然。为了在切换期间维持完全TDAC,可以例如采用从在准静止信号通路期间应用的稳态加权导出的专用不对称过渡窗口。例如,针对第一MELT窗口,当重叠从50%增加到75%时(图15(a)中针对帧i所绘出的粗线形状),这些窗口可以被定义为
并且针对第一个MDCT/MDST窗口,当重叠减少到50%时(对于同一帧,图15(b)中的粗线形状)是
w′elt和w′mlt(当切换到50%重叠时的最后一个MELT窗口在和切换回75%重叠期间的最后一个MDCT/MDST窗口(图15中的帧i-2))的补数分别是公式(12)和(13)的时间反转。用在临界窗口部分(也参见图14)中的k如上所述指定,而welt和wmlt分别指示用于稳态MELT和MDCT/MDST的底层窗口函数。对于也适用于ELT的前者(参见[12]),上面已经提供了防止块伪影的改进设计。
当应用于或者分析(编码器)侧或者合成(解码器)侧时,令wtr(t)(其中t跨越M个时域样本)例如表示w′elt或w′mlt的临界窗口四分之一(例如,由实数值d衡量(scale)的平方根项来表征的长度为M的段)。采用d允许关于切换比变换加窗的所谓双正交做法,其中不同的临界窗口部分可以被用于分析和合成变换。更具体而言,为了实现TDAC以及因此PR,wtr(t)可以在分析(编码器)侧使用d=d′,并且在合成(解码器)侧,wtr(t)可以采用逆,例如,给定特定的稳态ELT窗口welt,d'优选地被确定为使得,在所有比率切换过渡期间,它既导致编码期间分析窗口的最优频谱属性又导致解码期间合成窗口的最大输出衰减。
根据解码器实施例,welt是第一窗口函数,wmlt是第二窗口函数,并且w′mlt是第三窗口函数,其中第三窗口函数根据下式定义
其中M指示第一组频谱域音频样本或第二组频谱域音频样本或第三组频谱域音频样本或第四组频谱域音频样本的频谱域音频样本的数量,其中k是具有0≤k<M的数字,其中d是实数,其中n是整数,并且其中重叠加法器130被配置为取决于第三窗口函数w′mlt生成第一组时域中间音频样本和第二组时域中间音频样本以及第三组时域中间音频样本和第四组时域中间音频样本中的至少一组。
类似地,根据编码器实施例,welt是第一窗口函数,wmlt是第二窗口函数,并且w′mlt是第三窗口函数,其中第三窗口函数根据下式定义
其中M指示第一组频谱域音频样本或第二组频谱域音频样本或第三组频谱域音频样本或第四组频谱域音频样本的频谱域音频样本的数量,其中k是具有0≤k<M的数字,其中d是实数,其中n是整数,并且其中第一编码模块210和第二编码模块220中的至少一个被配置为将第三窗口函数w′mlt应用于第一组时域音频样本和第二组时域音频样本以及第三组时域音频样本和第四组时域音频样本中的至少一组。
在下文中,描述根据一些实施例的分析加窗的改进的、优选地最优的频谱特性。一些实施例尝试在分析窗口中实现小的、优选地尽可能最小的主瓣宽度量以及强烈的、优选地尽可能最强的旁瓣衰减量,以便增加尤其是静止、谐波音频信号的频谱压缩。
对于一些实施例,由于稳态welt窗口已经为此目的而被构建,因此可以示出,这可以通过避免窗口部分之间的边界处的不连续性在w′elt和w′mlt(当然,还有它们的时间反转)中实现。更确切地说,通过选择d'使得wir的最大值等于welt的最大值(或者,例如接近那个最大值的值),完全避免瞬态窗口形状中的跳跃。因此,d'应该反映所述两个最大值之间的比率,在当前情况下可以用近似。
在下文中,描述了合成加窗后的增加的、优选地最大的输出衰减。为了更好地(优选地尽可能多地)抑制由变换块的量化造成的音频编码中的频谱域失真,在OLA处理之前的合成加窗处理期间优选地尽可能多地衰减输出波形会是有用的。但是,由于PR/TDAC要求,窗口的强衰减是困难的,因为这种做法会使互补分析窗口在效率方面受损。根据一些实施例,可以通过选择获得良好的窗口特性与可接受的解码器侧输出衰减之间的良好折衷。
换句话说,这两种用于wtr的优化做法优选地导致d'的相同的值。当采用welt时,w′elt和w′mlt中的不连续性非常小(参见图9),并且至少在合成侧避免这种不连续性预期不会产生可听的改进。上面描述的用于基于MELT的内核切换的特殊瞬态“停止-开始”窗口(在图15(a)中由虚线为特定实施例绘出并且在下文中由wss表示)可以从公式(12)或(13)的临界窗口部分导出:
换句话说,wss是在两个一半中都具有临界部分的对称窗口,因此允许双侧的重叠率过渡。应当注意的是,wss可以应用于MDCT和MDST以及不同的MELT变体(假设长度为L的加权的外部四分之一被设置为零)。事实上,如图5c)中所指示的,其对于分析侧加窗的使用使得MDCT和余弦调制的MELT-IV系数除符号差异之外完全相同。除了促进内核切换之外,还可以利用wss来使重叠率切换方案更灵活。例如,图15b)中所示的暂时切换配置(从50%到75%重叠)可以由此实现。
根据解码器实施例,welt是第一窗口函数,wss是第二窗口函数,其中第二窗口函数根据下式来定义
其中M指示第一组频谱域音频样本或第二组频谱域音频样本或第三组频谱域音频样本或第四组频谱域音频样本的频谱域音频样本的数量,其中k是具有0≤k<M的数字,其中d是实数,其中n是整数,并且其中重叠加法器130被配置为取决于第二窗口函数wss来生成第一组时域中间音频样本和第二组时域中间音频样本以及第三组时域中间音频样本和第四组时域中间音频样本中的至少一组。
类似地,根据编码器实施例,welt是第一窗口函数,wss是第二窗口函数,其中第二窗口函数根据下式来定义
其中M指示第一组频谱域音频样本或第二组频谱域音频样本或第三组频谱域音频样本或第四组频谱域音频样本的频谱域音频样本的数量,其中k是具有0≤k<M的数字,其中d是实数,其中n是整数,并且其中第一编码模块210和第二编码模块220中的至少一个被配置为将第二窗口函数wss应用于第一组时域音频样本和第二组时域音频样本和第三组时域音频样本和第四组时域音频样本中的至少一组。
虽然已经在装置的上下文中描述了一些方面,但清楚的是,这些方面也表示对应方法的描述,其中块或设备与方法步骤或方法步骤的特征对应。类似地,在方法步骤的上下文中描述的各方面也表示对应装置的对应块或项或特征的描述。方法步骤中的一些或全部可以由硬件装置(例如微处理器、可编程计算机或电子电路)执行(或使用)。在一些实施例中,一个或多个最重要的方法步骤可以由这种装置执行。
取决于某些实现要求,本发明的实施例可以用硬件或软件或至少部分地用硬件或至少部分地用软件来实现。可以使用其上存储有电子可读控制信号的数字存储介质(例如软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或FLASH存储器)来执行该实现。其中电子可读控制信号与可编程计算机系统合作(或能够合作),使得执行相应的方法。因此,数字存储介质可以是计算机可读的。
根据本发明的一些实施例包括具有电子可读控制信号的数据载体,其中电子可读控制信号能够与可编程计算机系统合作,使得执行本文描述的方法之一。
一般而言,本发明的实施例可以被实现为具有程序代码的计算机程序产品,该程序代码可操作用于当计算机程序产品在计算机上运行时执行其中一种方法。程序代码可以例如存储在机器可读载体上。
其它实施例包括用于执行存储在机器可读载体上的本文描述的方法之一的计算机程序。
换句话说,本创造性方法的实施例因此是当计算机程序在计算机上运行时具有用于执行本文所述的方法之一的程序代码的计算机程序。
因此,本创造性方法的另一个实施例是数据载体(或数字存储介质或计算机可读介质),其上记录有用于执行本文所述方法之一的计算机程序。数据载体、数字存储介质或记录介质通常是有形的和/或非瞬态的。
因此,本创造性方法的另一个实施例是表示用于执行本文所述的方法之一的计算机程序的数据流或信号序列。数据流或信号序列可以例如被配置为经由数据通信连接传送,例如经由互联网。
另一个实施例包括处理手段,例如计算机或可编程逻辑设备,其被配置为或适于执行本文所述的方法之一。
另一个实施例包括其上安装有用于执行本文所述的方法之一的计算机程序的计算机。
根据本发明的另一个实施例包括被配置为将用于执行本文所述的方法之一的计算机程序传送(例如,电子地或光学地)到接收器的设备或系统。接收器可以例如是计算机、移动设备、存储设备等。装置或系统可以例如包括用于将计算机程序传送到接收器的文件服务器。
在一些实施例中,可以使用可编程逻辑设备(例如现场可编程门阵列)来执行本文所述的方法的一些或全部功能。在一些实施例中,现场可编程门阵列可以与微处理器合作,以便执行本文所述的方法之一。一般而言,这些方法优选地由任何硬件装置执行。
本文所述的装置可以使用硬件装置或使用计算机或使用硬件装置和计算机的组合来实现。
本文所述的方法可以使用硬件装置或使用计算机或使用硬件装置和计算机的组合来执行。
上述实施例仅用于说明本发明的原理。应当理解的是,对于本领域其他技术人员而言,对本文所述的布置和细节的修改和变化将是显而易见的。因此,其仅由即将到来的专利权利要求书的范围限制,而不是由通过对本文实施例的描述和解释给出的具体细节限制。
参考
[1]J.P.Princen和A.B.Bradley,"Analysis/Synthesis Filter Bank DesignBased on Time Domain Aliasing Cancellation,"IEEE Trans.Acoustics,Speech,andSignal Processing,卷34,号5,页1153-1 161,1986年10月.
[2]J.P.Princen,A.W.Johnson,和A.B.Bradley,"Subband/transform codingusing filter bank design based on time domain aliasing cancellation,"inProc.of IEEE ICASSP'87,1987年4月,卷12,页2161-2164.
[3]H.S.Malvar,"Lapped Transforms for Efficient Transform/SubbandCoding,"IEEE Trans.Acoustics,Speech,and Signal Proc,卷38,号6,页969-978,1990年6月.
[4]M.Bosi,K.Brandenburg,S.Quackenbush,L.Fielder,K.Akagiri,H.Fuchs,M.Dietz,J.Herre,G.Davidson,和Y.Oikawa,"ISO/IEC MPEG-2Advanced Audio Coding,"J.Audio Eng.Soc,卷45,页10,1997年10月.
[5]ISO/IEC MPEG-2 13818-3,"Information technology-Generic coding ofmoving pictures and associated audio information-Part 3:Audio,"1998年4月.
[6]J.Herre,J.Hilpert,A.Kuntz,和J.Plogsties,"MPEG-H Audio-The NewStandard for Universal Spatial/3D Audio Coding,"J.Audio Eng.Soc,卷62,号12,页821-830,2014年12月.
[7]ISO/IEC MPEG-H 23008-3,"Information technology-High efficiencycoding and media delivery in heterogeneous environments-Part 3:3D audio,"2015年3月.
[8]C.R.Helmrich,A.Niedermeier,S.Bayer,和B.Edler,"Low-complexity semi-parametric joint-stereo audio transform coding,"in Proc.of EUSIPCO'15,2015年9月.
[9]C.R.Helmrich和B.Edler,"Signal-adaptive transform kernel switchingfor stereo audio coding,"in Proc.of IEEE WASPAA'15,New Paltz,2015年10月,页1-5.
[10]C.R.Helmrich,A.Niedermeier,S.Disch,和F.Ghido,"Spectral envelopereconstruction via IGF for audio transform coding,"in Proc.of IEEE ICASSP'15,2015年4月,页389-393.
[11]H.S.Malvar,"Modulated QMF Filter Banks with PerfectReconstruction,"Electronics Letters,卷26,号13,页906-907,1990年6月.
[12]H.S.Malvar,"Extended Lapped Transforms:Properties,Applications,and Fast Algorithms,"IEEE Trans.Signal Proa,卷40,号11,页2703-2714,1992年11月.
[13]R.L.de Queiroz和K.R.Rao,"Adaptive extended lapped transforms,"inProc.of IEEE ICASSP'93,Apr.1993,vol.3,pp.217-220.
[14]R.L.de Queiroz and K.R.Rao,"Time-Varying Lapped Transforms andWavelet Packets,"IEEE Trans.Signal Proc,卷41,号12,页3293-3305,1993年12月.
[15]M.Temerinac和B.Edler,"LINC:A Common Theory of Transform andSubband Coding,"IEEE Trans.Communications,卷41,号2,页266-274,1993年2月.
[16]M.Temerinac和B.Edler,"Overlapping Block Transform:Window Design,Fast Algorithm,and an Image Coding Experiment,"IEEE Trans.Communic,卷43,号9,页2417-2425,1995年9月.
[17]G.D.T.Schuller和T.Karp,"Modulated Filter Banks with ArbitrarySystem Delay:Efficient Implementations and the Time-Varying Case,"IEEETrans.Signal Proc,卷48,号3,页737-748,2000年3月.
[18]H.S.Malvar,"A modulated complex lapped transform and itsapplications to audio processing,"in Proc.of IEEE ICASSP'99,1999年3月,卷3,页1421-1424.
[19]B.Edler,Aquivalenz von Transformation und Teilbandzerlegung(Subband Decomposition)in der Quellencodierung,Ph.D.thesis,Univ.Hannover,德国,1995.
[20]S.Shlien,"The Modulated Lapped Transform,Its Time-Varying Forms,and Its Applications to Audio Coding Standards,"IEEE Trans.Speech and AudioProc,卷5,号4,页359-366,1997年7月.
[21]M.Padmanabhan和K.Martin,"Some further results on modulated/extended lapped transforms,"in Proc.of IEEE ICASSP'92,1992年3月,卷4,页265-268.
[22]K.M.A.Hameed和E.Elias,"Extended lapped transforms with linearphase basis functions and perfect reconstruction,"in Proc.of IEEE ICECS'05,2005年12月.
[23]L.D.Fielder,M.Bosi,G.Davidson,M.Davis,C.Todd,和S.Vernon,"AC-2andAC-3:Low-Complexity Transform-Based Audio Coding,"AES collected papers onDigital Audio Bit-Rate Reduction,页54-72,1996.
[24]C.R.Helmrich,"On the Use of Sums of Sines in the Design of SignalWindows,"in Proc.of DAFx-10,Graz,Sep.2010,online at http://dafx10.iem.atproceedings/.
[25]M.Neuendorf,M.Multrus,N.Rettelbach,G.Fuchs,J.Robilliard,J.Lecomte,S.Wilde,S.Bayer,S.Disch,C.R.Helmrich,R.Lefebvre,P.Gournay,B.Bessette,J.Lapierre,K.Kjorling,H.Purnhagen,L.Villemoes,W.Oomen,E.Schuijers,K.Kikuiri,T.Chinen,T.Norimatsu,K.S.Chong,E.Oh,M.Kim,S.Quackenbush,和B.Grill,"The ISO/MPEG Unified Speech and Audio Coding Standard-Consistent High Qualityfor all Content Types and at all Bit Rates,"J.Audio Eng.Soc,卷61,号12,页956-977,2013年12月.
[26]ITU,Radiocommunication Sector,"Recommendation BS.1534-2:Methodfor the subjective assessment of intermediate quality level of audiosystems,"2014年6月.
[27]K.Brandenburg和M.Bosi,"Overview of MPEG-Audio:Current and FutureStandards for Low Bit-Rate Audio Coding,"in Proc.of AES 99th Convention,NewYork,1995年10月,号4130.
[28]iSO/IEC SC29 WG11,N15399,"Text of ISO/IEC 23008-3:201x/PDAM 3,MPEG-H 3D Audio phase 2,"2015年7月.
Claims (34)
1.一种用于通过进行逆重叠变换解码多个频谱域音频样本而减少或避免时域混叠的解码器,其中所述解码器包括:
第一解码模块(110),用于通过从第一组频谱域音频样本的频谱域音频样本生成第一组时域中间音频样本来解码第一组频谱域音频样本,以及用于通过从第二组频谱域音频样本的频谱域音频样本生成第二组时域中间音频样本来解码第二组频谱域音频样本,
重叠加法器(130),其中重叠加法器(130)被配置为对恰好两组时域中间音频样本进行重叠相加,所述恰好两组是第一组时域中间音频样本和第二组时域中间音频样本,其中重叠加法器(130)被配置为以恰好50%的重叠将所述恰好两组重叠相加,其中所述恰好两组的所述重叠相加导致生成音频信号的第一多个时域音频输出样本,
第二解码模块(120),用于通过从第三组频谱域音频样本的频谱域音频样本生成第三组时域中间音频样本来解码第三组频谱域音频样本,以及用于通过从第四组频谱域音频样本的频谱域音频样本生成第四组时域中间音频样本来解码第四组频谱域音频样本,以及
输出接口(140),用于输出音频信号的第一多个时域音频输出样本、音频信号的第二多个时域音频输出样本和音频信号的第三多个时域音频输出样本,
其中重叠加法器(130)被配置为使用以恰好75%的重叠对至少第三组时域中间音频样本与第四组时域中间音频样本进行重叠相加来获得第二多个时域音频输出样本,以及
其中重叠加法器(130)被配置为使用至少第二组时域中间音频样本和第三组时域中间音频样本的重叠相加来获得第三多个时域音频输出样本,或者其中重叠加法器(130)被配置为使用至少第四组时域中间音频样本和第一组时域中间音频样本的重叠相加来获得第三多个时域音频输出样本;
其中
welt是第一窗口函数,其中wtr是第二窗口函数,其中第二窗口函数的一部分根据下式被定义
其中M指示第一组频谱域音频样本或第二组频谱域音频样本或第三组频谱域音频样本或第四组频谱域音频样本的频谱域音频样本的数量,其中k是具有0≤k<M的数字,其中d是实数,
其中L指示第三组时域中间音频样本或第四组时域中间音频样本的时域中间音频样本的数量,其中重叠加法器(130)被配置将至少第二组时域中间音频样本和第三组时域中间音频样本重叠相加,其中第二解码模块(120)被配置为取决于第一窗口函数welt而生成第四组时域中间音频样本,并且其中第二解码模块(120)被配置为取决于第二窗口函数wtr而生成第三组时域中间音频样本,或者其中重叠加法器(130)被配置将至少第四组时域中间音频样本和第一组时域中间音频样本重叠相加,其中第二解码模块(120)被配置为取决于第一窗口函数welt而生成第三组时域中间音频样本,并且其中第二解码模块(120)被配置为取决于第二窗口函数wtr而生成第四组时域中间音频样本;
或者其中,
welt是第一窗口函数,其中wmlt是第二窗口函数,以及其中w′mlt是第三窗口函数,其中第三窗口函数根据下式定义
其中M指示第一组频谱域音频样本或第二组频谱域音频样本或第三组频谱域音频样本或第四组频谱域音频样本的频谱域音频样本的数量,其中k是具有0≤k<M的数字,其中d是实数,其中n是整数,以及其中重叠加法器(130)被配置为取决于第三窗口函数w′mlt生成第一组时域中间音频样本、第二组时域中间音频样本、第三组时域中间音频样本和第四组时域中间音频样本的至少一个;
或者其中,
welt是第一窗口函数,其中wss是第二窗口函数,其中第二窗口函数根据下式定义
其中M指示第一组频谱域音频样本或第二组频谱域音频样本或第三组频谱域音频样本或第四组频谱域音频样本的频谱域音频样本的数量,其中k是具有0≤k<M的数字,其中d是实数,其中n是整数,以及其中重叠加法器(130)被配置为取决于第二窗口函数wss生成第一组时域中间音频样本、第二组时域中间音频样本、第三组时域中间音频样本和第四组时域中间音频样本的至少一个。
2.如权利要求1所述的解码器,
其中音频信号的第一多个时域音频输出样本在时间上在音频信号的第三多个时域音频输出样本之前,并且其中音频信号的第三多个时域音频输出样本在时间上在音频信号的第二多个时域音频输出样本之前,并且其中重叠加法器(130)被配置为使用至少第二组时域中间音频样本和第三组时域中间音频样本的重叠相加来获得第三多个时域音频输出样本,或者
其中音频信号的第二多个时域音频输出样本在时间上在音频信号的第三多个时域音频输出样本之前,并且其中音频信号的第三多个时域音频输出样本在时间上在音频信号的第一多个时域音频输出样本之前,并且其中重叠加法器(130)被配置为使用至少第二组时域中间音频样本和第三组时域中间音频样本的重叠相加来获得第三多个时域音频输出样本。
3.如权利要求1所述的解码器,
其中第一解码模块(110)被配置为进行逆改进离散余弦变换或逆改进离散正弦变换,以及
其中第二解码模块(120)被配置为进行逆扩展重叠变换或逆改进扩展重叠变换。
4.如权利要求1所述的解码器,
其中第一组时域中间音频样本的时域中间音频样本的第一数量等于第二组时域中间音频样本的时域中间音频样本的第二数量,
其中第三组时域中间音频样本的时域中间音频样本的第三数量等于第四组时域中间音频样本的时域中间音频样本的第四数量,
其中第二数量等于第三数量除以2,并且其中第一数量等于第四数量除以2。
5.如权利要求1所述的解码器,
其中第二解码模块(120)被配置为通过从第五组频谱域音频样本的频谱域音频样本生成第五组时域中间音频样本来解码第五组频谱域音频样本,并且用于通过从第六组频谱域音频样本的频谱域音频样本生成第六组时域中间音频样本来解码第六组频谱域音频样本,以及
其中重叠加法器(130)被配置为通过将第三组时域中间音频样本和第四组时域中间音频样本以及第五组时域中间音频样本和第六组时域中间音频样本重叠相加来获得第二多个时域音频输出样本,使得第三组时域中间音频样本或第四组时域中间音频样本与第五组时域中间音频样本重叠,并且使得第五组时域中间音频样本与第六组时域中间音频样本重叠。
6.如权利要求1所述的解码器,
其中第二解码模块(120)被配置为取决于cs(a(n+b)(k+c))生成第三组时域中间音频样本和第四组时域中间音频样本的至少一个,
其中cs()是cos()或sin(),
其中n指示第三组时域中间音频样本或第四组时域中间音频样本的时域中间音频样本的一个的时间索引,
其中k指示第一组频谱域音频样本或第二组频谱域音频样本或第三组频谱域音频样本或第四组频谱域音频样本的频谱域音频样本的一个的频谱索引,
其中-0.1≤c≤0.1或0.4≤c≤0.6或0.9≤c≤1.1,
其中0.9·π≤q≤1.1·π,
其中M指示第一组频谱域音频样本或第二组频谱域音频样本或第三组频谱域音频样本或第四组频谱域音频样本的频谱域音频样本的数量,
其中1.5≤s≤4.5。
8.如权利要求6所述的解码器,
其中c=0或c=0.5或c=1,
其中q=π,以及
其中s=3。
9.如权利要求7所述的解码器,
其中q=π,其中s=3,其中cs()是cos(),并且csl()是cos(),并且其中c=0.5且c1=0.5,或者
其中q=π,其中s=3,其中cs()是sin(),并且csl()是cos(),并且其中c=1且c1=0,或者
其中q=π,其中s=3,其中cs()是sin(),并且csl()是sin(),并且其中c=0.5且c1=1,或者
其中q=π,其中s=3,其中cs()是cos(),并且csl()是sin(),并且其中c=0且c1=1,或者
其中q=π,其中s=3,其中cs()是sin(),并且csl()是sin(),并且其中c=0.5且c1=0.5,或者
其中q=π,其中s=3,其中cs()是cos(),并且csl()是sin(),并且其中c=0且c1=0.5,或者
其中q=π,其中s=3,其中cs()是cos(),并且csl()是cos(),并且其中c=0.5且c1=0,或者
其中q=π,其中s=3,其中cs()是sin(),并且csl()是cos(),并且其中c=1且c1=0。
12.如权利要求1所述的解码器,
其中重叠加法器(130)被配置为将至少第二组时域中间音频样本和第三组时域中间音频样本重叠相加,使得第二组时域中间音频样本的所有时域中间音频样本与第三组时域中间音频样本的时域中间音频样本重叠,或者
其中重叠加法器(130)被配置为将至少第四组时域中间音频样本和第一组时域中间音频样本重叠相加,使得第一组时域中间音频样本的所有时域中间音频样本与第四组时域中间音频样本重叠。
13.如权利要求1所述的解码器,
其中解码器被配置为接收解码信息,所述解码信息指示多个频谱域音频样本的一部分待由第一解码模块(110)还是第二解码模块(120)解码,以及
其中解码器被配置为取决于所述解码信息通过采用或者第一解码模块(110)或者第二解码模块(120)来解码所述多个频谱域音频样本的所述部分,以获得第一组时域中间音频样本或第二组时域中间音频样本或第三组时域中间音频样本或第四组时域中间音频样本。
14.如权利要求1所述的解码器,
其中解码器被配置为接收第一位和第二位,其中第一位和第二位一起具有第一位值组合或者不同于第一位值组合的第二位值组合,或者不同于第一位值组合和第二位值组合的第三位值组合,或者不同于第一位值组合、第二位值组合和第三位值组合的第四位值组合,
其中,如果第一位和第二位一起具有第一位值组合,解码器被配置为通过采用第一解码模块(110)取决于Kaiser-Bessel函数来解码多个频谱域音频样本的一部分,以获得第一组时域中间音频样本或第二组时域中间音频样本,
其中,如果第一位和第二位一起具有第二位值组合,解码器被配置为通过采用第一解码模块(110)取决于正弦函数或余弦函数来解码多个频谱域音频样本的一部分,以获得第一组时域中间音频样本或第二组时域中间音频样本,
其中,如果第一位和第二位一起具有第三位值组合,解码器被配置为通过采用第一解码模块(110)来解码多个频谱域音频样本的一部分,以获得第一组时域中间音频样本或第二组时域中间音频样本,以及
其中,如果第一位和第二位一起具有第四位值组合,解码器被配置为通过采用第二解码模块(120)来解码多个频谱域音频样本的所述部分,以获得第三组时域中间音频样本或第四组时域中间音频样本。
15.一种用于通过进行重叠变换而减少或避免时域混叠的编码器,通过从多组时域音频样本生成多组频谱域音频样本来对音频信号的多个时域音频样本进行编码,其中所述编码器包括:
第一编码模块(210),用于从多组时域音频样本的第一组生成多组频谱域音频样本的第一组,并且用于从多组时域音频样本的第二组生成多组频谱域音频样本的第二组,其中第一组时域音频样本和第二组时域音频样本在多组时域音频样本中在时间上相邻,其中第一组时域音频样本包括第二组时域音频样本的恰好50%的音频样本,并且其中第二组时域音频样本包括第一组时域音频样本的恰好50%的音频样本,以及
第二编码模块(220),用于从多组时域音频样本的第三组生成多组频谱域音频样本的第三组,并且用于从多组时域音频样本的第四组生成多组频谱域音频样本的第四组,其中第三组时域音频样本包括第四组时域音频样本的恰好75%的音频样本,并且其中第四组时域音频样本包括第三组时域音频样本的恰好75%的音频样本;以及
输出模块(230),用于输出第一组频谱域音频样本、第二组频谱域音频样本、第三组频谱域音频样本和第四组频谱域音频样本,
其中第三组时域音频样本包括第二组时域音频样本的音频样本,或者其中第四组时域音频样本包括第一组时域音频样本的音频样本;
其中
welt是第一窗口函数,其中wtr是第二窗口函数,其中第二窗口函数的一部分根据下式定义
其中M指示第一组频谱域音频样本或第二组频谱域音频样本或第三组频谱域音频样本或第四组频谱域音频样本的频谱域音频样本的数量,其中k是具有0≤k<M的数字,其中d是实数,
其中L指示第三组时域音频样本或第四组时域音频样本的时域音频样本的数量,其中第三组时域音频样本包括第二组时域音频样本的音频样本,并且其中第二编码模块(220)被配置为将第一窗口函数welt应用于第四组时域音频样本,并且其中第二编码模块(220)被配置为将第二窗口函数wtr应用于第三组时域音频样本,或者其中第四组时域音频样本包括第一组时域音频样本的音频样本,并且其中第二编码模块(220)被配置为将第一窗口函数welt应用于第三组时域音频样本,并且其中第二编码模块(220)被配置为将第二窗口函数wtr应用于第四组时域音频样本;
或者其中
welt是第一窗口函数,其中wmlt是第二窗口函数,以及其中w′mlt是第三窗口函数,其中第三窗口函数根据下式定义
其中M指示第一组频谱域音频样本或第二组频谱域音频样本或第三组频谱域音频样本或第四组频谱域音频样本的频谱域音频样本的数量,其中k是具有0≤k<M的数字,其中d是实数,其中n是整数,以及其中第一编码模块(210)和第二编码模块(220)的至少一个被配置为将第三窗口函数w′mlt应用于第一组时域音频样本、第二组时域音频样本、第三组时域音频样本和第四组时域音频样本的至少一个;
或者其中
welt是第一窗口函数,其中wss是第二窗口函数,其中第二窗口函数根据下式定义
其中M指示第一组频谱域音频样本或第二组频谱域音频样本或第三组频谱域音频样本或第四组频谱域音频样本的频谱域音频样本的数量,其中k是具有0≤k<M的数字,其中d是实数,其中n是整数,以及其中第一编码模块(210)和第二编码模块(220)的至少一个被配置为将第二窗口函数wss应用于第一组时域音频样本、第二组时域音频样本、第三组时域音频样本和第四组时域音频样本中的至少一个。
16.如权利要求15所述的编码器,
其中第一组时域音频样本在时间上在第二组时域音频样本之前,并且其中第二组时域音频样本在时间上在第三组时域音频样本之前,并且其中第三组时域音频样本在时间上在第四组时域音频样本之前,并且其中第三组时域音频样本包括第二组时域音频样本的音频样本,或者
其中第三组时域音频样本在时间上在第四组时域音频样本之前,并且其中第四组时域音频样本在时间上在第一组时域音频样本之前,并且其中第一组时域音频样本在时间上在第二组时域音频样本之前,并且其中第四组时域音频样本包括第一组时域音频样本的音频样本。
17.如权利要求15所述的编码器,
其中第一编码模块(210)被配置为进行改进离散余弦变换或改进离散正弦变换,以及
其中第二编码模块(220)被配置为进行扩展重叠变换或改进的扩展重叠变换。
18.如权利要求15所述的编码器,
其中第一组时域音频样本的时域音频样本的第一数量等于第二组时域音频样本的时域音频样本的第二数量,
其中第三组时域音频样本的时域音频样本的第三数量等于第四组时域音频样本的时域音频样本的第四数量,
其中第二数量等于第三数量除以2,并且其中第一数量等于第四数量除以2。
19.如权利要求15所述的编码器,
其中第二编码模块(220)被配置为从多组时域音频样本的第五组生成多组频谱域音频样本的第五组,并且其中第二编码模块(220)被配置为从多组时域音频样本的第六组生成多组频谱域音频样本的第六组,
其中第三组时域音频样本或第四组时域音频样本包括第五组时域音频样本的恰好75%的音频样本,其中第五组时域音频样本包括第三组时域音频样本或第四组时域音频样本的恰好75%的音频样本,其中第五组时域音频样本包括第六组时域音频样本的恰好75%的音频样本,其中第六组时域音频样本包括第五组时域音频样本的恰好75%的音频样本,以及
其中输出模块(230)被配置为进一步输出第五组频谱域音频样本和第六组频谱域音频样本。
20.如权利要求15所述的编码器,其中编码器被配置为或者采用第一编码模块(210)或者采用第二编码模块(220)来取决于时域音频信号的一部分的信号特性生成当前组的频谱域音频样本。
21.如权利要求20所述的编码器,
其中编码器被配置为确定多个时域音频样本的当前组是否包括非静止区域和非音调区域的至少一个而作为信号特性,
其中编码器被配置为,如果多个时域音频样本的当前组包括非静止区域和非音调区域的至少一个,采用第一编码模块(210)来取决于多个时域音频样本的当前组生成当前组的频谱域音频样本,以及
其中编码器被配置为,如果多个时域音频样本的当前组不包括非静止区域和非音调区域的至少一个,采用第二编码模块(220)来取决于多个时域音频样本的当前组生成当前组的频谱域音频样本。
22.如权利要求20所述的编码器,其中输出模块(230)被配置为取决于信号特性输出具有或者第一位值或者第二位值的位。
23.如权利要求15所述的编码器,
其中第二编码模块(220)被配置为取决于cs(a(n+b)(k+c))生成第三组频谱域音频样本和第四组频谱域音频样本的至少一个,
其中cs()是cos()或sin(),
其中n指示第三组时域音频样本或第四组时域音频样本的时域音频样本的一个的时间索引,
其中k指示第一组频谱域音频样本或第二组频谱域音频样本或第三组频谱域音频样本或第四组频谱域音频样本的频谱域音频样本的一个的频谱索引,
其中-0.1≤c≤0.1或0.4≤c≤0.6或0.9≤c≤1.1,
其中0.9·π≤q≤1.1·π,
其中M指示第一组频谱域音频样本或第二组频谱域音频样本或第三组频谱域音频样本或第四组频谱域音频样本的频谱域音频样本的数量,
其中1.5≤s≤4.5。
25.如权利要求23所述的编码器,
其中c=0或c=0.5或c=1,
其中q=π,以及
其中s=3。
26.如权利要求24所述的编码器,
其中q=π,其中s=3,其中cs()是cos(),并且csl()是cos(),并且其中c=0.5且c1=0.5,或者
其中q=π,其中s=3,其中cs()是sin(),并且csl()是cos(),并且其中c=1且c1=0,或者
其中q=π,其中s=3,其中cs()是sin(),并且csl()是sin(),并且其中c=0.5且c1=1,或者
其中q=π,其中s=3,其中cs()是cos(),并且csl()是sin(),并且其中c=0且c1=1,或者
其中q=π,其中s=3,其中cs()是sin(),并且csl()是sin(),并且其中c=0.5且c1=0.5,或者
其中q=π,其中s=3,其中cs()是cos(),并且csl()是sin(),并且其中c=0且c1=0.5,或者
其中q=π,其中s=3,其中cs()是cos(),并且csl()是cos(),并且其中c=0.5且c1=0,或者
其中q=π,其中s=3,其中cs()是sin(),并且csl()是cos(),并且其中c=1且c1=0。
29.如权利要求15所述的编码器,
其中第二组时域音频样本的所有时域音频样本与第三组时域音频样本的时域音频样本重叠,或者
其中第一组时域音频样本的所有时域音频样本与第四组时域音频样本重叠。
30.一种系统,包括:
如权利要求15所述的编码器(310),以及
如权利要求1所述的解码器(320),
其中如权利要求15所述的编码器(310)被配置为通过生成多个频谱域音频样本来对音频信号的多个时域音频样本进行编码,
其中如权利要求1所述的解码器(320)被配置为从编码器接收多个频谱域音频样本,
其中如权利要求1所述的解码器(320)被配置为解码所述多个频谱域音频样本。
31.一种用于通过进行逆重叠变换解码多个频谱域音频样本而减少或避免时域混叠的方法,其中所述方法包括:
通过从第一组频谱域音频样本的频谱域音频样本生成第一组时域中间音频样本来解码第一组频谱域音频样本,并且通过从第二组频谱域音频样本的频谱域音频样本生成第二组时域中间音频样本来解码第二组频谱域音频样本,
恰好两组时域中间音频样本的重叠相加,所述恰好两组是第一组时域中间音频样本和第二组时域中间音频样本,其中所述恰好两组以恰好50%的重叠被重叠相加,其中所述恰好两组的所述重叠相加导致生成音频信号的第一多个时域音频输出样本,
通过从第三组频谱域音频样本的频谱域音频样本生成第三组时域中间音频样本来解码第三组频谱域音频样本,并且通过从第四组频谱域音频样本的频谱域音频样本生成第四组时域中间音频样本来解码第四组频谱域音频样本,
输出音频信号的第一多个时域音频输出样本、音频信号的第二多个时域音频输出样本和音频信号的第三多个时域音频输出样本,
使用以恰好75%的重叠对至少第三组时域中间音频样本与第四组时域中间音频样本进行重叠相加来获得第二多个时域音频输出样本,以及
使用至少第二组时域中间音频样本与第三组时域中间音频样本的重叠相加来获得第三多个时域音频输出样本,或者使用至少第四组时域中间音频样本与第一组时域中间音频样本的重叠相加来获得第三多个时域音频输出样本;
其中
welt是第一窗口函数,其中wtr是第二窗口函数,其中第二窗口函数的一部分根据下式被定义
其中M指示第一组频谱域音频样本或第二组频谱域音频样本或第三组频谱域音频样本或第四组频谱域音频样本的频谱域音频样本的数量,其中k是具有0≤k<M的数字,其中d是实数,
其中L指示第三组时域中间音频样本或第四组时域中间音频样本的时域中间音频样本的数量,其中重叠加法器(130)被配置将至少第二组时域中间音频样本和第三组时域中间音频样本重叠相加,其中第二解码模块(120)被配置为取决于第一窗口函数welt而生成第四组时域中间音频样本,并且其中第二解码模块(120)被配置为取决于第二窗口函数wtr而生成第三组时域中间音频样本,或者其中重叠加法器(130)被配置将至少第四组时域中间音频样本和第一组时域中间音频样本重叠相加,其中第二解码模块(120)被配置为取决于第一窗口函数welt而生成第三组时域中间音频样本,并且其中第二解码模块(120)被配置为取决于第二窗口函数wtr而生成第四组时域中间音频样本;
或者其中,
welt是第一窗口函数,其中wmlt是第二窗口函数,以及其中w′mlt是第三窗口函数,其中第三窗口函数根据下式定义
其中M指示第一组频谱域音频样本或第二组频谱域音频样本或第三组频谱域音频样本或第四组频谱域音频样本的频谱域音频样本的数量,其中k是具有0≤k<M的数字,其中d是实数,其中n是整数,以及其中重叠加法器(130)被配置为取决于第三窗口函数w′mlt生成第一组时域中间音频样本、第二组时域中间音频样本、第三组时域中间音频样本和第四组时域中间音频样本的至少一个;
或者其中,
welt是第一窗口函数,其中wss是第二窗口函数,其中第二窗口函数根据下式定义
其中M指示第一组频谱域音频样本或第二组频谱域音频样本或第三组频谱域音频样本或第四组频谱域音频样本的频谱域音频样本的数量,其中k是具有0≤k<M的数字,其中d是实数,其中n是整数,以及其中重叠加法器(130)被配置为取决于第二窗口函数wss生成第一组时域中间音频样本、第二组时域中间音频样本、第三组时域中间音频样本和第四组时域中间音频样本的至少一个。
32.一种用于通过进行重叠变换从多组时域音频样本生成多组频谱域音频样本来对音频信号的多个时域音频样本进行编码而减少或避免时域混叠的方法,其中所述方法包括:
从多组时域音频样本的第一组生成多组频谱域音频样本的第一组,并且从多组时域音频样本的第二组生成多组频谱域音频样本的第二组,其中第一组时域音频样本和第二组时域音频样本在多组时域音频样本中在时间上相邻,其中第一组时域音频样本包括第二组时域音频样本的恰好50%的音频样本,并且其中第二组时域音频样本包括第一组时域音频样本的恰好50%的音频样本,
从多组时域音频样本的第三组生成多组频谱域音频样本的第三组,并且从多组时域音频样本的第四组生成多组频谱域音频样本的第四组,其中第三组时域音频样本包括第四组时域音频样本的恰好75%的音频样本,并且其中第四组时域音频样本包括第三组时域音频样本的恰好75%的音频样本,以及
输出第一组频谱域音频样本、第二组频谱域音频样本、第三组频谱域音频样本和第四组频谱域音频样本,
其中第三组时域音频样本包括第二组时域音频样本的音频样本,或者其中第四组时域音频样本包括第一组时域音频样本的音频样本;
其中
welt是第一窗口函数,其中wtr是第二窗口函数,其中第二窗口函数的一部分根据下式定义
其中M指示第一组频谱域音频样本或第二组频谱域音频样本或第三组频谱域音频样本或第四组频谱域音频样本的频谱域音频样本的数量,其中k是具有0≤k<M的数字,其中d是实数,
其中L指示第三组时域音频样本或第四组时域音频样本的时域音频样本的数量,其中第三组时域音频样本包括第二组时域音频样本的音频样本,并且其中第二编码模块(220)被配置为将第一窗口函数welt应用于第四组时域音频样本,并且其中第二编码模块(220)被配置为将第二窗口函数wtr应用于第三组时域音频样本,或者其中第四组时域音频样本包括第一组时域音频样本的音频样本,并且其中第二编码模块(220)被配置为将第一窗口函数welt应用于第三组时域音频样本,并且其中第二编码模块(220)被配置为将第二窗口函数wtr应用于第四组时域音频样本;
或者其中
welt是第一窗口函数,其中wmlt是第二窗口函数,以及其中w′mlt是第三窗口函数,其中第三窗口函数根据下式定义
其中M指示第一组频谱域音频样本或第二组频谱域音频样本或第三组频谱域音频样本或第四组频谱域音频样本的频谱域音频样本的数量,其中k是具有0≤k<M的数字,其中d是实数,其中n是整数,以及其中第一编码模块(210)和第二编码模块(220)的至少一个被配置为将第三窗口函数w′mlt应用于第一组时域音频样本、第二组时域音频样本、第三组时域音频样本和第四组时域音频样本的至少一个;
或者其中
welt是第一窗口函数,其中wss是第二窗口函数,其中第二窗口函数根据下式定义
其中M指示第一组频谱域音频样本或第二组频谱域音频样本或第三组频谱域音频样本或第四组频谱域音频样本的频谱域音频样本的数量,其中k是具有0≤k<M的数字,其中d是实数,其中n是整数,以及其中第一编码模块(210)和第二编码模块(220)的至少一个被配置为将第二窗口函数wss应用于第一组时域音频样本、第二组时域音频样本、第三组时域音频样本和第四组时域音频样本中的至少一个。
33.一种包括计算机程序的非暂时性计算机可读介质,当计算机程序在计算机或信号处理器上执行时,用于实现如权利要求31所述的方法。
34.一种包括计算机程序的非暂时性计算机可读介质,当计算机程序在计算机或信号处理器上执行时,用于实现如权利要求32所述的方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EPPCT/EP2015/072186 | 2015-09-25 | ||
EPPCT/EP2015/072186 | 2015-09-25 | ||
PCT/EP2015/080334 WO2017050398A1 (en) | 2015-09-25 | 2015-12-17 | Encoder, decoder and methods for signal-adaptive switching of the overlap ratio in audio transform coding |
EPPCT/EP2015/080334 | 2015-12-17 | ||
PCT/EP2016/072739 WO2017050993A1 (en) | 2015-09-25 | 2016-09-23 | Encoder, decoder and methods for signal-adaptive switching of the overlap ratio in audio transform coding |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108463850A CN108463850A (zh) | 2018-08-28 |
CN108463850B true CN108463850B (zh) | 2023-04-04 |
Family
ID=54850315
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680067262.7A Active CN108463850B (zh) | 2015-09-25 | 2016-09-23 | 用于音频变换编码中重叠率的信号自适应切换的编码器、解码器以及方法 |
Country Status (10)
Country | Link |
---|---|
US (1) | US10770084B2 (zh) |
EP (1) | EP3353782B1 (zh) |
JP (1) | JP6654236B2 (zh) |
KR (1) | KR102205824B1 (zh) |
CN (1) | CN108463850B (zh) |
BR (1) | BR112018005901B1 (zh) |
CA (1) | CA2998776C (zh) |
ES (1) | ES2922975T3 (zh) |
RU (1) | RU2710929C2 (zh) |
WO (2) | WO2017050398A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TWI681384B (zh) * | 2018-08-01 | 2020-01-01 | 瑞昱半導體股份有限公司 | 音訊處理方法與音訊等化器 |
TWI718625B (zh) * | 2019-08-16 | 2021-02-11 | 瑞昱半導體股份有限公司 | 應用於離散及逆離散正弦餘弦變換的運算電路 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6226608B1 (en) * | 1999-01-28 | 2001-05-01 | Dolby Laboratories Licensing Corporation | Data framing for adaptive-block-length coding system |
EP2214164A2 (en) * | 2009-01-28 | 2010-08-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program |
CN103366751A (zh) * | 2012-03-28 | 2013-10-23 | 北京天籁传音数字技术有限公司 | 一种声音编解码装置及其方法 |
Family Cites Families (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7136418B2 (en) * | 2001-05-03 | 2006-11-14 | University Of Washington | Scalable and perceptually ranked signal coding and decoding |
US7876966B2 (en) * | 2003-03-11 | 2011-01-25 | Spyder Navigations L.L.C. | Switching between coding schemes |
US7177804B2 (en) * | 2005-05-31 | 2007-02-13 | Microsoft Corporation | Sub-band voice codec with multi-stage codebooks and redundant coding |
KR101366124B1 (ko) | 2006-02-14 | 2014-02-21 | 오렌지 | 오디오 인코딩/디코딩에서의 인지 가중 장치 |
US8036903B2 (en) * | 2006-10-18 | 2011-10-11 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Analysis filterbank, synthesis filterbank, encoder, de-coder, mixer and conferencing system |
DE102006049154B4 (de) * | 2006-10-18 | 2009-07-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Kodierung eines Informationssignals |
PT2109098T (pt) | 2006-10-25 | 2020-12-18 | Fraunhofer Ges Forschung | Aparelho e método para gerar amostras de áudio de domínio de tempo |
KR101016224B1 (ko) * | 2006-12-12 | 2011-02-25 | 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 | 인코더, 디코더 및 시간 영역 데이터 스트림을 나타내는 데이터 세그먼트를 인코딩하고 디코딩하는 방법 |
FR2911228A1 (fr) | 2007-01-05 | 2008-07-11 | France Telecom | Codage par transformee, utilisant des fenetres de ponderation et a faible retard. |
EP2144230A1 (en) * | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
PL2311034T3 (pl) * | 2008-07-11 | 2016-04-29 | Fraunhofer Ges Forschung | Koder i dekoder audio do kodowania ramek próbkowanego sygnału audio |
ES2592416T3 (es) * | 2008-07-17 | 2016-11-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Esquema de codificación/decodificación de audio que tiene una derivación conmutable |
KR101315617B1 (ko) * | 2008-11-26 | 2013-10-08 | 광운대학교 산학협력단 | 모드 스위칭에 기초하여 윈도우 시퀀스를 처리하는 통합 음성/오디오 부/복호화기 |
WO2011034376A2 (en) * | 2009-09-17 | 2011-03-24 | Lg Electronics Inc. | A method and an apparatus for processing an audio signal |
AU2010305383B2 (en) * | 2009-10-08 | 2013-10-03 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Multi-mode audio signal decoder, multi-mode audio signal encoder, methods and computer program using a linear-prediction-coding based noise shaping |
US20110087494A1 (en) * | 2009-10-09 | 2011-04-14 | Samsung Electronics Co., Ltd. | Apparatus and method of encoding audio signal by switching frequency domain transformation scheme and time domain transformation scheme |
CN102667921B (zh) * | 2009-10-20 | 2014-09-10 | 弗兰霍菲尔运输应用研究公司 | 音频编码器、音频解码器、用于将音频信息编码的方法、用于将音频信息解码的方法 |
CN102884574B (zh) * | 2009-10-20 | 2015-10-14 | 弗兰霍菲尔运输应用研究公司 | 音频信号编码器、音频信号解码器、使用混迭抵消来将音频信号编码或解码的方法 |
JP5882895B2 (ja) * | 2010-06-14 | 2016-03-09 | パナソニック株式会社 | 復号装置 |
CN103477388A (zh) * | 2011-10-28 | 2013-12-25 | 松下电器产业株式会社 | 声音信号混合解码器、声音信号混合编码器、声音信号解码方法及声音信号编码方法 |
EP2682941A1 (de) * | 2012-07-02 | 2014-01-08 | Technische Universität Ilmenau | Vorrichtung, Verfahren und Computerprogramm für frei wählbare Frequenzverschiebungen in der Subband-Domäne |
US9305559B2 (en) * | 2012-10-15 | 2016-04-05 | Digimarc Corporation | Audio watermark encoding with reversing polarity and pairwise embedding |
KR101701081B1 (ko) * | 2013-01-29 | 2017-01-31 | 프라운호퍼-게젤샤프트 츄어 푀르더룽 데어 안게반텐 포르슝에.파우. | 제 1 오디오 인코딩 알고리즘 및 제 2 오디오 인코딩 알고리즘 중 하나를 선택하기 위한 장치 및 방법 |
EP2959481B1 (en) * | 2013-02-20 | 2017-04-26 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for generating an encoded audio or image signal or for decoding an encoded audio or image signal in the presence of transients using a multi overlap portion |
GB2515089A (en) * | 2013-06-14 | 2014-12-17 | Nokia Corp | Audio Processing |
WO2015122752A1 (ko) * | 2014-02-17 | 2015-08-20 | 삼성전자 주식회사 | 신호 부호화방법 및 장치와 신호 복호화방법 및 장치 |
CA2985019C (en) * | 2016-02-17 | 2022-05-03 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Post-processor, pre-processor, audio encoder, audio decoder and related methods for enhancing transient processing |
-
2015
- 2015-12-17 WO PCT/EP2015/080334 patent/WO2017050398A1/en active Application Filing
-
2016
- 2016-09-23 EP EP16777607.9A patent/EP3353782B1/en active Active
- 2016-09-23 ES ES16777607T patent/ES2922975T3/es active Active
- 2016-09-23 CN CN201680067262.7A patent/CN108463850B/zh active Active
- 2016-09-23 WO PCT/EP2016/072739 patent/WO2017050993A1/en active Application Filing
- 2016-09-23 CA CA2998776A patent/CA2998776C/en active Active
- 2016-09-23 BR BR112018005901-3A patent/BR112018005901B1/pt active IP Right Grant
- 2016-09-23 JP JP2018515442A patent/JP6654236B2/ja active Active
- 2016-09-23 KR KR1020187011220A patent/KR102205824B1/ko active IP Right Grant
- 2016-09-23 RU RU2018115190A patent/RU2710929C2/ru active
-
2018
- 2018-03-22 US US15/933,149 patent/US10770084B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6226608B1 (en) * | 1999-01-28 | 2001-05-01 | Dolby Laboratories Licensing Corporation | Data framing for adaptive-block-length coding system |
EP2214164A2 (en) * | 2009-01-28 | 2010-08-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program |
CN103366751A (zh) * | 2012-03-28 | 2013-10-23 | 北京天籁传音数字技术有限公司 | 一种声音编解码装置及其方法 |
Non-Patent Citations (1)
Title |
---|
David Virette..Low Delay Transform for High Quality Low Delay Audio Coding.《Low Delay Transform for High Quality Low Delay Audio Coding》.2012,1-195. * |
Also Published As
Publication number | Publication date |
---|---|
BR112018005901A2 (pt) | 2018-10-16 |
RU2018115190A (ru) | 2019-10-25 |
CN108463850A (zh) | 2018-08-28 |
RU2710929C2 (ru) | 2020-01-14 |
KR20180067552A (ko) | 2018-06-20 |
BR112018005901B1 (pt) | 2023-10-03 |
WO2017050398A1 (en) | 2017-03-30 |
RU2018115190A3 (zh) | 2019-10-25 |
US20190103120A1 (en) | 2019-04-04 |
CA2998776C (en) | 2021-07-20 |
EP3353782A1 (en) | 2018-08-01 |
KR102205824B1 (ko) | 2021-01-21 |
US10770084B2 (en) | 2020-09-08 |
JP2018532153A (ja) | 2018-11-01 |
WO2017050993A1 (en) | 2017-03-30 |
JP6654236B2 (ja) | 2020-02-26 |
EP3353782B1 (en) | 2022-05-11 |
ES2922975T3 (es) | 2022-09-22 |
CA2998776A1 (en) | 2017-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11854559B2 (en) | Decoder for decoding an encoded audio signal and encoder for encoding an audio signal | |
CA2705968C (en) | A method and an apparatus for processing a signal | |
CA2708861C (en) | A method and an apparatus for processing an audio signal | |
US8060042B2 (en) | Method and an apparatus for processing an audio signal | |
NO20170982A1 (no) | Analysefilterbank, syntesefilterbank, koder, dekoder, blander og konferansesystem. | |
CN108463850B (zh) | 用于音频变换编码中重叠率的信号自适应切换的编码器、解码器以及方法 | |
JP2022505789A (ja) | サブバンド併合および時間領域エイリアシング低減を使用した適応的な非均一時間/周波数タイリングによる知覚音声符号化 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |