CN109863555A - 部分合成之前使用频谱分析的非均匀滤波器组的时域混叠降低 - Google Patents

部分合成之前使用频谱分析的非均匀滤波器组的时域混叠降低 Download PDF

Info

Publication number
CN109863555A
CN109863555A CN201780047252.1A CN201780047252A CN109863555A CN 109863555 A CN109863555 A CN 109863555A CN 201780047252 A CN201780047252 A CN 201780047252A CN 109863555 A CN109863555 A CN 109863555A
Authority
CN
China
Prior art keywords
audio signal
subband
collection
sub
band samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201780047252.1A
Other languages
English (en)
Other versions
CN109863555B (zh
Inventor
尼莱·维尔纳
贝恩德·埃德勒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of CN109863555A publication Critical patent/CN109863555A/zh
Application granted granted Critical
Publication of CN109863555B publication Critical patent/CN109863555B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/147Discrete orthonormal transforms, e.g. discrete cosine transform, discrete sine transform, and variations therefrom, e.g. modified discrete cosine transform, integer transforms approximating the discrete cosine transform
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Discrete Mathematics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

实施例提供了一种音频处理器,所述音频处理器用于处理音频信号以获得音频信号的子带表示。所述音频处理器包括级联重叠临界采样变换级和时域混叠降低级。所述级联重叠临界采样变换级被配置为对音频信号的至少两个部分重叠的样本块执行级联重叠临界采样变换,以基于音频信号的第一样本块获得子带样本集,并且基于音频信号的第二样本块获得对应的子带样本集。所述时域混叠降低级被配置为执行对两个对应的子带样本集的加权组合,以获得音频信号的混叠降低的子带表示,其中所述两个对应的子带样本集中的一个是基于音频信号的第一样本块获得的,另一个是基于音频信号的第二样本块获得的。

Description

部分合成之前使用频谱分析的非均匀滤波器组的时域混叠 降低
技术领域
实施例涉及用于处理音频信号以获得音频信号的子带表示的音频处理器/方法。另外的实施例涉及用于处理音频信号的子带表示以获得音频信号的音频处理器/方法。一些实施例涉及基于MDCT(MDCT=修正的离散余弦变换)分析/合成的非均匀正交滤波器组的子带中(例如,在非均匀正交MDCT滤波器组的子带中)的时域混叠降低。
背景技术
MDCT由于它的特性(如当以重叠方式使用时具有良好的能量压缩和正交性)而被广泛用于音频编码应用。然而,MDCT表现出均匀的时间-频率分辨率[J.Princen,A.Johnson,and A.Bradley,“Subband/transform coding using filter bank designsbased on time domain aliasing cancellation,”in Acoustics,Speech,and SignalProcessing,IEEE International Conference on ICASSP’87.,Apr 1987,vol.12,pp.2161-2164]。然而,当进行感知激励的音频处理时,非均匀的时间-频率分辨率可能是更期望的表示。
设计非均匀变换的一种方法是重复应用若干个均匀变换中的一个。
对于子带合并,首先应用长变换,将信号从时域变换到频谱域。结果得到具有高频谱分辨率但低时间分辨率的频谱。之后,若干个频谱箱(bins)被变换回时域。这提高了时间分辨率,同时牺牲了所选子带中的频谱分辨率。
子带分割是互补操作:首先应用短变换。结果得到具有低频谱分辨率但高时间分辨率的频谱。之后,再次对两个或更多个相邻变换帧的频谱箱进行变换,以时间分辨率为代价提高它们的频谱分辨率。
这些步骤可以随意混合和重复。对变换的选择可以是任意的,但是针对每个步骤通常选择相同或类似的变换。
存在促进非均匀时间-频率变换的众多方式:
使用两个连续的快速傅立叶变换,存在ERBLet变换,利用ERB频率标度的子带合并变换[T.Necciari,P.Balazs,N.Holighaus,and P.L.Sondergaard,“The erblettransform:An auditory-based time-frequency representation with perfectreconstruction,”in Acoustics,Speech and Signal Processing(ICASSP),2013IEEEInternational Conference on,May 2013,pp.498-502]。最近,同样的作者将他们的方法扩展到离散余弦变换类型4(DCT4)频谱和MDCT子带合并变换[Olivier Derrien,ThibaudNecciari,and Peter Balazs,“A quasi-orthogonal,invertible,and perceptuallyrelevant time-frequency transform for audio coding,”in EUSIPCO,Nice,France,Aug.2015]。
然而,这两种方法都被设计成需要非常长的重叠变换窗口,在一个步骤中完成对整个信号的非临界采样甚或变换。这些长的变换窗口和非临界采样阻碍了在变换域中实现精确的时间定位,并且由于大的向前展望和高的冗余度而使它们不适合编码应用。
在[J.Mau,J.Valot,and D.Minaud,“Time-varying orthogonal filter bankswithout transient filters,”in Proceedings of the Acoustics,Speech,and SignalProcessing,1995.On International Conference-Volume 02,Washington,DC,USA,1995,ICASSP’95,pp.1328-1331,IEEE Computer Society]中介绍了一种利用MDCT和蝶形(Butterfly)元素来组合一个MDCT帧的选定系数的子带合并技术,并且在[O.A.Niamut andR.Heusdens,“Flexible frequency decompositions for cosine-modulated filterbanks,”in Acoustics,Speech,and Signal Processing,2003.Proceedings.(ICASSP’03).2003IEEE International Conference on,April 2003,vo1.5,pp.V-449-52vo1.5]中该技术被推广到哈达玛(Hadamard)矩阵。在[Jean-Marc Valin,Gregory Maxwell,TimothyB.Terriberry,and Koen Vos,“High-quality,low-delay music coding in the opuscodec,”in Audio Engineering Society Convention 135,Oct 2013]中介绍了互补子带分割操作。
这些基于蝶形和哈达玛的实现虽然允许直接集成到普通的重叠MDCT变换流水线(pipelines)中,但它们仅允许非常有限的频率标度设计,例如尺寸被约束为k=2n,其中另外,哈达玛矩阵仅对DCT进行非常粗略的近似,因此仅能够实现非常有限的时间-频谱分辨率,如下面将更详细描述的。
另外,虽然这些方法中的一些使用MDCT,但它们不会尝试降低所得到的子带中的混叠,从而产生所得到的滤波器组脉冲的模糊的时间紧凑性。
因此,本发明的目的是提供一种设想,其提供下述中的至少一个:脉冲响应的改进的时间紧凑性、处理任意频率标度以及降低的冗余和延迟。
发明内容
通过独立权利要求实现了该目的。
实施例提供了一种音频处理器,所述音频处理器用于处理音频信号以获得音频信号的子带表示。所述音频处理器包括级联重叠临界采样变换级和时域混叠降低级。所述级联重叠临界采样变换级被配置为对音频信号的至少两个部分重叠的样本块执行级联重叠临界采样变换,以基于音频信号的第一样本块获得子带样本集,并且基于音频信号的第二样本块获得对应的子带样本集。所述时域混叠降低级被配置为执行对两个对应的子带样本集的加权组合,以获得音频信号的混叠降低的子带表示,其中所述两个对应的子带样本集中的一个是基于音频信号的第一样本块获得的,另一个是基于音频信号的第二样本块获得的。
另外的实施例提供了一种音频处理器,所述音频处理器用于处理音频信号的子带表示以获得音频信号。所述音频处理器包括逆时域混叠降低级和级联逆重叠临界采样变换级。所述逆时域混叠降低级被配置为:执行对音频信号的(不同的部分重叠的样本块的)两个对应的混叠降低的子带表示的加权(和偏移)组合,以获得混叠子带表示,其中混叠子带表示是子带样本集。所述级联逆重叠临界采样变换级被配置为:对所述子带样本集执行级联逆重叠临界采样变换,以获得与音频信号的样本块相关联的样本集。
根据本发明的设想,向重叠临界采样变换(例如,MDCT)流水线添加附加的后处理级,所述附加的后处理级包括沿着频率轴的另一个重叠临界采样变换(例如,MDCT)和沿着每个子带时间轴的时域混叠降低。这允许从重叠临界采样变换(例如,MDCT)频谱图中提取任意频率标度,在不引入附加冗余的同时改进脉冲响应的时间紧凑性,并且减小重叠临界采样变换帧延迟。
另外的实施例提供了一种用于处理音频信号以获得音频信号的子带表示的方法。所述方法包括:
-对音频信号的至少两个部分重叠的样本块执行级联重叠临界采样变换,以基于音频信号的第一样本块获得子带样本集,并且基于音频信号的第二样本块获得对应的子带样本集;以及
-执行对两个对应的子带样本集的加权组合,以获得音频信号的混叠降低的子带表示,其中所述两个对应的子带样本集中的一个是基于音频信号的第一样本块获得的,另一个是基于音频信号的第二样本块获得的。
另外的实施例提供了一种用于处理音频信号的子带表示以获得音频信号的方法。所述方法包括:
-执行对音频信号的(不同的部分重叠的样本块的)两个对应的混叠降低的子带表示的加权(和偏移)组合,以获得混叠子带表示,其中混叠子带表示是子带样本集;以及
-对所述子带样本集执行级联逆重叠临界采样变换,以获得与音频信号的样本块相关联的样本集。
在从属权利要求中提出了有利的实现。
下面,描述用于处理音频信号以获得音频信号的子带表示的音频处理器的有利实现。
在实施例中,级联重叠临界采样变换级可以是级联MDCT(MDCT=离散余弦变换)、MDST(MDST=修正的离散正弦变换)或MLT(MLT=调制的重叠变换)级。
在实施例中,所述级联重叠临界采样变换级可以包括:第一重叠临界采样变换级,被配置为对音频信号的至少两个部分重叠的样本块中的第一样本块和第二样本块执行重叠临界采样变换,以获得针对所述第一样本块的第一箱集以及针对所述第二样本块的第二箱集(重叠临界采样系数)。
所述第一重叠临界采样变换级可以是第一MDCT、MDST或MLT级。
所述级联重叠临界采样变换级还可以包括:第二重叠临界采样变换级,被配置为对第一箱集的区段(适当的子集)执行重叠临界采样变换,并且对第二箱集的区段(适当的子集)执行重叠临界采样变换,以获得针对第一箱集的子带样本集和针对第二箱集的子带样本集,其中每个区段与音频信号的子带相关联。
所述第二重叠临界采样变换级可以是第二MDCT、MDST或MLT级。
因此,第一和第二重叠临界采样变换级可以是相同类型,即MDCT,MDST或MLT级中的一个。
在实施例中,所述第二重叠临界采样变换级可以被配置为对第一箱集的至少两个部分重叠的区段(适当的子集)执行重叠临界采样变换,并且对第二箱集的至少两个部分重叠的区段(适当的子集)执行重叠临界采样变换,以获得针对第一箱集的至少两个子带样本集和针对第二箱集的至少两个子带样本集,其中每个区段与音频信号的子带相关联。
因此,第一子带样本集可以是基于第一箱集的第一区段的第一重叠临界采样变换的结果,其中第二子带样本集可以是基于第一箱集的第二区段的第二重叠临界采样变换的结果,其中第三子带样本集可以是基于第二箱集的第一区段的第三重叠临界采样变换的结果,其中第四子带样本集可以是基于第二箱集的第二区段的第四重叠临界采样变换的结果。所述时域混叠降低级可以被配置为执行对第一子带样本集和第三子带样本集的加权组合,以获得音频信号的第一混叠降低的子带表示,并且执行对第二子带样本集和第四子带样本集的加权组合,以获得音频信号的第二混叠降低的子带表示。
在实施例中,所述级联重叠临界采样变换级可以被配置为:使用至少两个窗口函数对基于第一样本块获得的箱集进行分段,并且基于对应于第一样本块的分段的箱集获得至少两个子带样本集;其中所述级联重叠临界采样变换级可以被配置为:使用至少两个窗口函数对基于第二样本块获得的箱集进行分段,并且基于对应于第二样本块的分段的箱集获得至少两个子带样本集,其中所述至少两个窗口函数包括不同的窗口宽度。
在实施例中,所述级联重叠临界采样变换级可以被配置为:使用至少两个窗口函数对基于第一样本块获得的箱集进行分段,并且基于对应于第一样本块的分段的箱集获得至少两个子带样本集;其中所述级联重叠临界采样变换级可以被配置为使用至少两个窗口函数对基于第二样本块获得的箱集进行分段,并且基于对应于第二样本块的分段的箱集获得至少两个子带样本集,其中对应于相邻的子带样本集的窗口函数的滤波器斜率是对称的。
在实施例中,所述级联重叠临界采样变换级可以被配置为:使用第一窗口函数将音频信号的样本分为第一样本块和第二样本块;其中所述重叠临界采样变换级可以被配置为:使用第二窗口函数对基于第一样本块获得的箱集和基于第二样本块获得的箱集进行分段,以获得对应的子带样本,其中所述第一窗口函数和所述第二窗口函数包括不同的窗口宽度。
在实施例中,所述级联重叠临界采样变换级可以被配置为:使用第一窗口函数将音频信号的样本分为第一样本块和第二样本块;其中所述重叠临界采样变换级可以被配置为:使用第二窗口函数对基于第一样本块获得的箱集和基于第二样本块获得的箱集进行分段,以获得对应的子带样本,其中所述第一窗口函数的窗口宽度和所述第二窗口函数的窗口宽度彼此不同,并且所述第一窗口函数的窗口宽度和所述第二窗口函数的窗口宽度彼此相差的因子不等于2的幂。
下面,描述用于处理音频信号的子带表示以获得音频信号的音频处理器的有利实现。
在实施例中,所述逆级联重叠临界采样变换级可以是逆级联MDCT(MDCT=离散余弦变换)、MDST(MDST=修正的离散正弦变换)或MLT(MLT=调制的重叠变换)级。
在实施例中,所述级联逆重叠临界采样变换级可以包括:第一逆重叠临界采样变换级,被配置为对子带样本集执行逆重叠临界采样变换,以获得与音频信号的给定子带相关联的箱集。
所述第一逆重叠临界采样变换级可以是第一逆MDCT、MDST或MLT级。
在实施例中,所述级联逆重叠临界采样变换级可以包括:第一重叠和相加级,被配置为执行与音频信号的多个子带相关联的箱集的级联,以获得与音频信号的样本块相关联的箱集(a set of bins),所述级联包括与音频信号的给定子带相关联的箱集和与音频信号的另一个子带相关联的箱集的加权组合。
在实施例中,所述级联逆重叠临界采样变换级可以包括:第二逆重叠临界采样变换级,被配置为对与音频信号的所述样本块相关联的箱集执行逆重叠临界采样变换,以获得与音频信号的样本块相关联的样本集。
所述第二逆重叠临界采样变换级可以是第二逆MDCT、MDST或MLT级。
因此,第一和第二逆重叠临界采样变换级可以是相同类型,即逆MDCT、MDST或MLT级中的一个。
在实施例中,所述级联逆重叠临界采样变换级可以包括:第二重叠和相加级,被配置为将与音频信号的所述样本块相关联的样本集和与音频信号的另一个样本块相关联的另一个样本集进行重叠和相加,以获得音频信号,其中音频信号(102)的所述样本块和所述另一个样本块部分重叠。
附图说明
此处参考附图来描述本发明的实施例。
图1示出了根据一个实施例的配置为处理音频信号以获得音频信号的子带表示的音频处理器的示意性框图;
图2示出了根据另一实施例的配置为处理音频信号以获得音频信号的子带表示的音频处理器的示意性框图;
图3示出了根据另一实施例的配置为处理音频信号以获得音频信号的子带表示的音频处理器的示意性框图;
图4示出了根据一个实施例的用于处理音频信号的子带表示以获得音频信号的音频处理器的示意性框图;
图5示出了根据另一实施例的用于处理音频信号的子带表示以获得音频信号的音频处理器的示意性框图;
图6示出了根据又一实施例的用于处理音频信号的子带表示以获得音频信号的音频处理器的示意性框图;
图7在图表中示出了子带样本的示例(上图)以及它们的样本在时间和频率上的扩展(下图);
图8在图表中示出了通过若干种不同变换获得的频谱和时间不确定性;
图9示出了由具有TDAR的和不具有TDAR的子带合并、简单MDCT短块和哈达玛矩阵子带合并产生的两个示例性脉冲响应的比较;
图10示出了根据一个实施例的用于处理音频信号以获得音频信号的子带表示的方法的流程图;
图11示出了根据一个实施例的用于处理音频信号的子带表示以获得音频信号的方法的流程图;
图12示出了根据一个实施例的音频编码器的示意性框图;
图13示出了根据一个实施例的音频解码器的示意性框图;以及
图14示出了根据一个实施例的音频分析器的示意性框图。
具体实施方式
在以下描述中,通过相同或等同附图标记来表示相同或等同元件或者具有相同或等同功能的元件。
在以下描述中,阐述了多个细节以提供对本发明的实施例的更透彻的解释。然而,本领域技术人员将清楚的是,可以在没有这些具体细节的情况下实施本发明的实施例。在其他实例中,公知的结构和设备以框图形式示出而不是详细示出,以避免对本发明的实施例造成混淆。此外,除非另有具体指示,否则下文所述的不同实施例的特征可以彼此组合。
图1示出了根据一个实施例的音频处理器100的示意性框图,该音频处理器100被配置为处理音频信号102以获得音频信号的子带表示。音频处理器100包括级联重叠临界采样变换(LCST)级104和时域混叠降低(TDAR)级106。
级联重叠临界采样变换级104被配置为对音频信号102的至少两个部分重叠的样本块108_1和108_2执行级联重叠临界采样变换,以基于音频信号102的(所述至少两个重叠的样本块108_1和108_2中的)第一样本块108_1获得子带样本集110_1,1,并且基于音频信号102的(所述至少两个重叠的样本块108_1和108_2中的)第二样本块108_2获得对应的子带样本集110_2,1。
时域混叠降低级104被配置为:执行对两个对应的子带样本集110_1,1和110_2,1(即,对应于相同子带的子带样本)的加权组合,以获得音频信号102的混叠降低的子带表示112_1,其中所述两个对应的子带样本集110_1,1和110_2,1中的一个是基于音频信号102的第一样本块108_1获得的,另一个是基于音频信号的第二样本块108_2获得的。
在实施例中,级联重叠临界采样变换级104可以包括至少两个级联的重叠临界采样变换级,或者换言之,可以包括以级联方式连接的两个重叠临界采样变换级。
级联重叠临界采样变换级可以是级联MDCT(MDCT=改进的离散余弦变换)级。级联MDCT级可以包括至少两个MDCT级。
当然,级联重叠临界采样变换级也可以是级联MDST(MDST=改进的离散正弦变换)或MLT(MLT=调制的重叠变换)级,分别包括至少两个MDST或MLT级。
两个对应的子带样本集110_1,1和110_2,1可以是对应于同一子带(即频带)的子带样本。
图2示出了根据另一实施例的音频处理器100的示意性框图,该音频处理器100被配置为处理音频信号102以获得音频信号的子带表示。
如图2所示,级联重叠临界采样变换级104可以包括第一重叠临界采样变换级120,第一重叠临界采样变换级120被配置为对音频信号102的至少两个部分重叠的样本块108_1和108_2中的由(2M)个样本(xi-1(n),0≤n≤2M-1)构成的第一样本块108_1和由(2M)个样本(xi(n),0≤n≤2M-1)构成的第二样本块108_2执行重叠临界采样变换,以获得针对第一样本块108_1的由(M)个箱(LCST系数)(Xi-1(k),0≤k≤M-1)构成的第一箱集124_1和针对第二样本块108_2的由(M)个箱(LCST系数)(Xi(k),0≤k≤M-1)构成的第二箱集124_2。
级联重叠临界采样变换级104可以包括第二重叠临界采样变换级126,第二重叠临界采样变换级126被配置为对第一箱集124_1的区段128_1,1(适当的子集)(Xv,i-1(k))执行重叠临界采样变换并对第二箱集124_2的区段128_2,1(适当的子集)(Xv,i(k))执行重叠临界采样变换,以获得针对第一箱集124_1的子带样本集110_1,1和针对第二箱集124_2的子带样本集110_2,1,其中每个区段与音频信号102的一个子带相关联。
图3示出了根据另一实施例的音频处理器100的示意性框图,该音频处理器100被配置为处理音频信号102以获得音频信号的子带表示。换言之,图3示出了分析滤波器组的示图。从而,假定适当的窗口函数。注意,为了简单起见,在图3中(仅)指示了对子带帧的前半部分(y[m],0<=m<N/2)的处理(即,仅等式(6)的第一行)。
如图3所示,第一重叠临界采样变换级120可以被配置为:对由(2M)个样本(xi-1(n),0≤n≤2M-1)构成的第一样本块108_1执行第一重叠临界采样变换122_1(例如,MDCTi-1),以获得针对第一样本块108_1的由(M)个箱(LCST系数)(Xi-1(k),0≤k≤M-1)构成的第一箱集124_1;并且对由(2M)个样本(xi(n),0≤n≤2M-1)构成的第二样本块108_2执行第二重叠临界采样变换122_2(例如,MDCT i),以获得针对第二样本块108_2的由(M)个箱(LCST系数)(Xi(k),0≤k≤M-1)构成的第二箱集124_2。
详细地,第二重叠临界采样变换级126可以被配置为:对第一箱集124_1的至少两个部分重叠的区段128_1,1和128_1,2(适当的子集)(Xv,i-1(k))执行重叠临界采样变换,并且对第二箱集的至少两个部分重叠的区段128_2,1和128_2,2(适当的子集)(Xv,i(k))执行重叠临界采样变换,以获得针对第一箱集1241的至少两个子带样本集110_1,1和110_1,2以及针对第二箱集124_2的至少两个子带样本集110_2,1和110_2,2,其中每个区段与音频信号的一个子带相关联。
例如,第一子带样本集110_1,1可以是基于第一箱集124_1的第一区段132_1,1的第一重叠临界采样变换的结果132_1,1,第二子带样本集110_1,2可以是基于第一箱集124_1的第二区段128_1,2的第二重叠临界采样变换的结果132_1,2,第三子带样本集110_2,1可以是基于第二箱集124_2的第一区段128_2,1的第三重叠临界采样变换的结果132_2,1,第四子带样本集110_2,2可以是基于第二箱集124_2的第二区段128_2,2的第四重叠临界采样变换的结果132_2,2。
因此,时域混叠降低级106可以被配置为执行对第一子带样本集110_1,1和第三子带样本集110_2,1的加权组合,以获得音频信号的第一混叠降低的子带表示112_1(y1,i[m1]);并且,时域混叠降低级106可以被配置为执行对第二子带样本集110_1,2和第四子带样本集110_2,2的加权组合,以获得音频信号的第二混叠降低的子带表示112_2(y2,i[m2])。
图4示出了根据一个实施例的用于处理音频信号的子带表示以获得音频信号102的音频处理器200的示意性框图。音频处理器200包括逆时域混叠降低(TDAR)级202和级联逆重叠临界采样变换(LCST)级204。
逆时域混叠降低级202被配置为执行对音频信号102的两个对应的混叠降低的子带表示112_1和112_2(yv,i(m),yv,i-1(m))的加权(和偏移)组合,以获得混叠子带表示110_1其中混叠子带表示是子带样本集110_1。
级联逆重叠临界采样变换级204被配置为对子带样本集110_1执行级联逆重叠临界采样变换,以获得与音频信号102的样本块108_1相关联的样本集。
图5示出了根据另一实施例的用于处理音频信号的子带表示以获得音频信号102的音频处理器200的示意性框图。级联逆重叠临界采样变换级204可以包括第一逆重叠临界采样变换(LCST)级208和第一重叠和相加级210。
第一逆重叠临界采样变换级208可以被配置为:对子带样本集110_1执行逆重叠临界采样变换,以获得与音频信号的给定子带相关联的箱集128_1,1
第一重叠和相加级210可以被配置为执行与音频信号的多个子带相关联的箱集的级联,其包括与音频信号102的给定子带(v)相关联的箱集128_1,1和与音频信号102的另一个子带(v-1)相关联的箱集128_1,2的加权组合,以获得与音频信号102的样本块108_1相关联的箱集124_1。
如图5所示,级联逆重叠临界采样变换级204可以包括第二逆重叠临界采样变换(LCST)级212,第二逆重叠临界采样变换(LCST)级212被配置为:对与音频信号102的样本块108_1相关联的箱集124_1执行逆重叠临界采样变换,以获得与音频信号102的样本块108_1相关联的样本集206_1,1。
此外,级联逆重叠临界采样变换级204可以包括第二重叠和相加级214,第二重叠和相加级214被配置为:将与音频信号102的样本块108_1相关联的样本集206_1,1和与音频信号的另一个样本块108_2相关联的另一样本集206_2,1进行重叠和相加,以获得音频信号102,其中音频信号102的样本块108_1和另一个样本块108_2部分重叠。
图6示出了根据另一实施例的用于处理音频信号的子带表示以获得音频信号102的音频处理器200的示意性框图。换言之,图6示出了合成滤波器组的示图。因此,假定适当的窗口函数。注意,为了简单起见,在图6中(仅)指示了对子带帧的前半部分(y[m],0<=m<N/2)的处理(即,仅等式(6)的第一行)。
如上所述,音频处理器200包括逆时域混叠降低级202和逆级联重叠临界采样级204,逆级联重叠临界采样级204包括第一逆重叠临界采样级208和第二逆重叠临界采样级212。
逆时域混叠降低级104被配置为:执行对第一和第二混叠降低的子带表示y1,i-1[m1]和y1,i[m1]的第一加权和偏移组合220_1,以获得第一混叠子带表示110_1,1其中所述混叠子带表示是子带样本集;并且,执行对第三和第四混叠降低的子带表示y2,i-1[m1]和y2,i[m1]的第二加权和偏移组合220_2,以获得第二混叠子带表示110_2,1其中所述混叠子带表示是子带样本集。
第一逆重叠临界采样变换级208被配置为:对第一子带样本集110_1,1执行第一逆重叠临界采样变换222_1,以获得与音频信号的给定子带相关联的箱集128_1,1并且,对第二子带样本集110_2,1执行第二逆重叠临界采样变换222_2,以获得与音频信号的给定子带相关联的箱集128_2,1
第二逆重叠临界采样变换级212被配置为:对重叠和相加的箱集执行逆重叠临界采样变换,以获得样本块108_2,其中所述重叠和相加的箱集是通过将第一逆重叠临界采样变换级208提供的箱集128_1,1和128_2,1进行重叠和相加而获得的。
下面,描述图1至图6中所示的音频处理器的实施例,其中,作为示例,假定级联重叠临界采样变换级104是MDCT级(即第一和第二重叠临界采样变换级120和126是MDCT级),并且逆级联重叠临界采样变换级204是逆级联MDCT级(即第一和第二逆重叠临界采样变换级120和126是逆MDCT级)。自然地,以下描述也适用于级联重叠临界采样变换级104和逆重叠临界采样变换级204的其他实施例,如级联MDST或MLT级或逆级联MDST或MLT级。
因此,所描述的实施例可以适用于有限长度的MDCT频谱序列,并且使用MDCT和时域混叠降低(TDAR)作为子带合并操作。所得到的非均匀滤波器组是重叠、正交的,并且允许子带宽度k=2n,其中n∈N。由于TDAR,可以实现时间和频谱两方面都更紧凑的子带脉冲响应。
下面,描述滤波器组的实施例。
滤波器组实现直接建立在常见的重叠MDCT变换方案上:具有重叠和加窗的初始变换保持不变。
在不失一般性的情况下,以下表示法假定正交MDCT变换,例如,其中分析和合成窗口是相同的。
xi(n)=x(n+iM) 0≤n≤2M (1)
其中k(k,n,M)是MDCT变换内核,h(n)是合适的分析窗口
然后将该变换的输出Xi(k)分成具有各自宽度Nv的υ个子带,并使用MDCT再次进行变换。这导致滤波器组在时间方向和频谱方向二者上都具有重叠。
为了本文中更简单的表示法,针对所有子带使用一个公共合并因子N,但是任何有效的MDCT窗切换/排序可被用来实现期望的时间-频率分辨率。关于分辨率设计的更多内容如下:
Xv,i(k)=Xi(k+vN) 0≤k<2N (4)
其中w(k)是合适的分析窗口,通常与h(n)具有不同的尺寸,并且可能具有不同的窗口类型。因为实施例是在频域中应用窗口,所以值得注意的是,窗口的时间和频率选择性是调换的。
为了正确的边界处理,可以结合边界处的矩形开始/停止窗口的一半,在等式(4)中引入N/2的附加偏移。再次,为了更简单的表示法,这里没有考虑这种偏移。
输出是具有对应带宽和与该带宽成比例的时间分辨率的系数的具有各自长度Nv的v矢量的列表。
然而,这些矢量包含来自初始MDCT变换的混叠,因此显示出差的时间紧凑性。TDAR可以有助于补偿这种混叠。
用于TDAR的样本取自在当前的和先前的MDCT帧i和i-1中的两个相邻的子带样本块v。结果是降低了前一帧的后半部分和第二帧的前半部分中的混叠。
针对0≤m<N/2,
其中
可以设计TDAR系数av(m)、bv(m)、cv(m)和dv(m)以最小化残余混叠。下面将介绍基于合成窗口g(n)的简单估计方法。
还要注意,如果A是非奇异的,则操作(6)和(8)对应于双正交系统。另外,如果g(n)=h(n)并且v(k)=w(k),例如两个MDCT都是正交的,并且矩阵A是正交的,则整个流水线构成正交变换。
为了计算逆变换,执行第一逆TDAR,
然后必须执行逆MDCT和时域混叠消除(TDAC,虽然这里沿频率轴进行混叠消除)以消除等式5中产生的混叠
Xi(k+vN)=Xv,i(k)。 (11)
最后,逆转等式2中的初始MDCT,并再次执行TDAC
x(n+iM)=xi(n) (14)
下面,描述时间-频率分辨率设计限制。虽然任何期望的时间-频率分辨率都是可能的,但是必须遵守在设计所得窗口函数方面的一些约束以确保可逆性。特别地,两个相邻子带的斜率可以是对称的,使得等式(6)满足Princen Bradley条件[J.Princen,A.Johnson,and A.Bradley,“Subband/transform coding using filter bank designsbased on time domain aliasing cancellation,”in Acoustics,Speech,and SignalProcessing,IEEE International Conference on ICASSP’87.,Apr 1987,vol.12,pp.2161-2164]。此处可以应用在[B.Edler,“Codierung yon Audiosignalen mit überlappender Transformation und adaptiven Fensterfunktionen,”Frequenz,vol.43,pp.252-256,Sept.1989]中介绍的、原本设计用于对抗预回声效应的窗口切换方案。参见[Olivier Derrien,Thibaud Necciari,and Peter Balazs,“A quasi-orthogonal,invertible,and perceptually relevant time-frequency transform for audiocoding,”in EUSIPCO,Nice,France,Aug.2015.]。
其次,所有的第二MDCT变换长度的和必须总计达到提供的MDCT系数的总长度。频带可被选择为不是使用期望系数处为零的单步窗口进行变换。然而必须注意相邻窗口的对称性[B.Edler,“Codierung von Audiosignalen mit überlappender Transformationund adaptiven Fensterfunktionen,”Frequenz,vol.43,pp.252-256,Sept.1989.]。所得到的变换将在这些频带中产生零,因此可以直接使用初始系数。
作为可能的时间-频率分辨率,可以直接使用来自大多数现代音频编码器的比例因子频带。
下面,描述时域混叠降低(TDAR)系数计算。
遵从上述时间分辨率,每个子带样本对应于M/Nv个初始样本或者大小为初始样本的大小的Nv倍的间隔。
此外,每个子带样本中的混叠量取决于它所代表的间隔中的混叠量。当混叠利用分析窗口h(n)进行加权时,使用每个子带样本采样间隔处的合成窗口的近似值被认为是对TDAR系数的良好的第一估计。
实验已经表明,两个非常简单的系数计算方案顾及了良好的初始值以及改善的时间和频谱紧凑性。两种方法
基于长度为2Nv的假定合成窗口gv(m)。
1)对于像正弦窗口或凯撒贝塞尔(Kaiser Bessel)导出的窗口这样的参数化窗口,可以定义一个相同类型的简单且较短的窗口。
2)对于没有闭合表示的参数化窗口和表格化窗口,窗口可被简单地切割成相同大小的2Nv个部分,允许使用每个部分的平均值来获得系数:
将MDCT边界条件和混叠镜像纳入考虑,于是产生TDAR系数
av(m)=gv(N/2+m) (16)
bv(m)=-gv(N/2-1-m) (17)
cv(m)=gv(3N/2+m) (18)
dv(m)=gv(3N/2-1-m) (19)
或者在正交变换的情况下
av(m)=dv(m)=gv(N/2+m) (20)
无论选择何种系数近似解,只要A是非奇异的,就保留了整个滤波器组的完美重建。另外次优的系数选择将仅影响子带信号yv,i(m)中的残余混叠量,但是不会影响由逆滤波器组合成的信号x(n)中的残余混叠量。
图7在图表中示出了子带样本的示例(上图)以及它们的样本在时间和频率上的扩展(下图)。被诠释的样本具有比底部样本宽的带宽,但比底部样本短的时间扩展。分析窗口(下图)具有每个初始时间样本一个系数的完全分辨率。因此,对于每个子带样本的时间区域(m=256:::384),TDAR系数必须被近似(由点来诠释)。
下面,描述(模拟)结果。
图8示出了由若干种不同变换获得的频谱和时间不确定性,如[Frederic Bimbot,Ewen Camberlein,and Pierrick Philippe,“Adaptive filter banks using fixed sizemdct and subband merging for audio coding-comparison with the mpeg aac filterbanks,”in Audio Engineering Society Convention 121,Oct 2006.]中所示。
可以看出,基于哈达玛矩阵的变换提供了严格限制的时间-频率折衷能力。对于增长的合并大小,附加的时间分辨率以频谱不确定性方面的不成比例的高成本为代价。
换言之,图8示出了不同变换的频谱和时间能量紧凑性的比较。线内标签表示MDCT的帧长度、海森堡(Heisenberg)分割的分割因子、以及用于所有其他的合并因子。
然而,具有TDAR的子带合并在时间和频谱不确定性之间具有线性折衷,与简单的均匀MDCT类似。两者的乘积是恒定的,虽然略高于简单的均匀MDCT。对于该分析,正弦分析窗口和凯撒贝塞尔导出的子带合并窗口示出了最紧凑的结果并因此被选择。
然而,对于合并因子Nv=2,使用TDAR似乎降低了时间和频谱紧凑性。我们将其归因于:第II-B节中介绍的系数计算方案过于简单,并且针对陡峭窗口函数斜率的不适当的近似值。数字优化方案将在后续公开中呈现。
使用脉冲响应x[n]的重心cog和平方有效长度计算这些紧凑性值,如[Athanasios Papoulis,Signal analysis,Electrical and electronic engineeringseries.McGraw-Hill,New York,San Francisco,Paris,1977.]所定义,
示出了每个滤波器组的所有脉冲响应的平均值。
图9示出了由具有TDAR的和不具有的TDAR的子带合并、简单MDCT短块和哈达玛矩阵子带合并产生的两个示例性脉冲响应的比较,所述哈达玛矩阵子带合并如[O.A.Niamutand R.Heusdens,“Flexible frequency decompositions for cosine-modulated filterbanks,”in Acoustics,Speech,and Signal Processing,2003.Proceedings.(ICASSP’03).2003IEEE International Conference on,April 2003,vol.5,pp.V-449-52vol.5.]中所提出的那样。
哈达玛矩阵合并变换的差的时间紧凑性清晰可见。还可以清楚地看出,通过TDAR显著减少了子带中的大多数混叠伪像。
换言之,图9示出了使用本文提出的不具有TDAR/具有TDAR的方法的包括1024个初始箱(bins)中的8个箱的合并子带滤波器的示例性脉冲响应,所述方法是在[O.A.Niamutand R.Heusdens,“Subband merging in cosine-modulated filter banks,”SignalProcessing Letters,IEEE,vol.10,no.4,pp.111-114,April 2003.]中提出的并使用256个样本的较短MDCT帧长。
图10示出了用于处理音频信号以获得音频信号的子带表示的方法300的流程图。方法300包括步骤302:对音频信号的至少两个部分重叠的样本块执行级联重叠临界采样变换,以基于音频信号的第一样本块获得子带样本集,并且基于音频信号的第二样本块获得对应的子带样本集。此外,方法300包括步骤304:执行对两个对应的子带样本集的加权组合,以获得所述音频信号的混叠降低的子带表示,其中所述两个对应的子带样本集中的一个是基于所述音频信号的第一样本块获得的,另一个是基于所述音频信号的第二样本块获得的。
图11示出了用于处理音频信号的子带表示以获得音频信号的方法400的流程图。方法400包括步骤402:执行对音频信号的(不同的部分重叠的样本块的)两个对应的混叠降低的子带表示的加权(和偏移)组合,以获得混叠子带表示,其中混叠子带表示是子带样本集。此外,方法400包括步骤404:对子带样本集执行级联逆重叠临界采样变换,以获得与音频信号的样本块相关联的样本集。
图12示出了根据实施例的编码器150的示意性框图。音频编码器150包括:如上所述的音频处理器(100);编码器152,被配置为对音频信号的混叠降低的子带表示进行编码,以获得音频信号的编码的混叠降低的子带表示;以及,比特流成形器154,被配置为从音频信号的编码的混叠降低的子带表示形成比特流156。
图13示出了根据实施例的音频解码器250的示意性框图。音频解码器250包括:比特流解析器252,被配置为解析比特流154,以获得编码的混叠降低的子带表示;解码器254,被配置为对编码的混叠降低的子带表示进行解码,以获得音频信号的混叠降低的子带表示;以及,如上所述的音频处理器200。
图14示出了根据实施例的音频分析器180的示意性框图。音频分析器180包括:如上所述的音频处理器100;信息提取器182,被配置为分析混叠降低的子带表示,以提供描述音频信号的信息。
实施例提供了在非均匀正交的修正的离散余弦变换(MDCT)滤波器组的子带中的时域混叠降低(TDAR)。
实施例向广泛使用的MDCT变换流水线添加了附加的后处理步骤,该步骤本身仅包括另一个沿频率轴的重叠MDCT变换和沿每个子带时间轴的时域混叠降低(TDAR),允许从MDCT频谱图中提取任意频率标度并改进脉冲响应的时间紧凑性,同时不引入附加的冗余并仅引入一个MDCT帧延迟。
虽然已经在装置的上下文中描述了一些方面,但是将清楚的是,这些方面还表示关于对应方法的描述,其中,块或设备对应于方法步骤或方法步骤的特征。类似地,在方法步骤的上下文中描述的方面也表示对相应块或项或者相应装置的特征的描述。可以由(或使用)硬件装置(诸如,微处理器、可编程计算机或电子电路)来执行一些或全部方法步骤。在一些实施例中,可以由这种装置来执行最重要的方法步骤中的一个或多个方法步骤。
取决于某些实现要求,可以在硬件中或在软件中实现本发明的实施例。可以使用其上存储有电子可读控制信号的数字存储介质(例如,软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或闪存)来执行实现,该电子可读控制信号与可编程计算机系统协作(或者能够与之协作)从而执行相应方法。因此,数字存储介质可以是计算机可读的。
根据本发明的一些实施例包括具有电子可读控制信号的数据载体,该电子可读控制信号能够与可编程计算机系统协作从而执行本文所述的方法之一。
通常,本发明的实施例可以实现为具有程序代码的计算机程序产品,程序代码可操作以在计算机程序产品在计算机上运行时执行方法之一。程序代码可以例如存储在机器可读载体上。
其他实施例包括存储在机器可读载体上的计算机程序,该计算机程序用于执行本文所述的方法之一。
换言之,因此,本发明方法的实施例是具有程序代码的计算机程序,该程序代码用于在计算机上运行该计算机程序时执行本文所述的方法之一。
因此,本发明方法的另一实施例是其上记录有计算机程序的数据载体(或者数字存储介质或计算机可读介质),该计算机程序用于执行本文所述的方法之一。数据载体、数字存储介质或记录介质通常是有形的和/或非瞬时性的。
因此,本发明方法的另一实施例是表示计算机程序的数据流或信号序列,所述计算机程序用于执行本文所述的方法之一。数据流或信号序列可以例如被配置为经由数据通信连接(例如,经由互联网)传送。
另一实施例包括处理装置,如计算机或可编程逻辑器件,所述处理装置被配置为或适于执行本文所述的方法之一。
另一实施例包括其上安装有计算机程序的计算机,该计算机程序用于执行本文所述的方法之一。
根据本发明的另一实施例包括被配置为向接收机(例如,以电子方式或以光学方式)传输计算机程序的装置或系统,该计算机程序用于执行本文所述的方法之一。例如,接收机可以是计算机、移动设备、存储设备等。例如,装置或系统可以包括用于向接收机传送计算机程序的文件服务器。
在一些实施例中,可编程逻辑器件(例如,现场可编程门阵列)可以用于执行本文所述的方法的功能中的一些或全部。在一些实施例中,现场可编程门阵列可以与微处理器协作以执行本文所述的方法之一。通常,方法优选地由任意硬件装置来执行。
本文描述的装置可以使用硬件装置、或者使用计算机、或者使用硬件装置和计算机的组合来实现。
本文描述的装置或本文描述的装置的任何组件可以至少部分地在硬件和/或软件中实现。
本文描述的方法可以使用硬件装置,或使用计算机,或使用硬件装置和计算机的组合来执行。
本文描述的方法或本文描述的装置的任何组件可以至少部分地由硬件和/或软件执行。
上述实施例对于本发明的原理仅是说明性的。应当理解的是:本文所述的布置和细节的修改和变形对于本领域其他技术人员将是显然的。因此,旨在仅由所附专利权利要求的范围来限制,而不是由借助对本文实施例的描述和解释所给出的具体细节来限制。

Claims (20)

1.一种音频处理器(100),所述音频处理器(100)用于处理音频信号(102)以获得所述音频信号(102)的子带表示,所述音频处理器(100)包括:
级联重叠临界采样变换级(104),被配置为对所述音频信号(102)的至少两个部分重叠的样本块(108_1;108_2)执行级联重叠临界采样变换,以基于所述音频信号(102)的第一样本块(108_1)获得子带样本集(110_1,1),并且基于所述音频信号(102)的第二样本块(108_2)获得对应的子带样本集(110_2,1);以及
时域混叠降低级(106),被配置为执行对两个对应的子带样本集(110_1,1;110_1,1)的加权组合,以获得所述音频信号(102)的混叠降低的子带表示(112_1),其中所述两个对应的子带样本集中的一个是基于所述音频信号(102)的第一样本块(108_1)获得的,另一个是基于所述音频信号的第二样本块(108_2)获得的。
2.根据权利要求1所述的音频处理器(100),其中,所述级联重叠临界采样变换级(104)包括:
第一重叠临界采样变换级(120),被配置为对所述音频信号(102)的所述至少两个部分重叠的样本块(108_1;108_2)中的第一样本块(108_1)和第二样本块(108_2)执行重叠临界采样变换,以获得针对所述第一样本块(108_1)的第一箱集(124_1)以及针对所述第二样本块(108_2)的第二箱集(124_2)。
3.根据权利要求2所述的音频处理器(100),其中,所述级联重叠临界采样变换级(104)还包括:
第二重叠临界采样变换级(126),被配置为:对所述第一箱集(124_1)的区段(128_1,1)执行重叠临界采样变换,并对所述第二箱集(124_2)的区段(128_2,1)执行重叠临界采样变换,以获得针对所述第一箱集的子带样本集(110_1,1)和针对所述第二箱集的子带样本集(110_2,1),其中每个区段与所述音频信号(102)的子带相关联。
4.根据权利要求3所述的音频处理器(100),其中,第一子带样本集(110_1,1)是基于所述第一箱集(124_1)的第一区段(128_1,1)的第一重叠临界采样变换(132_1,1)的结果,第二子带样本集(110_1,1)是基于所述第一箱集(124_1)的第二区段(128_1,1)的第二重叠临界采样变换(132_1,1)的结果,第三子带样本集(110_2,1)是基于所述第二箱集(128_2,1)的第一区段(128_2,1)的第三重叠临界采样变换(132_2,1)的结果,第四子带样本集(110_2,2)是基于所述第二箱集(128_2,1)的第二区段(128_2,2)的第四重叠临界采样变换(132_2,2)的结果;以及
其中,所述时域混叠降低级(106)被配置为执行对所述第一子带样本集(110_1,1)和所述第三子带样本集(110_2,1)的加权组合,以获得所述音频信号的第一混叠降低的子带表示(112_1),并且所述时域混叠降低级(106)被配置为执行对所述第二子带样本集(110_1,1)和所述第四子带样本集(110_2,2)的加权组合,以获得所述音频信号的第二混叠降低的子带表示(112_2)。
5.根据权利要求1至4中任一项所述的音频处理器(100),其中,所述级联重叠临界采样变换级(104)被配置为:使用至少两个窗口函数对基于所述第一样本块(108_1)获得的箱集(124_1)进行分段,并且基于对应于所述第一样本块(108_1)的分段的箱集获得至少两个分段的子带样本集(128_1,1;128_1,1);
其中,所述级联重叠临界采样变换级(104)被配置为:使用所述至少两个窗口函数对基于所述第二样本块(108_2)获得的箱集(124_2)进行分段,并且基于对应于所述第二样本块(108_2)的分段的箱集获得至少两个分段的子带样本集(128_2,1;128_2,2);以及
其中,所述至少两个窗口函数包括不同的窗口宽度。
6.根据权利要求1至5中任一项所述的音频处理器(100),其中,所述级联重叠临界采样变换级(104)被配置为:使用至少两个窗口函数对基于所述第一样本块(108_1)获得的箱集(124_1)进行分段,并且基于对应于所述第一样本块(108_1)的分段的箱集获得至少两个分段的子带样本集(128_1,1;128_1,1);
其中,所述级联重叠临界采样变换级(104)被配置为:使用所述至少两个窗口函数对基于所述第二样本块(108_2)获得的箱集(124_2)进行分段,并且基于对应于所述第二样本块(108_2)的分段的箱集获得至少两个子带样本集(128_2,1;128_2,2);以及
其中,对应于相邻的子带样本集的窗口函数的滤波器斜率是对称的。
7.根据权利要求1至6中任一项所述的音频处理器(100),其中,所述级联重叠临界采样变换级(104)被配置为:使用第一窗口函数将所述音频信号的样本分为所述第一样本块(108_1)和所述第二样本块(108_2);
并且,所述重叠临界采样变换级(104)被配置为:使用第二窗口函数对基于所述第一样本块(108_1)获得的箱集(124_1)和基于所述第二样本块(108_2)获得的箱集(124_2)进行分段,以获得对应的子带样本;以及
其中,所述第一窗口函数和所述第二窗口函数包括不同的窗口宽度。
8.根据权利要求1至6中任一项所述的音频处理器(100),其中,所述级联重叠临界采样变换级(104)被配置为:使用第一窗口函数将所述音频信号的样本分为所述第一样本块(108_1)和所述第二样本块(108_2);
并且,所述级联重叠临界采样变换级(104)被配置为:使用第二窗口函数对基于所述第一样本块(108_1)获得的箱集(124_1)和基于所述第二样本块(108_2)获得的箱集(124_2)进行分段,以获得对应的子带样本;以及
其中,所述第一窗口函数的窗口宽度和所述第二窗口函数的窗口宽度彼此不同,并且所述第一窗口函数的窗口宽度和所述第二窗口函数的窗口宽度彼此相差的因子不等于2的幂。
9.根据权利要求1至8中任一项所述的音频处理器(100),其中,所述时域混叠降低级(106)被配置为:针对0≤m<N/2,根据以下等式执行对两个对应的子带样本集的加权组合
其中
以获得所述音频信号的混叠降低的子带表示,其中yv,i(m)是所述音频信号的第一混叠降低的子带表示,yv,i-1(N-1-m)是所述音频信号的第二混叠降低的子带表示,是基于所述音频信号的所述第二样本块的子带样本集,是基于所述音频信号的所述第一样本块的子带样本集,av(m)是......,bv(m)是......,cv(m)是......并且dv(m)是......
10.一种音频处理器(200),所述音频处理器(200)用于处理音频信号的子带表示以获得所述音频信号(102),所述音频处理器(200)包括:
逆时域混叠降低级(202),被配置为:执行对所述音频信号(102)的两个对应的混叠降低的子带表示的加权组合,以获得混叠子带表示,其中所述混叠子带表示是子带样本集(110_1,1);以及
级联逆重叠临界采样变换级(204),被配置为:对所述子带样本集(110_1,1)执行级联逆重叠临界采样变换,以获得与所述音频信号(102)的样本块相关联的样本集(206_1,1)。
11.根据权利要求10所述的音频处理器(200),其中所述级联逆重叠临界采样变换级(204)包括:第一逆重叠临界采样变换级(208),被配置为对所述子带样本集(110_1,1)执行逆重叠临界采样变换,以获得与所述音频信号的给定子带相关联的箱集(128_1,1);以及
第一重叠和相加级(210),被配置为:执行与所述音频信号的多个子带相关联的箱集的级联,以获得与所述音频信号(102)的样本块相关联的箱集(124_1),所述级联包括与所述音频信号(102)的给定子带相关联的箱集(128_1,1)和与所述音频信号(102)的另一个子带相关联的箱集(128_1,1)的加权组合。
12.根据权利要求11所述的音频处理器(200),其中,所述级联逆重叠临界采样变换级(204)包括:第二逆重叠临界采样变换级(212),被配置为对与所述音频信号(102)的所述样本块相关联的箱集(124_1)执行逆重叠临界采样变换,以获得与所述音频信号(102)的所述样本块相关联的样本集。
13.根据权利要求12所述的音频处理器(200),其中,所述级联逆重叠临界采样变换级(204)包括:第二重叠和相加级(214),被配置为将与所述音频信号(102)的所述样本块相关联的样本集(206_1,1)和与所述音频信号(102)的另一个样本块相关联的另一个样本集(206_2,1)进行重叠和相加,以获得所述音频信号(102),其中所述音频信号(102)的所述样本块和所述另一个样本块部分重叠。
14.根据权利要求10至13中任一项所述的音频处理器(200),其中,所述逆时域混叠降低级(202)被配置为:针对0≤m<N/2,基于以下等式执行对所述音频信号(102)的所述两个对应的混叠降低的子带表示的加权组合:
其中
以获得混叠降低的子带表示,其中yv,i(m)是所述音频信号的第一混叠降低的子带表示,yv,i-1(N-1-m)是所述音频信号的第二混叠降低的子带表示,是基于所述音频信号的所述第二样本块的子带样本集,是基于所述音频信号的所述第一样本块的子带样本集,av(m)是......,bv(m)是......,cv(m)是......并且dv(m)是......
15.一种音频编码器,包括:
根据权利要求1至9中任一项所述的音频处理器(100);
编码器,被配置为对所述音频信号的混叠降低的子带表示进行编码,以获得所述音频信号的编码的混叠降低的子带表示;以及
比特流成形器,被配置为从所述音频信号的编码的混叠降低的子带表示形成比特流。
16.一种音频解码器,包括:
比特流解析器,被配置为解析比特流,以获得编码的混叠降低的子带表示;
解码器,被配置为对所述编码的混叠降低的子带表示进行解码,以获得音频信号的混叠降低的子带表示;以及
根据权利要求10至14中任一项所述的音频处理器(200)。
17.一种音频分析器,包括:
根据权利要求1至9中任一项所述的音频处理器(100);以及
信息提取器,被配置为分析所述混叠降低的子带表示,以提供描述所述音频信号的信息。
18.一种用于处理音频信号以获得所述音频信号的子带表示的方法(300),所述方法包括:
对所述音频信号的至少两个部分重叠的样本块执行(302)级联重叠临界采样变换,以基于所述音频信号的第一样本块获得子带样本集,并且基于所述音频信号的第二样本块获得对应的子带样本集;以及
执行(304)对两个对应的子带样本集的加权组合,以获得所述音频信号的混叠降低的子带表示,其中所述两个对应的子带样本集中的一个是基于所述音频信号的第一样本块获得的,另一个是基于所述音频信号的第二样本块获得的。
19.一种用于处理音频信号的子带表示以获得所述音频信号的方法(400),所述方法包括:
执行(402)对所述音频信号的两个对应的混叠降低的子带表示的加权组合,以获得混叠子带表示,其中所述混叠子带表示是子带样本集;以及
对所述子带样本集执行(404)级联逆重叠临界采样变换,以获得与所述音频信号的样本块相关联的样本集。
20.一种用于执行根据权利要求18和19之一的方法的计算机程序。
CN201780047252.1A 2016-07-29 2017-07-26 用于处理音频信号的方法和音频处理器 Active CN109863555B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP16181883.6A EP3276620A1 (en) 2016-07-29 2016-07-29 Time domain aliasing reduction for non-uniform filterbanks which use spectral analysis followed by partial synthesis
EP16181883.6 2016-07-29
PCT/EP2017/068932 WO2018019909A1 (en) 2016-07-29 2017-07-26 Time domain aliasing reduction for non-uniform filterbanks which use spectral analysis followed by partial synthesis

Publications (2)

Publication Number Publication Date
CN109863555A true CN109863555A (zh) 2019-06-07
CN109863555B CN109863555B (zh) 2023-09-08

Family

ID=56555310

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201780047252.1A Active CN109863555B (zh) 2016-07-29 2017-07-26 用于处理音频信号的方法和音频处理器

Country Status (11)

Country Link
US (1) US10978082B2 (zh)
EP (3) EP3276620A1 (zh)
JP (1) JP6768141B2 (zh)
KR (1) KR102218371B1 (zh)
CN (1) CN109863555B (zh)
BR (1) BR112019001741A2 (zh)
CA (2) CA3139439C (zh)
ES (1) ES2807564T3 (zh)
MX (1) MX2019001023A (zh)
RU (1) RU2719285C1 (zh)
WO (1) WO2018019909A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3644313A1 (en) * 2018-10-26 2020-04-29 Fraunhofer Gesellschaft zur Förderung der Angewand Perceptual audio coding with adaptive non-uniform time/frequency tiling using subband merging and time domain aliasing reduction
CN110535472B (zh) * 2019-07-17 2023-05-02 南开大学深圳研究院 高速逐次逼近式模数转换器及控制方法
EP3786948A1 (en) * 2019-08-28 2021-03-03 Fraunhofer Gesellschaft zur Förderung der Angewand Time-varying time-frequency tilings using non-uniform orthogonal filterbanks based on mdct analysis/synthesis and tdar
CN112767329B (zh) * 2021-01-08 2021-09-10 北京安德医智科技有限公司 图像处理方法及装置、电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1460992A (zh) * 2003-07-01 2003-12-10 北京阜国数字技术有限公司 用于感知音频编/解码的低延时、自适应的多分辨率滤波器组
CN1926609A (zh) * 2004-02-19 2007-03-07 杜比实验室特许公司 用于信号分析和合成的自适应混合变换
CN102089758A (zh) * 2008-07-11 2011-06-08 弗劳恩霍夫应用研究促进协会 用于对采样音频信号的帧进行编码和解码的音频编码器和解码器
CN102089812A (zh) * 2008-07-11 2011-06-08 弗劳恩霍夫应用研究促进协会 用以使用混叠切换方案将音频信号编码/解码的装置与方法
CN102124517A (zh) * 2008-07-11 2011-07-13 弗朗霍夫应用科学研究促进协会 具有共用预处理的低比特率音频编码/解码方案
CN102148035A (zh) * 2004-11-02 2011-08-10 皇家飞利浦电子股份有限公司 使用复值滤波器组的音频信号的编码和解码
CN103594090A (zh) * 2007-08-27 2014-02-19 爱立信电话股份有限公司 使用时间分辨率能选择的低复杂性频谱分析/合成

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6496795B1 (en) * 1999-05-05 2002-12-17 Microsoft Corporation Modulated complex lapped transform for integrated signal enhancement and coding
US7136418B2 (en) * 2001-05-03 2006-11-14 University Of Washington Scalable and perceptually ranked signal coding and decoding
US7460993B2 (en) * 2001-12-14 2008-12-02 Microsoft Corporation Adaptive window-size selection in transform coding
US7536305B2 (en) 2002-09-04 2009-05-19 Microsoft Corporation Mixed lossless audio compression
DE10345995B4 (de) 2003-10-02 2005-07-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Verarbeiten eines Signals mit einer Sequenz von diskreten Werten
US7548853B2 (en) * 2005-06-17 2009-06-16 Shmunk Dmitry V Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
US7546240B2 (en) * 2005-07-15 2009-06-09 Microsoft Corporation Coding with improved time resolution for selected segments via adaptive block transformation of a group of samples from a subband decomposition
ES2631906T3 (es) 2006-10-25 2017-09-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y procedimiento para la generación de valores de subbanda de audio, aparato y procedimiento para la generación de muestras de audio en el dominio temporal
CN101589623B (zh) * 2006-12-12 2013-03-13 弗劳恩霍夫应用研究促进协会 对表示时域数据流的数据段进行编码和解码的编码器、解码器以及方法
EP2015293A1 (en) 2007-06-14 2009-01-14 Deutsche Thomson OHG Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain
US7761290B2 (en) * 2007-06-15 2010-07-20 Microsoft Corporation Flexible frequency and time partitioning in perceptual transform coding of audio
MY156027A (en) 2010-08-12 2015-12-31 Fraunhofer Ges Forschung Resampling output signals of qmf based audio codecs

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1460992A (zh) * 2003-07-01 2003-12-10 北京阜国数字技术有限公司 用于感知音频编/解码的低延时、自适应的多分辨率滤波器组
CN1926609A (zh) * 2004-02-19 2007-03-07 杜比实验室特许公司 用于信号分析和合成的自适应混合变换
CN102148035A (zh) * 2004-11-02 2011-08-10 皇家飞利浦电子股份有限公司 使用复值滤波器组的音频信号的编码和解码
CN103594090A (zh) * 2007-08-27 2014-02-19 爱立信电话股份有限公司 使用时间分辨率能选择的低复杂性频谱分析/合成
CN102089758A (zh) * 2008-07-11 2011-06-08 弗劳恩霍夫应用研究促进协会 用于对采样音频信号的帧进行编码和解码的音频编码器和解码器
CN102089812A (zh) * 2008-07-11 2011-06-08 弗劳恩霍夫应用研究促进协会 用以使用混叠切换方案将音频信号编码/解码的装置与方法
CN102124517A (zh) * 2008-07-11 2011-07-13 弗朗霍夫应用科学研究促进协会 具有共用预处理的低比特率音频编码/解码方案

Also Published As

Publication number Publication date
EP3276620A1 (en) 2018-01-31
CN109863555B (zh) 2023-09-08
US20190172471A1 (en) 2019-06-06
BR112019001741A2 (pt) 2019-05-07
EP3491643A1 (en) 2019-06-05
KR20190034314A (ko) 2019-04-01
US10978082B2 (en) 2021-04-13
RU2719285C1 (ru) 2020-04-17
ES2807564T3 (es) 2021-02-23
CA3139439A1 (en) 2018-02-01
MX2019001023A (es) 2019-06-10
EP3491643B1 (en) 2020-06-03
JP6768141B2 (ja) 2020-10-14
CA3031553A1 (en) 2018-02-01
KR102218371B1 (ko) 2021-02-22
EP3664090A1 (en) 2020-06-10
JP2019526074A (ja) 2019-09-12
CA3139439C (en) 2024-03-19
CA3031553C (en) 2022-01-04
WO2018019909A1 (en) 2018-02-01

Similar Documents

Publication Publication Date Title
RU2507572C2 (ru) Звуковое кодирующее устройство и декодер для кодирования декодирования фреймов квантованного звукового сигнала
TWI453731B (zh) 音訊編碼器與解碼器、用於編碼已取樣音訊信號之訊框及用於解碼已編碼訊框之方法、及電腦程式產品
TWI550600B (zh) 使用一多重疊部分來產生一編碼過的信號或用於解碼一編碼過的音頻信號之設備、電腦程式及方法
CN102089811B (zh) 用于编码和解码音频样本的音频编码器和解码器
CN109863555A (zh) 部分合成之前使用频谱分析的非均匀滤波器组的时域混叠降低
KR20130133848A (ko) 스펙트럼 도메인 잡음 형상화를 사용하는 선형 예측 기반 코딩 방식
RU2616863C2 (ru) Сигнальный процессор, формирователь окон, кодированный медиа-сигнал, способ обработки сигнала и способ формирования окон
Bäckström Comparison of windowing in speech and audio coding
Edler et al. A time-warped MDCT approach to speech transform coding
KR20200099559A (ko) 통합 음성 및 오디오 디코딩 및 인코딩 비상관 필터 개선을 위한 방법, 장치 및 시스템
JP7438334B2 (ja) Mdct分析/合成およびtdarに基づく不均一直交フィルタバンクを使用した時間変化する時間-周波数タイリング
Heusdens et al. Bit-rate scalable intraframe sinusoidal audio coding based on rate-distortion optimization
Bayer Time Warped Filter Banks and their Application for Frame Based Processing of Harmonic Audio Signals
Song et al. Fixed-point implementation of MPEG-D unified speech and audio coding decoder
Vera-Candeas et al. Fast implementation of an improved parametric audio coder based on a mixed dictionary
Song et al. New aliasing cancelation algorithm for the transition between non-aliased and TDAC-based coding modes
Heusdens et al. Upfront Time Segmentation Methods for Transform Coding of Audio
Reche-Lopez et al. Signal-adaptive Parametric Modelling for High Quality Low Bit Rate Audio Coding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant