CN101325060A - 频谱域中利用自适应切换的时间分辨率对音频信号编解码的方法和设备 - Google Patents

频谱域中利用自适应切换的时间分辨率对音频信号编解码的方法和设备 Download PDF

Info

Publication number
CN101325060A
CN101325060A CNA2008101113001A CN200810111300A CN101325060A CN 101325060 A CN101325060 A CN 101325060A CN A2008101113001 A CNA2008101113001 A CN A2008101113001A CN 200810111300 A CN200810111300 A CN 200810111300A CN 101325060 A CN101325060 A CN 101325060A
Authority
CN
China
Prior art keywords
length
positive
mdct
signal
going transition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2008101113001A
Other languages
English (en)
Other versions
CN101325060B (zh
Inventor
约翰内斯·贝姆
斯文·科尔顿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Oppo Mobile Telecommunications Corp Ltd
Original Assignee
Thomson Licensing SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Licensing SAS filed Critical Thomson Licensing SAS
Publication of CN101325060A publication Critical patent/CN101325060A/zh
Application granted granted Critical
Publication of CN101325060B publication Critical patent/CN101325060B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

感知音频编解码器利用滤波器组和MDCT,以便通过从原始音频信号中去除冗余度和不相关性来获得音频信号的紧凑表示。在音频信号的似稳态部分期间,为了获得高的编码增益,滤波器组的高的频率分辨率是有利的,但是,这个高频率分辨率被耦合到粗的时间分辨率,而由于产生可听见的前回声效应,这变成了瞬时信号部分期间的一个问题。本发明通过在第一滤波器组的输出上施加第二不均匀的滤波器组,即级联的MDCT,而获得了改善的编码/解码质量。本发明的编解码器利用到附加的扩展滤波器组(或多分辨率的滤波器组)的切换,以便重组瞬态或快速变化的音频信号部分期间的时间-频率表示。通过施加对应的切换控制,避免了前回声效应,并获得了高的编码增益和低的编码延迟。

Description

频谱域中利用自适应切换的时间分辨率对音频信号编解码的方法和设备
技术领域
本发明涉及一种利用频谱域中的变换编码和时间分辨率的自适应切换对音频信号进行编码和解码的方法和设备。
背景技术
感知音频编解码器利用滤波器组(filter bank)和MDCT(Modified Discrete Cosine Transform,改进的离散余弦变换,该变换是一种正向变换),以获取音频信号的紧凑表示(即冗余度降低),并能够从原始音频信号中降低不相关性。在音频信号的似稳态部分期间,为了获得高的编码增益,滤波器组的高频率或谱分辨率是有利的,但是,这个高频率分辨率被耦合到粗的时间分辨率,会变成了瞬态信号部分期间的一个问题。一个众所周知的结果就是产生可听见的前回声效应。
B.Edler在″Codierung von Audiosignalen mitüberlappender Transformation und adaptivenFensterfunktionen″(Frequenz,卷43,第9号,第252-256页,1989年9月)中公开了时域中的自适应窗切换和/或变换长度切换,所述切换是通过交替使用具有不同长度的两个窗函数在两个分辨率之间进行的切换。
US-A-6029126描述了一种长变换,其中,通过利用矩阵乘法来组合频谱带,使时间分辨率增加。在不同的固定分辨率之间进行切换,以避免在时域中进行窗切换。这可用于创建具有两个不同分辨率的不均匀的滤波器组。
WO-A-03/019532公开了余弦调制的滤波器组中的子带合并,这是一种非常复杂的滤波器设计方式,适于多相位滤波器组的构造。
发明内容
由于长预测造成的延迟长,而短块的频率分辨率低,使得不能提供足够的分辨率用于最优的不相关性降低处理,因此,上述由Edler公开的窗和/或变换长度切换是次优的。
本发明要解决的一个问题是:通过对瞬态音频信号部分施加高的频率分辨率及高的时间分辨率,提供改善的编码/解码增益。这个问题通过权利要求1和3揭露的方法来解决。权利要求2和4揭露了利用这些方法的设备。
本发明通过在第一滤波器组的输出上施加第二不均匀的滤波器组(即级联的MDCT)而获得了改善的编码/解码质量。本发明的编解码器利用到附加的扩展滤波器组(或多分辨率的滤波器组)的切换,以便重组瞬态或快速变化的音频信号部分期间的时间-频率表示。
通过施加对应的切换控制,避免了前回声效应,并获得了高的编码增益。有利的是,本发明的编解码器具有低的编码延迟(因为避免了预测)。
原理上,本发明的编码方法适于通过以下过程对输入信号,如音频信号,进行编码:利用被施加到所述输入信号的第一长度部分的、到频域的第一正向变换,并利用时间分辨率的自适应切换,随后对所得到的频域槽(frequency domain bin)的值进行量化和熵编码,其中对所述切换、量化和/或熵编码的控制是从对所述输入信号的心理声学分析得到的,该方法包括以下步骤:
-通过执行第二正向变换来实现对所述时间分辨率的自适应控制,所述第二正向变换在所述第一正向变换之后,并被施加到所述的经变换的第一长度部分中的第二长度部分,其中所述第二长度小于所述第一长度,并且在所述量化和熵编码的过程中对所述第一正向变换的输出值或者所述第二正向变换的输出值进行处理;
-将对应的时间分辨率控制信息作为辅助信息(sideinformation)附着到编码输出信号。
原理上,本发明的编码设备适于对输入信号,如音频信号,进行编码,所述设备包括:
-第一正向变换装置,适于将所述输入信号的第一长度部分变换到频域中;
-第二正向变换装置,适于对所述的经变换的第一长度部分中的第二长度部分进行变换,其中所述第二长度小于所述第一长度;
-适于对所述第一正向变换装置的输出值或所述第二正向变换装置的输出值进行量化和熵编码的装置;
-适于对所述量化和/或熵编码进行控制并自适应地控制所述量化和熵编码装置是处理所述第一正向变换装置的输出值还是处理所述第二正向变换装置的输出值的装置,其中所述控制是从对所述输入信号的心理声学分析中得到的;
-适于将对应的时间分辨率控制信息作为辅助信息附着到所述编码设备的输出信号的装置。
原理上,本发明的解码方法适于对经编码的信号,如音频信号,进行解码,所述经编码的信号是利用被施加到所述输入信号的第一长度部分的、到频域的第一正向变换来编码的,其中通过执行第二正向变换对时间分辨率进行自适应切换,所述第二正向变换在所述第一正向变换之后,并被施加到所述的经变换的第一长度部分中的第二长度部分,其中所述第二长度小于所述第一长度,并且在量化和熵编码的过程中对所述第一正向变换的输出值或者对所述第二正向变换的输出值进行处理;其中对所述切换、量化和/或熵编码的控制是从对所述输入信号的心理声学分析得到的,并且对应的时间分辨率控制信息作为辅助信息被附着到编码输出信号,所述解码方法包括以下步骤:
-从所述经编码的信号中提供所述辅助信息;
-对所述经编码的信号进行反量化和熵解码;
-对应于所述辅助信息,执行到时域的第一正向反变换,或者,在执行所述第一正向反变换之前,以第二正向反变换对所述的经反量化和熵解码的信号中的第二长度部分进行处理。所述第一正向反变换在所述的经反量化和熵解码的信号中的第一长度信号部分上进行,并且所述第一正向反变换提供经解码的信号。
原理上,本发明的解码设备适于对经编码的信号,如音频信号,进行解码,所述经编码的信号是利用被施加到所述输入信号的第一长度部分的、到频域的第一正向变换来编码的,其中通过执行第二正向变换对时间分辨率进行自适应切换,所述第二正向变换在所述第一正向变换之后,并被施加到所述的经变换的第一长度部分中的第二长度部分,其中所述第二长度小于所述第一长度,并且在量化和熵编码的过程中对所述第一正向变换的输出值或者对所述第二正向变换的输出值进行处理;其中对所述切换、量化和/或熵编码的控制是从对所述输入信号的心理声学分析得到的,并且对应的时间分辨率控制信息被附着到编码输出信号作为辅助信息,所述设备包括:
-适于从所述经编码的信号中提供所述辅助信息并对所述经编码的信号进行反量化和熵解码的装置;
-适于对应于所述辅助信息,或者执行到时域的第一正向反变换,或者在执行所述第一正向反变换之前以第二正向反变换对所述的经反量化和熵解码的信号中的第二长度部分进行处理的装置,所述第一正向反变换在所述的经反量化和熵解码的信号中的第一长度信号部分上进行,并且所述第一正向反变换提供经解码的信号。
本发明的另外的有利实施例在各从属权利要求中公开。
附图说明
参考附图对本发明的示范性实施例进行描述,在所述附图中:
图1示出了本发明的编码器;
图2示出了本发明的解码器;
图3示出了利用长MDCT变换和加窗的一块音频采样以及施加到频率数据的不均匀的MDCT系列;
图4示出了通过改变MDCT的块长度来改变时间-频率分辨率;
图5示出了转换窗;
图6示出了用于第二级MDCT的窗序列示例;
图7示出了用于第一和最后的MDCT的起始和停止窗;
图8示出了一个瞬态的时域信号、第一MDCT级的时间/频率(T/F)图以及具有8倍的时间分辨率拓扑的第二MDCT级的T/F图;
图9示出了示出了一个瞬态的时域信号、具有1倍、2倍、4倍和8倍的时间分辨率拓扑的第二级滤波器组的时间/频率(T/F)图;
图10示出了用于根据图6的窗处理的细节图。
具体实施方式
在图1中,编码器输入音频信号CIS的采样的每个相继的交叠块或段或部分的幅度值(magnitude value)通过窗函数来加权,并在提供对应的变换系数或频率槽(frequency bin)的长(即高频率分辨率)的MDCT滤波器组或变换级(transform stage)或步骤MDCT-1中被变换。在瞬态音频信号部分期间,优选地具有不同的较短变换长度的多分辨率MDCT滤波器组或具有较短的固定变换长度的第二MDCT滤波器组或变换级或步骤MDCT-2被施加到第一正向变换的频率槽(即在同一块上),以便改变频率和时间滤波器分辨率,即将一系列的不均匀的MDCT施加到频率数据,由此生成不均匀的时间/频率表示。在第二级变换之前,通过窗函数对所述第一正向变换的频率槽的每个相继的交叠部分的幅度值进行加权。参考图4到图7以及等式(3)和等式(4),对用于加权的窗函数进行说明。在MDCT或整数MDCT变换的情况下,各部分是50%交叠的。在使用某不同变换的情况下,交叠程度可以是不同的。
在仅两个不同的变换长度被用于级或步骤MDCT-2的情况下,当单独考虑时,该步骤或级与上文提及的Edler编解码器相似。
第二MDCT滤波器组MDCT-2的接通或断开是利用第一和第二开关SW1和SW2来进行的,并且通过滤波器组控制单元或步骤FBCTL来控制;该滤波器组控制单元或步骤FBCTL被集成在心理声学分析器级或步骤PSYM中,或与该心理声学分析器级或步骤PSYM并行工作;所述滤波器组控制单元或步骤FBCTL以及心理声学分析器级或步骤PSYM二者均接收信号CIS。第二级滤波器MDCT-2的拓扑或状态作为辅助信息被编码入编码器输出比特流COS。从开关SW2输出的频率数据在量化器和熵编码级或步骤QUCOD中被量化和熵编码;该量化器和熵编码级或步骤QUCOD(特别是量化步长)是由心理声学分析器PSYM来控制的。来自级QUCOD(经编码的频率槽)和FBCTL(拓扑或状态信息或者时间分辨率控制信息或者切换信息SWI或辅助信息)的输出在流打包器步骤或级STRPCK中被组合,并形成输出比特流COS。
量化可由插入失真信号来替代。
在图2中,在解码器侧,在解包、解码和重新量化级或步骤DPCRQU中,将解码器输入比特流DIS解包,且相应地解码并反量化(或重新量化);该解包、解码和重新量化级或步骤DPCRQU相应地提供经解码的频率槽和切换信息SWI。如果经由切换信息SWI的比特流这样发信号告知,则利用例如开关SW3和SW4将对应的不均匀的反MDCT步骤或级iMDCT-2施加到这些经解码的频率槽。在步骤或级iMDCT-2中的变换之后,通过窗函数对经反变换的各值的每个相继部分的幅度值进行加权;该加权之后是交叠相加(overlap-add)处理。通过将对应的高分辨率反MDCT步骤或级iMDCT-1施加到经解码的频率槽或施加到步骤或级iMDCT-2的输出,信号被重构。在步骤或级iMDCT-1中的变换之后,通过窗函数对经反变换的各值的每个相继部分的幅度值进行加权;该加权之后是交叠相加处理。之后,PCM音频解码器输出信号DOS。在解码侧施加的变换长度镜像反映在编码侧施加的对应的传输长度,即所接收的值的同一块被反变换两次。
参考图4到图7以及等式(3)和等式(4)对用于加权的窗函数进行说明。在反MDCT或整数反MDCT变换的情况下,各部分是50%交叠的。在使用某不同的反变换的情况下,交叠程度可以是不同的。
图3示出了上文提及的处理,即施加第一和第二级滤波器组。在左侧,时域采样块被加窗,并用长MDCT被变换到频域。在瞬态音频信号部分,将一系列的不均匀的MDCT施加到频率数据,以生成不均匀的时间/频率表示,如图3的右侧所示。所述时间/频率表示以灰度或阴影来显示。
第一级变换或滤波器组MDCT-1的时间/频率表示(在左侧)提供了高的频率或频谱分辨率,该高的频率或频谱分辨率对于稳态信号部分的编码是最优的。滤波器组MDCT-1和iMDCT-1表示具有50%交叠块的恒定尺寸的MDCT和iMDCT对。交叠和相加(Overlay-and-add,OLA)被用于滤波器组iMDCT-1中,以去除时域混叠。因此,滤波器组对MDCT-1和iMDCT-1具有理论上完全重构的能力。
利用与人体感知相匹配的分辨率或利用表示与时间/频率协调的最大信号压缩的分辨率,时间/频率更好地表示快速变化的信号部分(特别是瞬态信号)。这是通过将第二变换滤波器组MDCT-2施加到第一正向变换滤波器组MDCT-1的所选频率槽的块上来实现的。
第二正向变换的特点是利用不同尺寸的50%交叠的窗,当从一个尺寸切换到另一尺寸时利用转换窗函数(即“Edler窗函数”,每个Edler窗函数具有不对称的斜度(slope)),如图3的中间部分所示。窗尺寸从长度4到长度2n,其中n是大于2的整数。窗尺寸“4”将两个频率槽组合起来,并使时间分辨率加倍,窗尺寸“2n”将2(n-1)个频率槽组合起来,并使时间分辨率增加到2(n-1)倍。在MDCT系列的开始和终止处使用特殊的起始和停止窗函数(转换窗)。在解码侧,滤波器组iMDCT-2施加包括OLA的反变换。因此,滤波器组对MDCT-2/iMDCT-2具有理论上完全重构的能力。
滤波器组MDCT-2的输出数据与在施加滤波器组MDCT-2时不被包括在内的滤波器组MDCT-1的单分辨率槽(single-resolution bin)组合在一起。
滤波器组MDCT-2的每个MDCT或变换的输出可以被解释为第一正向变换的组合频率槽的“时间反转的”(time-reversed)时间采样。有利的是,如图3右侧所示的不均匀的时间/频率表示的构造现在变得可行。
滤波器组控制单元或步骤FBCTL利用来自心理声学分析器级或步骤PSYM中的心理声学模型的时间数据和激励图案来执行对实际处理块的信号分析。在一个简化的实施例中,在瞬态信号部分期间,其切换到滤波器组MDCT-2的固定滤波器拓扑,该滤波器组可以利用人体感知的时间/频率分辨率。有利的是,仅需几个比特的辅助信息作为码本(code-book)入口,用于向解码侧发信号告知所期望的滤波器组iMDCT-2的拓扑。
在一个较复杂的实施例中,滤波器组控制单元或步骤FBCTL评估输入信号CIS的频谱和时间平坦性,并确定滤波器组MDCT-2的灵活的滤波器拓扑。在该实施例中,将转换窗、起始窗的经编码的起始定位和停止窗位置传送到解码器,足以实现滤波器组iMDCT-2的构造。
心理声学模型利用相当于滤波器组MDCT-1的分辨率的高的频谱分辨率,并同时利用频谱分辨率粗但时间分辨率高的信号分析。该第二分辨率可以与滤波器组MDCT-2的最粗的频率分辨率相匹配。
作为替选,心理声学模型还可以由滤波器组MDCT-1的输出来直接驱动,并且在施加滤波器组MDCT-2之后,在瞬态信号部分期间由图3的右侧所示的时间/频率表示来驱动。下面提供更为详细的系统描述。
MDCT
改进的离散余弦变换(Modified Discrete CosineTransformation,MDCT)和反MDCT(inverse MDCT,iMDCT)可以被视为表示临界采样的滤波器组。MDCT起初被J.P.Princen和A.B.Bradley在″Analysis/synthesis filter bank design based ontime domain aliasing cancellation″(IEEE Transactions onAcoust.Speech Sig.Proc.ASSP-34(5),第1153-1161页,1986年)称为“奇堆叠的时域混叠消除变换(Oddly-stacked timedomain alias cancellation transform)”。
H.S.Malvar(″Signal processing with lapped transform″,Artech House Inc.,Norwood,1992年)和M.Temerinac,B.Edler(″A unified approach to lapped orthogonaltransforms″,IEEE Transactions on Image Processing,卷1,第1号,第111-116页,1992年)将其称为“调制的重叠变换(Modulated Lapped Trans form,MLT)”,并且示出了其与重叠的正交变换的大体关系,而且还证明了该变换是QMF滤波器组的一种特殊情况。
等式(1)和(2)给出了该变换和反变换的等式:
X ( k ) = 2 N Σ n = 0 N - 1 h ( n ) · x ( n ) · cos [ π K · ( n + K + 1 2 ) · ( k + 1 2 ) ] ,k=0,1..,K-1;K=N/2    (1)
x ( n ) = 2 N Σ k = 0 K - 1 h ( n ) · X ( k ) · cos [ π K · ( n + K + 1 2 ) · ( k + 1 2 ) ] ,n=0,1..,N-1    (2)
在这些变换中,处理50%交叠的块。在编码侧,在每种情况下,具有N个采样的块被加窗,并且幅度值通过窗函数h(n)被加权,然后被变换为K=N/2个频率槽,其中N是整数。在解码侧,所述反变换在每种情况下将M个频率槽变换成N个时间采样,之后通过用窗函数h(n)对幅度值加权,其中M和N是整数。之后的交叠相加过程去除时间混叠。为了实现完全重构,窗函数h(n)必须满足某些限制,请参见等式(3)和(4):
h2(n+N/2)+h2(n)=1    (3)
h(n)=h(N-n-1)        (4)
分析和合成窗函数还可以是不同的,但用于解码的反变换长度对应于用于编码的变换长度。然而,在此不考虑该种情况。等式(5)中给出的正弦窗函数是一个适合的窗函数:
h sin ( n ) = sin ( π · n + 0.5 N ) , n=0...N-1    (5)
在上文提及的论文中,Edler还说明了利用转换窗来切换MDCT时间-频率分辨率。图4的下部示出了利用转换窗1、10从一个长变换切换到8个短变换的示例,该图4在垂直方向上示出了窗函数的增益G,并在水平方向上示出了时间,即输入信号采样。在该图的上部,示出了在稳态条件下施加的三个相继的基本窗函数A、B和C。
转换窗函数具有所述长变换的长度NL。在较小的窗侧端,有r个零幅度的窗函数采样。向着位于NL/2的窗函数中心,跟随着用于小变换(具有Nshort个采样的长度)的镜像的半窗函数,另外跟随该镜像的半窗函数的是具有值为“1”(即常数“一”)的r个窗函数采样。图5的左侧示出了转换到短窗的原理,而图5的右侧示出了从短窗转换的原理。值r通过下列等式给出:
r=(NL-Nshort)/4    (6)
多分辨率滤波器组
第一级滤波器组MDCT-1、iMDCT-1是高分辨率的MDCT滤波器组,其子带滤波器带宽例如为15Hz-25Hz。对于例如32kHz-48kHz的音频采样率,NL的典型长度为2048个采样。窗函数h(n)满足等式(3)和(4)。在优选的实施例中,在施加了滤波器MDCT-1之后,存在1024个频率槽。对于稳态的输入信号部分,根据心理声学考虑因素,对这些槽进行量化。
由施加到第一MDCT的槽的附加的MDCT来处理快速变化的瞬态输入信号部分。该附加的步骤或级合并了2个、4个、8个、16个或更多个子带,因此提高了时间分辨率,如图3的右部所示。
图6示出了频域内所施加的用于第二级MDCT的加窗的示例性序列。因此,横轴涉及“f/bins(f/槽)”。转换窗函数是根据图5和等式(6)设计的,如同在时域中那样。特殊的起始窗函数STW和停止窗函数SPW处理经变换的信号的起始和终止部分,即第一和最后的MDCT。图7示出了这些起始和停止窗函数的设计原理。这些窗函数的一半镜像反映了正规或正则窗函数NW(如根据等式(5)的正弦窗函数)的半窗函数。在这些窗函数的另一半中,相邻的一半具有连续的增益“1”(即常数“一”),而另一半具有增益“零”。
由于MDCT的属性,执行MDCT-2还可以被视为部分反变换。当施加第二级MDCT的正向MDCT时,这样的新MDCT(MDCT-2)的每一个可以被视为组合了原始加窗的槽的一个新频率线(槽),而该新MDCT的时间反转的(time-reversed)的输出可以被视为新的时间块。图8和图9所示即基于该假设或条件。
图6中的索引数ki表示变化的时间分辨率的区域。从位置零开始直到位置k1-1的频率槽拷贝自(即表示)与单个时间分辨率对应的第一正向变换(MDCT-1)。从索引数k1-1到索引数k2的槽被变换为g1个频率线。g1等于所执行的变换的数目(该数目对应于交叠窗的数目,并可被视为第二或上变换级MDCT-2中的频率槽的数目)。因为索引数k1被选为图6中的第一正向变换中的第二采样(第一采样具有零幅度,也请参见图10a),所以起始索引数是槽k1-1。
g1=(加窗的槽的数目)/(N/2)-1=(k2-k1+1)/2-1,
其中N是例如4个槽的正则窗尺寸,该尺寸产生具有加倍的时间分辨率的部分。
从索引数k2-3到索引数k3+4的槽被组合成g2个频率线(变换),即g2=(k3-k2+2)/4-1。正则窗尺寸即例如8个槽,该尺寸产生具有4倍的时间分辨率的部分。
图6中的下一部分由跨例如16个槽的窗(变换长度)来变换,该尺寸产生具有8倍的时间分辨率的部分。加窗始于槽k3-5。如果这是所选的最后的分辨率(如图6所示的),则其终止于槽k4+4,否则终止于槽k4。
其中第二级变换的阶(即长度)在相继的变换块上是可变的,所述相继的变换块始于与低频率线对应的频率槽,第一个第二级MDCT从小阶数开始,而后面的第二级MDCT将具有较高的阶。使用满足完全重构特性的转换窗。
图10中进一步解释了根据图6的处理,图10示出了标记第二(即级联的)变换(MDCT-2)的区域的频率索引数的采样准确的分配,该第二变换实现了较好的时间分辨率。圆圈表示槽的位置,即第一或初始变换(NDCT-1)的频率线。
图10a示出了4点的第二级MDCT的区域,用于提供加倍的时间分辨率。所示的5个MDCT部分产生5个新的谱线。图10b示出了8点的第二级MDCT的区域,用于提供4倍的时间分辨率。示出了3个MDCT部分。图10c示出了16点的第二级MDCT的区域,用于提供8倍的时间分辨率。示出了4个MDCT部分。
在解码器侧,利用滤波器组iMDCT-1、包括交叠相加过程(OLA)的长变换块的iMDCT来恢复平稳信号,以去除时间混叠。
当在比特流中如此发信号告知时,在施加滤波器组iMDCT-1之前,通过根据所告知的拓扑(包括OLA)施加iMDCT的序列,解码或解码器被分别切换到多分辨率的滤波器组iMDCT-2。
将滤波器组拓扑告知解码器
最简单的实施例是滤波器组MDCT-2/iMDCT-2使用单个的固定拓扑,并利用所传递的比特流中的单个比特来发信号告知这个单个的拓扑。在使用更多个固定拓扑组的情况下,使用对应数目的比特来告知多个拓扑中当前所用的一个。更先进的实施例从一组固定码本拓扑中挑选最好的一个,并在比特流内发信号告知对应的码本入口。
在第二级变换的滤波器拓扑不固定的实施例中,在编码输出比特流中传送对应的辅助信息。优选的是,传送索引数k1,k2,k3,k4,...,kend。
以4倍的分辨率开始,k2以与等于槽0的k1中的值相同的值来传送。在以比最大时间分辨率粗的时间分辨率终止的拓扑中,在kend中传送的值被拷贝到k4,k3,...。
在下面的表中,这用一些示例来示出。bi是作为某频率槽的占位符的一个值。
Figure A20081011130000241
Figure A20081011130000251
由于人体听觉系统在时间上的心理声学属性,将这限制为具有随频率升高的时间分辨率的拓扑就足够了。
滤波器组拓扑示例
图8和图9示出第二级滤波器组的多分辨率T/F(时间/频率)能量图的两个示例。图8示出了一个“仅8x时间分辨率”的拓扑。图8a中的时域信号瞬态示出为随时间的幅度变化(时间以采样来表示)。图8b示出了第一级MDCT的对应的T/F能量图(频率以与一个变换块对应的随归一化的时间的槽来表示),而图8c示出了第二级MDCT的对应的T/F图(8*128个时间-频率片)。
图9示出了一个“1x、2x、4x、8x的拓扑”。图9a中的时域信号瞬态被示出为随时间的幅度变化(时间以采样来表示)。图9b示出了第二级MDCT的对应的T/F图,由此,用于较低频带部分的频率分辨率被选择为与人体听觉系统的感知的带宽(临界带)成比例,其中对于总共1024个系数,bN1=16,bN2=16,bN4=16,bN8=114(这些数字具有如下的含义:具有单倍的时间分辨率的16个频率线、具有双倍的时间分辨率的16个频率线、具有4倍的时间分辨率的16个频率线、具有8倍的时间分辨率的114个频率线)。对于低频,有单次分割,随后是2次和4次分割,而且在约f=50以上,有8次分割。
滤波器组控制
最简单的实施例可以使用任何现有技术的瞬态检测器,以切换到固定的拓扑匹配,或用于接近人体感知的T/F分辨率。优选的实施例使用更先进的控制处理:
-在功率谱密度Pm的M个频率线(fbin)的所选频带上,利用具有NL个采样(即MDCT-1的长度)(所选频带与临界带成比例)的长变换块的加窗信号的离散傅立叶变换,例如根据等式(7)来计算谱平坦性量度SFM;
-将NL个采样的分析块划分成S≥8个交叠块,并在子块上施加S个加窗的DFT。根据每个DFT的频率线的数目,将结果排列成具有S列(时间分辨率,tblock)和多个行的矩阵,S是整数;
-计算S个谱图Ps,例如,总的功率谱密度或以心理声学方式成形的谱图(或激励图案(excitation pattern));
-对于每个频率线,根据等式(8)确定时间平坦性量度(TFM);
-使用SFM矢量来确定音调或噪声频带,并使用TFM矢量来识别所述频带内的时间变化。使用阈值来决定是否切换到多分辨率的滤波器组以及挑选哪个拓扑。
Figure A20081011130000271
= 1 M · Σ m Pm / ( Π M Pm ) 1 M - - - ( 7 )
Figure A20081011130000273
= 1 S · Σ s Ps / ( Π s Ps ) 1 S - - - ( 8 )
在一个不同的实施例中,通过以下步骤来确定拓扑:
-通过为所选频带确定变换槽的谱功率并以所述谱功率值的算术均值除以其几何均值,利用所述的第一正向变换来执行谱平坦性量度SFM;
-将未加权的输入信号部分子分割,在m个子部分上进行加权和短变换,其中这些变换的频率分辨率对应于所选频带;
-对于由m个变换段构成的每个频率线,确定谱功率,并通过确定用m个段的算术均值除以其几何均值的来计算时间平坦性量度TFM;
-通过利用SFM值来确定音调或噪声频带;
-利用TFM值来识别这些频带中的时间变化。使用阈值,以针对所述的噪声频带而切换到更精细的时间分辨率。
MDCT可以用DCT来代替,特别是用DCT-4来代替。除了将本发明应用于音频信号外,本发明还可以用相应的方式应用到视频信号,在这种情况下,心理声学分析器PSYM用考虑了人体视觉系统属性的分析器来代替。
本发明可以用于水印嵌入器。与直接嵌入相比,利用本发明的多分辨率滤波器组将数字水印信息嵌入音频或视频信号的优点在于:改善了水印信息发送和接收器侧的水印信息检测的鲁棒性。
在本发明的一个实施例中,级联的滤波器组与音频水印系统一起使用。在水印编码器中,进行第一(整数)MDCT。通过利用心理声学控制的嵌入过程,将第一水印插入到槽0至k1-1。该水印的目的可以是水印解码器侧的帧同步。将第二级的可变尺寸(整数)的MDCT施加到始于槽索引k1的各槽,如上所述。该第二级的输出被重新排序,以通过将该输出解释为时间反转的时间块并将每个第二级MDCT解释为一个新的频率线(槽)而获得时间-频率表示。通过利用由心理声学考虑因素控制的衰减因子将第二水印信号添加到这些新频率线的每一个上。数据被重新排序,并进行反(整数)MDCT(与上述第二级MDCT有关),包括加窗及交叠/相加,如针对以上实施例(解码器)所描述的。与第一正向变换有关的全频谱得以恢复。对该数据执行全尺寸的反(整数)MDCT,加窗及交叠/相加恢复嵌入了水印的时间信号。
在水印解码器中还使用多分辨率的滤波器组。在此,第二级MDCT的拓扑通过本申请来确定。

Claims (12)

1.一种用于对输入信号(CIS),如音频信号,进行编码的方法,所述编码通过以下来进行:利用被施加到所述输入信号的第一长度(NL)部分的、到频域的第一正向变换(MDCT-1),并利用时间分辨率的自适应切换,随后对所得到的频域槽的值进行量化和熵编码(QUCOD),其中对所述切换、量化和/或熵编码的控制(PSYM,FBCTL)是从对所述输入信号的心理声学分析得到的,特征在于所述方法包括以下步骤:
-在所述第一正向变换(MDCT-1)之后,通过执行第二正向变换(MDCT-2)对所述时间分辨率进行自适应控制(SW1,SW2,SWI),所述第二正向变换被施加到所述的经变换的第一长度部分中的第二长度(Nshort)部分,其中所述第二长度小于所述第一长度(NL),并且在所述量化和熵编码(QUCOD)的过程中对所述第一正向变换的输出值或者所述第二正向变换的输出值进行处理;
-将对应的时间分辨率控制信息(SWI)作为辅助信息附着(STRPCK)到编码输出信号(COS)。
2.一种用于对输入信号(CIS),如音频信号,进行编码的设备,所述设备包括:
-第一正向变换装置(MDCT-1),适于将所述输入信号的第一长度(NL)部分变换到频域中;
-第二正向变换装置(MDCT-2),适于对所述的经变换的第一长度部分中的第二长度(Nshort)部分进行变换,其中所述第二长度小于所述第一长度(NL);
-适于对所述第一正向变换装置的输出值或所述第二正向变换装置的输出值进行量化和熵编码的装置(QUCOD);
-适于对所述量化和/或熵编码进行控制,并自适应地控制在所述量化和熵编码装置中是处理所述第一正向变换装置的输出值还是处理所述第二正向变换装置的输出值的装置(PSYM,FBCTL),其中所述控制是从对所述输入信号的心理声学分析中得到的;
-适于将对应的时间分辨率控制信息(SWI)作为辅助信息附着到所述编码设备的输出信号(COS)的装置(STRPCK)。
3.一种用于对经编码的信号(DIS),如音频信号,进行解码的方法,所述经编码的信号是利用被施加到所述输入信号的第一长度(NL)部分的,到频域的第一正向变换(MDCT-1)来编码的,其中通过执行第二正向变换(MDCT-2)对时间分辨率进行自适应切换(SW1,SW2),所述第二正向变换在所述第一正向变换(MDCT-1)之后,并被施加到所述的经变换的第一长度部分中的第二长度(Nshort)部分,其中所述第二长度小于所述第一长度(NL),并且在量化和熵编码(QUCOD)的过程中对所述第一正向变换的输出值或者所述第二正向变换的输出值进行处理;其中对所述切换、量化和/或熵编码的控制(PSYM,FBCTL)是从对所述输入信号的心理声学分析得到的,并且对应的时间分辨率控制信息(SWI)作为辅助信息被附着(STRPCK)到编码输出信号(COS),所述解码方法包括以下步骤:
-从所述经编码的信号(DIS)中提供(DPCRQU)所述辅助信息(SWI);
-对所述经编码的信号(DIS)进行反量化和熵解码(DPCRQU);
-对应于所述辅助信息,执行(SW3,SW4)到时域的第一正向反变换(iMDCT-1),或者,在执行所述第一正向反变换(iMDCT-1)之前,以第二正向反变换(iMDCT-2)对所述的经反量化和熵解码的信号中的第二长度(Nshort)部分进行处理,所述第一正向反变换在所述的经反量化和熵解码的信号中的第一长度(NL)信号部分上进行,并且所述第一正向反变换提供经解码的信号(DOS)。
4.一种用于对经编码的信号(DIS),如音频信号,进行解码的设备,所述经编码的信号是利用被施加到所述输入信号的第一长度(NL)部分的,到频域的第一正向变换(MDCT-1)来编码的,其中通过执行第二正向变换(MDCT-2)对时间分辨率进行自适应切换(SW1,SW2),所述第二正向变换在所述第一正向变换(MDCT-1)之后,并被施加到所述的经变换的第一长度部分中的第二长度(Nshort)部分,其中所述第二长度小于所述第一长度(NL),并且在量化和熵编码(QUCOD)的过程中对所述第一正向变换的输出值或者所述第二正向变换的输出值进行处理;其中对所述切换、量化和/或熵编码的控制(PSYM,FBCTL)是从对所述输入信号的心理声学分析得到的,并且对应的时间分辨率控制信息(SWI)作为辅助信息被附着(STRPCK)到编码输出信号(COS),所述设备包括:
-适于从所述经编码的信号(DIS)中提供所述辅助信息(SWI)并对所述经编码的信号进行反量化和熵解码的装置(DPCRQU);
-适于对应于所述辅助信息执行到时域的第一正向反变换,或者在执行所述第一正向反变换之前,以第二正向反变换对所述的经反量化和熵解码的信号中的第二长度(Nshort)部分进行处理的装置(iMDCT-1,iMDCT-2,SW3,SW4),所述第一正向反变换在所述的经反量化和熵解码的信号中的第一长度(NL)信号部分上进行,并且所述第一正向反变换提供经解码的信号(DOS)。
5.根据权利要求1或3所述的方法,或根据权利要求2或4所述的设备,其中所述第一和第二正向变换分别是MDCT或整数MDCT或DCT-4或DCT变换,并且所述第一和第二正向反变换分别是反MDCT或整数的反MDCT或反DCT-4或反DCT变换。
6.根据权利要求1、3或5所述的方法,或根据权利要求2、4或5所述的设备,其中,在编码侧的所述变换之前并且在解码侧的所述变换之后,利用窗函数对所述第一长度部分和所述第二长度部分的幅度值进行加权,并施加用于所述第一长度部分和第二长度部分的交叠相加处理,并且其中,对于转换窗,所述幅度值利用不对称的窗函数来加权,并且其中对于所述第二长度部分,使用起始和停止窗函数。
7.根据权利要求1、3、5或6所述的方法,或根据权利要求2及4至6中的一项所述的设备,其中,在使用多于一个的不同第二长度的情况下,为了发信号告知所施加的不同第二长度的拓扑,在所述辅助信息中包含用于指示变化的时间分辨率的区域的几个索引数或用于表示可在解码侧访问的对应的码本的匹配入口的索引数。
8.根据权利要求1、3及5至7中的一项所述的方法,或根据权利要求2及4至7中的一项所述的设备,其中,在相继地使用多于一个的不同第二长度的情况下,所述长度从表示低频率线的频率槽开始增加。
9.根据权利要求7或8所述的方法或设备,其中所述拓扑通过以下步骤来确定:
-通过为所选频带确定变换槽的谱功率并用所述谱功率值的算术均值除以其几何均值,利用所述的第一正向变换来执行谱平坦性量度SFM;
-将未加权的输入信号部分子分割,在m个子部分上进行加权和短变换,其中这些变换的频率分辨率对应于所选频带;
-对于由m个变换段构成的每个频率线,确定谱功率,并通过确定m个段的算术均值除以其几何均值来计算时间平坦性量度TFM;
-利用所述SFM的值来确定音调或噪声频带;
-利用所述TFM的值来识别这些频带中的时间变化,并利用阈值,以针对所识别的噪声频带而切换到更精细的时间分辨率。
10.根据权利要求1和5至9中的一项所述的方法来编码的一种数字视频信号。
11.一种存储介质,如光盘,所述存储介质包含或存储或者在其上记录有一种根据权利要求10的数字视频信号。
12.根据权利要求1和5至9中的一项所述的方法在水印嵌入器中的应用。
CN2008101113001A 2007-06-14 2008-06-13 频谱域中利用自适应切换的时间分辨率对音频信号编解码的方法和设备 Expired - Fee Related CN101325060B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP07110289.1 2007-06-14
EP07110289A EP2015293A1 (en) 2007-06-14 2007-06-14 Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain

Publications (2)

Publication Number Publication Date
CN101325060A true CN101325060A (zh) 2008-12-17
CN101325060B CN101325060B (zh) 2012-10-31

Family

ID=38541993

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008101113001A Expired - Fee Related CN101325060B (zh) 2007-06-14 2008-06-13 频谱域中利用自适应切换的时间分辨率对音频信号编解码的方法和设备

Country Status (5)

Country Link
US (1) US8095359B2 (zh)
EP (2) EP2015293A1 (zh)
JP (1) JP5627843B2 (zh)
KR (1) KR101445396B1 (zh)
CN (1) CN101325060B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010108315A1 (zh) * 2009-03-24 2010-09-30 华为技术有限公司 信号延时切换的方法和装置
CN101527139B (zh) * 2009-02-16 2012-03-28 成都九洲电子信息系统股份有限公司 一种音频编码解码方法及其装置
CN102884572A (zh) * 2010-03-10 2013-01-16 弗兰霍菲尔运输应用研究公司 音频信号解码器、音频信号编码器、用以将音频信号解码的方法、用以将音频信号编码的方法、及使用编码上下文的音高相依适应技术的计算机程序
CN102934161A (zh) * 2010-06-14 2013-02-13 松下电器产业株式会社 音频混合编码装置以及音频混合解码装置
CN103229235A (zh) * 2010-11-24 2013-07-31 Lg电子株式会社 语音信号编码方法和语音信号解码方法
CN104538038A (zh) * 2014-12-11 2015-04-22 清华大学 具有鲁棒性的音频水印嵌入和提取方法及装置
CN105190748A (zh) * 2013-01-29 2015-12-23 弗劳恩霍夫应用研究促进协会 在摩擦音或破擦音的起始段或终止段的时间的接近处使用提高的时间分辨率的音频编码器、音频解码器、系统、方法及计算机程序
CN105280190A (zh) * 2015-09-16 2016-01-27 深圳广晟信源技术有限公司 带宽扩展编码和解码方法以及装置
CN106575509A (zh) * 2014-07-28 2017-04-19 弗劳恩霍夫应用研究促进协会 谐波滤波器工具的谐度依赖控制
CN107592938A (zh) * 2015-03-09 2018-01-16 弗劳恩霍夫应用研究促进协会 用于对编码音频信号进行解码的解码器和用于对音频信号进行编码的编码器

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2894759A1 (fr) * 2005-12-12 2007-06-15 Nextamp Sa Procede et dispositif de tatouage sur flux
ES2748843T3 (es) * 2007-08-27 2020-03-18 Ericsson Telefon Ab L M Análisis/síntesis espectral de baja complejidad utilizando resolución temporal seleccionable
WO2010003479A1 (en) 2008-07-11 2010-01-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and audio decoder
CA2871498C (en) * 2008-07-11 2017-10-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder and decoder for encoding and decoding audio samples
EP2339577B1 (en) * 2008-09-18 2018-03-21 Electronics and Telecommunications Research Institute Encoding apparatus and decoding apparatus for transforming between modified discrete cosine transform-based coder and hetero coder
ES2567129T3 (es) * 2009-01-28 2016-04-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador de audio, decodificador de audio, información de audio codificada, métodos para la codificación y decodificación de una señal de audio y programa de ordenador
US20110087494A1 (en) * 2009-10-09 2011-04-14 Samsung Electronics Co., Ltd. Apparatus and method of encoding audio signal by switching frequency domain transformation scheme and time domain transformation scheme
EP3998606B8 (en) 2009-10-21 2022-12-07 Dolby International AB Oversampling in a combined transposer filter bank
JP5560346B2 (ja) * 2009-11-12 2014-07-23 ポール リード スミス ギターズ、リミテッド パートナーシップ デジタル信号処理のための方法、コンピュータ可読ストレージ媒体および信号処理システム
JP5706910B2 (ja) * 2009-11-12 2015-04-22 ポール リード スミス ギターズ、リミテッド パートナーシップ デジタル信号処理のための方法、コンピュータ可読ストレージ媒体および信号処理システム
CN102081926B (zh) * 2009-11-27 2013-06-05 中兴通讯股份有限公司 格型矢量量化音频编解码方法和系统
IL295473B2 (en) 2010-07-02 2023-10-01 Dolby Int Ab After–selective bass filter
EP2860729A4 (en) * 2012-06-04 2016-03-02 Samsung Electronics Co Ltd METHOD AND DEVICE FOR AUDIO CODING, METHOD AND DEVICE FOR AUDIO DECODING, AND MULTIMEDIA DEVICE EMPLOYING THEM
BR112015019543B1 (pt) * 2013-02-20 2022-01-11 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Aparelho para codificar um sinal de áudio, descodificador para descodificar um sinal de áudio, método para codificar e método para descodificar um sinal de áudio
EP3671738B1 (en) 2013-04-05 2024-06-05 Dolby International AB Audio encoder and decoder
EP2804176A1 (en) 2013-05-13 2014-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object separation from mixture signal using object-specific time/frequency resolutions
DE112013007199B4 (de) * 2013-06-26 2017-08-10 University Of Ottawa Verfahren, Steuervorrichtung und Rechnervorrichtung zum mehrfachauflösungsbasierten Schätzen einer spektralen Leistungsdichte
EP2830058A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Frequency-domain audio coding supporting transform length switching
KR101782278B1 (ko) * 2013-10-18 2017-10-23 텔레폰악티에볼라겟엘엠에릭슨(펍) 스펙트럼의 피크 위치의 코딩 및 디코딩
EP2980795A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
AU2015258241B2 (en) 2014-07-28 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for selecting one of a first encoding algorithm and a second encoding algorithm using harmonics reduction
EP2980794A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
US10504530B2 (en) 2015-11-03 2019-12-10 Dolby Laboratories Licensing Corporation Switching between transforms
EP3276620A1 (en) * 2016-07-29 2018-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Time domain aliasing reduction for non-uniform filterbanks which use spectral analysis followed by partial synthesis
EP3382701A1 (en) 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using prediction based shaping
WO2018201112A1 (en) * 2017-04-28 2018-11-01 Goodwin Michael M Audio coder window sizes and time-frequency transformations
EP3483883A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3644313A1 (en) * 2018-10-26 2020-04-29 Fraunhofer Gesellschaft zur Förderung der Angewand Perceptual audio coding with adaptive non-uniform time/frequency tiling using subband merging and time domain aliasing reduction
WO2024085903A1 (en) * 2022-10-20 2024-04-25 Google Llc Non-windowed dct-based audio coding using advanced quantization

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1064773C (zh) * 1993-06-30 2001-04-18 索尼公司 数字信号的编码方法和解码方法
WO1995010886A1 (fr) * 1993-10-08 1995-04-20 Sony Corporation Processeur de signaux numeriques, procede de traitement de signaux numeriques et support d'enregistrement de donnees
JPH08162964A (ja) * 1994-12-08 1996-06-21 Sony Corp 情報圧縮装置及び方法、情報伸張装置及び方法、並びに記録媒体
JP3418305B2 (ja) * 1996-03-19 2003-06-23 ルーセント テクノロジーズ インコーポレーテッド オーディオ信号を符号化する方法および装置および知覚的に符号化されたオーディオ信号を処理する装置
US6029126A (en) 1998-06-30 2000-02-22 Microsoft Corporation Scalable audio coder and decoder
US6115689A (en) * 1998-05-27 2000-09-05 Microsoft Corporation Scalable audio coder and decoder
US6253165B1 (en) * 1998-06-30 2001-06-26 Microsoft Corporation System and method for modeling probability distribution functions of transform coefficients of encoded signal
JP3806770B2 (ja) * 2000-03-17 2006-08-09 松下電器産業株式会社 窓処理装置および窓処理方法
DE10217297A1 (de) * 2002-04-18 2003-11-06 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Codieren eines zeitdiskreten Audiosignals und Vorrichtung und Verfahren zum Decodieren von codierten Audiodaten
TW594674B (en) * 2003-03-14 2004-06-21 Mediatek Inc Encoder and a encoding method capable of detecting audio signal transient
DE10328777A1 (de) * 2003-06-25 2005-01-27 Coding Technologies Ab Vorrichtung und Verfahren zum Codieren eines Audiosignals und Vorrichtung und Verfahren zum Decodieren eines codierten Audiosignals
CN1460992A (zh) * 2003-07-01 2003-12-10 北京阜国数字技术有限公司 用于感知音频编/解码的低延时、自适应的多分辨率滤波器组
US20050143979A1 (en) * 2003-12-26 2005-06-30 Lee Mi S. Variable-frame speech coding/decoding apparatus and method
KR100651731B1 (ko) * 2003-12-26 2006-12-01 한국전자통신연구원 가변 프레임 음성 부호화/복호화 장치 및 그 방법
US7516064B2 (en) * 2004-02-19 2009-04-07 Dolby Laboratories Licensing Corporation Adaptive hybrid transform for signal analysis and synthesis
DE102004021403A1 (de) * 2004-04-30 2005-11-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Informationssignalverarbeitung durch Modifikation in der Spektral-/Modulationsspektralbereichsdarstellung
DE102004021404B4 (de) * 2004-04-30 2007-05-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Wasserzeicheneinbettung
US7630902B2 (en) 2004-09-17 2009-12-08 Digital Rise Technology Co., Ltd. Apparatus and methods for digital audio coding using codebook application ranges
US7546240B2 (en) * 2005-07-15 2009-06-09 Microsoft Corporation Coding with improved time resolution for selected segments via adaptive block transformation of a group of samples from a subband decomposition
US7516074B2 (en) * 2005-09-01 2009-04-07 Auditude, Inc. Extraction and matching of characteristic fingerprints from audio signals
US20090018824A1 (en) * 2006-01-31 2009-01-15 Matsushita Electric Industrial Co., Ltd. Audio encoding device, audio decoding device, audio encoding system, audio encoding method, and audio decoding method

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101527139B (zh) * 2009-02-16 2012-03-28 成都九洲电子信息系统股份有限公司 一种音频编码解码方法及其装置
WO2010108315A1 (zh) * 2009-03-24 2010-09-30 华为技术有限公司 信号延时切换的方法和装置
CN102265338A (zh) * 2009-03-24 2011-11-30 华为技术有限公司 信号延时切换的方法和装置
CN102884572A (zh) * 2010-03-10 2013-01-16 弗兰霍菲尔运输应用研究公司 音频信号解码器、音频信号编码器、用以将音频信号解码的方法、用以将音频信号编码的方法、及使用编码上下文的音高相依适应技术的计算机程序
US9524726B2 (en) 2010-03-10 2016-12-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio signal decoder, audio signal encoder, method for decoding an audio signal, method for encoding an audio signal and computer program using a pitch-dependent adaptation of a coding context
CN102884572B (zh) * 2010-03-10 2015-06-17 弗兰霍菲尔运输应用研究公司 音频信号解码器、音频信号编码器、用以将音频信号解码的方法、及用以将音频信号编码的方法
US9129597B2 (en) 2010-03-10 2015-09-08 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E. V. Audio signal decoder, audio signal encoder, methods and computer program using a sampling rate dependent time-warp contour encoding
CN102934161A (zh) * 2010-06-14 2013-02-13 松下电器产业株式会社 音频混合编码装置以及音频混合解码装置
US9275650B2 (en) 2010-06-14 2016-03-01 Panasonic Corporation Hybrid audio encoder and hybrid audio decoder which perform coding or decoding while switching between different codecs
CN102934161B (zh) * 2010-06-14 2015-08-26 松下电器产业株式会社 音频混合编码装置以及音频混合解码装置
US9177562B2 (en) 2010-11-24 2015-11-03 Lg Electronics Inc. Speech signal encoding method and speech signal decoding method
CN103229235A (zh) * 2010-11-24 2013-07-31 Lg电子株式会社 语音信号编码方法和语音信号解码方法
CN105190748A (zh) * 2013-01-29 2015-12-23 弗劳恩霍夫应用研究促进协会 在摩擦音或破擦音的起始段或终止段的时间的接近处使用提高的时间分辨率的音频编码器、音频解码器、系统、方法及计算机程序
CN106575509A (zh) * 2014-07-28 2017-04-19 弗劳恩霍夫应用研究促进协会 谐波滤波器工具的谐度依赖控制
US11581003B2 (en) 2014-07-28 2023-02-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Harmonicity-dependent controlling of a harmonic filter tool
CN104538038A (zh) * 2014-12-11 2015-04-22 清华大学 具有鲁棒性的音频水印嵌入和提取方法及装置
CN107592938A (zh) * 2015-03-09 2018-01-16 弗劳恩霍夫应用研究促进协会 用于对编码音频信号进行解码的解码器和用于对音频信号进行编码的编码器
US10706864B2 (en) 2015-03-09 2020-07-07 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Decoder for decoding an encoded audio signal and encoder for encoding an audio signal
US11335354B2 (en) 2015-03-09 2022-05-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Decoder for decoding an encoded audio signal and encoder for encoding an audio signal
US11854559B2 (en) 2015-03-09 2023-12-26 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Decoder for decoding an encoded audio signal and encoder for encoding an audio signal
CN105280190A (zh) * 2015-09-16 2016-01-27 深圳广晟信源技术有限公司 带宽扩展编码和解码方法以及装置
CN105280190B (zh) * 2015-09-16 2018-11-23 深圳广晟信源技术有限公司 带宽扩展编码和解码方法以及装置

Also Published As

Publication number Publication date
KR20080110542A (ko) 2008-12-18
EP2003643B1 (en) 2014-02-12
EP2015293A1 (en) 2009-01-14
KR101445396B1 (ko) 2014-09-26
JP2008310327A (ja) 2008-12-25
JP5627843B2 (ja) 2014-11-19
EP2003643A1 (en) 2008-12-17
US20090012797A1 (en) 2009-01-08
CN101325060B (zh) 2012-10-31
US8095359B2 (en) 2012-01-10

Similar Documents

Publication Publication Date Title
CN101325060B (zh) 频谱域中利用自适应切换的时间分辨率对音频信号编解码的方法和设备
CN101878504B (zh) 使用时间分辨率能选择的低复杂性频谱分析/合成
JP4043476B2 (ja) スケーラブルエンコーディングのための方法および装置ならびにスケーラブルデコーディングのための方法および装置
JP4950210B2 (ja) オーディオ圧縮
CN1878001B (zh) 对音频数据编码及解码的设备及方法
CN103098126B (zh) 音频编码器、音频解码器及利用复预测处理多信道音频信号的相关方法
CN101086845B (zh) 声音编码装置及方法以及声音解码装置及方法
JP4081447B2 (ja) 時間離散オーディオ信号を符号化する装置と方法および符号化されたオーディオデータを復号化する装置と方法
CN1809872B (zh) 编码音频信号的设备和方法及解码已编码音频信号的设备和方法
US20050114126A1 (en) Apparatus and method for coding a time-discrete audio signal and apparatus and method for decoding coded audio data
CN102656628B (zh) 优化的低吞吐量参数编码/解码
US20100274555A1 (en) Audio Coding Apparatus and Method Thereof
CN103477387A (zh) 使用频谱域噪声整形的基于线性预测的编码方案
US7512539B2 (en) Method and device for processing time-discrete audio sampled values
KR100776235B1 (ko) 변환 표시로의 변환 또는 변환 표시의 역변환을 위한 장치및 방법
CN103366749B (zh) 一种声音编解码装置及其方法
RU2409874C2 (ru) Сжатие звуковых сигналов
US20170206905A1 (en) Method, medium and apparatus for encoding and/or decoding signal based on a psychoacoustic model
Chen et al. Fast time-frequency transform algorithms and their applications to real-time software implementation of AC-3 audio codec
Ning Analysis and coding of high quality audio signals

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20170523

Address after: Amsterdam, The Netherlands

Patentee after: DOLBY INTERNATIONAL AB

Address before: French Boulogne

Patentee before: THOMSON LICENSING

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20180626

Address after: No. 18, Wu Sha seashore road, Changan Town, Dongguan, Guangdong

Patentee after: GUANGDONG OPPO MOBILE TELECOMMUNICATIONS Corp.,Ltd.

Address before: Amsterdam, The Netherlands

Patentee before: Dolby International AB

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20121031