CN107077854B - 用于使用截短分析或合成窗口重叠部分对音频信号进行处理的处理器、方法及计算机程序 - Google Patents

用于使用截短分析或合成窗口重叠部分对音频信号进行处理的处理器、方法及计算机程序 Download PDF

Info

Publication number
CN107077854B
CN107077854B CN201580052557.2A CN201580052557A CN107077854B CN 107077854 B CN107077854 B CN 107077854B CN 201580052557 A CN201580052557 A CN 201580052557A CN 107077854 B CN107077854 B CN 107077854B
Authority
CN
China
Prior art keywords
window
overlapping portion
asymmetric
processor
length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201580052557.2A
Other languages
English (en)
Other versions
CN107077854A (zh
Inventor
吉约姆·福克斯
马库斯·马特拉斯
马蒂亚斯·诺伊辛格
安德烈·尼德迈尔
马库斯·施奈尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority to CN202110621690.2A priority Critical patent/CN113990333A/zh
Publication of CN107077854A publication Critical patent/CN107077854A/zh
Application granted granted Critical
Publication of CN107077854B publication Critical patent/CN107077854B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M13/00Coding, decoding or code conversion, for error detection or error correction; Coding theory basic assumptions; Coding bounds; Error probability evaluation methods; Channel models; Simulation or testing of codes

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Probability & Statistics with Applications (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Image Analysis (AREA)
  • Complex Calculations (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

一种用于处理音频信号(200)的处理器包括:用于从音频信号(200)得出指示从第一不对称窗口(1400)至第二窗口(1402)的改变或指示从第三窗口(1450)至第四不对称窗口(1452)的改变的窗口控制信号(204)的分析器(202),其中第二窗口(1402)短于第一窗口(1400),或其中第三窗口(1450)短于第四窗口(1452);用于使用第一不对称窗口(1400)的第一重叠部分(800)构建第二窗口(1402)的窗口构建器(206),其中窗口构建器(206)用于使用第一不对称窗口的经截短的第一重叠部分确定第二窗口(1402)的第一重叠部分(1000),或其中窗口构建器用于使用第四不对称窗口(1452)的经截短的第二重叠部分(814)计算第三窗口(1450)的第二重叠部分(1330);以及用于应用第一窗口及第二窗口或第三窗口及第四窗口以获得经窗口化的音频信号部分(210)的窗口化器(208)。

Description

用于使用截短分析或合成窗口重叠部分对音频信号进行处理 的处理器、方法及计算机程序
技术领域
本发明涉及音频处理,以及尤其涉及利用用于音频信号处理链的分析侧或合成侧的重叠窗口的音频处理。
背景技术
基于如MDCT的重叠变换的大多数当代频域音频编码器使用某种变换大小切换以使时间及频率分辨率适于当前信号特性。已开发了不同方法以对可用变换大小及其对应窗口形状之间的切换进行处理。一些方法在使用不同变换长度编码的帧之间插入过渡窗口,例如MPEG-4(HE-)AAC[1]。过渡窗口的缺点是需要增加的先行编码器,使得其不适于低延迟应用。其他方法针对所有变换大小使用固定的低窗口重叠以避免对过渡窗口的需要,例如CELT[2]。然而,低重叠减小频率分离,其使得音调信号的编码效率降级。在[3]中给出对于对称重叠应用不同的变换和重叠长度的改良瞬时切换方法。[6]展示了使用低重叠正弦窗口在不同变换长度之间瞬时切换的示例。
另一方面,低延迟音频编码器常常使用不对称MDCT窗口,因为其在延迟与频率分离之间显现良好折中。在编码器侧,与后续帧的缩短的重叠用来减小先行延迟,而与先前帧的长重叠用来改良频率分离。在解码器侧,使用编码器窗口的镜像版本。图8A至图8C中绘示不对称分析及合成窗口化。
发明内容
本发明的目标为提供用于处理音频信号的经改良概念。
通过如权利要求1所述的一种用于处理音频信号的处理器、如权利要求17所述的一种处理音频信号的方法或如权利要求18所述的一种计算机程序实现此目标。
本发明基于如下发现:不对称变换窗口用于以减小的延迟实现对于静态信号的良好编码效率。另一方面,为了具有灵活的变换大小切换策略,用于从一个块大小至不同块大小的过渡的分析或合成窗口允许使用不对称窗口的经截短的重叠部分作为窗口边缘或作为窗口边缘的基础而不扰乱完美重构特性。
因此,诸如不对称窗口的长重叠部分的不对称窗口的经截短部分可在过渡窗口内使用。然而,为了遵守过渡窗口的必要长度,此重叠部分或不对称窗口边缘或侧翼被截短为在过渡窗口约束内可允许的长度。然而,这并不违反完美重构特性。因此,不对称窗口的窗口重叠部分的此截短允许短且瞬时的切换过渡窗口而从完美重构侧没有任何害处。
在另一实施例中,优选的是不直接使用经截短的重叠部分,而是平滑或渐强(fade-in) 或渐弱(fade-out)由对考虑中的不对称窗口重叠部分进行截短而引起的不连续。
由于仅最小量的窗口边缘或窗口侧翼储存于存储器中以及甚至为了渐强或渐弱而使用某个窗口边缘的事实,其他实施例依赖于高度节省存储器的实施。这些高效存储器的实施还通过逻辑或算术运算的方式从储存的递升窗口边缘(ascending window edge)构建递降窗口边缘(descending window edge)或反之亦然,使得诸如递升或递降边缘的仅单个边缘需被储存,而另一个可在运转中得出。
实施例包括一种用于处理音频信号的处理器或方法。处理器具有用于从音频信号得出窗口控制信号的分析器,窗口控制信号在音频信号的分析处理中指示从第一不对称窗口至第二窗口的改变。可选地或附加地,窗口控制信号在(例如)合成信号处理的情况下指示从第三窗口至第四不对称窗口的改变。特别地,对于分析侧,第二窗口短于第一窗口,或在合成侧,第三窗口短于第四窗口。
处理器还包括用于使用第一不对称窗口的第一重叠部分或第四不对称窗口的第二重叠部分构建第二窗口或第三窗口的窗口构建器。特别地,窗口构建器用于使用第一不对称窗口的经截短的第一重叠部分确定第二窗口的第一重叠部分。可选地或附加地,窗口构建器用于使用第四不对称窗口的经截短的第二重叠部分计算第三窗口的第二重叠部分。
最后,处理器具有窗口化器,其用于应用第一窗口及第二窗口,特别地用于分析处理,或用于在合成处理情况下应用第三窗口及第四窗口,以获得经窗口化的音频信号部分。
众所周知,分析窗口化发生于音频编码器的恰好开始处,其中时间离散及时间连续的音频信号样本的串流通过窗口序列而被窗口化,且例如,当分析器实际上检测到音频信号中的瞬态时,执行从长窗口至短窗口的切换。然后,在窗口化之后,执行从时域至频域的转换,且在优选实施例中,使用改进的离散余弦变换(MDCT)执行此转换。MDCT使用折叠操作及后续DCT IV变换以便从2N个时域样本的集合中生成N个频域样本的集合,且此类频域值随后被进一步处理。
在合成侧,分析器不执行音频信号的实际信号分析,而是分析器从经编码的音频信号的旁侧信息得出窗口控制信号,该窗口控制信号指示由编码器侧分析器确定并被传输至解码器侧处理器实施的某个窗口序列。在解码器侧处理的恰好结束时(即在频率时间转换和展开运算之后)执行合成窗口化,该运算从N个谱值的集合中生成2N个时域值的集合,该2N个时域值然后被窗口化,且在使用了所发明的经截短的窗口边缘的合成窗口化之后,按需要执行重叠相加。优选地,50%重叠被应用于分析窗口的定位且在使用合成窗口的合成窗口化之后被应用于实际重叠相加。
因此,本发明的优点为,本发明依赖于不对称变换窗口,其以减少的延迟具有对于静态信号的良好编码效率。另一方面,本发明允许灵活的变换大小切换策略用以瞬态信号的高效编码,其并不增加总编码器延迟。因此,本发明依赖于用于短窗口的对称重叠范围的灵活的变换/重叠长度切换概念以及用于长变换的不对称窗口的组合。短窗口可以是充分对称的,在两侧具有相同的对称重叠;或可以是不对称的,具有与先前窗口的第一对称重叠及具有与后续窗口的第二不同的对称重叠。
本发明特别的益处在于,通过使用来自不对称长窗口的经截短的重叠部分,不增加任何编码器延迟或所需要的先行编码器,此归因于如下事实:从具有不同块大小的窗口的任何过渡并不需要任何额外的长过渡窗口的插入。
附图说明
随后参照附图论述本发明的优选的实施例,其中:
图1A示出用于在经截短的重叠部分的环境下进行编码的方面;
图1B示出用于在使用经截短的重叠部分的环境下进行解码的设备;
图1C示出合成侧的更详细的说明;
图1D示出具有编码器、解码器及存储器的移动装置的实施;
图2示出用于分析侧(情况A)或合成侧(情况B)的本发明的优选实施例;
图3示出窗口构建器的优选实施;
图4示出图3的存储器内容的示意性说明;
图5示出用于确定分析过渡窗口的第一重叠部分与第二重叠部分的优选过程;
图6示出用于确定合成过渡窗口的优选过程;
图7示出使用小于最大长度的截短的另一过程;
图8A示出不对称分析窗口;
图8B示出不对称合成窗口;
图8C示出具有折入部分的不对称分析窗口;
图9A示出对称分析/合成窗口;
图9B示出具有对称但不同的重叠部分的另一分析/合成窗口;
图9C示出包含具有不同长度的对称重叠部分的另一窗口;
图10A示出分析过渡窗口,如具有经截短的第一重叠部分的第二窗口;
图10B示出具有经截短的且渐强的第一重叠部分的第二窗口;
图10C示出在先前及后续窗口的对应重叠部分的环境下的图10A的第二窗口;
图10D示出图10C的但具有渐强的第一重叠部分的情形;
图11A示出用于分析侧的经渐强的不同过渡窗口;
图11B示出经高于必要截短的截短及对应其他修改的另一分析过渡窗口;
图12A、图12B示出用于从小的块大小至大的块大小的过渡的分析过渡窗口;
图13A、图13B示出从大的块大小至小的块大小的合成过渡窗口;
图13C示出具有经截短的第二重叠部分的合成过渡窗口,如第三窗口;
图13D示出图13C但未经渐弱的窗口;
图14A示出某个分析窗口序列;
图14B示出对应合成窗口序列;
图15A示出某个分析窗口序列;
图15B示出与图15A匹配的对应合成窗口序列;以及
图16示出仅使用对称重叠在不同变换长度之间瞬时切换的示例。
具体实施方式
实施例涉及从使用不对称窗口的长MDCT变换瞬时切换至利用对称地重叠的窗口的较短变换而无需插入中间帧的概念。
当为应用了较短变换长度的第一帧构建窗口形状时,两个限制成为问题:
·窗口的左侧重叠部分需要以某种方式与先前不对称窗口的形状匹配,从而实现完美或几乎完美的重构。
·重叠部分的长度由于较短变换长度而受到限制。
长不对称窗口的左侧重叠部分将满足第一条件,但其对于较短变换过长,较短变换通常具有是长变换的大小的一半或一半以下的大小。因此,需要选择较短的窗口形状。
本文中,假设不对称分析及合成窗口是彼此对称的,即,合成窗口为分析窗口的镜像版本。在此情况下,窗口w必须满足用于完美重构的以下等式:
wnw2L-1-n+wL+nwL-1-n=1,n=0...L-1,
其中L表示变换长度,且n表示样本索引。
为了延迟减小,已缩短了不对称长分析窗口的右侧重叠,其意味着所有的最右侧窗口样本具有为零的值。从以上等式可看出,若窗口样本wn具有为零的值,则可选择任意值用于对称样本w2L-1-n。若窗口的最右侧m个样本为零,则可因此也在不失去完美重构的情况下以零替换最左侧m个样本,即,左侧重叠部分可被截短至右侧重叠部分的长度。
若经截短的重叠长度足够短,从而保留了足够的重叠长度用于第一短变换窗口的右侧部分,这为第一短变换窗口形状给出了满足以上两个条件的解决方案。不对称窗口的重叠部分的左端被截短并与用于后续短窗口的对称重叠组合。在图10C中绘示所得的窗口形状的示例。
使用现有长窗口重叠的经截短的版本避免了需要设计用于过渡的完全新的窗口形状。由于不需要用于过渡的额外窗口表,其亦减小对其上实施有算法的硬件的ROM/RAM需求。
对于解码器侧的合成窗口化,使用对称方法。不对称合成窗口在右侧具有长重叠。因此,在切换回至利用不对称窗口的长变换之前,右侧重叠部分的经截短的版本用于最后短变换的右侧窗口部分,如图13D中所绘示。
如上文所示,若在分析与合成变换之间未修改谱数据,则长窗口的经截短的版本的使用允许时域信号的完美重构。然而,在音频编码器中,将量化应用至谱数据。在合成变换中,由合成窗口对所得的量化噪声进行成形。由于长窗口的截短在窗口形状中引入步长(step),因此不连续可出现于输出信号的量化噪声中。此类不连续可变得可听,如类似于滴答的伪声(artifact)。
为了避免此伪声,可将渐弱应用至经截短的窗口的末端从而将过渡平滑化为零。可以若干不同方法完成渐弱,例如,其可为线性、正弦或余弦成形的。渐弱的长度应选为足够大,使得没有可听的伪声出现。通过短变换长度及窗口重叠的长度来确定在不失去完美重构情况下的对于渐弱可用的最大长度。在一些情况下,可用长度可能为零或过小以致于不能抑制伪声。对于此情况,可有利地延伸渐弱长度并接受小的重构误差,因为此类误差相较于量化噪声中的不连续常常是较少引起扰乱。仔细地调谐渐弱长度允许以重构误差交换量化误差不连续,以便实现最好的音频质量。
图10D绘示通过将窗口的经截短端与正弦函数相乘而经短渐弱的经截短的重叠的示例。
随后,论述图2,以便描述根据本发明的实施例的用于处理音频信号的处理器。在输入 200处将音频信号提供至分析器202中。分析器用于从输入200处的音频信号得出窗口控制信号204,其中窗口控制信号指示从第一不对称窗口至第二窗口的改变,如(例如)第一窗口示出为图14A或图15A中的1400或1500,而第二窗口在此实施例中为图14A中的窗口1402或图15A中的窗口1502。可选地,窗口控制信号204再次且关于合成侧的操作示例性指示从诸如图14B中的1450或图15B中的1550的第三窗口至诸如图14B中的1452或图15B中的1552的第四窗口的改变。如所示出,诸如1402的第二窗口短于第一窗口1400,或诸如1450或1550 的第三窗口短于诸如1452或1552的第四窗口。
处理器还包括用于使用第一不对称窗口的第一重叠部分构建第二窗口的窗口构建器 206,其中此窗口构建器对于分析侧(即图2中的情况A)用于使用第一不对称窗口的经截短的第一重叠部分确定第二窗口的第一重叠部分。窗口构建器用于使用第四窗口(即,不对称窗口)的经截短的第二重叠部分计算诸如1450或1550的第三窗口的第二重叠部分。
将诸如分析侧的第二窗口或合成侧的第三窗口及当然的先前和/或后续窗口的此类窗口从窗口构建器206传输至窗口化器208。窗口化器208将第一及第二窗口或第三及第四窗口应用于音频信号以便在输出210处获得信号部分。
情况A涉及分析侧。在此,输入为音频信号,且实际分析器202执行诸如瞬态分析等的实际音频信号分析。第一及第二窗口为分析窗口,且对经窗口化的信号进行编码器侧处理,如后续关于图1A将论述的。
因此,忽略或实际上在情况A中不存在图2中所示出的解码器处理器214。
在情况B中,即当在合成侧应用本发明的处理时,输入为经编码的音频信号,如具有音频信号信息及旁侧信息的比特流,且分析器202执行比特流分析或比特流或经编码的信号解析以便从经编码的音频信号检索指示由编码器应用的窗口序列的窗口控制信号,从该窗口控制信号可得出待被解码器应用的窗口序列。
然后,第三及第四窗口为合成窗口,且经窗口化的信号出于音频信号合成的目的而经受重叠相加处理,如图1B或图1C中所示。
图1A示出用于对音频信号100进行编码的设备。用于对音频信号进行编码的设备包括用于对音频信号100进行窗口化从而在103处提供经窗口化的样本的块的序列的可控窗口化器102。编码器还包括用于将经窗口化的样本的块的序列103转换成包括在105处指示的谱值的帧的序列的谱表示的转换器104。此外,提供瞬态位置检测器106。此检测器用于识别在帧的瞬态先行区内的瞬态的位置。此外,用于控制可控窗口化器的控制器108用于响应于在 107处示出的瞬态的所识别位置而将具有指定重叠长度的特定窗口应用于音频信号100。此外,在实施例中,控制器108用于不仅将窗口信息112提供至可控窗口化器102,而且提供至输出接口114,输出接口在其输出处提供经编码的音频信号115。包括谱值的帧的序列的谱表示105被输入至编码处理器110中,编码处理器可执行任何种类的编码操作,诸如预测操作、时间噪声成形操作、量化操作,优选地关于心理声学模型或至少关于心理声学原理,或可包括诸如霍夫曼编码操作或算术编码操作的冗余减少编码操作。然后,编码处理器110 的输出被转递至输出接口114,且输出接口114然后最终提供具有与每个经编码的帧相关联的某个窗口信息112的经编码的音频信号。
控制器108用于从至少三个窗口的群组中选择特定窗口。群组包括具有第一重叠长度的第一窗口、具有第二重叠长度的第二窗口,以及具有第三重叠长度或无重叠的第三窗口。第一重叠长度大于第二重叠长度,且第二重叠长度大于零重叠。基于瞬态位置由可控窗口化器102选择特定窗口,使得两个时间邻接重叠窗口中的一个在瞬态的位置处具有第一窗口系数,且两个时间邻接重叠窗口中的另一个在瞬态的位置处具有第二窗口系数,且第二窗口系数比第一系数大至少9倍。此确保瞬态实质上由具有第一(小)系数的第一窗口抑制,且瞬态完全不受具有第二窗口系数的第二窗口的影响。优选地,第一窗口系数在+/-5%的容差内等于1,诸如在0.95与1.05之间,且第二窗口系数优选地等于0或至少小于0.05。窗口系数也可以是负的,且在此情况下,窗口系数的关系及数量与绝对量值有关。
此外,可选地或附加地,控制器108包括如在图2的环境下所论述的窗口构建器206的功能,且稍后将予以论述。此外,瞬态位置检测器106可被实施且对于情况A(即,对于分析侧的窗口的应用)可具有图2的分析器202的功能。
此外,块104及110示出待由与图1A中的经窗口化的音频信号103相对应的经窗口化的音频信号210执行的处理。此外,尽管在图2中未具体指示,但窗口构建器206将图1A的窗口信息112提供至输出接口114,然后(即对于情况B)可由在解码器侧操作的分析器202从经编码的信号中重新获得该窗口信息112。
如在MDCT处理的技术中已知的,一般地,使用混迭引入变换的处理,此混迭引入变换可被分离为折入步骤及使用某种非混迭引入变换的后续变换步骤。在示例中,将区段折入其他区段,且随后使用诸如DCT变换的变换将折叠操作的结果变换至谱域中。在MDCT 的情况下,应用DCT IV变换。
随后,参考MDCT对此进行例示,但可以以类似和相似的方式处理其他混迭引入变换。作为交叠变换,MDCT相比于其他傅里叶相关变换稍有不寻常在于,其具有是输入的一半的输出(而非相同数量)。特别地,其为线性函数F:R2N→RN(其中R表示实数的集合)。根据如下公式将2N个实数x0……x2N-1变换成N个实数X0……XN-1:
Figure GDA0002824159330000071
(在此变换前面的标准化系数(此处为单位值)为任意约定且在处置之间不同。下文仅限制MDCT及IMDCT的标准化的乘积。)
逆MDCT被称为IMDCT。因为存在不同数量的输入及输出,所以乍看之下MDCT似乎不应该是可逆的。然而,通过将时间邻近重叠块的重叠的IMDCT相加来实现完美可逆性,使得误差消除且重新得到原始数据;此技术被称为时域混迭消除(TDAC)。
根据如下公式,IMDCT将N个实数X0……XN-1变换成2N个实数y0……y2N-1:
Figure GDA0002824159330000072
(对于DCT-IV、正交变换是类似的,逆具有与正向变换相同的形式。)
在具有常见窗口标准化的经窗口化的MDCT的情况下(参见下文),应将IMDCT前面的标准化系数乘以2(即,变成2/N)。
在典型信号压缩应用中,通过使用乘以上文的MDCT及IMDCT公式中的xn及yn的窗口函数wn(n=0……2N-1),对变换特性进行进一步改良,以便通过使函数在那些点处平稳地归零而避免在n=0及2N的边界处的不连续。(即,在MDCT之前且在IMDCT之后对数据进行窗口化。)原则上,x及y可具有不同窗口函数,且窗口函数也可从一个块变为下一个(尤其在不同大小的数据块被组合的情况下),但为了简单起见,考虑相同窗口函数用于相等大小的块的常见情况。
对于对称窗口wn=w2N-1-n,只要w满足如下Princen-Bradley条件,则变换保持可逆(即, TDAC起作用):
Figure GDA0002824159330000081
使用各种窗口函数。产生被称为调制型交叠变换的形式的窗口由以下公式给定并用于 MP3及MPEG-2AAC:
Figure GDA0002824159330000082
且下式用于Vorbis:
Figure GDA0002824159330000083
AC-3使用Kaiser-Bessel导出(KBD)窗口,且MPEG-4 AAC也可使用KBD窗口。
应注意,应用于MDCT的窗口不同于用于一些其他类型的信号分析的窗口,因为其必须满足Princen-Bradley条件。对于此差异的一个原因是,针对MDCT(分析)及IMDCT(合成)二者,应用MDCT窗口两次。
如通过检验定义可看出,对于偶数N,MDCT基本上等效于DCT-IV,其中输入被移位N/2且同时对两个N块数据进行变换。通过更仔细地检查此等效,可容易地得出类似TDAC 的重要特性。
为了定义与DCT-IV的精确关系,必须认识到DCT-IV与交替的偶数/奇数边界条件相对应:偶数在其左边界处(大约n=-1/2),奇数在其右边界处(大约n=N-1/2)等等(而不是关于DFT的周期性边界)。此从以下恒等式得出:
Figure GDA0002824159330000084
以及
Figure GDA0002824159330000085
因此,若其输入是长度为N的数组x,则可想象将此数组延伸为(x、-xR、-x、xR……)等等,其中xR表示呈反向次序的x。
考虑具有2N个输入及N个输出的MDCT,其中将输入划分成各自具有N/2大小的四个块(a,b,c,d)。若将这些块向右移位N/2(从MDCT定义中的+N/2项),则(b,c,d)延伸越过N个DCT-IV输入的末端,因此必须根据上述边界条件将其“折叠”回。
因此,2N个输入(a,b,c,d)的MDCT准确地等效于N个输入(-cR-d,a-bR)的 DCT-IV,其中R表示如上文所述的反向。
(以此方式,用以计算DCT-IV的任何算法皆可直观地应用于MDCT。)
类似地,上文的IMDCT公式精确地为DCT-IV的1/2(其为其自身的逆),其中输出延伸至(经由边界条件)长度2N并向左回移N/2。从以上,逆DCT-IV将简单地恢复输入 (-cR-d,a-bR)。当此经由边界条件被延伸并被移位时,获得:
IMDCT(MDCT(a,b,c,d))=(a-bR,b-aR,c+dR,d+cR)/2.
由于b-aR=-(a-bR)R,且对于最后两项也同样如此,一半的IMDCT输出因此是冗余的。若将输入分组为大小为N的较大块A、B,其中A=(a,b)且B=(c,d),则可以以更简单的方式撰写此结果:
IMDCT(MDCT(A,B))=(A-AR,B+BR)/2
现在可理解TDAC如何起作用。假设计算时间邻近的50%重叠的2N块(B,C)的MDCT。与上文类似,IMDCT将接着产生:(B-BR,C+CR)/2。当将此与先前的半数重叠中的 IMDCT结果相加时,反向项消除且简单地获得B,从而复原原始数据。
术语“时域混迭消除”的起源此时已清晰。延伸超出逻辑DCT-IV的边界的输入数据的使用使得数据以与将超出奈奎斯频率的频率混迭至较低频率的相同方式被混迭,除了此混迭发生于时域而非频域:无法区分a及bR对(a,b,c,d)的MDCT或等效地对 IMDCT(MDCT(a,b,c,d))=(a-bR,b-aR,c+dR,d+cR)/2的结果的贡献。组合c-dR等等精确地具有用于组合的正确符号以在它们被相加时进行消除。
对于奇数N(其很少用于实践),N/2并非是整数,因此MDCT并非简单地为DCT-IV 的移位置换。在此情况下,样本以一半额外移位意味着MDCT/IMDCT变得等效于 DCT-III/II,且分析与上文类似。
上文中看出2N个输入(a,b,c,d)的MDCT等效于N个输入(-cR-d,a-bR)的 DCT-IV。DCT-IV被设计用于如下情况:右边界处的函数为奇数,且因此右边界附近的值接近于0。若输入信号是平滑的,则为如下情况:a及bR的最右侧分量在输入序列(a,b,c,d) 中连续,且因此其差较小。查看区间的中间:若将以上表达式重写为 (-cR-d,a-bR)=(-d,a)-(b,c)R,则第二项(b,c)R在中间给出平滑过渡。然而,在第一项(-d,a)中,在-d的右端与a的左端的相接处存在潜在不连续。这是使用减少输入序列(a,b,c,d)的朝向0的边界附近的分量的窗口函数的原因。
在上文中,已针对普通MDCT证明了TDAC特性,示出将其半数重叠中的时间邻近块的IMDCT相加复原原始数据。用于经窗口化的MDCT的此逆特性的得出仅是略微复杂的。
考虑对于大小为N的块A、B、C的2N个输入的两个重叠连续集合(A,B)及(B,C)。从上文想起,当(A,B)及(B,C)经MDCT、IMDCT处理并在其半数重叠中进行相加时,获得(B+BR)/2+(B-BR)/2=B(原始数据)。
此时,假设使MDCT输入及IMDCT输出均乘以长度为2N的窗口函数。如上文,假定对称窗口函数,函数因此具有(W,WR)的形式,其中W为长度N的向量且R如前所述地表示反向。然后,可将Princen-Bradley条件书写为
Figure GDA0002824159330000101
其中逐元素地执行平方及相加。
因此,取代对(A,B)进行MDCT处理,此时对(WA,WRB)进行MDCT处理,其中逐元素地执行所有相乘。当其经IMDCT处理并再次乘以(逐元素地)窗口函数时,最后一半N变成:
Figure GDA0002824159330000102
(应注意,因为IMDCT标准化在窗口化情况下以因子2而有所不同,因此不再乘以1/2。)
类似地,(B,C)的经窗口化的MDCT及IMDCT在其前一半N中产生:
W·(WB-WRBR)=W2B-WWRBR
当将这两半相加在一起时,复原原始数据。
以上MDCT的论述描述了相同的分析/合成窗口。对于不对称窗口,分析/合成窗口不同,但优选地对称于彼此;在此情况下,Princen-Bradley条件改变为更一般等式:
wnw2L-1-n+wL+nwL-1-n=1n=0...L-1
图1B示出解码器实施,其具有:用于经编码的信号的输入150,一方面提供呈经编码形式的音频信号154且另一方面提供旁侧信息至分析器202的输入接口152。分析器202从经编码的信号150提取窗口信息160,并将此窗口信息提供至窗口构建器206。此外,将经编码的音频信号154输入至对应于图2中的解码器处理器214的解码器或解码处理器 156,且窗口构建器206将窗口提供至可控转换器158,其用于执行IMDCT或IMDST或与混迭引入正变换的相逆的任何其他变换。
图1C示出可控转换器158的解码器侧的优选实施。具体地,可控转换器158包括频率 -时间转换器170、随后连接的合成窗口化器172及最终的重叠相加器174。特别地,频率-时间转换器执行诸如DCT-IV变换的变换及后续折出操作,使得在至频率-时间转换器的输入示例性地为N个谱值的同时,频率-时间转换器170的输出对于第一或长窗口具有2N个样本。另一方面,当至频率-时间转换器的输入为N/8个谱值时,则输出对于MDCT运算示例性地为N/4个时域值。
然后,频率-时间转换器170的输出被输入至应用对于编码器侧窗口优选地是对称的合成窗口的合成窗口化器。因此,在执行重叠相加之前,由两个窗口对每个样本进行窗口化,使得所得的“总窗口化”为分析窗口系数与合成窗口系数的乘积,从而满足如之前所论述的Princen-Bradley条件。
最终,重叠相加器174执行对应的正确的重叠相加以便最终在输出175处获得经解码的音频信号。
图1D示出利用移动装置实施的本发明的另一实施例,其中移动装置一方面包括编码器 195且另一方面包括解码器196。此外,根据本发明的优选实施例,由于编码器195中使用的窗口与解码器196中使用的窗口彼此对称,编码器105及解码器106从仅单个存储器197中检索相同的窗口信息。因此,解码器具有只读存储器197或随机存取存储器或其中仅存储有窗口序列或窗口的仅单个集合以供在编码器及解码器中使用的通用任何存储器197。此归因于如下事实而是有利的:用于不同窗口的不同窗口系数并非必须储存两次,其中一个集合用于编码器且一个集合用于解码器。相反地,归因于根据本发明在编码器及解码器中使用相同的窗口及窗口序列的事实,仅需要储存窗口系数的单个集合。因此,图1D中示出的所发明的移动装置的存储器使用实质上关于如下不同概念而被减小:编码器及解码器具有不同窗口,或执行具有不同于窗口化操作的处理的某后置处理。
随后,参照图8A论述优选的窗口。其具有第一重叠部分800、第二重叠部分802、具有高值的另一部分804及具有低值的另一部分806。部分804的高值为1.0值或至少大于0.95,且低部分806中的低值等于0.0且优选地低于0.1。在实施例中,不对称分析窗口的长度为40ms,且由于优选地使用50%重叠相加的事实而导致20ms的块大小。然而,也可使用其他重叠比率等。
在此特定的实施中,第一重叠部分800大于允许低延迟实施的第二重叠部分802,且另外在低部分806先于第二重叠部分的事实的环境下,图8A中示出的不对称分析窗口由于零部分及短的第二重叠部分802而允许低延迟滤波,且由于长的第一重叠部分800而额外具有相当良好的分离。然而,归因于长重叠部分位于不对称分析窗口的前半部分的事实,此长重叠并不引起任何额外延迟。在特定的实施例中,第一重叠部分800等于14.375ms,第二非重叠部分或高部分等于11.25ms,第三部分或第二重叠部分802等于8.75ms,且最后的第四部分或低部分等于5.625ms。
图8B示出对应的不对称合成窗口,其此时具有零或低部分作为第一部分810,其然后具有第一重叠部分812、第二重叠部分814及在第一重叠部分812与第二重叠部分814之间指示的恒定或高部分816。
指示对应部分的示例性长度,但通常优选的是第一重叠部分812短于第二重叠部分 814,且此外优选的是恒定或高部分816的长度在第一重叠部分的长度与第二重叠部分的长度之间,且此外优选的是第一部分810或零部分的长度低于第一重叠部分812的长度。
如图8A中所示出,优选的是第一重叠部分800的长度高于第二重叠部分802的长度,且高部分804的长度在第二重叠部分802的长度与第一重叠部分800的长度之间,且第四部分806的长度低于第二重叠部分802的长度。
图8A及图8B此外示出当仅使用长块且图2的窗口控制信号204未指示任何切换时,对此情况的与先前不对称分析窗口807及与后续分析窗口808的重叠。
类似地,图8B示出具有先前合成窗口819及后续合成窗口820的对应合成序列。
此外,图8C示出图8A的相同分析窗口,但此时其具有在编码器侧在折入操作中折叠或在解码器侧在折出中“展开”的折叠部分821、822。此等折叠821、822可被考虑为沿着折叠线823及824发生,且在图8A、图8B中示出这些线,且似乎折叠线并不直接与图 8A及图8B中的窗口的交叉点相符。这是由于图8A中的分析窗口或图8B中的合成窗口的不对称特征。
图9A示出针对10ms块长度具有3.75ms的重叠的对称分析/合成窗口。对称分析窗口包括第一低或零部分900、第一重叠部分902、第二重叠部分904、高或恒定部分906及另一低或零部分908。此外,图9A示出折叠线910、911,在此处执行由诸如MDCT或MDST 的混迭引入变换所需要的折叠操作。特别地,关于编码器侧处理,执行折入操作;且关于解码器侧音频处理,执行折出处理。因此,线912、913示出折叠部分,该折叠部分具有减少部分及与关于左侧的部分900及关于右侧的908相对应的后续零部分。因此,标记915 示出左侧折入部分912及右侧折入部分913之间的边界。
在此环境下,可概述的是,图9A示出真实对称的分析或合成窗口,因为左侧重叠部分及右侧重叠部分是彼此对称的,即具有相同的重叠长度,此实施例中为3.75ms。一般地,优选的是,零部分900、908小于重叠部分902、904,且因此当两个零部分900、908具有相同长度时高部分906具有为单个零部分的长度的两倍的长度。
图9B示出具有对称重叠的窗口,然而,其在左侧及右侧不同。特别地,与图9A类似,此窗口具有零部分920、第一重叠部分922、恒定或高部分924、第二重叠部分926及第二零或低部分928。再次,指示折叠线910及911,且再次,标记915指示左侧折入部分929 与右侧折入部分930之间的边界。如所示出,左侧重叠部分922用于诸如1.25ms的短重叠,且右侧重叠部分926用于诸如3.75ms的较长重叠。因此,此窗口为来自以短重叠窗口至较高重叠窗口的窗口化的过渡窗口,但此两个窗口都是具有对称重叠的窗口。
图9C示出对应于如所指示的10ms的持续时间但具有5ms的块大小的另一窗口。此窗口类似于图9B,但具有实质上不同的时间长度,且图9中的窗口因此具有较短持续时间但再次具有零部分、具有短重叠的左侧重叠部分、高部分、后续第二重叠部分及最后的零部分的序列。此外,在图9C中再次指示折叠线及折入部分等。
通常,图8A至图15B的大多数窗口图示已指示了诸如图9A的910及911的折叠线,且额外具有诸如图9A中的912及913的折叠外部窗口部分。
此外,可概述的是,对应的变换长度与折叠点之间的距离相对应。例如,当考虑图9A 时,变得清楚的是,变换长度与10ms相对应,具有15ms与5ms之间的差。因此,变换长度对应于图9A及其他图中的“块”的记号。然而,另一方面,实际经窗口化的时间部分为图9A的实施例中的诸如20ms的变换或块长度的两倍。
相应地,图9C中的窗口具有5ms的变换长度,其对应于如图9C中所示出的10ms 的窗口时间部分的长度。
在图8A中示出的不对称的情况下,变换长度或块大小再次为诸如823及824的折叠线之间的距离,因此为20ms,且窗口时间部分的长度为40ms。
当不对称窗口的长重叠部分或窗口边缘诸如800或814(对于合成侧)被截短时,完美重构要求维持折叠线或折叠点。
此外,如将关于图4具体概述,本发明使用六个不同取样率,且以如下方式选择窗口边缘或窗口侧翼的长度:长度对应于用于每个取样率的取样值的整数。
此外,可概述的是,对于10ms变换而言,使用3.75ms的重叠或1.25ms的重叠。因此,比图8A至图15B的窗口图示中示出的甚至更多组合是可能的且有用的,并可通过窗口控制信号以信号方式发送,以便确保最佳窗口序列被选择用于在特定部分处具有瞬态部分的某个音频信号。
图10A示出较长第一窗口之后的此过渡窗口或第二窗口。在图10A中,左侧已从不对称分析窗口800的长边缘的原始长度(14.375ms)被截短为8.75ms的长度。因此,图10A 示出通过截短从第一不对称窗口的第一重叠部分800得出的第一重叠部分1000。此外,图 10A的分析过渡窗口还包括1.25ms的右侧重叠部分,即,短的重叠部分1002。窗口用于5 ms的块大小,对应于10ms的窗口长度。在4.375ms(即,1004)以及9.375ms(在1006 处示出)处指示折叠线。此外,示出左侧折叠线1004的折入部分1008及右侧折叠线1006 的折入部分1010。
图10B示出使用渐强的优选实施例的实施。因此,第一重叠部分具有不同的第一部分 1012及未经修改的第二部分1014,其皆对应于图10A的第一重叠部分1000。窗口关于图10A并非不同。优选地,为了计算图10B中在1012处指示的第一重叠部分的第一部分,使用1.25ms的正弦重叠部分,即(例如)图9B中在922处指示的部分。因此,获得极其良好的渐强特征,其中用于短窗口的第一重叠部分922在某种意义上被“重复利用(recycle)”。因此,如在图9B的情况下,此窗口部分并非仅用于窗口化,而且额外地用于分析过渡窗口的实际计算以便减小由截短引起的伪声。尽管仅当使用图10A的实际经截短的第一重叠部分1000时获得完美重构特性,但已发现,仍可通过使用图10B中具有渐强部分的过渡窗口而提升音频质量。尽管违反了完美重构特性,但由于消除了图10A中左侧重叠部分1000 的左手侧处的不连续的事实,此渐强部分相较于图10A的实施例仍引起更好音频质量。尽管如此,若可用且有用,可使用与正弦函数不同的其他渐强或(关于合成侧)渐弱特征。
图10C示出此时处于重叠情形下图10A窗口的表示,指示了先前窗口的右侧重叠部分 1020及在1022处的后续窗口的左侧重叠部分。通常,右侧重叠部分1020为图8A的不对称分析窗口的右侧部分802,且下一个或后续窗口的1022为窗口的第一重叠部分或另一过渡窗口的左侧重叠部分,可视具体情况而定。
图10D示出类似于图10B的情形但再次具有所指示的先前窗口的第二重叠部分1020 及随后窗口的第一重叠部分1022。
图11A示出另一分析过渡窗口,但与其中指示了从20ms块至5ms块的过渡的图10A形成对比,其用于从20ms块至10ms块的过渡。通常,20ms块可被视为长块,5ms块可被视为短块,而10ms块可被视为中间块。第一重叠部分1100已被截短但仅为短量,且由 1150指示截短。然而,为了进一步改良音频质量,已经应用通过与1.25ms的正弦边缘相乘而获得的渐强,且由实线指示渐强。此外,窗口具有高部分1101及第二重叠部分1102,其在此情况下具有3.75ms的长重叠部分。因此,图11A示出从20ms的变换长度至10ms 的变换长度的与图2的“第二窗口”相对应的最佳分析过渡窗口,其中通过不对称窗口的长边缘800的尽可能小的截短获得左侧重叠部分1100,另外,其中通过将经截短的边缘1050 乘以1.25ms正弦边缘执行渐强。如所概述,右侧重叠为3.75ms。
图11B示出用于从20ms变换长度至10ms变换长度(即,通常从长变换长度至短变换长度)的过渡的可选的分析过渡窗口。然而,通过截短不对称窗口的左侧边缘,且通过使用1.25ms正弦边缘的相乘而额外地执行渐强,左侧重叠仅为8.75ms。因此,如在图10A 的情况下,重叠或左侧重叠部分1130此时具有8.75ms。为了应用此窗口,执行其他修改。此类修改为第一低或零部分1131、第二高或恒定部分1132及第三或低部分1133,而第二重叠部分1134与图11A中的对应部分1102类似,但由于第四零或低部分1133而向左移位。此外,指示折叠线1104、1106,以及在折入部分处的标记1135指示左侧折入部分1136与右侧折入部分1137之间的边界。通过执行了大于如图11A中的最小可能值的截短的事实,确定部分1131、1132、1133的长度。示例性地,部分1131可设定为零,且可相应地增加 1132及1133的长度。另一方面,1133的长度可设定为零,且因此可相应地增加1131的长度,或所有部分1131、1132、1133均不等于零,但对应长度不同于图11B的实施例。在所有这些不同的窗口实施中,应确保,经由折叠线1104、1106的折叠是相应可能的,且11B 关于图11A具有如下优点:第一重叠部分1130的计算类似于图10B的左侧部分1014、1012 的计算,从而使实际实施变得容易。然而,当此类问题并不突出时,由于第一重叠部分的更长重叠执行更好的重构特征且甚至更接近完美重构特性规律,则可以使用图11A的窗口。
图12A及图12B示出从较短窗口长度至较长窗口长度的其他分析过渡窗口。对于从5 ms至20ms的过渡,图12A中示出一个如此的分析过渡窗口。左侧重叠部分1200用于(例如)1.25ms的短重叠,且右侧重叠部分用于诸如8.75ms的长重叠,其在1202处示出。图 12B示出从10ms块至20ms块的其他分析过渡窗口。在1210处指示左侧重叠部分,且在 1212处指示右侧重叠部分。左侧重叠部分用于3.75ms的中等重叠,且右侧重叠部分用于 8.75ms的长或高重叠。再次,示出折叠线及折入部分。图12B表明,从10至20ms的分析过渡窗口除重叠部分1210、1212之外还具有左侧低或零部分1214、中等高或恒定部分 1216及右侧低或零部分1218。
图12A的右侧重叠部分1202及图12B中的右侧重叠部分1212对应于图8A中在802处指示的不对称分析窗口的短边缘。
图13A、图13B、图13C及图13D示出合成侧的情形,即,示出关于图2或情况B的第三窗口的构建。此外,图13A中的情形与图12A中的情形类似。图13B中情形与图12B 中的情形类似。图13C中的情形与图10B类似,且图13D中的情形与图10C类似。
特别地,图13A示出从长块至短块的合成过渡窗口,其具有左侧长重叠部分1300及右侧重叠部分1302及对应折叠线及折叠部分,如所指示的。
图13B示出从20ms块至10ms块的合成过渡窗口,其中左侧重叠再次为在1310处指示的长重叠,且右侧重叠为1312,另外按需要提供第一低部分1314、第二高部分1316及第三低部分1318。
图13C示出如在图2(情况B)的环境下示出的第三合成窗口,其中指示了第二重叠部分1330。其已经被截短至8.75的长度,即截短至图8B的不对称合成窗口的右侧或第二重叠部分的长度,即,已截短右侧重叠部分814以获得合成过渡窗口的右侧重叠部分1330,且在图13C的情形下,基本上与已关于图10B的分析侧所论述的类似,已经执行另一渐弱。此示出关于图2(情况B)的第三窗口的第二重叠部分1330的情形,但其仅经截短而非任何渐弱。因此,图13C中的第一部分1331类似于图13D的对应第一部分,但由于将递降 1.25ms正弦边缘与图13D的经截短的窗口相乘的渐弱,第二部分1332是不同的。
此外,图13D示出对应于图2的环境下的“第四窗口”的下一个合成窗口的第一重叠部分1340,且此外,图13D示出先前窗口(即,例如由第二重叠部分1330及对应于1.25ms 的短重叠的第一重叠部分1331组成的第三窗口之前的窗口)的第二重叠部分1342。
尽管未示出,但对应于图11A、图11B的情形的合成窗口(即,经或未经类似于图11A的渐强的具有最小截短的合成窗口,或具有与图13D中相同种类的截短但此时具有第一及第二零或低部分及中间恒定部分的合成窗口)是有用的。
图14A示出其中窗口具有为长、长、短、短、中间、长的块大小的分析窗口序列,且图14B中示出对应合成窗口序列。在1402处指示关于图2的第二窗口,且此窗口对应于图 10B中示出的窗口。相应地,与关于图2的图14B的第三窗口函数1450相对应的匹配合成窗口是未在特定图中示出但对应于图11B的分析函数的合成函数。
此外,图15A中,1502在图11B中被特别地示出,且图15B的第三窗口函数1550对应于图13C的合成窗口函数。
因此,图14A示出从在1406处指示的具有20ms的第一长不对称窗口至第一不对称窗口函数1400的过渡,其中特别地,还示出图8A的零部分806。在图14A中,跟在长不对称窗口1400之后,且随后示出具有经截短的第一重叠部分的第二窗口函数1402。随后窗口1408与图9B中的窗口类似,且随后窗口1410对应于图9C的窗口,最后,窗口1412 再次为图8A的不对称分析窗口。
图14B示出对应于图8B的长合成窗口1454,以及再次对应于图8B的另一不对称合成窗口1456,且然后示出对应于图13A的短过渡窗口1458。随后窗口1460也是对应于图9C的具有5ms块大小的短窗口。
图15A及图15B示出类似窗口序列,具有从长窗口至具有10ms长度的中间窗口的过渡及对应的相反过渡。窗口1504及1500对应于图8A。本发明的经截短的且渐强的窗口 1502跟在被窗口1506、1508及1510以所示出的次序所跟随的窗口之后。窗口1506对应于图9B中的窗口,但其具有至左手侧的长重叠及至右手侧的短重叠。窗口1508对应于图 12A中的窗口,且窗口1510再次为长不对称窗口。
关于图15B中的合成窗口序列,存在窗口1554、1556、1558及1560。1554对应于图8B的合成窗口,且对于窗口1556亦如此。窗口1558是从20至10的过渡,且对应于图13B。窗口1560是从10至5的过渡,且对应于图9B,但再次具有至左手侧的长重叠和至右手侧的重叠。本发明的经截短的且渐弱的窗口1550跟在再次被长不对称合成窗口所跟随的窗口之后。
随后,在图3的环境下论述窗口构建器206的优选实施。特别地,窗口构建器优选地包括存储器300、窗口部分截短器302及渐强渐弱器(fader)304。根据在指示(例如)从第一窗口至第二窗口或从第三窗口至第四窗口的过渡的项310处示出的窗口控制信息,启动窗口部分截短器302。截短器访问存储器以便检索不对称窗口的部分800,或检索第四窗口的第二重叠部分814。通过检索线308从存储器300将部分检索至窗口部分截短器。窗口部分截短器302执行截短至某一长度,诸如所论述的最大截短长度或短于最大长度的长度。经截短的重叠部分或窗口边缘316被随后转递至渐强渐弱器304。渐强渐弱器然后执行渐强或渐弱操作,即(例如)从示出未经渐强的经截短的窗口的图10C中的窗口到达图 10B中的窗口的操作。为此,经由检索线312从短重叠部分的存储器,渐强渐弱器经由访问线314访问存储器。渐强渐弱器304然后(例如)通过使经截短的部分与重叠部分相乘而对来自线316的经截短的窗口部分执行渐强或渐弱操作。输出为输出线318处的经截短的且渐强渐弱的部分。
图4示出存储器300的优选实施,对由窗口构建器进行的窗口构建及窗口的不同形状及可能性进行优化,以具有最小存储器使用。本发明的优选实施例允许使用六个取样率48 kHz、32kHz、25.6kHz、16kHz、12.8kHz或8kHz。对于每个取样率,对窗口系数或窗口部分的集合进行存储。此为20ms不对称窗口的第一部分403、20ms不对称窗口的第二部分404、10ms对称窗口的单个部分402(诸如,3.75ms重叠部分)及5ms对称窗口的单个部分401(诸如,1.25ms重叠部分)。通常,10ms对称窗口的单个部分可为窗口的递升边缘,且然后通过诸如镜像的简单算术或逻辑运算,可计算递降部分。可选地,当递降部分作为单个部分储存于存储器300中时,然后可通过镜像或通常通过算术或逻辑运算计算递升部分。对于5ms对称窗口的单个部分亦如此。当然,所有窗口可在每侧具有诸如3.75 ms的中等重叠部分或具有(例如)1.25ms长度的短重叠部分。
此外,窗口构建器用于根据对应的预定规则独自确定特定窗口的低或零部分以及高或为一的部分的长度及位置,如在图8A至图15B的曲线中所示出的。
因此,出于实施编码器及解码器的目的,仅最小量的存储器需求是有必要的。因此,暂不提编码器及解码器依赖于同一个存储器300的事实,可仅通过针对每个取样率储存窗口系数的四个集合来实施甚至浪费量(waste amount)的不同窗口及过渡窗口等。
使用用于长变换的不对称窗口以及用于短变换的低重叠正弦窗口将上文概述的变换窗口切换实施于音频编码系统中。用于长块的块长度为20ms且用于短块的块长度为10ms 或5ms。不对称分析窗口的左侧重叠具有14.375ms的长度,右侧重叠长度为8.75ms。短窗口使用3.75ms及1.25ms的重叠。对于编码器侧的从20ms至10ms或5ms变换长度的过渡,不对称分析窗口的左侧重叠部分被截短为8.75ms,且用于第一短变换的左侧窗口部分。通过将经截短的窗口的左端与1.25ms递升短窗口重叠相乘来应用1.25ms正弦形的渐强。对于渐强重新使用1.25ms重叠窗口形状避免了对额外ROM/RAM表的需要以及对渐强形状的运行中计算的复杂度。图14A绘示出具有变换长度序列20ms、5ms、5ms、10ms、 20ms的所得窗口序列为例。
在解码器侧,对于从10ms或5ms至20ms变换长度的过渡,不对称合成窗口的右侧重叠部分被截短为8.75ms,且用于上一个短变换的右侧窗口部分。与编码器侧的渐强类似的1.25ms正弦形状渐弱被应用于窗口的经截短端。在图14B中绘示用于以上示例的解码器窗口序列。
图5示出用于确定第二窗口(即,针对图2的情况A的分析过渡窗口)的另一实施例的流程图。在步骤500中,检索不对称窗口的第一及第二部分。在步骤502中,创建不对称第一分析窗口。因此,生成图14B的分析窗口1400或图15A的窗口1500。在步骤504 中,通过(例如)在图3中308处示出的检索线检索不对称窗口的第一部分。在步骤506 中,确定截短长度,且诸如通过图3中的窗口部分截短器302执行截短。在步骤508中,检索5ms对称窗口的单个部分,诸如储存于存储器300中的项401。在步骤510中,(例如) 通过图3中的渐强渐弱器304的操作来计算经截短的部分的渐强。此时,完成第一重叠部分。在步骤512中,5ms对称窗口的单个部分经检索(例如)用于从长窗口至短窗口的过渡,或10ms对称窗口的单个部分经检索用于从长窗口至中间窗口的过渡。最后,通过逻辑或算术运算从在步骤512中检索的数据确定第二部分,其由步骤514指示。然而,请注意,当通过步骤512从图4中的存储器300检索到的对应对称窗口的单个部分可被用作第二部分(即用作递降窗口边缘)时,不需要步骤514。
尽管图5中未明确地示出,但出于其他过渡如在图15A中示出的过渡的目的,需要另外的步骤。在此,必须由窗口构建器额外地插入第一零部分、第二零部分及中间高部分,而此插入可在确定第二窗口的第一及第二重叠部分之前或之后进行。
图6示出用于构建诸如第三窗口的对应合成过渡窗口的过程的优选实施。为此,可执行图6中的步骤的过程。在步骤600中,第三窗口的第一重叠部分从存储器检索出,或若以此形式并非具体可用的,则通过算术或逻辑运算从存储器中的数据计算出,且由于合成窗口的第一重叠部分已通过先前窗口的重叠而被固定,此操作基于先前窗口进行。检索不对称窗口的第二部分(即,不对称合成窗口的长部分)且在步骤604中确定截短长度。在步骤606中,在需要时镜像此第一部分,且然后使用所确定的截短长度来执行截短。在步骤608中,检索对称窗口的5ms重叠部分的单个部分,且在步骤608之后,执行经截短的部分的渐弱,如步骤610中所示出。完成第三窗口的第二重叠部分,且随后检索并应用不对称的第四窗口函数的第二及第四部分,以最终获得第四窗口,如步骤612所指示。
图7示出用于确定截短长度的优选过程。如之前关于图10B及图11B所概述的,可执行不同的截短长度。可存在至最大截短长度的截短,即,图11A中的情形;或至小于最大截短长度的长度的截短,如图11B中针对相同的情形所示出的。为此,图7中的过程以在步骤700处示出的过渡窗口的长度的指示为开始。因此,步骤700提供过渡窗口是否是用于10ms块大小(即,具有20ms长度)或更短块大小(即针对10ms长度、5ms块大小的窗口)的信息。
然后,在步骤702中,确定窗口的对称重叠部分的长度。对于分析侧,即确定第二重叠部分的长度,而对于合成侧,即确定第一重叠部分的长度。步骤702确保,过渡窗口的“固定”情形被确认,即,过渡窗口具有对称重叠。此时,在步骤704中,确定窗口的第二边缘或窗口的其他重叠部分。基本上,最大截短长度为过渡窗口的长度与对称重叠部分的长度之间的差。当此长度大于不对称窗口的长边缘的长度时,则根本没必要截短。然而,当此差小于不对称窗口的长边缘时,则执行截短。最大截短长度(即,借以获得最小截短的长度)等于此差。在必要时,可执行至此最大长度的截短(即,最小截短),且可应用某个渐强渐弱,如图11A或图10B中所示出。如图11A中所示出,由于这些折叠线在某些实施例中不应被改变的事实,需要一定数量的一以便确保沿着折叠线1104、1106的折叠是可能的。因此,如图11A中1101处所指示的一定数量的一对于20至10ms分析过渡窗口是有必要的,但这些一对于图10B的20至5ms过渡窗口是没有必要的。
然而,可忽略步骤704,如708所示出。然后在步骤710中执行至小于最大长度的长度的截短,从而导致图11B的情形。剩余窗口部分必须填充以零和一,且特别地,在步骤712中必须通过在部分1131及1133处指示的窗口的开头及末端处插入零来解决。此外,必须执行相应数量的一的插入以获得高部分1132,如714处所指示,以便确保围绕折叠点1104 及1106的折入恰当地操作,如图11B中所示出。
因此,部分1131的零的数目等于紧接近于第一重叠部分1130的零的数目,图11B的部分1133中的零的数目对应于紧邻于图11B的第二重叠部分1134的零的数目。然后,折叠线1104及1106周围的具有标记1135的折入恰当地起作用。
虽然已经以40ms的窗口长度以及20ms的变换长度作为长窗口、用于中间窗口的10ms块大小及用于短窗口的5ms块大小描述了优选实施例,但应强调的是,可应用不同块或窗口大小。此外,应强调的是,本发明对于仅两个不同块大小也是有用的,但优选三个不同块大小,以便具有关于瞬态的短窗口函数的极良好替换,如(例如)在额外论述多重叠部分(即,在图15A及图15B或图14A及图14B中的序列中发生的多于两个窗口之间的重叠)的PCT/EP2014/053287中详细论述。
虽然在块代表实际的或逻辑的硬件组件的框图的上下文中已经描述了本发明,也可通过计算机实施方法来实施本发明。在后面的情况中,块代表对应的方法步骤,其中这些步骤代表由对应的逻辑或物理硬件块执行的功能。
虽然在装置的上下文中描述了一些方面,显然,这些方面也代表对应方法的描述,其中块或装置对应方法步骤或方法步骤的特征。类似地,在方法步骤的上下文中描述的方面也代表对应装置的对应块或项或特征的描述。通过(或使用)硬件装置例如微处理器、可编程计算机或电子电路可执行方法步骤的一些或全部。在一些实施例中,通过如此装置可执行一些或多个最重要的方法步骤。
所发明的经传输的或经编码的信号可存储于数字存储介质上或可在诸如无线传输介质或有线传输介质如因特网上被传输。
根据某些实施需求,可在硬件或在软件中实施本发明的实施例。可使用在其上存储有电子可读控制信号的数字存储介质(如软盘、DVD、蓝光光碟、CD、ROM、PROM及EPROM、EEPROM或闪存)执行实施,电子可读控制信号与(或能够与)可编程计算机系统协作从而执行各个方法。因此,数字储存介质可以是计算机可读的。
根据本发明的一些实施例包括具有电子可读控制信号的数据载体,电子可读控制信号能够与可编程计算机系统协作,以执行本文中描述的方法中的一个。
通常,本发明的实施例可实施为具有程序代码的计算机程序产品,当计算机程序产品在计算机上运行时,可操作的程序代码用于执行方法中的一个。程序代码可(例如)存储于计算机可读载体上。
其他实施例包括储存于机器可读载体上的计算机程序,其用于执行本文所述方法中的一个。
换言之,本发明的方法的实施例(因此)是具有程序代码的计算机程序,当该计算机程序在计算机上运行时程序代码用于执行本文描述的方法中的一个。
因此,本发明的方法的另一实施例是一种数据载体(或如数字存储介质,或计算机可读介质的非易失性存储介质),其包括记录在其上的用于执行本文描述的方法的一个的计算机程序。数据载体、数字存储介质或记录介质通常是有形的和/或非易失的。
因此,本发明的方法的另一实施例是一种表示用于执行本文所述方法的一个的计算机程序的数据流或信号序列。数据流或信号序列可(例如)用于通过数据通信连接(例如,通过因特网)被传输。
另一实施例包括一种处理构件,例如,计算机或可编程逻辑设备,其用于或适用于执行本文所述方法的一个。
另一实施例包括计算机,其上安装有用于执行本文所述方法中的一个的计算机程序。
根据本发明的另一实施例包括一种装置或系统,其用于将用于执行本文所述方法的一个的计算机程序传输(例如,电子地或光学地)至接收器。接收器可例如是计算机、移动设备、存储设备或类似。此装置或系统可(例如)包括用于将计算机程序传输至接收器的文件服务器。
在一些实施例中,使用一种可编程逻辑设备(例如,现场可编程门阵列)用于执行本文所述方法的功能中的一些或全部。在一些实施例中,现场可编程门阵列可与微处理器协作,以便执行本文所述方法中的一个。通常,可通过任何硬件装置优选地执行此方法。
上面描述的实施例仅示出本发明的原理。应理解的是,本文所描述的布置及细节的修改及变形对本领域技术人员是显而易见的。因此,意图在于,仅通过权利要求的范围而不通过本文实施例的描述及说明书的方式呈现的特定细节限制本发明。
参考文献
[1]International Organization for Standardization,ISO/IEC 14496-3,"Information Technology-Coding of audio-visual objects-Part 3:Audio,"Geneva,Switzerland,Aug.2009.
[2]Internet Engineering Task Force(IETF),RFC 6716,"Definition of theOpus Audio Codec,"Sep.2012.
[3]C.R.Helmrich,G.Markovic and B.Edler,"Improved Low-Delay MDCT-BasedCoding of Both Stationary and Transient Audio Signals,"in Proceedings of theIEEE 2014 Int. Conference on Acoustics,Speech and Signal Processing(ICASSP),2014 or PCT/EP2014/053287.

Claims (18)

1.一种用于处理音频信号(200)的处理器,包括:
分析器(202),用于从所述音频信号(200)得出窗口控制信号(204),
所述窗口控制信号(204)指示从包括第一重叠部分(800)和第二重叠部分(802)的第一不对称窗口(1400)至包括第一重叠部分(1000)的第二窗口(1402)的改变,所述第一不对称窗口(1400)的第二重叠部分(802)与所述第二窗口(1402)的第一重叠部分(1000)重叠,或者
所述窗口控制信号(204)指示从包括第二重叠部分(1330)的第三窗口(1450)至包括第一重叠部分(812)和第二重叠部分(814)的第四不对称窗口(1452)的改变,所述第三窗口(1450)的第二重叠部分(1330)与所述第四不对称窗口(1452)的第一重叠部分(812)重叠,
其中所述第二窗口(1402)短于所述第一不对称窗口(1400),或者其中所述第三窗口(1450)短于所述第四不对称窗口(1452);
窗口构建器(206),
用于使用所述第一不对称窗口(1400)的第一重叠部分(800)构建所述第二窗口(1402),其中所述窗口构建器(206)用于使用经截短的所述第一不对称窗口(1400)的第一重叠部分确定所述第二窗口(1402)的第一重叠部分(1000),或者
用于使用所述第四不对称窗口(1452)的第二重叠部分(1330)来构建所述第三窗口(1450),其中所述窗口构建器用于使用经截短的所述第四不对称窗口(1452)的第二重叠部分(814)计算所述第三窗口(1450)的第二重叠部分(1330);以及
窗口化器(208),用于应用所述第一不对称窗口和所述第二窗口、或者所述第三窗口和所述第四不对称窗口,以获得经窗口化的音频信号部分(210)。
2.根据权利要求1所述的处理器,
其中所述第一不对称窗口和所述第二窗口为分析窗口,或者所述第三窗口和所述第四不对称窗口为合成窗口,
其中所述处理器进一步包括用于进一步处理被所述第一不对称窗口和所述第二窗口窗口化的样本的音频编码处理器(110),或者其中所述处理器进一步包括用于对被所述第三窗口和所述第四不对称窗口窗口化的样本进行重叠相加的重叠相加器(174)。
3.根据权利要求1所述的处理器,
其中所述窗口构建器(206)用于通过截短所述第一不对称窗口的第一重叠部分且通过使经截短的部分渐强,来得出所述第二窗口的第一重叠部分(1000),或者
其中所述窗口构建器(206)用于通过截短所述第四不对称窗口的第二重叠部分且通过使经截短的部分渐弱,来得出所述第三窗口的第二重叠部分。
4.根据权利要求3所述的处理器,
其中所述窗口构建器(206)用于使用正弦渐强函数或正弦渐弱函数执行所述渐强或所述渐弱。
5.根据权利要求3所述的处理器,
其中所述窗口构建器(206)用于使用由所述处理器使用的任何其他窗口的重叠部分计算所述渐强或所述渐弱。
6.根据权利要求5所述的处理器,
其中所述窗口构建器(206)用于使用所使用的所有重叠部分中的最短重叠部分(401)计算所述渐强或所述渐弱。
7.根据权利要求1所述的处理器,还包括存储器(300),所述存储器(300)对于确定的取样率具有储存于其上的所述第一不对称窗口的第一重叠部分(800)、所述第一不对称窗口的第二重叠部分(802)、以及用于比所述第一不对称窗口短的另一窗口的第三重叠部分,
其中所述窗口构建器(206)用于
从所述存储器(300)检索所述第一不对称窗口的第一重叠部分,
用于将所述第一不对称窗口的第一重叠部分截短至比所述第一不对称窗口的第一重叠部分的长度短的长度,
用于检索所述第三重叠部分,以及
用于将经截短的所述第一不对称窗口的第一重叠部分与所述第三重叠部分相乘,以生成所述第二窗口的第一重叠部分;或者
其中所述窗口构建器(206)用于:
从所述存储器(300)检索所述第四不对称窗口的第二重叠部分,
将检索到的所述第四不对称窗口的第二重叠部分截短至比所述第四不对称窗口的第二重叠部分的长度短的长度,
检索所述第三重叠部分;以及
将经截短的所述第四不对称窗口的第二重叠部分与所述第三重叠部分相乘,以生成所述第三窗口的第二重叠部分。
8.根据权利要求7所述的处理器,
其中所述存储器(300)还储存有又一窗口的第四重叠部分(402),所述又一窗口具有在所述第一不对称窗口的长度与所述另一窗口的长度之间的长度。
9.根据权利要求8所述的处理器,
其中所述窗口构建器(206)用于根据所述窗口控制信号(204)构建包括所述第一不对称窗口(1400)、所述第二窗口(1402)、使用所述第三重叠部分和所述第四重叠部分或者仅使用所述第三重叠部分构建的额外窗口、以及使用所述第三重叠部分和所述第一不对称窗口的第二重叠部分的另一额外窗口(1410)的序列。
10.根据权利要求1所述的处理器,
其中所述窗口构建器(206)用于使用被截短至所述第一不对称窗口的第二重叠部分的长度的经截短的所述第一不对称窗口(1400)的第一重叠部分,来确定所述第二窗口(1402)的第一重叠部分,或者
用于使用被截短至所述第四不对称窗口的第一重叠部分的长度的所述第四不对称窗口的第二重叠部分,来确定所述第三窗口的第二重叠部分。
11.根据权利要求1所述的处理器,
其中所述窗口构建器(206)用于使用与在所述第二窗口之后的另一窗口的第一重叠部分(1022)相对应的所述第二窗口(1402)的第一重叠部分以及所述第二窗口(1402)的第二重叠部分(1002),来确定所述第二窗口,或者
其中所述窗口构建器(206)用于通过使用与在所述第三窗口(1450)之前的另一窗口的第二重叠部分(1342)相对应的所述第三窗口的第一重叠部分(1331),来构建所述第三窗口。
12.根据权利要求1所述的处理器,
其中所述窗口构建器(206)用于将所述第一不对称窗口的第一重叠部分或者所述第四不对称窗口的第二重叠部分截短至短于或等于所述第二窗口或第三窗口的窗口长度的截短长度,所述窗口长度小于在所述第二窗口之后的另一窗口的第一重叠部分的长度、或者在所述第三窗口之前的另一窗口的第二重叠部分的长度(706,710)。
13.根据权利要求12所述的处理器,
其中当所述截短长度小于比所述另一窗口的第一重叠部分或所述窗口的第二重叠部分的长度小的窗口长度时,所述窗口构建器(206)用于在所述第二窗口或第三窗口的第一重叠部分和第二重叠部分之前或之后插入(712)零(1131,1133),且其中所述窗口构建器还用于在所述第二窗口或第三窗口的第一重叠部分与第二重叠部分之间插入多个“1”值(714;1132)。
14.根据权利要求1所述的处理器,
其中所述第一不对称窗口具有第一重叠部分、第二重叠部分、在所述第一重叠部分与所述第二重叠部分之间的第一高值部分、以及在所述第二重叠部分之后的第二低值部分,其中所述高值部分中的值大于0.9,且所述低值部分中的值低于0.1,且
其中所述第一不对称窗口的第二重叠部分的长度低于所述第一不对称窗口的第一重叠部分的长度。
15.根据权利要求1所述的处理器,所述处理器用于在多个不同取样率下操作,且
其中所述处理器用于针对每个取样率储存所述第一窗口或所述第四窗口的第一重叠部分和第二重叠部分(403,404)、另一窗口的对称重叠部分(402)、以及短于所述另一窗口的又一窗口的另一对称重叠部分(401);且
其中所述对称重叠部分和所述另一对称重叠部分仅作为递升部分或递降部分被储存,且其中所述窗口构建器(206)用于通过算术或逻辑运算从所储存的递升部分或递降部分得出递降部分或递升部分。
16.根据权利要求1所述的处理器,
其中所述第一不对称窗口用于20ms的变换长度,
其中所述窗口构建器用于进一步使用用于10ms或5ms的变换长度的其他窗口,且
其中所述第二窗口为从20ms的变换长度至10ms或5ms的变换长度的过渡窗口,或者
其中所述第四不对称窗口用于20ms的变换长度,且其中所述第三窗口为从5ms的变换长度至20ms的变换长度或者从10ms的变换长度至20ms的变换长度的过渡窗口。
17.一种处理音频信号(200)的方法,包括:
从所述音频信号(200)得出窗口控制信号(204),
所述窗口控制信号(204)指示从包括第一重叠部分(800)和第二重叠部分(802)的第一不对称窗口(1400)至包括第一重叠部分(1000)的第二窗口(1402)的改变,所述第一不对称窗口(1400)的第二重叠部分(802)与所述第二窗口(1402)的第一重叠部分(1000)重叠,或者
所述窗口控制信号(204)指示从包括第二重叠部分(1330)第三窗口(1450)至包括第一重叠部分(812)和第二重叠部分(814)的第四不对称窗口(1452)的改变,所述第三窗口(1450)的第二重叠部分(1330)与所述第四不对称窗口(1452)的第一重叠部分(812)重叠,
其中所述第二窗口(1402)短于所述第一不对称窗口(1400),或者其中所述第三窗口(1450)短于所述第四不对称窗口(1452);
使用所述第一不对称窗口(1400)的第一重叠部分(800)构建(206)所述第二窗口(1402),其中所述构建(206)包括使用经截短的所述第一不对称窗口(1400)的第一重叠部分确定所述第二窗口(1402)的第一重叠部分(1000),或者
使用所述第四不对称窗口(1452)的第二重叠部分(1330)构建(206)所述第三窗口(1450),其中所述构建(206)包括使用经截短的所述第四不对称窗口(1452)的第二重叠部分(814)计算所述第三窗口(1450)的第二重叠部分(1330);以及
应用(208)所述第一不对称窗口(1400)和所述第二窗口(1402)、或者所述第三窗口(1450)和所述第四不对称窗口(1452),以获得经窗口化的音频信号部分(210)。
18.一种其上存储有计算机程序的存储介质,所述计算机程序用于当其在计算机或处理器上运行时执行根据权利要求17所述的方法。
CN201580052557.2A 2014-07-28 2015-07-24 用于使用截短分析或合成窗口重叠部分对音频信号进行处理的处理器、方法及计算机程序 Active CN107077854B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110621690.2A CN113990333A (zh) 2014-07-28 2015-07-24 用于使用截短分析或合成窗口重叠部分对音频信号进行处理的处理器、方法及计算机程序

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP14178774.7 2014-07-28
EP14178774.7A EP2980791A1 (en) 2014-07-28 2014-07-28 Processor, method and computer program for processing an audio signal using truncated analysis or synthesis window overlap portions
PCT/EP2015/066997 WO2016016120A1 (en) 2014-07-28 2015-07-24 Processor, method and computer program for processing an audio signal using truncated analysis or synthesis window overlap portions

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202110621690.2A Division CN113990333A (zh) 2014-07-28 2015-07-24 用于使用截短分析或合成窗口重叠部分对音频信号进行处理的处理器、方法及计算机程序

Publications (2)

Publication Number Publication Date
CN107077854A CN107077854A (zh) 2017-08-18
CN107077854B true CN107077854B (zh) 2021-06-22

Family

ID=51224864

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202110621690.2A Pending CN113990333A (zh) 2014-07-28 2015-07-24 用于使用截短分析或合成窗口重叠部分对音频信号进行处理的处理器、方法及计算机程序
CN201580052557.2A Active CN107077854B (zh) 2014-07-28 2015-07-24 用于使用截短分析或合成窗口重叠部分对音频信号进行处理的处理器、方法及计算机程序

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202110621690.2A Pending CN113990333A (zh) 2014-07-28 2015-07-24 用于使用截短分析或合成窗口重叠部分对音频信号进行处理的处理器、方法及计算机程序

Country Status (18)

Country Link
US (3) US10262666B2 (zh)
EP (4) EP2980791A1 (zh)
JP (3) JP6612846B2 (zh)
KR (1) KR102006897B1 (zh)
CN (2) CN113990333A (zh)
AR (1) AR102037A1 (zh)
AU (1) AU2015295602B2 (zh)
CA (1) CA2956010C (zh)
ES (2) ES2751275T3 (zh)
FI (1) FI3584792T3 (zh)
MX (1) MX369755B (zh)
MY (1) MY192272A (zh)
PL (2) PL3175448T3 (zh)
PT (2) PT3584792T (zh)
RU (1) RU2677385C2 (zh)
SG (1) SG11201700694PA (zh)
TW (1) TWI581252B (zh)
WO (1) WO2016016120A1 (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2980791A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Processor, method and computer program for processing an audio signal using truncated analysis or synthesis window overlap portions
US9959877B2 (en) 2016-03-18 2018-05-01 Qualcomm Incorporated Multi channel coding
JP6976277B2 (ja) * 2016-06-22 2021-12-08 ドルビー・インターナショナル・アーベー 第一の周波数領域から第二の周波数領域にデジタル・オーディオ信号を変換するためのオーディオ・デコーダおよび方法
US10249307B2 (en) * 2016-06-27 2019-04-02 Qualcomm Incorporated Audio decoding using intermediate sampling rate
EP3483879A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
CN108847258B (zh) * 2018-06-10 2021-06-04 北京酷我科技有限公司 一种截取音频控件的实现方法
CN111402917B (zh) * 2020-03-13 2023-08-04 北京小米松果电子有限公司 音频信号处理方法及装置、存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5394473A (en) * 1990-04-12 1995-02-28 Dolby Laboratories Licensing Corporation Adaptive-block-length, adaptive-transforn, and adaptive-window transform coder, decoder, and encoder/decoder for high-quality audio
CN102007537A (zh) * 2008-07-11 2011-04-06 弗劳恩霍弗实用研究促进协会 时间扭曲轮廓计算器、音讯信号编码器、编码音讯信号表现形态、方法及计算机程序
CN102201238A (zh) * 2010-03-24 2011-09-28 汤姆森特许公司 用于编码和解码激励模式的方法和装置
CN103282958A (zh) * 2010-10-15 2013-09-04 华为技术有限公司 信号分析器、信号分析方法、信号合成器、信号合成方法、加窗工具、变换器和反向变换器
CN103814406A (zh) * 2011-07-12 2014-05-21 奥林奇公司 用于变换编码或解码的分析或合成加权窗口的自适应
CN104217714A (zh) * 2013-06-04 2014-12-17 索尼电脑娱乐美国公司 使用音频信号的固定分区大小卷积的声音合成

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5297236A (en) * 1989-01-27 1994-03-22 Dolby Laboratories Licensing Corporation Low computational-complexity digital filter bank for encoder, decoder, and encoder/decoder
JP3518737B2 (ja) * 1999-10-25 2004-04-12 日本ビクター株式会社 オーディオ符号化装置、オーディオ符号化方法、及びオーディオ符号化信号記録媒体
JP2002118517A (ja) * 2000-07-31 2002-04-19 Sony Corp 直交変換装置及び方法、逆直交変換装置及び方法、変換符号化装置及び方法、並びに復号装置及び方法
CN101035527A (zh) * 2004-09-13 2007-09-12 伊利舍医药品公司 治疗疾病的方法
US8744862B2 (en) * 2006-08-18 2014-06-03 Digital Rise Technology Co., Ltd. Window selection based on transient detection and location to provide variable time resolution in processing frame-based data
US7987089B2 (en) * 2006-07-31 2011-07-26 Qualcomm Incorporated Systems and methods for modifying a zero pad region of a windowed frame of an audio signal
US8036903B2 (en) * 2006-10-18 2011-10-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Analysis filterbank, synthesis filterbank, encoder, de-coder, mixer and conferencing system
EP2345030A2 (en) * 2008-10-08 2011-07-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-resolution switched audio encoding/decoding scheme
US9384748B2 (en) * 2008-11-26 2016-07-05 Electronics And Telecommunications Research Institute Unified Speech/Audio Codec (USAC) processing windows sequence based mode switching
EP2382625B1 (en) 2009-01-28 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, encoded audio information, methods for encoding and decoding an audio signal and computer program
EP4358082A1 (en) * 2009-10-20 2024-04-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal encoder, audio signal decoder, method for encoding or decoding an audio signal using an aliasing-cancellation
JP5345737B2 (ja) * 2009-10-21 2013-11-20 ドルビー インターナショナル アーベー 結合されたトランスポーザーフィルターバンクにおけるオーバーサンプリング
EP2375409A1 (en) * 2010-04-09 2011-10-12 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction
JP6434411B2 (ja) 2012-09-24 2018-12-05 サムスン エレクトロニクス カンパニー リミテッド フレームエラー隠匿方法及びその装置、並びにオーディオ復号化方法及びその装置
EP2720222A1 (en) * 2012-10-10 2014-04-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for efficient synthesis of sinusoids and sweeps by employing spectral patterns
US9305559B2 (en) 2012-10-15 2016-04-05 Digimarc Corporation Audio watermark encoding with reversing polarity and pairwise embedding
CN110232929B (zh) * 2013-02-20 2023-06-13 弗劳恩霍夫应用研究促进协会 用于对音频信号进行译码的译码器和方法
FR3004876A1 (fr) 2013-04-18 2014-10-24 France Telecom Correction de perte de trame par injection de bruit pondere.
EP2980791A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Processor, method and computer program for processing an audio signal using truncated analysis or synthesis window overlap portions

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5394473A (en) * 1990-04-12 1995-02-28 Dolby Laboratories Licensing Corporation Adaptive-block-length, adaptive-transforn, and adaptive-window transform coder, decoder, and encoder/decoder for high-quality audio
CN102007537A (zh) * 2008-07-11 2011-04-06 弗劳恩霍弗实用研究促进协会 时间扭曲轮廓计算器、音讯信号编码器、编码音讯信号表现形态、方法及计算机程序
CN102201238A (zh) * 2010-03-24 2011-09-28 汤姆森特许公司 用于编码和解码激励模式的方法和装置
CN103282958A (zh) * 2010-10-15 2013-09-04 华为技术有限公司 信号分析器、信号分析方法、信号合成器、信号合成方法、加窗工具、变换器和反向变换器
CN103814406A (zh) * 2011-07-12 2014-05-21 奥林奇公司 用于变换编码或解码的分析或合成加权窗口的自适应
CN104217714A (zh) * 2013-06-04 2014-12-17 索尼电脑娱乐美国公司 使用音频信号的固定分区大小卷积的声音合成

Also Published As

Publication number Publication date
MX369755B (es) 2019-11-20
ES2940783T3 (es) 2023-05-11
EP3175448B1 (en) 2019-09-04
US20190198030A1 (en) 2019-06-27
US10262666B2 (en) 2019-04-16
US20210134308A1 (en) 2021-05-06
AU2015295602A1 (en) 2017-03-16
FI3584792T3 (fi) 2023-04-04
US10902861B2 (en) 2021-01-26
JP2017526005A (ja) 2017-09-07
CN107077854A (zh) 2017-08-18
EP3584792A1 (en) 2019-12-25
TW201618082A (zh) 2016-05-16
US20170140768A1 (en) 2017-05-18
AR102037A1 (es) 2017-02-01
KR20170033883A (ko) 2017-03-27
EP2980791A1 (en) 2016-02-03
PT3584792T (pt) 2023-04-17
JP6612846B2 (ja) 2019-11-27
SG11201700694PA (en) 2017-02-27
PT3175448T (pt) 2019-12-09
EP3584792B1 (en) 2023-01-11
PL3175448T3 (pl) 2020-03-31
JP7043113B2 (ja) 2022-03-29
JP2020046671A (ja) 2020-03-26
CA2956010C (en) 2020-03-24
EP3175448A1 (en) 2017-06-07
CA2956010A1 (en) 2016-02-04
US11664036B2 (en) 2023-05-30
JP7420848B2 (ja) 2024-01-23
WO2016016120A1 (en) 2016-02-04
MX2017001239A (es) 2017-07-07
PL3584792T3 (pl) 2023-05-08
RU2017106179A (ru) 2018-08-28
BR112017001630A2 (pt) 2017-11-21
RU2677385C2 (ru) 2019-01-16
RU2017106179A3 (zh) 2018-08-28
CN113990333A (zh) 2022-01-28
MY192272A (en) 2022-08-15
ES2751275T3 (es) 2020-03-31
TWI581252B (zh) 2017-05-01
KR102006897B1 (ko) 2019-08-02
EP4191582A1 (en) 2023-06-07
JP2022091803A (ja) 2022-06-21
AU2015295602B2 (en) 2018-08-16

Similar Documents

Publication Publication Date Title
CN107077854B (zh) 用于使用截短分析或合成窗口重叠部分对音频信号进行处理的处理器、方法及计算机程序
TWI453731B (zh) 音訊編碼器與解碼器、用於編碼已取樣音訊信號之訊框及用於解碼已編碼訊框之方法、及電腦程式產品
CN110097889B (zh) 生成经编码的信号或对经编码的信号解码的设备及方法
TWI459379B (zh) 用以把音訊樣本編碼和解碼之音訊編碼器與解碼器
RU2643662C2 (ru) Устройство и способ для обработки звукового сигнала с использованием комбинирования в диапазоне перекрытия
BR112017001630B1 (pt) Processador e método para processamento de um sinal de áudio utilizando análise truncada ou partes de sobreposição da janela de síntese
EP3002751A1 (en) Audio encoder and decoder for encoding and decoding audio samples

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant