CN102334160A - 音频编码器,音频解码器,编码音频信息,编码和解码音频信号的方法及计算机程序 - Google Patents

音频编码器,音频解码器,编码音频信息,编码和解码音频信号的方法及计算机程序 Download PDF

Info

Publication number
CN102334160A
CN102334160A CN2010800096875A CN201080009687A CN102334160A CN 102334160 A CN102334160 A CN 102334160A CN 2010800096875 A CN2010800096875 A CN 2010800096875A CN 201080009687 A CN201080009687 A CN 201080009687A CN 102334160 A CN102334160 A CN 102334160A
Authority
CN
China
Prior art keywords
window
information
audio
length
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010800096875A
Other languages
English (en)
Other versions
CN102334160B (zh
Inventor
拉尔夫·盖格尔
热雷米·勒康特
马库斯·马特拉斯
马克斯·诺伊恩多夫
克里斯汀·斯毕茨恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of CN102334160A publication Critical patent/CN102334160A/zh
Application granted granted Critical
Publication of CN102334160B publication Critical patent/CN102334160B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

一种基于编码音频信息提供解码音频信息的音频解码器,包括基于窗口的信号变换器,被配置成将编码音频信息描述的时频表示映射至时域表示。该基于窗口的信号变换器被配置成基于窗口信息从包括具有不同过渡斜率的窗口与具有不同变换长度的窗口在内的多个窗口中选择窗口。音频解码器包括窗口选择器,被配置成评估可变码字长度窗口信息,以选择用于处理与音频信息的给定帧相关联的时频表示的给定部分的窗口。

Description

音频编码器,音频解码器,编码音频信息,编码和解码音频信号的方法及计算机程序
技术领域
依据本发明的实施例涉及一种基于输入音频信息来提供编码音频信息的音频编码器、以及一种基于编码音频信息提供解码音频信息的音频解码器。依据本发明的其他实施例涉及一种编码音频信息。依据本发明其他实施例涉及一种基于编码音频信息提供解码音频信息的方法、以及一种用于基于输入音频信息提供编码音频信息的方法。其他实施例涉及用于执行本发明方法的计算机程序。
本发明的实施例涉及对联合语音/音频编码(USAC)比特流语法的建议更新。
背景技术
在下文中,本发明的某些背景将被解释以帮助理解本发明及其优势。在过去的十年中,已在建立数字存储及分发音频内容的可能性上投入巨大的努力。此方式的一个重要成就是国际标准ISO/IEC 14496-3的定义。此标准的第3部分涉及音频内容的编码及解码,第3部分的第4子部分涉及一般音频编码。ISO/IEC 14496第3部分、第4子部分定义一般音频内容的编码及解码的概念。另外,进一步的改进被提出以改进品质及/或减少所需比特率。
然而,依据该标准描述的概念,时域音频信号被转换成时频表示。该从时域到时频域的变换典型地使用变换块执行,变换块也称为时域采样的“帧”。已发现使用被移位例如半个帧的交叠帧是有利的,因为交叠允许有效地避免(或至少减少)伪像。另外,已发现应执行窗口化以避免源自对时间上有限的帧的处理的伪像。并且,窗口化允许对后续时间上移位但交叠的帧的交叠和相加过程的优化。
然而,已经发现使用均一长度的窗口来有效地表现边缘(即音频内容中的急剧转变或所谓的瞬变)是有问题的,因为转变的能量将展开在窗口的整个期间上,这导致可听到的伪像。因此,提议在不同长度的窗口之间切换,使得音频内容的近似稳定的部分使用长窗口被编码,且使得音频内容的过渡部分(例如包括瞬变的部分)使用较短窗口被编码。
然而,在允许在不同的窗口之间进行选择以将音频内容从时域变换成时频域的系统中,当然需要向解码器发信号通知哪个窗口应被用于解码给定帧的编码音频内容。
在常规系统中,例如在依据国际标准ISO/IEC 14496-3,第3部分、第4子部分的音频解码器中,将指示用于当前帧中的窗口序列的称为“window_sequence”的数据元素以两个比特写入所谓的“ics_info”比特流元素中的比特流中。通过考虑先前帧的窗口序列,可以信号通知八个不同的窗口序列。
鉴于以上讨论,可见由于需要信号通知所使用的窗口类型,产生表示音频信息的编码比特流的比特负载。
鉴于此情况,希望创建一种构思,其允许比特率更有效地来信号通知用于音频内容的时域表示与该音频内容的时频域表示之间变换的窗口类型。
发明内容
上述问题通过依据权利要求1的音频编码器、依据权利要求9的音频解码器、依据权利要求12的编码音频信息、依据权利要求14的提供解码音频信息的方法、依据权利要求15的提供编码音频信息的方法、及依据权利要求16的计算机程序来解决。
依据本发明的实施例建立一种基于编码音频信息提供解码音频信息的音频解码器。该音频解码器包括基于窗口的信号变换器,被配置成将由编码音频信息描述的时频表示映射至音频内容的时域表示。该基于窗口的信号变换器被配置成基于窗口信息,从包括不同过渡斜率的窗口及不同变换长度的窗口的多个窗口中选择窗口。该音频解码器包括窗口选择器,其被配置成评估可变码字长度窗口信息,以选择用于处理与音频信息的给定帧相关联的时频表示的给定部分(例如,帧)的窗口。
本发明的该实施例根据以下发现:可以通过使用可变码字长度窗口信息,来减小存储或发送指示哪一类型的窗口应被用于将音频内容的时频域表示变换成时域表示的信息所要求的比特率。已发现可变码字长度窗口信息是非常适合的,因为选择适当窗口需要的信息非常适合可变码字长度表示。
例如,通过使用可变码字长度窗口信息,因为短变换长度典型地不被用于具有一或两个长过渡斜率的窗口,所以过渡斜率的选择与变换长度的选择之间的相依性可被利用。因此,冗余信息的传送可使用可变码字长度信息来避免,以提高编码音频信息的比特率效率。
再如,应注意在相邻帧的窗口形状之间典型地存在相关性,在另一相邻窗口(相邻于当前考虑的窗口)的窗口类型限制了当前帧的窗口类型选择的情况下,这种相关性也可被利用以选择性地减少窗口信息的码字长度。
综上所述,可变码字长度窗口信息的使用允许在不显著增加音频解码器的复杂性且不改变音频解码器的输出波形的情况下节省比特率(当与恒定码字长度窗口信息相比较时)。并且,编码音频信息的语法甚至可在一些情况中被简化,稍后将进一步详细讨论。
在优选实施例中,音频解码器包括比特流解析器,被配置为解析表示编码音频信息的比特流,且从比特流提取1比特窗口斜率长度信息,且依据该1比特斜率长度信息的值从比特流选择性地提取1比特变换长度信息。在此情况中,窗口选择器较佳地被配置成依据窗口斜率长度信息,选择性地使用或忽略变换长度信息,以选择用于处理时频表示的给定部分的窗口。
通过使用上述构思,可以获得窗口斜率长度信息与变换长度信息之间的分离,在一些情况中有助于简化映射。并且,窗口信息被分裂成强制窗口斜率长度比特、以及变换长度比特,变换长度比特的存在取决于窗口斜率长度比特的状态,这允许极有效的比特率降低,这可在保持比特流的语法足够简单的同时获得。因此,比特流解析器的复杂度维持足够地低。
在较佳实施例中,该窗口选择器被配置成依据被选择用于处理时频信息的先前部分(例如,先前音频帧)的窗口类型,选择用于处理该时频信息的当前部分(例如,当前音频帧)的窗口类型,使得用于处理时频信息的当前部分的窗口的左侧窗口斜率长度与选择用于处理时频信息的先前部分的窗口的右侧窗口斜率长度相匹配。通过利用此信息,选择处理时频信息的当前部分的窗口类型所需要的比特率特别小,因为用于选择窗口类型的信息以特别低的复杂性被编码。特别地,不需要“浪费”比特来编码与时频信息的当前部分相关联的窗口的左侧窗口斜率长度。因此,通过使用与用于处理时频信息的先前部分的右侧窗口斜率长度的信息有关的信息,可以使用两个比特(例如,强制的窗口斜率长度比特及可选择的变换长度比特)从多于四个的多个可选择窗口中选择适当窗口。因此,不必要的冗余被避免,且编码比特流的比特率效率得到提高。
在较佳实施例中,若用于处理时频信息的先前部分的窗口的右侧窗口斜率长度采取“长”值(当与指示相对较短的窗口斜率长度的“短”值相比时,指示相对较长的窗口斜率长度),且若时频信息的先前部分、时频信息的当前部分及时频信息的后续部分全部以频域核心模式编码,窗口选择器被配置成依据1比特窗口斜率长度信息的值,在第一类型窗口与第二类型窗口之间进行选择。
若用于处理时频信息的先前部分的右侧窗口斜率长度采取“短”值(如上所述),且若时频信息的先前部分、时频信息的当前部分及时频信息的后续部分全部以频域核心模式编码,窗口选择器较佳地也被配置成响应于1比特窗口斜率长度信息的第一值(例如,值“1”),选择第三类型的窗口。
另外,若1比特窗口斜率长度信息采取表示短右侧窗口斜率的第二值(例如,“0”值),且若用于处理时频信息的先前部分的窗口的右侧窗口斜率长度采取“短”值(如上所述),且若时频信息的先前部分、时频信息的当前部分及视频部分的后续部分全部以频域核心模式编码,窗口选择器较佳地也被配置成依据1比特变换长度信息在第四类型的窗口与窗口序列(可被认为是第五类型的窗口)之间进行选择。
在此情况中,第一类型窗口包括(相对)长的左侧窗口斜率长度、(相对)长的右侧窗口斜率长度及(相对)长的变换长度,第二类型的窗口包括(相对)长的左侧窗口斜率长度、(相对)短的右侧窗口斜率长度及(相对)长的变换长度,第三类型窗口包括(相对)短的左侧窗口斜率长度、(相对)长的右侧窗口斜率长度及(相对)长的变换长度,且第四类型窗口包括(相对)短的左侧窗口斜率长度、(相对)短的右侧窗口斜率长度及(相对)长的变换长度。“窗口序列”(或第五窗口类型)定义与时频信息的单一部分(例如,帧)相关联的多个子窗口的序列或叠加,多个子窗口中每一个具有(相对)短的变换长度、(相对)短的左侧窗口斜率长度及(相对)短的右侧窗口斜率长度。通过使用此方法,可仅使用两个比特来选择总计五个窗口类型(包括类型“窗口序列”),其中1比特信息(即1比特窗口斜率长度信息)足以信号通知在左侧以及右侧度具有相对长窗口斜率长度的多个窗口的非常普遍的序列。相反,仅在准备短窗口序列(“窗口序列”或“第五窗口类型”)时以及在“窗口序列”帧的时间上扩展(跨过多个帧)系列期间,需要2比特窗口信息。
综上所述,上述从多个(例如五个)不同类型的窗口中选择一种类型窗口的构思允许大幅降低所需比特率。常规上必须有三个专用比特用于从例如五种类型的窗口中选择一种类型的窗口,而依据本发明仅需要一个或两个比特来执行此选择。因此,可实现相当大的比特节约,从而减小所需比特率及/或提供改进音频品质的机会。
在较佳实施例中,窗口选择器被配置成仅当用于处理时频信息的先前部分(例如,帧)的窗口类型包括与短窗口序列的左侧窗口斜率长度匹配的右侧窗口斜率长度,且当与时频信息的当前部分(例如,当前帧)相关联的1比特窗口斜率长度信息定义与短窗口序列的右侧窗口斜率长度匹配的右侧窗口斜率长度时,才选择性地评估可变码字长度窗口信息的变换长度比特。
在较佳实施例中,窗口选择器进一步被配置成接收先前核心模式信息,该核心模式信息与音频信息的先前部分(例如,帧)相关联,且描述用于编码音频信息的先前部分(例如,帧)的核心模式。此情况中,窗口选择器被配置成依据先前核心模式信息、且也依据与时频表示的当前部分相关联的可变码字长度窗口信息,选择用于处理时频表示的当前部分的窗口。因此,先前帧的核心模式可被利用来选择适当窗口以用于先前帧与当前帧之间的过渡(例如交叠和相加操作的形式)。此外,可变码字长度窗口信息的利用极其有利,因其再次可能节约相当数目的比特。如果例如在线性预测域中编码的音频帧的可用(或有效的)窗口类型的数目少,则可获得特别好的节约。因此,在两个不同核心模式之间(例如,线性预测域核心模式与频域核心模式之间)的过渡处,在较长码字与较短码字中通常可以使用短码字。
在较佳实施例中,窗口选择器被进一步配置成接收后续核心模式信息,该核心模式信息与音频信息的后续部分(或帧)相关联,且描述用于编码音频信息的后续帧的核心模式。在此情况中,音频选择器较佳地是被配置成依据后续核心模式信息且也依据与时频表示的当前部分相关联的可变码字长度窗口信息,来选择窗口以用于处理时频表示的当前部分(例如帧)。再次,可变码字长度窗口信息可与后续核心模式信息结合利用,以低比特数目需求来确定窗口类型。
在较佳实施例中,窗口选择器被配置成,如果后续核心模式信息指示音频信息的后续帧是使用线性预测域核心模式编码的,则选择具有缩短的右侧斜率的窗口。以此方式,可以建立窗口对频域核心模式与时域核心模式之间过渡的适配,而不需要额外的信号通知。
依据本发明的另一实施例创建了根据输入音频信息提供编码音频信息的音频编码器。该音频编码器包括基于窗口的信号变换器,其被配置成基于输入音频信息的多个窗口部分(例如,交叠或非交叠帧)提供音频信号参数序列(例如,输入音频信息的时频域表示)。该基于窗口的信号变换器较佳地被配置成依据输入音频信号特性,适配窗口形状以获得输入音频信息的窗口化部分。基于窗口的信号变换器被配置成在具有(相对)较长的过渡斜率的窗口与具有(相对)较短过渡斜率的窗口的使用之间进行切换,且也在具有两个或两个以上不同变换长度的窗口的使用之间进行切换。基于窗口的信号变换器也被配置成依据用于变换输入音频信息的先前部分(例如,帧)的窗口类型以及输入音频信息的当前部分的音频内容,确定用于变换输入音频信息的当前部分(例如帧)的窗口类型。并且,音频编码器被配置成使用可变长度码字对描述窗口类型的窗口信息进行编码,其中窗口类型用于变换输入音频信息的当前部分。该音频编码器提供已参照发明的音频解码器讨论的优势。特别是有可能通过避免在有可行性的一些或全部情况中使用相对长的码字,来降低编码音频信息的比特率。
依据本发明的另一实施例建立一种编码音频信息。该编码音频信息包括编码的时频表示,其描述音频信号的多个窗口化部分的音频内容。不同过渡斜率(例如,过渡斜率长度)及不同变换长度的窗口与音频信号的不同窗口化部分相关联。编码音频信息也包括编码的窗口信息,其编码用于获得音频信号的多个窗口化部分的编码时频表示的窗口类型。编码的窗口信息是可变长度窗口信息,其使用第一较小数目的比特编码一或一个以上窗口类型,且使用第二较大数目的比特编码一或一个以上的其他窗口类型。此编码音频信息带来上述参照发明的音频解码器及发明的音频编码器讨论的优势。
依据本发明的另一实施例建立一种基于编码音频信息提供解码音频信息的方法。该方法包括评估可变码字长度窗口信息,以从包括具有不同过渡斜率(例如,不同的过渡斜率长度)的窗口以及具有不同变换长度的窗口的多个窗口中选择窗口,用于处理与音频信息的给定帧相关联的时频表示的给定部分。该方法也包括使用选择的窗口将编码音频信息描述的时频表示的给定部分映射至时域表示。
依据本发明的另一实施例建立一种用于基于输入音频信息提供编码音频信息的方法。该方法包括基于输入音频信息的多个窗口化部分提供音频信号参数序列(例如,时频域表示)。为了提供该音频信号参数序列,依据输入音频信息的特性,在具有较长过渡斜率的窗口与具有较短过渡斜率的窗口的使用之间执行切换,且也在具有两个或两个以上不同变换长度的窗口的使用之间执行切换,以适配窗口形状用于获得输入音频信息的窗口化部分。该方法也包括使用可变长度码字来编码窗口信息,该窗口信息描述用于变换输入音频信息的当前部分的窗口类型。
另外,依据本发明的实施例建立用于实施上述方法的计算机程序。
附图说明
本发明的实施例将随后参考附图描述,在附图中:
图1示出了依据本发明实施例的音频编码器的示意框图;
图2示出了依据本发明实施例的音频解码器的示意框图;
图3示出了可依据发明构思而使用的不同窗口类型的示意表示;
图4示出了可应用于依据本发明实施例的设计的不同窗口类型的窗口之间的可允许过渡的图示表示;
图5示出了可由发明的编码器产生或可由发明的音频解码器处理的不同窗口类型的序列的图示表示;
图6示出了依据本发明实施例的表示建议的比特流语法的表;
图6b示出了从当前帧的窗口类型到“window_length”信息及“transform_length”信息的映射的图示表示;
图6c示出了基于先前核心信息、先前帧的“window_length”信息、当前帧的“window_length”信息及当前帧的“transform_length”信息来获得当前帧的窗口类型的映射的图示表示;
图7a示出了表示“window_length”信息的语法的表格;
图7b示出了表示“transform_length”信息的语法的表格;
图7c示出了表示新的比特流语法及过渡的表格;
图8示出了提供“window_length”信息以及“transform_length”信息的所有组合的概观的表格;
图9示出了表示可使用本发明实施例获得的比特节约的表格;
图10a示出了所谓的USAC原始数据块的语法表示;
图10b示出了所谓的单通道元素的语法表示;
图10c示出了所谓的通道对元素的语法表示;
图10d示出了所谓的ICS信息的语法表示;
图10e示出了所谓的频域通道流的语法表示;
图11示出了一种基于输入音频信息提供编码音频信息的方法的流程图;及
图12示出了一种用于基于编码音频信息提供解码音频信息的方法的流程图。
具体实施方式
音频编码器概观
在下文中,描述可应用本发明构思的音频编码器。然而,应注意参考图1描述的音频编码器应被看做仅是本发明可应用的音频编码器的范例。然而,即使参考图1讨论相对简单的音频编码器,应注意本发明也可应用于更复杂的音频编码器中,例如能够在不同编码核心模式之间(例如在频域编码与线性预测域编码之间)切换的音频编码器。然而,为了简便起见,这似乎有助于理解简单频域音频编码器的基本思想。
图1所示音频编码器非常相似于国际标准ISO/IEC14496-3:2005(E),第3部分,第4子部分及同样在本文参考的文献中所描述的音频编码器。因此应参考该标准、本文描述的文献及与MPEG音频编码相关的大量文献。
图1所示的音频编码器100被配置成接收输入音频信息110,例如时域音频信号。音频编码器100进一步包括可选的预处理器120,被配置成可选择地预处理输入音频信息110,例如对输入音频信息110下采样或通过控制输入音频信息110的增益。音频编码器100也包括基于窗口的信号变换器130作为关键组件,其被配置成接收输入音频信息110或其预处理版本122,且将输入音频信息110或其预处理版本122变换到频域(或时频域),以获得音频信号参数序列,该参数尅是时频域中的频谱值。因此,基于窗口的信号变换器130包括窗口器/变换器136,其可被配置成将输入音频信息110、122的采样块(例如,“帧”)变换成多组频谱值132。例如,窗口器/变换器136可被配置成为输入音频信息的每一采样块(即,对于每一“帧”)提供一组频谱值。然而,输入音频信息110、122的采样块(即,“帧”)可较佳地交叠,使得输入音频信息110、122在时间上相邻的采样块(帧)共用多个采样。例如,两个时间上的后续采样块(帧)可交叠大约采样的50%。因此,窗口器/变换器136可被配置成所谓的交叠变换,例如修改型离散余弦变换(MDCT)。然而,当执行修改型离散余弦变换时,窗口器/变换器136可对每一块的采样施加窗口,藉此加权中心采样(时间上被安排成接近采样块的时间中心)以强于周边采样(时间上被安排成接近采样块的前端及尾端)。窗口化可有助于避免起源于输入音频信息110、122分割成块的伪像。因此,在从时域变换到时频域之前或期间应用窗口,这允许输入音频信息110、122后续采样块之间的平滑过渡。关于窗口化的详情,再次参考国际标准ISO/IEC 14496,第3部分,第4子部分及本文参考的文献。在该音频编码器的极简单版本中,独立于信号特性,将音频帧的2N数目个采样(定义为采样块)变换成的N个频谱系数的集合。然而,已发现独立于输入音频信息110、122的特性来使用音频信息110、122的2N个采样的均一变换长度的这一构思导致过渡的严重劣化,因为在过渡的情况下,当解码音频信息时,过渡的能量在整个帧上扩散开来。然而,已发现如果选择较短变换长度(例如,每变换2N/8=N/4个采样),可获得在边缘编码上的改进。然而,也发现,较短变换长度的选择典型地增加所需的比特率,即使当与较长变换长度相比而言针对较短变换长度获得较少的频谱值。因此,已发现值得推荐的是,在音频内容的过渡(也表示为边缘)附近从长变换长度(例如,每变换2N个采样)切换到短变换长度(例如,每变换2N/8=N/4个采样),以及在过渡之后切换回长变换长度(例如,每变换2N个采样)。变换长度的切换涉及在变换之前或期间用于对输入音频信息110、122的采样进行窗口化的窗口的改变。
关于此问题,应注意在许多情况下音频编码器能够使用多于两个的不同窗口。例如,如果先前帧(在当前考虑的帧之前)及后续帧(在当前考虑的帧之后)都使用长变换长度(例如,2N个采样)编码,则所谓的“only_long_sequence”可用于编码当前音频帧。相反,所谓的“long_start_sequence”可用于使用长变换长度被变换的帧,在该帧之前是使用长变换长度被变换的帧,且在该帧之后是使用短变换长度被变换的帧。在使用短变换长度被变换的帧中,可应用包括八个短且交叠的(子)窗口的所谓“eight_short_sequence”的窗口序列。另外,可应用所谓的“long_stop_sequence”窗口来变换一帧,在该帧之前是使用短变换长度被变换的先前帧,且在该帧之后是使用长变换长度被变换的帧。关于可能的窗口序列的详情,参考ISO/IEC 14496-3:2005(E)第3部分,第4子部分。并且,参考图3、4、5、6,它们将在下文详细解释。
然而,应注意在一些实施例中,可使用一或一个以上附加类型的窗口。例如,如果使用短变换长度的帧在当前帧之前,且如果使用短变换长度的帧在当前帧之后,则可应用所谓的“stop_start_sequence”窗口。
因此,基于窗口的信号变换器130包括窗口序列确定器138,其被配置成向窗口器/变换器136提供窗口类型信息140,使得窗口器/变换器136可使用适当类型的窗口(“窗口序列”)。例如,窗口序列确定器138可被配置成直接评估输入音频信息110或预处理的输入音频信息122。然而,备选地,音频编码器100可包括心理声学模型处理器150,其被配置成接收输入音频信息110或预处理输入音频信息122,且应用心理声学模型以从输入音频信息110、122提取与输入音频信息110、122的编码相关的信息。例如,心理声学模型处理器150可被配置成识别输入音频信息110、122中的过渡,且提供窗口长度信息152,该信息可通知需要短变换长度的帧,因为在对应的输入音频信息110、122中存在过渡。
心理声学模型处理器150也可被配置成确定哪些频谱值需以高分辨率(即,精细量化)来编码及哪些频谱值可以较低分辨率(即粗量化)来编码,而无音频内容的严重劣化。因此,心理声学模型处理器150可被配置成评估心理声学遮蔽效应,以识别较低心理声学相关性的频谱值(或频谱值的频带)及较高心理声学相关性的其他频谱值(或频谱值的频带)。因此,心理声学模型处理器150提供心理声学相关性信息154。
音频编码器100进一步包括可选的频谱处理器160,其被配置成接收音频信号参数132的序列(例如,输入音频信息110、122的时频域表示),且基于该序列提供音频信号参数162的后处理序列。例如,频谱后处理器160可被配置成执行时间噪声整形、长期预测、感知噪声替代和/或音频通道处理。
音频编码器100也包括可选的缩放/量化/编码处理器170,其被配置成缩放音频信号参数(例如,时频域值或“频谱值”)132、162,执行量化且编码经缩放和量化的值。因此,缩放/量化/编码处理器170可被配置成使用心理声学模型处理器提供的信息154,例如来判定向哪些音频信号参数(或频谱值)应用哪种缩放和/或哪种量化。因此,可以适配缩放和量化,使得获得经缩放、量化及编码的音频信号参数(频谱值)的期望比特率。
另外,音频编码器100包括可变长度码字编码器180,其被配置成从窗口序列确定器138接收窗口类型信息140,且基于窗口类型信息提供对用于由窗口器/变换器136执行的窗口化/变换操作的窗口类型进行描述的可变长度码字182。关于可变长度码字编码器180的细节将后续描述。
另外,音频编码器100可选地包括比特流负载格式器190,其被配置成接收经缩放、量化及编码的频谱信息172(描述了音频信号参数或频谱值132的序列)以及对用于窗口化/变换操作的窗口类型进行描述的可变长度码字182。因此比特流负载格式器190提供比特流192,信息172及可变长度码字182被并入其中。比特流192用作编码音频信息,且可被存储在媒介上和/或从音频编码器100被传送至音频解码器。
综上所述,音频编码器100被配置成基于输入音频信息110提供编码音频信息192。音频编码器100包括基于窗口的信号变换器130作为重要组件,其被配置成基于输入音频信息110的多个窗口化部分提供音频信号参数132序列(例如频谱值序列)。基于窗口的信号变换器130被配置成使得依据音频信息的特性,选择用于获得输入音频信息的窗口化部分的窗口类型。基于窗口的信号变换器130被配置成在使用具有较长过渡斜率的窗口与具有较短过渡斜率的窗口之间切换,以及在使用具有两个或两个以上不同变换长度的窗口之间切换。例如,基于窗口的信号变换器130被配置成依据用于变换输入音频信息的先前部分(例如帧)的窗口类型,且依据输入音频信息当前部分的音频内容,确定用于变换输入音频信息的当前部分(例如帧)的窗口类型。然而,音频编码器被配置成例如使用可变长度码字编码器180,来编码描述窗口类型的窗口类型信息140,该窗口类型用于使用可变长度码字来变换输入音频信息的当前部分(例如帧)。
变换窗口类型
在下文中,将详细描述可由窗口器/变换器136应用,且可由窗口序列确定器138选择的不同窗口。然而,本文所描述的窗口仅用作范例。之后,窗口类型的高效编码的发明概念将被讨论。
参考图3,示出了不同类型变换窗口的图示表示,将给出新采样窗口的概观。然而,另外参考ISO/IEC 14496-3,第3部分,第4子部分,其中更详细地描述了应用变换窗口的概念。
图3示出了第一窗口类型310的图示,其包括(相对)长的左侧窗口斜率310a(1024个采样)及长的右侧窗口斜率310b(1024个采样)。2048个采样及1024个频谱系数全部与第一窗口类型310相关联,使得第一窗口类型310包括所谓的“长变换长度”。
第二窗口类型312被设计成“long_start_sequence”或“long_start_window”。第二窗口类型包括(相对)长的左侧窗口斜率312a(1024个采样)及(相对)短的右侧窗口斜率312b(128个采样)。2048个采样和1024个频谱系数全部与第二窗口类型相关联,使得第二窗口类型312包括长变换长度。
第三窗口类型314被设计成“long_stop_sequence”或“long_stop_window”。第三窗口类型314包括短左侧窗口斜率314a(128个采样)及长右侧窗口斜率314b(1024个采样)。2048个采样和1024个频谱系数全部与第三窗口类型314相关联,使得第三窗口类型包括长变换长度。
第四窗口类型316被设计成“stop_start_sequence”或“stop_start_window”。第四窗口类型316包括短左侧窗口斜率316a(128个采样)及短右侧窗口斜率316b(128个采样)。2048个采样与1024个频谱系数全部与第四窗口类型相关联,使得第四窗口类型包括“长变换长度”。
第五窗口类型318与第一至第四窗口类型显著不同。第五窗口类型包括八个“短窗口”或子窗口319a到319h的叠加,它们被安排成在时间上交叠。各个短窗口319a-319h均包括256个采样的长度。因此,将256个采样变换成128个频谱值的“短”MDCT变换与各个短窗口319a-319h相关联。因此,八组128个频谱值各自与第五窗口类型318相关联,单组1024个频谱值与第一到第四窗口类型310、312、314、316中每一个相关联。因此,可以说第五窗口类型包括“短”变换长度。然而,第五窗口类型包括短左侧窗口斜率318a及短右侧窗口斜率318b。
因此,对于与第一窗口类型310、第二窗口类型312、第三窗口类型314或第四窗口类型316相关联的帧而言,输入音频信息的2048个采样作为单个组被联合地窗口化并MDCT变换到时频域。相反地,对于与第五窗口类型318相关联的帧而言,八个(至少部分交叠的)子组的256个采样各自被单独地(或分离地)MDCT变换,以便获得八组MDCT系数(时频值)。
再次参考图3,应注意图3示出了多个附加窗口。如果当前帧在线性预测域中被编码的先前帧之后,可以应用这些附加窗口,即所谓的“stop_1152_sequence”或“stop_window_1152”330以及所谓的“stop_start_1152_sequence”或“stop_start_window_1152”332。在这些情况中,适配变换的长度,以允许消除时域混淆伪像。
并且,如果当前帧由线性预测域中被编码的后续帧接随,则可选的,可以应用附加窗口362、366、368、382。然而,窗口类型330、332、362、366、368、382应被视为可选的,且不为实施发明的概念所必需。
变换窗口类型之间的过渡
现在参考图4,示出了窗口序列(或变换窗口类型)之间允许的过渡的示意图,进一步的细节将被解释。注意,各自具有窗口类型310、312、314、316、318之一的两个后续变换窗口被应用于部分交叠的音频采样块,可理解第一窗口的右侧窗口斜率应与后续的第二窗口的左侧窗口斜率匹配,以避免有部分交叠导致的伪像。因此,如果用于(两个后续帧中的)第一帧的窗口类型是给定的,则针对(两个后续帧中的)第二帧的窗口类型的选择是受限制的。如图4所示,如果第一窗口是“only_long_sequence”窗口,第一窗口只能由“only_long_sequence”窗口或“long_start_sequence”窗口跟随。相反地,如果“only_long_sequence”窗口用于变换第一帧,则不允许使用“eight_short_sequence”窗口、“long_stop_sequence”窗口或“stop_start_sequence”窗口来用于跟随第一帧的第二帧。类似地,如果“long_stop_sequence”窗口用于第一帧,则第二帧可使用“only_long_sequence”窗口或“stop_start_sequence”窗口,但是第二帧不可使用“eight_short_sequence”窗口、“long_stop_sequence”窗口或“stop_start_sequence”窗口。
相反地,如果(两个后续帧中的)第一帧使用“long_start_sequence”窗口、“eight_short_sequence”窗口或“stop_start_sequence”窗口,则(两个后续帧中的)第二帧不可使用“only_long_sequence”窗口或“long_start_sequence”窗口,但是可使用“eight_short_sequence”窗口、“long_stop_sequence”窗口或“stop_start_sequence”窗口。
窗口类型“only_long_sequence”、“long_start_sequence”、“eight_short_sequence”、“long_stop_sequence”及“stop_start_sequence”之间的可允许过渡由图4中的”打钩”示出。相反地,在没有“打钩”的窗口类型之间的过渡在一些实施例中是不允许的。
另外,应注意,如果频域核心模式与线性预测域核心模式之间的过渡是可能的,则附加窗口类型“LPD_sequence”、“stop_1152_sequence”及“stop_start_1152_sequence”可被使用。然而,该可能性应被视为可选的,且稍后将讨论。
范例窗口序列
在下文中,描述窗口序列可,其使用窗口类型310、312、314、316、318。图5示出了窗口序列的图示表示。如图所示,横坐标150表示时间。在图5中,交叠大约50%的帧标记和指定为“帧1”到“帧7”。图5示出了第一帧520,其可例如包括2048个采样。第二帧522相对第一帧520在时间上移位(大约)1024个采样,使得第二帧交叠第一帧520(大约)50%。在图5中可看到第三帧524、第四帧526、第五帧528、第六帧530及第七帧532在时间上的对准。“only_long_sequence”窗口540(类型310)与第一帧520相关联。并且,“only_long_sequence”窗口542(类型310)与第二帧522相关联。“long_start_sequence”窗口544(类型312)与第三帧相关联,“eight_short_sequence”窗口546(类型318)与第四帧526相关联,“stop_start_sequence”窗口548(类型316)与第五帧相关联,“eight_short_sequence”窗口550(类型318)与第六帧530相关联,且一”“long_stop_sequence”窗口552(类型314)与第七帧532相关联。因此,单组1024个MDCT系数与第一帧520相关联,另一单组1024个MDCT系数与第二帧522相关联,又一单组1024个MDCT系数与第三帧524相关联。然而八组128个MDCT系数与第四帧526相关联。单组1024个MDCT系数与第五帧528相关联。
如果在第四帧526的中心部分存在瞬变事件,且如果在第六帧530的中心部分存在瞬变事件,同时在其余时间内(例如,在第一帧520、第二帧522、第三帧524的开始、第五帧528的中心及第七帧532的结束期间)信号近似稳定,则图5所示的窗口序列可例如带来特别的比特率高效的编码结果。
然而,如在下文详细描述的,本发明建立用于编码与音频帧相关联的窗口类型的特别有效的概念。对于这点,应注意五个不同窗口类型310、312、314、316、318全部都用在图5的窗口序列500中。因此,“通常”需要使用三个比特来编码帧类型。相反地,本发明建立了允许以减少的比特需求来编码窗口类型的概念。
现在参考图6a及图7a、7b以及7c,将说明本发明的用于编码窗口类型概念。图6a示出了表示窗口类型信息的建议语法的表格,包括用于编码窗口类型的规则。为了说明的目的,假定由窗口序列确定器138提供至可变长度码字编码器180的窗口类型信息140描述了当前帧的窗口类型,且可采取“only_long_sequence”、“long_start_sequence”、“eight_short_sequence”、“long_stop_sequence”、“stop_start_sequence”值之一,以及可选地甚至可采取“stop_1152_sequence”及“stop_start_1152_sequence”值之一。然而,依据本发明编码概念,可变长度码字编码器180提供1比特“window_length”信息,该信息描述了与当前帧相关联的窗口的右窗口斜率的长度。如图7a所示,1比特“window_length”信息的“0”值可表示1024个采样的右窗口斜率长度,而“1”值可表示128个采样的右窗口斜率长度。因此,如果窗口类型是“only_long_sequence”(第一窗口类型310)或“long_stop_sequence”(第三窗口类型314),则可变长度码字编码器180可提供“window_length”信息的“0”值。可选地,可变长度码字编码器180也可对窗口类型“stop_1152_sequence”(窗口类型330)提供值为“0”的“window_length”信息。相反地,可变长度码字编码器180可向“long_start_sequence”(第二窗口类型312)、“stop_start_sequence”(第四窗口类型316)及“eight_short_sequence”(第五窗口类型318)提供“1”值“window_length”信息。可选地,可变长度码字编码器180也可向“stop_start_1152_sequence”(窗口类型332)提供“1”值“window_length”信息。另外,可变长度码字编码器180可选地向一或一个以上的窗口类型362、366、368、382提供“1”值的“window_length”信息。
然而,可变长度码字编码器180被配置成依据当前帧的1比特“window_length”信息的值,选择性地提供另一1比特信息,即当前帧的所谓的“transform_length”信息。如果当前帧的“window_length”信息采取“0”值(即对于窗口类型“only_long_sequence”、“long_stop_sequence”、及可选地对于“stop_1152_sequence”而言),则可变长度码字编码器180不提供“transform_length”信息来包括到比特流192中。相反地,如果当前帧的“window_length”信息采取“1”值(即对于窗口类型“long_start_sequence”、“stop_start_sequence”“eight_short_sequence”,可选地对“LPD_start_sequence”及“stop_start_1152_sequence”而言),则可变长度码字编码器180提供比特流192中的1比特“transform_length”信息来包括到比特流192中。“transform_length”信息被提供,如果其被提供,使得“transform_length”信息表示应用于当前帧的变换长度。因此,提供“transform_length”信息以对于窗口类型“long_start_sequence”、“stop_start_sequence”,及可选地,“stop_start_1152_sequence”及“LPD_start_sequence”而言采取第一值(例如“0”值),从而指示应用于当前帧的MDCT核心大小是1024个采样(或1152个采样)。相反地,如果“eight_short_sequence”窗口类型与当前帧相关联,“transform_length”信息由可变长度码字编码器180提供以采取第二值(例如“1”值),从而指示与当前帧相关联的MDCT核心大小是128个采样(见图7b的语法表示)。
总而言之,如果与当前帧相关联的窗口的右侧窗口斜率相对长(长窗口斜率310b、314b、330b),即对于窗口类型“only_long_sequence”、“long_stop_sequence”及“stop_1152_sequence”而言,可变长度码字编码器180提供仅包括当前帧的1比特”window_length”信息的1比特码字,以包括到比特流192中。相反地,如果与当前帧相关联的右侧窗口斜率是短窗口斜率312b、316b、318b、332b,即,对于窗口类型“long_start_sequence”、“eight_short_sequence”、“stop_start_sequence”及,可选地对“stop_start_1152_sequence”而言,可变长度码字编码器180提供包括1比特“window_length”信息及1比特“transform_length”信息的2比特码字,以包括到比特流192中。因此,在“only_long_sequence”窗口类型及“long_stop_sequence”窗口类型的情况中(及可选地对于“stop_1152_sequence”窗口类型而言)节约了1比特。
因此,视与当前帧相关联的窗口类型而定,仅需要一或两个比特用于编码从五个(或更多)可能窗口类型中的选择。
在这里应注意,图6a示出了在窗口类型行632中定义的窗口类型到列620中示出的“window_length”信息的值映射,及(如果需要)到列624中示出“transform_length”信息的提供状态及值的映射。
图6b示出了用于从当前帧的窗口类型导出当前帧的“window_length”信息及“transform_length”信息(或“transform_length”从比特流192中省略的指示)的映射的图示表示。此映射可由可变长度码字编码器180执行,其接收描述当前帧的窗口类型的窗口类型信息140,且将其映射至图6b表格中的列660所示“window_length”信息上以及图6b表格中的列662所示“transform_length”信息上。具体地,仅当“window_length”信息采取预定值(例如“1”)时,可变长度码字编码器180提供“transform_length”信息,否则省略提供”transform_length”信息,或抑制将“transform_length”信息包括到比特流192中。因此,对于给定帧而言,包括在比特流192中的窗口类型比特的数目可依据当前帧的窗口类型变化,如图6b表格的列664所示。
并且应注意在一些实施例中,如果当前帧后跟随在线性预测域中编码的帧,则当前帧的窗口类型可被适配或修改。然而,这典型地不影响窗口类型到“window_length”信息及选择性地提供的“transform_length”信息的映射。
因此,音频编码器100被配置成提供比特流192,使得比特流192遵循下文参考图10a-10e讨论的语法。
音频解码器概览
在下文中,参考图2详细描述依据本发明实施例的音频解码器。图2示出了依据本发明实施例的音频解码器的示意图。图2的音频解码器200被配置成接收包括编码音频信息的比特流210,且基于该比特流提供解码的音频信息212(例如以时域音频信号的形式)。音频解码器200包括可选的比特流负载去格式器220,其被配置成接收比特流210且从比特流210提取编码的频谱值信息222及可变码字长度窗口信息224。比特流负载去格式器220可被配置成从比特流210提取附加信息,如控制信息、增益信息及附加音频参数信息。然而,此附加信息是本领域技术人员熟知的且与本发明无关。进一步的细节参考例如国际标准ISO/IEC 14496-3:2005(E),第3部分,第4子部分。
音频解码器200包括可选的解码器/逆量化器/重新缩放器230,其被配置成解码上述编码的频谱值信息222、执行逆量化,且也执行对逆量化的频谱值信息的重新缩放,从而获得解码频谱值信息232。音频解码器200进一步包括可选的频谱预处理器240,其可被配置成执行一或一个以上频谱预处理步骤。一些可能的频谱预处理步骤例如在国际标准ISO/IEC 14496-3:2005(E),第3部分,第4子部分中被解释。因此,解码器/逆量化器/重新缩放器及可选的频谱预处理器240的功能得到提供由比特流210表示的编码音频信息的(经解码且可选地预处理的)时频表示242。音频解码器200包括基于窗口的信号变换器250,作为关键组件。基于窗口的信号变换器250被配置成将(解码的)时频表示242变换成时域音频信号252。因此,基于窗口的信号变换器250可被配置成执行时频域到时域变换。例如,基于窗口的信号变换器250的变换器/窗口器254可被配置成接收与编码音频信息的时间上交叠的帧相关联的修改型离散余弦变换系数(MDCT系数),作为时频表示242。因此,变换器/窗口器254可被配置成执行修正离散余弦逆变换(IMDCT)形式的交叠变换,以获得编码音频信息的窗口化时域部分(帧),且使用交叠和相加操作来交叠和相加后续的窗口化时域部分(帧)。当基于时频表示242重建时域音频信号252时,即当与窗口化及交叠和相加操作相结合地执行修改型散余弦逆变换时,变换器/窗口器254可从多个可用窗口类型中选择窗口,以允许适当重建且避免任何成块伪像。
音频解码器也包括可选的时域后处理器260,其被配置成基于时域音频信号252获得解码音频信息212。然而,应注意解码音频信息212在某些实施例中可与时域音频信号252相同。另外,音频解码器200包括窗口选择器270,其被配置成例如从可选的比特流负载去格式器220接收可变码字长度窗口信息224。窗口选择器270被配置成向变换器/窗口器254提供窗口信息272(例如窗口类型信息或窗口序列信息)。应注意取决于实际实施方式,窗口选择器270可以是或不是基于窗口的信号变换器250的一部分。
综上所述,音频解码器200被配置成基于编码音频信息210提供解码音频信息212。音频解码器200包括基于窗口的信号变换器250作为关键组件,其被配置成将编码音频信息210描述的时频表示242映射至时域表示252。基于窗口的信号变换器250被配置成基于窗口信息272,从包括不同过渡斜率(例如不同过渡斜率长度)的窗口及不同变换长度的窗口的窗口中选择窗口。音频解码器200包括窗口选择器270作为另一关键组件,其被配置成评估可变码字长度窗口信息224,以选择窗口以供处理与音频信息的给定帧相关联的时频表示242的给定部分。音频解码器的其他组件,即比特流负载去格式器220、解码器/逆量化器/重新缩放器230、频谱预处理器240及时域后处理器260可被视作可选的,但是可出现在音频解码器200的某些实施中。
在下文中,描述关于供变换器/窗口器254执行的变换/窗口化之用的窗口的选择的细节。然而,关于不同窗口选择的重要性参考上文。
音频解码器200较佳地能够使用上述窗口类型“only_long_sequence”、“long_start_sequence”、“eight_short_sequence”、“long_stop_sequence”及“stop_start_sequence”。然而,音频解码器可选地能够使用附加窗口类型,例如所谓的“stop_1152_sequence”及所谓的“stop_start_1152_sequence”(两者都可用于从线性预测域编码帧到频域编码帧的转变)。另外,音频解码器200可进一步被配置成使用附加窗口类型,例如,窗口类型362、366、368、382,它们可适用于从频域编码帧到线性预测域编码帧的转变。然而,窗口类型330、332、362、366、368、382的使用可被视为可选的。
然而,本发明的音频解码器的重要特征是提供从可变码字长度窗口信息224导出适当窗口类型的特别有效的解决方法。如上所述,这将在下文中参考图10a-10e进一步解释。
可变码字长度窗口信息224典型地包括每帧1或2个比特。较佳地,可变码字长度窗口信息包括携带当前帧的“window_length”信息的第一比特及携带当前帧的“transform_length”信息的第二比特,其中第二比特(“transform_length”比特)的存在取决于第一比特(“window_length”比特)的值。因此,窗口选择器270被配置成选择性地评估一或两个窗口信息比特(“window_length”及“transform_length”),以依据当前帧相关联的“window_length”比特值的确定与当前帧相关联的窗口类型。然而,在没有“transform_length”比特的情况下,窗口选择器270可自然地假定“transform_length”比特采取缺省值。
在较佳实施例中,窗口选择器270可被配置成评估上文参考图6a所述的语法,且依据该语法提供窗口信息272。
首先假定,音频解码器200总是以频域核心模式进行操作,即假定没有频域核心模式与线性预测域核心模式之间的切换,则区分上文提到的五个窗口类型(“only_long_sequence”、“long_start_sequence”、“long_stop_sequence”、“stop_start_sequence”及“eight_short_sequence”)就足够了。在此情况下,先前帧的“window_length”信息、当前帧的“window_length”信息及当前帧的“transform_length”信息(如果可用)足以决定窗口类型。
例如,假定仅在频域核心模式中操作(至少在三个后续帧的序列上),可从先前帧的“window_length”信息指示长过渡斜率(“0”值)及当前帧的“window_length”信息指示长过渡斜率(“0”值)的事实,推断出窗口类型“only_long_sequence”与当前帧相关联,而不需评估“transform_length”信息,在此情况中编码器不发送“transform_length”信息。
再次假定仅在频域核心模式中操作,可从先前帧的“window_length”信息指示长(右侧)过渡斜率及当前帧的“window_length”信息指示短(右侧)过渡斜率(“1”值)的事实推断出窗口类型“long_start_sequence”与当前帧相关联,甚至不需评估当前帧的“transform_length”信息(在此情况中”transform_length”信息可以或可以不由编码器产生及/或发送)。
再次假定仅在频域核心模式中操作,可从先前帧的“window_length”信息指示短(右侧)过渡斜率(“1”值)的存在及当前帧的“window_length”信息指示长(右侧)过渡斜率(“0”值)的事实推断出窗口类型“long_stop_sequence”与当前帧相关联,甚至不需评估当前帧的“transform_length”信息(其典型地不由对应音频编码器提供)。
然而,如果先前帧的“window_length”信息指示短(右侧)过渡斜率的存在且当前帧的“window_length”信息指示也指示短过渡斜率(“1”值)的存在,可能有必要评估当前帧的“transform_length”信息。在此情况中,如果当前帧的“transform_length”信息采取第一值(例如0),则窗口类型”stop_start_sequence”与当前帧相关联。否则,即,如果当前帧的“transform_length”信息采取第二值(例如1),可推断出窗口类型“eight_short_sequence”与当前帧相关联。
综上所述,窗口选择器270被配置成评估先前帧的“window_length”信息及当前帧的“window_length”信息,以决定与当前帧相关联的窗口类型。另外,窗口选择器270依据当前帧的“window_length”信息的值(且也可能依据先前帧“window_length”信息,或核心模式信息),考虑到当前帧的“transform_length”信息,选择性地决定与当前帧相关联的窗口类型。因此,窗口选择器270被配置成评估可变码字长度窗口信息,以确定与当前帧相关联的窗口类型。
图6c示出了先前帧的“window_length”信息、当前帧的“window_length”信息及当前帧的“transform_length”信息映射至当前帧的窗口类型的表格。当前帧的“window_length”信息及当前帧的“transform_length”信息可由可变码字长度窗口信息224表示。当前帧的窗口类型可由窗口信息272表示。由图6c的表格描述的映射可由窗口选择器270执行。
如图所示,该映射可取决于先前核心模式。如果先前核心模式是“频域核心模式”(缩写为“FD”),则该映射可采用如上所述的形式。然而,如果先前核心模式是“线性预测域核心模式”(缩写为“LPD”),则该映射可被改变,如图6c图表格最后两列所示。
另外,如果后续的核心模式(即与后续帧相关联的核心模式)不是频域核心模式,而是线性预测域核心模式,则该映射可被改变。
音频解码器200可选地包括比特流解析器,其被配置成解析表示编码音频信息的比特流210,从比特流提取1比特窗口斜率长度信息(在本文也称为“window_length”信息),以及依据该1比特窗口斜率长度信息的值选择性地提取1比特变换长度信息(在本文也称为“transform_length”信息)。在此情况中,窗口选择器270被配置成依据当前帧的窗口斜率长度信息选择性地使用或忽略变换长度信息,以选择用于处理时频表示242的给定部分(例如帧)的窗口类型。该比特流解析器可以例如是比特流负载去格式器220的一部分,且使音频解码器200能够如上所述以及参考图10a-10e所述那样处理可变码字长度窗口信息。
在频域核心模式与时域核心模式之间切换
在一些实施例中,音频编码器100及音频解码器200可被配置成在频域核心模式与线性预测域核心模式之间切换。如上所述,假定频域核心模式是基本核心模式,即以上说明成立。然而,如果音频编码器能够在频域核心模式与线性预测域核心模式之间切换,则在频域核心模式中编码的帧与线性预测域核心模式中编码的帧之间可能仍存在交叉衰落(在交叠和相加操作方面)。因此,必须选择适当窗口以确保在不同核心模式中编码的帧之间的适当交叉衰落。例如,在一些实施例中,可能存在两个窗口类型,即图2B中所示的窗口类型330及332,它们适配用于从线性预测域核心模式到频域核心模式的转变。例如,窗口类型330可允许线性预测域编码帧与频域编码帧之间具有长左侧过渡斜率的转变,例如,使用窗口类型“only_long_sequence”或窗口类型“long_start_sequence”从线性预测域编码帧到频域编码帧。类似地,窗口类型332可允许从线性预测域编码帧到频域编码帧具有短左侧过渡斜率的转变(例如从线性预测域编码帧到具有关联窗口类型“eight_short_sequence”或“long_stop_sequence”的帧的转变)。因此,如果发现先前帧(在当前帧之前)是在线性预测域中编码的,当前帧是在频域中编码的,且当前帧的“window_length”信息表示当前帧的长右侧过渡斜率(例如“0”值),则窗口选择器270可被配置成选择窗口类型330。相反地,如果发现先前帧是在线性预测域编码的,当前帧是在频域编码的,而当前帧的“window_length”信息指示长右侧过渡斜率与当前帧相关联(例如“1”值),则窗口选择器270被配置成为当前帧选择窗口类型332。
类似地,窗口选择器270可被配置成对后续帧(在当前帧之后)在线性预测域中编码,而当前帧在频域中编码的事实作出反应。在此情况中,窗口选择器270可选择适配为之后跟随有线性预测域编码帧的窗口类型362、366、368、384中的一个,而非适配为之后跟随有频域编码帧的窗口类型312、316、118、332之一。然而,除了由窗口类型362代替窗口类型312,由窗口类型368代替窗口类型318,由窗口类型366代替窗口类型360及由窗口类型382代替窗口类型332以外,窗口类型的选择在与它们仅是频域编码帧的情况相比较时可以保持不改变。
因此,使用可变码字长度窗口信息的本发明机制,即使在频域编码与线性预测编码之间发生转变的情况中亦可被应用,而不显著损及编码效率。
比特流语法细节
在下文中,参考图10a-10e讨论关于比特流192、210的比特流语法的细节。图10a示出了所谓的联合语音/音频编码(“USAC”)原始数据块“USAC_raw_data_block”的语法表示。如图所示,USAC原始数据块可包括所谓的单通道元素(“single_channel_element()”)和/或通道对元素(“channel_pair_element()”)。然而,USAC原始数据块自然可包括多于一个单通道元素和/或多于一个通道对元素。
现在参考图10b,示出了单通道元素的语法表示,更多的细节将描述。如图10b所示,单通道元素可包括核心模式信息,例如以“core_mode”比特形式。该核心模式信息可指示当前帧是在线性预测域核心模式还是在频域核心模式编码的。在当前帧在线性预测域核心模式编码的情况下,单通道元素可包括线性预测域通道流(“LPD_channel_stream()”)。在当前帧在频域编码的情况中,单通道元素可包括频域通道流(“FD_channel_stream()”)。
现在参考图10c,示出了通道对元素的语法表示,附加细节将描述。通道对元素可包括第一核心模式信息,例如以“core_mode0”比特形式,描述第一通道的核心模式。另外,通道对元素可包括“core_mode1”比特形式的第二核心模式信息,描述第二通道的核心模式。因此,不同或相同的核心模式可被选择用于由通道对元素描述的两个通道。可选地,通道对元素可包括公用ICS信息(“ICS_info()”)用于两个通道。如果由通道对元素描述的两个通道的配置非常相似,则此公用ICS信息是有利的。自然,仅在两个通道以同一核心模式编码时才较佳地使用公用ICS信息。
另外,通道对元素依据针对第一通道定义(通过核心模式信息“core_mode0”)的核心模式,包括与第一通道相关联的线性预测域通道流(“LPD_channel_stream()”)或频域通道流(“FD_channel_stream()”)。
并且,通道对元素依据用于编码第二通道的核心模式(可由核心模式信息“core_mode1”通知),包括第二通道的线性预测域通道流(“LPD_channel_stream()”)或频域通道流(“FD_channel_stream()”)。
现在参考图10d,示出了ICS信息的表示的语法,附加细节将描述。应注意ICS信息可包括在通道对元素中,或在单独的频域通道流中(如参考图10e所述)。
ICS信息包括1比特(或单比特)“window_length”信息,描述与当前帧相关联的窗口的右侧过渡斜率的长度,例如根据图7a所给的定义。当且仅当“window_length”信息取预定值(例如“1”)时,ICS信息才包括附加的1比特(或单比特)“transform_length”信息。该“transform_length”信息描述MDCT核心的大小,例如,根据图7b中所给的定义。如果“window_length”信息采取与预定值不同的值(例如“0”值),则“transform_length”信息不被包括在(或从其省略)ICS信息中(或在对应比特流中)。然而,在此情况中,音频解码器的比特流解析器可将解码器变量“transform_length”的恢复值设定为缺省值(例如“0”值)。
另外,ICS信息可包括所谓的“window_shape”信息,其可以是描述窗口过渡形状的1比特(或单比特)信息。例如,“window_shape”信息可描述窗口过渡是否具有正弦/余弦形状或凯斯-贝塞尔-衍生形状。关于“window_shape”信息的意义,参考例如国际标准ISO/IEC14496-3:2005(E),第3部分、第4子部分。然而,应注意“window_shape”信息使基本窗口类型未受影响,且使一般特性(长过渡斜率或短过渡斜率;长变换长度或短变换长度)不受“window_shape”影响。
因此,在依据本发明的实施例中,“window_shape”,即过渡的形状与窗口类型(即过渡斜率(长或短)的一般长度及变换长度(长或短))相分离地确定。
另外,ICS信息可包括与窗口类型相关的缩放因子信息。例如,如果“window_length”信息及“transform_length”信息表示当前窗口类型是“eight_short_sequence”,则ICS信息可包括描述最大缩放因子频带的“max_sfb”信息以及描述缩放因子频带的分组的“scale_factor_grouping”信息。关于此信息的细节在例如国际标准ISO/IEC 14496-3:2005(E),第3部分,第4子部分中有描述。可供选择地,即,如果“window_length”信息及“transform_length”信息表示当前窗口类型不是“eight_short_sequence”的窗口类型,则ICS信息可仅包括“max_sfb”信息(而没有“scale_factor_grouping”信息)。
在下文中,参考图10e描述某些进一步的细节,图10e示出了频域通道流(“FD_channel_stream()”)的语法表示。频域通道流包括描述与频谱值相关联的全局增益的“global_gain”信息。另外,频域通道流包括ICS信息(“ICS_info()”),除非该信息已包括在包括所述频域通道流的通道对元素中。关于ICS信息的细节已参考图10d进行了描述。
另外,频域通道流包括缩放因子数据(“scale_factor_data()”),其描述要应用于解码的频谱值信息或时频表示的值的缩放。另外,频域通道流描述经编码的频谱数据,其可例如是算术编码的频谱数据(“ac_spectral_data()”)。然而,频谱数据的不同编码可被使用。关于缩放因子数据和编码的频谱数据,仍参考国际标准ISO/IEC14496-3:2005(E),第3部分,第4子部分。然而,如果需要,自然可以使用对缩放因子数据及频谱数据的不同编码。
结论及性能评估
在下文中,将作出一些结论并给出本发明概念的性能评估。本发明的实施例建立了减少所需比特率的概念,其可例如与国际标准ISO/IEC 14496-3:2005(E),第3部分,第4子部分中定义的音频编码方案相结合地应用。然而,本文所述的概念也可与所谓的“联合语音/音频编码”方法(USAC)相结合地使用。基于现有比特流定义及解码器架构,本发明建立了比特流语法修改,其简化对窗口序列进行通知的语法,节约比特率而不增加复杂性,且不改变解码器输出波形。
在下文中,本发明的背景及基本将简要讨论并总结。在依据ISO/IEC 14496-3:2005(E)第3部分,第4子部分的当前音频编码中,以及在USAC工作草案中,发送具有两比特固定长度的码字以通知窗口序列。另外,有时需要先前帧的窗口序列信息以确定正确序列。
然而,已发现通过考虑该信息并通过使码字长度可变(一或两个比特),可以降低比特率。新码字具有最大两比特的长度(“window_length”以及在一些情况中的“transform_length”)。因此,比特率不会增加(当相比于常规方法时)。
新码字(“window_length”以及在一些情况中的“transform_length”)由表示右窗口斜率长度的1比特(“window_length”)及表示变换长度的1比特(“transform_length”)组成。在许多情况中,可以通过先前帧的信息,即窗口序列及核心模式,毫无疑义地导出变换长度。因此不需要重新发送尬信息。因此,比特(“transform_length”)在这些情况中被省略,从而导致比特率降低。
在下文中,讨论关于依据本发明的新比特流语法的提议细节。所提出的新比特流语法允许较简单明了的实施以及对窗口序列的通知,因为其仅传递确定当前帧的窗口类型实际所需的信息,即右窗口斜率及变换长度。当前帧的左窗口斜率由先前帧的右窗口斜率导出。
该提议(或提出的新比特流)明确地分离了窗口斜率长度的有关信息(“window_length”信息)和变换长度的有关信息(“transform_length”信息)。可变长度码字是两者的结合,依据图7a和7d,其中第一比特“window_length”决定(当前帧的)右窗口斜率的长度,而第二比特“transform_length”决定MDCT(对于当前帧而言)的长度。在“window_length”=0,即长窗口斜率被选择时,“transform_length”的传输可以被省略略(或确实被省略),因为1024个采样(或在一些情况中为1152个采样)的MDCT核心大小是强制的。
图7c提供“window_length”及“transform_length”的所有组合的概览。如图所示,两个1比特信息项“window_length”及“transform_length”仅有三个有意义的组合,使得如果“window_length”信息采取零值时,可省略“transform_length”的传输,而对所需信息的传输无有害影响。
在下文中,简要概括“window_length”信息及“transform_length”信息到“window_sequence”信息(描述要用于当前帧的窗口类型)的映射。图6a中表格示出了如何从新提出的比特流元素中导出所设想的USAC标准工作草案的当前状态的比特流元素“window_sequence”。这说明所提出的改变就信息内容而言是“透明的”。
换句话说,基于利用可变码字长度窗口信息的用于通知窗口类型的本发明比特率减少的语法能够携带“完整”信息内容,该完整信息内容常规地使用较高比特率来发送。并且,本发明概念可应用于常规的音频编码器及解码器,例如依据ISO/IEC 14496-3:2005(E),第3部分,第4子部分或依据没有任何主要修改的现行USAC工作草案的音频编码器或音频解码器。
在下文中,描述可实现的比特节约的评估。然而,应注意在一些情况中比特节约可稍小于所指出的,且在其他情况中比特节约可能甚至显著大于所述比特节约。图9所示的“比特节约评估”示出了将使用新比特流语法的比特流与常规比特流(该常规比特流被提交为提案)相比较时,无损代码转换的比特节约评估。可清楚看出,依据本发明,在12kbps单声道的全部频域帧的95.67%中,以及在64kbps的全部频域帧的高至95.15%中,可以省去“transform_length”比特的传输。
如图9所示,平均每秒可节约2到24比特,而不损害音频内容的质量。鉴于比特率是音频内容存储及传输的极关键资源,此改进可视为非常有价值。并且,应注意在一些情况中,例如如果帧被选择为相对较短时,比特率上的改进可明显更大。
综上所述,本发明提出了一种用于通知窗口序列的新的比特流语法。该新比特流语法节约数据率且较之于旧语法更合逻辑并更灵活。其易于实施且无有关复杂性的缺点。
与现行USAC工作草案比较
在下文中,讨论所提出现行USAC工作草案的技术描述的文本改变。为了合并依据本发明提出的发明性改变,以下部分需更新:
在描述了所谓ICS信息的语法的“针对音频对象类型USAC的负载”的未决定义中,常规语法应被图10b中所示语法替换。
并且,“数据元素”“window_sequence”应由数据元素“window_length”及“transform_length”的如下定义取代:
window_length:1比特字段,其确定哪个窗口斜率长度用于该窗口序列的右侧部分;及
transform_length:1比特字段,其确定哪个变换长度用于该窗口序列。
另外,帮助元素“window_sequence”应依以下被加入:
window_sequence:指示了依据图8表格,由先前帧的“window_length”、当前帧的“transform_length”及“window_length”,以及下一帧的“core_mode”定义的窗口序列。图8示出了帮助元素“window_sequence”的定义,其可选地从先前帧的“window_length”信息、当前帧的“window_length”信息、当前帧的“transform_length”信息及下一帧的“core_mode”信息导出。
另外,“window_sequence”及“window_shape”的常规定义可由如下“window_length”、“transform_length”及“window_shape”的更适当定义替换:
window_length:1比特字段,其确定哪个窗口斜率长度用于该窗口的右侧部分;
transform_length:1比特字段,其确定哪个变换长度用于该窗口;及
window_shape:1比特,指示哪个窗口功能被选择。
依据图11的方法
图11示出了一种基于输入音频信息提供编码音频信息的方法的流程图。依据图11的方法1100包括基于输入音频信息的多个窗口化部分提供音频信号参数序列的步骤1110。当提供该音频信号参数序列时,依据输入音频信息的特性,在使用具有较长过渡斜率的窗口与具有较短过渡斜率的窗口之间切换,以及在使用具有与两个或两个以上不同变换长度相关联的窗口之间切换,以使窗口类型适于获得输入音频信息的窗口化部分。方法1100也包括使用可变长度码字来编码窗口信息的步骤1120,该窗口信息描述用于变换输入音频信息的当前部分的窗口类型。
依据图12的方法
图12示出了一种基于编码音频信息提供解码音频信息的方法的流程图。依据图12的方法1200包括:步骤1210,评估可变码字长度窗口信息,以从包括不同过渡斜率的窗口及具有相关联的不同变换长度的窗口在内的多个窗口中选择窗口,用于处理与该音频信息的给定帧相关联的时频表示的特定部分。方法1200也包括使用选择的窗口将编码音频信息描述的时频表示的特定部分映射至时域表示的步骤1220。
应注意依据图11及图12的方法可由本文关于本发明的设备及本发明的比特流特性描述的任何特征及功能补充。
实施方式备选方案
虽然某些方面在设备的上下文中描述,很明显这些方面也表示对应方法的描述,其中方框或装置对应于方法步骤或方法步骤的特征。类似地,在方法步骤内容中描述的方面也表示对应方框或对应设备的项或特征值描述。
本发明方法的任何步骤可使用微处理器、可编程计算机、fpga或任一其他硬件(如举例而言数据处理硬件)来执行。
本发明的编码音频信号可存储于数字存储介质或可在传输媒介(诸如无线传输媒介或有线传输媒介,诸如互联网)上传输。
依据特定实施要求,本发明实施例可以硬件或软件实现。可使用具有电子可读控制信号存储于其上的存储介质,例如软盘、DVD、蓝光盘、CD、ROM、PROM、EPROM、EEPROM或闪存来执行上述实现,它们与可编程计算机系统协作(或能够与之协作)以使相应方法被执行。因此,数字存储介质可以是计算机可读的。
依据本发明的某些实施例包括具有电子可读控制信号的数据载体,电子可读控制信号能够与可编程计算机系统协作,以使本文所述方法之一被执行。
大体上,本发明实施例可以实现为具有程序代码的计算机程序产品,该程序代码可操作以当该计算机程序产品在计算机上运行时执行所述方法之一。该程序代码可例如存储于机器可读载体上。
其他实施例包括用于执行本文所述方法之一,存储于机器可读载体之上的计算机程序。
因此,换句话说,本发明方法的实施例是计算机程序,其具有程序代码,当该计算机程序运行于计算机上时,该程序代码用于执行本文所述方法之一。
因此,本发明方法的另外实施例是数据载体(或数字存储介质,或计算机可读介质),其包括记录于其上以执行本文所述方法之一的计算机程序。
因此,本发明方法的另外的实施例是数据流或信号序列,它们表示用于执行本文所述方法之一的计算机程序。该数据流或该信号序列可例如被配置成经由数据通信连接(例如经由互联网)被传送。
另外的实施例包括处理装置,例如计算机,或可编程逻辑器件,被配置成或适应于执行本文所述方法之一。
另外的实施例包括计算机,其具有安装于其上以执行本文所述方法之一的计算机程序。
在一些实施例中,可编程逻辑器件(例如现场可编程门阵列)可用以执行本文所述的方法的一些或全部功能。在一些实施例中,现场可编程门阵列可与微处理器协作,以执行本文所述方法之一。大体上,所述方法较佳地由任一硬件设备执行。
上述实施例仅是对本发明原理的说明。应理解本文描述的布置及细节的修改及变化对本领域普通技术人员而已是明显的。因此,其意图仅由所附专利权利要求限制而不由以本文中实施例的描述及说明形式的特定细节限制。

Claims (16)

1.一种基于编码音频信息(210)提供解码音频信息(212)的音频解码器(200),该音频解码器包括:
基于窗口的信号变换器(250),被配置成将由该编码音频信息(210)描述的音频信息的时频表示(242)映射至该音频信息的时域表示(252),
其中该基于窗口的信号变换器被配置成使用窗口信息(272),从多个窗口(310,312,314,316,318)中选择窗口,所述多个窗口(310,312,314,316,318)包括具有不同过渡斜率(310a,312a,314a,316a,318a,310b,312b,314b,316b,318b)的窗口以及具有相关联的不同变换长度的窗口;
其中该音频解码器(200)包括:窗口选择器(270),被配置成评估可变码字长度窗口信息(224),以选择窗口用于处理所述时频表示的与所述音频信息的给定帧相关联的给定部分。
2.如权利要求1所述的音频解码器(200),其中该音频解码器包括:比特流解析器(220),被配置成解析表示该编码音频信息的比特流,并从该比特流(210)提取1比特窗口斜率长度信息(“window_length”),以及依据该1比特窗口斜率长度信息的值,选择性地提取1比特变换长度信息(“transform_length”);以及
其中该窗口选择器(270)被配置成依据该窗口斜率长度信息,选择性地使用或忽略该变换长度信息,以选择窗口类型(310,312,314,316,318)用于处理该时频表示(242)的给定部分。
3.如权利要求1或2所述的音频解码器(200),其中该窗口选择器(270)被配置成选择窗口类型(310,312,314,316,318)用于处理该时频信息(242)的当前部分,以使用于处理该时频表示(242)的当前部分的窗口的左侧窗口斜率长度与用于处理该时频表示(242)的先前部分的窗口的右侧窗口斜率长度匹配。
4.如权利要求3所述的音频解码器(200),其中该窗口选择器(270)被配置成,如果用于处理该时频表示(242)的先前部分的窗口的右侧窗口斜率长度采取长值,且如果该音频信息的先前部分、该音频信息的当前部分及该音频信号的后续部分全部是使用频域核心模式被编码的,则依据所述1比特窗口斜率长度信息在第一类型(310)窗口与第二类型(312)窗口之间进行选择;
其中该窗口选择器(270)被配置成,如果用于处理该音频信息的先前部分的窗口的右侧窗口斜率长度采取短值,且如果该音频信息的先前部分、该音频信息的当前部分及该音频信息的后续部分全部是使用频域核心模式被编码的,则响应于所述1比特窗口斜率长度信息的指示长右侧窗口斜率的第一值,来选择第三类型(314)窗口;以及
其中该窗口选择器(270)被配置成,如果所述1比特窗口斜率长度信息采取指示短右侧窗口斜率的第二值,如果用于处理该音频信息的先前部分的窗口的右侧窗口斜率长度采取短值,且如果该音频信息的先前部分、该音频信息的当前部分及该音频信息的后续部分全部是使用频域核心模式被编码的,则依据1比特变换长度信息,在第四类型(316)窗口与第五类型(318)窗口之间进行选择,第五类型(318)窗口定义了短窗口序列(319a到319h);
其中第一窗口类型(310)包括相对长的左侧窗口斜率长度、相对长的右侧窗口斜率长度及相对长的变换长度;
其中第二窗口类型(312)包括相对长的左侧窗口斜率长度、相对短的右侧窗口斜率长度及相对长的变换长度;
其中第三窗口类型(314)包括相对短的左侧窗口斜率长度、相对长的右侧窗口斜率长度及相对长的变换长度;
其中第四窗口类型(316)包括相对短的左侧窗口斜率长度、相对短的右侧窗口斜率长度及相对长的变换长度;及
其中第五窗口类型(318)的窗口序列(319a到319h)定义与音频信息(242)的单一部分相关联的多个窗口(319a到319h)的叠加,且其中所述多个窗口(319a到319h)中的每个窗口包括相对短的变换长度、相对短的左侧窗口斜率及相对短的右侧窗口斜率。
5.如权利要求1至4之一所述的音频解码器(200),其中该窗口选择器(270)被配置成仅当用于处理该音频信息(242)先前部分的窗口类型包括与短窗口的窗口序列(318)的左侧窗口斜率长度相匹配的右侧窗口斜率长度,且与该时频表示(242)的当前部分相关联的1比特窗口斜率长度信息定义与所述短窗口的窗口序列(318)的右侧窗口斜率长度相匹配的右侧窗口斜率长度时,才选择性地评估音频信息的当前部分的可变码字长度窗口信息(224)的变换长度比特。
6.如权利要求1至5之一所述的音频解码器(200),其中该窗口选择器(270)进一步被配置成接收与音频信息的先前帧相关联的、描述用于编码该音频信息的先前帧的核心模式的先前核心模式信息;以及
其中该窗口选择器(270)被配置成依据所述先前核心模式信息且也依据与音频信息(242)的当前部分相关联的可变码字长度窗口信息(224),选择用于处理时频表示(242)的当前部分的窗口类型。
7.如权利要求1至6之一所述的音频解码器(200),其中该窗口选择器(270)被进一步配置成接收与该音频信息(242)的后续部分相关联的、描述用于编码该音频信息的后续部分的核心模式的后续核心模式信息;以及
其中该窗口选择器(270)被配置成依据该后续的核心模式信息并且依据与该时频表示(242)的当前部分相关联的可变码字长度窗口信息,选择用于处理该音频信息(242)的当前部分的窗口。
8.如权利要求7所述的音频解码器(200),其中如果所述后续核心模式信息指示音频信息的后续部分是使用线性预测域核心模式被编码的,则窗口选择器(270)被配置成选择具有缩短的右侧斜率的窗口(362,366,368,382)。
9.一种基于输入音频信息(110)提供编码音频信息(192)的音频编码器(100),该音频编码器(100)包括:
基于窗口的信号变换器(130),被配置成基于输入音频信息(110)的多个窗口化部分,提供音频信号参数序列(132),
其中基于窗口的信号变换器(130)被配置成依据输入音频信息(110)的特性,适配用于获得输入音频信息的所述窗口化部分的窗口类型;
其中基于窗口的信号变换器(130)被配置成在具有较长过渡斜率的窗口(310,312,314,316,318)与具有较短过渡斜率的窗口的使用之间切换,以及在具有两个或更多个不同变换长度的窗口的使用之间切换;
其中基于窗口的信号变换器(130)被配置成依据用于变换输入音频信息的先前部分的窗口类型、以及输入音频信息的当前部分的音频内容,确定用于变换输入音频信息的当前部分的窗口类型;
其中该音频编码器被配置成编码窗口信息(140),该窗口信息(140)描述用于使用可变长度码字来变换输入音频信息的所述当前部分的窗口类型。
10.如权利要求9所述的音频编码器(100),其中音频编码器被配置成提供所述可变长度码字,使得与时频表示的给定部分相关联的可变长度码字包括1比特信息,该1比特信息描述用于获得所述时频表示的给定部分的窗口的窗口斜率长度;以及
其中音频编码器(100)被配置成,提供所述可变长度码字,使得当且仅当描述所述窗口斜率长度的所述1比特信息采取预定值时,所述可变长度码字可选择地包括1比特变换长度信息,该1比特变换长度信息描述用于获得时频表示(132)的所述给定长度的变换长度。
11.如权利要求9或10所述的音频编码器(100),其中该音频编码器被配置成使用比特流(192)的分离比特,对描述用于获得时频表示的给定部分的窗口的右侧窗口斜率长度的窗口斜率长度信息、以及描述用于获得时频表示的该给定部分的变换长度的变换长度信息进行编码,并依据该窗口斜率长度信息的值,决定携带该变换长度信息的比特的存在。
12.一种编码音频信息,该编码音频信息包括:
对音频信号的多个窗口化部分的音频内容加以描述的编码时频表示,其中具有不同过渡斜率及不同变换长度的窗口与该音频信号的不同窗口化部分相关联;以及
对窗口类型加以编码的编码窗口信息,所述窗口类型用于获得音频信号的多个窗口化部分的所述编码时频表示,
其中所述编码窗口信息是可变长度窗口信息,其使用第一较低数目的比特来编码一个或多个窗口类型,且使用第二较大数目的比特来编码一个或多个其他窗口类型。
13.如权利要求12所述的编码音频信息,其中该编码音频信息包括:1比特窗口斜率长度信息单元,与使用频域核心模式编码的音频信号的对应窗口化部分相关联;以及
1比特变换长度信息单元,选择性地与音频信号的窗口化部分相关联,其中对于该窗口化部分,所述1比特窗口斜率长度信息采取预定值。
14.一种用于基于编码音频信息提供解码音频信息的方法(1200),该方法包括:
评估(1210)可变码字长度窗口信息,以从多个窗口中选择窗口,用于处理与该音频信息的给定帧相关联的时频表示的给定部分,所述多个窗口包括具有不同过渡斜率的窗口以及具有相关联的不同变换长度的窗口;以及
使用所选的窗口,将由所述编码音频信息描述的所述时频表示的所述给定部分映射(1220)至时域表示。
15.一种基于输入音频信息提供编码音频信息的方法(1100),该方法包括:
基于输入音频信息的多个窗口化部分,提供(1110)音频信号参数序列,其中在具有较长过渡斜率的窗口与具有较短过渡斜率的窗口的使用之间执行切换,并且也在具有相关联的两个或更多个不同变换长度的窗口的使用之间执行切换,以及依据输入音频信息的特性,适配用于获得该输入音频信息的所述窗口化部分的窗口类型;以及
对描述用于使用可变长度码字来变换输入音频信息的部分的窗口类型的信息进行编码。
16.一种计算机程序,用于在运行计算机上时,执行如权利要求14或15所述的方法。
CN201080009687.5A 2009-01-28 2010-01-28 音频编码器,音频解码器,编码和解码音频信号的方法 Active CN102334160B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14788709P 2009-01-28 2009-01-28
US61/147,887 2009-01-28
PCT/EP2010/050998 WO2010086373A2 (en) 2009-01-28 2010-01-28 Audio encoder, audio decoder, encoded audio information, methods for encoding and decoding an audio signal and computer program

Publications (2)

Publication Number Publication Date
CN102334160A true CN102334160A (zh) 2012-01-25
CN102334160B CN102334160B (zh) 2014-05-07

Family

ID=42289346

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201080009687.5A Active CN102334160B (zh) 2009-01-28 2010-01-28 音频编码器,音频解码器,编码和解码音频信号的方法

Country Status (15)

Country Link
US (1) US8762159B2 (zh)
EP (1) EP2382625B1 (zh)
JP (1) JP2012516462A (zh)
KR (1) KR101316979B1 (zh)
CN (1) CN102334160B (zh)
AR (1) AR075199A1 (zh)
AU (1) AU2010209756B2 (zh)
BR (1) BRPI1005300B1 (zh)
CA (1) CA2750795C (zh)
ES (1) ES2567129T3 (zh)
HK (1) HK1163914A1 (zh)
MX (1) MX2011007925A (zh)
RU (1) RU2542668C2 (zh)
TW (1) TWI459375B (zh)
WO (1) WO2010086373A2 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104981868A (zh) * 2012-12-11 2015-10-14 三星电子株式会社 对音频信号进行编码和解码的方法以及用于对音频信号进行编码和解码的设备
CN111862953A (zh) * 2019-12-05 2020-10-30 北京嘀嘀无限科技发展有限公司 语音识别模型的训练方法、语音识别方法及装置
CN112400203A (zh) * 2018-06-21 2021-02-23 索尼公司 编码设备、编码方法、解码设备、解码方法、以及程序

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2657393T3 (es) * 2008-07-11 2018-03-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador y descodificador de audio para codificar y descodificar muestras de audio
MX2011000375A (es) * 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada.
KR101622950B1 (ko) * 2009-01-28 2016-05-23 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
US8457975B2 (en) * 2009-01-28 2013-06-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoder, audio encoder, methods for decoding and encoding an audio signal and computer program
KR101137652B1 (ko) * 2009-10-14 2012-04-23 광운대학교 산학협력단 천이 구간에 기초하여 윈도우의 오버랩 영역을 조절하는 통합 음성/오디오 부호화/복호화 장치 및 방법
EP2676264B1 (en) 2011-02-14 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder estimating background noise during active phases
PL2676268T3 (pl) 2011-02-14 2015-05-29 Fraunhofer Ges Forschung Urządzenie i sposób przetwarzania zdekodowanego sygnału audio w domenie widmowej
PL2676266T3 (pl) 2011-02-14 2015-08-31 Fraunhofer Ges Forschung Układ kodowania na bazie predykcji liniowej wykorzystujący kształtowanie szumu w dziedzinie widmowej
MY159444A (en) 2011-02-14 2017-01-13 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V Encoding and decoding of pulse positions of tracks of an audio signal
EP2676267B1 (en) 2011-02-14 2017-07-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoding and decoding of pulse positions of tracks of an audio signal
JP6110314B2 (ja) 2011-02-14 2017-04-05 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 整列したルックアヘッド部分を用いてオーディオ信号を符号化及び復号するための装置並びに方法
AU2012217216B2 (en) 2011-02-14 2015-09-17 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for coding a portion of an audio signal using a transient detection and a quality result
ES2458436T3 (es) 2011-02-14 2014-05-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Representación de señal de información utilizando transformada superpuesta
RU2630390C2 (ru) 2011-02-14 2017-09-07 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для маскирования ошибок при стандартизированном кодировании речи и аудио с низкой задержкой (usac)
TWI480860B (zh) 2011-03-18 2015-04-11 Fraunhofer Ges Forschung 音訊編碼中之訊框元件長度傳輸技術
US8838261B2 (en) * 2011-06-03 2014-09-16 Apple Inc. Audio configuration based on selectable audio modes
JP5799707B2 (ja) * 2011-09-26 2015-10-28 ソニー株式会社 オーディオ符号化装置およびオーディオ符号化方法、オーディオ復号装置およびオーディオ復号方法、並びにプログラム
KR20150032614A (ko) * 2012-06-04 2015-03-27 삼성전자주식회사 오디오 부호화방법 및 장치, 오디오 복호화방법 및 장치, 및 이를 채용하는 멀티미디어 기기
CN110047498B (zh) 2013-02-20 2023-10-31 弗劳恩霍夫应用研究促进协会 用于对音频信号进行译码的译码器和方法
US20150100324A1 (en) * 2013-10-04 2015-04-09 Nvidia Corporation Audio encoder performance for miracast
EP2980791A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Processor, method and computer program for processing an audio signal using truncated analysis or synthesis window overlap portions
FR3024582A1 (fr) * 2014-07-29 2016-02-05 Orange Gestion de la perte de trame dans un contexte de transition fd/lpd
CN105632503B (zh) * 2014-10-28 2019-09-03 南宁富桂精密工业有限公司 信息隐藏方法及系统
US10504530B2 (en) * 2015-11-03 2019-12-10 Dolby Laboratories Licensing Corporation Switching between transforms
SG11201806246UA (en) 2016-01-22 2018-08-30 Fraunhofer Ges Forschung Apparatuses and methods for encoding or decoding a multi-channel audio signal using frame control synchronization
EP3382700A1 (en) * 2017-03-31 2018-10-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for post-processing an audio signal using a transient location detection
EP3616197A4 (en) 2017-04-28 2021-01-27 DTS, Inc. AUDIO ENCODER WINDOW SIZES AND TIME-FREQUENCY TRANSFORMATIONS
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998002971A1 (en) * 1996-07-11 1998-01-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. A method of coding and decoding audio signals
US20070009033A1 (en) * 2005-07-11 2007-01-11 Lg Electronics Inc. Apparatus and method of processing an audio signal

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2654294B1 (fr) 1989-11-08 1992-02-14 Aerospatiale Torche a plasma a amorcage par court-circuit.
JP2853553B2 (ja) * 1994-02-22 1999-02-03 日本電気株式会社 動画像符号化方式
KR100335611B1 (ko) * 1997-11-20 2002-10-09 삼성전자 주식회사 비트율 조절이 가능한 스테레오 오디오 부호화/복호화 방법 및 장치
KR100335609B1 (ko) * 1997-11-20 2002-10-04 삼성전자 주식회사 비트율조절이가능한오디오부호화/복호화방법및장치
US6446037B1 (en) * 1999-08-09 2002-09-03 Dolby Laboratories Licensing Corporation Scalable coding method for high quality audio
US6978236B1 (en) * 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
US7110953B1 (en) * 2000-06-02 2006-09-19 Agere Systems Inc. Perceptual coding of audio signals using separated irrelevancy reduction and redundancy reduction
BRPI0113271B1 (pt) * 2000-08-16 2016-01-26 Dolby Lab Licensing Corp método para modificar a operação da função codificadora e/ou da função decodificadora de um sistema de codificação perceptual de acordo com informação suplementar
DE10345995B4 (de) * 2003-10-02 2005-07-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Verarbeiten eines Signals mit einer Sequenz von diskreten Werten
SE0402651D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods for interpolation and parameter signalling
KR101215937B1 (ko) * 2006-02-07 2012-12-27 엘지전자 주식회사 IOI 카운트(inter onset intervalcount) 기반 템포 추정 방법 및 이를 위한 템포 추정장치
US8036903B2 (en) 2006-10-18 2011-10-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Analysis filterbank, synthesis filterbank, encoder, de-coder, mixer and conferencing system
US7953595B2 (en) * 2006-10-18 2011-05-31 Polycom, Inc. Dual-transform coding of audio signals
EP2015293A1 (en) * 2007-06-14 2009-01-14 Deutsche Thomson OHG Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain
KR101490246B1 (ko) * 2007-07-02 2015-02-05 엘지전자 주식회사 방송 수신기 및 방송신호 처리방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998002971A1 (en) * 1996-07-11 1998-01-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. A method of coding and decoding audio signals
US20070009033A1 (en) * 2005-07-11 2007-01-11 Lg Electronics Inc. Apparatus and method of processing an audio signal

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ISO/IEC: "《ISO/IEC 14496-3:2005(E)》", 1 December 2005 *
MARTIN WOLTERS ET AL: "A closer look into MPEG-4 High Efficiency AAC", 《115TH CONVENTION OF AES》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104981868A (zh) * 2012-12-11 2015-10-14 三星电子株式会社 对音频信号进行编码和解码的方法以及用于对音频信号进行编码和解码的设备
CN104981868B (zh) * 2012-12-11 2018-04-20 三星电子株式会社 对音频信号进行编码和解码的方法以及用于对音频信号进行编码和解码的设备
CN112400203A (zh) * 2018-06-21 2021-02-23 索尼公司 编码设备、编码方法、解码设备、解码方法、以及程序
CN111862953A (zh) * 2019-12-05 2020-10-30 北京嘀嘀无限科技发展有限公司 语音识别模型的训练方法、语音识别方法及装置
CN111862953B (zh) * 2019-12-05 2023-08-22 北京嘀嘀无限科技发展有限公司 语音识别模型的训练方法、语音识别方法及装置

Also Published As

Publication number Publication date
TWI459375B (zh) 2014-11-01
RU2011133691A (ru) 2013-03-10
US20120022881A1 (en) 2012-01-26
TW201032218A (en) 2010-09-01
EP2382625B1 (en) 2016-01-06
US8762159B2 (en) 2014-06-24
AU2010209756B2 (en) 2013-10-31
HK1163914A1 (zh) 2012-09-14
RU2542668C2 (ru) 2015-02-20
KR101316979B1 (ko) 2013-10-11
JP2012516462A (ja) 2012-07-19
KR20110124229A (ko) 2011-11-16
BRPI1005300B1 (pt) 2021-06-29
WO2010086373A3 (en) 2010-10-07
AU2010209756A1 (en) 2011-08-25
CA2750795A1 (en) 2010-08-05
BRPI1005300A2 (pt) 2016-12-06
CA2750795C (en) 2015-05-26
WO2010086373A2 (en) 2010-08-05
ES2567129T3 (es) 2016-04-20
MX2011007925A (es) 2011-08-17
EP2382625A2 (en) 2011-11-02
AR075199A1 (es) 2011-03-16
CN102334160B (zh) 2014-05-07

Similar Documents

Publication Publication Date Title
CN102334160B (zh) 音频编码器,音频解码器,编码和解码音频信号的方法
AU2008326957B2 (en) A method and an apparatus for processing a signal
CN103109318B (zh) 利用前向混迭消除技术的编码器
CN101218628B (zh) 编码和解码音频信号的装置和方法
CN1878001B (zh) 对音频数据编码及解码的设备及方法
CN101849258B (zh) 用于在可缩放音频编解码器中编码/解码的方法和装置
CN101518083B (zh) 通过使用带宽扩展和立体声编码对音频信号编码和/或解码的方法和系统
CN101512639B (zh) 用于语音/音频发送器和接收器的方法和设备
JP5606433B2 (ja) オーディオエンコーダ及びオーディオデコーダ
CN102047325A (zh) 基于核心编码器性能进行选择性信号代码化的方法和装置
CN102834862A (zh) 用于包括通用音频和语音帧的音频信号的编码器
KR102038077B1 (ko) 음성 복호 장치, 음성 부호화 장치, 음성 복호 방법, 음성 부호화 방법, 음성 복호 프로그램, 및 음성 부호화 프로그램
JP6911080B2 (ja) 変換長切替えをサポートする周波数ドメインオーディオ符号化
CN105659320A (zh) 音频编码器和解码器
CN101290774B (zh) 音频编码和解码系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant