CN101103393B - 音频信号的可缩放编码/解码 - Google Patents

音频信号的可缩放编码/解码 Download PDF

Info

Publication number
CN101103393B
CN101103393B CN2006800021105A CN200680002110A CN101103393B CN 101103393 B CN101103393 B CN 101103393B CN 2006800021105 A CN2006800021105 A CN 2006800021105A CN 200680002110 A CN200680002110 A CN 200680002110A CN 101103393 B CN101103393 B CN 101103393B
Authority
CN
China
Prior art keywords
bit
stream component
stream
waveform
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2006800021105A
Other languages
English (en)
Other versions
CN101103393A (zh
Inventor
A·W·J·乌门
L·M·范德柯克霍夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=36112620&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=CN101103393(B) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Koninklijke Philips Electronics NV filed Critical Koninklijke Philips Electronics NV
Publication of CN101103393A publication Critical patent/CN101103393A/zh
Application granted granted Critical
Publication of CN101103393B publication Critical patent/CN101103393B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

由第一波形编码器(103)编码音频信号以生成第一基于波形的位流分量。第二编码器(105)编码该音频信号以生成包含第一增强数据的第二位流分量,而第三编码器(107)编码该音频信号以生成第三位流分量,其中第三位流分量包含用于第一基于波形的位流分量的第二增强数据。所述第一基于波形的位流分量和第二位流分量对应于所述音频信号的第一表示,而第一基于波形的位流分量和第三位流分量对应于所述音频信号的第二表示。由位流生成器(109)生成可缩放音频位流。由解码器在不同的表示之间进行选择,由此允许传送一种灵活的和可缩放的位流。第二编码器(105)具体地可以是波形编码器,而第三编码器(107)具体地可以是参数编码器。

Description

音频信号的可缩放编码/解码
技术领域
本发明涉及音频信号的编码和/或解码,尤其涉及音频信号的可缩放表示。
背景技术
随着数字信号表示和通信已经逐渐替代模拟表示和通信,在过去十年里,各种源信号的数字编码已经变得越来越重要。例如,诸如移动通信全球系统之类的移动电话系统基于数字语音编码。诸如视频和音乐之类的媒体内容的分发也越来越基于数字内容编码。
在音频与视频编码的环境中,编码信号的可缩放性是有利的,并且提供了编码信号的灵活的分发和处理。例如,编码信号可以依据质量、位速率和复杂度进行缩放。视频编码的具体例子是JPEG(联合图象专家小组)图象的递进质量。在音频编码中,使能快速编码转换到更低的质量的可缩放位流是已知的概念。
可缩放性提供了让例如服务器向它所寻址的每个设备递送已适配的流的可能性。该适配存在于一已准备流(变得可缩放)的传输部分中,其使用具有优先级的分层结构以便降低传输带宽。这个唯一流由解码器所容许的不同层构成:如果发送和解码全部层,则质量最优,但是对于允许信号复原仅仅第一层是必需的。显然,被接收/使用的可缩放性层越多,质量越好,但是位速率越高。可缩放性可以是具有大步幅的粗粒度的(通常每步几kbps)或者也可以是具有细粒度的(细粒度可缩放性)。后者允许在初始流中的任何位置,而不是仅仅层边界处进行切割。
理论上,编码器能够递送内在地提供细粒度可缩放性的位流,以便可以简单地通过丢弃分量来提取具有任何期望位速率的位流。然而,与专用编码器相比,这样的灵活的编码装置趋向于低效率,而专用编码器不提供这个功能性并因此对于许多应用没有竞争力。做为选择,可以通过利用以小步幅可选地提供可缩放性的残差编码装置来修改高效的波形核心编码装置,从而构造位速率可缩放的位流。对于较低的质量,可以简单地丢弃残差分量。这样的方法较不灵活,但是比较高效并因此具有竞争力。
随着诸如SBR(频带复制)和PS(参数立体声)之类的、基于参数编码技术的新编码装置的到来,可缩放性变得较不有效,这是因为通过从原始信号中减去参数编码的表示所获得的残差信号仍然具有高熵值。具体而言,由于在参数编码中使用的音频源模型,参数编码的信号倾向于不与原始音频信号类似。因此,对通过参数编码获得的、具有高熵值的残差信号进行编码没有效率,因为它需要相对高的位速率。
音频编码标准的例子是MPEG4(活动图像专家组4)标准。实际上,MPEG4不是标准化单个的音频编码/解码算法,而是标准化了多个编码和解码参数和技术,它们一起形成了可以从中进行选择的编码/解码工具集。MPEG4允许一些编码装置和工具进行组合。因此MPEG4提供了用于音频信号的高度灵活和高效的编码和解码系统。
或许由MPEG4标准化的最有名音频编码装置为高级音频编码AAC音频编码装置。MPEG4允许AAC与诸如SBR或者PS编码器的其它编码器相组合(分别称为HE-AAC和HE-AAC v2)。
此外,MPEG4还允许考虑到可缩放性的编码。
例如,MPEG4定义了位片算术编码(Bit Sliced Arithmetic Coding,BSAC)技术,其用一种允许细粒度的方案来替换AAC编码装置的无噪编码核心。BSAC可以以下降到每个通道1kbps的步幅来提供可缩放性。
结合AAC使用可缩放性,有可能实现大粒度可缩放性(例如8kbps步幅)。当带宽可用时,可以添加可缩放性层以便改善质量。这些富化(enrichment)层可以用命名为AAC可缩放的、类似于AAC的方案来编码。这个可缩放方案可用于支持位速率和带宽可缩放性。有大量的可缩放组合可用,其包括与其他技术的组合(类似于TwinVQ和CELP编码装置工具)。通道可缩放性也有可能,并且允许在几个层内从单声道进入立体声信号。
应当注意到,没有定义MPEG4工具的全部组合。然而,已经实现了一些组合,并且以所谓的MPEG4简档的形式进行了正式化。
经常通过使用(最新技术发展水平的)波形编码装置作为核心编码装置、并且将其和残差编码装置相组合以生成进一步增强的数据,来构造位速率可缩放的位流。核心编码装置和残差编码装置之一或者两者均可以提供大步幅或者小步幅的可缩放性。
然而,这样的系统不是在所有情况下都是最优的。特别是,和其它不可缩放的编码装置相比,它趋向于导致次最优的质量对位速率比。此外,所描述的方法对于诸如SBR和参数立体声之类的、近来引入的采用参数编码技术的编码装置而言是不切实际的,这是因为在这样的情况下,残差信号仍然禁止高熵值并因此要求高的位速率用于编码。此外,该系统相对不灵活并且趋向于仅仅提供有限的可缩放性。
因此,一种改进的用于编码和/或解码的系统将是有利的,特别是一种允许增加灵活性、改进质量对数据速率比、改进可缩放性、可实际实现、适合于参数编码/解码技术、和/或提高性能的系统将是有利的。
发明内容
因此,本发明寻求单独地或以任意组合地来优选地缓和、减轻或者消除上述缺点的其中一个或者多个。
根据本发明的第一方面,提供了一种用于从可缩放音频位流中生成多通道音频信号的解码器,所述解码器包含:用于接收可缩放音频位流的装置,该可缩放音频位流包含第一基于波形的位流分量、第二位流分量和第三位流分量,所述第一基于波形的位流分量和第二位流分量对应于音频信号的第一表示,而第一基于波形的位流分量和第三位流分量对应于多通道音频信号的第二表示;第一波形解码器,用于通过解码第一基于波形的位流分量来生成第一解码信号;以及第二解码器和第三解码器中的至少一个,所述第二解码器用于通过响应于第二位流分量来修改第一解码信号而生成该多通道音频信号,而所述第三解码器用于通过响应于第三位流分量来修改第一解码信号而生成该多通道音频信号。
本发明可以提供可缩放音频位流改进的可缩放性。本发明可以例如便于或者改进编码的多通道音频信号的分发和/或传输。可以实现灵活的系统,和/或在许多系统中可以选择适于特定条件的、改进的质量对数据速率比折衷。本发明尤其可以利用新编码/解码技术的优点,同时保持与现有技术的兼容性。在许多应用中可以实现改进的向后兼容性以及新编码器/解码器的方便引入。
可以通过低复杂度的处理从可缩放音频位流中获得不同地缩放的信号。具体而言,通常可以通过选择不同的位流分量来简单地获得具有不同位速率的表示。
可缩放音频位流可以包含基于相同基础编码的同一个音频信号的可替换表示。多通道音频信号可以由与两个可替换附加位流分量之一相组合的强制共享的位流来表示。应当理解,在一些实施例中,可以在该可缩放音频位流中存在进一步的位流分量,该可缩放音频位流包括与该多通道音频信号的进一步表示相对应的进一步可替换位流分量。
由第二解码器和/或第三解码器进行的解码可以包含对第一基于波形的位流分量的残差信号的确定。残差信号可以具体地对应于在由第一基于波形的位流分量所表示的信号和多通道音频信号之间的差值。
可缩放音频位流可以例如就质量、位速率和/或复杂度而言是可缩放的。
根据本发明的可选特征,第二位流分量是基于波形的位流分量,而且第二解码器是波形解码器。
这可以允许特别有利的性能,并且在许多应用中可以允许改进的、与现有音频信号通信和分配系统的兼容性。
基于波形的位流分量被理解为由波形编码装置/编码方法生成。在波形编码中,其目标是最小化作为在原始信号和编码表示之间的差值的编码误差或者残差信号。感知(Perceptual)音频编码是波形编码的特殊情况,其中在最小化之前感知地加权这个误差。感知音频编码装置利用感知的不相干性(perceptual irrelevancy),该感知的不相干性由那些不能由人类的听觉系统感觉出的信号分量来表示。因此,与其它信号分量相比,这样的信号分量可以被更粗略地量化。由人类听觉系统的心理声学(psychoacoustic)模型确定这个加权。通常,对于较高的位数量,这个编码误差将降低。
在一些实施例中,第二和第三解码器两者都是波形解码器。
根据本发明的可选特征,第三位流分量是基于参数的位流分量,而且第三解码器是参数解码器。
这可以允许特别有利的性能,并且可以允许对具有高的质量对数据速率比的数据信号进行高效编码。
参数编码/解码的使用可以允许这样的性能,即该性能接近于(或者相同于)可以为专用的不可缩放编码器/解码器实现的性能。而且,包括第三位流分量的数据速率增加趋向于是可接受的,且通常仅仅是对于更高数据速率和质量等级所要求的,在那里数据速率的增加是更可接受的。
参数位流分量被理解为由参数编码装置/编码方法生成。在参数编码中,其目标是最小化在原始的和编码的表示的感知质量之间的差值。因此,编码信号可以显著不同于原始信号,并导致大的误差或者残差信号。感知质量借助于人类听觉系统的心理声学模型来测量。除感知模型之外,参数音频编码装置还采用信号模型,用于对源建模。通常,对于较高的位数量,质量将饱和到信号模型的质量。
在一些实施例中,第二和第三解码器两者都是参数解码器。
在一些实施例中,第二解码器是波形解码器而第三解码器是参数解码器。编码信号可以通过可利用的波形编码和参数编码的各自优点来优化。
根据本发明的可选特征,第一表示的编码质量高于第二表示的编码质量。
本发明可以允许高效的可缩放性,并且可以允许在同一个位流中实现不同的质量等级。
根据本发明的可选特征,该解码器包含第二解码器和第三解码器两者、以及用于在第二解码器和第三解码器之间进行选择以便解码可缩放音频位流的装置。
这可以允许高效和灵活的解码器。该解码器可以例如用不同的质量等级和/或要求将该多通道音频信号分发到不同的目的地。该解码器可以是能够产生具有不同质量的信号的代码转换器的一部分。
根据本发明的可选特征,第一波形解码器是MPEG-2或者MPEG-4高级音频编码、即AAC解码器。本发明可以为AAC编码的音频信号提供改进的性能和可缩放性。
根据本发明的可选特征,第一波形解码器是MPEG 2层II、即LII解码器。本发明可以为MPEG 2 LII编码的音频信号提供改进的性能和可缩放性。
根据本发明的可选特征,第三解码器是参数立体声、即PS解码器。本发明可以通过对立体声信号的高效和灵活的编码而允许特别有利的性能和可缩放性。参数立体声解码可以提供这样的位流分量,其具有特别良好地补充基于波形的位流分量的特点。
根据本发明的可选特征,第三解码器是空间音频编码(Spatial Audio Coder)、即SAC解码器。本发明可以通过对信号的高效和灵活的空间音频编码而允许特别有利的性能和可缩放性。空间音频编装置解码可以提供这样的位流分量,其具有特别良好地补充基于波形的位流分量的特点。
根据本发明的可选特征,第二解码器是可缩放无损标准(Scaleable to Lossless Standard)、即SLS解码器。本发明可以通过对信号的高效和灵活的无损音频编码而允许特别有利的性能和可缩放性。可缩放无损标准解码可以提供这样的位流分量,其具有特别良好地补充参数位流分量的特点。具体而言,参数位流分量可以在适中的数据速率处提供高效编码的信号,而基于SLS的位流分量可以提供特别高的编码质量。例如,一些信号可能因为其与参数模型紧密匹配而特别适合于参数编码,而其它信号可能因为其不与参数模型良好匹配而由波形编码特别良好地编码。
根据本发明的可选特征,第二解码器是MPEG 2层II、即LII多通道扩展解码器。本发明可以通过对信号的高效和灵活的扩展编码而允许特别有利的性能和可缩放性。MPEG 2 LII多通道扩展解码可以提供这样的位流分量,其具有特别良好地补充参数位流分量的特点。
根据本发明的可选特征,该解码器是MPEG 4解码器。特别是,全部解码器和可缩放音频位流可以分别遵守MPEG-4标准。因此,全部解码器和解码算法可以从所定义的算法和要求的MPEG-4工具箱中选择出来。
根据本发明的可选特征,可缩放音频位流还包括相对于第一表示的、用于多通道音频信号的增强数据;而且解码器还包含用于响应于该增强数据生成多通道音频信号的装置。
这可以进一步改进解码信号的可缩放性和/或质量。该增强数据可以对应于相对于多通道音频信号的第一表示的、多通道音频信号的残差信号的编码。该增强数据可以具体包含来自残差信号的SLS编码的位流分量。
根据本发明的可选特征,所述可缩放音频位流还包括相对于第二表示的、用于多通道音频信号的增强数据;而且该解码器还包含用于响应于该增强数据而生成多通道音频信号的装置。
这可以进一步改进解码信号的可缩放性和/或质量。该增强数据可以对应于相对于多通道音频信号的第二表示的、多通道音频信号的残差信号的编码。该增强数据可以具体包含来自残差信号的SLS编码的位流分量。
根据本发明的可选特征,所述可缩放音频位流还包含第四位流分量;而且该解码器包含第四解码器,用于通过响应于第四位流分量来修改第一解码信号而生成多通道音频信号。
第一基于波形的位流分量和第四位流分量可以对应于多通道音频信号的第三表示。该特征可以提供改进的灵活性、性能和/或可缩放性。例如,第三位流分量可以是参数立体声编码信号,而第四位流分量可以是频带复制编码信号。
根据本发明的第二方面,提供了一种用于将多通道音频信号编码到可缩放音频位流中的编码器,所述编码器包含:第一波形编码器,用于将该多通道音频信号编码到第一基于波形的位流分量中;第二编码器,用于编码该多通道音频信号以生成第二位流分量,该第二位流分量包含用于第一基于波形的位流分量的第一增强数据,该第一基于波形的位流分量和第二位流分量对应于多通道音频信号的第一表示;第三编码器,用于编码该多通道音频信号以生成第三位流分量,该第三位流分量包含用于第一基于波形的位流分量的第二增强数据,该第一基于波形的位流分量和第三位流分量对应于多通道音频信号的第二表示;以及用于生成可缩放音频位流的装置,该可缩放音频位流包含第一基于波形的位流分量、第二位流分量和第三位流分量。
本发明可以提供可缩放音频位流改进的可缩放性。本发明可以例如便于或者改进编码的多通道音频信号的分发和/或传输。可以实现灵活的系统,和/或在许多系统中可以选择适于特定条件的、改进的质量对数据速率比折衷。本发明尤其可以利用参数编码/解码的优点。此外,在许多应用中可以实现改进的向后兼容性以及新编码器/解码器的方便引入。
由第二编码器和/或第三编码器进行的编码可以包含对第一基于波形的位流分量的残差信号的确定。该残差信号可以具体对应于在由第一基于波形的位流分量所表示的信号和多通道音频信号之间的差值。
应当理解:上面参考解码器描述的可选特征、评论和/或优点趋向于同样良好地适用于该编码器,而且对应的可选特征可以分别地或者以任意组合方式包括在该编码器中。
根据本发明的第三方面,提供了一种用于从可缩放音频位流中生成多通道音频信号的方法,所述方法包含:
接收可缩放音频位流,所述可缩放音频位流包含第一基于波形的位流分量、第二位流分量和第三位流分量,第一基于波形的位流分量和第二位流分量对应于多通道音频信号的第一表示,而第一基于波形的位流分量和第三位流分量对应于多通道音频信号的第二表示;通过解码第一基于波形的位流分量来生成第一解码信号;以及下述至少之一,即通过响应于第二位流分量来修改第一解码信号而生成多通道音频信号,和通过响应于第三位流分量来修改第一解码信号而生成多通道音频信号。
根据本发明的第四方面,提供了一种用于将多通道音频信号编码到可缩放音频位流中的方法,所述方法包含:将多通道音频信号编码到第一基于波形的位流分量中;编码该多通道音频信号以生成第二位流分量,该第二位流分量包含用于第一基于波形的位流分量的第一增强数据,该第一基于波形的位流分量和第二位流分量对应于多通道音频信号的第一表示;编码该多通道音频信号以生成第三位流分量,该第三位流分量包含用于第一基于波形的位流分量的第二增强数据,该第一基于波形的位流分量和第三位流分量对应于多通道音频信号的第二表示;以及生成可缩放音频位流,该可缩放音频位流包含第一基于波形的位流分量、第二位流分量和第三位流分量。
根据本发明的第五方面,提供了一种用于多通道音频信号的可缩放音频位流,其包含第一基于波形的位流分量、第二位流分量和第三位流分量,所述第一基于波形的位流分量和第二位流分量对应于多通道音频信号的第一表示,而所述第一基于波形的位流分量和第三位流分量对应于多通道音频信号的第二表示。
根据本发明的第六方面,提供了一种其上存储有这样的信号的存储介质。
根据本发明的第七方面,提供了一种用于接收可缩放多通道音频位流的接收机,所述接收机包含:用于接收可缩放音频位流的装置,所述可缩放音频位流包含第一基于波形的位流分量、第二位流分量和第三位流分量,所述第一基于波形的位流分量和第二位流分量对应于多通道音频信号的第一表示,而所述第一基于波形的位流分量和第三位流分量对应于多通道音频信号的第二表示;第一波形解码器,用于通过解码第一基于波形的位流分量来生成第一解码信号;以及第二解码器和第三解码器中的至少一个,所述第二解码器用于通过响应于第二位流分量来修改第一解码信号而生成多通道音频信号,所述第三解码器用于通过响应于第三位流分量来修改第一解码信号而生成多通道音频信号。
根据本发明的第八方面,提供了一种用于以可缩放音频位流来发送多通道音频信号的发射机,所述发射机包含:第一波形编码器,用于将多通道音频信号编码到第一基于波形的位流分量中;第二编码器,用于编码该多通道音频信号以生成第二位流分量,该第二位流分量包含用于第一基于波形的位流分量的第一增强数据,该第一基于波形的位流分量和第二位流分量对应于多通道音频信号的第一表示;第三编码器,用于编码该多通道音频信号以生成第三位流分量,该第三位流分量包含用于第一基于波形的位流分量的第二增强数据,该第一基于波形的位流分量和第三位流分量对应于多通道音频信号的第二表示;用于生成可缩放音频位流的装置,该可缩放音频位流包含第一基于波形的位流分量、第二位流分量和第三位流分量;以及用于发送该可缩放音频位流的装置。
根据本发明的第九方面,提供了一种用于发送音频信号的传输系统,所述传输系统包含:发射机和接收机,其中发射机包含:第一波形编码器,用于将多通道音频信号编码到第一基于波形的位流分量中;第二编码器,用于编码该多通道音频信号以生成第二位流分量,该第二位流分量包含用于第一基于波形的位流分量的第一增强数据,该第一基于波形的位流分量和第二位流分量对应于多通道音频信号的第一表示;第三编码器,用于编码该多通道音频信号以生成第三位流分量,该第三位流分量包含用于第一基于波形的位流分量的第二增强数据,该第一基于波形的位流分量和第三位流分量对应于多通道音频信号的第二表示;用于生成可缩放音频位流的装置,该可缩放音频位流包含第一基于波形的位流分量、第二位流分量和第三位流分量;以及用于发送该可缩放音频位流的装置;而接收机包含:用于接收可缩放音频位流的装置;第一波形解码器,用于通过解码第一基于波形的位流分量来生成第一解码信号;以及第二解码器和第三解码器中的至少一个,所述第二解码器用于通过响应于第二位流分量来修改第一解码信号而生成多通道音频信号,所述第三解码器用于通过响应于第三位流分量来修改第一解码信号而生成多通道音频信号。
根据本发明的第十方面,提供了一种从可缩放音频位流中接收多通道音频信号的方法,所述方法包含:接收可缩放音频位流,所述可缩放音频位流包含第一基于波形的位流分量、第二位流分量和第三位流分量,第一基于波形的位流分量和第二位流分量对应于多通道音频信号的第一表示,而第一基于波形的位流分量和第三位流分量对应于多通道音频信号的第二表示;通过解码第一基于波形的位流分量来生成第一解码信号;以及下述至少之一,即通过响应于第二位流分量来修改第一解码信号而生成多通道音频信号,和通过响应于第三位流分量来修改第一解码信号而生成多通道音频信号中。
根据本发明的第十一方面,提供了一种以可缩放音频位流来发送多通道音频信号的方法,所述方法包含:将多通道音频信号编码到第一基于波形的位流分量中;编码该多通道音频信号以生成第二位流分量,该第二位流分量包含用于第一基于波形的位流分量的第一增强数据,该第一基于波形的位流分量和第二位流分量对应于多通道音频信号的第一表示;编码该多通道音频信号以生成第三位流分量,该第三位流分量包含用于第一基于波形的位流分量的第二增强数据,该第一基于波形的位流分量和第三位流分量对应于多通道音频信号的第二表示;生成可缩放音频位流,该可缩放音频位流包含第一基于波形的位流分量、第二位流分量和第三位流分量;以及发送该可缩放音频位流。
根据本发明的第十二方面,提供了一种发送和接收多通道音频信号的方法,所述方法包含:将多通道音频信号编码到第一基于波形的位流分量中;编码该多通道音频信号以生成第二位流分量,该第二位流分量包含用于第一基于波形的位流分量的第一增强数据,该第一基于波形的位流分量和第二位流分量对应于多通道音频信号的第一表示;编码该多通道音频信号以生成第三位流分量,该第三位流分量包含用于第一基于波形的位流分量的第二增强数据,该第一基于波形的位流分量和第三位流分量对应于多通道音频信号的第二表示;生成可缩放音频位流,该可缩放音频位流包含第一基于波形的位流分量、第二位流分量和第三位流分量;发送该可缩放音频位流;接收该可缩放音频位流;通过解码第一基于波形的位流分量来生成第一解码信号;以及下述至少之一,即通过响应于第二位流分量来修改第一解码信号而生成多通道音频信号,和通过响应于第三位流分量来修改第一解码信号而生成多通道音频信号。
根据本发明的第十三方面,提供了一种用于执行先前所述的任一方法的计算机程序产品。
根据本发明的第十四方面,提供了一种包含先前所述的解码器的音频播放设备。
根据本发明的第十五方面,提供了一种包含先前所述的解码器的录音设备。
通过参考下文中所述的一个或者多个实施例,本发明的这些及其它方面、特征和优点将变得明显并且得到阐述。
附图说明
将参考附图,仅仅作为例子来描述本发明的实施例,在附图中:
图1说明了编码器;
图2说明了解码器;
图3说明了编码器的例子;
图4说明了可缩放音频位流的例子;
图5说明了根据本发明的一些实施例的编码器的例子;
图6说明了根据本发明一些实施例的可缩放音频位流的例子;
图7说明了根据本发明的一些实施例的编码器的例子;
图8说明了根据本发明一些实施例的可缩放音频位流的例子;以及
图9说明了根据本发明的一些实施例的、用于音频信号通信的传输系统。
具体实施例
下列描述集中于与根据MPEG-4标准的音频编码相兼容的本发明实施例。然而,应当理解:本发明不局限于这个应用,而且可以应用于许多其它编码/解码标准或者技术。
图1说明了编码器100的例子。
编码器100包含编码接收机101,其接收音频信号以用于编码。音频信号可以从任何适当的内部或者外部源接收,并且可以例如具有脉码调制(PCM)采样的数字单声道音频信号的形式。编码接收机101耦接到第一波形编码器103,向其馈送数字化音频信号。
第一波形编码器编码该音频信号以产生第一基于波形的位流分量。特别地,第一波形编码器103可以使用被该编码信号的预定接收机广泛使用的波形编码技术。例如,在音乐分发系统中,大量用户可能使用特定解码算法,于是第一波形编码器103可以应用与这种解码算法兼容的编码技术,以便实现高度兼容性。
在波形编码中,编码器寻求最小化作为在原始信号和编码表示之间的差值的编码误差。通常,对于增加的位速率,这个编码误差将降低。波形编码技术的例子包括可缩放无损标准、即SLS,以及自适应差分脉码调制(ADPCM)编码。其它例子包括感知波形编码技术,其中被最小化的是感知加权的编码误差而不是严格的数学距离编码误差。对于感知波形编码,位速率增加导致感知加权编码误差的降低。感知波形编码装置的例子包括AAC(高级音频编码)、MP3(运动图像专家组3)、AC3(音频编码3)、CELP(码激励线性预测)等。
在图1的编码器101中,第一波形编码器103用作基础编码器,其使用一种提供与大量预定接收机兼容的位流的编码算法。然而,在该示例中,将第一波形编码器103的编码质量等级设置得相对低,导致第一位流分量降低的数据速率。因此,第一位流分量可以对应于该音频信号的一个表示,这里,数据速率和质量之间的折衷被设置在与相对低数据速率和质量相对应的操作点处。
第一波形编码器103可以本身提供具有一些可缩放性的第一位流分量。
在图1的编码器101中,编码接收机101还耦接到第二编码器105。第二编码器105也接收该音频信号并且着手来编码这个信号以生成第二位流分量。第二编码器105耦接到第一波形编码器103,并且着手来相对于第一位流的音频信号表示来编码该音频信号,以便第一位流分量和由第二编码器105创建的第二位流分量一起形成音频信号的表示。因此,可以认为第二位流分量的数据是用于第一位流分量的增强数据。
在这个特定例子中,第二编码器105是波形编码器,但是在其它例子中,第二编码器105可以例如是参数编码器。
作为特定的例子,第二编码器105可以生成残差信号,作为原始信号和基于来自第一波形编码器103的数据的重新编码信号之间的差值。然后可以使用波形编码算法对所得到的差值信号进行编码。例如,可以使用SLS算法来生成第二位流分量。因此,第一位流分量可以对应于音频信号的相对低质量/低数据速率的表示,而第一和第二位流分量一起对应于音频信号的相对较高质量/较高数据速率的表示。
SLS(可缩放无损)编码的目的在于在频域中编码残差信号。在该示例中,这个残差信号是在音频信号和其AAC/BSAC编码及解码信号之间的差值。以这种方法,AAC/BSAC解码器将处理有损部分,而如果需要完美的表示,则可以恢复无损解码信号。
编码接收机101还耦接到第三编码器107,其也接收音频信号。在图1的特定例子中,第三编码器107是使用参数编码算法来编码音频信号以生成第三位流分量的参数编码器。参数编码是参考由第一波形编码器103进行的编码来执行的。具体而言,第三编码器107可以生成用于第一位流分量的增强数据,以便第一位流分量和第三位流分量一起对应于音频信号的表示,其比第一位流分量本身的表示具有更高的质量(但是具有增加的位速率)。
应当理解,第三编码器107一般不会仅仅编码在原始信号和第一波形编码器103的编码信号之间的差值信号,这是因为这个信号仍然可能具有高熵值并且可能不适于参数编码。然而,第三编码器107可能对音频信号进行编码,以提供未由第一位流完全表示的音频信号的参数和特征的改进表示。例如,第三编码器107可特别地编码未由第一波形编码器103考虑或者仅仅部分考虑的较高频和/或多通道分量。
在该示例中,通过参数编码算法生成第三位流分量。在参数编码中,编码器寻求最小化在原始的和编码的表示的感知质量之间的差值。为此目的,一般使用参数模型并且发送该模型的参数。因此,该编码寻求提供允许解码器再现参数模型和激励信号(以及可能的残差信号)的数据。对于参数编码器来说,不趋向于在编码误差量和编码位数目之间存在严格的关系。参数编码装置或者编码工具的例子包括:MPEG-4谐波独立线和噪声、即(Harmonics,Individual Lines and Noise,HILN),MPEG-4谐波矢量激励编码、即HVXC,MPEG4正弦编码、即SSC(也称为用于高质量音频的参数编码),Vo-编码器,频带复制,参数立体声和空间音频。
在图1的例子中,编码接收机101将相同的信号馈送给第一波形编码器103、第二编码器105和第三编码器107,第二和第三编码器105、107参考由第一波形编码器103对音频信号进行的编码来编码该音频信号。然而,应当理解,在其它例子中,编码接收机101可以将不同的信号馈送给不同的编码器。例如,编码接收机101可以将音频信号划分为低频信号部分和高频信号部分,并且可以将低频部分馈送给第一波形编码器103,而将高频部分馈送给第二编码器10和第三编码器107。
第一波形编码器103、第二编码器105和第三编码器107全部耦接到位流生成器109,其从这些编码器接收第一、第二和第三位流分量。位流生成器109着手来生成包含这些位流分量的编码位流。此外,位流生成器109可以包括其它数据,诸如控制数据、信令数据、头标数据、路由数据等。在一些例子中,位流生成器109可以生成分组化数据流,其可以在诸如Internet之类的、基于分组的网络中分发。
因此,编码器100生成用于音频信号的可缩放音频位流,其包含第一基于波形的位流分量、第二位流分量和第三位流分量。此外,该可缩放位流包含音频信号的可替换表示,该第一基于波形的位流分量和第二位流分量对应于音频信号的第一表示,以及第一基于波形的位流分量和第三位流分量对应于音频信号的第二表示。此外,基于波形的位流分量本身可以对应于信号的独立表示。
在传统可缩放信号中每个可缩放层建立在先前层上以提供连续增加的增强,与传统可缩放信号相反,编码器100的可缩放信号提供了音频信号的可替换和无关增强数据,其中解码器可以在不同增强数据之间进行选择。因此,第二和第三位流分量代表与同一个信号相关的可替换信息,该信号具有与同一个基础波形编码位流相关的、彼此无关的两个分量。因此,可以重新创建第一表示而不考虑第三位流分量,并且可以重新创建第二表示而不考虑第二位流分量。
所描述的例子可因此生成具有增加的灵活性和改进的性能的可缩放信号。例如,可缩放信号可以使用第二编码器105来生成与大量现有编码装置兼容的增强数据、由此提供向后兼容性,而第三编码器107可以用来使用最新技术的参数编码来生成高效编码信号。因此,在允许引入更新的编码技术的同时,可以实现向后兼容性。
图2说明了解码器200的例子。
该解码器包含解码接收机201,其接收可缩放音频位流。具体而言,解码接收机201可以接收由图1中的编码器100生成的可缩放音频位流。因此,解码器200接收音频位流,该音频位流包含第一基于波形的位流分量、第二位流分量和第三位流分量,该第一基于波形的位流分量和第二位流分量对应于音频信号的第一表示,而第一基于波形的位流分量和第三位流分量对应于音频信号的第二表示。
解码接收机201耦接到第一波形解码器203,其通过解码第一基于波形的位流分量来生成第一解码信号。因此,第一波形解码器203实现了对由第一波形编码器103施加的编码处理的互补处理。
解码接收机201还耦接到第二解码器205和第三解码器207。向第二解码器205馈给第二位流分量,并且向第三解码器207馈给第三位流分量。在图2的例子中,第二解码器205和第三解码器207两者还耦接到第一波形解码器203,并且从那里被馈给了第一解码信号。
第二解码器205可进行操作来响应于第二位流分量的数据而修改第一解码信号,以便生成第二解码信号,其可以具有相对于第一解码信号的改进质量。
具体而言,第二解码器205可以是波形解码器,其通过对第二位流分量的波形解码来确定残差信号。第二解码器205然后可以着手来将残差信号加到第一解码信号中,由此生成最初编码的音频信号的更准确表示。
类似地,第三解码器207可进行操作来响应于第三位流分量的数据而修改第一解码信号,以便生成第三解码信号,其可以具有相对于第一解码信号的改进质量。
例如,第三解码器207也可以是波形解码器,其通过对第三位流分量的波形解码来确定残差信号。在这个例子中,第三位流可以对应于残差信号的更准确编码(处于较高数据速率)。第三解码器207然后可以着手来将残差信号加到第一解码信号中,由此生成与第二解码信号相比起来更准确的最初编码音频信号的表示。
作为另一个例子(其与作为参数编码器的第三编码器107兼容),第三解码器207可以是参数解码器,其可以通过对第三位流分量进行解码来确定第一信号的进一步特性。例如,第三编码器107可以确定第一解码信号的多通道或者高频特性,而且这些特性可以用来修改第一解码信号以生成更准确的和/或多通道解码的信号。
因此,解码器200包含第二解码器205和第三解码器207,其中第二解码器205生成与可缩放音频位流中的音频信号的第一表示相对应音频信号,而第三解码器207生成与可缩放音频位流中的音频信号的第二表示相对应的音频信号。
第二和第三解码器205、207耦接到输出处理器209,其在来自解码器205、207的解码信号之间进行选择。
应当理解,在其它例子中,可以由解码器生成分别与第一和第二表示相对应的第二和第三解码信号的仅仅其中之一。
此外,在一些例子中,解码器可以生成第二和第三解码信号两者,并且可以重新编码这些信号并且将它们传送到不同的编码器。因此,解码器200可以实现这样的代码转换功能,其中接收组合的可缩放音频位流,并且从中生成不同编码的位流。然后可以将不同的位流发送到不同的目的地。因此,解码器200可以是代码转换器,其提供了在可缩放音频位流和不同类型解码器之间的接口。
还应当理解,在一些例子中,组合了第一波形解码器203和第二解码器205和/或第一波形解码器203和第三解码器207的功能性。例如,第二解码器205可以直接组合第一和第二位流分量以生成这样的编码数据,其被一起解码以生成第二解码信号而不用接收单独生成的第一解码信号。类似地,第三解码器207可以直接组合第一和第三位流分量以生成这样的编码数据,其被一起解码以生成第三解码信号而不用接收单独生成的第一解码信号。因此,不需要生成由第二解码器205和第三解码器207两者使用的公共第一解码信号。
在下面,将具体参考编码器来描述一些更具体的示范性例子。应当理解,所述例子的原理、特性和公开内容可以容易地应用于对应的解码器例子。
图3说明了编码器的例子。在该例子中,假定位流支持从低位速率(有损)朝向高位速率(无损)的小步幅的可缩放性,并从MPEG-4音频编码工具箱中取得全部编码工具。
在该例子中,AAC编码不仅被用于第一波形编码器而且还用于第二编码器,而频带复制即SBR编码器被用于第三编码器。
在SBR中,信号高音调(pitched)部分的形状由编码器表征(例如,就等级、音噪比(tonal to noise ratio)、单音(individual tone)位置和噪声最低水平而言)。该SBR解码器使用这些提示外加频谱的较低部分来重建该频谱的较高部分,其中频谱的较低部分使用核心编码器(例如AAC)来发送。通常,当与24kbps的AAC一起使用时,仅占核心编码装置位速率的一小部分(通常大约1.5-4kbps)的SBR数据被用来描述高频内容。结果,使用这些组合获得的质量已表明以前向和后向兼容的方式被改进了:核心解码器可以解码核心流,丢弃SBR信息。准许SBR的解码器可以解码整个信号。SBR已经成功地应用于MPEG-4框架中的AAC。SBR工具能以两种模式进行操作,即单速率和双速率模式。在双速率模式中,核心编码装置以采样频率的一半进行操作,而SBR工具输出全采样频率。在单速率模式中,核心编码装置和SBR工具两者都以全采样速率进行操作。
在图3的例子中,低通滤波器301接收音频信号并且将其分离为高频和低频部分。
低频部分被馈送给以采样频率的一半进行操作的MPEG-4AAC-BSAC编码装置303(即,AAC-BSAC编码器和AAC-BSAC解码器的串联)。AAC-BSAC编码装置303生成代表所接收音频信号的较低频率部分的第一位流分量。
较高频率被馈送给以采样频率的一半进行操作的常规AAC编码装置305(即,AAC编码器和AAC解码器的串联)。AAC编码装置305生成代表所接收音频信号的较高频率部分的第二位流分量。在该例子中,通过从原始音频信号中减去较低频率信号而导出较高频率部分。因此,较高频率部分可以被认为是由AAC-BSAC编码装置303编码的信号的残差信号。
此外,音频信号被馈送给SBR参数编码装置307,其还从AAC-BSAC编码装置303接收编码数据。SBR参数编码装置307着手来使用AAC/BSAC编码装置303作为核心编码装置器而生成SBR数据。因此,SBR参数编码装置307生成第三位流分量,其表示用于来自AAC-BSAC编码装置303的第一位流分量的增强数据。具体而言,第三位流分量包含用于AAC/BSAC编码信号的参数较高频率数据。
在该例子中,编码器还包含另外的编码装置,其生成用于与由第一和第二位流分量构成的音频信号的第一表示有关的音频信号的增强数据。具体地,AAC-BSAC编码装置303和AAC编码装置305耦接到SLS编码装置309,其中SLS编码装置309确定残差或者误差信号,即在原始音频信号和AAC/BSAC编码装置303及AAC编码装置309的组合输出信号之间的差值。然后借助于SLS算法对残差信号进行无损编码。因此,生成了第四位流分量,其提供了可缩放性的附加层。
应当理解,在一些例子中,可以使用类似的方法来生成用于由第一位流分量和第三位流分量构成的第二音频信号表示的进一步增强数据。
AAC-BSAC编码装置303、AAC编码装置305、SBR参数编码装置307和SLS编码装置309全部都耦接到输出生成器311,其生成包括第一、第二、第三和第四位流在内的组合位流。
因此,可以实现包含音频信号的可替换表示在内的可缩放编码音频信号。如图4所示,AAC波形位流分量(即由AAC编码器305编码的音频信号的HF部分)可以由SBR位流分量所代替。因此,已经基于同一个核心编码装置导出了第二和第三位流分量两者。存在由解码器取决于例如位速率对比质量折衷来选择这两个位流中的任何一个的灵活性。AAC/BSAC波形位流分量(第一位流分量)表示由AAC/BSAC编码器303编码的音频信号的较低频率部分。在一些例子中,音频信号的低频部分可以由AAC编码装置来编码(替代图3中的AAC/BSAC编码装置303)。
AAC/BSAC波形位流分量和AAC波形位流分量的组合形成了输入音频信号的第一高质量表示。AAC/BSAC波形位流分量和SBR位流分量的组合形成了输入音频信号的第二较低质量表示(但是处于降低的位速率)。
图5说明了根据本发明的一些实施例的编码器的例子。在这个例子中,对立体声音频信号进行编码。
该编码器包含参数立体声编码装置501,其生成参数立体声数据。参数立体声编码装置501耦接到单声道AAC/BSAC编码装置503,其生成该立体声信号的单声道AAC/BSAC有损表示。参数立体声编码装置501生成允许从这个信号中生成立体声信号的增强数据。
参数立体声是这样的编码技术,其目的在于连同起支持作用的单声道信号一起发送立体声声场的参数描述。这个参数的参数集一般仅仅使用几个kbps,并且可以在降至16kbps的速率处使能立体声。参数立体声已经成功地应用于包括MPEG-4SSC和AAC+SBR(MPEG-4高效AAC v2)在内的不同技术上。
图5中的编码器还包含第一SLS编码器505,其对相对于单声道AAC/BSAC编码信号的、左声道信号的残差信号执行SLS编码。此外,该编码器包含第二SLS编码器507,其执行对右立体声信号的SLS编码。
参数立体声编码装置501、单声道AAC/BSAC编码装置503、第一SLS编码器505和第二SLS编码器507全部都耦接到输出生成器509,其生成包含基础AAC/BSAC编码、参数立体声参数和左右声道SLS数据在内的可缩放编码位流。
在该例子中,参数位流分量可以由SLS波形位流分量所代替。AAC/BSAC波形位流分量和SLS波形位流分量的组合形成了输入音频信号的第一高质量表示。AAC/BSAC波形位流分量和参数立体声位流分量的组合形成了输入音频信号的第二较低质量表示(但是处于较低的位速率)。
图6说明了这样的音频位流的例子。在第一例子中,说明了完全可缩放位流。在该例子中,SLS残差基于用于左信号的AAC/BSAC编码装置。已经独立地获得了参数分量。在第二例子中,参数立体声与AAC/BSAC数据相组合,以创建具有较低位速率的立体声信号的有损表示。
图7说明了根据本发明的一些实施例的编码器的另一个例子。
在该例子中,编码器包含空间音频编码装置701,其生成空间音频数据。空间音频编码装置701耦接到MPEG2层II编码装置703,其生成编码立体声下混合(down-mix),该编码立体声下混合用作可以通过由空间音频编码装置701生成的位流来增强的基础数据。
空间音频编码是类似于参数立体声的技术,并且其能够以相对低的位速率(一般降至大约24kbps)捕获多通道图像。与单声道或者立体声下混合相结合,空间音频解码器能够重新生成多通道原始信号的表示。这种方法的显著优点是仅仅下混合信号需要被编码。空间辅助信息(side information)可以被包括在最终得到的位流的辅助数据部分中,从而允许与单声道或者立体声解码器的兼容性。
MPEG-2-层II编码装置703耦接到MPEG-2-LII扩展编码装置705。使用本领域技术人员已知的MPEG2矩阵技术,立体声下混合信号的两个通道可以由MPEG-2-LII扩展编码装置705转换为多通道表示。这个数据称为MPEG-2-LII多通道扩展数据。
MPEG-2-LII扩展编码装置705进-步耦接到SLS编码装置707,其使用SLS来为全部的通道无损编码残差信号。
空间音频编码装置701、MPEG-2-层II编码装置703、MPEG-2-LII扩展编码装置705和SLS编码装置707全部耦接到输出生成器709,其生成包含基础MPEG-2-层II数据、MPEG-2-LII多通道扩展数据、SLS数据和空间音频在内的可缩放编码位流。
图8说明了这样的音频位流的例子。如所示,空间音频编码位流分量可以由MPEG-2多通道扩展和SLS数据所代替。MPEG-2-LII波形位流分量和MPEG-2-LII多通道扩展及SLS波形位流分量的组合形成了输入音频信号的第一高质量表示。MPEG-2-LII波形位流分量和空间音频位流分量的组合形成了输入音频信号的第二较低质量表示(但是处于较低位速率)。
因此,在图8的第一例子中,说明了完全可缩放位流。在该例子中,SLS残差数据基于MPEG-2-LII多通道解码信号和原始信号之间的差值。立体声下混合由空间编码器创建。在第二例子中,MPEG-2-LII多通道数据和SLS数据由就所要求的位速率而言更有效的空间音频数据所替代。
在可替换实施例中,SLS编码也可以替代MPEG-2LII扩展位流分量。
应当理解,虽然所描述的实施例集中于那些把音频信号的两个可替换表示包含在可缩放位流中的实施例,但是在其它实施例中可以使用三个或更多的表示。例如,编码器可以包含波形编码器、参数立体声编码装置和SBR编码器,其用于为同一个下层基础编码装置生成扩展数据。
还应当理解,能以不同的方式来应用所述位流。例如,位流可以在传输侧被代码转换(导致例如降低的存储或者发送位速率),或者可以在接收侧被代码转换(导致例如降低的解码器复杂度或者对其它通道配置的支持)。还应当理解,代码转换仅仅是可选的,而且可以采用本发明的原理而不涉及任何代码转换。
图9说明了根据本发明的一些实施例的、用于音频信号通信的传输系统900。传输系统900包含发射机901,其通过具体可以是Internet的网络905耦接到接收机903。
在这个特定例子中,发射机是信号记录设备而接收机是信号播放设备,但是应当理解,在其它实施例中,可以在其它应用中使用一个发射机和接收机。例如,发射机和/或接收机可以是代码转换功能性的一部分,以及例如可以提供到其它信号源或者目的地的接口。
在这个支持信号记录功能的特定例子中,发射机901包含数字化器907,其接收模拟信号,并且通过采样和模数转换将其转化为数字PCM信号。
发射机901耦接到图1中的编码器100,编码器100如先前所述编码PCM信号。编码器100耦接到网络发射机909,其接收编码信号,并且与Internet接口以便通过Internet 905将编码信号发送到接收机903。
接收机903包含网络接收机911,其与Internet 905接口以便从发射机901接收编码信号。
网络接收机911耦接到图2中的解码器200。解码器200接收编码信号并且如先前所述解码该信号。特别是,解码器911可以解码第一表示或者第二表示。
在这个支持信号播放功能的特定例子中,接收机903还包含信号播放器913,其从解码器200接收解码的音频信号并且将其呈现给用户。具体而言,信号播放器913可以包含输出多通道音频信号所需要的数模转换器、放大器和扬声器。
应当理解,为了清楚起见,以上的描述已经参考不同的功能单元和处理器描述了本发明的实施例。然而,显然可以在无损于本发明的情况下,使用在不同功能单元或者处理器之间的任何适当的功能性分布。例如,被说明为要由分离的处理器或者控制器执行的功能性可以由同一个处理器或者控制器执行。因此,对特定功能单元的引用仅仅被看做是对用于提供所述功能的适当装置的引用,而不是对严格逻辑或物理结构或者组织的指示。
本发明能以任何适当形式来实现,包括硬件、软件、固件或者其任意的组合。本发明可以任选地至少部分地实现为在一个或多个数据处理器和/或数字信号处理器上运行的计算机软件。本发明实施例中的单元和部件能以任何适当的方式被物理地、功能地和逻辑地实现。实际上,所述功能性可以在单个单元、多个单元中实现,或者作为其它功能单元的一部分来实现。因而,本发明可以在单个单元中实现,或者可以被物理地和功能地分布在不同的单元和处理器之间。
虽然已经结合一些实施例描述了本发明,但是不打算使本发明受限于此处阐述的特定形式。相反,本发明的范围仅仅由所附权利要求来限制。另外,虽然特征可能看起来是结合特定实施例予以描述的,但是本领域的技术人员应当认识到,可以根据本发明来组合所述实施例的各个特征。在权利要求中,术语包含不排除其它单元或者步骤的存在。
此外,虽然被分别地列出,但是多个装置、单元或者方法步骤可以由例如单个单元或者处理器来实现。另外,虽然各个特征可能被包含在不同的权利要求中,但是这些特征可被有利地组合,而且被包括在不同权利要求中并不意味着特征组合不是可行的和/或不是有利的。此外,将特征包括在一类权利要求中并不意味着对该类的限制,而是表明根据情况,该特征同样适用于其它权利要求类别。此外,特征在权利要求中的次序并不意指这些特征必须按之操作的任何特定次序,而且特别是,方法权利要求中的各个步骤的次序并不意味着必须按这个次序来执行这些步骤。相反,能以任何适当的次序来执行这些步骤。此外,单个引用不排除多个。因此,对“一”、“一个”、“第一”、“第二”等的引用不排除多个。权利要求中的参考符号仅仅作为清晰化例子而被提供,其无论如何都不应该被看做是对权利要求范围的限制。

Claims (26)

1.一种用于从可缩放音频位流中生成多通道音频信号的解码器(200),所述解码器(200)包含:
-用于接收所述可缩放音频位流的装置(201),该可缩放音频位流包含第一基于波形的位流分量、第二位流分量和第三位流分量,所述第一基于波形的位流分量和第二位流分量对应于所述多通道音频信号的第一表示,而所述第一基于波形的位流分量和第三位流分量对应于所述多通道音频信号的第二表示;
-第一波形解码器(203),用于通过解码第一基于波形的位流分量来生成第一解码信号;
以及下列中的至少一个:
-第二解码器(205),用于通过响应于第二位流分量来修改第一解码信号而生成所述多通道音频信号;以及
-第三解码器(207),用于通过响应于第三位流分量来修改第一解码信号而生成所述多通道音频信号。
2.如权利要求1所述的解码器,其中,第二位流分量是基于波形的位流分量,而第二解码器(205)是波形解码器。
3.如权利要求1所述的解码器,其中,第三位流分量是基于参数的位流分量,而第三解码器(207)是参数解码器。
4.如权利要求1所述的解码器,其中,所述第一表示的编码质量高于第二表示的编码质量。
5.如权利要求1所述的解码器,其包含第二解码器(205)和第三解码器(207)两者,以及用于在第二解码器和第三解码器之间进行选择、以便解码所述可缩放音频位流的装置(209)。
6.如权利要求1所述的解码器,其中,第一波形解码器(203)是高级音频编码、即AAC解码器。
7.如权利要求1所述的解码器,其中,第一波形解码器(203)是MPEG-2 LII解码器。
8.如权利要求1所述的解码器,其中,第三解码器(207)是参数立体声、即PS解码器。
9.如权利要求1所述的解码器,其中,第三解码器(207)是空间音频编码、即SAC解码器。
10.如权利要求1所述的解码器,其中,第二解码器(205)是可缩放无损标准、即SLS解码器。
11.如权利要求1或9所述的解码器,其中,第二解码器(205)是MPEG-2 LII多通道扩展解码器。
12.如权利要求1所述的解码器,其中,解码器(200)是MPEG-4解码器。
13.如权利要求1所述的解码器,其中,所述可缩放音频位流还包括相对于第一表示的、用于多通道音频信号的增强数据;而且解码器(200)还包含用于响应于该增强数据来生成多通道音频信号的装置。
14.如权利要求1所述的解码器,其中,所述可缩放音频位流还包括相对于第二表示的、用于多通道音频信号的增强数据;而且解码器(200)还包含用于响应于该增强数据来生成多通道音频信号的装置。
15.如权利要求1所述的解码器,其中,所述可缩放音频位流还包含第四位流分量;而且所述解码器(200)包含第四解码器,用于通过响应于第四位流分量来修改第一解码信号而生成多通道音频信号。
16.一种用于将多通道音频信号编码到可缩放音频位流中的编码器(200),所述编码器(200)包含:
-第一波形编码器(103),用于将所述多通道音频信号编码到第一基于波形的位流分量中;
-第二编码器(105),用于编码所述多通道音频信号以生成第二位流分量,所述第二位流分量包含用于第一基于波形的位流分量的第一增强数据,所述第一基于波形的位流分量和第二位流分量对应于所述多通道音频信号的第一表示;
-第三编码器(107),用于编码所述多通道音频信号以生成第三位流分量,所述第三位流分量包含用于第一基于波形的位流分量的第二增强数据,所述第一基于波形的位流分量和第三位流分量对应于所述多通道音频信号的第二表示;以及
-用于生成所述可缩放音频位流的装置(109),该可缩放音频位流包含第一基于波形的位流分量、第二位流分量和第三位流分量。
17.一种从可缩放音频位流中生成多通道音频信号的方法,所述方法包含:
-接收所述可缩放音频位流,该可缩放音频位流包含第一基于波形的位流分量、第二位流分量和第三位流分量,所述第一基于波形的位流分量和第二位流分量对应于多通道音频信号的第一表示,而所述第一基于波形的位流分量和第三位流分量对应于多通道音频信号的第二表示;
-通过解码第一基于波形的位流分量来生成第一解码信号;
以及下列步骤中的至少一个:
-通过响应于第二位流分量来修改第一解码信号而生成多通道音频信号;以及
-通过响应于第三位流分量来修改第一解码信号而生成多通道音频信号。
18.一种将多通道音频信号编码到可缩放音频位流中的方法,所述方法包含:
-将所述多通道音频信号编码到第一基于波形的位流分量中;
-编码所述多通道音频信号以生成第二位流分量,所述第二位流分量包含用于第一基于波形的位流分量的第一增强数据,所述第一基于波形的位流分量和第二位流分量对应于所述多通道音频信号的第一表示;
-编码所述多通道音频信号以生成第三位流分量,所述第三位流分量包含用于第一基于波形的位流分量的第二增强数据,所述第一基于波形的位流分量和第三位流分量对应于所述多通道音频信号的第二表示;以及
-生成所述可缩放音频位流,该可缩放音频位流包含第一基于波形的位流分量、第二位流分量和第三位流分量。
19.一种用于接收可缩放多通道音频位流的接收机(903),所述接收机(903)包含:
-用于接收所述可缩放多通道音频位流的装置(201),该可缩放多通道音频位流包含第一基于波形的位流分量、第二位流分量和第三位流分量,所述第一基于波形的位流分量和第二位流分量对应于所述多通道音频信号的第一表示,而所述第一基于波形的位流分量和第三位流分量对应于所述多通道音频信号的第二表示;
-第一波形解码器(203),用于通过解码第一基于波形的位流分量来生成第一解码信号;
以及下列中的至少一个:
-第二解码器(205),用于通过响应于第二位流分量来修改第一解码信号而生成所述多通道音频信号;以及
-第三解码器(207),用于通过响应于第三位流分量来修改第一解码信号而生成所述多通道音频信号。
20.一种用于以可缩放音频位流来发送多通道音频信号的发射机(901),所述发射机(901)包含:
-第一波形编码器(103),用于将所述多通道音频信号编码到第一基于波形的位流分量中;
-第二编码器(105),用于编码所述多通道音频信号以生成第二位流分量,所述第二位流分量包含用于第一基于波形的位流分量的第一增强数据,所述第一基于波形的位流分量和第二位流分量对应于所述多通道音频信号的第一表示;
-第三编码器(107),用于编码所述多通道音频信号以生成第三位流分量,所述第三位流分量包含用于第一基于波形的位流分量的第二增强数据,所述第一基于波形的位流分量和第三位流分量对应于所述多通道音频信号的第二表示;
-用于生成所述可缩放音频位流的装置(109),该可缩放音频位流包含第一基于波形的位流分量、第二位流分量和第三位流分量;以及
-用于发送所述可缩放音频位流的装置(909)。
21.一种用于发送多通道音频信号的传输系统(900),所述传输系统包含:
发射机(901),其包含:
-第一波形编码器(103),用于将所述多通道音频信号编码到第一基于波形的位流分量中;
-第二编码器(105),用于编码所述多通道音频信号以生成第二位流分量,所述第二位流分量包含用于第一基于波形的位流分量的第一增强数据,所述第一基于波形的位流分量和第二位流分量对应于所述多通道音频信号的第一表示;
-第三编码器(107),用于编码所述多通道音频信号以生成第三位流分量,所述第三位流分量包含用于第一基于波形的位流分量的第二增强数据,所述第一基于波形的位流分量和第三位流分量对应于所述多通道音频信号的第二表示;
-用于生成所述可缩放音频位流的装置(109),该可缩放音频位流包含第一基于波形的位流分量、第二位流分量和第三位流分量;以及
-用于发送所述可缩放音频位流的装置(909);以及
-接收机,其包含:
-用于接收所述可缩放音频位流的装置(911);
-第一波形解码器(203),用于通过解码第一基于波形的位流分量来生成第一解码信号;
以及下列中的至少一个:
-第二解码器(205),用于通过响应于第二位流分量来修改第一解码信号而生成所述多通道音频信号;以及
-第三解码器(207),用于通过响应于第三位流分量来修改第一解码信号而生成所述多通道音频信号。
22.一种从可缩放音频位流中接收多通道音频信号的方法,所述方法包含:
-接收所述可缩放音频位流,该可缩放音频位流包含第一基于波形的位流分量、第二位流分量和第三位流分量,所述第一基于波形的位流分量和第二位流分量对应于多通道音频信号的第一表示,而所述第一基于波形的位流分量和第三位流分量对应于多通道音频信号的第二表示;
-通过解码第一基于波形的位流分量来生成第一解码信号;
以及下列步骤中的至少一个:
-通过响应于第二位流分量来修改第一解码信号而生成多通道音频信号;以及
-通过响应于第三位流分量来修改第一解码信号而生成多通道音频信号。
23.一种以可缩放音频位流发送多通道音频信号的方法,所述方法包含:
-将所述多通道音频信号编码到第一基于波形的位流分量中;
-编码所述多通道音频信号以生成第二位流分量,所述第二位流分量包含用于第一基于波形的位流分量的第一增强数据,所述第一基于波形的位流分量和第二位流分量对应于所述多通道音频信号的第一表示;
-编码所述多通道音频信号以生成第三位流分量,所述第三位流分量包含用于第一基于波形的位流分量的第二增强数据,所述第一基于波形的位流分量和第三位流分量对应于所述多通道音频信号的第二表示;
-生成所述可缩放音频位流,该可缩放音频位流包含第一基于波形的位流分量、第二位流分量和第三位流分量;以及
-发送所述可缩放音频位流。
24.一种发送和接收多通道音频信号的方法,所述方法包含:
-将所述多通道音频信号编码到第一基于波形的位流分量中;
-编码所述多通道音频信号以生成第二位流分量,所述第二位流分量包含用于第一基于波形的位流分量的第一增强数据,所述第一基于波形的位流分量和第二位流分量对应于所述多通道音频信号的第一表示;
-编码所述多通道音频信号以生成第三位流分量,所述第三位流分量包含用于第一基于波形的位流分量的第二增强数据,所述第一基于波形的位流分量和第三位流分量对应于所述多通道音频信号的第二表示;
-生成所述可缩放音频位流,该可缩放音频位流包含第一基于波形的位流分量、第二位流分量和第三位流分量;
-发送所述可缩放音频位流;
-接收所述可缩放音频位流;
-通过解码第一基于波形的位流分量来生成第一解码信号;
以及下列步骤中的至少一个:
-通过响应于第二位流分量来修改第一解码信号而生成多通道音频信号;以及
-通过响应于第三位流分量来修改第一解码信号而生成多通道音频信号。
25.一种音频播放设备(903),包含按照利要求1的解码器(200)。
26.一种录音设备(901),包含按照权利要求16的编码器(100)。
CN2006800021105A 2005-01-11 2006-01-06 音频信号的可缩放编码/解码 Active CN101103393B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP05100124 2005-01-11
EP05100124.6 2005-01-11
EP05104571 2005-05-27
EP05104571.4 2005-05-27
PCT/IB2006/050055 WO2006075269A1 (en) 2005-01-11 2006-01-06 Scalable encoding/decoding of audio signals

Publications (2)

Publication Number Publication Date
CN101103393A CN101103393A (zh) 2008-01-09
CN101103393B true CN101103393B (zh) 2011-07-06

Family

ID=36112620

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006800021105A Active CN101103393B (zh) 2005-01-11 2006-01-06 音频信号的可缩放编码/解码

Country Status (7)

Country Link
US (1) US7937272B2 (zh)
EP (1) EP1839297B1 (zh)
JP (1) JP5542306B2 (zh)
CN (1) CN101103393B (zh)
BR (1) BRPI0606387B1 (zh)
PL (1) PL1839297T3 (zh)
WO (1) WO2006075269A1 (zh)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8195470B2 (en) 2005-10-31 2012-06-05 Sk Telecom Co., Ltd. Audio data packet format and decoding method thereof and method for correcting mobile communication terminal codec setup error and mobile communication terminal performance same
EP1855271A1 (en) * 2006-05-12 2007-11-14 Deutsche Thomson-Brandt Gmbh Method and apparatus for re-encoding signals
EP1881485A1 (en) * 2006-07-18 2008-01-23 Deutsche Thomson-Brandt Gmbh Audio bitstream data structure arrangement of a lossy encoded signal together with lossless encoded extension data for said signal
EP1883067A1 (en) * 2006-07-24 2008-01-30 Deutsche Thomson-Brandt Gmbh Method and apparatus for lossless encoding of a source signal, using a lossy encoded data stream and a lossless extension data stream
WO2008082276A1 (en) * 2007-01-05 2008-07-10 Lg Electronics Inc. A method and an apparatus for processing an audio signal
GB0705328D0 (en) * 2007-03-20 2007-04-25 Skype Ltd Method of transmitting data in a communication system
KR101380170B1 (ko) * 2007-08-31 2014-04-02 삼성전자주식회사 미디어 신호 인코딩/디코딩 방법 및 장치
EP2500901B1 (en) 2009-11-12 2018-09-19 III Holdings 12, LLC Audio encoder apparatus and audio encoding method
CN102081927B (zh) * 2009-11-27 2012-07-18 中兴通讯股份有限公司 一种可分层音频编码、解码方法及系统
TWI516138B (zh) * 2010-08-24 2016-01-01 杜比國際公司 從二聲道音頻訊號決定參數式立體聲參數之系統與方法及其電腦程式產品
JPWO2012111325A1 (ja) * 2011-02-17 2014-07-03 パナソニック株式会社 映像符号化装置、映像符号化方法、映像符号化プログラム、映像再生装置、映像再生方法及び映像再生プログラム
US9424233B2 (en) 2012-07-20 2016-08-23 Veveo, Inc. Method of and system for inferring user intent in search input in a conversational interaction system
US9465833B2 (en) 2012-07-31 2016-10-11 Veveo, Inc. Disambiguating user intent in conversational interaction system for large corpus information retrieval
WO2014115225A1 (ja) * 2013-01-22 2014-07-31 パナソニック株式会社 帯域幅拡張パラメータ生成装置、符号化装置、復号装置、帯域幅拡張パラメータ生成方法、符号化方法、および、復号方法
CN104078048B (zh) * 2013-03-29 2017-05-03 北京天籁传音数字技术有限公司 一种声音解码装置及其方法
CN105493182B (zh) * 2013-08-28 2020-01-21 杜比实验室特许公司 混合波形编码和参数编码语音增强
EP2922057A1 (en) * 2014-03-21 2015-09-23 Thomson Licensing Method for compressing a Higher Order Ambisonics (HOA) signal, method for decompressing a compressed HOA signal, apparatus for compressing a HOA signal, and apparatus for decompressing a compressed HOA signal
EP2963646A1 (en) 2014-07-01 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and method for decoding an audio signal, encoder and method for encoding an audio signal
US9854049B2 (en) 2015-01-30 2017-12-26 Rovi Guides, Inc. Systems and methods for resolving ambiguous terms in social chatter based on a user profile
TWI693594B (zh) * 2015-03-13 2020-05-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
CA2985019C (en) * 2016-02-17 2022-05-03 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Post-processor, pre-processor, audio encoder, audio decoder and related methods for enhancing transient processing
MX2021001970A (es) * 2018-08-21 2021-05-31 Dolby Int Ab Métodos, aparatos y sistemas para generación, transporte y procesamiento de tramas de ejecución inmediata (ipfs).

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5886276A (en) * 1997-01-16 1999-03-23 The Board Of Trustees Of The Leland Stanford Junior University System and method for multiresolution scalable audio signal encoding
CN1218339A (zh) * 1997-11-20 1999-06-02 三星电子株式会社 可缩放的音频编码/解码方法和装置
EP1376538A1 (en) * 2002-06-24 2004-01-02 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
WO2004114672A1 (en) * 2003-06-19 2004-12-29 Thomson Licensing S.A. Method and apparatus for low-complexity spatial scalable encoding

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6728775B1 (en) 1997-03-17 2004-04-27 Microsoft Corporation Multiple multicasting of multimedia streams
WO1999016050A1 (en) 1997-09-23 1999-04-01 Voxware, Inc. Scalable and embedded codec for speech and audio signals
KR100335611B1 (ko) * 1997-11-20 2002-10-09 삼성전자 주식회사 비트율 조절이 가능한 스테레오 오디오 부호화/복호화 방법 및 장치
US6366888B1 (en) 1999-03-29 2002-04-02 Lucent Technologies Inc. Technique for multi-rate coding of a signal containing information
US6226616B1 (en) 1999-06-21 2001-05-01 Digital Theater Systems, Inc. Sound quality of established low bit-rate audio coding systems without loss of decoder compatibility
SE0202159D0 (sv) * 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
US7333929B1 (en) * 2001-09-13 2008-02-19 Chmounk Dmitri V Modular scalable compressed audio data stream
ES2268340T3 (es) * 2002-04-22 2007-03-16 Koninklijke Philips Electronics N.V. Representacion de audio parametrico de multiples canales.
DE10236694A1 (de) * 2002-08-09 2004-02-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum skalierbaren Codieren und Vorrichtung und Verfahren zum skalierbaren Decodieren
US7706544B2 (en) * 2002-11-21 2010-04-27 Fraunhofer-Geselleschaft Zur Forderung Der Angewandten Forschung E.V. Audio reproduction system and method for reproducing an audio signal
KR100561867B1 (ko) * 2003-03-07 2006-03-17 삼성전자주식회사 오디오 신호 처리 장치와 방법 및 컴퓨터 프로그램을저장하는 컴퓨터로 읽을 수 있는 기록 매체
US20050010396A1 (en) * 2003-07-08 2005-01-13 Industrial Technology Research Institute Scale factor based bit shifting in fine granularity scalability audio coding

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5886276A (en) * 1997-01-16 1999-03-23 The Board Of Trustees Of The Leland Stanford Junior University System and method for multiresolution scalable audio signal encoding
CN1218339A (zh) * 1997-11-20 1999-06-02 三星电子株式会社 可缩放的音频编码/解码方法和装置
EP1376538A1 (en) * 2002-06-24 2004-01-02 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
WO2004114672A1 (en) * 2003-06-19 2004-12-29 Thomson Licensing S.A. Method and apparatus for low-complexity spatial scalable encoding

Also Published As

Publication number Publication date
JP5542306B2 (ja) 2014-07-09
JP2008527439A (ja) 2008-07-24
CN101103393A (zh) 2008-01-09
EP1839297A1 (en) 2007-10-03
BRPI0606387A2 (pt) 2009-11-10
EP1839297B1 (en) 2018-11-14
WO2006075269A1 (en) 2006-07-20
US7937272B2 (en) 2011-05-03
PL1839297T3 (pl) 2019-05-31
US20080154615A1 (en) 2008-06-26
BRPI0606387B1 (pt) 2019-11-26

Similar Documents

Publication Publication Date Title
CN101103393B (zh) 音频信号的可缩放编码/解码
JP5674833B2 (ja) 符号化装置
CN1748443B (zh) 多声道音频扩展支持
CN101223578B (zh) 多通道音频的编码和解码
US8218775B2 (en) Joint enhancement of multi-channel audio
CN101120615B (zh) 多声道编码器和解码器以及相应的编码和解码方法
CN1271597C (zh) 对声源信号进行编码/解码的方法和装置
CN101542595B (zh) 用于编码和解码基于对象的音频信号的方法和装置
CN101896968A (zh) 音频编码装置及其方法
US20080004883A1 (en) Scalable audio coding
CN105580073A (zh) 音频解码器、音频编码器、用于基于已编码表示提供至少四个音频声道信号的方法、用于基于至少四个音频声道信号提供已编码表示的方法、及使用带宽扩展的计算机程序
CN1922654A (zh) 音频分发系统、音频编码器、音频解码器及其操作方法
JP2010515099A5 (zh)
CN1926610A (zh) 基于编码的多声道音频信号合成单声道音频信号
WO2007042108A1 (en) Temporal and spatial shaping of multi-channel audio signals
KR20090013177A (ko) 오브젝트 기반 오디오 신호를 인코딩 및 디코딩하는 방법 및 장치
JP2010529500A (ja) オーディオ信号処理方法及び装置
CN1669359A (zh) 音频编码
JP4555299B2 (ja) スケーラブル符号化装置およびスケーラブル符号化方法
CN102067210B (zh) 用于对音频信号进行编码和解码的设备和方法
JP2013137563A (ja) ストリーム合成装置、復号装置、ストリーム合成方法、復号方法、およびコンピュータプログラム
CN104704557B (zh) 用于在空间音频对象编码中适配音频信息的设备和方法
US8838460B2 (en) Apparatus for playing and producing realistic object audio
Aggarwal et al. Efficient bit-rate scalability for weighted squared error optimization in audio coding
Chiang et al. Advances in Low Bit-Rate Audio Coding: A Digest of Selected Papers from Recent AES Conventions

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant