CN105164749A

CN105164749A - 多声道音频的混合编码

Info

Publication number: CN105164749A
Application number: CN201480024351.4A
Authority: CN
Inventors: P·威廉姆斯; M·舒格; R·特辛
Original assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Current assignee: Dolby International AB; Dolby Laboratories Licensing Corp
Priority date: 2013-04-30
Filing date: 2014-04-22
Publication date: 2015-12-16
Anticipated expiration: 2034-04-22
Also published as: TW201513096A; BR112015026963B1; JP6181854B2; US8804971B1; EP2992528A4; HK1215490A1; CN105164749B; TWI521502B; EP2992528B1; KR101750732B1; WO2014179119A1; BR112015026963A2; KR20150138328A; RU2581782C1; EP2992528A1; JP2016522909A

Abstract

一种用于对多声道音频输入信号进行编码的方法，包括以下步骤：产生输入信号的声道的子集的低频分量的下混；对下混的每个声道进行波形编码，从而产生经波形编码的下混数据；对输入信号的每个声道的至少一些更高频分量执行参数化编码，从而产生经参数化编码的数据；并且产生指示经波形编码的下混数据和经参数化编码的数据的编码音频信号(例如，E-AC-3编码音频信号)。其它方面是用于对这种编码信号进行解码的方法、以及被配置为执行本发明方法的任何实施例的系统。

Description

多声道音频的混合编码

相关申请的交叉引用

本申请要求2013年4月30日提交的美国临时专利申请No.61/817729的优先权，该申请的全部内容通过引用并入于此。

技术领域

本发明涉及音频信号处理，更具体地，涉及多声道音频编码(例如，对指示多声道音频信号的数据的编码)和解码。在典型实施例中，多声道输入音频的个体声道的低频分量的下混(downmix)经受波形编码(waveformcoding)，而输入音频的其它(更高频)频率分量经受参数化编码(parametriccoding)。一些实施例根据被称为AC-3和E-AC-3(增强型AC-3)的格式之一或者根据另一种编码格式对多声道音频数据进行编码。

背景技术

杜比实验室提供分别被称为杜比数字(DolbyDigital)和杜比数字加(DolbyDigitalPlus)的AC-3和E-AC-3的专有实现。杜比、杜比数字和杜比数字加是杜比实验室授权公司的商标。

尽管本发明不限于在根据E-AC-3(或AC-3)格式对音频数据进行编码时使用，但是为了方便起见，将在实施例中描述根据E-AC-3格式来对音频比特流进行编码。

AC-3或E-AC-3编码的比特流包括元数据，并且可以包括音频内容的1至6个声道。音频内容是已经使用感知音频编码来压缩的音频数据。AC-3编码的细节是众所周知的，并且在许多发表的参考文献中得到阐述，包括：

ATSC标准A52/A:DigitalAudioCompressionStandard(AC-3),修订版A,先进电视系统委员会,2001年8月20日；以及

美国专利5583962、5632005、5633981、5727119和6021386。

杜比数字加(E-AC-3)编码的细节例如在下文中得到阐述：“IntroductiontoDolbyDigitalPlus,anEnhancementtotheDolbyDigitalCodingSystem”,AES会议论文6196,第117届AES会议,2004年10月28日。

AC-3编码音频比特流的每帧包含针对数字音频的1536个样本的音频内容和元数据。对于48kHz的采样速率，这表示32毫秒的数字音频或音频的31.25帧/秒的速率。

E-AC-3编码音频比特流的每帧包含针对数字音频的256、512、768或1536个样本的音频内容和元数据，这分别取决于该帧是包含音频数据的一个、两个、三个还是六个块。

由E-AC-3编码的典型实现方式执行的音频内容编码包括波形编码和参数化编码。

音频输入信号的波形编码(典型地被执行为对信号进行压缩以使得编码信号包括比输入信号更少的比特)以服从适用约束、尽可能多地保留输入信号的波形的方式(例如，使得编码信号的波形最大程度地匹配输入信号的波形)对输入信号进行编码。例如，在常规的E-AC-3编码中，对多声道输入信号的每个声道的低频分量(典型地，上至3.5kHz或4.6kHz)执行波形编码，以通过(在频域中)产生输入信号的每个声道的每个低频带的每个样本(其为频率分量)的量化表示(量化的尾数和指数)来对输入信号的这种低频内容进行压缩。

更具体地，E-AC-3编码器(以及一些其它常规的音频编码器)的典型实现方式实现了心理声学模型，以在带(即，典型地，50个不均匀的带，近似于公知的被称为Bark标度(Barkscale)心理声学标度的频带)的基础上对指示输入信号的频域数据进行分析来确定对于每个尾数的最佳比特分配。为了对输入信号的低频分量执行波形编码，将尾数数据(指示低频分量)量化为与确定的比特分配对应的比特数量。然后将量化的尾数数据(以及对应的指数数据，典型地还有对应的元数据)格式化为编码的输出比特流。

参数化编码(另一种公知的音频信号编码)提取并编码输入音频信号的特征参数，以使得(在编码和随后的解码之后的)重构信号具有尽可能少的可懂度(服从适用约束)，但使得编码信号的波形与输入信号的波形迥然不同。

例如，2003年10月9日公开的PCT国际申请公开号WO03/083834A1以及2004年11月25日公开的PCT国际申请公开号WO2004/102532A1描述了一种被称为频谱扩展编码(spectralextensioncoding)的参数化编码。在频谱扩展编码中，将全频率范围音频输入信号的频率分量编码为有限频率范围信号(基带信号)的频率分量序列和对应的编码参数序列(指示残余信号)，该编码参数序列(与基带信号一起)确定全频率范围输入信号的近似版本。

另一种公知的参数化编码是声道耦合编码。在声道耦合编码中，音频输入信号的声道的单音下混被构造。输入信号被编码为该下混(频率分量序列)和对应的耦合参数序列。耦合参数是(与下混一起)确定输入信号的每个声道的近似版本的水平参数。耦合参数是使单音下混的能量与输入信号的每个声道的能量匹配的频带化元数据。

例如，常规的对5.1声道输入信号的E-AC-3编码(为了传输编码信号，可用比特率为192kbps)典型地实现声道耦合编码和频谱扩展编码，其中声道耦合编码对输入信号的每个声道的中频分量(在范围F1<f≤F2内，其中，F1典型地等于3.5kHz或4.6kHz，F2典型地等于10kHz或10.2kHz)进行编码，频谱扩展编码对输入信号的每个声道的高频分量(在范围F2<f≤F3内，其中，F2典型地等于10kHz或10.2kHz，F3典型地等于14.8kHz或16kHz)进行编码。在执行声道耦合编码期间确定的单音下混被波形编码，并且经波形编码的下混连同耦合参数一起传输(在编码的输出信号中)。在执行声道耦合编码期间确定的下混被用作频谱扩展编码的基带信号。频谱扩展编码(从输入信号的每个声道的基带信号和高频分量)确定另一组编码参数(SPX参数)。SPX参数被包括在编码的输出信号中，并且与其一起传输。

在有时被称为空间音频编码的另一种参数化编码中，多声道音频输入信号的声道的下混(例如，单声道或立体声下混)被生成。输入信号被编码为包括该下混(频率分量序列)和对应的空间参数序列的输出信号(或者被编码为该下混的每个声道的波形编码版本与对应的空间参数序列)。空间参数允许从输入信号的下混中恢复音频输入信号的每个声道的振幅包络以及音频输入信号的声道之间的声道间相关性这两者。这种类型的参数化编码可以对输入信号的所有频率分量(即，在输入信号的全频率范围上)执行，而不是仅对输入信号的全频率范围的子范围内的频率分量执行(即，使得输入信号的编码版本包括所述下混以及针对输入信号的全频率范围的所有频率的空间参数，而非其子集)。

在音频比特流的E-AC-E或AC-3编码中，要编码的输入音频样本块经受时域至频域的变换，产生频域数据块，这些频域数据块通常被称为位于均匀间隔的频率区间中的变换系数(或频率系数或频率分量)。每个区间中的频率系数然后(例如，在图1系统的BFPE级7中)被转换为包括指数和尾数的浮点格式。

典型地，尾数比特分配基于细粒度信号谱(由每个频率区间的功率谱密度(“PSD”)表示)和粗粒度掩蔽曲线(由每个频带的掩蔽值表示)。

图1是被配置为对时域输入音频数据1执行常规的E-AC-3编码的编码器。该编码器的分析滤波器组2将时域输入音频数据1转换为频域音频数据3，并且块浮点编码(BFPE)级7产生数据3的每个频率分量的浮点表示，该浮点表示包括针对每个频率区间的指数和尾数。从级7输出的频域数据在本文中有时将被称为频域音频数据3。从级7输出的频域音频数据然后被编码，包括通过(在图1系统的元件4、6、10和11中)对从级7输出的频域数据的低频分量(具有小于或等于“F1”的频率，其中，F1典型地等于3.5kHz或4.6kHz)执行波形编码，以及(在参数化编码级12中)对从级7输出的频域数据的其它频率分量(具有大于F1的频率)执行参数化编码。

波形编码包括：在量化器6中对(从级7输出的低频分量的)尾数进行量化，在掩盖级(tentingstage)10中对(从级7输出的低频分量的)指数进行掩盖(tenting)，并且(在指数编码级11中)对在级10中产生的经掩盖的指数进行编码。格式化器8响应于从量化器6输出的经量化的数据、从级11输出的经编码的差分指数数据、以及从级12输出的经参数化编码的数据，来产生E-AC-3编码比特流9。

量化器6基于由控制器4产生的控制数据(包括掩蔽数据)来执行比特分配和量化。掩蔽数据(其确定掩蔽曲线)是基于人类听力和听觉感知的心理声学模型(其由控制器4实现)从频域数据3产生的。心理声学建模考虑了人类听力的频率相关阈值以及被称为掩蔽的心理声学现象，由此，在一个或多个较弱频率分量附近的强频率分量趋向于掩蔽这些较弱的分量，致使它们不能被人类收听者听到。这使得当对音频数据进行编码时可以省略较弱的频率分量，由此实现更高的压缩度，而不会不利地影响被编码的音频数据(比特流9)的感知质量。掩蔽数据包括针对频域音频数据3的每个频带的掩蔽曲线值。这些掩蔽曲线值表示在每个频带中被人耳掩蔽的信号水平。量化器6使用该信息来决定如何最好地使用可用数量的数据比特来表示输入音频信号的每个频带的频域数据。

已知在常规的E-AC-3编码中，对差分指数(即，连续指数之间的差值)而非对绝对指数进行编码。差分指数仅可以取以下五个值中的一个：2、1、0、-1和-2。如果发现了在该范围之外的差分指数，则修改被减的指数中的一个，以使得差分指数(在修改之后)在所指出的范围内(该常规方法被称为“指数掩盖(exponenttenting)”或“掩盖”)。图1编码器的掩盖级10通过执行这种掩盖操作，响应于向其断言的原始指数，来产生经掩盖的指数。

在E-AC-3编码的典型实施例中，以从大约96kbps至大约192kbps的范围内的比特率对5或5.1声道音频信号进行编码。目前，以192kbps，典型的E-AC-3编码器通过使用如下组合来对5声道(或5.1声道)输入信号进行编码：对于信号的每个声道的低频分量(例如，上至3.5kHz或4.6kHz)进行离散波形编码，对于信号的每个声道的中频分量(例如，从3.5kHz至大约10kHz或者从4.6kHz至大约10kHz)进行声道耦合，对于信号的每个声道的高频分量(例如，从大约10kHz至16kHz或者从大约10kHz至14.8kHz)进行频谱扩展。虽然这得到了可接受的质量，但是当可供用于传输经编码的输出信号的最大比特率降至低于192kbps时，(经编码的输出信号的解码版本的)质量快速劣化。例如，当使用E-AC-3对5.1声道音频进行编码以用于流传输时，临时的数据带宽限制可能要求数据速率低于192kbps(例如，降至64kbps)。然而，使用E-AC-3对5.1声道信号进行编码以便以低于192kbps的比特率传输无法生成“广播质量”的编码音频。为了(使用E-AC-3编码)对信号进行编码以便以远低于192kbps的比特率(例如，96kbps或128kbps或160kbps)传输，必须找到音频带宽(可用于传输经编码的音频信号)、编码伪迹(codingartifact)和空间崩溃之间的最佳的、可用的折衷。更一般地，发明人已经认识到，必须找到音频带宽、编码伪迹和空间崩溃之间的最佳折衷，来以其它方式对多声道输入音频进行编码以便以低比特率(或小于典型比特率的比特率)传输。

一种朴素的解决方案是，将多声道输入音频下混到对于可用比特率可以以足够的质量(例如，如果“广播质量”是最低的、足够的质量，则为“广播质量”)生成的声道的数量，然后执行对该下混的每个声道的常规编码。例如，可以将5声道输入信号下混到3声道下混(其中，可用比特率为128kbps)或2声道下混(其中，可用比特率为96kbps)。然而，该解决方案以严重的空间崩溃为代价来保持编码质量和音频带宽。

另一种朴素的解决方案是，避免下混(例如，响应于5.1声道输入信号，生成全5.1声道的编码输出信号)，并且改为将编解码器推至其极限。然而，尽管该解决方案会保持尽可能多的空间感，但是会引入更多的编码伪迹，并且牺牲音频带宽。

发明内容

在典型实施例中，本发明是一种用于对多声道音频输入信号进行混合编码的方法(例如，符合E-AC-3标准的编码方法)。该方法包括以下步骤：产生输入信号的个体声道的低频分量(例如，具有上至从大约1.2kHz至大约4.6kHz或者从大约3.5kHz至大约4.6kHz的范围内的最大值的频率)的下混；对该下混的每个声道执行波形编码；并且对输入信号的每个声道的其它频率分量(至少一些中频和/或高频分量)执行参数化编码(不对输入信号的任何声道的其它频率分量执行初步下混)。

在典型的实施例中，本发明的编码方法对输入信号进行压缩，以使得编码输出信号包括比输入信号更少的比特，并且使得编码信号可以在低比特率(例如，对于遵循E-AC-3的实施例，在从大约96kbps至大约160kbps的范围内，其中，“kbps”表示每秒千比特)以良好的质量发送。在本上下文中，从发送比特率远小于典型地可用于发送常规编码的音频的比特率(例如，对于常规E-AC-3编码的音频，典型比特率为192kbps)但大于最小比特率的意义上来讲，发送比特率是“低”的，其中在最小比特率以下，将要求输入信号的完全参数化编码来达到(发送的编码信号的解码版本的)足够的质量。为了提供(在例如以低比特率发送编码信号之后编码信号的解码版本的)足够的质量，多声道输入信号被编码为以下的组合：输入信号的原始声道的低频内容的经波形编码的下混、以及输入信号的每个原始声道的高频(高于低频的频率)内容的经参数化编码的版本。通过与每个原始输入声道的低频分量的离散波形编码完全不同地对低频内容的下混进行波形编码来实现显著的比特流节省。因为对每个输入声道的更高频进行参数化编码所需的数据(将包括在编码信号中)的量相对较小，所以可以对每个输入声道的更高频进行参数化编码，而不会显著地增加编码信号可被传输的比特率，导致以相对较低的“比特率”为代价改善空间成像。本发明的混合(波形和参数化)编码方法的典型实施例允许对由空间图像崩溃(由于下混而导致)和编码噪声造成的伪迹之间的均衡的控制更多，并且一般导致(编码信号的解码版本的)感知质量相对于由常规方法可实现的感知质量有整体的提高。

在一些实施例中，本发明是产生专门用于在带宽极其有限的环境下作为流传输内容而传送的编码音频的E-AC-3编码方法或系统。在其它实施例中，本发明的编码方法和系统产生用于针对更一般的应用而以更高比特率传输的编码音频。

在一类实施例中，仅对多声道输入信号的每个声道的低频带进行下混(接着是对低频分量的所得的下混进行波形编码)通过消除了(在编码输出信号中)包括用于音频内容的低频带的波形编码的比特的需要而节省了大量比特(即，减少了编码输出信号的比特数量)，并且作为(在编码信号中)包括了原始输入音频的所有声道的经参数化编码的内容(例如，经声道耦合和频谱扩展的内容)的结果，还最小化(或减少)了在渲染传输的编码信号的解码版本期间的空间崩溃。与通过常规的编码方法(例如，以上提及的朴素的编码方法之一)产生编码信号相比，通过这种实施例产生的编码信号具有空间、带宽和编码伪迹的更平衡的折衷。

在一些实施例中，本发明是一种用于对多声道音频输入信号进行编码的方法，该方法包括以下步骤：产生输入信号的至少一些声道的低频分量的下混；对该下混的每个声道进行波形编码，由此产生指示该下混的音频内容的经波形编码的下混数据；对输入信号的每个声道的至少一些更高频分量(例如，中频分量和/或高频分量)执行参数化编码(例如，执行中频分量的声道耦合编码以及高频分量的频谱扩展编码)，由此产生指示输入信号的所述每个声道的所述至少一些更高频分量的经参数化编码的数据；并且产生指示经波形编码的下混数据和经参数化编码的数据的编码音频信号。在一些这种实施例中，编码音频信号是E-AC-3编码音频信号。

本发明的另一方面是一种用于对编码音频数据进行解码的方法，该方法包括以下步骤：接收指示编码音频数据的信号，其中，编码音频数据已经通过根据本发明的编码方法的任何实施例对音频数据进行编码而产生；以及对编码音频数据进行解码以产生指示音频数据的信号。

例如，在一些实施例中，本发明是一种用于对指示经波形编码的数据和经参数化编码的数据的编码音频信号进行解码的方法，其中，编码音频信号已经通过以下产生：产生多声道音频输入信号的至少一些声道的低频分量的下混；对该下混的每个声道进行波形编码，由此产生经波形编码的数据，以使得所述经波形编码的数据指示该下混的音频内容；对输入信号的每个声道的至少一些更高频分量执行参数化编码，从而产生经参数化编码的数据，以使得所述经参数化编码的数据指示输入信号的所述每个声道的所述至少一些更高频分量；以及响应于经波形编码的数据和经参数化编码的数据，产生编码音频信号。该解码方法包括以下步骤：从编码音频信号提取经波形编码的数据和经参数化编码的数据；对所提取的经波形编码的数据执行波形解码，以产生第一组恢复的频率分量，所述第一组恢复的频率分量指示所述下混的每个声道的低频音频内容；并且对所提取的经参数化编码的数据执行参数化解码，以产生第二组恢复的频率分量，所述第二组恢复的频率分量指示多声道音频输入信号的每个声道的更高频(例如，中频和高频)音频内容。在一些这种实施例中，多声道音频输入信号具有N个声道，其中，N是整数，并且解码方法还包括以下步骤：通过组合所述第一组恢复的频率分量和所述第二组恢复的频率分量来产生经解码的频域数据的N个声道，以使得经解码的频域数据的每个声道指示多声道音频输入信号的声道中的不同声道的中频和高频音频内容，并且经解码的频域数据的声道的至少一个子集中的每个声道指示多声道音频输入信号的低频音频内容。

本发明的另一方面是一种包括编码器和解码器的系统，其中编码器被配置(例如，编程)为执行本发明的编码方法的任何实施例以响应于音频数据产生编码音频数据，解码器被配置为对编码音频数据进行解码以恢复音频数据。

本发明的其它方面包括：一种被配置(例如，编程)为执行本发明的方法的任何实施例的系统或装置(例如，编码器、解码器或处理器)，以及一种存储用于实现本发明的方法或者其步骤的任何实施例的代码的计算机可读介质(例如，盘)。例如，本发明的系统可以是或者包括用软件或固件编程为和/或以其它方式配置为对数据执行各种操作(包括本发明方法或者其步骤的实施例)中的任何操作的可编程通用处理器、数字信号处理器或微处理器。这样的通用处理器可以是或者包括如下的计算机系统：该计算机系统包括输入装置、存储器、以及被编程(和/或被以其它方式配置)为响应于向其断言的数据来执行本发明的方法(或者其步骤)的实施例的处理电路。

附图说明

图1是常规的编码系统的框图。

图2是被配置为执行本发明的编码方法的实施例的编码系统的框图。

图3是被配置为执行本发明的解码方法的实施例的解码系统的框图。

图4是包括编码器和解码器的系统的框图，其中编码器被配置为执行本发明的编码方法的任何实施例以响应于音频数据来产生编码音频数据，解码器被配置为对编码音频数据进行解码以恢复音频数据。

具体实施方式

将参照图2描述本发明的编码方法和被配置为执行该方法的系统的实施例。图2的系统是E-AC-3编码器，被配置为响应于多声道音频输入信号(21)来产生E-AC-3编码音频比特流(31)。信号21可以是包括五个全范围声道的音频内容的“5.0声道”时域信号。

图2系统还被配置为响应于包括5个全范围声道和1个低频效果(lowfrequencyeffect，LFE)声道的5.1声道音频输入信号21，来产生E-AC-3编码音频比特流31。图2中所示的元件能够对5个全范围输入声道进行编码并且把指示经编码的全范围声道的比特提供给格式化级20以便包括在输出比特流31中。图2中没有示出用于(以常规方式)对LFE声道进行编码并且把指示经编码的LFE声道的比特提供给格式化级30以便包括在输出比特流31中的常规系统元件。

图2的时域至频域变换级22被配置为将时域输入信号21的每个声道转换为频域音频数据的声道。因为图2的系统是E-AC-3编码器，所以每个声道的频率分量被频带化(frequency-band)为50个不均匀的带，这50个不均匀的带近似于公知的被称为Bark标度的心理声学标度的频带。在图2实施例的变型中(例如，在其中，编码输出音频31不具有符合E-AC-3的格式)，以另一种方式(即，基于任何一组均匀的或不均匀的频带)对输入信号的每个声道的频率分量进行频带化。

从级22输出的声道中的全部或一些声道的低频分量在下混级23中经受下混。低频分量具有小于或等于最大频率“F1”的频率，其中，F1典型地在从大约1.2kHz至大约4.6kHz的范围内。

从级22输出的所有声道的中频分量在级26中经受声道耦合编码。中频分量具有在范围F1<f≤F2内的频率f，其中F1典型地在从大约1.2kHz至大约4.6kHz的范围内，F2典型地在从大约8kHz至大约12.5kHz的范围内(例如，F2等于8kHz或10kHz或10.2kHz)。

从级22输出的所有声道的高频分量在级28中经受频谱扩展编码。高频分量具有在范围F2<f≤F3内的频率f，其中F2典型地在从大约8kHz至大约12.5kHz的范围内，F3典型地在从大约10.2kHz至大约18kHz的范围内。

发明人已经确定：对多声道输入信号的一些或所有声道的音频内容的低频分量的下混(例如，具有5个全范围声道的输入信号的三声道下混)进行波形编码(而不是离散地对所有的五个全范围输入声道的音频内容的低频分量进行波形编码)并且对输入信号的每个声道的其它频率分量进行参数化编码，导致相对于以降低的比特率使用标准E-AC-3编码而获得的编码输出信号具有提高质量的编码输出信号，并且避免了讨厌的空间崩溃。图2系统被配置为执行本发明的编码方法的这种实施例。例如，在多声道输入信号21具有五个全范围声道(即，是5或5.1声道音频信号)并且以降低的比特率(例如，160kbps、或大于大约96kbps且远小于192kbps的另一个比特率，其中，“kbps”表示每秒千比特)进行编码的情况下，图2系统可以执行本发明方法的这种实施例以产生质量得到提高的编码输出信号31，其中，“降低的”比特率指示比特率低于标准E-AC-3编码器在对同一输入信号进行编码期间典型地操作的比特率。虽然本发明方法的上述实施例和常规的E-AC-E编码方法这两者都使用参数化技术(即，如在图2系统的级26中执行的声道耦合编码，以及如在图2系统的级28中执行的频谱扩展编码)来对输入信号的音频内容的中频分量和更高频分量进行编码，但是本发明方法仅对缩减数量(例如，三个)的下混声道而非输入音频信号的所有五个离散声道的内容的低频分量执行波形编码。这导致有益的折衷，由此以空间信息损失为代价(因为来自某些声道(典型地是环绕声道)的低频数据被混合到其它声道(典型地是前声道)中)，来降低下混声道中的编码噪声(例如，因为对少于五个的声道而非五个声道的频率分量执行波形编码)。发明人已经确定：该折衷典型地导致比通过以降低的比特流对输入信号执行标准E-AC-3编码而生成的输出信号质量更好的输出信号(其在编码输出信号经过传输、解码和渲染之后提供更好的声音质量)。

在典型的实施例中，图2系统的下混级23用零值取代输入信号的声道的第一子集(典型地是右环绕声道和左环绕声道，Ls和Rs)的每个声道的低频分量，并且使输入信号的其它声道(例如，如图2所示，左前声道1、中央声道C和右前声道R)的低频分量不经改变地作为输入声道的低频分量的下混通过(进入波形编码级24)。可替代地，以另一种方式产生低频内容的下混。例如，在一种替代实现方式中，产生下混的操作包括将第一子集的至少一个声道的低频分量与输入信号的其它声道中的至少一个声道的低频分量混合的步骤(例如，级23可以被实现为使向其断言的右环绕声道Rs和右前声道R混合来生成下混的右声道，并且使向其断言的左环绕声道Ls和左前声道L混合来生成下混的左声道)。

在级23中产生的下混的每个声道在波形编码级24中(以常规的方式)经受波形编码。在典型实现方式中，下混级23用包括零值的低频分量声道取代输入信号的声道的第一子集的每个声道(例如，如图2所示，右环绕声道和左环绕声道，Ls和Rs)的低频分量，并且每个这种包括零值的声道(在本文中有时被称为“静默”声道)与下混的每个非零(非静默)声道一起从级23输出。当(在级23中产生的)下混的每个非零声道在级24中经受波形编码时，从级23向级24断言的每个“静默”声道典型地也被波形编码(以非常低的处理和比特成本)。在级24中产生的所有经波形编码的声道(包括任何经波形编码的静默声道)从级24输出到格式化级30，以便以适当的格式包括在编码输出信号31中。

在典型的实施例中，当编码输出信号31被传输(例如，被发送)到解码器(例如，将参照图3描述的解码器)时，解码器查看低频音频内容的满数量的经波形编码的声道(例如，五个经波形编码的声道)，但是它们的子集(例如，在3声道下混的情况下，它们之中的两个；或者在2声道下混的情况下，它们之中的三个)是完全由零构成的“静默”声道。

为了产生低频内容的下混，本发明的不同实施例(例如，图2的级23的不同实现)利用了不同的方法。在输入信号具有五个全范围声道(左前、左环绕、右前、右环绕和中央)并且3声道下混被生成的一些实施例中，输入信号的左环绕声道信号的低频分量被混合到输入信号的左前声道的低频分量中以产生下混的左前声道，并且输入信号的右环绕信号的低频分量被混合到输入信号的右前声道的低频分量中以产生下混的右前声道。输入信号的中央声道在波形编码和参数化编码之前是不变的(即，不经受混合)，并且下混的左环绕声道和右环绕声道的低频分量被设置为零。

可替代地，如果2声道下混被生成(即，针对甚至更低的比特率)，则除了将输入信号的左环绕声道的低频分量与输入信号的左前声道的低频分量混合之外，还将输入信号的中央声道的低频分量与输入信号的左前声道的低频分量混合，并且将输入信号的右环绕声道和中央声道的低频分量与输入信号的右前声道的低频分量混合，典型地是在将输入信号的中央声道的低频分量的水平降低3dB(以导致在左声道和右声道之间划分中央声道的功率)之后。

在其它替代实施例中，产生单音(一个声道)下混，或者产生具有除了两个或三个声道之外的某数量的声道(例如，四个)的下混。

再次参照图2，从级22输出的所有声道的中频分量(即，响应于具有五个全范围声道的输入信号21而生成的中频分量的所有五个声道)在声道耦合编码级26中经受常规的声道耦合编码。级26的输出为中频分量的单音下混(图2中的被标记的“单声道音频”)和对应的耦合参数序列。

单音下混在波形编码级27中被波形编码(以常规的方式)，并且从级27输出的经波形编码的下混以及从级26输出的对应的耦合参数序列被断言到格式化级30以便以适当的格式包括在编码输出信号31中。

作为声道耦合编码的结果而由级26产生的单音下混也被断言到频谱扩展编码级28。该单音下混被级28用作用于对从级22输出的所有声道的高频分量进行频谱扩展编码的基带信号。级28被配置为使用来自级26的单音下混来执行对从级22输出的所有声道(即，响应于具有五个全范围声道的输入信号21而生成的高频分量的所有五个声道)的高频分量的频谱扩展编码。频谱扩展编码包括确定与高频分量对应的一组编码参数(SPX)参数。

SPX参数可以与(从级26输出的)基带信号一起被解码器(例如，图3的解码器)处理，以重构输入信号21的每个声道的音频内容的高频分量的良好近似。SPX参数被从编码级28断言到格式化级30以便以适当的格式包括在编码输出信号31中。

接下来，参照图3，我们描述用于对由图2编码器产生的编码输出信号31进行解码的本发明方法和系统的实施例。

图3的系统是实现本发明的解码系统和方法的实施例的E-AC-E解码器，并且被配置为响应于E-AC-3编码音频比特流(例如，由图2编码器产生、然后被发送或以其它方式传输到图3解码器的E-AC-3编码信号31)，来恢复多声道音频输出信号41。信号41可以是包括音频内容的五个全范围声道的5.0声道时域信号，其中，信号31指示这种5.0声道信号的音频内容。

可替代地，如果信号31指示这种5.1声道信号的音频内容，则信号41可以是包括五个全范围声道和一个低频效果(LFE)声道的5.1声道时域音频信号。图3中所示的元件能够对由这种信号31指示的五个全范围声道进行解码(并且将指示解码的全范围声道的比特提供给级40以用于产生输出信号41)。为了对指示5.1声道信号的音频内容的信号31进行解码，图3的系统将包括用于对这种5.1声道信号的LFE声道进行解码(以常规的方式)并且把指示经解码的LFE声道的比特提供给级40以用于产生输出信号40的常规元件(图3中未示出)。

图3解码器的去格式化级32被配置为从信号31提取信号21的原始声道中的全部或一些声道的低频分量的下混的经波形编码的低频分量(由图2编码器的级24产生)、信号21的中频分量的经波形编码的单音下混(由图2编码器的级27产生)、由图2编码器的声道耦合编码级26产生的耦合参数序列、以及由图2编码器的频谱扩展编码级28产生的SPX参数序列。

级32被耦合和配置为向波形解码级34断言经波形编码的低频分量的每个所提取的下混声道。级34被配置为对经波形编码的低频分量的每个这种下混声道执行波形解码，以恢复从图2编码器的下混级23输出的低频分量的每个下混声道。典型地，低频分量的这些恢复的下混声道包括静默声道(例如，图3中所指示的静默左环绕声道，Ls＝0，以及图3中所指示的静默右环绕声道，Rs＝0)、以及由图2编码器的级23产生的下混的低频分量的每个非静默声道(例如，图3中所指示的左前声道L、中央声道C和右前声道R)。从级34输出的每个下混声道的低频分量具有小于或等于“F1”的频率，其中，F1典型地在从大约1.2kHz至大约4.6kHz的范围内。

低频分量的经恢复的下混声道被从级34断言到频域组合和频域至时域变换级40。

响应于由级32提取的中频分量的经波形编码的单音下混，图3解码器的波形解码级36被配置为对其执行波形解码以恢复从图2编码器的声道耦合编码级26输出的中频分量的单音下混。响应于由级36恢复的中频分量的单音下混以及由级32提取的耦合参数序列，图3的声道耦合解码级37被配置为执行声道耦合解码以恢复信号21(其被断言到图2编码器的级26的输入)的原始声道的中频分量。这些中频分量具有在范围F1<f≤F2内的频率，其中，F1典型地在大约1.2kHz至大约4.6kHz的范围内，F2典型地在大约8kHz至大约12.5kHz的范围内(例如，F2等于8kHz或10kHz或10.2kHz)。

所恢复的中频分量被从级37断言到频域组合和频域至时域变换级40。

由波形解码级36产生的中频分量的单音下混也被断言到频谱扩展解码级38。响应于中频分量的单音下混以及由级32提取的SPX参数序列，频谱扩展解码级38被配置为执行频谱扩展解码以恢复信号21(其被断言到图2编码器的级28的输入)的原始声道的高频分量。这些高频分量具有在范围F2<f≤F3内的频率，其中，F2典型地在大约8kHz至大约12.5kHz的范围内，F3典型地在大约10.2kHz至大约18kHz(例如，从大约14.8kHz至大约16kHz)的范围内。

所恢复的高频分量被从级38断言到频域组合和频域至时域变换级40。

级40被配置为将与原始多声道信号21的左前声道对应的经恢复的中频分量、高频分量和低频分量组合(例如，加在一起)，以产生左前声道的全频范围的频域恢复版本。

类似地，级40被配置为将与原始多声道信号21的右前声道对应的恢复的中频分量、高频分量和低频分量组合(例如，加在一起)，以产生右前声道的全频范围的频域恢复版本，并且将与原始多声道信号21的中央声道对应的经恢复的中频分量、高频分量和低频分量组合(例如，加在一起)，以产生中央声道的全频范围的频域恢复版本。

级40还被配置为将原始多声道信号21的左环绕声道的经恢复的低频分量(其具有零值，因为低频分量下混的左环绕声道是静默声道)和与原始多声道信号21的左环绕声道对应的经恢复的中频分量和高频分量组合(例如，加在一起)，以产生具有全频率范围的左环绕前声道的频域恢复版本(但是由于在图2编码器的级23中执行下混而导致它缺乏低频内容)。

级40还被配置为将原始多声道信号21的右环绕声道(其具有零值，因为低频分量下混的右环绕声道是静默声道)的经恢复的低频分量和与原始多声道信号21的右环绕声道对应的经恢复的中频分量和高频分量组合(例如，加在一起)，以产生具有全频范围的右环绕前声道的频域恢复版本(但是由于在图2编码器的级23中执行下混而导致它缺乏低频内容)。

级40还被配置为对频率分量的每个恢复的(频域)全频率范围声道执行频域至时域变换，以产生解码输出信号41的每个声道。信号41是时域多声道音频信号，其声道是原始多声道信号21的声道的恢复版本。

更一般地，本发明的解码方法和系统的典型实施例(从已经根据本发明的实施例产生的编码音频信号)恢复原始多声道输入信号的声道(一些或所有声道)的音频内容的低频分量的经波形编码的下混的每个声道，并且还恢复多声道输入信号的每个声道的内容的经参数化编码的中频分量和高频分量的每个声道。为了执行解码，下混的经恢复的低频分量经受波形解码，然后可以以几种不同的方式中的任何一种来与所恢复的中频分量和高频分量的经参数化解码的版本组合。在第一类实施例中，每个下混声道的低频分量与对应的经参数化编码的声道的中频分量和高频分量组合。例如，考虑下述情况：编码信号包括五声道输入信号的低频分量的3声道下混(左前、中央和右前声道)，并且编码器已经输出了零值(与产生低频分量下混有关)来代替输入信号的左环绕声道和右环绕声道的低频分量。解码器的左输出将是与经参数化解码的左声道信号(包括中频分量和高频分量)组合的经波形解码的左前下混声道(包括低频分量)。从解码器输出的中央声道将是与经参数化解码的中央声道组合的经波形解码的中央下混声道。解码器的右输出将是与经参数化解码的右声道组合的经波形解码的右前下混声道。解码器的左环绕声道输出将仅仅是左环绕的经参数化解码的信号(即，将不存在非零低频左环绕声道内容)。类似地，解码器的右环绕声道输出将仅仅是右环绕的经参数化解码的信号(即，将不存在非零低频右环绕声道内容)。

在一些替代实施例中，本发明的解码方法包括以下步骤(并且本发明的解码系统被配置为执行以下步骤)：恢复原始多声道输入信号的声道(一些或全部声道)的音频内容的低频分量的经波形编码的下混的每个声道；并且对下混的低频分量的每个下混声道的经波形解码的版本进行盲上混(blindupmixing)(即，从不响应于从编码器接收的任何参数化数据而执行的意义上来讲是“盲”的)，接着重新将经上混的低频分量的每个声道与从编码信号恢复的经参数化解码的中频和高频内容的对应声道组合。盲上混器(blindupmixer)在本领域中是公知的，并且在2011年11月10日公开的美国专利申请公开No.2011/0274280A1中描述了盲上混的示例。本发明不需要特定的盲上混器，不同的盲上混方法可以用于实现本发明的不同实施例。例如，考虑这样的实施例：该实施例接收并解码包括五声道输入信号(包括左前、左环绕、中央、右环绕和右前声道)的低频分量的3声道下混(包括左前、中央和右前声道)的编码音频信号。在该实施例中，解码器包括盲上混器(例如，由图3的级40在频域中实现)，该盲上混器被配置为对3声道下混的低频分量的每个下混声道(左前、中央和右前)的经波形解码的版本执行盲上混。解码器还被配置为组合(例如，图3的级30被配置为组合)以下声道：解码器的盲上混器的左前输出声道(包括低频分量)与由解码器接收的编码音频信号的经参数化解码的左前声道(包括中频分量和高频分量)；盲上混器的左环绕输出声道(包括低频分量)与由解码器接收的音频信号的经参数化解码的左环绕声道(包括中频分量和高频分量)；盲上混器的中央输出声道(包括低频分量)与由解码器接收的音频信号的经参数化解码的中央声道(包括中频分量和高频分量)；盲上混器的右前输出声道(包括低频分量)与音频信号的经参数化解码的右前声道(包括中频分量和高频分量)；以及盲上混器的右环绕输出与由解码器接收的音频信号的经参数化解码的右环绕声道。

在本发明解码器的典型实施例中，在频域中(例如，在图3解码器的级40中)执行编码音频信号的经解码的低频内容与该信号的经参数化解码的中频和高频内容的重新组合，然后(例如，在图3解码器的级40中)将单个频域至时域变换应用于每个重新组合的声道以产生充分解码的时域信号。可替代地，本发明解码器被配置为通过以下方式在时域中执行这种重新组合：使用第一变换对经波形解码的低频分量进行逆变换，使用第二变换对经参数化解码的中频分量和高频分量进行逆变换，然后对结果进行求和。

在本发明的示例性实施例中，图2系统可操作为以假定可用比特流(用于发送编码输出信号)在从192kbps下至远小于192kbps的比特率(例如，96kbps)的范围内的方式，执行对指示观众掌声的5.1声道音频输入信号的E-AC-3编码。以下示例性比特成本计算假定：这种系统被操作为对指示观众掌声并且具有五个全范围声道的多声道输入信号进行编码，并且输入信号的每个全范围声道的频率分量具有至少与频率的函数基本上相同的分布。示例性比特成本计算还假定：系统执行对输入信号进行E-AC-3编码，包括通过对输入信号的每个全范围声道的具有上至4.6kHz的频率的频率分量执行波形编码，对输入信号的每个全范围声道的从4.6kHz至10.2kHz的频率分量执行声道耦合编码，并且对输入信号的每个全范围声道的从10.2kHz至14.8kHz的频率分量执行频谱扩展编码。假定编码输出信号中所包括的耦合参数(耦合侧链元数据)每个全范围声道消耗大约1.5kbps，并且耦合声道的尾数和指数消耗大约25kbps(即，大约为单个的全范围声道会消耗的比特的1/5，假定编码输出信号的发送比特率为192kbps)。由执行声道耦合造成的比特节省是由于发送单个声道(耦合声道)的尾数和指数，而不是发送五个声道的尾数和指数(对于相关范围内的频率分量)。

因此，如果系统在对下混的所有频率分量进行编码(对下混的每个全范围声道的上至4.6kHz的频率分量使用波形编码，对从4.6kHz至10.2kHz的频率分量使用声道耦合编码，并且对从10.2kHz至14.8kHz的频率分量使用频谱扩展编码)之前要把来自5.1的所有音频内容都下混为立体声，则耦合的声道仍需要消耗大约25kbps来达到广播质量。因此，由下混造成的比特节省(对于实现声道耦合)仅仅是由于省略了不再需要耦合参数的三个声道的耦合参数，这三个声道中的每个声道省略了大约1.5kbps，或者总共省略了大约4.5kbps。因此，对立体声下混执行声道耦合的成本与用于对输入信号的原始五个全范围声道执行声道耦合的成本几乎是相同的(或者仅少了大约4.5kbps)。

对示例性输入信号的所有五个全范围声道执行频谱扩展编码将需要将频谱扩展(“SPX”)参数(SPX侧链元数据)包括在编码输出信号中。这将需要在编码输出信号中对于每个全范围声道包括大约3kbps的SPX元数据(对于所有五个全范围声道，总共大约15kbps)，假定仍然以192kbps的比特率发送编码输出信号。

因此，如果系统在对下混的所有频率分量进行编码(对下混的每个全范围声道的上至4.6kHz的频率分量使用波形编码，对从4.6kHz至10.2kHz的频率分量使用声道耦合编码，并且对从10.2kHz至14.8kHz的频率分量使用频谱扩展编码)之前要将输入信号的五个全范围声道下混到两个声道(立体声下混)，则由下混造成的比特节省(对于实现频谱扩展耦合)仅仅是由于省略了不再需要SPX参数的三个声道的这种SPX参数，这三个声道中的每个声道省略了大约3kbps，或者总共省略了大约9kbps。

下面在表1中总结了示例中的耦合和spx编码的成本。

表1(对于5个、3个和2个声道的耦合和频谱扩展编码的成本)

从表1可见，在编码之前将所输入的5.1声道输入信号完全下混到3/0下混(三个全范围声道)仅(在耦合和频谱扩展频带中)节省了9kbps，在编码之前将所输入的5.1声道输入信号完全下混到2/0下混(两个全范围声道)在耦合和频谱扩展频带中仅节省了13.5kbps。当然，每个这种下混还将减少下混的低频分量(具有低于用于声道编码的最小频率的频率)的波形编码所需的比特数量，但是代价是空间崩溃。

发明人已经认识到，因为执行多个声道(例如，如以上示例中的五个、三个或两个声道)的耦合编码和频谱扩展编码的比特成本如此类似，所以可取的是用参数化编码(例如，如以上示例中的耦合编码和频谱扩展编码)对多声道音频信号的尽可能多的声道进行编码。因此，本发明的典型实施例仅对要编码的多声道输入信号的声道(即，一些或全部声道)的低频分量(低于用于声道编码的最小频率)进行下混，并且对下混的每个声道执行波形编码，并且还对输入信号的每个原始声道的更高频率分量(高于用于参数化编码的最小频率)执行参数化编码(例如，耦合编码和频谱扩展编码)。通过从编码音频信号中去除分离的声道指数和尾数，同时最小化由于包括输入信号的所有的原始声道的高频内容的参数化编码的版本而导致的空间崩溃，这节省了大量的比特。

相对于参照以上示例描述的执行5.1声道信号的E-AC-3编码的常规方法，由本发明的两个实施例导致的比特成本和节省的比较如下：

5.1声道信号的常规的E-AC-3编码的总成本是172.5kbps，这是表1的左列中总结的47.5kbps(用于输入信号的高于4.6kHz的高频内容的参数化编码)，加上用于五个声道的指数的25kbps(由输入信号的每个声道的低于4.6kHz的低频内容的波形编码造成)，加上用于五个声道的尾数的100kbps(由输入信号的每个声道的低频内容的波形编码造成)。

在本发明的一个实施例中，输入信号的五个全范围声道的低频内容(低于4.6kHz)的3声道下混被生成，并且符合E-AC-3的编码输出信号(包括通过对下混进行波形编码，并且对输入信号的每个原始全范围声道的高频分量进行参数化编码)被生成，则根据该实施例的5.1声道信号的编码的总成本是122.5kbps，这是表1的左列中总结的47.5kbps(用于输入信号的每个声道的高于4.6kHz的高频内容的参数化编码)，加上用于三个声道的指数的15kbps(由下混的每个声道的低频内容的波形编码造成)，加上用于三个声道的尾数的60kbps(由下混的每个声道的低频内容的波形编码造成)。这表示相对于常规方法有50kbps的节省。该节省允许以142kbps的比特率发送编码输出信号(其质量等同于常规编码输出信号的质量)，而非发送常规编码输出信号所需要的192kbps。

期望在前面的段落中描述的本发明方法的实际实现，由于静默声道中的零值数据的最大时间共享，输入信号的高频(高于4.6kHz)内容的参数化编码对于耦合参数元数据将需要略低于表1中所指示的7.5kbps，对于SPX参数元数据将需要略低于表1中所指示的15kbps。因此，这样的实际实现相对于常规方法将提供略大于50kbps的节省。

类似地，在本发明的一个实施例中，输入信号的五个全范围声道的低频内容(低于4.6kHz)的2声道下混被生成，并且符合E-AC-3的编码输出信号(包括通过对下混进行波形编码，并且对输入信号的每个原始全范围声道的高频分量进行参数化编码)被生成，根据该实施例的5.1声道信号的编码的总成本是102.5kbps，这是表1的左列中总结的47.5kbps(用于输入信号的高于4.6kHz的高频内容的参数化编码)，加上用于两个声道的指数的10kbps(由下混的每个声道的低频内容的波形编码造成)，加上用于两个声道的尾数的45kbps(由下混的每个声道的低频内容的波形编码造成)。这表示相对于常规方法有70kbps的节省。该节省允许以122kbps的比特率发送编码输出信号(其质量等同于常规编码输出信号的质量)，而非发送常规编码输出信号所需要的192kbps。

期望在前面的段落中描述的本发明方法的实际实现，由于静默声道中的零值数据的最大时间共享，输入信号的高频(高于4.6kHz)内容的参数化编码对于耦合参数元数据将需要略低于表1中所指示的7.5kbps，对于SPX参数元数据将需要略低于表1中所指示的15kbps。因此，这样的实际实现相对于常规方法将提供略大于70kbps的节省。

在一些实施例中，在被下混并然后经受波形编码的低频分量具有降低的(低于典型的)最大频率(例如，1.2kHz，而不是典型的最小频率(在常规的E-AC-3编码器中，3.5kHz或4.6kHz))的意义上，本发明编码方法实现了“增强耦合”编码，其中高于所述最大频率，则对输入音频内容执行声道耦合，低于该最大频率，则对输入音频内容执行波形编码。在这种实施例中，输入音频的比典型的频率范围(例如，从1.2kHz至10kHz或者从1.2kHz至10.2kHz)宽的频率范围内的频率分量经受声道耦合编码。另外，在这种实施例中，和由声道编码得到的编码音频内容一起被包括在编码输出信号中的耦合参数(水平参数)可以(以本领域的普通技术人员显而易见的方式)与在只有典型(较窄)范围内的频率分量经过声道耦合编码时的情况不同地被量化。

实现增强耦合编码的本发明的实施例可能是期望的，因为对于具有小于声道耦合编码的最小频率的频率的频率分量，这些实施例典型地将(在编码输出信号中)传输零值指数，因此(通过实现增强耦合编码)减小该最小频率减少了编码输出信号中所包括的被浪费比特的总数，并且在仅略微增加比特率成本的情况下提供了提高的空间感(当编码信号被解码和渲染时)。

如上所述，在本发明的实施例中，输入信号的声道的第一子集(例如，如图2中所指示的L、C和R声道)的低频分量被选为经受波形编码的下混，而输入信号的声道的第二子集(典型地是环绕声道，例如，如图2中所指示的Ls和Rs声道)中的每个声道的低频分量被设置为零(并且也经受波形编码)。在一些这种实施例中，其中，根据本发明产生的编码音频信号符合E-AC-3标准，即使只有E-AC-3编码信号的声道的第一子集的低频音频内容是有用的、经波形编码的低频音频内容(而E-AC-3编码信号的声道的第二子集的低频音频内容是无用的、经波形编码的“静默”音频内容))，整个声道集合(第一子集和第二子集这两者)必须被格式化，并且作为E-AC-3信号被传输。例如，左环绕声道和右环绕声道将存在于E-AC-3编码信号中，但是它们的低频内容将是需要一些开销来发送的静默。“静默”声道(对应于上述声道的第二子集)可以根据以下指导方针进行配置以最小化这种开销。

块开关按照惯例将出现在E-AC-3编码信号的指示瞬态信号(transientsignal)的声道上，并且这些块开关将导致这种声道的经波形编码的内容的MDCT块(在E-AC-3编码器中)被划分为数量更多的更小块(更小块然后经受波形解码)，并且将禁用这种声道的高频内容的参数化(声道耦合和频谱扩展)解码。静默声道(包括“静默”的低频内容的声道)中的块开关的信令将需要更多开销，并且还会阻止静默声道的高频内容(具有高于最小“声道耦合解码”频率的频率)的参数化解码。因此，用于根据本发明的典型实施例产生的E-AC-3编码信号的每个静默声道的块开关应被禁用。

类似地，常规的AHT和TPNP处理(有时在常规的E-AC-3解码器的操作中执行)在对根据本发明的实施例产生的E-AC-3编码信号的静默声道进行解码期间没有提供益处。因此，在对这种E-AC-3编码信号的每个静默声道进行解码期间，AHT和TPNP处理优选被禁用。

通常被包括在E-AC-3编码信号的声道中的抖动标志(dithflag)参数向E-AC-3解码器指示是否用随机噪声来(在该声道中)重构被编码器分配零比特的尾数。因为根据实施例产生的E-AC-3编码信号的每个静默声道的意图是真正静默，所以用于每个这种静默声道的抖动标志在产生E-AC-3编码信号期间应被设为零。结果，在解码期间将不使用噪声来(在每个这种静默声道中)重构被分配零比特的尾数。

通常被包括在E-AC-3编码信号的声道中的指数策略参数被E-AC-3解码器用来控制该声道中的指数的时间和频率分辨率。对于根据实施例产生的E-AC-3编码信号的每个静默声道，优先选择最小化指数的发送成本的指数策略。实现这个的指数策略被称为“D45”策略，对于编码帧的第一个块，它每四个频率区间包括一个指数(该帧的其余块重复使用前一个块的指数)。

本发明编码方法的在频域中实现的一些实施例针对一个问题是：(输入信号声道的低频内容的)下混在被变换回到时域中时可能饱和(saturate)，并且没有办法纯粹地使用频域分析来预测这将在何时发生。通过在时域中模拟下混(在频域中实际产生它之前)以估计评估裁剪是否将发生，该问题在一些这种实施例(例如，实现E-AC-3编码的一些实施例)中得到解决。传统的峰值限制器(peaklimiter)可以用来计算比例因子，比例因子然后被应用于下混中的所有目的声道。只有经下混的声道才被裁剪阻止比例因子衰减。例如，在输入信号的左声道和左环绕声道被下混到左下混声道并且输入信号的右声道和右环绕声道被下混到右下混声道的下混中，中央声道不被缩放，因为它不是下混中的源声道或目的声道。在已应用这种下混裁剪保护之后，其影响可以通过应用常规的E-AC-3DRC/下混保护来补偿。

本发明的其它方面包括：一种编码器，被配置为执行本发明编码方法的任何实施例以响应于多声道音频输入信号(例如，响应于指示多声道音频输入信号的音频数据)来产生编码音频信号；一种解码器，被配置为对这种编码信号进行解码；以及一种包括这种编码器和这种解码器的系统。图4系统是这种系统的示例。图4系统包括编码器90、传输子系统91和解码器92，编码器90被配置(例如，编程)为执行本发明编码方法的任何实施例以响应于(指示多声道音频输入信号的)音频数据来产生编码音频信号。传输子系统91被配置为存储由编码器90产生的编码音频信号(例如，存储指示编码音频信号的数据)和/或发送编码音频信号。解码器92被耦接和配置(例如，编程)为：从子系统91接收编码音频信号(或指示编码音频信号的数据)(例如，通过从子系统91中的存储器读取或检索这种数据，或者接收已经被子系统91发送的这种编码音频信号)，并且对该编码音频信号(或指示编码音频信号的数据)进行解码。解码器92典型地被配置为产生并输出(例如，输出到渲染系统)指示原始多声道输入信号的音频内容的解码音频信号。

在一些实施例中，本发明是一种被配置为通过对多声道音频输入信号进行编码来产生编码音频信号的音频编码器。该编码器包括：

编码子系统(例如，图2的元件22、23、24、26、27和28)，被配置为：产生输入信号的至少一些声道的低频分量的下混，对所述下混的每个声道进行波形编码，由此产生指示所述下混的音频内容的经波形编码的下混数据；并且对输入信号的每个声道的中频分量和高频分量执行参数化编码，由此产生指示输入信号的所述每个声道的中频分量和高频分量的经参数化编码的数据；以及

格式化子系统(例如，图2的元件30)，被耦接和配置为：响应于经波形编码的下混数据和经参数化编码的数据，来产生编码音频信号，使得编码音频信号指示所述经波形编码的下混数据和所述经参数化编码的数据。

在一些这种实施例中，编码子系统被配置为(例如，在图2的元件22中)对输入信号执行时域至频域变换以产生频域数据，该频域数据包括输入信号的至少一些声道的低频分量以及输入信号的所述每个声道的中频分量和高频分量。

在一些实施例中，本发明是一种音频解码器，该音频编码器被配置为对指示经波形编码的数据和经参数化编码的数据的编码音频信号(例如，图2或图3的信号31)进行解码，其中，编码音频信号已经通过以下产生：产生具有N个声道的多声道音频输入信号的至少一些声道的低频分量的下混，其中，N是整数；对该下混的每个声道进行波形编码，从而产生经波形编码的数据，使得所述经波形编码的数据指示所述下混的音频内容；对输入信号的每个声道的中频分量和高频分量执行参数化编码，从而产生经参数化编码的数据，使得所述经参数化编码的数据指示输入信号的所述每个声道的中频分量和高频分量；并且响应于所述经波形编码的数据和经参数化编码的数据，产生编码音频信号。在这些实施例中，解码器包括：

第一子系统(例如，图3的元件32)，被配置为从编码音频信号提取经波形编码的数据和经参数化编码的数据；以及

第二子系统(例如，图3的元件34、36、37、38和40)，被耦接和配置为：对由第一子系统提取的经波形编码的数据执行波形解码，以产生第一组恢复的频率分量，该第一组恢复的频率分量指示所述下混的每个声道的低频音频内容；并且对由第一子系统提取的经参数化编码的数据执行参数化解码，以产生第二组恢复的频率分量，该第二组恢复的频率分量指示多声道音频输入信号的每个声道的中频和高频音频内容。

在一些这种实施例中，解码器的第二子系统还配置为：通过(例如，在图3的元件40中)组合第一组恢复的频率分量和第二组恢复的频率分量来产生经解码的频域数据的N个声道，使得经解码的频域数据的每个声道指示多声道音频输入信号的声道中的不同声道的中频和高频音频内容，并且经解码的频域数据的声道的至少一个子集中的每个声道指示多声道音频输入信号的低频音频内容。

在一些实施例中，解码器的第二子系统被配置为(例如，在图3的元件40中)对经解码的频域数据的每个声道执行频域至时域变换以产生N个声道的经时域解码的音频信号。

本发明的另一方面是一种用于对已经根据本发明编码方法的实施例产生的编码音频信号进行解码的方法(例如，由图4的解码器92或图3的解码器执行的方法)。

本发明可以以硬件、固件或软件或两者的组合来实现(例如，作为可编程逻辑阵列)。除非另有指明，否则被包括作为本发明的一部分的算法或过程与任何特定计算机或其它设备没有内在关系。具体来说，各种通用机器可以与根据本文中的教导而编写的程序一起使用，或者构造更为专用的设备(例如，集成电路)以执行所需的方法步骤是更方便的。因此，本发明可以用在一个或多个可编程计算机系统(例如，实现图2的编码器或图3的解码器的计算机系统)上执行的一个或多个计算机程序实现，其中每个可编程计算机系统均包括至少一个处理器、至少一个数据存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入装置或端口、以及至少一个输出装置或端口。对输入数据应用程序代码以执行本文中所描述的功能并且产生输出信息。输出信息以已知的方式被应用于一个或多个输出装置。

每个这种程序可以用任何期望的计算机语言(包括机器、汇编或高级的程序性、逻辑或面向对象的编程语言)来实现，以与计算机系统进行通信。在任何情况下，语言可以是编译或解释语言。

例如，当由计算机软件指令序列实现时，本发明的实施例的各种功能和步骤可以由在合适的数字信号处理硬件中运行的多线程软件指令序列来实现，在这种情况下，实施例的各种装置、步骤和功能可以对应于软件指令的各部分。

每个这种计算机程序优选地被存储或下载到可被通用或专用可编程计算机读取的存储介质或装置(例如，固态存储器或介质、或者磁性或光学介质)，用于在该存储介质或装置被计算机系统读取时对计算机进行配置和操作以执行本文中所描述的过程。本发明系统还可以被实现为用计算机程序配置(即，存储)的计算机可读存储介质，其中，如此配置的存储介质使计算机系统以特定的、预定义的方式操作，以执行本文中所描述的功能。

已经描述了本发明的许多实施例。尽管如此，但是要理解，在不脱离本发明的精神和范围的情况下，可以进行各种修改。鉴于上面的教导，本发明的许多修改和变化是可能的。要理解，在所附权利要求的范围内，本发明可以以除了本文中具体描述的方式之外的方式来实施。

Claims

1.一种用于对具有低频分量和更高频分量的多声道音频输入信号进行编码的方法，所述方法包括以下步骤：

(a)产生所述输入信号的至少一些声道的低频分量的下混；

(b)对所述下混的每个声道进行波形编码，由此产生指示所述下混的音频内容的经波形编码的下混数据；

(c)对所述输入信号的每个声道的更高频分量中的至少一些执行参数化编码，由此产生经参数化编码的数据，所述经参数化编码的数据指示所述输入信号的所述每个声道的更高频分量中的所述至少一些；和

(d)产生指示所述经波形编码的下混数据和所述经参数化编码的数据的编码音频信号。

2.根据权利要求1所述的方法，其中，所述编码音频信号是E-AC-3编码音频信号。

3.根据权利要求1所述的方法，其中，所述更高频分量包括中频分量和高频分量，并且其中，步骤(c)包括以下步骤：

执行所述中频分量的声道耦合编码；和

执行所述高频分量的频谱扩展编码。

4.根据权利要求3所述的方法，其中，所述低频分量具有不大于在从大约1.2kHz至大约4.6kHz的范围内的最大值F1的频率，所述中频分量具有在范围F1<f≤F2内的频率f，其中，F2在从大约8kHz至大约12.5kHz的范围内，所述高频分量具有在范围F2<f≤F3内的频率f，其中，F3在从大约10.2kHz至大约18kHz的范围内。

5.根据权利要求4所述的方法，其中，所述编码音频信号是E-AC-3编码音频信号。

6.根据权利要求1所述的方法，其中，所述输入信号具有N个全范围音频声道，所述下混具有少于N个的非静默声道，并且步骤(a)包括用零值取代所述输入信号的全范围音频声道中的至少一个声道的低频分量的步骤。

7.根据权利要求1所述的方法，其中，所述输入信号具有五个全范围音频声道，所述下混具有三个非静默声道，并且步骤(a)包括用零值取代所述输入信号的全范围音频声道中的两个声道的低频分量的步骤。

8.根据权利要求1所述的方法，其中，所述编码对所述输入信号进行压缩，以使得所述编码音频信号所包括的比特少于所述输入信号所包括的比特。

9.一种音频编码器，被配置为通过对具有低频分量和更高频分量的多声道音频输入信号进行编码来产生编码音频信号，所述编码器包括：

编码子系统，被配置为：产生所述输入信号的至少一些声道的低频分量的下混；对所述下混的每个声道进行波形编码，由此产生指示所述下混的音频内容的经波形编码的下混数据；以及对所述输入信号的每个声道的更高频分量中的至少一些执行参数化编码，由此产生经参数化编码的数据，所述经参数化编码的数据指示所述输入信号的所述每个声道的更高频分量中的所述至少一些；和

格式化子系统，被耦合和配置为：响应于所述经波形编码的下混数据和所述经参数化编码的数据，产生所述编码音频信号，以使得所述编码音频信号指示所述经波形编码的下混数据和所述经参数化编码的数据。

10.根据权利要求9所述的编码器，其中，所述编码子系统被配置为对所述输入信号执行时域至频域变换以产生包括所述输入信号的至少一些声道的低频分量和所述输入信号的所述每个声道的更高频分量的频域数据。

11.根据权利要求9所述的编码器，其中，所述更高频分量包括中频分量和高频分量，并且所述编码子系统被配置为通过执行所述中频分量的声道耦合编码以及所述高频分量的频谱扩展编码来产生所述经参数化编码的数据。

12.根据权利要求11所述的编码器，其中，所述低频分量具有不大于在从大约1.2kHz至大约4.6kHz的范围内的最大值F1的频率，所述中频分量具有在范围F1<f≤F2内的频率f，其中F2在从大约8kHz至大约12.5kHz的范围内，所述高频分量具有在范围F2<f≤F3内的频率f，其中，F3在从大约10.2kHz至大约18kHz的范围内。

13.根据权利要求12所述的编码器，其中，所述编码音频信号是E-AC-3编码音频信号。

14.根据权利要求9所述的编码器，其中，所述输入信号具有至少两个全范围音频声道，并且编码子系统被配置为通过用零值取代所述输入信号的全范围音频声道中的至少一个声道的低频分量来产生所述下混。

15.根据权利要求9所述的编码器，其中，所述编码器被配置为产生所述编码音频信号，以使得所述编码音频信号所包括的比特少于所述输入信号所包括的比特。

16.根据权利要求9所述的编码器，其中，所述编码音频信号是E-AC-3编码音频信号。

17.根据权利要求9所述的编码器，其中，所述编码器是数字信号处理器。

18.一种用于对指示经波形编码的数据和经参数化编码的数据的编码音频信号进行解码的方法，其中，所述编码音频信号已经通过以下产生：产生多声道音频输入信号的至少一些声道的低频分量的下混；对所述下混的每个声道进行波形编码，由此产生所述经波形编码的数据，以使得所述经波形编码的数据指示所述下混的音频内容；对所述输入信号的每个声道的至少一些更高频分量执行参数化编码，由此产生所述经参数化编码的数据，以使得所述经参数化编码的数据指示所述输入信号的所述每个声道的所述至少一些更高频分量；并且响应于所述经波形编码的数据和所述经参数化编码的数据，产生所述编码音频信号，所述方法包括以下步骤：

(a)从所述编码音频信号提取所述经波形编码的数据和所述经参数化编码的数据；

(b)对在步骤(a)中提取的所述经波形编码的数据执行波形解码，以产生第一组恢复的频率分量，所述第一组恢复的频率分量指示所述下混的每个声道的低频音频内容；和

(c)对在步骤(a)中提取的所述经参数化编码的数据执行参数化解码，以产生第二组恢复的频率分量，所述第二组恢复的频率分量指示所述多声道音频输入信号的每个声道的至少一些更高频音频内容。

19.根据权利要求18所述的方法，其中，所述多声道音频输入信号具有N个声道，其中，N是整数，并且其中，所述方法还包括以下步骤：

(d)通过组合所述第一组恢复的频率分量和所述第二组恢复的频率分量来产生经解码的频域数据的N个声道，以使得所述经解码的频域数据的每个声道指示所述多声道音频输入信号的声道中的不同声道的中频和高频音频内容，并且所述经解码的频域数据的声道的至少一个子集中的每个声道指示所述多声道音频输入信号的低频音频内容。

20.根据权利要求19所述的方法，还包括以下步骤：对经解码的频域数据的每个声道执行频域至时域的变换以产生N个声道的时域解码音频信号。

21.根据权利要求19所述的方法，其中，步骤(d)包括以下步骤：

对所述第一组恢复的频率分量执行盲上混以产生上混的频率分量；和

将所述上混的频率分量与所述第二组恢复的频率分量组合以产生经解码的频域数据的所述N个声道。

22.根据权利要求18所述的方法，其中，所述编码音频信号是E-AC-3编码音频信号。

23.根据权利要求18所述的方法，其中，步骤(c)包括以下步骤：

对在步骤(a)中提取的所述经参数化编码的数据中的至少一些执行声道耦合解码；和

对在步骤(a)中提取的所述经参数化编码的数据中的至少一些执行频谱扩展解码。

24.根据权利要求18所述的方法，其中，所述第一组恢复的频率分量具有小于或等于在从大约1.2kHz至大约4.6kHz的范围内的最大值F1的频率。

25.一种音频解码器，被配置为对指示经波形编码的数据和经参数化编码的数据的编码音频信号进行解码，其中，所述编码音频信号已经通过以下产生：产生具有N个声道的多声道音频输入信号的至少一些声道的低频分量的下混，其中，N是整数；对所述下混的每个声道进行波形编码，由此产生所述经波形编码的数据，以使得所述经波形编码的数据指示所述下混的音频内容；对所述输入信号的每个声道的至少一些更高频分量执行参数化编码，由此产生所述经参数化编码的数据，以使得所述经参数化编码的数据指示所述输入信号的所述每个声道的所述至少一些更高频分量；并且响应于所述经波形编码的数据和所述经参数化编码的数据，产生所述编码音频信号，所述解码器包括：

第一子系统，被配置为从所述编码音频信号提取所述经波形编码的数据和所述经参数化编码的数据；和

第二子系统，被耦接和配置为：对第一子系统所提取的所述经波形编码的数据执行波形解码，以产生第一组恢复的频率分量，所述第一组恢复的频率分量指示所述下混的每个声道的低频音频内容；并且对第一子系统所提取的所述经参数化编码的数据执行参数化解码，以产生第二组恢复的频率分量，所述第二组恢复的频率分量指示所述多声道音频输入信号的每个声道的至少一些更高频音频内容。

26.根据权利要求25所述的解码器，其中，所述第二子系统还被配置为：通过组合所述第一组恢复的频率分量和所述第二组恢复的频率分量来产生经解码的频域数据的N个声道，以使得所述经解码的频域数据的每个声道指示所述多声道音频输入信号的声道中的不同声道的中频和高频音频内容，并且所述经解码的频域数据的声道的至少一个子集中的每个声道指示所述多声道音频输入信号的低频音频内容。

27.根据权利要求26所述的解码器，其中，所述第二子系统被配置为对经解码的频域数据的每个声道执行频域至时域的变换以产生N个声道的时域解码音频信号。

28.根据权利要求26所述的解码器，其中，所述第二子系统被配置为：对所述第一组恢复的频率分量执行盲上混以产生上混的频率分量；并且将所述上混的频率分量与所述第二组恢复的频率分量组合以产生经解码的频域数据的所述N个声道。

29.根据权利要求25所述的解码器，其中，所述编码音频信号是E-AC-3编码音频信号。

30.根据权利要求25所述的解码器，其中，所述第二子系统被配置为：对第一子系统所提取的所述经参数化编码的数据中的至少一些执行声道耦合解码；并且对第一子系统所提取的所述经参数化编码的数据中的至少一些执行频谱扩展解码。

31.根据权利要求25所述的解码器，其中，所述第一组恢复的频率分量具有小于或等于在从大约1.2kHz至大约4.6kHz的范围内的最大值F1的频率。

32.根据权利要求25所述的解码器，其中，所述解码器是数字信号处理器。