CN102483923A

CN102483923A - 音频编码中基于频带信号能量的频带比例因子确定

Info

Publication number: CN102483923A
Application number: CN2010800377116A
Authority: CN
Inventors: 拉克西米纳拉亚纳·M·达林巴
Original assignee: Sling Media Pvt Ltd
Current assignee: Dixun Network Technology India Pvt ltd
Priority date: 2009-08-24
Filing date: 2010-08-24
Publication date: 2012-05-30
Anticipated expiration: 2030-08-24
Also published as: TWI450267B; KR20120048694A; WO2011024198A3; AU2010288103A1; AU2010288103B2; WO2011024198A2; MX2012002182A; IL217958A; EP2471062A2; CA2770622A1; AU2010288103B8; BR112012003364A2; SG178364A1; US8311843B2; JP2013502619A; EP2471062B1; AU2010288103A8; TW201123173A; CA2770622C; CN102483923B

Abstract

本发明提出一种编码时域音频信号的方法。在所述方法中，电子装置接收所述时域音频信号。将所述时域音频信号变换为频域信号，所述频域信号包括多个频率中的每一者的系数，所述系数被分组为若干频带。对于每一频带，确定所述频带的能量，基于所述频带的所述能量确定所述频带的比例因子，且基于相关联的比例因子量化所述频带的所述系数。基于所述经量化的系数及所述比例因子而产生经编码的音频信号。

Description

音频编码中基于频带信号能量的频带比例因子确定

技术领域

背景技术

音频信息的高效的压缩减少用于存储所述音频信息的存储器容量要求及传输所述信息所需的通信带宽。为实现此压缩，各种音频编码方案(例如无所不在的运动图片专家组1(MPEG-1)音频层3(MP3)格式及较新的高级音频编码(AAC)标准)使用大体上描述人耳在接收及处理音频信息中的界限的至少一个音质模型(PAM)。举例来说，人类音频系统展现频域(其中处于特定频率的音频屏蔽处于邻近频率、低于某些音量水平的音频)及时域(其中具有特定频率的音频音调在移除之后在某一时间周期内屏蔽相同的音调)两者中的声学屏蔽原理。提供压缩的音频编码方案通过移除原始音频信息中将被人类音频系统屏蔽的那些部分来利用这些声学屏蔽原理。

为确定移除所述原始音频信号中的哪些部分，音频编码系统通常处理所述原始信号以产生屏蔽阈值，使得可消除位于所述阈值下方的音频信号而不造成音频保真度的显著损失。此处理在运算上相当密集，从而使音频信号的实时编码变得困难。此外，执行此类运算通常对于消费型电子装置费力且耗时，消费型电子装置中的许多采用并非为此密集处理所特定设计的定点数字信号处理器(DSP)。

发明内容

附图说明

参考下列图式可更好地理解本发明的许多方面。因为将重点替代地放在对本发明的原理的清晰说明上，所以所述图式中的组件不必按比例描绘。此外，在所述图式中，相同的参考数字在所有若干视图中标示对应的部件。同时，虽然结合这些图式描述若干实施例，但是本发明不限于本文中揭示的实施例。相反，打算包括所有替代物、修改及等效物。

图1为根据本发明的实施例的经配置以编码时域音频信号的电子装置的简化框图。

图2为根据本发明的实施例的操作图1的电子装置以编码时域音频信号的方法的流程图。

图3为根据本发明的另一实施例的电子装置的框图。

图4为根据本发明的实施例的音频编码系统的框图。

图5为根据本发明的实施例的拥有若干频带的频域信号的图形描绘。

具体实施方式

附图及以下描述描绘本发明的特定实施例以教示所属领域的技术人员如何制作且使用本发明的最佳模式。出于教示发明性原理的目的，已简化或省略一些常规方面。所属领域的技术人员将了解落于本发明的范围内的这些实施例的变型。所属领域的技术人员还将了解可以各种方式组合下文所述的特征以形成本发明的多个实施例。因此，本发明不限于下文所述的特定实施例，而是仅由权利要求及其等效物限制。

图1提供根据本发明的实施例的经配置以将时域音频信号110编码为经编码的音频信号120的电子装置100的简化框图。在一个实施方案中，所述编码是根据高级音频编码(AAC)标准执行，但是涉及将时域信号变换为经编码的音频信号的其它编码方案可有利地利用下文所论述的概念。此外，电子装置100可为能够执行此编码的任何装置，包括(但不限于)个人桌上型计算机及膝上型计算机、音频/视频编码系统、压缩光盘(CD)及数字视频磁盘(DVD)播放器、电视机顶盒、音频接收器、蜂窝式电话、个人数字助理(PDA)及音频/视频易地播放装置(例如Sling Media公司所提供的各种型号的Slingbox

)。

图2呈现操作图1的电子装置100以编码时域音频信号110以产生经编码的音频信号120的方法200的流程图。在方法200中，电子装置100接收时域音频信号110(操作202)。装置100接着将时域音频信号110变换为具有多个频率的频域信号，其中每一频率与指示所述频率的量值的系数相关联(操作204)。接着将所述系数分组为若干频带(操作206)。所述频带中的每一者包括所述系数中的至少一者。对于每一频带(操作208)，电子装置100确定所述频带的能量(操作210)，基于所述频带的所述能量确定所述频带的比例因子(操作212)，且基于与所述频带相关联的所述比例因子量化所述频带的所述系数(操作214)。装置100基于所述经量化的系数及所述比例因子产生所述经编码的音频信号120(操作216)。

虽然图2的操作描绘为以特定顺序执行，但是其它执行顺序(包括同时执行两个或两个以上操作)可为可能的。例如，可将图2的操作作为一类型的执行管线而执行，其中每一操作随着时域音频信号110的不同部分进入所述管线而对时域音频信号110的不同部分执行。在另一实施例中，计算机可读存储媒体可具有在上面编码的指令以供图1的电子装置100中的至少一个处理器或其它控制电路实施方法200。

由于方法200的至少一些实施例，每一频带用于量化所述频带的系数的比例因子是基于对所述频带的频率的能量的确定。此确定因为通常在大多数AAC实施方案中执行，所以与屏蔽阈值的计算相比，此确定通常在计算上要不密集得多。因此，由任何类别的电子装置(包括使用廉价的数字信号处理组件的小型装置)进行实时音频编码可为可能的。可从下文更详细论述的本发明的各种实施方案认识到其它优点。

图3为根据本发明的另一实施例的电子装置300的框图。装置300包括控制电路302及数据存储装置304。在一些实施方案中，装置300还可包括通信接口306及用户接口308中的任一者或两者。其它组件(包括(但不限于)电源及装置外壳)也可包括在电子装置300中，但是图3中没有明确地展示此类组件，下文也不论述此类组件以简化以下论述。

控制电路302经配置以控制电子装置300的各种方面，以将时域音频信号310编码为经编码的音频信号320。在一个实施例中，控制电路302包括经配置以执行引导处理器执行下文更详细论述的各种操作的指令的至少一个处理器(例如微处理器、微控制器或数字信号处理器(DSP))。在另一实例中，控制电路302可包括经配置以执行下文所述的任务或操作中的一者或一者以上的一个或一个以上硬件组件，或可并入硬件及软件处理元件的某一组合。

数据存储装置304经配置以存储待编码的时域音频信号310及所得的经编码的音频信号320中的一些或全部。数据存储装置304还可存储中间数据、控制信息及编码过程中所涉及的类似物。数据存储装置304还可包括待由控制电路302的处理器执行的指令，以及关于所述指令的执行的任何程序数据或控制信息。数据存储装置304可包括任何易失性存储器组件(例如动态随机存取存储器(DRAM)及静态随机存取存储器(SRAM))、非易失性存储器装置(例如可移除及受控制的快闪存储器、磁盘驱动器及光盘驱动器)及其组合。

电子装置300还可包括经配置以经由通信链路接收时域音频信号310及/或传输经编码的音频信号320的通信接口306。通信接口306的实例可为广域网络(WAN)接口(例如到因特网的数字订户线(DSL)或缆线接口)，局域网络(LAN)(例如Wi-Fi或以太网)，或适于经由通信链路或以有线、无线或光学方式的连接进行通信的任何其它通信接口。

在其它实例中，通信接口306可经配置以将作为音频/视频节目的部分的音频信号310、320发送到输出装置(图3中未展示)，例如电视、视频监视器或音频/视频接收器。举例来说，所述音频/视频节目的视频部分可借助于调制视频缆线连接、复合或分量视频RCA(美国无线电公司)式连接及数字视频接口(DVI)或高清晰度多媒体接口(HDMI)连接来传送。所述节目的音频部分可经由单声道或立体声音频RCA式连接、TOSLINK连接或经由HDMI连接来传输。其它实施例中可使用其它的音频/视频格式及相关的连接。

此外，电子装置300可包括经配置以(例如)借助于音频麦克风及相关电路(包括放大器、模/数转换器(ADC)及类似物)来从一个或一个以上用户接收时域音频信号310所表示的声学信号311的用户接口308。同样，用户接口308可包括放大器电路及一个或一个以上音频扬声器，以向用户呈现经编码的音频信号320所表示的声学信号321。取决于实施方案，用户接口308还可包括用于允许用户控制电子装置300的构件，例如借助于键盘、小键盘、触摸垫、鼠标、操纵杆或其它用户输入装置。类似地，用户接口308可提供视觉输出构件，例如监视器或其它视觉显示装置，从而允许所述用户从电子装置300接收视觉信息。

图4提供电子装置300所提供的将时域音频信号310编码为图3的经编码的音频信号320的音频编码系统400的实例。图3的控制电路302可借助于硬件电路、执行软件或固件指令的处理器或其某一组合来实施音频编码系统400中的每一部分。

图4的特定系统400表示AAC的特定实施方案，但是其它音频编码方案可用于其它实施例中。一般来说，AAC表示音频编码的模块化方法，借此图4的每一功能块450-472以及其中未特定描绘的功能块可以单独的硬件、软件或固件模块或“工具”实施，因此允许源于不同开发源的模块集成到单个编码系统400中以执行所要的音频编码。因此，使用不同数目及类型的模块可导致任何数目的编码器“简档”的形成，每一编码器“简档”能够解决与特定编码环境相关联的特定限制。此类限制可包括装置300的计算能力、时域音频信号310的复杂性及经编码的音频信号320的所要特性(例如输出位速率及失真水平)。AAC标准通常提供四种默认简档，包括低复杂性(LC)简档、主要(MAIN)简档、样本速率可缩放(SRS)简档及长期预测(LTP)简档。图4的系统400主要对应于所述主要简档，但是其它简档可将增强并入下文所述的感知模型450、比例因子产生器466及/或速率/失真控制块464。

图4借助于实箭头线描绘音频数据的一般流动，而经由虚箭头线说明可能的控制路径中的一些。关于图4中未特定展示的模块450-472之间的控制信息的传递的其它可能性在其它布置中可为可能的。

在图4中，接收时域音频信号310以作为到系统400的输入。一般来说，时域音频信号310包括格式化为时变音频信号的一系列数字样本的音频信息的一个或一个以上通道。在一些实施例中，时域音频信号310最初可呈模拟音频信号的形式，随后(例如)借助于用户接口308的ADC以规定的速率将其数字化，然后将其转发到编码系统400，如由控制电路302所实施。

如图4中所说明，音频编码系统400的模块可包括配置为接收作为输入的时域音频信号310的处理管线的部分的增益控制块452、滤波器组454、时间噪声整形(TNS)块456、强度/耦合块458、向后预测工具460及中间/侧面立体声块462。这些功能块452-462可对应于经常在AAC的其它实施方案中看到的相同的功能块。时域音频信号310还被转发到感知模型450，感知模型450可将控制信息提供到以上提及的功能块452-462中的任一功能块。在典型的AAC系统中，此控制信息指示时域音频信号310中的哪些部分在音质模型(PAM)下是多余的，因此允许丢弃时域音频信号310中的音频信息的那些部分以促进如经编码的音频信号320中所实现的压缩。

为此，在典型的AAC系统中，感知模型450从时域音频信号310的快速傅立叶变换(FFT)的输出计算屏蔽阈值，以指示可丢弃音频信号310中的哪些部分。然而，在图4的实例中，感知模型450接收提供频域信号474的滤波器组454的输出。在一个特定实例中，滤波器组454为如AAC系统中通常提供的经修改的离散余弦变换(MDCT)功能块。

如图5中所描绘，由MDCT块454产生的频域信号474包括用于待经编码的音频信息中的每一通道的许多频率502，其中每一频率502由指示频域信号474中的频率502的量值或强度的系数表示。在图5中，每一频率502描绘为垂直向量，所述垂直向量的高度表示与频率502相关联的系数的值。

另外，如在典型的AAC方案中所进行，频率502在逻辑上被组织为邻接的频率群组或“频带”504A-504E。虽然图4指示每一频带504使用相同的频率范围且包括由滤波器组454产生的相同数目的离散频率502，但是可在频带504之间采用不同数目的频率502及各种大小的频率502范围，如常为AAC系统的情况。

形成频带504以允许频率502的频带504的每一频率502的系数借助于图4的比例因子产生器466所产生的比例因子而缩放或划分。此缩放减少表示经编码的音频信号320中的频率502系数的数据量，因此压缩所述数据，从而导致经编码的音频信号320的较低的传输位速率。此缩放还导致音频信息的量化，其中频率502系数被迫变为离散的预定值，因此可能在解码之后在经编码的音频信号320中引入一些失真。一般来说，较高的比例因子导致较粗糙的量化，从而导致较高的音频失真水平及较低的经编码的音频信号320位速率。

为满足先前的AAC系统中的经编码的音频信号320的预定失真水平及位速率，感知模型450计算以上提及的屏蔽阈值以确定经编码的音频信号320的每一样本块的可接受比例因子。然而，在本文论述的实施例中，感知模型450替代地确定与每一频带504的频率502相关联的能量，且接着基于所述能量计算每一频带504的所要的比例因子。在一个实例中，频带504中的频率502的能量是通过频带504中的频率502的MDCT系数的“绝对总和”或绝对值的总和(有时被称为绝对谱系数的总和(SASC))来计算。

一旦确定频带504的能量，即可通过采用频带504的能量的对数(例如以十为底数的对数)，加上常数值，且接着将所述项乘以预定乘数以产生频带504的至少初始比例因子，来计算与频带504相关联的比例因子。根据先前已知的音质模型的音频编码中的实验指示为大约1.75的常数及乘数10产生与由密集型屏蔽阈值计算所产生的比例因子相当的比例因子。因此，对于此特定实例，产生比例因子的以下方程式。

scale_factor＝(log₁₀(∑|band_coefficients|)+1.75)*10

其它配置中可采用除1.75以外的其它常数值。

为编码时域音频信号310，MDCT滤波器组454产生频域信号474的频率样本的一系列块，其中每一块与时域音频信号310的特定时间周期相关联。因此，可针对频域信号474中所产生的频率样本的每一通道的每个块采用上述比例因子计算，因此潜在地提供每一频带504中的每一块的不同的比例因子。给定所涉及的数据数量，与估计相同的频率样本块的屏蔽阈值相比，对于每一比例因子使用以上计算显著地减少确定所述比例因子所需的处理量。

在管线中在比例因子产生器466之后的量化器468使用如由比例因子产生器466产生(且可能由如下文所述的速率/失真控制块464调整)的每一频带504的比例因子来划分所述频带504中的各种频率502的系数。通过划分所述系数，所述系数被减少或在大小上被压缩，因此降低经编码的音频信号320的总体位速率。此划分导致所述系数被量化为某一界定数目的离散值中的一者。

在一个实施例中，使用上文引用的方程式以产生比例因子可限于经编码的音频信号320的目标或所要的位速率不超过某一预定水平或值的情形。为解决所述目标位速率超过所述预定水平的情况，速率/失真控制块464可替代地确定每一频带504的系数中哪些为频带504的最高或最大的系数，且接着选择频带504的比例因子，使得不迫使如量化器468所产生的所述系数的量化值成为零。通过以此方式产生比例因子，可避免存在音频“孔”，在音频“孔”中，频率的整个频带504在若干时间周期内在经编码的音频信号320中被遗漏，且因此对于收听者可为显著的。在一个实施例中，速率/失真控制块464可选择最大比例因子，其允许频带504的最大系数在量化之后为非零。

在量化之后，无噪声编码块470根据无噪声编码方案编码所得的经量化的系数。在一个实施例中，编码方案可为AAC中所采用的无损霍夫曼(Huffman)编码方案。

如图4中所描绘的速率/失真控制块464可调整比例因子产生器466中产生的比例因子中的一者或一者以上以满足经编码的音频信号320的预定位速率及失真水平需要。举例来说，速率/失真控制块464可确定所计算的比例因子可导致与待得到的平均位速率相比显著较高的经编码的音频信号320的输出位速率，且因此相应地增加比例因子。

在另一实施方案中，速率/失真控制块464采用位池，或“漏桶(leaky bucket)”模型来调整比例因子以维持经编码的音频信号320的可接受的平均位速率，同时允许所述位速率随时间增加以适应包括较高数据内容的时域音频信号310的周期。更具体来说，假设具有与经编码的音频信号320所需的位速率相关联的某一时间周期的容量的实际或虚拟位池或缓冲器起初为空。在一个实例中，所述缓冲器的大小对应于大约五秒钟的经编码的音频信号320的数据，但是在其它实施方案中可调用更短或更长的时间周期。

在理想的数据传递条件(其中比例因子产生器466所产生的比例因子引起输出音频信号320的实际位速率匹配所要的位速率)期间，所述缓冲器仍然处于其起初空状态中。然而，如果经编码的音频信号320的多个块中的一部分临时需要使用较高的位速率以维持所要的失真水平，则可应用较高的位速率，因此消耗所述缓冲器或池中的一些。如果所述缓冲器的充满度接着超过某一预定阈值，则可增加所产生的比例因子以降低输出位速率。类似地，如果所述输出位速率下降以使得所述缓冲器仍然为空，则速率/失真控制块464可减小比例因子产生器466所供应的比例因子以增加位速率。取决于实施例，速率/失真控制块464可增加或减小所有频带504的比例因子，或可取决于原始比例因子、系数及其它特性而选择特定的比例因子用于调整。

在一个布置中，可在应用上文所述的位池模型之前采用速率/失真控制块464基于所产生的位速率调整比例因子的能力，以允许所述模型快速收敛到遵守预定位速率同时将最小量的失真注入到经编码的音频信号320中的比例因子。

在编码块470中编码比例因子及系数后，所得的数据被转发到位流多路复用器472，其输出包括系数及比例因子的经编码的音频信号320。此数据可进一步与其它控制信息及元数据混合，例如文本数据(包括标题及关于经编码的音频信号320的相关信息)及关于经使用以使得接收音频信号320的解码器可精确地解码信号320的特定编码方案的信息。

如本文所述的至少一些实施例提供一种音频编码方法，其中音频信号的每一频带内的音频频率所展现的能量可用于以相对少的计算来计算用于所述音频信息的编码及压缩的有用的比例因子。通过以此方式产生所述比例因子，可更容易完成音频信号的实时编码(例如可在易地播放装置中用于经由通信网络传输音频)。此外，以此方式产生比例因子可允许拥有先前不能编码及压缩音频信号的廉价的数字信号处理电路的许多便携式及其它消费型装置提供此能力。

虽然本文已经论述本发明的若干实施例，但是由本发明的范围所涵盖的其它实施方案是可能的。例如，虽然已经在易地播放装置的背景中描述了本文所揭示的至少一个实施例，但是其它数字处理装置(例如通用计算系统)、电视接收器或机顶盒(包括与卫星、缆线及地面电视信号传输相关联的装置)、卫星及地面音频接收器、游戏控制台、DVR及CD及DVD播放器可得益于上文解释的概念的应用。另外，本文所揭示的一个实施例的若干方面可与替代实施例的方面组合以产生本发明的进一步实施方案。因此，虽然已在特定实施例的背景中描述本发明，但是提供此类描述是出于说明而非限制的目的。因此，本发明的合适范围仅由所附权利要求书及其等效物限定。

Claims

1.一种编码时域音频信号的方法，所述方法包括：

在电子装置处接收所述时域音频信号；

将所述时域音频信号变换为频域信号，所述频域信号包括多个频率中的每一者的系数；

将所述系数分组为若干频带，其中所述频带中的每一者包括所述系数中的至少一者；

对于每一频带，确定所述频带的能量；

对于每一频带，基于所述频带的所述能量确定比例因子；

对于每一频带，基于所述相关联的比例因子量化所述频带的所述系数；及

基于所述经量化的系数及所述比例因子产生经编码的音频信号。

2.根据权利要求1所述的方法，其中：

产生所述经编码的信号包括编码所述经量化的系数，其中所述经编码的音频信号是基于所述经编码的系数及所述比例因子。

3.根据权利要求1所述的方法，其中确定所述频带的所述能量包括：

计算所述频带的所述系数的绝对总和。

4.根据权利要求3所述的方法，其中确定所述比例因子包括：

计算所述频带的所述能量的以十为底数的对数；

将常数相加到所述频带的所述能量的所述以十为底数的对数以产生第一项；及

将所述第一项乘以乘数以产生所述比例因子。

5.根据权利要求4所述的方法，其中：

所述常数为大约1.75；且

所述乘数为10。

6.根据权利要求1所述的方法，其中

当所述经编码的音频信号的目标位速率未超过预定水平时执行确定所述频带的所述能量及基于所述频带的所述能量确定所述比例因子；且

所述方法进一步包括：

当所述经编码的音频信号的所述目标位速率超过预定水平时，对于所述频带中的每一者，确定所述频带的所述系数的最大系数，且选择比例因子，使得与所述最大系数相关联的所述经量化的系数不为零。

7.根据权利要求1所述的方法，其进一步包括：

对于每一频带，基于所述经编码的音频信号的预定位速率调整所述比例因子，其中所述比例因子与所述预定位速率反相关。

8.根据权利要求1所述的方法，其进一步包括：

对于每一频带，基于位池模型调整所述比例因子以维持所述经编码的音频信号的预定位速率。

9.根据权利要求8所述的方法，其中：

所述位池模型对应于处于所述预定位速率的五秒钟的所述经编码的音频信号。

10.一种产生频域音频信号的频带的频率系数的比例因子以产生经量化的输出信号的方法，所述方法包括：

对于未超过预定水平的所述经量化的输出信号的位速率，确定所述频带的能量，且基于所述频带的所述能量确定比例因子；及

对于超过所述预定水平的所述经量化的输出信号的位速率，确定所述频带的最大频率系数，且选择比例因子，使得对应的系数在量化后不为零；

其中所述频率系数的量化是基于所述比例因子。

11.根据权利要求10所述的方法，其中确定所述频带的所述能量包括：

计算所述频带的所述系数的绝对总和。

12.根据权利要求10所述的方法，其中基于所述频带的所述能量确定所述比例因子包括：

计算所述频带的所述能量的对数；

将常数相加到所述频带的所述能量的所述对数以产生第一项；及

将所述第一项乘以乘数以产生所述比例因子。

13.根据权利要求12所述的方法，其中：

所述常数为大约1.75；且

所述乘数为10。

14.根据权利要求10所述的方法，其进一步包括：

对于每一频带，基于所述经量化的输出信号的所述位速率调整所述比例因子，其中所述比例因子与所述经量化的输出信号的所述位速率反相关。

15.一种电子装置，其包括：

数据存储装置，其经配置以存储时域音频信号及表示所述时域音频信号的经编码的音频信号；及

控制电路，其经配置以：

从所述数据存储装置检索所述时域音频信号；

对于每一频带，确定所述频带的能量；

对于每一频带，基于所述频带的所述能量确定比例因子；

对于每一频带，基于相关联的比例因子量化所述频带的所述系数；及

基于所述经量化的系数及所述比例因子产生所述经编码的音频信号。

16.根据权利要求15所述的电子装置，其中所述控制电路经配置以：

将经编码的音频信号存储于所述数据存储装置中。

17.根据权利要求15所述的电子装置，其中为确定所述频带的所述能量，所述控制电路经配置以：

对所述频带的所述系数的绝对值求和。

18.根据权利要求17所述的电子装置，其中为确定所述频带的所述比例因子，所述控制电路经配置以：

确定所述频带的所述能量的对数；

将所述第一项乘以乘数以产生所述比例因子。

19.根据权利要求18所述的电子装置，其中：

所述常数为大约1.75；且

所述乘数为10。

20.根据权利要求15所述的电子装置，其中：

当所述经编码的音频信号的目标位速率未超过预定水平时，所述控制电路经配置以确定所述频带的所述能量且基于所述频带的所述能量确定所述比例因子；及

当所述经编码的音频信号的所述目标位速率超过所述预定水平时，所述控制电路经配置以确定所述频带的最大频率系数，且选择比例因子，使得对应的系数在量化后不为零。