CN1942930B

CN1942930B - 减小用于感知编码的比特分配的计算复杂度

Info

Publication number: CN1942930B
Application number: CN200580011796XA
Authority: CN
Inventors: 斯蒂芬·D.·弗农; 查尔斯·Q.·鲁宾逊; 罗伯特·L.·安德森
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2004-04-20
Filing date: 2005-03-18
Publication date: 2010-11-03
Anticipated expiration: 2025-03-18
Also published as: CA2561435A1; US7406412B2; EP1738354B1; IL178124A0; BRPI0510065A; EP1738354A1; JP2007534986A; MY142333A; CN1942930A; KR101126535B1; TWI367478B; AU2005239290B2; TW200620244A; HK1097081A1; CA2561435C; KR20070001233A; AU2005239290A1; US20050234716A1; MXPA06010866A; WO2005106851A1

Abstract

通过获得在比特分配处理中使用的一个或更多编码参数的最佳值的精确估计，更加有效地执行在感知编码系统中分配用于量化频谱分量的比特的处理。在感知音频编码系统的一种实现中，通过选择用于编码的偏移的初始值，根据这种计算的数量和实际可用于分配的比特数量之差估计偏移的最佳值，导出相对于计算的心理声学掩蔽曲线的偏移的精确估计。

Description

减小用于感知编码的比特分配的计算复杂度

技术领域

本发明通常涉及感知编码，并具体而言涉及减小为编码源信号分配比特的感知编码系统中处理的计算复杂度的技术。

背景技术

经常使用许多编码系统来减小充分表示源信号所需的信息量。通过减小信息容量需求，能够在具有较低带宽的信道上发送或使用较小空间在媒体上存储信号表示。

感知编码通过消除信号中的冗余分量或不相关分量能够减小源音频信号的信息容量要求。这种类型的编码通常使用滤波器组以通过使用频谱分量基本组去相关源信号来减小冗余，以及通过根据心理感知准则自适应量化频谱分量减小不相关性。更粗地适配量化分辨率的编码处理能够以更大的程度减小信息要求，但是它在信号中还引入了更高电平的量化误差或“量化噪声”。感知编码系统试图控制量化噪声的电平以便噪声被“掩蔽”或变成信号的频谱内容感觉不到。这些系统典型使用感知模型来预测能够通过源信号掩蔽的量化噪声的电平。

由于被预测为不可感知而被认为不相关的频谱分量不需要包括在编码的信号中。被认为相关的其他频谱分量能够使用量化分辨率进行量化，该量化分辨率被适配成细到足以使量化噪声变成源信号频谱分量恰好不可感知。量化分辨率通常由比特分配处理控制，该处理确定用于表示每个量化频谱分量的比特数量。

实际的编码系统通常被限制于分配比特以便传送量化频谱分量的编码信号的比特率恒定且等于目标比特率或是可变化的，也许局限于规定的范围，其中平均速率等于目标比特率。对于任何一种情况，编码系统通常使用迭代过程确定比特分配。这些迭代过程搜索确定比特分配的一个或更多编码参数的值，以便根据感知模型，认为量化噪声最佳地在比特率约束条件下被掩蔽。这种编码参数例如可以规定要编码信号的带宽，要编码信道的数量，或目标比特率。

在许多编码系统中，比特分配处理的每次迭代需要显著的计算资源，因为仅根据编码参数不能够容易地确定比特分配。结果，难以实现用于低成本应用诸如家用录像机的高质量感知音频编码器。

美国专利申请公开No.2004/0002859 A1描述了克服这种问题的一种方法，使用一找到用于得到满足比特率约束的比特分配的编码参数的任何值就终止迭代的比特分配处理。这种方法通常牺牲编码质量来减小计算复杂度，因为通常情况下这种方法将不会找到用于编码参数的最佳值。如果目标比特率足够高，这种牺牲可能是可接受的，但是在必须对比特率施加严格限制的许多应用中它是不可接受的。而且，这种方法不能保证减小计算复杂度，因为它不能保证使用比找到最佳值所需的更少迭代将会找到编码参数的可接受值。

发明内容

本发明的目的是提供在编码系统中比特分配过程的有效实现以便使用较少的计算资源能够确定编码参数的最佳值。

根据本发明的一个方面，通过获得表示音频信号的感知掩蔽效应的第一掩蔽曲线编码源信号；响应于可用于编码音频信号的比特数量，导出规定第二掩蔽曲线和第一掩蔽曲线之间偏移的编码参数的估计值；通过在搜索编码参数最佳值的迭代处理中修改编码参数的估计值获得编码参数的最佳值；根据与第一掩蔽曲线相偏移编码参数的最佳值的第二掩蔽曲线，通过量化频谱分量产生编码的频谱分量；以及将编码的频谱分量的表示汇编到输出信号中。

根据本发明的另一个方面，通过选择编码参数的初始值编码源信号；响应于该编码参数的初始值确定比特的第一数量；根据比特的第一数量和比特的第三数量之差确定比特的第二数量，该第三数量对应于可用于编码音频信号的比特数量；响应于编码参数的初始值和比特的第二数量导出编码参数最佳值的估计值；通过根据编码参数量化表示源信号频谱内容的信息产生编码的频谱分量；以及将编码的频谱分量的表示汇编到输出信号中。

通过参考以下的讨论和附图可以更好地理解本发明的各种特征及其优选实施例。以下讨论和附图的内容仅作为实例阐述并且不应该理解成表示对本发明范围的限制。

附图说明

图1是用于可以包含本发明各个方面的编码系统中的发送机的一种实现的示意方框图。

图2是一种导出编码参数估计值的方法的处理流程图。

图3是计算的比特数量和编码参数最佳值之间的关系的图示。

图4是可用于实现本发明各个方面的设备的示意方框图。

具体实施方式

A.引言

本发明提供适于感知编码系统所使用的比特分配过程的有效实现。这些比特分配过程可以包含在发送机中，该发送机包括提供编码比特流诸如符合2001年8月20日出版的题为“Revision A to DigitalAudio Compression(AC-3)Standard”的高级电视制式委员会(ATSC)A/52A文件中描述的编码比特流标准的编码比特流的编码器或代码转换器。以下将描述符合这种ATSC标准的编码器的特定实现；但是，本发明的各个方面可以包含在范围广泛的编码系统所使用的设备中。

图1例示了可以包含在符合上述ATSC标准的编码系统中的具有感知编码器的发送机。这种发送机应用分析滤波器组2给从通道1接收的源信号以产生表示源信号频谱内容的频谱分量，在控制器4中分析频谱分量以沿通道5产生编码器控制信息，在编码器6中通过应用响应于编码器控制信息而适配的编码处理给频谱分量产生编码的信息，并应用格式化器8给编码的信息以产生适于沿通道9传输的输出信号。该输出信号可以立即传送到配套接收机或被记录在存储媒体上用于以后传送。

分析滤波器组2可以以多种方式实现，包括无限脉冲响应(IIR)滤波器、有限脉冲响应(FIR)滤波器、格型滤波器和小波变换。在符合ATSC标准的优选实现中，通过在Princen等人的“Subband/Transform Coding Using Filter Bank Designs Based onTime Domain Aliasing Cancellation”(Proc.of the 1987 InternationalConference on Acoustics，Speech and Signal Processing(ICASSP)，1987年5月，第2161-64页)中描述的改进离散余弦变换(MDCT)实现分析滤波器组2。

编码器6可以基本上实现特定应用可能期望的任何编码处理。在本公开中，类似“编码器”和“编码”的术语并不是要意味着除自适应比特分配和量化之外的任何特定类型的信息处理。通常在编码系统中使用这种类型的处理以减小源信号的信息容量要求。在编码器6中还可以执行其他类型的处理诸如丢弃信号带宽一部分的频谱分量并在编码信息中提供被丢弃部分的频谱包络的估计。

控制器4可以实现范围广泛的处理以产生编码器控制信息。在优选实现中，控制器4应用感知模型给频谱分量以获得表示源信号掩蔽效应估计的“掩蔽曲线”和导出与掩蔽曲线一起使用的一个或更多编码参数来确定应该如何分配比特以量化频谱分量。下面描述一些实例。

格式化器8可以使用多路复用或其他已知的处理产生适于特定应用的格式的输出信号。

B.编码器控制

感知编码系统中的典型控制器4应用感知模型给从分析滤波器组2接收的频谱分量以获得掩蔽曲线。这种掩蔽曲线估计源信号中频谱分量的掩蔽效应。感知编码系统中的发送机和接收机能够通过在发送机中控制比特分配和频谱分量的量化，以便量化噪声电平保持正好低于掩蔽曲线，来传送主观的或感知的高质量输出信号。不幸的是，这种类型的编码处理不能在符合多种编码标准包括上述ATSC标准的编码系统中使用，因为许多标准要求编码的信号具有固定的或被约束在非常有限的比特率范围内变化的比特率。符合这些标准的编码器通常使用迭代搜索编码参数，该参数能够用于产生具有位于可接受界限内的比特率的编码信号。

1.优选技术

在用于符合ATSC标准的编码的一种实现中，控制器4执行这样的迭代处理：(1)应用感知模型给从分析滤波器组2接收的频谱分量以获得初始掩蔽曲线，(2)选择表示初始掩蔽曲线和相同成形的试探掩蔽曲线之间电平差的偏移编码参数，(3)计算量化频谱分量以便量化噪声的电平被保持正好低于试探掩蔽曲线所需的比特数量，(4)比较计算的比特数量与可用于分配以量化的比特数量，(5)当计算的比特数量太大或太小时，分别调节偏移编码参数的值以提高或降低试探掩蔽曲线，以及(6)迭代比特数量的计算，计算的比特数量与可用比特数量的比较，以及编码参数的调节以找到使得计算的比特数量位于可接受范围内的偏移编码参数的值。这种迭代使用已知为“二等分”或“对分搜索”的识别偏移编码参数最佳值的数值方法。有关这种数值方法的其他细节可以从Press等人的“Numerical Recipes”，CambridgeUniversity Press，1986，第89-92页而获得。

本发明通过有效地导出一个或更多编码参数的精确估计以减小控制器4执行诸如上述迭代处理所需的计算资源。对于上述的特定处理，可以使用本发明提供偏移编码参数的精确估计。这可以使用图2所示的处理完成。根据该处理，步骤51选择编码参数的初始值p_I来获得试探掩蔽曲线。步骤52计算量化频谱分量以便量化噪声电平被保持正好低于试探掩蔽曲线所需的比特的数量b1。这种计算可以在概念上表示为：b1＝F(p_I)，这里函数F()表示用于响应于编码参数计算比特数量的处理。步骤53通过计算比特的第一数量b1和由步骤54提供的比特的第三数量b3之差确定比特的第二数量b2，该第三数量b3对应于可用于分配以量化频谱分量的比特数量。这种差可以在概念上表示为b2＝(b1-b3)，但是，应该明白，如果想要，这种概念表示中的任何或全部值可以通过适当的因子定标。步骤55根据比特的第二数量b2导出偏移编码参数最佳值的精确估计p_E。这可以在概念上表示为p_E＝E(b2)，其中函数E()表示用于响应于比特的第二数量估计最佳值的处理。

本发明人已经发现函数E()的表达式能够根据经验导出。下面描述这种函数的一种表达式，它被导出用于产生符合ATSC标准的编码信息的编码器的特定实现。在这种实现中，以48KHz采样源信号的五个信道中的每个信道。每个信道具有大约20.3KHz的带宽。完全编码比特流的比特率是固定的并且等于448千比特/秒。每个信道的频谱分量通过上述MDCT滤波器组产生，该滤波器组被应用于相互重叠256个采样的512个源信号采样的分段以获得256个MDCT系数块。用于每个信道的系数的六个块汇编成一帧。每个块中的频谱分量以包括与指数值定标因子或指数相关的定标值的格式表示。如在上述ATSCA/52A文件中说明的，可以将一个或更多定标值与公共指数相关。比特的数量b3表示可用于量化一帧中的定标值的比特数量。已知为耦合的编码技术被禁止用于这种特定的实现，该编码技术中组合多个信道的频谱分量形成复合频谱表示。通过函数E()估计的特定编码参数规定初始掩蔽曲线和如上简述的试探掩蔽曲线之间的偏移。其他细节可以从ATSC A/52A文件获得。

图3的图表示出差值b2和用于频谱分量帧的偏移编码参数的最佳值p_O之间的经验导出关系，所述频谱分量表示多种源信号的频谱内容。该偏移的值相对于初始掩蔽曲线的电平以dB表示，其中6.02dB(20log2)近似对应于由在频谱分量的分配中一个比特变化而引起的量化噪声电平的变化。通过确定用于一帧中每个块的初始掩蔽门限，对于每个块选择初始偏移值p_I等于-1.875dB，对于该偏移计算量化该帧中频谱分量定标值所需比特的数量b1，以及根据计算的比特的数量b1和可用于表示量化频谱分量定标值的比特的数量b3之差计算“剩余比特”的数量b2而获得该图表。使用上述迭代对分搜索处理为帧中的所有块确定偏移编码参数的最佳值p_O。图3所示图表中的每个点表示计算的差值b2和随后为相应帧确定的偏移编码参数的最佳值p_O。相对于在x轴上剩余比特的数量b2沿y轴表示用于偏移编码参数的最佳值p_O。尽管经验结果指示偏移编码参数的初始值p_I的选择确实影响估计最佳值p_E的精确性，这些结果还指示这种影响小并且估计值中的误差对于初始值p_I的选择相对不敏感。通过使用估计值p_E作为用于上述对分搜索处理的开始偏移，经验测试已经显示迭代检索在仅5次迭代之后对于大约99％的帧能够会聚于编码参数的最佳值p_O，这是选择这种参数开始值的传统方法所使用的迭代数量的一半。

图3的图表中所示的点沿线紧密地群集，这指示偏移编码参数的最佳值p_O的精确估计p_E可以根据通过拟合一条线到这些点导出的线性函数E(b2)而获得。图表中所示群集的形状指示对于差值b2的大正值，所述估计值p_E的变化增加。变化的这种增加意味着估计的精确性较不确定但是这种不确定性在实际实现中并不重要，因为b2的大正值指示可用于量化频谱分量的比特的显著过剩。在这种情况下，找到编码参数的最佳值不是如此的重要，因为最佳值的合理估计有可能导致掩蔽所有量化噪声。

函数E(b2)能够从一条拟合到点的线或曲线导出，优选强调最小化对于b2的负值和小正值的拟合误差。能够通过线性方程p_E＝E(b2)＝1.196·b2-1.915以合理的精度近似图3的图表中所示的特定关系。

2.替换技术

上述的优选技术使用偏移编码参数的估计最佳值p_E作为对分搜索这种参数的真实最佳值p_O的开始值。通过搜索找到的最佳偏移值p_O和初始掩蔽曲线共同地规定最终的掩蔽曲线，该曲线用于计算用于一帧中所有频谱分量的量化的比特分配。

在一种替换技术中，连同初始掩蔽曲线使用估计最佳值p_E来计算用于一帧中至少部分但不是全部块中的频谱分量的比特分配，以及连同初始掩蔽曲线使用最佳值p_O计算用于一帧中剩余块的比特分配。

在这种替换技术的一个实例中，使用估计值p_E计算用于一帧中每个信道的五个块中的频谱分量的比特分配。在这种分配之后，使用通过迭代确定的最佳值p_O，在每个信道的剩余一个块中的频谱分量之间分配剩余比特。优选地，所述迭代使用如上述估计的开始值。这种技术的一个实例可以通过执行以下步骤实现：

(1)选择偏移编码参数的初始值p_I

(2)计算初始比特分配b1＝F(p_I)

(3)计算剩余比特的数量b2＝b3-b1

(4)估计编码参数的最佳值p_E＝E(b2)

(5)计算比特分配b4＝F(p_E)

(6)使用偏移p_E和分配b4对每个信道量化五个块

(7)计算剩余比特的数量b5＝b3-b4

(8)使用p_E作为开始值迭代确定用于剩余块的最佳值p_O

(9)使用偏移p_O和分配b5对每个信道量化剩余块。

在另一个实例中，使用估计值p_E计算用于一帧中部分信道的所有块中频谱分量的比特分配，以及使用通过迭代确定的最佳值p_O来计算用于该帧中其他信道的至少一个块中的频谱分量的比特分配。可以以多种方式使用偏移编码参数的估计值和最佳值，以计算用于频谱分量的相应块的比特分配。优选地，确定最佳值p_O的迭代对分搜索处理如上所述使用估计值p_E作为其开始值。

C.实现

包含本发明各个方面的设备可以以多种方式实现，包括计算机或某些其他设备执行的软件，这些其它设备包括更专用组件诸如耦合到类似于通用计算机中可找到的那些组件的组件的数字信号处理器(DSP)电路。图4是可用于实现本发明各个方面的设备70的示意方框图。DSP72提供计算资源。RAM73是DSP72使用的用于信号处理的系统随机存取存储器(RAM)。ROM74表示某种形式的永久存储器诸如存储操作设备70和执行本发明各个方面所需的程序的只读存储器(ROM)。I/O控制器75表示通过通信信道76、77接收和发送信号的接口电路。模数转换器和数模转换器可以根据需要包括在I/O控制器75中以接收和/或发送模拟信号。在所示的实施例中，所有主要系统组件连接到总线71，它可以表示不止一条物理总线；但是，不需要总线体系结构来实现本发明。

在通用计算机系统中实现的实施例中，可以包括其他组件用于对接设备诸如键盘或鼠标以及显示器，并用于控制具有存储媒体诸如磁带或磁盘、或光媒体的存储器设备。所述存储媒体可用来记录用于操作系统的指令的程序、实用和应用程序，并且可以包括实现本发明各个方面的程序的实施例。

实践本发明各个方面所需的功能能够通过以范围广泛的方式实现的组件执行，包括分立的逻辑组件、集成电路、一个或更多ASIC和/或受程序控制的处理器。实现这些组件的方式对于本发明来说并不重要。

本发明的软件实现可以在整个频谱包括从超声到紫外频率通过多种机器可读媒体诸如基带或调制的通信通道，或使用基本上任何记录技术传送信息的存储媒体包括磁带、卡或磁盘、光卡或光盘、在如纸的媒体上可检测的标记传送。

Claims

1.一种编码音频信号的方法，包括：

接收表示音频信号的频谱内容的频谱分量；

应用感知模型于所述频谱分量以获得表示音频信号的感知掩蔽效应的第一掩蔽曲线；

导出规定第二掩蔽曲线和第一掩蔽曲线之间的偏移的编码参数的估计值，其中响应于可用于编码所述音频信号的比特数量导出编码参数的估计值；

通过在根据感知模型搜索编码参数的最佳值的迭代处理中修改编码参数的估计值，获得编码参数的最佳值；

通过根据第二掩蔽曲线量化频谱分量，产生编码的频谱分量，其中该量化的分辨率响应于第一掩蔽曲线和编码参数，使得编码参数的最佳值根据感知模型最小化量化噪声的可感知度；以及

将编码的频谱分量的表示汇编到输出信号中。

2.根据权利要求1所述的方法，其中导出编码参数的估计值包括：

选择用于编码参数的初始值；

响应于编码参数的初始值确定比特的第一数量以用于量化频谱分量；

根据比特的第一数量和比特的第三数量之差确定比特的第二数量，其中比特的第三数量对应于可用于编码音频信号的比特数量；和

响应于编码参数的初始值和比特的第二数量导出编码参数的估计值。

3.根据权利要求1所述的方法，其中在多个块中安排频谱分量，该多个块被安排在块的帧中，以及其中通过根据编码参数的估计值量化该帧中频谱分量的至少一些但不是全部块，产生编码的频谱分量。

4.一种编码音频信号的方法，包括：

接收表示音频信号的频谱内容的频谱分量；

导出编码参数的估计值，其中该估计值是编码参数最佳值的估计并通过以下步骤导出：

选择用于该编码参数的初始值；

响应于编码参数的该初始值确定比特的第一数量；

根据比特的第一数量和比特的第三数量之差确定比特的第二数量，比特的第三数量对应于可用于编码音频信号的比特数量；和

响应于编码参数的初始值和比特的第二数量导出编码参数的估计值；

通过根据编码参数量化频谱分量，产生编码的频谱分量，其中该量化的分辨率响应于编码参数，使得该编码参数的最佳值根据感知模型最小化量化噪声的可感知度；以及

将编码的频谱分量的表示汇编到输出信号中。

5.根据权利要求4所述的方法，其中在块中安排所述频谱分量，并且该方法通过根据编码参数的估计值量化频谱分量的一些块以及通过根据编码参数的最佳值量化频谱分量的其他块，产生编码的频谱分量，其中通过执行根据感知模型搜索编码参数的最佳值的迭代处理，获得编码参数的最佳值。

6.根据权利要求5所述的方法，其中所述迭代处理以等于编码参数估计值的初始值开始搜索编码处理的最佳值。

7.一种用于编码音频信号的设备，包括：

(a)输入端；

(b)输出端；和

(c)耦合至输入端和输出端的信号处理电路，其中该信号处理电路适于：

从输入端接收信号并根据该信号获得表示音频信号的频谱内容的频谱分量；

将编码的频谱分量的表示汇编到发送给输出端的输出信号中。

8.根据权利要求7所述的设备，其中导出编码参数的估计值包括：

选择用于编码参数的初始值；

9.根据权利要求7所述的设备，其中在多个块中安排频谱分量，该多个块被安排在块的帧中，其中通过根据编码参数的估计值量化该帧中频谱分量的至少一些但不是全部块，产生编码的频谱分量。

10.一种用于编码音频信号的设备，包括：

(a)输入端；

(b)输出端；和

选择用于该编码参数的初始值；

响应于编码参数的该初始值确定比特的第一数量；

将编码的频谱分量的表示汇编到输出信号中。

11.根据权利要求10所述的设备，其中在块中安排所述频谱分量，并且该方法通过根据编码参数的估计值量化频谱分量的一些块以及通过根据编码参数的最佳值量化频谱分量的其他块，产生编码的频谱分量，其中通过执行根据感知模型搜索编码参数的最佳值的迭代处理，获得编码参数的最佳值。

12.根据权利要求11所述的设备，其中所述迭代处理以等于编码参数估计值的初始值开始搜索编码处理的最佳值。