CN1910656B - 基于块分组的音频编码 - Google Patents

基于块分组的音频编码 Download PDF

Info

Publication number
CN1910656B
CN1910656B CN2005800028576A CN200580002857A CN1910656B CN 1910656 B CN1910656 B CN 1910656B CN 2005800028576 A CN2005800028576 A CN 2005800028576A CN 200580002857 A CN200580002857 A CN 200580002857A CN 1910656 B CN1910656 B CN 1910656B
Authority
CN
China
Prior art keywords
group
piece
measured
handling property
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2005800028576A
Other languages
English (en)
Other versions
CN1910656A (zh
Inventor
马修·C·费利尔斯
马克·S·温顿
克劳斯·鲍尔
格兰特·A·戴维森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Publication of CN1910656A publication Critical patent/CN1910656A/zh
Application granted granted Critical
Publication of CN1910656B publication Critical patent/CN1910656B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Road Signs Or Road Markings (AREA)

Abstract

音频信息块以组排列,所述组共享编码控制参数以减小在编码信号中传递控制参数所需的边信息量。减小编码音频信息失真的组配置可以通过搜索最佳或接近最佳方案的几种技术中任何一种确定。这些技术包括穷举搜索、快速最佳搜索和贪婪归并,其允许搜索技术在减小失真和编码信号的比特率和/或搜索技术的计算复杂度之间权衡。

Description

基于块分组的音频编码
技术领域
本发明涉及优化一类数字音频编码器的操作,其中这些数字音频编码器将编码过程应用到表示被分割为帧的一个或多个音频信道的一个或多个音频信息流,其中每个帧包括一个或多个数字音频信息块。更具体而言,本发明涉及以这样的方式对以帧排列的音频信息块进行分组,以便优化被应用到帧的编码过程。
背景技术
许多音频处理系统通过将音频信息流分割为帧并进一步将帧分割为表示特定时间间隔中音频信息部分的连续数据块而工作。一些类型的信号处理被应用于流中每个块。将感知(perceptual)编码过程应用于每个块的音频处理系统的两个实例是符合高级音频编码器(AAC:Advanced Audio Coder)标准的系统,其在以下文献中有所描述:ISO/IEC 13818-7,“MPEG-2 advanced audio coding,AAC”.International Standard,1997;ISO/IEC JTC1/SC29,“Informationtechnology-very low bitrate audio-visual coding,”和ISO/IECIS-14496(Part3,Audio),1996;以及所谓的AC-3系统,其符合以下文献中描述的编码标准:2001年8月20日发表的先进电视系统委员会(ATSC:Advanced Television Systems Committee)A/52A文件,题目是“Revision A to Digital Audio Compression(AC-3)Standard”。
在很多音频处理系统中被应用到块的一种类型的信号处理是感知编码的形式,其在块中执行音频信息分析以获得其谱分量的表示,估计谱分量的感知掩蔽效应,这样量化谱分量使得所产生的量化噪声听不见或者其可听性尽可能低,并将量化后的谱分量的表示集成为可以被传送或记录的编码信号。从量化谱分量中恢复音频信息块所需的一组控制参数也被集成到编码信号中。
谱分析可以以多种方式执行,但是使用时域到频域转换的分析是常见的。当音频信息块一转换到频域表示时,音频信息的谱分量就由矢量序列表示,其中每个矢量表示相应块的谱分量。矢量的元素是频域系数,并且每个矢量元素的索引对应于特定频率间隔。由每个变换系数所表示的频率间隔宽度是固定的或可变的。由基于傅立叶的变换-诸如离散傅立叶变换(DFT)或离散余弦变换(DCT)-所产生的变换系数所表示的频率间隔宽度是固定的。由子波或子波分组变换所产生的变换系数所表示的频率间隔宽度是可变的,并且通常随着频率的提高而变大。例如,参见A.Akansu,R.Haddad,“MultiresolutionSignal Decomposition,Transforms,Subbands,Wavelets,”AcademicPress,San Diego,1992。
可以用于从感知编码信号中恢复音频信息块的一种类型的信号处理从编码信号中获得一组控制参数和量化谱分量的表示,并且使用该组参数来导出谱分量,用于合成到音频信息块中。合成是对用于产生编码信号的分析的互补。使用频域到时域变换的合成是常见的。
在很多编码应用中,可用来传送或记录编码信号的带宽或空间是有限的,并且该限制对可以用来表示量化频谱分量的数据量产生严格的限制。传递控制参数集合所需的数据是进一步减小可以用来表示量化谱分量的数据量的开销。
在一些编码系统中,一组控制参数被用来编码每个音频信息块。这些类型的编码系统中的一种已知的减小开销的技术是这样控制编码过程,使得只需要一组控制参数来从编码信号中恢复多个音频信息块。例如如果编码过程被控制,使得10个块共享一组控制参数,那么用于这些参数的开销被减小了90%。不幸的是,如果控制参数被太多块共享,则音频信号不平稳,并且对于一帧中所有音频信息块的编码过程的效率可能不是最佳的。所需要的是一种通过控制该处理以减小传递控制参数所需的开销从而优化信号处理效率的方法。
发明内容
根据本发明,以帧排列的音频信息块被分组为一个或多个集合或组的块,使得每个块在相应组中。每个组可以包括一帧内的单个块或两个或多个块的集合,并且应用到组中每个块的过程使用公共集合的一个或多个控制参数,诸如例如一个集合的比例因子。本发明的目的是控制块的分组,以便优化信号处理性能。
在编码系统中,例如,包括音频信息块的音频信息流以帧排列,其中每个帧具有一组或多组块。一个集合的一个或多个编码参数被用来对相应组中所有块编码音频信息。这些块被分组,以优化编码性能的一些量度。例如,与其中利用每个块自己的编码参数集合来编码每个块的参考信号的编码信号的失真相比,结合本发明各个方面的编码系统可以通过为帧中每个组使用共享编码参数来控制块的分组,以使表示帧中编码音频信息失真的信号误差最小化。
通过参考以下讨论和附图将更好地理解本发明的各种特征和其优选实施例,其中附图中相似的参考符号表示相似的元件。以下讨论和附图的内容仅仅示例性地给出,并且不应当被理解为表示对本发明范围的限制。
附图说明
图1是可以结合本发明各个方面的音频编码系统的框图。
图2是用于找出帧中块组的最佳数量的迭代过程的外循环的流程图。
图3A和3B是用于找出帧中块的最佳分组的迭代过程的内循环的流程图。
图4是贪婪归并(Greedy Merge)过程的流程图。
图5是表示应用到4个块的贪婪归并过程的实例的概念框图。
图6是可以用于实现本发明各个方面的设备的示意框图。
具体实施方式
A.介绍
图1表示一种音频编码系统,其中编码器10从通道5接收表示一个或多个音频信号信道的一个或多个音频信息流。编码器10处理音频信息流,以沿着通道15产生可以被传送或记录的编码信号。编码信号随后被解码器20接收,其中解码器20处理编码信号以沿着通道25产生从通道5所接收的音频信息的复制品。复制品的内容可以不等于原始音频信息。如果编码器10使用无损编码方法来产生编码信号,则理论上解码器20可以恢复等于原始音频信息流的复制品。如果编码器10使用有损编码技术、诸如感知编码,则所恢复的复制品的内容通常不等于原始流的内容,但是其可以在感知上与原始内容没有区别。
编码器10利用响应于一个集合的一个或多个过程控制参数的编码过程来对每个块中的音频信息编码。例如,编码过程可以将每个块中的时域信息变换成频域变换系数;以浮点形式表示变换系数,其中一个或多个浮点尾数与浮点指数相关联;并且使用浮点指数来控制尾数的缩放和量化。该基本方法被用于很多音频编码系统,包括上述AC-3和AAC系统,并且该基本方法在以下段落中更详细地讨论。然而,应当理解,比例因子以及它们作为控制参数的使用仅仅是本发明的教导可以如何被应用的一个实例。
通常,如果每个系数尾数与其自身的指数相关联,则每个浮点变换系数的值可以由给定数量的比特更精确地表示,因为每个尾数更可能可以被归一化;然而,如果一些系数尾数共享一个指数,则可能一个块的整个变换系数集合可以由给定数量的比特更精确地表示。因为共享降低了编码指数所需的比特数量,并允许更多数量的比特用于更精确地表示尾数,因此精确度的提高是可能的。一些尾数可以不再被归一化,但是如果变换系数的值相似,则更高的精确度可以导致至少一些尾数的更精确的表示。指数在尾数中共享的方法可以随着块而调整,或者共享排列可以不变。如果指数共享排列是不变的,在通常以这种方式共享指数:每个指数和它的相关尾数定义频率子带,该频率子带与人类听觉系统的临界频带相当。在该方案中,如果由每个变换系数所表示的频率间隔是固定的,在对较高频率来说,共享一个指数的尾数数量比较低频率的大。
在块内尾数之间共享浮点指数的概念可以被扩展到在两个或更多块中尾数之间共享指数。指数共享减小了在编码信号中传递指数所需的比特数量,使得额外的比特可用于以更大精确度表示尾数。根据块中变换系数值的相似度,块间指数共享可以提高或降低尾数被表示的精确度。
因此,到目前为止的讨论涉及通过共享浮点指数而带来的变换系数值浮点表示的精确度的权衡。精确度的相同权衡发生于用于控制编码过程-诸如利用感知模型来控制系数尾数量化的感知编码-的块间参数共享。AC-3和AAC系统中所使用的编码过程例如使用变换系数的浮点指数来控制用于变换系数尾数的量化的比特分配。块之间指数共享降低了表示指数所需的比特,这允许更多比特用来表示编码尾数。在一些例子中,两个块之间的指数共享降低了编码尾数值被表示的精确度。在其他例子中,两个块之间的共享提高了精确度。如果两个块之间的指数共享提高了尾数精确度,则3个或更多块之间的共享可以提供精确度的进一步提高。
本发明的各个方面可以在音频编码器中通过优化组数量以及块组之间组边界以最小化编码信号失真来实施。可以在最小化程度以及用于表示编码信号一帧的比特总数量和/或用于优化组排列的技术的计算复杂度之间作出权衡。在一种实施中,这通过最小化均方误差能量的量度来完成。
B.背景
以下讨论描述了本发明各个方面可以结合到优化帧排列的音频信息块组的处理的音频编码系统的方法。优化首先表示为数值最小化问题。该数值框架被用来发展几种具有不同计算复杂度级别并提供不同优化级别的实施。
1.作为数值最小化问题的组选择
通过允许帧中组数量可变来允许优化过程中组的自由度。为了计算优化分组配置的目的,假设组的数量和每个组中块的数量可以随着帧的不同而不同。还假设一个组由单个块或全部在单个帧中的大量块组成。要被执行的优化是在给定一个或多个限制下优化一个帧中块的分组。这些限制可以随着应用的不同而不同,并且可以被表示为信号处理结果中优点-诸如编码信号逼真度-的极大化,或它们可以被表示为反面处理结果-诸如编码信号失真-的极小化。例如,音频编码器可以具有这样的限制:要求使编码信号的给定数据率的失真最小化,或者要求在编码信号数据率和编码信号失真级别之间权衡,而分析/检测/分类系统可以具有这样的限制:要求在分析、检测或分类的精确度和计算复杂度之间权衡。以下讨论信号失真的量度,但这些仅仅是可以使用的大量质量量度的实例。以下讨论的技术可以例如通过反转比较和颠倒参考相关量、诸如高和低或最大和最小,而与信号处理优点-诸如编码信号逼真度-的量度一起使用。
可以预料,本发明可以根据至少3种策略中任何一个来实施,这3种策略在音频信息的时域和频域表示的使用中互相不同。在第一种策略中,时域信息被分析,以优化传递时域信息的块组的处理。在第二种策略中,频域信息被分析,以优化传递时域信息的块组的处理。在第三种策略中,频域信息被分析,以优化传递频域信息的块组的处理。以下将介绍根据第三种策略的各种实施。
在本发明的编码音频信息用于传送或记录的实际实施中,定义术语“失真”和“面成本(side cost)”有利于以下讨论。
术语“失真”是在属于一个组的(一个或多个)块中频域变换系数的函数,并且是从组空间到非负实数空间的映射。零失真被分配给包含正好N个组的帧,其中N是帧中块的数量。在这种情况中,块之间或块之中不共享控制参数。
术语“面成本”是离散函数,其从非负整数集合映射到非负实数集合。在以下讨论中,面成本被假设为自变量x的正线性函数,其中x等于p-1,而p是帧中组的数量。面成本0被分配给这样的帧,即如果该帧中的组数量等于1。
以下介绍两种计算失真的技术。一种技术在“带状(banded)”的基础上为K个频带的每一个计算失真,其中每个频带是一组一个或多个连续频域变换系数。第二种技术为宽带意义在所有其频带上的整个块计算单个失真值。定义更多术语有利于以下讨论。
术语“带状失真”是维数为K的值矢量,从低到高频索引。矢量中K个元素中每一个表示块中一个或多个变换系数的相应集合的失真值。
术语“块失真”是表示块的失真值的标量值。
术语“预回音失真”是表示与一些最小可觉差(JND)宽带参考能量阈值有关的所谓预回音失真的级别的标量值,其中低于JND参考能量阈值的失真被认为是不重要的。
术语“时间支持”是对应于变换系数单个块的时域样值的延伸。对于在Princen等人的“Subband/Transform Coding Using Filter BankDesigns Based on Time Domain Aliasing Cancellation,”ICASSP 1987Conf.Proc.,1987年5月,第2161-64页中描述的改进离散余弦变换(MDCT),任何对变换系数的修改都影响从两个连续变换系数块中恢复的信息,这是由于变换所强加的时域中分段的50%重叠。该MDCT的时间支持是仅仅对应于第一个被影响的系数块的时间段。
术语“联合信道编码”是一种编码技术,通过这种技术,两个或多个音频信息信道以某种方式在编码器处被组合,在解码器处被分离为不同信道。解码器所获得的分离信道可能不与原始信道相同,或者甚至感觉上与原始信道没有区别。通过利用两个信道之间的互信息,联合信道编码被用于提高编码效率。
预回声失真对于其中变换的时间支持比预屏蔽时间间隔长的变换音频编码系统的时域屏蔽来说是要考虑的。有关预屏蔽时间间隔的附加信息可以从以下文献中获得:Zwicker等人的“Psychoacoustics-Facts and Models,”Springer-Verlag,Berlin 1990。以下所描述的优化技术假设时间支持小于预屏蔽间隔,因此,只考虑失真的客观量度。
本发明并不排除基于与失真的客观测量相对的主观或感知失真测量执行优化的选择。特别地,如果时间支持大于感知编码器的最佳长度,那么可能均方误差或失真的其他客观测量不会精确地反映听觉失真级别,并且主观失真测量的使用可以选择不同于使用客观测量所获得的分组配置的块分组配置。
优化过程可以以多种方式设计。一种方法是将p值从1到N迭代,其中p是帧中组的数量,并且为每个p值识别帧中所有块的失真的总和不大于阈值T的组配置。在这些被识别的配置中,以下所描述的3种技术其中之一可以用来选择最佳组配置。可选地,p值可以用一些其他方式确定,诸如通过两信道编码过程,其通过自适应地为联合信道编码选择多个块来优化编码增益。在这种情况下,从每个信道的各个p值导出p的公共值。给定两信道的公共p值,可以为两个信道联合地计算最佳组配置。
帧中块的组配置可以与频率有关,但是这要求编码信号传递附加信息以指定频带如何被分组。通过将具有公共分组信息的频带考虑为这里所公开的宽带实施的单独实例,本发明的各个方面可以应用到多带实施中。
2.作为失真量度的误差能量
“失真”的含义已经在驱动优化的量方面被定义,但是该失真并没有涉及能够被音频编码器中找出最佳块分组的过程使用的任何方面。需要的是一种编码信号质量量度,其能指引优化过程向着最佳方案发展。因为为块组中每个块使用控制参数的公共集合来指引优化,因此编码信号质量的量度应当基于应用到每个块的某些方面并且可以容易地组合到用于组中所有块的单个表示值或复合量度中。
以下讨论的获得复合量度的一种技术是为组中的块计算一些值的平均值,假设可以为所讨论的值计算有用的平均值。不幸的是,不是音频编码中所有可用值都可以用来从多个值中计算有用的平均值。一个不合适值的例子是变换系数的离散傅立叶变换(DFT)相位分量,因为这些相位分量的平均值不提供任何有意义的值。另一获得复合量度的技术是为组中所有块选择一些值的最大值。在这两种情况的任何一种情况中,复合量度被用作参考值,并且编码信号质量的量度与该参考值和组中每个块的值之间的距离反相关。换句话说,一个帧的编码信号质量的量度可以被定义为参考值和帧中所有组的每个组中每个块的恰当值之间误差的倒数。
如上所述的编码信号质量量度可以用来通过执行最小化该量度的过程而驱动优化。
其他参数可以在各种编码系统或在其他应用中有关。一个例子是与所谓的中/侧编码(mid/side coding)相关的参数,该中/侧编码是普通的联合信道编码技术,其中“中”信道是左右信道的和,而“侧”信道是左右信道的差。结合本发明各个方面的编码系统的实施可以使用信道间相关代替能量级别,来控制块上中/侧编码参数的共享。总之,任何将块分组为组,在组中的块之间共享编码控制参数,并传送控制信息到解码器的音频编码器可以从本发明获得利益,本发明能够为块确定最佳分组配置。没有本发明所提供的优点,则比特的次佳分配会导致听得见的量化失真的增加,因为比特是从编码谱系数转换的并且不会在各种谱系数之间优化地分配。
3.矢量能量和向量能量
本发明的实现可以使用带状失真或块失真值来驱动优化过程。使用带状失真还是块失真在很大程度上取决于从一个块到下一个块的带状能量的变化。给定以下定义:
um是块m中总能量的标量能量值,并且(1a)
vm,j是表示块m中带j的带状能量的矢量元素,(1b)
如果要被编码的信号无记忆,使得μ(vm,j,vm+1,j)=0,其中对于K个频带0≤j≤K-1,并且μ是相邻块之间互信息度的量度,则使用标量能量量度um的系统将工作得与使用带状能量量度值vm,j的系统一样好。参见Jayant等人的“Digital Coding of Waveforms,”Prentice-Hall,NewJersey,1984。换句话说,当相继的块在谱能量级别上具有很小的相似度时,标量能量与带状能量作为量度工作地一样好。另一方面,如下所述,当相继的块在谱能量级别上具有高相似度时,标量能量不能提供满意的量度来表示参数是否可以对于两个或多个块是公共的,而对编码性能没有强加严重的损失。
本发明并不限于使用任何特定的量度。基于对数能量(log-energy)和其他信号特征的失真量度也可以适合于各种应用。
对于具有相似谱内容的块转换,或者μ(vm,j,vm+1,j)>0,特定带能量值vm,j仍然可能满足以下等式:
Σ j = 0 K - 1 v m , j - Σ j = 0 K - 1 v m + 1 , j = 0 - - - ( 2 )
或者等于接近0的小值。该结果表示这样的事实:在宽带的基础上,相邻块之间总能量的比较可以忽略各个频带中块之间的差。对于很多信号,能量的标量量度不足以精确地最小化失真。因为这对于大量音频信号是这样的,所以以下描述的本发明的实施使用带状能量值的矢量,Vm=(vi,0,...,vi,K-1)代替标量块能量值um来识别最佳分组配置。
4.限制的识别
基于使用本发明的应用,有很多要考虑的限制。以下所讨论的本发明的实施是音频编码系统;因此,有关的限制是与音频信息编码相关的参数。例如,由需要传送对于组中所有块公共的控制参数产生面成本限制。如果必须为每个帧分配固定数量的比特,较高的面成本可以允许要信号以对于每个块较低的失真而被编码,但是面成本的提高可能增加帧中所有块的总失真。可以也存在强加于与其他相比更有利于本发明特定实施的实施复杂度的限制。
5.问题陈述导出
以下是音频编码系统中优化失真的数值问题定义。在该特定问题定义中,失真是候选块组中一帧的谱系数和其中每个块在其自己组中的帧中各个块的谱系数能量之间的误差能量的量度。
假设一组排列好的N个带状能量矢量Vi,0≤i<N,其中每个矢量的维数为K,具有正实数元素,即,Vi={vi,0,....,vi,K-1}。符号Vi表示带状能量值的矢量,其中矢量的每个元素可以对应于基本上任何期望的变换系数带。对于任何排列好的一组正整数0=s0<s1<...<sp=N,可以定义间隔Im为Im=[sm-1,sm],
Figure 058028576_0
m,0<m≤p。符号sm表示每组中第一个块的块索引,m是组索引。值sp=N可以被认为是下一帧的第一个块的索引,唯一的目的是定义间隔Im的端点。可以如下地定义这组能量矢量的划分P(s0,...sp):
P(S)=(G0,...,Gp-1),(3)
其中S是矢量(s0,...,sp),并且
Gm={Vi|i∈Im}(4)
符号Gm表示组中的块。
在本发明的各种实施中可以使用几种失真量度。平均最大失真量度M’可以定义如下:
J m , j = max i ∈ G m ( v i , j ) - - - ( 5 )
J ′ ( m ) = Σ j = 0 K - 1 Σ i ∈ G m ( J m , j - v i , j ) - - - ( 6 )
M ′ ( S ) = Σ m = 1 p J ′ ( m ) - - - ( 7 )
平均失真A定义如下:
K m , j = 1 ( s m - s m - 1 ) Σ i ∈ G m v i , j - - - ( 8 )
K ′ ( m ) = Σ j = 0 K - 1 Σ i ∈ G m | K m , j - v i , j | - - - ( 9 )
A ( S ) = Σ m = 1 p K ′ ( m ) - - - ( 10 )
最大差失真M”定义如下:
J ′ ′ ( m ) = Σ j = 0 K - 1 | J m , j - J m + 1 , j | - - - ( 11 )
M ′ ′ ( S ) = Σ m = 1 p J ′ ′ ( m ) - - - ( 12 )
划分P(S)=P(s0,...sp)的面成本函数被定义为等于(p-1)c,其中c是正的实常数。
失真的两个附加函数定义如下:
M*(S)=M(S)+Dist{(p-1)c}(13)
A*(S)=A(S)+Dist{(p-1)c)(14)
其中M(S)可以是M’(S)也可以是M”(S),并且
Dist{}是将相同单元中的面成本表示为失真的映射。
可以根据用于找出最佳方案的搜索算法来选择M(S)的函数。这在下面讨论。Dist{}函数用于将面成本映射到与M(S)和A(S)兼容的值。在一些编码系统中,从面成本到失真的恰当映射是
Dist(C)=6.02 dB·C
其中C是以比特表示的面成本。
优化可以被用公式表示为以下数值问题:
确定具有正整数元素的矢量S(s0,s1,...,sp),其对于满足关系0=s0<s1<...<sp=N的正整数s0,s1,...,sp的所有可能的选择,其中1≤p≤N,最小化特定失真函数M(S),M*(S),A(S)或A*(S)。变量p可以在1到N的范围内选择,以找到最小化期望失真函数的矢量S。
可选地,优化可以被公式化为使用阈值的数值问题:为p,1≤p≤N,的所有整数值确定满足关系0=s0<s1<...<sp=N的矢量S=(s0,s1,...,sp),使得期望失真函数M(S),M*(S),A(S)或A*(S)的值低于假设的阈值T。从这些矢量中,找到具有p最小值的矢量S。该方法的一种可选方法是从1到N增加p值的迭代,并选择第一个满足阈值限制的矢量S。以下将详细介绍该方法。
6.多信道系统的附加考虑
对于使用联合立体声/多信道编码方法-诸如AC-3系统中所使用的信道耦合和在AAC系统中所使用的中/侧立体声编码或强立体声编码-的立体声或多信道编码系统,所有信道中的音频信息应该在对于该特定编码系统合适的短块模式中被编码,从而确保所有信道中的音频信息具有相同数量的分组和相同的分组配置。应用该限制,因为仅仅为联合编码信道中一个提供作为面成本主要源的比例因子。这意味着,所有信道具有相同的分组配置,因为一组比例因子应用到所有的信道。
在多信道编码系统中优化可以至少3种方法中任何一种来执行:
其中一种方法被称为“联合信道优化”,其通过将信道上所有误差能量,不管是带状的还是宽带的,相加来联合优化单个传送中组数量和组边界而完成。
另一种方法被称为“嵌套循环信道优化”,该方法通过被实现为嵌套循环处理的联合信道优化来完成,其中外循环计算所有信道的组的最佳数量。考虑联合立体声编码模式中的两个信道,例如,内循环执行对于给定数量组的理想分组配置的优化。该方法的主要限制是内循环中所执行的过程对所有联合编码信道使用相同的p值。
另一种方法被称为“单独信道优化”,该方法通过与所有其他信道无关地对每个信道进行分组配置优化而完成。没有联合信道编码技术可以用来对具有唯一p值或唯一分组配置的帧中任何信道编码。
7.执行受限优化的方法
本发明可以使用基本上任何期望的方法来搜索最佳方案。以下描述3种方法。
“穷举搜索方法”在计算上强度很大,但总能发现最佳方案。一种方法对所有可能的组数量以及每个组数量的所有可能分组配置计算失真;对每个组数量识别具有最小失真的分组配置;然后通过选择具有最小失真的配置而确定组的最佳数量。可选地,方法可以将对于每个组数量的最小失真与阈值进行比较并且在找到失真量度低于阈值的第一个分组配置之后结束搜索。该可选实施减小了搜索以找到可接受方案的计算复杂度,但是其不能确保找到最佳方案。
“贪婪归并方法”在计算方面不像穷举搜索方法那样强度很大,并且不能确保找到最佳分组配置,但是其通常找到与最佳配置一样好或者近似好的配置。根据该方法,当计算面成本时,相邻块被迭代地组合到组中。
“快速最佳方法”的计算复杂性介于上述其他两种方法的复杂度之间。该迭代方法基于在先前迭代中所计算的失真计算而避免考虑某些组配置。如穷举搜索方法,所有组配置被考虑,但是考虑到先前的计算,可以从随后的迭代中消除对一些配置的考虑。
8.影响面成本的参数
优选地,本发明的一种实施说明了在搜索最佳分组配置时面成本的变化。
AAC系统的面成本中的主要分量是表示比例因子值所需的信息。因为比例因子在组的所有块上被共享,因此在AAC编码器中添加新组将使面成本增加表示附加比例因子所需的附加信息的量。如果AAC编码器中本发明的实施不考虑面成本的变化,则该考虑必须使用估计,因为比例因子值直到完成速率失真循环计算后才已知,而速率失真循环计算必须在建立分组配置之后被执行。AAC系统中的比例因子具有很大的可变性,并且它们的值紧紧地依赖于谱系数的量化分辨率,其中谱系数在嵌套速率/失真循环中被确定。AAC中的比例因子也被熵编码,其进一步对它们的面成本的非确定特性有贡献。
其他形式的面成本可以取决于用来编码音频信息的特定编码过程。例如在AC-3系统中,信道耦合协调可以以根据公共能量值支持对协调的分组的方式在所有块上共享。
本发明的各个方面可应用于AC-3系统中的过程,其选择用于在编码信号中传递变换系数指数的“指数编码策略”。因为AC-3指数被取为对于共享给定指数的所有谱线的功率谱密度值最大值,因此优化过程可以利用最大误差标准代替AAC中所使用的均方误差标准来操作。在AC-3系统中,面成本是为不重用来自前一块的指数的每个新块传递指数所需的信息总量。如果确定在频率上系数如何共享指数的指数编码策略依赖于分组配置,那么该指数策略影响面成本。在AC-3系统中估计指数的面成本所需的过程的复杂度低于在AAC系统中提供比例因子估计所需的过程,因为作为心理声学模型的一部分,指数值在编码过程中较早被计算。
C.搜索方法的详细介绍
1.穷举搜索方法
穷举搜索方法可以通过利用阈值来限制分组配置数量和测试分组数量而实现。该技术可以通过仅仅依赖于阈值来设置p的真实值而被简化。这可以通过将阈值设置为0.0和1.0之间的某个数、并在组的可能数量p上迭代来完成。对p=1,计算最佳组配置和所得到的失真函数,并在每次与T相比时将p的值加1。所得到的失真与T相比,并且失真函数小于T的第一个p值被选择为组的最佳数量。通过经验地设置阈值T的值,可以对于大量不同输入信号在短窗帧的大抽样上获得p的高斯分布。该高斯分布可以通过相应地设置T值而被偏移,以允许在大量输入信号上p的更高或更低平均值。该过程如图2的流程图所示,该图显示了用于找到最佳组数量的外循环中的过程。用于内循环的合适过程如图3A和3B所示,并在以下讨论。这里所描述的任何失真函数可以被使用,包括函数M(S),M*(S),A(S)或A*(S).
对于给定的p值,如外循环迭代所确定的,内循环计算最佳分组配置S=(s0,s1,...,sp),其获得最小均方误差失真量。对于小于10的阶的小值N,可以建立一组表格条目,该表格条目包括在N个块上划分P组的所有可能方法。每个表格条目的长度是一次7个里面选择(p-1)的组合的数量,以下表示为“7选择p-1”。除了p=0(未定义)和p=N(其产生无失真方案,其中每个组恰好包含一个块)之外,对于其他所有p值都存在独立的表格条目。对于0<p<N,表格的一个优选实施方案将S=(s0,s1,...,sp)的划分值存储为表格TAB中的比特字段,并且内组合循环中的处理屏蔽TAB比特字段值,以便为每个Sm得出绝对值。对于0<p<N,比特字段的划分值如下:
组边界号码(p-1)   表格长度   (7选择p-1) s<sub>0</sub>,s<sub>1</sub>,...,s<sub>p-1</sub>组合(以比特字段的形式)
1   7 1,2,4,8,16,32,64
2   21 3,5,6,9,10,12,17,18,20,24,33,34,36,40,48, 65,66,68,72,80,96
3   35 7,11,13,14,19,21,22,25,26,28,35,37,38,41,42,44,49,50,52,56,67,69,70,73,74,76,81,82,84,88,97,98,100,104,112
4   35 15,23,27,29,30,39,43,45,46,51,53,54,57,58,60,71,75,77,78,83,85,86,89,90,92,99,101,102,105,106,108,113,114,116,120
5   21 31,47,55,59,61,62,79,87,91,93,94,103,107, 109,110,115,117,118,121,122,124
6   7 63,95,111,119,123,125,126
7   1 127
表1对于N=8的所有可能的分组组合
对于0<p<N以及N=8,表格中每个条目或行对应着p的不同值。该表格可以用于迭代过程,诸如在图3A和3B的逻辑流程图中所示,其是图2中所示过程的内循环。该内循环在所有可能的组配置上迭代,所有可能的组配置在数字上是(7选择p-1)。如流程图中符号TAB[p,r]所示,外循环所提供的p值对表格的行进行索引,而r值对特定分组组合的比特字段进行索引。
对每个内循环迭代,图3A中所示的平均失真量度A(S),或者可选地图3B中所示的最大差失真M”(S)分别根据等式10或12被计算。所有块和带上的总失真被相加,以获得单个标量值Asav或者可选地Msav
穷举搜索方法可以使用多种失真量度。例如,以上讨论的实施方案使用L1标准,但是L2标准或者L无限标准量度也可以使用。参见R.M.Gray,A.Buzo,A.H.Gray,Jr.,“Distortion Measures forSpeech Processing,”IEEE Transactions on Acoustics,Speech,andSignal Processing,Vol.ASSP-28,No.4,1980年8月.
2.快速最佳方法
快速最佳方法使用上面等式7所定义的平均最大失真M’(S)。该方法获得最佳分组配置,而不必在所有可能的方案中穷举搜索。结果,其不如上述穷举搜索方法那样在计算上强度很大。
a)定义
划分P(s0,...,sp)被认为是级别p的一个划分,如果其包括p个组。组的维数d是该组中块的数量。具有大于1的维数的组被称为正组。等式4中所表达的组Gm的定义被重新写为Gm=G(sm-1,sm-1+1...,sm)。
b)数学准备
维数d>3的组可以被分割为2个具有恰好1个公有块的子组。例如,如果Gm=G(sm-1,sm-1+1...,sm),那么组Gm可以被分割为两个子组Gma=G(sm-1,sm-1+1...,sm-1+k)和Gmb=G(sm-1+k,...,sm),其都包含索引为sm-1+k的块。通过定义,这两个子组不可以是相同划分的一部分。将一个组分割为2个正重叠子组的程序可以被概括为将给定组分割为2个或多个正重叠子组的程序。
上面等式6中所定义的失真量度J’(m)总是满足下式:
J’(m)≥J’(ma)+J’(mb)    (15)
其中Gma和Gmb是组Gm的重叠子组。这可以通过表示Jm,j≥max(Jma,j,Jmb,j)对于所有j为真来证明,其中1≤j≤k。通过将该关系插入等式6所示的J’(m)定义中,可以看出得到等式15的命题。
c)核心过程描述
可以通过首先假设给定的、对于定义级别为p的划分的所有矢量s1,...sp使M’(S)=M’(s1,...sp)最小化的、级别为p的划分PP来理解快速最佳方法的原理。存在级别为p-1的划分F,其与谱系数的特定值无关,不能是对于定义级别为p-1的划分的所有矢量S=(s1,...sp)使M’(s1,...sp)最小化的、级别为p-1的唯一划分Pp-1。换句话说,如果这些划分F其中一个对于定义级别为p-1的划分的所有矢量S使M’(S)最小化,则还存在至少一个对于定义级别为p-1的划分的所有矢量S使M”(S)最小化的其他划分。可以定义这些划分F的子集,表示为X(p,P),其包含可以从找出最佳方案所需的某些处理中被排除的、级别p的特定划分,如下详细所述。子集X(p,P)被定义如下:
(1)假设级别为p-1的划分F具有n个正组,并且该划分的m(0<m<n)个正组分别可以被相同维数的另一正组替换,并且在替换之后,划分F被变换成没有重叠组的级别为p-1的划分G。如果划分P的正组是划分G的正组的子集,而不是划分F的正组的子集,则F属于X(p,P)。
(2)假设级别为p-1的划分F具有n个正组,并且F的m(0<m≤n)个正组可以被分割为2个或更多正组。进一步假设这些正组中一个或多个可以被具有相同维数的组替换,并且将划分F变换成没有重叠组的级别为p-1的有效划分G。如果划分P的正组是划分G的正组的子集,而不是划分F的正组的子集,则根据公式15的命题,F属于X(p,P)。
有必要指出,通过构造,集合X(p,P)不能等同于级别为p-1的所有划分的集合。
d)概括的情况(N个任意情况)
快速最佳方法开始于将一帧的N个块划分为p=N个组,并计算平均最大失真函数M’(S)或M*(S)。该划分被表示为PN。方法然后为将N个块划分成g=N-1个组的所有N-1个可能方式计算平均最大失真函数。这N-1个划分中使平均最大失真函数最小化的特定划分被表示为PN-1。属于集合X(N-1,PN-1)的划分如上所述被识别。然后方法为将N个块划分成N-1个不属于集合X(N-1,PN-1)的组的所有可能方式计算平均最大失真函数。最小化平均最大失真函数的划分被表示为PN-2。快速最佳方法为p=N-2,...,1迭代该过程,以找到划分PP-1,在每个级别使用集合X(p,Pp)以减小被分析为可能方案的划分数量。
快速最佳方法通过在划分P1,...,PN中找到最小化平均最大失真函数M’(S)或M*(S)的划分P而结束。
e)例子
以下例子被提供以帮助理解快速最佳方法并说明可能实施方案的特征。在该例中,每个帧包括6个块,或N=6。一组控制表格可以用来简化确定划分是否应当被添加到集合X(p,Pp)中所需的处理,如上所述。该例中示出了表格集合,表格2A到2C。
符号D(a,b)被用于这些表格中以识别特定划分。一个划分包括一个或多个块组,并且可以被其所包含的正组而唯一地指定。例如,一个6块的划分包括4个组,其中第一组包括块1和2,第二组包括块3和4,第三组包括块5,第四组包括块6,该划分可以被表示为(1,2)(3,4)(5)(6),并且在表格中显示为D(1,2)+D(3,4)。
当处理级别p的特定划分Pp时,每个表格提供可以用来确定级别p-1的特定划分是否属于集合X(p,Pp)的信息。表2A,例如,提供用于确定一个级别4的划分是否属于表格顶行中所示每个级别5划分的集合X(5,P5)的信息。表格2A的顶行例如列出了包括5个组的划分。不是所有划分都被列出来。在该例中,包括5个组的所有划分是D(1,2),D(2,3),D(3,4),D(4,5)和D(5,6)。只有D(1,2),D(2,3)和D(3,4)被显示在表格的顶行。没有列出的划分D(4,5)和D(5,6)分别与划分D(2,3)和D(1,2)对称,并且可以从它们中导出。表格2A的左栏显示了包括4个组的划分。每个表格中所示的符号“Y”和“N”表示左栏所示级别p-1的划分是(“Y”)否(“N”)应当被从对该栏中表格顶行所示相应划分Pp的进一步处理中排除。参考表格2A,例如,级别5划分D(1,2)在级别4划分D(2,3,4)的行中具有“N”条目,这表示划分D(2,3,4)属于集合X(5,D(1,2)),并且应当从进一步处理中排除。级别5划分D(2,3)在级别4划分D(2,3,4)的行中具有“Y”条目,这表示级别4划分不属于集合X(5,D(2,3))。
在该例中,实施快速最佳方法的过程将帧的6个块划分为6个组,并计算平均最大失真。划分被显示为P6
过程为将6个块划分为5个组的所有5种可能方式计算平均最大失真。5个划分中最小化平均最大失真的划分被表示为P5
过程参考表格2A,并选择其顶部条目指定划分P5的分组配置的那个列。过程为将6个块划分为在所选列中具有“Y”条目的4个组的所有可能方式计算平均最大失真。最小化平均最大失真的划分被表示为P4
过程使用表格2B,并选择其顶部条目指定划分P4的分组配置的那个列。过程为将6个块划分为在所选列中具有“Y”条目的3个组的所有可能方式计算平均最大失真。最小化平均最大失真的划分被表示为P3
过程使用表格2C,并选择其顶部条目指定划分P3的分组配置的那个列。过程为将6个块划分为在所选列中具有“Y”条目的组的所有可能方式计算平均最大失真。最小化平均最大失真的划分被表示为P2
过程为包含一个组的划分计算平均最大失真。该划分被表示为P1
过程在划分P1,...P6之中识别具有最小平均最大失真的划分P。该划分P提供最佳分组配置。
  p=5   D(1,2)   D(2,3)   D(3,4)
  D(1,2)+D(3,4)   Y   Y   Y
  D(1,2)+D(4,5)   Y   N   N
  D(1,2)+D(5,6)   Y   N   N
  D(2,3)+D(4,5)   N   Y   Y
  D(2,3)+D(5,6)   N   Y   N
  D(3,4)+D(5,6)   N   N   Y
  D(1,2,3)   Y   Y   N
  D(2,3,4)   N   Y   Y
  D(3,4,5)   N   N   Y
  D(4,5,6)   N   N   N
表2A.对于p=5的快速最佳组消除表格
 p=4 D(1,2)+ D(3,4) D(1,2)+ D(4,5) D(1,2)+ D(5,6) D(2,3)+ D(4,5) D(1,2,3) D(2,3,4)
 D(3,4,5,6) Y Y Y Y N N
 D(2,3)+D(4,5,6) N Y Y Y Y Y
 D(2,3,4)+D(5,6) Y Y N Y N Y
 D(2,3,4,5) Y Y N Y N Y
 D(1,2)+D(4,5,6) N Y Y Y Y Y
 D(1,2)+D(3,4)+D(5,6) Y Y Y Y Y Y
 D(1,2)+D(3,4,5) Y Y N Y Y Y
 D(1,2,3)+D(5,6) Y Y Y Y Y N
 D(1,2,3,4) Y Y N Y Y Y
 D(1,2,3)+D(4,5) Y Y Y Y Y Y
表2B.对于p=4的快速最佳组消除表格
 p=3 D(1,2,3,4) D(2,3,4,5) D(1,2)+ D(3,4,5) D(1,2)+ D(4,5,6) D(2,3)+ D(4,5,6) D(1,2)+D(3,4) +D(5,6)
 D(1,2,3,4,5) Y Y Y Y Y Y
 D(1,2,3,4)+D(5,6) Y Y Y Y Y Y
 D(1,2,3)+D(4,5,6) Y Y Y Y Y Y
 D(1,2)+D(3,4,5,6) Y Y Y Y Y Y
 D(2,3,4,5,6) N Y Y Y Y Y
表2C.对于p=3的快速最佳组消除表格
3.贪婪归并介绍
贪婪归并方法提供了将一帧中的块划分为组的简化技术。虽然贪婪归并方法不保证将找到最佳分组配置,但是该方法所提供的计算复杂度降低对于大多数实际应用比最优性的可能降低更让人期待。
贪婪归并方法可以使用大量失真量度函数,包括以上讨论的那些。优选实施例使用表达式11中所示的函数。
图4显示了一个恰当的贪婪归并方法的流程图,其操作如下:为每个块i计算带状能量矢量Vi。N个组的集合被建立,其中每一个具有一个块。然后该方法测试所有N-1个相邻组对,并找到使等式11最小化的两个相邻组g和g+1。来自等式11的J”的最小值被表示为q。最小值q然后与失真阈值T比较。如果最小值大于阈值T,则该方法以当前分组配置被识别为最佳或接近最佳配置而结束。如果最小值小于阈值T,则这两个组g和g+1被合并为一个新组,该新组包含这两个组g和g+1的带状能量矢量。该方法迭代,直到所有相邻组对的失真量度J”都超过失真阈值T或者直到所有块已经被合并到一个组。
在图5中示出了该方法对于具有4个块的帧的一种操作方法示例。在该例中,这4个块被初始地安排到4个组a,b,c和d,每个组具有1个块。该方法然后找到使等式11最小化的两个相邻组。在第一次迭代中,该方法发现组b和c使等式11最小化,并且失真量度J”小于失真阈值T;因此,该方法将组b和c合并到一个新组,以获得3个组a,bc和d。在第二次迭代中,该方法发现两个相邻组a和bc最小化等式11,并且该组对的失真量度J”小于阈值T。组a和bc被合并到一个新组,以给出总共两个组abc和d。在第三次迭代中,该方法发现仅存的组对的失真量度J”大于失真阈值T;因此,该方法结束,并且保留最后两个组abc和d作为最佳或接近最佳分组配置。
贪婪归并方法的计算复杂度的实际阶数取决于在阈值被超过之前该方法必须迭代的次数,然而,迭代的次数介于1和1/2·N·N(N-1)之间。
D.实施
结合了发明各个方面的设备可以以各种方法实施,包括由计算机或包括连接到与通用计算机中的那些组件相似的组件的更多专用组件-诸如数字信号处理器(DSP)电路-的其他某种设备所执行的软件。图6是设备70的示意框图,其可以用于实施本发明的各个方面。DSP72提供计算资源。RAM73是DSP72用于处理的系统随机存取存储器。ROM74表示某种形式的持久存储器,诸如只读存储器(ROM),用于存储操作设备70所需的程序以及可能用于执行本发明各个方面。I/O控制75表示通过通信信道76、77接收和传送信号的接口电路。在所示实施例中,所有主要系统组件连接到总线71,其中总线71可以代表多于一条的物理或逻辑总线;然而,总线结构对于实施本发明并不要求。
在由通用计算机系统实施的实施例中,附加组件可以被包括,以接口到诸如键盘或鼠标和显示器的设备,以及控制具有存储介质-诸如磁带或磁盘、或光介质-的存储设备。存储介质可以用来记录运行系统、实用程序和应用程序的指令的程序,并且可以包括实现本发明各个方面的程序。
实践本发明各个方面的功能可以由以大量方式-包括离散逻辑组件、集成电路、一个或多个ASIC和/或程控处理器-实现的组件来执行。实现这些组件的方式对于本发明来说并不重要。
本发明的软件实现可以通过大量机器可读介质传递,诸如整个谱上的基带或调制通信路径、包括从超声波到紫外频率,或者通过使用基本上任何记录技术传递信息的存储介质,包括磁带、卡或磁盘、光卡或光盘、或者介质(包括纸)上的可检测标记。

Claims (24)

1.一种处理排列于帧中的音频信息的块的方法,其中每个块具有表示音频信息的相应时间间隔的内容,其中所述方法包括以下步骤:
(a)接收传递音频信息块的输入信号;
(b)获得两个或更多质量量度,使得:
(1)相应帧中块组的多个集合中每个集合具有相关质量量度,
(2)每个组具有一个或多个块,
(3)每个组集合包括相应帧中所有块,并且每个集合没有块被包括在多于一个的组中,并且
(4)所述质量量度表示通过根据与相应组相关的一个或多个控制参数的集合处理该组中每个块所获得的结果的优点;
(c)分析所述质量量度,以识别组数量最少的选定组集合,使得至少部分地从相关质量量度中所获得的处理性能的量度大于阈值;并且
(d)根据所述相关的一个或多个控制参数的集合,处理所述选定组集合中的每个块组,以产生输出信号,其中所述输出信号表示输入信号的内容并表示所述选定集合中每个组的相关控制参数集合。
2.如权利要求1所述的方法,其中所述块包括音频信息的时域样值。
3.如权利要求1所述的方法,其中所述块包括音频信息的频域系数。
4.如权利要求1所述的方法,其中具有不止一个块的组中至少一个块对具有表示互相相邻或互相重叠的时间间隔中音频信息的内容。
5.如权利要求1所述的方法,包括:
获得两个或更多成本量度,其中每个成本量度与一个集合的块组有关,所述成本量度表示根据所述相关控制参数集合处理所述有关集合中的块所需的资源量;
其中所述处理性能的量度部分地从与所述选定集合有关的成本量度中获得。
6.如权利要求1或5所述的方法,其中所述分析在迭代过程的一个或多个迭代中执行,以确定一个或多个集合的不是所述选定集合的候选者的组,并且不包括在所述过程的随后迭代中分析这些一个或多个集合。
7.如权利要求1或5所述的方法,其中通过迭代过程识别所述选定集合,其中所述迭代过程包括:
为初始组集合中的组对确定第二处理性能量度;
如果最高的第二处理性能量度大于阈值,则合并具有所述最高的第二处理性能量度的组对以形成修订的组集合,并且为所述修订的组集合中的组对确定所述第二处理性能量度;和
继续所述合并,直到在所述修订的组集合中没有组对具有大于所述阈值的第二处理性能量度,其中所述修订的组集合是所述选定集合。
8.如权利要求5所述的方法,其中所述成本量度响应于在编码信号中表示控制参数集合所需的数据量。
9.如权利要求5所述的方法,其中所述成本量度响应于处理音频信息块所需的计算资源量。
10.如权利要求1或5所述的方法,其中各个帧所具有的块的数量等于N,并且所述分析质量量度包括:
从1到N迭代数值p,其中p是一帧中块组的数量;
为p的每个值识别处理性能量度大于阈值的至少一些组集合;和
分析至少一些所识别的组集合,以确定被分析的组集合中使处理性能量度最大的被选择组集合。
11.如权利要求1或5所述的方法,其中相应帧中每个块包括谱系数,并且特定组集合的处理性能量度表示所述特定组集合的相应帧中谱系数与其中每个快在其自己组中的相应帧中谱系数之间的误差能量的量度。
12.如权利要求1或5所述的方法,其中所述处理性能量度响应于可用于表示块的相应帧的比特总数。
13.一种处理排列于帧中的音频信息的块的设备,其中每个块具有表示音频信息的相应时间间隔的内容,其中所述设备包括:
(a)用于接收传递音频信息块的输入信号的装置;
(b)用于获得两个或更多质量量度,使得:
(1)相应帧中块组的多个集合中每个集合具有相关质量量度,
(2)每个组具有一个或多个块,
(3)每个组集合包括相应帧中所有块,并且每个集合没有块被包括在多于一个的组中,并且
(4)所述质量量度表示通过根据与相应组相关的一个或多个控制参数的集合处理该组中每个块所获得的结果的优点的装置;
(c)用于分析所述质量量度,以识别组数量最少的选定组集合,使得至少部分地从相关质量量度中所获得的处理性能的量度大于阈值的装置;并且
(d)用于根据所述相关的一个或多个控制参数的集合,处理所述选定组集合中的每个块组以产生输出信号的装置,其中所述输出信号表示输入信号的内容并表示所述选定集合中每个组的相关控制参数集合。
14.如权利要求13所述的设备,其中所述块包括音频信息的时域样值。
15.如权利要求13所述的设备,其中所述块包括音频信息的频域系数。
16.如权利要求13所述的设备,其中具有不止一个块的组中至少一个块对具有表示互相相邻或互相重叠的时间间隔中音频信息的内容。
17.如权利要求13所述的设备,包括:
获得两个或更多成本量度的装置,其中每个成本量度与一个集合的块组有关,所述成本量度表示根据所述相关控制参数集合处理所述有关集合中的块所需的资源量;
其中所述处理性能的量度部分地从与所述选定集合有关的成本量度中获得。
18.如权利要求13或17所述的设备,其中所述分析在迭代过程的一个或多个迭代中执行,以确定一个或多个集合的不是所述选定集合的候选者的组,并且不包括在所述过程的随后迭代中分析这些一个或多个集合。
19.如权利要求13或17所述的设备,其中用于分析质量量度的装置包括用于迭代执行一个过程的装置,其中所述一个过程包括:
为初始组集合中的组对确定第二处理性能量度;
如果最高的第二处理性能量度大于阈值,则合并具有所述最高的第二处理性能量度的组对以形成修订的组集合,并且为所述修订的组集合中的组对确定所述第二处理性能量度;和
继续所述合并,直到在所述修订的组集合中没有组对具有大于所述阈值的第二处理性能量度,其中所述修订的组集合是所述选定集合。
20.如权利要求17所述的设备,其中所述成本量度响应于在编码信号中表示控制参数集合所需的数据量。
21.如权利要求17所述的设备,其中所述成本量度响应于处理音频信息块所需的计算资源量。
22.如权利要求13或17所述的设备,其中各个帧所具有的块的数量等于N,并且用于分析所述质量量度的装置包括:
用于从1到N迭代数值p的装置,其中p是一帧中块组的数量;
用于为p的每个值识别处理性能量度大于阈值的至少一些组集合的装置;和
用于分析至少一些所识别的组集合以确定被分析的组集合中使处理性能量度最大的被选择组集合的装置。
23.如权利要求13或17所述的设备,其中相应帧中每个块包括谱系数,并且特定组集合的处理性能量度表示所述特定组集合的相应帧中谱系数与其中每个快在其自己组中的相应帧中谱系数之间的误差能量的量度。
24.如权利要求13或17所述的设备,其中所述处理性能量度响应于可用于表示块的相应帧的比特总数。
CN2005800028576A 2004-01-20 2005-01-19 基于块分组的音频编码 Expired - Fee Related CN1910656B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US53798404P 2004-01-20 2004-01-20
US60/537,984 2004-01-20
PCT/US2005/001715 WO2005071667A1 (en) 2004-01-20 2005-01-19 Audio coding based on block grouping

Publications (2)

Publication Number Publication Date
CN1910656A CN1910656A (zh) 2007-02-07
CN1910656B true CN1910656B (zh) 2010-11-03

Family

ID=34807152

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2005800028576A Expired - Fee Related CN1910656B (zh) 2004-01-20 2005-01-19 基于块分组的音频编码

Country Status (16)

Country Link
US (1) US7840410B2 (zh)
EP (1) EP1706866B1 (zh)
JP (1) JP5069909B2 (zh)
KR (1) KR20060131798A (zh)
CN (1) CN1910656B (zh)
AT (1) ATE389932T1 (zh)
AU (1) AU2005207596A1 (zh)
CA (1) CA2552881A1 (zh)
DE (1) DE602005005441T2 (zh)
DK (1) DK1706866T3 (zh)
ES (1) ES2299998T3 (zh)
HK (1) HK1091024A1 (zh)
IL (1) IL176483A0 (zh)
PL (1) PL1706866T3 (zh)
TW (1) TW200534602A (zh)
WO (1) WO2005071667A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8154554B1 (en) * 2006-07-28 2012-04-10 Nvidia Corporation Unified assembly instruction set for graphics processing
US8396119B1 (en) * 2009-09-30 2013-03-12 Ambarella, Inc. Data sample compression and decompression using randomized quantization bins
EP3723090B1 (en) 2009-10-21 2021-12-15 Dolby International AB Oversampling in a combined transposer filter bank
JP2013050663A (ja) * 2011-08-31 2013-03-14 Nippon Hoso Kyokai <Nhk> 多チャネル音響符号化装置およびそのプログラム
CN106941004B (zh) * 2012-07-13 2021-05-18 华为技术有限公司 音频信号的比特分配的方法和装置
EP3503095A1 (en) 2013-08-28 2019-06-26 Dolby Laboratories Licensing Corp. Hybrid waveform-coded and parametric-coded speech enhancement
EP2993665A1 (en) * 2014-09-02 2016-03-09 Thomson Licensing Method and apparatus for coding or decoding subband configuration data for subband groups
CN107112025A (zh) * 2014-09-12 2017-08-29 美商楼氏电子有限公司 用于恢复语音分量的系统和方法
WO2017027308A1 (en) 2015-08-07 2017-02-16 Dolby Laboratories Licensing Corporation Processing object-based audio signals
WO2020077046A1 (en) * 2018-10-10 2020-04-16 Accusonus, Inc. Method and system for processing audio stems

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6456963B1 (en) * 1999-03-23 2002-09-24 Ricoh Company, Ltd. Block length decision based on tonality index

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5109417A (en) * 1989-01-27 1992-04-28 Dolby Laboratories Licensing Corporation Low bit rate transform coder, decoder, and encoder/decoder for high-quality audio
KR100312664B1 (ko) * 1991-03-29 2002-12-26 소니 가부시끼 가이샤 디지탈신호부호화방법
US6167375A (en) * 1997-03-17 2000-12-26 Kabushiki Kaisha Toshiba Method for encoding and decoding a speech signal including background noise
DE19730130C2 (de) * 1997-07-14 2002-02-28 Fraunhofer Ges Forschung Verfahren zum Codieren eines Audiosignals
US6300888B1 (en) * 1998-12-14 2001-10-09 Microsoft Corporation Entrophy code mode switching for frequency-domain audio coding
JP2001154698A (ja) * 1999-11-29 2001-06-08 Victor Co Of Japan Ltd オーディオ符号化装置及びその方法
JP3597750B2 (ja) * 2000-04-11 2004-12-08 松下電器産業株式会社 グループ化方法及びグループ化装置
JP4635400B2 (ja) * 2001-09-27 2011-02-23 パナソニック株式会社 オーディオ信号符号化方法
EP1440433B1 (en) * 2001-11-02 2005-05-04 Matsushita Electric Industrial Co., Ltd. Audio encoding and decoding device
JP3984468B2 (ja) * 2001-12-14 2007-10-03 松下電器産業株式会社 符号化装置、復号化装置及び符号化方法
JP4272897B2 (ja) * 2002-01-30 2009-06-03 パナソニック株式会社 符号化装置、復号化装置およびその方法
US7110941B2 (en) * 2002-03-28 2006-09-19 Microsoft Corporation System and method for embedded audio coding with implicit auditory masking
US20030215013A1 (en) * 2002-04-10 2003-11-20 Budnikov Dmitry N. Audio encoder with adaptive short window grouping
JP2003338998A (ja) * 2002-05-22 2003-11-28 Casio Comput Co Ltd 画像保存システム、及び画像保存装置
JP4062971B2 (ja) * 2002-05-27 2008-03-19 松下電器産業株式会社 オーディオ信号符号化方法
US7283968B2 (en) * 2003-09-29 2007-10-16 Sony Corporation Method for grouping short windows in audio encoding
JP2005165056A (ja) * 2003-12-03 2005-06-23 Canon Inc オーディオ信号符号化装置及び方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6456963B1 (en) * 1999-03-23 2002-09-24 Ricoh Company, Ltd. Block length decision based on tonality index

Also Published As

Publication number Publication date
CA2552881A1 (en) 2005-08-04
HK1091024A1 (en) 2007-01-05
TW200534602A (en) 2005-10-16
DE602005005441D1 (de) 2008-04-30
CN1910656A (zh) 2007-02-07
KR20060131798A (ko) 2006-12-20
ES2299998T3 (es) 2008-06-01
EP1706866A1 (en) 2006-10-04
US20080133246A1 (en) 2008-06-05
ATE389932T1 (de) 2008-04-15
IL176483A0 (en) 2006-10-05
JP2007523366A (ja) 2007-08-16
WO2005071667A1 (en) 2005-08-04
AU2005207596A1 (en) 2005-08-04
PL1706866T3 (pl) 2008-10-31
DK1706866T3 (da) 2008-06-09
EP1706866B1 (en) 2008-03-19
US7840410B2 (en) 2010-11-23
DE602005005441T2 (de) 2009-04-23
JP5069909B2 (ja) 2012-11-07

Similar Documents

Publication Publication Date Title
CN1910656B (zh) 基于块分组的音频编码
CN101223582B (zh) 一种音频编码方法、音频解码方法及音频编码器
CN101223570B (zh) 获得用于数字媒体的高效编码的频带的频率分段
KR101143225B1 (ko) 오디오 인코더 및 오디오 디코더에서의 컴퓨터 구현 방법및 컴퓨터 판독 가능 매체
US7953604B2 (en) Shape and scale parameters for extended-band frequency coding
EP2054882B1 (en) Arbitrary shaping of temporal noise envelope without side-information
US8190425B2 (en) Complex cross-correlation parameters for multi-channel audio
KR100283547B1 (ko) 오디오 신호 부호화 방법 및 복호화 방법, 오디오 신호 부호화장치 및 복호화 장치
CN1332373C (zh) 用于可扩缩编码的设备及方法和用于可扩缩解码的设备及方法
CN101199121A (zh) 可缩放压缩音频位流和使用分级滤波器组和多通道联合编码的编码/译码器
JP2007506986A (ja) マルチ解像度ベクトル量子化のオーディオcodec方法及びその装置
JP2007523366A5 (zh)
Chan et al. High fidelity audio transform coding with vector quantization
JP4843142B2 (ja) 音声符号化のための利得−適応性量子化及び不均一符号長の使用
Khaldi et al. HHT-based audio coding
JP5799824B2 (ja) オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
Petrovsky et al. Audio coding with a masking threshold adapted wavelet packet based on run-time reconfigurable processor architecture
KR20230116503A (ko) 스칼라 양자화와 벡터 양자화를 이용한 부호화 방법 및 부호화 장치, 그리고 복호화 방법 및 복호화 장치
CN103733256A (zh) 音频信号处理方法、音频编码设备、音频解码设备和采用所述方法的终端
Kandadai Perceptual Audio Coding That Scales to Low Bitrates
Bhaskaran et al. Standards for Audio Compression

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20101103

Termination date: 20170119