CN101111997A - 用于便携式设备的知觉感知低功率音频解码器 - Google Patents
用于便携式设备的知觉感知低功率音频解码器 Download PDFInfo
- Publication number
- CN101111997A CN101111997A CNA2005800474100A CN200580047410A CN101111997A CN 101111997 A CN101111997 A CN 101111997A CN A2005800474100 A CNA2005800474100 A CN A2005800474100A CN 200580047410 A CN200580047410 A CN 200580047410A CN 101111997 A CN101111997 A CN 101111997A
- Authority
- CN
- China
- Prior art keywords
- voice data
- decoded
- decoding
- processor
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 claims abstract description 76
- 238000012546 transfer Methods 0.000 claims description 4
- 239000002245 particle Substances 0.000 description 37
- 239000000872 buffer Substances 0.000 description 28
- 230000006870 function Effects 0.000 description 24
- 238000012545 processing Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 5
- 239000008187 granular material Substances 0.000 description 5
- 239000002131 composite material Substances 0.000 description 4
- 230000008447 perception Effects 0.000 description 4
- 238000013139 quantization Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 206010011878 Deafness Diseases 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000010370 hearing loss Effects 0.000 description 2
- 231100000888 hearing loss Toxicity 0.000 description 2
- 208000016354 hearing loss disease Diseases 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000000593 degrading effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 235000019580 granularity Nutrition 0.000 description 1
- 238000012074 hearing test Methods 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
一种对表示音频剪辑的音频数据进行解码的方法,所述方法包括以下步骤:选择预定个数的频带之一;根据所选频带,对表示所述音频剪辑的音频数据的一部分进行解码,其中,丢弃表示所述音频剪辑的音频数据的剩余部分;以及将音频数据解码后的部分转换为表示解码后的音频数据的采样数据。
Description
技术领域
本发明通常涉及多媒体应用中的低功率解码,具体涉及用于对音频数据进行解码的方法和设备,以及涉及一种计算机程序产品,该计算机产品包括在其上记录了用于对音频数据进行解码的计算机程序的计算机可读介质。
背景技术
许多便携式消费电子设备(如,移动电话、便携式数字助理(PDA)和便携式音频播放器)越来越多地包括嵌入式计算机系统。典型地,根据通用计算机硬件平台或结构模板来配置这些嵌入式计算机系统。典型地,这些消费电子设备之间的唯一差别在于在特定设备上执行的软件应用程序。此外,多个不同的功能越来越多地结合于一个设备中。例如,一些移动电话还作为便携式数字助理(PDA)和/或便携式音频播放器工作。因此,在便携嵌入式计算机系统领域中,焦点逐渐转移至不同功能的适合的软件实施方式,而不是用于不同应用程序的定制硬件。
嵌入便携式设备的计算机系统的功耗可能是在对于这种便携式设备的硬件和软件设计中的最挑剔的限制。将嵌入便携式设备的计算机系统的功耗最小化的一种已知方法是:响应处理多媒体流过程中所涉及的可变工作负载,对嵌入式计算机系统处理器的电压和频率(即,时钟频率)进行动态缩放。
将嵌入便携式设备的计算机系统的功耗最小化的另一已知方法使用了使多媒体流平滑、并对具有不同处理速率的两个结构组件去耦合的缓冲器。这使得嵌入式处理器能够周期性地断开、或使处理器以较低频率运行,从而节约能量。还存在针对保持与多媒体应用程序相关联的服务质量(QoS)需求、并同时将嵌入式计算机系统的功耗最小化的问题所提出的多种已知的调度方法。
发明内容
本发明的目的是实质上克服、或至少改进现有设置的一个或多个缺点。
根据本发明的一方面,提供了一种对表示音频剪辑的音频数据进行解码的方法,所述方法包括以下步骤:
选择预定个数的频带之一;
根据所选频带,对表示所述音频剪辑的音频数据的一部分进行解码,其中,丢弃表示所述音频剪辑的音频数据的剩余部分;以及
将音频数据解码后的部分转换为表示解码后的音频数据的采样数据。
根据本发明的另一方面,提供了一种用于对表示音频剪辑的音频数据进行解码的解码器,所述方法包括以下步骤:
解码等级选择装置,用于选择预定个数的频带之一;
解码装置,用于根据所选频带,对表示所述音频剪辑的音频数据的一部分进行解码,其中,丢弃表示所述音频剪辑的音频数据的剩余部分;以及
数据转换装置,用于将音频数据解码后的部分转换为表示解码后的音频数据的采样数据。
根据本发明的另一方面,提供了一种便携式电子设备,包括:
解码等级选择装置,用于选择预定个数的频带之一;
解码装置,用于根据所选频带,对表示所述音频剪辑的音频数据的一部分进行解码,其中,丢弃表示所述音频剪辑的音频数据的剩余部分;以及
数据转换装置,用于将音频数据解码后的部分转换为表示解码后的音频数据的采样数据。
还公开了本发明的其它方面。
附图说明
现在将参照附图来描述本发明的一个或多个实施例,其中:
图1是可以在其上实践所描述实施例的、包括处理器的便携式计算机设备的示意性结构框图;
图2示出了将编码后的比特流作为输入并产生解码后脉冲编码调制(PCM)后的采样流的图1处理器;
图3示出了MPEG 1、层3(即,MP3)标准比特流的帧结构;
图4是示出了标准MP3解码器模块以及所提出的新解码器结构的结构框图;
图5示出了在对音频数据进行解码的过程中,图1处理器所使用的内部缓冲器和播放缓冲器;
图6是示出了预定持续时间内,与音频剪辑相对应的每个颗粒(granule)的图1处理器的周期需求;
图7示出了与优选实施例的解码等级相对应的长度t的任何间隔内所需的处理器周期;以及
图8是示出了根据优选实施例的对编码后比特流形式的音频数据进行解码的方法。
具体实施方式
在附图的任一或多个中参考步骤和/或特征(具有相同的参考数字)时,为了该描述,除非出现相反的意图,否则那些步骤和/或特征具有相同的功能或操作。
应当注意,“背景技术”部分中所包含的讨论以及以上与现有技术相关的设置涉及对通过相应的出版物和/或使用而形成公知常识的文献或设备的讨论。这不应当被解释为发明人或专利申请人的表达(这种文献或设备在任何情况下均形成了现有技术公知常识中的一部分)。
将大多数知觉音频编码器/解码器(即,编解码器)设计用于实现至少高比特速率的透明音频质量。高质量音频编解码器(如,MP3)的频率范围高达20kHz。然而,大多数成年人、尤其较大的成年人几乎不能听到16kHz以上的频率分量。因此,没有必要确定知觉上不相关的频率分量。此外,在大多数人可以听到的频率的宽广范围内,一些频带表现出比其它频带更加响亮。通常,高频带在知觉上不如低频带重要。如果留下一些高频分量未解码,则几乎没有知觉衰退。诸如MP3之类的标准解码器将对输入比特流中的每个成分进行简单地解码,而无需考虑具有或不具有听力损失的单独用户的听力能力。这导致了大量的不相关计算,从而浪费了使用这种解码器的便携式计算机设备等的电池功率。
以下参照图1至8来描述根据优选实施例的对编码后的比特流形式的音频数据进行解码的方法800。这里所描述的优选方法800的原理具有对多数现有音频格式的一般适用性。然而,为了易于解释参照MPEG 1、层3音频格式(也称为MP3音频格式)来描述优选方法800的步骤。MP3是不可缩放编解码器,并具有普及性。方法800尤其可应用于如MP3的不可缩放编解码器还有高级音频编码(AAC)。不可缩放编解码器导致了较低的工作负载,并且比可缩放编解码器(如,MPEG-4可缩放编解码器)更加普及,在这种可缩放编解码器中,典型地,利用被忽略的增强层对基础层进行解码。
方法800将单独的用户对于允许用户在多个输出质量等级之间切换的期望音频质量的自己的判断进行综合。每个这种等级与功耗的不同等级相关联,因而与电池寿命相关联。所描述的方法800是知觉感知的,这表示与不同等级相关联的所感知到的输出质量中的差别相当小。但是以较低的输出质量等级对相同的音频数据(如,编码后的比特流形式的音频剪辑)进行解码导致了显著节约了嵌入便携式设备中的处理器所消耗的能量。
为了评估任何音频编解码器的感知质量,执行严格的主观听力测试。通常由没有任何听力损失的听测专家或专家组利用高质量耳机在安静的环境中进行这些测试。然而,普通用户的现实环境通常非常不同。首先,便携式音频播放器很少用于安静环境中,例如,在家中的起居室中。极其普遍的是在移动中和在诸如公车、火车或飞机之类的多种环境中利用简单的耳机来使用便携式音频播放器。这些不同对于所需要的音频质量具有重要的含义。
根据发明人所执行的实验,大多数用户难以在嘈杂的环境中区分压缩盘(CD)和调频(FM)质量的音频。在这种环境中,大多数用户似乎更加能够容忍小的质量降级。方法800使用户能够改变解码简档(profile)以适应收听环境,而标准的MP3解码器却不能。
不同的应用和信号需要不同的带宽。例如,与音乐剪辑相比,讲故事的音频剪辑需要明显更小的带宽。该方法800允许用户选择适于特定服务和信号类型的适合的解码简档,以及使用方法800还延长了便携式计算设备的电池寿命。例如,方法800允许用户利用稍微降级的音频质量(特定用户甚至不会感知到该降级)可以显著增加便携式音频播放器的电池寿命的知识,来控制电池寿命和解码后的音频质量之间的折衷。该特征允许用户根据他们的听力、收听环境和服务类型来调整解码后音频的可接受质量等级。例如,在安静的环境中,用户会优选较大功耗的完美声音质量。另一方面,在长时间的飞行期间,用户会优选较长的电池寿命而具有稍微降级的音频质量。
优选地,使用如图1所示的电池供电的便携式计算设备100(例如,便携式音频(或多媒体)播放器、移动(多媒体)电话、PDA等)来实践方法800。可以以软件(如,在便携式计算设备100内执行的软件程序)来实现图2至8的处理器。实际中,由便携式计算设备100所执行的软件中的指令影响着方法800的步骤。可以使这些指令形成为一个或多个软件模块,每个软件模块用于执行一个或多个特定任务。还可以将软件分为两个独立的部分,其中,第一部分形成了方法800,以及第二部分管理第一部分与用户之间的用户接口。可以将软件存储于例如包括以下所描述的存储设备的计算机可读介质中。例如,可以由制造商经由串行链路将软件从计算机可读介质载入便携式计算设备100中,然后通过便携式计算设备100来执行。具有这种软件或在其上记录的计算机程序的计算机可读介质是一种计算机程序产品。优选地,计算机系统100中的计算机程序产品的使用影响着用于实现所描述方法800的有利设备。
便携式计算设备100包括至少一个处理器单元105和例如由半导体随机存取存储器(RAM)和只读存储器(ROM)形成的存储单元106。便携式计算设备100还可以包括小键盘102、诸如液晶显示器(LCD)之类的显示器114、扬声器117和麦克风113。优选地,便携式计算设备100由电池供电。便携式计算设备100使用收发机设备116以进行至和自通信网络120(例如,电信网络)的通信,例如,该通信网络120可经由无线通信信道121或其它功能介质连接。典型地,便携式计算设备100的组件105至107经由互连总线104进行通信。
典型地,应用程序位于存储设备106的ROM中,并通过处理器105读取并在执行中进行控制。此外,还可以将软件从其它计算机可读介质载入便携式计算设备100。这里所使用的术语“计算机可读介质”指参与向便携式计算设备100提供指令和/或数据以用于执行和/或处理的任何存储器或传输介质。
可选地,可以在包括执行所述方法的功能或子功能的一个或多个集成电路的专用硬件单元中实现方法800。
根据方法800,用户选择用于对任何音频剪辑进行解码的解码等级确定了执行处理器105所使用的频率。与许多已知的动态电压/频率缩放方法相反,方法800不包括处理器105电压或频率的任何运行时间缩放。如果处理器105具有固定个数的电压-频率工作点,则方法800中的解码等级可以被调谐以与这些工作点匹配。
在方法800中,将包括在其中实现的音频解码器的便携式计算设备100的频率带宽分为等于解码等级数的多个组。优选地,根据它们的感知相关性(将在以下详细描述)对这些组进行排序。如果存在四个解码等级(即,等级1-4),则具有最高感知相关性的频率带宽组可以与等级1相关联,以及具有最低感知相关性的组可以与等级4相关联。在以下的表1中示出了MP3情况下的将频率带宽分为四个等级的划分。以下描述表1的列2(即,解码后的子带编号)。
表1
解码等级 | 解码后的子带编号 | 频率范围(Hz) | 所感知到的质量等级 |
等级1 | 0-7 | 0-5512.5 | AM质量 |
等级2 | 0-15 | 0-11025 | 近FM质量 |
等级3 | 0-23 | 0-16537.5 | 近CD质量 |
等级4 | 0-31 | 0-22050 | CD质量 |
可以将实现方法800的步骤的处理器105称为“知觉感知低功率MP3(PL-MP3)”解码器。方法800不仅可利用通用电压和频率可缩放处理器,而且可利用不具电压和频率缩放性的通用处理器。
方法800还可以利用不允许频率缩放以及没有足够功率来进行完全MP3解码的处理器。在这种情况下,方法800可以用于以相对较低的质量对常规MP3文件进行解码。
方法800允许用户依据处理器105所提供的处理功率来选择解码等级(即,四个这种等级之一)。处理器105基于用户所选择的解码等级来执行方法800。每个等级与功耗的不同等级和相应的输出音频质量等级相关联。如图2所示,处理器105将编码后的比特流形式的音频数据作为输入,并产生脉冲编码调制(PCM)采用形式的解码后的数据流。方法800可以用于对从网络下载或流出的编码后的比特流进行解码。方法800还可以用于对存储于例如便携式计算设备100的存储器106内的编码后的比特流形式的音频剪辑进行解码。
当在等级1处对编码后的比特流形式的音频剪辑进行解码时,仅对与该等级相关联的频率范围0至5512.5Hz进行解码。在较高等级(即,等级2至3)处,对较大频率范围进行解码,并最终在等级4处,对整个频率范围进行解码。尽管与方法800相关联的计算工作负载几乎线性地利用解码等级进行缩放,但是如上所述,与较高频率范围相比,较低频率范围具有高得多的感知相关性。因此,当在较低等级处对音频剪辑进行解码时,通过牺牲小部分输出质量,与较高解码等级相比,处理器105可以以更低频率(即,时钟频率)和电压运行。
近来开发了多种音频解码器。这些硬件实施方式中的一些包括为非常低的功耗设计的硬线解码器芯片。这种解码器芯片的示例是Atmel公司TM的超低功率MP3解码器,它尤其设计用于处理移动电话中的MP3铃音。
方法800降低了执行实施方法800步骤的软件的处理器105的功耗。方法800并不依靠任何特定硬件实施方式或任何协同处理器来实现解码器的特定部分。方法800在用于包括强大的电压和频率可缩放处理器的PDA、便携式音频播放器或移动电话等(它们均可以被用作便携式音频/视频播放器)时非常有用。
如同许多其它多媒体比特流,MP3比特流具有如图3所示的帧结构。MP3比特流的帧300包含报头301、用于误差保护的可选CRC 302、编码为侧信息(side information)303的一组控制比特、之后是由两个颗粒(例如,颗粒0和颗粒2,它们是MP3中的基本编码单元)组成的主数据304。对于立体声音频,每个颗粒(例如,颗粒1)包含两个信道的数据,由缩放因子305和霍夫曼编码频谱数据306组成。还可以具有一些辅助数据插入每个帧的结尾处。方法800逐帧或逐颗粒地处理这种MP3比特流帧。
现在将参照图8来描述对音频数据进行解码的方法800。可以以位于ROM 106中的软件来实现方法800,并且可以由处理器105在执行中控制方法800。可以根据如图4所示的标准MP3音频解码器400来配置实现方法800的便携式计算设备100。可以使用独立的软件模块来实现方法800的每个步骤。
方法800开始于第一步骤801,其中,选择表1的四个解码等级(即,等级1-4)之一。例如,便携式计算设备100的用户可以使用小键盘102来选择四个解码等级之一。处理器105可以将标记存储于存储器106的RAM中,用于指示选择了四个解码等级中的哪一个。
在接下来的步骤802中,处理器105对编码后的输入比特流形式的数据进行解析,并将数据存储于内部缓冲器500(见图5)中。以下将详细描述内部缓冲器500。然后在步骤803中,处理器105使用霍夫曼解码对所存储数据的侧信息进行解码。如图4所示,可以使用诸如标准MP3解码器400的霍夫曼解码软件模块401之类的软件模块来执行步骤803。
方法800以下一步骤804继续,其中,处理器105根据在步骤801处选择的解码等级,将解码后的音频数据的频带转换为PCM音频采样。例如,如果在步骤801中选择了等级1,则在步骤804中,将会把频率范围0-5512.5中的解码后的音频数据转换为PCM音频采样。可以通过诸如图4中所示的标准MP3解码器400的去量化软件模块402、改进型离散余弦反变换(IMDCT)软件模块403和多相位合成软件模块404之类的软件模块来执行步骤804。
方法800以下一步骤805结束,其中,处理器105将PCM音频采样写入在存储器106内配置的播放缓冲器501(见图5)。然后,可以由处理器105以一些指定速率来读取该播放缓冲器501,并经由扬声器117作为音频输出。
导致了最高工作负载的标准MP3解码器400的三个模块是去量化模块402、IMDCT模块403和多相位合成滤波器组模块404。传统地,标准MP3解码器400对整个频带(与最高计算工作负载相对应)进行解码。如从图4中所见,根据优选方法800,依据解码等级(即,等级1至3)、去量化模块402、IMDCT模块403和多相位合成滤波器组模块403仅处理部分频率范围,从而导致了较少的计算成本。
存在多种已知优化方法用于存储器和/或计算上有效的实施方式,如De Smet等在名为“Do Not Zero-Pute:An Efficient HomespunMPEG-Audio Layer II Decoding and Optimisation Strategy”,Proc.OfACM Multimedia 2004,2004年10月的出版物中描述的“Do NotZero-Pute”算法。Do Not Zero-Pute算法试图通过消除处理无用的0值数据时所浪费的代价高的计算周期来优化MPEG 1、层II中的多相位滤波器组计算。在消除冗余计算时,发明人对这种方式进行分类。相反地,方法800利用不同的感知相关性,根据频带来对工作负载进行分区,并允许用户消除相关性计算。
在以下的等式(1)至(4)中,表示出了三个计算上最苛求的模块(即,去量化模块402、IMDCT模块403和多相位合成滤波器组模块404)中工作负载的减小。
将用于颗粒去量化(长块的情况下)的、需要由处理器105执行的计算以下面的等式(1)来表示:
其中,isi是被去量化的第i个输入系数,sign(isi)是isi的符号,global_gain是整个颗粒gr的对数量化器步长。Scalefac_multiplier是用于缩放因子频带的乘法器。Scalefac_1是用于颗粒gr的信道ch缩放因子频带sfb的对数量化因子。Preflag是量化值的附加高频放大的标记。Pretab是缩放因子频带的预加重表。xri是第i个去量化系数。
对于不执行方法800的步骤的标准MP3解码器400,i=0,1,...,N-1以及N=576,而对于执行方法800的步骤的这种解码器400的处理器105,i=0,1,...,sbl*18-1。例如,将等级1的范围减小为i=0,1,...,143。
可以根据以下的等式(2)来表示IMDCT模块403所需的计算:
i=0,1,...,n-1且n=36,其中,Xk是用于IMDCT操作的第k输入系数,以及xi是第i输出系数。对于不执行方法800的标准MP3解码器400,确定了所有32个子带,而根据优选方法800,仅计算sbl≤32个子带。
将多相位合成滤波器组模块404的矩阵操作所需的计算表示为:
i=0,1,...,2n-1且n=32。
根据方法800,等式(3)成为以下的等式(4):
其中,Sk是用于多相位合成操作的第k输入系数,以及Vi是第i输出系数。等式(4)示出了实现方法800的处理器105的计算工作负载随带宽线性减小。
在步骤802的比特流拆包(即,由霍夫曼解码模块401来执行,着仅需要总计算工作负载的小百分比,在本例中是4%)之后,可以对与后续步骤804(即,由模块402、403和404执行的)相关联的工作负载进行分区。可以选择与MPEG 1音频标准中定义的所有32个子带相对应的颗粒度。然而,为了简单,根据优选方法800,仅将这32个子带分为四组,其中,每组与解码等级相对应,如在图4和表1中所见。
如上所述,解码等级覆盖了可以定义为基础层的最低频率带宽(0-5.5kHz)。尽管基础层仅占用了总带宽的四分之一,以及在对音频剪辑进行解码的过程中,产生了由处理器105所执行的总计算工作负载的四分之一,所以基础层在感知上是最相关的频带。与表1的等级1相对应的输出音频质量对于类似于新闻和体育解说之类的服务来说一定是足够的。等级2覆盖了11kHz的带宽,并几乎达到了FM无线电质量,这甚至对于收听音乐剪辑(尤其在嘈杂环境中)来说也是足够良好的。等级3覆盖了16.5KHz的带宽并产生了非常接近于CD质量的输出。最后,等级4与标准MP3解码器相对应,该标准MP3解码器对22kHz的完全带宽进行解码。
等级1、2和3仅对表示不同频率分量的数据的一部分进行处理,而等级4对所有数据进行处理,因而在计算上代价更高。与等级3和4相对应的音频质量在嘈杂环境中几乎不可分辩,但是与实质上不同的功耗相关联。
尽管四个频带中的每个需要大致相同的工作负载,但是它们对于综合QoS的感知贡献是非常不同的。通常,低频带(即,等级1)明显比较高频带中的任何一个更加重要。
根据以任何特定解码等级的方法800,可以确定用于对音频数据进行解码的处理器105的最小工作频率。然后,所计算的频率可以用于估计由于处理器105所导致的功耗。考虑构成颗粒的比特数的可变性和处理任何颗粒过程中的处理器周期需求中的可变性。通过考虑这种可变性,可以确定在改变了便携式计算设备100的回放时延时的处理器105频率需求中的改变。
如上所述及在图5中所见,在对音频比特流形式的音频数据(例如,音频剪辑)进行解码的过程中,处理器105使用在存储器106内配置的、大小为b的内部缓冲器500。将解码后的音频流(PCM采样序列)写入在存储器106内配置的、大小为B的播放缓冲器501。处理器105以某一特定速率读取该播放缓冲器501。
假设以r比特/秒的固定速率将要解码的输入比特流馈入内部缓冲器500。构成MP3帧结构中的颗粒的比特数是可变的。每个颗粒的最大比特数几乎可以是颗粒中的最小比特数的三倍,其中,该最小比特数大约为1200个比特。为了将该可变性特征化,可以使用两个函数l(k)和u(k),其中,l(k)表示构成音频比特流中的任何k个连续颗粒的最小比特数,以及u(k)表示相应的最大比特数。可以通过对代表要处理的音频剪辑的多个音频剪辑来获得l(k)和u(k)。
现在,给出要解码的音频剪辑,令x(t)表示在时间间隔[0,t]上到达内部缓冲器501的颗粒数。由于构成颗粒的比特数中的可变性,函数x(t)将是音频剪辑相关的。与函数l(k)和u(k)类似,可以使用将颗粒到达过程中的可变性限制于内部缓冲器501的两个函数αl(Δ)和αu(Δ)。可以将两个函数αl(Δ)和αu(Δ)定义如下:
αl(Δ)≤x(t+Δ)-x(t)≤αu(Δ),x(t),以及t,Δ≥0 (5)
其中,αl(Δ)表示在长度Δ的任何时间间隔内可以到达内部缓冲器501的最小颗粒数,以及αu(Δ)表示相应的最大数。
给定函数l(k)和u(k),利用以下解释,可以确定这两个函数的伪逆(由l-1(n)和u-1(n)表示)。这些函数均将比特数n作为自变量,l-1(n)返回可由n个比特构成的最大颗粒数,以及u-1(n)返回可由n个比特构成的最小颗粒数。由于输入比特流以r比特/秒的固定速率到达内部缓冲器501,所以可以将αl(Δ)定义如下:
再次,由于处理任何颗粒所需的处理循环数也是可变的,所以可以使用两个函数γl(k)和γu(k)来捕获这种可变性。函数γl(k(和γu(k)均将颗粒数k作为自变量。γl(k)返回处理任何k个连续颗粒所需的处理器最小周期数,以及γu(k)返回相应的处理器最大周期数。图6示出了对于大约30秒的持续时间,与160千比特/秒的比特速率音频剪辑相对应的每个颗粒的处理器105的周期需求。图6示出了与表1的四个解码等级相对应的周期需求。在图6中注意两点:(i)随着解码等级增加的增加的处理器周期需求,(ii)每个颗粒的任何解码等级的处理器周期需求的可变性。
假设在d秒的回放时延(或缓冲时间)之后,处理器105以c PCM采样/秒的固定速率读出播放缓冲器501。通常,对于每个信道,c等于44.1k PCM采样/秒(因此,对于立体声输出是44.1K×2PCM采样/秒),以及可以将d设为0.5与2秒之间的值。如果每个颗粒的PCM采样数等于s(等于576×2),则播放速率等于c/s颗粒/秒。如果功能C(t)表示在时间间隔[0,t]上处理器105读出的颗粒数,则
现在,给定输入比特速率r,可以确定以要解码的音频剪辑的可能组为特征的l(k),u(k),γl(k)和γu(k),以及支持c PCM采样/秒的播放速率的最小处理器频率的函数C(t)。这等同于要求播放缓冲器501决不会下溢。如果y(t)表示在时间间隔[0,t]上写入播放缓冲器501的总颗粒数,则这等同于要求对于所有t≥0,y(t)≥C(t)。
使得由函数β(Δ)表示处理器105以频率f提供的服务。与αl(Δ)类似,β(Δ)表示在长度Δ的任何时间间隔内保证要被处理的最小颗粒数。可以示出y(t)≥(αlβ)(t),t≥0,其中,是在以下定义的最小相加卷积运算符。
对于任何两个函数f和g,(fg)(t)=inf0≤s≤t{f(t-s)+g(s)}。因此,对于限制条件y(t)≥C(t),保持t≥0,以下不等式足以保持:
(αlβ)(t)≥C(t),t≥0 (7)
根据与之间的二元性,对于任何三个函数f、g和h,当且仅当gh≥f时,h≥fg,其中,是如下定义的最小相加去卷积运算符:(fg)(t)=sups≥0{f(t+s)-g(s)}。使用不等式(1)的结果,可以如下确定β(t):
β(t)≥(Cαl)(t),t≥0 (8)
注意根据在长度t的任何时间间隔内需要处理的颗粒数来定义β(t)。为了根据处理器周期来获得等效服务,可以使用以上所定义的函数γu(k)。通过下式给出需要处理器105所保证确保播放缓冲器501决不会下溢的最小服务:
对于所有t≥0的处理周期。因此,通过下式给出应当以其来运行处理器105以支持指定播放速率的最小频率: 采用与任何工作点相对应的电压和频率可缩放处理器,对持续时间为t的音频剪辑进行解码时的能量消耗与f3t成正比,电压与时钟频率成正比。
图7示出了与表1的解码等级相对应的长度t的任何间隔内所需的处理器周期。从图7中可以看出,每个解码等级与最小(固定)频率f相关联。随着解码等级的增加,关联值f也增加。
假设处理器以等于f个处理器周期/秒的固定频率(与某个解码等级相对应)运行。可以确定内部和播放缓冲器500和501的最小大小(这将保证这些缓冲器决不会下溢)。可以确定分别由γl-1(n)和γu-1(n)表示的两个函数γl和γu的伪逆。这些函数γl和γu均将处理器周期数n作为自变量。γl-1(n)返回可以使用n个处理器周期处理的最大颗粒数,以及,γu-1(n)返回相应的最小颗粒数。
当处理器105以频率f运行时,保证要在长度Δ的任何时间间隔内被处理的最小颗粒数等于γu-1(fΔ)。可以示出内部缓冲器500的最小大小b,从而通过 个颗粒给出决不会下溢的内部缓冲器500。
其中,是可以在长度Δ的任何时间间隔内写入播放缓冲器501的最大颗粒数。现在可以将保证缓冲器501决不会下溢的缓冲器501(即,B)的最小大小示为等于 个颗粒。根据比特和PCM采样的大小b和B分别为u(b)和sB。
在一个实施方式中,处理器105可以是因特尔XScale 400MHz处理器,其中,根据以下的表2来设置解码等级。
表2
回放时延 | 等级4 | 等级3 | 等级2 | 等级1 |
0.5秒 | 3.56MHz | 2.91MHz | 2.13MHz | 1.33MHz |
1.0秒 | 3.32MHz | 2.71MHz | 1.99MHz | 1.23MHz |
2.0秒 | 3.20MHz | 2.61MHz | 1.91MHz | 1.19MHz |
上述优选方法包括特定的控制流。存在优选方法的许多其它变体,它们在不偏离本发明的精神或范围的情况下使用不同的控制流。此外,可以并行而非顺序地执行优选方法步骤中的一个或多个。
实用性
从以上显而易见的是,所描述的设置可应用于计算机和数据处理工业中。
以上仅描述了本发明的一些实施例,以及可以在不偏离本发明的范围和精神的情况下作出修改和/或改变,实施例是示例性的而非限制性的。
(仅对于澳大利亚)在本说明书的背景下,单词“包括”表示“主要包括但不必独占”或“具有”或“包括”,以及并非“仅由...组成”。单词“包括”的变体,如“包括”和“包括”具有相应的变化意义。
Claims (6)
1.一种对表示音频剪辑的音频数据进行解码的方法,所述方法包括以下步骤:
选择预定个数的频带之一;
根据所选频带,对表示所述音频剪辑的音频数据的一部分进行解码,其中,丢弃表示所述音频剪辑的音频数据的剩余部分;以及
将音频数据的解码后的部分转换为表示解码后的音频数据的采样数据。
2.如权利要求1所述的方法,还包括以下步骤:将表示所述音频剪辑的音频数据的频率范围分割为所述频带。
3.如权利要求1所述的方法,其中,所述频带中的每个与便携式音频设备功耗的不同等级相关联。
4.如权利要求1所述的方法,其中,所述音频数据是MP3比特流。
5.一种用于对表示音频剪辑的音频数据进行解码的解码器,所述方法包括以下步骤:
解码等级选择装置,用于选择预定个数的频带之一;
解码装置,用于根据所选频带,对表示所述音频剪辑的音频数据的一部分进行解码,其中,丢弃表示所述音频剪辑的音频数据的剩余部分;以及
数据转换装置,用于将音频数据的解码后的部分转换为表示解码后的音频数据的采样数据。
6.一种便携式电子设备,包括:
解码等级选择装置,用于选择预定个数的频带之一;
解码装置,用于根据所选频带,对表示所述音频剪辑的音频数据的一部分进行解码,其中,丢弃表示所述音频剪辑的音频数据的剩余部分;以及
数据转换装置,用于将音频数据的解码后的部分转换为表示解码后的音频数据的采样数据。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US63113404P | 2004-11-29 | 2004-11-29 | |
US60/631,134 | 2004-11-29 | ||
PCT/SG2005/000405 WO2006057626A1 (en) | 2004-11-29 | 2005-11-28 | Perception-aware low-power audio decoder for portable devices |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101111997A true CN101111997A (zh) | 2008-01-23 |
CN101111997B CN101111997B (zh) | 2012-09-05 |
Family
ID=36498281
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2005800474100A Expired - Fee Related CN101111997B (zh) | 2004-11-29 | 2005-11-28 | 对表示音频剪辑的音频数据进行解码的设备和方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US7945448B2 (zh) |
EP (1) | EP1817845A4 (zh) |
JP (1) | JP5576021B2 (zh) |
KR (1) | KR101268218B1 (zh) |
CN (1) | CN101111997B (zh) |
WO (1) | WO2006057626A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115579013A (zh) * | 2022-12-09 | 2023-01-06 | 深圳市锦锐科技股份有限公司 | 一种新型低功耗音频解码器 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE602006019762D1 (de) * | 2005-11-04 | 2011-03-03 | Univ Singapore | Einrichtung und verfahren zum wiedergeben von audio-clips |
GB2443911A (en) * | 2006-11-06 | 2008-05-21 | Matsushita Electric Ind Co Ltd | Reducing power consumption in digital broadcast receivers |
KR101403340B1 (ko) * | 2007-08-02 | 2014-06-09 | 삼성전자주식회사 | 변환 부호화 방법 및 장치 |
US8204744B2 (en) * | 2008-12-01 | 2012-06-19 | Research In Motion Limited | Optimization of MP3 audio encoding by scale factors and global quantization step size |
EP2306456A1 (en) * | 2009-09-04 | 2011-04-06 | Thomson Licensing | Method for decoding an audio signal that has a base layer and an enhancement layer |
CN101968771B (zh) * | 2010-09-16 | 2012-05-23 | 北京航空航天大学 | 一种在dsp上实现先进音频编码算法的内存优化方法 |
US8762644B2 (en) * | 2010-10-15 | 2014-06-24 | Qualcomm Incorporated | Low-power audio decoding and playback using cached images |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2581696B2 (ja) * | 1987-07-23 | 1997-02-12 | 沖電気工業株式会社 | 音声分析合成器 |
US5706290A (en) * | 1994-12-15 | 1998-01-06 | Shaw; Venson | Method and apparatus including system architecture for multimedia communication |
JP3139602B2 (ja) * | 1995-03-24 | 2001-03-05 | 日本電信電話株式会社 | 音響信号符号化方法及び復号化方法 |
KR100346734B1 (ko) | 1995-09-22 | 2002-11-23 | 삼성전자 주식회사 | 고속분석필터및합성필터를구비한오디오부호화기및복호화기 |
JP3353868B2 (ja) * | 1995-10-09 | 2002-12-03 | 日本電信電話株式会社 | 音響信号変換符号化方法および復号化方法 |
KR100251453B1 (ko) * | 1997-08-26 | 2000-04-15 | 윤종용 | 고음질 오디오 부호화/복호화장치들 및 디지털다기능디스크 |
JPH11161300A (ja) * | 1997-11-28 | 1999-06-18 | Nec Corp | 音声処理方法とその方法を実施するための音声処理装置 |
JP2002313021A (ja) * | 1998-12-02 | 2002-10-25 | Matsushita Electric Ind Co Ltd | 記録媒体 |
US7085377B1 (en) * | 1999-07-30 | 2006-08-01 | Lucent Technologies Inc. | Information delivery in a multi-stream digital broadcasting system |
CN2530844Y (zh) * | 2002-01-23 | 2003-01-15 | 杨曙辉 | 车载式无线mp3接收播放机 |
KR101021079B1 (ko) * | 2002-04-22 | 2011-03-14 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 파라메트릭 다채널 오디오 표현 |
US20040010329A1 (en) * | 2002-07-09 | 2004-01-15 | Silicon Integrated Systems Corp. | Method for reducing buffer requirements in a digital audio decoder |
CN2595120Y (zh) * | 2003-01-09 | 2003-12-24 | 杭州士兰微电子股份有限公司 | 遥控变频全自动无线调频耳机 |
US20040158878A1 (en) * | 2003-02-07 | 2004-08-12 | Viresh Ratnakar | Power scalable digital video decoding |
KR100917464B1 (ko) * | 2003-03-07 | 2009-09-14 | 삼성전자주식회사 | 대역 확장 기법을 이용한 디지털 데이터의 부호화 방법,그 장치, 복호화 방법 및 그 장치 |
-
2005
- 2005-11-28 US US11/792,019 patent/US7945448B2/en not_active Expired - Fee Related
- 2005-11-28 JP JP2007542996A patent/JP5576021B2/ja not_active Expired - Fee Related
- 2005-11-28 CN CN2005800474100A patent/CN101111997B/zh not_active Expired - Fee Related
- 2005-11-28 WO PCT/SG2005/000405 patent/WO2006057626A1/en active Application Filing
- 2005-11-28 KR KR1020077013223A patent/KR101268218B1/ko active IP Right Grant
- 2005-11-28 EP EP05807683A patent/EP1817845A4/en not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115579013A (zh) * | 2022-12-09 | 2023-01-06 | 深圳市锦锐科技股份有限公司 | 一种新型低功耗音频解码器 |
CN115579013B (zh) * | 2022-12-09 | 2023-03-10 | 深圳市锦锐科技股份有限公司 | 一种低功耗音频解码器 |
Also Published As
Publication number | Publication date |
---|---|
EP1817845A4 (en) | 2010-08-04 |
JP5576021B2 (ja) | 2014-08-20 |
US7945448B2 (en) | 2011-05-17 |
EP1817845A1 (en) | 2007-08-15 |
US20070299672A1 (en) | 2007-12-27 |
KR20070093062A (ko) | 2007-09-17 |
WO2006057626A1 (en) | 2006-06-01 |
KR101268218B1 (ko) | 2013-10-17 |
CN101111997B (zh) | 2012-09-05 |
JP2008522214A (ja) | 2008-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Brandenburg et al. | Overview of MPEG audio: Current and future standards for low bit-rate audio coding | |
CN101253557B (zh) | 立体声编码装置及立体声编码方法 | |
CN101128866B (zh) | 多声道音频编码中的优化保真度和减少的信令 | |
CN101111997A (zh) | 用于便携式设备的知觉感知低功率音频解码器 | |
KR100331166B1 (ko) | 오디오신호를 코딩하기 위한 방법 및 장치와 비트스트림을디코딩하기 위한 방법 및 장치 | |
CN102016983B (zh) | 用于对多个输入数据流进行混合的设备 | |
CN100481735C (zh) | 用于从编码后的音频数据流中解码重建多声道音频信号的解码方法 | |
CN103187065B (zh) | 音频数据的处理方法、装置和系统 | |
Herre et al. | MPEG-4 high-efficiency AAC coding [standards in a nutshell] | |
CN102016982B (zh) | 结合装置、远程通信系统以及结合方法 | |
Musmann | Genesis of the MP3 audio coding standard | |
CN105164749A (zh) | 多声道音频的混合编码 | |
Sinha et al. | The perceptual audio coder (PAC) | |
Johnston et al. | AT&T perceptual audio coding (PAC) | |
Moon | A low-complexity design for an MP3 multi-channel audio decoding system | |
CN100349207C (zh) | 高频耦合的伪小波5声道音频编/解码方法 | |
Bosi et al. | High-quality, low-rate audio transform coding for transmission and multimedia applications | |
Fielder et al. | AC-2: A family of low complexity transform-based music coders | |
EP1943741B1 (en) | A device and a method of playing audio clips | |
CN101136200B (zh) | 音频信号转换编码方法与系统 | |
CN101377926B (zh) | 加速量化循环程序功能的音频编码方法 | |
Hirschfeld et al. | Ultra low delay audio coding with constant bit rate | |
CN1783726B (zh) | 用于从音频数据码流中解码重建多声道音频信号的解码器 | |
Smyth et al. | APT-X00: A Low-Delay, Low Bit-Rate, Sub-Band ADPCM Audio Coder for Broadcasting | |
JP2002157000A (ja) | 符号化装置及び復号化装置、符号化処理プログラム及び復号化処理プログラム、符号化処理プログラム又は復号化処理プログラムを記録した記録媒体、並びに符号化装置又は復号化装置を用いた放送システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120905 |
|
CF01 | Termination of patent right due to non-payment of annual fee |