CN1867967B - 音频编码中的率失真控制方案 - Google Patents

音频编码中的率失真控制方案 Download PDF

Info

Publication number
CN1867967B
CN1867967B CN2004800281955A CN200480028195A CN1867967B CN 1867967 B CN1867967 B CN 1867967B CN 2004800281955 A CN2004800281955 A CN 2004800281955A CN 200480028195 A CN200480028195 A CN 200480028195A CN 1867967 B CN1867967 B CN 1867967B
Authority
CN
China
Prior art keywords
scale factor
bits
common scale
initial
independent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2004800281955A
Other languages
English (en)
Other versions
CN1867967A (zh
Inventor
J·雍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Electronics Inc
Original Assignee
Sony Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Electronics Inc filed Critical Sony Electronics Inc
Publication of CN1867967A publication Critical patent/CN1867967A/zh
Application granted granted Critical
Publication of CN1867967B publication Critical patent/CN1867967B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

确定与初始公用比例因子相关的初始比特数量,利用初始比特数量和目标比特数量来计算初始增量,并将初始公用比例因子递增初始增量。进一步,基于目标比特数量,调整被递增的公用比例因子,以及基于被调整的公用比例因子和所允许的失真,计算多个单独比例因子。如果与计算的单独比例因子相关的当前比特数量超过了目标比特数量,则修改被调整的公用比例因子,直到结果的比特数量不再超过目标比特数量。

Description

音频编码中的率失真控制方案
技术领域
本发明一般涉及音频编码。更具体地,本发明涉及用于数字数据编码的率失真(rate-distortion)控制方案。
版权公告/许可
这个专利文档公开的一部分包含受版权保护的材料。版权所有者并不反对任何人影印复制该专利文档或专利公开文本,因为它出现在专利与商标局的专利文件或记录中,但是无论如何,在其它方面保留所有的版权权利。以下公告适用于如下所述的以及附图中的软件和数据:Copyright2001,SonyElectronics,Inc.,All Rights Reserved。
背景技术
标准化主体即运动图像专家组(MPEG)在其标准中公开了传统的数据压缩方法,诸如例如MPEG-2高级音频编码(AAC)标准(参见ISO/IEC 13818-7)和MPEG-4AAC标准(参见ISO/IEC 14496-3)。这些标准在此一起称为MPEG标准。
按照MPEG标准所规定的音频编码器接收输入脉码调制(PCM)信号,通过修改的离散余弦变换(MDCT)操作将其转换为频谱数据,以及利用率失真控制机制确定用于量化频谱数据的最佳比例因子。音频编码器还利用最佳比例因子来量化频谱数据,将所得到的被量化的频谱系数分组为比例因子带(band),并且随后将分组的被量化的系数进行霍夫曼(Huffman)编码。
按照MPEG标准,率失真控制机制迭代地操作,以选择能够产生满足两个主要要求的谱数据的比例因子。首先,量化噪声(音频质量)不可以超过所允许的失真,所允许的失真表示在没有变为可听得到的情况下能够被注入(injectinto)谱数据中的最大噪声量。所允许的失真通常基于人类听觉的心理声学模型来确定。其次,利用霍夫曼编码得到的被使用的比特数量不可以超过根据编码所规定的比特率所计算出的允许的比特数量。
率失真控制机制通常规定单独比例因子和公用比例因子。单独比例因子对于帧内不同的比例因子带而改变,而公用比例因子在帧内并不改变。按照MPEG标准,率失真控制处理迭代地递增初始(最小可能的)公用比例因子,以最小化霍夫曼编码所得到的被使用的比特数量和根据编码所规定的比特率所计算出的比特的允许数量之间的差。然后,率失真控制处理检查每个单独比例因子带的失真,并且如果超过允许的失真,则放大这些比例因子带,并且再次调用公用比例因子循环。重复这个率失真控制处理,直到被量化的频谱的噪声变得小于所允许的失真,并且量化所要求的比特数量变得低于可允许的比特数量。
上述的传统的率失真控制处理由于必须处理很大范围的可能的比例因子而进行了大量的计算。此外,当要求低比特率(低于每秒64k比特)时,它缺乏选择最佳比例因子的能力。
发明内容
确定与初始公用比例因子相关的初始比特数量,利用初始比特数量和目标比特数量计算初始增量,并根据初始增量递增该初始比例因子。还有,基于目标比特数量,调整递增的公用比例因子,以及基于被调整的公用比例因子和所允许的失真,计算单独比例因子。如果与计算出的单独比例因子相关的当前比特数量超过目标比特数量,则修改被调整的公用比例因子,直到得到的比特数量不再超过目标比特数量为止。
附图说明
根据以下给出的详细说明以及根据本发明的各个实施例的附图,将更全面地理解本发明,然而,这些具体描述和附图不应被用于将本发明限定为特定的实施例,而仅仅用于解释和理解。
图1是编码系统的一个实施例的方块图。
图2是用于为帧内数据选择最佳比例因子的处理的一个实施例的流程图。
图3是用于调整公用比例因子的处理的一个实施例的流程图。
图4A-4C是用于在修改公用比例因子时使用增加比特/减少比特修改逻辑的处理的一个实施例的流程图。
图5是用于计算单独比例因子的处理的一个实施例的流程图。
图6是用于确定公用比例因子的最终值的处理的一个实施例的流程图。
图7是适用于实施本发明的实施例的计算机环境的方块图。
具体实施方式
在下面的本发明实施例的详细说明中,参考附图,其中类似的参考标记表示相似的元件,并且其中以示意的方式示出了其中可以实施本发明的特定实施例。这些实施例利用充分详细的细节进行了描述,以使本领域技术人员能够实施本发明,并且应当理解,可以使用其它的实施例,并且在不脱离本发明的范围的情况下,可以进行逻辑的、机械的、电的、功能的以及其它的改变。因此,下面的详细说明并不是限定性的,并且本发明的范围仅利用所附的权利要求来规定。
利用本发明的操作的概述开始,图1示出了编码系统100的一个实施例。编码系统100符合在此处被统称为MPEG标准的MPEG音频编码标准(例如,MPEG-2AAC标准,MPEG-4AAC标准等)。编码系统100包括滤波器组模块102、编码工具104、心理声学建模器106、量化模块110以及霍夫曼编码模块114。
滤波器组模块102接收脉码调制(PCM)信号,利用窗函数对其进行调制,并且随后执行修改的离散余弦变换操作(MDCT)。该窗函数利用两种类型的操作来调制该信号,一种类型是长窗口型,其中为了改进的频率分辨率,将待分析的信号在时间上扩展,另一种类型是短窗口型,其中为了改进的时间分辨率,将待分析的信号在时间上缩短。长窗口类型用在其中只存在平稳信号的情况下,而在具有快速信号改变时,使用短窗口类型。通过根据待分析的信号的特性使用这两种类型的操作,有可能防止被称作前回声的令人不愉快的噪声的产生,否则,这会导致无效的时间分辨率。执行MDCT操作,以便将时域信号转换为多个频谱数据的采样。
编码工具104包括用于频谱处理的一组任选工具。例如,编码工具可以包括时间噪声成形(temporal noise shaping)(TNS)工具和预测工具。TNS工具可以用于控制每个变换窗口内噪声的临时形状并解决前回声问题。预测工具可以用于除去采样之间的相关性。
心理声学建模器106分析这些采样,以确定听觉掩蔽曲线(masking curve)。该听觉掩蔽曲线表示在没有变得能听到的情况下能够被注入每个相应采样中的最大噪声量。在这一方面什么是能听到的是基于人类听觉的心理声学模型的。听觉掩蔽曲线用作期望的噪声谱的估计。
量化模块110负责为频谱数据选择最佳比例因子。如下面将更详细讨论的,比例因子选择处理是基于根据掩蔽曲线计算出的允许失真和根据在编码时所规定的比特率计算出的可允许的比特数量(被称作目标比特数量)。一旦选出最佳比例因子,量化模块110就用它们来量化频谱数据。得到的被量化的频谱系数被分组为比例因子带(SFB)。每个SFB包括使用相同的比例因子所得到的系数。
霍夫曼编码模块114负责为每一组被量化的谱系数选择最佳的霍夫曼代码簿,并且利用最佳霍夫曼代码簿来执行霍夫曼一编码操作。得到的可变长度码(VLC)、标识用于编码中的代码簿的数据、由量化模块110选择的比例因子以及一些其它信息随后被汇编成比特流。
在一个实施例中,量化模块110包括率失真控制部分108和量化/去量化部分112。率失真控制部分108对于谱数据的每一帧执行迭代的比例因子选择处理。在这个处理中,率失真控制部分108为整个帧找出最佳的公用比例因子并且为该帧内的不同比例因子带找出最佳的单独比例因子。
在一个实施例中,率失真控制部分108通过将初始公用比例因子设置为前一帧或另一信道的公用比例因子的值来开始。量化/去量化部分112利用初始公用比例因子来量化帧内的谱数据,并将量化的谱数据传递给霍夫曼编码模块114,该霍夫曼编码模块114对量化的谱数据进行霍夫曼编码,以确定得到的VLC所使用的比特的数量。基于这个使用的比特数量以及根据在编码时所规定的比特率所计算出的目标比特数量,率失真控制部分108为初始公用比例因子确定第一增量。当第一增量被加到初始公用比例因子上时,被递增的公用比例因子产生相对接近目标比特数量的比特数量。然后,率失真控制部分108进一步调整被递增的公用比例因子,以获得更精确近似于目标比特数量的结果的使用比特数量。
还有,率失真控制部分108为帧内的比例因子带计算单独比例因子。如下面将更详细地讨论的,基于被调整的公用比例因子和所允许的失真,计算这些单独比例因子。在一个实施例中,每个单独比例因子的计算包括迭代修改每个单独比例因子,直到与特定的单独比例因子相关的能量误差(energy error)低于所允许的失真为止。在一个实施例中,由量化/去量化部分112通过利用给定的比例因子量化比例因子带的频谱数据、然后采用给定比例因子去量化这个被量化的数据、并且随后计算原始(被量化之前)的频谱数据和被去量化的谱数据之间的差来计算能量误差。
一旦计算出单独比例因子,率失真控制部分108就确定通过使用单独比例因子和被调整的公用比例因子所产生的比特的数量是否超过了目标比特数量。如果是这样的话,则率失真控制部分108进一步修改被调整的公用比例因子,直到得到的使用比特数量不再超过目标比特数量为止。因为计算出的单独比例因子产生期望的量化噪声形状的轮廓(profile),因此在修改被调整的公用比例因子时,这些单独比例因子不需要被重新计算。
图2-6是按照本发明的不同实施例可以由图1中的量化模块110执行的比例因子选择处理的流程图。该处理可以由处理逻辑来执行,该处理逻辑可以包括硬件(例如,电路、专用逻辑等)、软件(诸如运行在通用计算机系统或专用机上)或两者的组合。对于软件实现的处理,流程图的说明使本领域技术人员能够开发出这样的程序,包括在适当配置的计算机(执行来自包括存储器的计算机可读媒体的指令的计算机的处理器)上完成这些处理的指令。计算机可执行指令可以采用计算机编程语言来撰写,或者可以被嵌入到固件逻辑中。如果采用符合公认标准的编程语言来撰写,则这样的指令可以在不同的硬件平台上执行,并且用于至各种操作系统的接口。此外,本发明的实施例并不参考任何特定编程语言来描述。应当理解,各种编程语言可以用于实现此处所述的教导。还有,本领域中公知的是:以一种形式或另一种形式(例如,程序、过程、处理、应用、模块、逻辑……),将软件表述为采取一种动作或引起一种结果。这种表达方式仅仅是说到利用计算机的软件执行使得计算机的处理器执行一个动作或者产生一个结果的简化表达方式。将认识到,在不脱离本发明的范围的情况下,更多或更少的操作可以被结合到图2-6所示的处理中,并且在此处所示出和描述的方块(框)的安排并不暗示特定的顺序。
图2是用于为帧内的数据选择最佳比例因子的处理200的一个实施例的流程图。
参见图2,处理逻辑从为正被处理的帧内的数据确定初始公用比例因子开始(处理块202)。该帧数据可以包括频谱系数,诸如MDCT频谱系数。在一个实施例中,通过确保具有帧内具有最大绝对值的谱系数不等于0,并且随后将初始公用比例因子设置为前一帧或另一信道的公用比例因子,处理逻辑为该帧确定初始公用比例因子。例如,信道0中的初始公用比例因子可以被设置为前一帧的公用比例因子,并且信道1中的初始公用比例因子可以被设置为信道0的公用比例因子。如果帧中具有最大值的谱系数等于0,则处理逻辑将初始公用比例因子设置为可以利用实验方法确定的预定数(例如,30)。
接下来,处理逻辑利用初始公用比例因子来量化帧中的数据(处理块204),并且测试所得到的被量化的数据的有效性(判定框206)。在一个实施例中,如果其绝对值没有超过阈值(例如,按照MPEG标准的8191),则被量化的谱系数是有效的。如果所得到的被量化的数据不是有效的,则处理逻辑将初始公用比例因子递增可以根据实验方法确定的常量(例如,5)(处理块208)。
如果所得到的被量化的数据是有效的,则处理逻辑确定将由霍夫曼编码的被量化的数据所使用的比特数量(处理块210),基于所使用的比特数量以及目标比特数量,为初始公用比例因子计算第一增量(处理块212),并将第一增量加到初始公用比例因子(处理块214)。如上所讨论的,目标比特数量可以根据在编码时所规定的比特率计算出来。
在一个实施例中,利用以下表达式计算第一增量:
initial_increment=10*(initial_bits-target_bits)/target_bits,
其中,initial_increment是第一增量,initial_bits是使用的比特数量,以及target_bits是目标比特数量。以上表达式被研究出(例如,在一系列实验期间),以提供针对实现使用的比特数量快速收敛到目标比特数量的动态递增方案。也就是,被递增的公用比例因子产生有可能相当靠近目标比特数量的使用比特数量。然而,所产生的使用比特数量可以仍然高于或低于目标比持数量。
接下来,处理逻辑进一步调整被递增的公用比例因子,以获得更精确近似于目标比特数量的结果的使用比特数量(处理块220)。调整处理的一个实施例将在下面结合图3更详细地进行讨论。
在处理块222上,处理逻辑利用被调整的公用比例因子和所允许的失真为帧内的比例因子带计算单独比例因子。在一个实施例中,基于从图1中的心理声学建模器106中得到的掩蔽曲线,计算允许的失真。用于计算单独比例因子的处理的一个实施例将在下面结合图5更详细地进行讨论。
还有,处理逻辑确定通过使用计算出的单独比例因子所产生的多个比特以及被调整的公用比例因子(处理块224),并确定这个使用的比特数量是否超过了目标比特数量(判定框226)。如果是的话,则处理逻辑进一步修改被调整的公用比例因子,直到所得到的使用比特数量不再超过目标比特数量(处理块226)。用于确定最终公用比例因子的处理的一个实施例将在下面结合图6更详细地进行讨论。如上所讨论的,当修改公用比例因子时,并不需要重新计算这些单独比例因子。
图3是用于调整公用比例因子的处理300的一个实施例的流程图。
参见图3,处理逻辑开始于利用当前公用比例因子量化帧数据(处理块302)。在一个实施例中,当前公用比例因子是在图2的处理块214上计算出的被递增的比例因子。
接下来,处理逻辑检查被量化的数据是否是有效的(判定框304)。如果否的话,则处理逻辑将当前比例因子递增一常量(例如,5)(处理块306)。如果是这样的话,则处理逻辑确定在霍夫曼编码时由被量化的谱数据所使用的比特的数量(处理块308)。
还有,处理逻辑确定使用的比特的数量是否超过了目标比特数量(判定框310)。如果否的话,那么可以将更多的比特加到在霍夫曼编码之后被传输的数据上。因此,处理逻辑利用增加比特修改逻辑来修改当前公用比例因子(处理块312)。如果在判定框310进行的确定为肯定的话,那么处理逻辑利用减少比特修改逻辑来修改当前公用比例因子(处理块314)。
图4A-4C是用于在修改公用比例因子时使用增加比特/减少比特修改逻辑的处理400的一个实施例的流程图。
参见图4A-4C,处理逻辑从将量化器改变字段的当前值设置为预定值(例如,4)并且初始化一组标记开始(处理块402)。该标记组包括表示用于改变使用比特数量的期望方向(即,这个数量是需要被增加还是被减少)的率改变标记(被称作“over_budget”)。此外,该组标记包括上越过(upcrossed)标记和下越过(downcrossed)标记。上越过标记表示希望被递增的使用比特的数量是否已超出(即,不再小于或等于)目标比特数量。下越过标记表示希望被减少的使用比特的数量是否已超出(即,不再大于)目标比特数量。
在判定框403上,处理逻辑确定量化器改变字段的当前值是否等于0。如果是的话,则处理400结束。如果不是的话,处理400继续处理逻辑,利用当前公用比例因子量化被处理的帧内的谱数据,并且确定在霍夫曼编码时由被量化的频谱数据所使用的比特的数量(处理块404)。
在判定框406,处理逻辑确定使用比特的数量是否低于目标比特数量。如果是的话,并且这不是第一迭代(判定框408),则率改变标记保持被设置为表示增加比特方向的值(例如,over_budget=1)。如果不是或者这是第一迭代(判定框408),则处理逻辑采用表示减少比特方向的值(例如,over_budget=0)来更新率改变标记(处理块410)。
还有,如果率改变标记表示增加比特方向(判定框412),则处理逻辑确定上越过标记是否被设置为1(判定框414)。如果是的话,则处理逻辑计算量化器改变字段的当前值为quantizer_change=quantizer_change>>1(处理块416),并确定使用比特的数量是否低于目标比特数量(判定框418)。如果是的话,则处理逻辑从当前公用比例因子中减去量化器改变字段的值(处理块420),并且继续至判定框404。如果不是的话,则处理逻辑将量化器改变字段的值加到当前公用比例因子(处理块422),并继续至判定框404。
如果上越过标记被设置为0(判定框414),则处理逻辑确定使用比特的数量是否低于目标比特数量(判定框424)。如果是的话,则处理逻辑从当前公用比例因子中减去量化器改变字段的当前值(处理块426),并继续至判定框404。如果不是的话,则处理逻辑将上越过标记设置为1,计算量化器改变字段的新值为quantizer_change=quantizer_change>>1,从当前公用比例因子中减去量化器改变字段的新值(处理块428),并且继续至判定框404。
如果率改变标记表示减少比特方向(判定框412),则处理逻辑确定下越过标记是否被设置为1(判定框430)。如果是的话,则处理逻辑计算量化器改变字段的当前值为quantizer_change=quantizer_change>>1(处理块432),并且确定使用比特的数量是否低于目标比特数量(判定框434)。如果不是的话,则处理逻辑将量化器改变字段的当前值加到当前公用比例因子(处理块436),并且继续至判定框404。如果是的话,则处理逻辑从当前公用比例因子中减去量化器改变字段的当前值(处理块438),并且继续至判定框404。
如果下越过标记被设置为0(判定框430),则处理逻辑确定使用比特的数量是否低于目标比特数量(判定框440)。如果不是的话,则处理逻辑将量化器改变字段的当前值加到当前公用比例因子(处理块442),并且继续至判定框404。如果是的话,则处理逻辑将下越过标记设置为1,计算量化器改变字段的新值为quantizer_change=quantizer_change>>1,从当前公用比例因子中减去量化器改变字段的新值(处理块444),并且继续至判定框404。
图5是用于计算单独比例因子的处理500的一个实施例的流程图。
参见图5,处理逻辑开始于第一单独比例因子,将其设置为公用比例因子的值,并且将当前增量字段设置为第一常量(例如,A=1)(处理块502)。然后,处理逻辑将这个单独比例因子递增当前增量值(处理块504),利用被递增的单独比例因子来量化相应的谱系数(处理块506),采用相同的单独比例因子来去量化被量化的系数(处理块508),以及基于原始(被预量化)的谱系数和被去量化的频谱系数之间的差,计算与这个单独比例因子相关的能量误差(处理块510)。
在判定框512上,处理逻辑确定计算的能量误差是否大于K*allowed_distortion_energy,其中K是常量,而allowed_distortion_energy是所允许的量化误差(也被称为允许的失真)。在一个实施例中,基于由图1中的心理声学建模器106所提供的掩蔽曲线,计算允许的失真。
如果在判定框512进行的确定是否定的话,则处理逻辑将当前增量字段设置为第一常量A(处理块514)。否则,处理逻辑将当前增量字段设置为第二常量B(例如,B=3)(处理块516)。在一个实施例中,参数A、B和K是根据实验方法确定的,选择有可能提供良好性能的值。
还有,处理逻辑确定计算的能量误差是否低于允许的失真(判定框518)。如果不是的话,则处理逻辑返回到处理块504,并且重复块504至518。如果是的话,则这个单独比例因子的值被认为是最终的,并且处理逻辑移至下一个单独比例因子(处理块522)。如果这个帧的所有比例因子都被处理了(判定框520),则处理500结束。
图6是用于确定公用比例因子的最终值的处理600的一个实施例的流程图。
参见图6,处理逻辑开始于将偏移字段的值设置为第一常量(例如,偏移=3)(处理块602)。接下来,利用计算的单个比例因子和当前公用比例因子,处理逻辑量化正被处理的帧内的谱数据(处理块604),并且确定在霍夫曼编码时被量化的数据所使用的比特的数量(处理块606)。
还有,处理逻辑确定所使用的比特的数量是否超过目标比特数量(判定框608)。如果是的话,则处理逻辑将偏移值加到当前公用比例因子(处理块610),将偏移值设置为第二常量(例如,偏移=1),并返回至处理块604。否则,如果所使用的比特的数量超过了目标比特数量,则处理600结束。
下面图7的说明旨在提供适于实现本发明的计算机硬件和其它操作组件的概述,而不是旨在限制可应用环境。图7示出了适于用作图1的编码系统100或者仅仅用作量化模块110的计算机系统的一个实施例。
计算机系统740包括处理器750、存储器755和输入/输出能力(capability)760,这些都被耦合到系统总线765上。存储器755被构造为存储指令,这些指令在由处理器750执行时执行此处所述的方法。输入/输出760还包含各种不同类型的计算机可读媒体,包括可由处理器750访问的任意类型的存储设备。本领域技术人员将立即认识到,术语“计算机可读介质/媒体”还包含对数据信号进行编码的载波。还将应当理解,系统740通过操作存储器755中的系统软件执行来控制。输入/输出和相关媒体760存储用于操作系统和本发明的方法的计算机可执行指令。图1中所示的量化模块110可以是被耦合到处理器750的单独组件,或者可以被嵌入由处理器750执行的计算机可执行指令中。在一个实施例中,计算机系统740可以是ISP(Internet Service Provider,因特网服务提供商)的一部分或者通过输入/输出760被耦合到ISP,以便通过因特网(Internet)发送或接收图像数据。很显然,本发明并不限于因特网接入和基于Internet web站点:也设想了直接耦合的和专用的网络。
应当理解,计算机系统740是具有不同结构的许多可能的计算机系统的一个例子。典型的计算机系统将通常包括至少一个处理器、存储器以及将存储器耦合到处理器的总线。本领域技术人员将立即理解,本发明可以采用其它计算机系统构造来实施,包括多处理器系统、小型计算机、大型计算机等等。本发明还能够在分布式计算环境中实施,在此环境中,由通过通信网络链接的远程处理设备来执行任务。
选择最佳比例因子的各个方面都已进行了描述。尽管此处已经示出并描述了特定的实施例,但是本领域技术人员将理解,为了实现相同目的而计算出的任何配置安排都可以替换所示的特定实施例。这个申请旨在覆盖本发明的任何修改或变化。

Claims (15)

1.一种编码帧的方法,包括:
如果音频数据帧内的最大谱系数不等于零,则将初始公用比例因子设置为先前的公用比例因子;
确定与所述初始公用比例因子相关的初始比特数量;
利用初始比特数量和目标比特数量,计算初始增量;
将初始公用比例因子递增初始增量;
基于目标比特数量,调整被递增的公用比例因子;
基于被调整的公用比例因子和允许的失真,为编码的音频信号计算多个单独比例因子,所述单独比例因子控制编码的音频信号中的失真,其中用于每一个单独比例因子的初始值与被调整的公用比例因子相等;
如果与多个单独比例因子相关的当前比特数量超过了目标比特数量,则修改被调整的公用比例因子,直到结果的比特数量不再超过目标比特数量;和
使用单独比例因子和被调整的公用比例因子来编码帧。
2.根据权利要求1的方法,其中确定初始公用比例因子包括:
如果最大谱系数等于0,则将初始公用比例因子设置为30。
3.根据权利要求2的方法,其中先前的公用比例因子是前一帧中的公用比例因子和另一信道中的公用比例因子中的任意一个。
4.根据权利要求1的方法,其中初始增量利用以下表达式来计算:
initial_increment=10*(initial_bits-target_bits)/target_bits,
其中initial_increment是初始增量,initial_bits是初始比特数量,以及target_bits是目标比特数量。
5.根据权利要求1的方法,其中调整被递增的公用比例因子包括:
利用被递增的公用比例因子,量化帧内的谱数据;
确定被量化的谱数据是有效的;
确定与被递增的公用比例因子相关的当前比特数量;
如果当前比特数量超过了目标比特数量,则按照减少比特顺序改变被递增的公用比例因子;和
如果当前比特数量未超过目标比特数量,则按照增加比特顺序改变被递增的公用比例因子。
6.根据权利要求5的方法,其中改变被递增的公用比例因子,直到当前增量等于0为止。
7.根据权利要求1的方法,其中计算多个单独比例因子包括:
重复地调整多个单独比例因子中的每一个,直到与被调整的多个单独比例因子中的每一个相关的能量误差低于允许的失真为止。
8.根据权利要求7的方法,其中调整多个单独比例因子中的每一个包括:
将多个单独比例因子中的每一个递增当前增量;
计算与被递增的单独比例因子相关的能量误差;
确定计算的能量误差的类型;
如果计算的能量误差是第一类型,则将当前增量设置为第一常量;
如果计算的能量误差是第二类型,则将当前增量设置为第二常量;和
确定计算的能量误差是否低于允许的失真。
9.根据权利要求8的方法,其中确定计算的能量误差的类型包括:
如果error_energy(sb)>K*allowed_distortion,则确定计算的能量误差是第一类型;以及
如果error_energy(sb)=<K*allowed_distortion,则确定计算的能量误差是第二类型,
其中,error_energy(sb)是与被递增的单独比例因子相关的计算的能量误差,K是第三常量,并且allowed_distortion是允许的失真。
10.根据权利要求9的方法,其中第一常量、第二常量和第三常量的值是利用实验方法确定的。
11.根据权利要求1的方法,其中修改被调整的公用比例因子包括:
确定与多个单独比例因子相关的当前比特数量超过目标比特数量;
将偏移值加到被调整的公用比例因子,以计算被修改的公用比例因子;和
计算与多个单独比例因子和被修改的公用比例因子相关的结果比特数量。
12.根据权利要求11的方法,还包括:
当被调整的公用比例因子被修改时,不重新计算多个单独比例因子。
13.一种编码设备,包括:
霍夫曼编码模块,用于确定与初始公用比例因子相关的初始比特数量以及用于使用单独比例因子和被调整的公用比例因子对音频数据帧进行编码;和
量化模块,用于:如果帧内的最大谱系数不等于零,则将初始公用比例因子设置为先前的公用比例因子;利用初始比特数量和目标比特数量来计算初始增量;将初始公用比例因子递增初始增量;基于目标比特数量,调整被递增的公用比例因子;基于被调整的公用比例因子和允许的失真,为编码的音频信号计算多个单独比例因子,所述单独比例因子控制编码的音频信号中的失真,其中用于每一个单独比例因子的初始值与被调整的公用比例因子相等;以及如果与多个单独比例因子相关的当前比特数量超过了目标比特数量,则修改被调整的公用比例因子,直到得到的比特数量不再超过目标比特数量。
14.根据权利要求13的设备,其中量化模块通过如下步骤来确定初始公用比例因子:
如果最大谱系数等于0,则将初始公用比例因子设置为30。
15.一种编码帧的设备,包括:
用于在最大谱系数不等于零时将初始公用比例因子设置为先前的公用比例因子的装置;
用于确定与初始公用比例因子相关的初始比特数量的装置;
用于利用初始比特数量和目标比特数量来计算初始增量的装置;
用于将初始公用比例因子递增初始增量的装置;
用于基于目标比特数量来调整被递增的公用比例因子的装置;
用于基于被调整的公用比例因子和允许的失真来为编码的音频信号计算多个单独比例因子的装置,所述单独比例因子控制编码的音频信号中的失真,其中用于每一个单独比例因子的初始值与被调整的公用比例因子相等;
用于在与多个单独比例因子相关的当前比特数量超过了目标比特数量时修改被调整的公用比例因子、直到所得到的比特数量不再超过目标比特数量的装置;和
用于使用单独比例因子和被调整的公用比例因子来编码帧的装置。
CN2004800281955A 2003-09-29 2004-09-23 音频编码中的率失真控制方案 Expired - Fee Related CN1867967B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10/674,945 US7349842B2 (en) 2003-09-29 2003-09-29 Rate-distortion control scheme in audio encoding
US10/674,945 2003-09-29
PCT/US2004/031312 WO2005033859A2 (en) 2003-09-29 2004-09-23 Rate-distortion control scheme in audio encoding

Publications (2)

Publication Number Publication Date
CN1867967A CN1867967A (zh) 2006-11-22
CN1867967B true CN1867967B (zh) 2011-01-05

Family

ID=34393516

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2004800281955A Expired - Fee Related CN1867967B (zh) 2003-09-29 2004-09-23 音频编码中的率失真控制方案

Country Status (7)

Country Link
US (1) US7349842B2 (zh)
EP (1) EP1671213B1 (zh)
JP (1) JP2007507750A (zh)
KR (1) KR101103004B1 (zh)
CN (1) CN1867967B (zh)
DE (1) DE602004028745D1 (zh)
WO (1) WO2005033859A2 (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005027096A1 (en) 2003-09-15 2005-03-24 Zakrytoe Aktsionernoe Obschestvo Intel Method and apparatus for encoding audio
KR20070061843A (ko) * 2004-09-28 2007-06-14 마츠시타 덴끼 산교 가부시키가이샤 스케일러블 부호화 장치 및 스케일러블 부호화 방법
WO2006118179A1 (ja) * 2005-04-28 2006-11-09 Matsushita Electric Industrial Co., Ltd. 音声符号化装置および音声符号化方法
RU2008114382A (ru) 2005-10-14 2009-10-20 Панасоник Корпорэйшн (Jp) Кодер с преобразованием и способ кодирования с преобразованием
JP4548348B2 (ja) * 2006-01-18 2010-09-22 カシオ計算機株式会社 音声符号化装置及び音声符号化方法
US20070168197A1 (en) * 2006-01-18 2007-07-19 Nokia Corporation Audio coding
KR100738109B1 (ko) * 2006-04-03 2007-07-12 삼성전자주식회사 입력 신호의 양자화 및 역양자화 방법과 장치, 입력신호의부호화 및 복호화 방법과 장치
JP2007293118A (ja) * 2006-04-26 2007-11-08 Sony Corp 符号化方法および符号化装置
JP4823001B2 (ja) * 2006-09-27 2011-11-24 富士通セミコンダクター株式会社 オーディオ符号化装置
JP4396683B2 (ja) * 2006-10-02 2010-01-13 カシオ計算機株式会社 音声符号化装置、音声符号化方法、及び、プログラム
US8548816B1 (en) 2008-12-01 2013-10-01 Marvell International Ltd. Efficient scalefactor estimation in advanced audio coding and MP3 encoder
KR101078378B1 (ko) * 2009-03-04 2011-10-31 주식회사 코아로직 오디오 부호화기의 양자화 방법 및 장치
CN110706715B (zh) 2012-03-29 2022-05-24 华为技术有限公司 信号编码和解码的方法和设备

Family Cites Families (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5341457A (en) * 1988-12-30 1994-08-23 At&T Bell Laboratories Perceptual coding of audio signals
US4964113A (en) * 1989-10-20 1990-10-16 International Business Machines Corporation Multi-frame transmission control for token ring networks
US5642437A (en) * 1992-02-22 1997-06-24 Texas Instruments Incorporated System decoder circuit with temporary bit storage and method of operation
JP2693893B2 (ja) * 1992-03-30 1997-12-24 松下電器産業株式会社 ステレオ音声符号化方法
US5734789A (en) * 1992-06-01 1998-03-31 Hughes Electronics Voiced, unvoiced or noise modes in a CELP vocoder
IL104636A (en) * 1993-02-07 1997-06-10 Oli V R Corp Ltd Apparatus and method for encoding and decoding digital signals
US5729556A (en) * 1993-02-22 1998-03-17 Texas Instruments System decoder circuit with temporary bit storage and method of operation
US5748763A (en) * 1993-11-18 1998-05-05 Digimarc Corporation Image steganography system featuring perceptually adaptive and globally scalable signal embedding
US5488665A (en) * 1993-11-23 1996-01-30 At&T Corp. Multi-channel perceptual audio compression system with encoding mode switching among matrixed channels
WO1995032499A1 (fr) * 1994-05-25 1995-11-30 Sony Corporation Procede de codage, procede de decodage, procede de codage-decodage, codeur, decodeur et codeur-decodeur
JPH07336229A (ja) * 1994-06-09 1995-12-22 Matsushita Electric Ind Co Ltd 高能率符号化装置
JP3046224B2 (ja) * 1994-07-26 2000-05-29 三星電子株式会社 固定ビット率の符号化方法および装置とこれを利用した高速探索のためのトラッキング方法
TW316302B (zh) * 1995-05-02 1997-09-21 Nippon Steel Corp
EP0772925B1 (en) * 1995-05-03 2004-07-14 Sony Corporation Non-linearly quantizing an information signal
US5864802A (en) * 1995-09-22 1999-01-26 Samsung Electronics Co., Ltd. Digital audio encoding method utilizing look-up table and device thereof
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US5893066A (en) * 1996-10-15 1999-04-06 Samsung Electronics Co. Ltd. Fast requantization apparatus and method for MPEG audio decoding
JP3484908B2 (ja) * 1997-01-27 2004-01-06 三菱電機株式会社 ビットストリーム再生装置
US5982935A (en) * 1997-04-11 1999-11-09 National Semiconductor Corporation Method and apparatus for computing MPEG video reconstructed DCT coefficients
GB2326572A (en) * 1997-06-19 1998-12-23 Softsound Limited Low bit rate audio coder and decoder
DE19730130C2 (de) * 1997-07-14 2002-02-28 Fraunhofer Ges Forschung Verfahren zum Codieren eines Audiosignals
KR100335611B1 (ko) * 1997-11-20 2002-10-09 삼성전자 주식회사 비트율 조절이 가능한 스테레오 오디오 부호화/복호화 방법 및 장치
KR100335609B1 (ko) * 1997-11-20 2002-10-04 삼성전자 주식회사 비트율조절이가능한오디오부호화/복호화방법및장치
JP3515903B2 (ja) * 1998-06-16 2004-04-05 松下電器産業株式会社 オーディオ符号化のための動的ビット割り当て方法及び装置
US6108622A (en) * 1998-06-26 2000-08-22 Lsi Logic Corporation Arithmetic logic unit controller for linear PCM scaling and decimation in an audio decoder
JP3784993B2 (ja) * 1998-06-26 2006-06-14 株式会社リコー 音響信号の符号化・量子化方法
US6298087B1 (en) * 1998-08-31 2001-10-02 Sony Corporation System and method for decoding a variable length code digital signal
CA2246532A1 (en) * 1998-09-04 2000-03-04 Northern Telecom Limited Perceptual audio coding
JP3352406B2 (ja) * 1998-09-17 2002-12-03 松下電器産業株式会社 オーディオ信号の符号化及び復号方法及び装置
US6282631B1 (en) * 1998-12-23 2001-08-28 National Semiconductor Corporation Programmable RISC-DSP architecture
JP3739959B2 (ja) * 1999-03-23 2006-01-25 株式会社リコー デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
JP3323175B2 (ja) * 1999-04-20 2002-09-09 松下電器産業株式会社 符号化装置
JP2000323993A (ja) * 1999-05-11 2000-11-24 Mitsubishi Electric Corp Mpeg1オーディオレイヤiii復号処理装置およびコンピュータをmpeg1オーディオレイヤiii復号処理装置として機能させるためのプログラムを記録したコンピュータ読取可能な記録媒体
JP2000347679A (ja) * 1999-06-07 2000-12-15 Mitsubishi Electric Corp オーディオ符号化装置及びオーディオ符号化方法
JP4242516B2 (ja) * 1999-07-26 2009-03-25 パナソニック株式会社 サブバンド符号化方式
JP3762579B2 (ja) * 1999-08-05 2006-04-05 株式会社リコー デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
JP2001154698A (ja) * 1999-11-29 2001-06-08 Victor Co Of Japan Ltd オーディオ符号化装置及びその方法
JP2001306095A (ja) * 2000-04-18 2001-11-02 Mitsubishi Electric Corp オーディオ符号化装置及びオーディオ符号化方法
US6542863B1 (en) * 2000-06-14 2003-04-01 Intervideo, Inc. Fast codebook search method for MPEG audio encoding
US20030079222A1 (en) * 2000-10-06 2003-04-24 Boykin Patrick Oscar System and method for distributing perceptually encrypted encoded files of music and movies
JP2002311996A (ja) * 2001-02-09 2002-10-25 Sony Corp コンテンツ供給システム
JP3639216B2 (ja) * 2001-02-27 2005-04-20 三菱電機株式会社 音響信号符号化装置
JP2002311993A (ja) * 2001-04-17 2002-10-25 Mitsubishi Electric Corp オーディオ符号化装置
US6587057B2 (en) * 2001-07-25 2003-07-01 Quicksilver Technology, Inc. High performance memory efficient variable-length coding decoder
US6732071B2 (en) * 2001-09-27 2004-05-04 Intel Corporation Method, apparatus, and system for efficient rate control in audio encoding
EP1440433B1 (en) * 2001-11-02 2005-05-04 Matsushita Electric Industrial Co., Ltd. Audio encoding and decoding device
US6950794B1 (en) * 2001-11-20 2005-09-27 Cirrus Logic, Inc. Feedforward prediction of scalefactors based on allowable distortion for noise shaping in psychoacoustic-based compression
US6662154B2 (en) * 2001-12-12 2003-12-09 Motorola, Inc. Method and system for information signal coding using combinatorial and huffman codes
US7460993B2 (en) * 2001-12-14 2008-12-02 Microsoft Corporation Adaptive window-size selection in transform coding
DE60323331D1 (de) * 2002-01-30 2008-10-16 Matsushita Electric Ind Co Ltd Verfahren und vorrichtung zur audio-kodierung und -dekodierung
US7110941B2 (en) * 2002-03-28 2006-09-19 Microsoft Corporation System and method for embedded audio coding with implicit auditory masking
US20030215013A1 (en) * 2002-04-10 2003-11-20 Budnikov Dmitry N. Audio encoder with adaptive short window grouping
KR100467617B1 (ko) * 2002-10-30 2005-01-24 삼성전자주식회사 개선된 심리 음향 모델을 이용한 디지털 오디오 부호화방법과그 장치
KR100547113B1 (ko) * 2003-02-15 2006-01-26 삼성전자주식회사 오디오 데이터 인코딩 장치 및 방법

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SMITHERS et al..Audio Engineering Society.Increased MPEG-2 ACC Encoding,AES 111th Convention.2001,22(6),全文. *
马鸿飞,张卫东,樊昌信.音质控制的变速率音频编码算法.电子科学学刊22 6.2001,22(6),全文.
马鸿飞,张卫东,樊昌信.音质控制的变速率音频编码算法.电子科学学刊22 6.2001,22(6),全文. *

Also Published As

Publication number Publication date
KR101103004B1 (ko) 2012-01-05
KR20060084437A (ko) 2006-07-24
EP1671213A2 (en) 2006-06-21
WO2005033859A2 (en) 2005-04-14
US7349842B2 (en) 2008-03-25
EP1671213B1 (en) 2010-08-18
EP1671213A4 (en) 2008-08-20
US20050075871A1 (en) 2005-04-07
CN1867967A (zh) 2006-11-22
WO2005033859A3 (en) 2006-06-22
JP2007507750A (ja) 2007-03-29
DE602004028745D1 (de) 2010-09-30

Similar Documents

Publication Publication Date Title
CN1735925B (zh) 使用网格降低mpeg-2高级音频编码的比例因子传输成本
US10121480B2 (en) Method and apparatus for encoding audio data
CN1867967B (zh) 音频编码中的率失真控制方案
US9009036B2 (en) Methods and systems for bit allocation and partitioning in gain-shape vector quantization for audio coding
CN101968781B (zh) 在音频编码过程中根据mdct数据进行视窗类型判定的方法
CN101939781B (zh) 音频编码器和解码器
RU2423740C2 (ru) Устройство и способ окончательной обработки спектральных значений и кодирующее устройство и декодер для аудиосигналов
EP0848559A3 (en) Video coding and decoding method and apparatus
KR20080049116A (ko) 오디오 코딩
CN1195930A (zh) 音频信号编码方法及其有关设备
EP3217398B1 (en) Advanced quantizer
KR20210144939A (ko) 인코더, 디코더, 인코딩과 디코딩 시스템 및 방법
CN101432803A (zh) 编码方法和编码装置
CN105103226A (zh) 低复杂度音调自适应音频信号量化
JP2000347679A (ja) オーディオ符号化装置及びオーディオ符号化方法
CN103035249B (zh) 一种基于时频平面上下文的音频算术编码方法
CN110534119B (zh) 一种基于人耳听觉频率尺度信号分解的音频编解码方法
US20230298603A1 (en) Method for encoding and decoding audio signal using normalizing flow, and training method thereof
JP2004021153A (ja) オーディオ信号符号化装置
JP2003271199A (ja) オーディオ信号の符号化方法及び符号化装置
CN112862106A (zh) 一种基于自适应编解码迭代学习控制信息传输系统和方法
JP2018151498A (ja) 符号化装置、方法及びプログラム
CN112904724A (zh) 基于误差自适应编解码迭代学习控制信息传输系统和方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110105

Termination date: 20150923

EXPY Termination of patent right or utility model