CN102341846A - 用于音频编码的量化 - Google Patents

用于音频编码的量化 Download PDF

Info

Publication number
CN102341846A
CN102341846A CN2010800103313A CN201080010331A CN102341846A CN 102341846 A CN102341846 A CN 102341846A CN 2010800103313 A CN2010800103313 A CN 2010800103313A CN 201080010331 A CN201080010331 A CN 201080010331A CN 102341846 A CN102341846 A CN 102341846A
Authority
CN
China
Prior art keywords
mentioned
frame
value
scale factor
voice data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010800103313A
Other languages
English (en)
Other versions
CN102341846B (zh
Inventor
潘在美
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Core Logic Inc
Original Assignee
Core Logic Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Core Logic Inc filed Critical Core Logic Inc
Publication of CN102341846A publication Critical patent/CN102341846A/zh
Application granted granted Critical
Publication of CN102341846B publication Critical patent/CN102341846B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components

Abstract

本发明涉及一种音频编码器的量化方法以及装置。在音频编码器的量化方法中,分析从外部接收的音频数据第一帧的频谱数据,计算出上述音频数据第一帧的最大频谱绝对值的步骤;基于上述音频数据第一帧的最大频谱绝对值以及之前计算出的音频数据第二帧的最大频谱绝对值,设定要在进行上述音频数据第一帧的量化时使用的公用比例因子的初始值的步骤;以及基于所设定的上述公用比例因子的初始值,对上述音频数据第一帧的频谱数据进行量化的步骤。因此,在进行量化之前能够预先设定几乎接近实际公用比例因子的值的公用比例因子的初始值。

Description

用于音频编码的量化
技术领域
本发明涉及一种音频编码技术。
背景技术
一般来讲,MPEG(Moving Picture Experts Group,动态图像专家组)音频编码是用于进行高质量以及高效率编码的国际标准化组织/国际电工委员会(ISO/IEC)的标准方式。MPEG音频编码方法是在ISO/IEC SC29/WG11设置的MPEG内与视频(Moving Picture)编码一同被标准化的。MPEG音频编码是着重于实现高压缩率(High Compression Rate)的同时最大限度地降低主观性音质损失的编码标准。
MPEG音频编码采用各种方式防止收听者感知到编码过程中所产生的量化噪声。例如,MPEG音频编码算法使用心理声学模型(Psychoacoustic Model),以反映人们的知觉(Perception)特性,消除知觉重复性,由此在编码后维持良好的音质。使用心理声学模型的音频编码器利用听到音频信号的人们的听觉特性,在编码时省略人们难以感知的细节信息,由此通过减少编码量来实现高效率的压缩。
使用心理声学模型的音频编码器,利用了人们能够听到的声音的最小级别的最小可听界限(Threshold in Quite)以及特定临界值以下的微弱的声音被某种声音掩蔽的掩蔽(Masking)效应。例如,使用心理声学模型的音频编码器既能够在编码过程中去除人们难以听到的非常低或非常高的频率成分,还能够以低于原来的精密度对被某种频率成分掩蔽的频率成分进行编码。
使用心理声学模型的音频编码器使用基于这种心理声学模型计算的值,对数据进行量化以及编码。例如,MPEG音频编码器在将时域的音频数据转换成频域的音频数据之后,利用心理声学模型模块求出各个不同频带的最大容许噪声的量,即最大容许失真(Allowed Distortion),并据此进行量化以及编码。
发明内容
本发明要解决的技术课题是,提供一种能够预先设定要在进行音频数据的量化时使用的公用比例因子的初始值,使得该公用比例因子的初始值最大限度地接近公用比例因子的值,从而能够大幅减少进行量化时的循环反复次数的技术、系统以及装置。
为了解决这种技术课题,根据本发明的一方面(Aspect)提供一种音频编码器的量化方法。上述音频编码器的量化方法包括如下的步骤:分析从外部接收的音频数据第一帧的频谱数据,计算出上述音频数据第一帧的最大频谱绝对值的步骤;基于上述音频数据第一帧的最大频谱绝对值以及之前计算出的音频数据第二帧的最大频谱绝对值,设定要在进行上述音频数据第一帧的量化时使用的公用比例因子的初始值的步骤;以及基于所设定的上述公用比例因子的初始值,对上述音频数据第一帧的频谱数据进行量化的步骤。
计算出上述音频数据第一帧的最大频谱绝对值的步骤包括计算出在上述音频数据第一帧的频谱数据中绝对值最大的部分的绝对值的步骤。
设定要在进行上述音频数据第一帧的量化时使用的公用比例因子的初始值的步骤包括:使用特定的比较算法,将上述音频数据第一帧的最大频谱绝对值与上述音频数据第二帧的最大频谱绝对值进行比较的步骤;以及使用与上述比较的结果值对应的计算算法,计算出要在进行上述音频数据第一帧的量化时使用的公用比例因子的初始值的步骤。
将上述音频数据第一帧的最大频谱绝对值与上述音频数据第二帧的最大频谱绝对值进行比较的步骤包括:对上述音频数据第一帧的最大频谱绝对值取二进制对数,计算出第一二进制对数值的步骤;对上述音频数据第二帧的最大频谱绝对值取二进制对数,计算出第二二进制对数值的步骤;以及计算出上述第一二进制对数值和上述第二二进制对数值之间的差值的步骤。
设定要在进行上述音频数据第一帧的量化时使用的公用比例因子的初始值的步骤包括:决定与上述第一二进制对数值和上述第二二进制对数值之间的差值对应的计算算法的步骤;以及使用所决定的上述计算算法,计算出上述公用比例因子的初始值的步骤。决定上述计算算法的步骤包括将上述第一二进制对数值和上述第二二进制对数值之间的差值与至少一个常数值进行比较的步骤。
计算出上述公用比例因子的初始值的步骤包括使用上述音频数据第二帧的公用比例因子的值、从上述第一二进制对数值减去上述第二二进制对数值的值以及特定常数值中的至少一个值进行运算的步骤。
上述的音频数据的量化方法还包括在计算出的上述音频数据第一帧的最大频谱绝对值为0的情况下,将预先设定的常数值设定为上述音频数据第一帧的公用比例因子的初始值的步骤。
上述音频数据的量化方法还包括调整公用比例因子,以防止对上述量化后的数据进行编码的数据的使用比特数超过预先设定的可用比特数的步骤。调整上述公用比例因子的步骤包括:计算对上述量化后的数据进行编码的数据的使用比特数的步骤;将计算出的上述使用比特数与上述可用比特数进行比较的步骤;以及在上述使用比特数超过上述可用比特数的情况下,调整上述公用比例因子的步骤。
上述音频数据的量化方法还包括调整上述公用比例因子,以防止从上述可用比特数减去上述对上述量化后的数据进行编码的数据的使用比特数的值超过特定临界值的步骤。
上述音频数据的量化方法还包括调整与各频带对应的频带比例因子,以防止上述音频数据第一帧的频谱数据的上述各频带的失真(Distortion)超过上述各频带的容许失真(Allowed Distortion)的步骤。
另一方面,根据本发明的再一方式,提供一种用于设定要在对从外部接收的音频数据第一帧的频谱数据进行量化时使用的公用比例因子的初始值的方法。上述方法包括如下步骤:判断上述音频数据第一帧的块类型是否与作为上述音频数据第一帧的前一帧的音频数据第二帧的块类型不同的步骤;以及在上述音频数据第一帧的块类型与上述音频数据第二帧的块类型不同的情况下,将特定常数值设定为上述公用比例因子的初始值,在上述音频数据第一帧的块类型与上述音频数据第二帧的块类型相同的情况下,基于上述音频数据第一帧以及音频数据第二帧的最大频谱绝对值,计算出上述公用比例因子的初始值的步骤。
另一方面,为了解决上述的本发明的技术课题,根据本发明的另一方式,提供一种利用音频编码器对音频数据进行量化的量化装置。上述量化装置包括:初始值设定模块,其分析从外部接收的帧单位的频谱数据,计算出对于各帧的最大频谱绝对值,根据计算出的上述最大频谱绝对值的帧间的变化程度来设定各帧的公用比例因子的初始值;以及至少一个功能模块,基于由上述初始值设定模块设定的公用比例因子的初始值进行量化,调整公用比例因子,以防止对上述量化后的数据进行编码的数据的使用比特数超过预先设定的可用比特数。
上述初始值设定模块计算出当前帧的最大频谱绝对值和前一帧的最大频谱绝对值,使用特定比较算法来对上述当前帧的最大频谱绝对值与前一帧的最大频谱绝对值进行比较。
上述初始值设定模块进行如下的计算算法:对上述当前帧的最大频谱绝对值取二进制对数来计算出第一二进制对数值,对上述前一帧的最大频谱绝对值取二进制对数来计算出第二二进制对数值之后,根据上述第一二进制对数值和上述第二二进制对数值之间的差值,来计算出上述当前帧的公用比例因子的初始值。
上述至少一个功能模块包括:量化模块,其基于上述当前帧的公用比例因子的初始值,对上述当前帧的频谱数据进行量化;以及内部循环模块,其调整公用比例因子,以防止对经上述量化模块量化后的数据进行编码的数据的使用比特数超过预先设定的可用比特数。上述内部循环模块调整上述公用比例因子,以防止上述可用比特数和上述使用比特数之间的差值超过特定临界值。
如上所述,根据本发明,能够预先设定要在对帧的频谱数据进行量化时使用的公用比例因子的初始值,使得该公用比例因子的初始值最大限度地接近公用比例因子的值。因此,在进行量化时缩减用于调整公用比例因子的循环的反复次数,由此能够大幅减轻音频编码器的运算量负担。
附图说明
图1是使用心理声学模型的音频编码器的通常的量化过程的流程图;
图2是包括用于实现本发明优选实施例的量化方法的量化装置在内的音频编码器的结构的框图;
图3是图2中所示的量化部的详细结构的框图;
图4是本发明优选实施例的量化方法的流程图;
图5是将不同帧的最大频谱绝对值的二进制对数值与按照不同帧进行量化时所使用的实际公用比例因子(common scale factor)的决定值(determinationvalue)进行比较的曲线图;
图6是按照各个不同帧进行频谱数据的量化时所使用的实际公用比例因子的决定值的曲线图;
图7是根据上述的公用比例因子的初始值的估计方法估计的各个不同帧的公用比例因子的初始值的曲线图;以及
图8是将图6中所示的公用比例因子的值与图7中所示的公用比例因子的初始值进行比较的曲线图。
具体实施方式
下面,参照附图对本发明优选实施例进行详细说明,以使本领域的技术人员容易地实施本发明的技术方案。在以下要说明的本发明优选实施例中,为求内容的清楚性而使用特定的技术术语。事先指出,本发明不局限于所选择的特定术语,各个特定术语还包括为了实现类似目的而以类似方式实施的所有等同替代。
图1是使用心理声学模型的传统音频编码器的通常的量化过程的流程图。传统音频编码器为了对频域的数据进行量化而执行多级循环。上述多级循环包括内部循环(Inner Loop)IL以及外部循环(Outer Loop)OL。
在内部循环IL中,使用公用比例因子以及频带比例因子(Band Scale Factor)对以帧单位接收的频域的数据进行量化(步骤:S1),调整公用比例因子,以防止对量化后的数据进行编码时的比特数(即使用比特数)超过可用比特数(步骤:S2~S4)。并且,在外部循环OL中,调整频带比例因子,以防止各频带的失真(Distiortion)超过相应频带的容许失真(步骤:S5~S7)。
如上所述,量化过程中在内部循环中,执行对量化后的数据进行编码时的使用比特数与可用比特数进行比较的过程。此时,由于只有在对量化后的数据进行编码之后才能计算出上述使用比特数,因而各个循环都与编码过程有关联。这是因为随着公用比例因子的变化,量化后的数据因循环而异,由此码字(codeword)以及码字的长度变得不同。
像这样,以往的音频编码器的量化过程反复执行外部循环和内部循环,直到取得最佳值。特别是,由于在内部循环中各个循环均包括量化数据的过程以及基于对量化后的数据进行编码时对数据进行的计算过程,因而导致内部循环的运算量相当大。因此,如果这种内部循环的循环反复次数增加,会导致量化以及编码次数增加,使得音频编码器的运算量过度增加。并且,这种音频编码器运算量的增加最终会延缓整体编码过程的进行时间,对硬件资源造成过大的负担。
图2是包括用于实现本发明优选实施例的量化方法的量化装置在内的音频编码器的结构的框图。如图2所示,音频编码器100以帧(Frame)单位接收从外部输入的时域(Time Domain)的音频数据(例如脉码调制(PCM:Pulse CodeModulation)数据),对该脉码调制数据进行处理之后,输出特定格式(Format)的编码后的比特流。这种音频编码器100包括滤波器组(Filter Bank)部10、离散余弦变换(MDCT:Modified Discrete Cosine Transform)部20、快速傅里叶变换(FFT:Fast Fourier Transform)部30、心理声学模型(PsychoacousticModel)部40、量化(Quantization)部50、编码(Encoding)部60以及比特流输出(Bit Stream Output)部70。
滤波器组部10以帧单位接收从外部输入的时域的音频数据后,将该音频数据转换成频域(Frequency Domain)的音频数据,即频谱(Spectrum)数据,并将所转换的帧单位的频谱数据细分成多个频带。例如滤波器组部10为了消除音频数据的统计重复性,将帧单位的频谱数据细分成例如32个次能带(sub-band)。
快速傅里叶变换部30将从外部输入的时域的音频数据转换成频谱数据,将所转换的频谱数据传输至心理声学模型部40。
心理声学模型部40为了消除基于人们的听觉特性的知觉重复性,接收从快速傅里叶变换部30传输的频谱数据,来计算对于各频带的容许失真(AllowedDistortion)。此时,上述容许失真是指在人们的听力无法认知的失真中能够最大限度容许的失真。心理声学模型部40将计算出的上述不同频带的容许失真提供给量化部50。
另一方面,心理声学模型部40计算知觉能量(Perceptual Energy)来决定是否进行窗口切换,将窗口切换信息传输至离散余弦变换部20。如下所述,窗口可在不同的块类型之间切换。帧的块类型大体上分为4种。例如能够将音频信号急剧变化的部分的帧称作短块(Short Block),将音频信号变化缓和的部分的帧称作长块(Long Block),将音频信号从长块变成短块的部分的帧称作长停止块(Long Stop Block),将音频信号从短块变成长块的部分的帧称作长起始块(Long Start Block)。
上述心理声学模型部40能够根据当前处理的帧的块类型是短块、长块、长停止块、长起始块,分别输出表示适用短窗口(Short Window)、长窗口(LongWindow)、长停止窗口(Long Stop Window)、长起始窗口(Long Start Window)的窗口切换信息。
离散余弦变换部20为了提高频谱数据的频率分辨率(FrequencyResolution),根据从心理声学模型部40接收的窗口切换信息,进一步细分由滤波器组部10分割成多个频带的频谱数据来进行输出。例如,在窗口切换信息表示长窗口(Long Window)的情况下,离散余弦变换部20使用多点离散余弦变换(例如36点离散余弦变换),相比由滤波器组部10生成的次能带(例如32个次能带)将频谱数据细分成更细致的次能带。在窗口切换信息表示短窗口(Short Window)的情况下,离散余弦变换部20使用多点离散余弦变换(例如12点离散余弦变换),相比由滤波器组部10生成的次能带(例如32个次能带)将频谱数据细分成更细致的次能带。
量化部50接收从离散余弦变换部20传输的帧单位的频谱数据来进行量化。并且,量化部50在对频谱数据进行量化之后,调整公用比例因子(Common ScaleFactor),以防止对量化后的数据进行编码的数据的使用比特数超过容许的可用比特数,量化部50还调整频带比例因子(Band Scale Factor),以防止频谱数据的各频带的失真超过容许失真。
另一方面,量化部50为了缩减用于调整公用比例因子以及频带比例因子的循环的反复次数,在进行频谱数据的量化之前,预先设定几乎与在量化中实际要用到的公用比例因子的值相同的公用比例因子的初始值。此时量化部50基于帧间最大频谱绝对值的变化程度估计公用比例因子的初始值,从而能够预先设定公用比例因子的初始值。
编码部60发挥对经量化部50量化后的数据进行编码的功能。比特流输出部70对经编码部60编码后的数据进行格式设置,设置成特定格式(例如MPEG-2等规定的比特流格式)之后,输出比特流。
图3是图2中所示的量化部50的详细结构的框图。参照图2至图3,量化部50包括初始值设定模块54、量化模块52、内部循环模块56以及外部循环模块58等。
初始值设定模块54发挥基于帧间最大频谱绝对值的变化程度估计并设定公用比例因子的初始值的功能。上述最大频谱绝对值是指在帧的频谱数据绝对值中最大的值。例如上述最大频谱绝对值是指在包含于帧的频谱数据中的多个频带中具有最大绝对值的频带的绝对值。
初始值设定模块54在分析从离散余弦变换部20接收的帧单位的频谱数据,求出相应帧的最大频谱绝对值之后,使用特定的比较算法将相应帧的最大频谱绝对值与经过处理的前一帧的最大频谱绝对值进行比较。
例如,初始值设定模块54在分析从当前离散余弦变换部20接收的当前帧的频谱数据,来求出当前帧的最大频谱绝对值,使用预先设定的特定的比较算法,将上述帧的最大频谱绝对值与前一帧(即在当前帧之前处理的帧)的最大频谱绝对值进行比较。此时,上述前一帧的最大频谱绝对值是在进行前一帧的量化之前预先求出的值。
初始值设定模块54根据使用上述比较算法得到的比较结果值,使用特定计算算法计算出要在对当前帧的频谱数据进行量化时使用的公用比例因子的初始值。即,初始值设定模块54根据当前帧的频谱绝对值相对前一帧的频谱绝对值发生多大变化,使用相应计算算法计算出公用比例因子的初始值。
上述初始值设定模块54预先以表格形式存储与使用上述比较算法得到的比较结果值对应的计算算法。这种设定公用比例因子的初始值的过程,将在下文中进行详细说明。另一方面,初始值设定模块54还能够设定内部循环模块56运转时所需的标志(flag)的初始值。
量化模块52接收从离散余弦变换部20传输的帧单位的频谱数据来进行量化。在进行量化时,量化模块52使用通过内部循环模块56调整的公用比例因子以及通过外部循环模块58调整的频带比例因子。
内部循环模块56与量化模块52以及编码部60关联,来执行调整公用比例因子的内部循环。例如,内部循环模块56控制量化模块52使其进行量化,并执行调整公用比例因子的过程,以防止对量化后的数据进行编码的数据的使用比特数超过预先设定的可用比特数。通过上述内部循环模块56首先执行的内部循环,进行量化时能够将由上述初始值设定模块54设定的公用比例因子的初始值用作公用比例因子。
另一方面,内部循环模块56在上述使用比特数不超过可用比特数的情况下,能够二次调整公用比例因子,以防止可用比特数和使用比特数之间的差值超过特定临界值。例如内部循环模块56将从可用比特数减去使用比特数的值与预先设定的临界值进行比较,在从可用比特数减去使用比特数的值超过上述临界值的情况下,调整公用比例因子。
外部循环模块58发挥调整频带比例因子,以防止频谱数据的各频带失真超过相应频带的容许失真的功能。例如外部循环模块58发挥如下的功能:计算频谱数据的各频带失真,将计算出的各频带失真与从心理声学模型部40传输的容许失真进行比较,在超过容许失真的情况下,调整相应频带比例因子。
以上,对用于实现本发明优选实施例的量化方法的装置进行了说明。下面,将对利用上述所说明的量化部50(即量化装置)进行量化的步骤进行说明。同时,如上所述的量化部50的功能也会因以下的说明更加明确。
图4是本发明优选实施例的量化方法的流程图。如图4所示,首先,量化部50估计并设定对从外部(例如离散余弦变换部)接收的帧的频谱数据进行量化时所使用的公用比例因子的初始值(步骤:S11)。为了估计公用比例因子的初始值,量化部50将利用帧间的最大频谱绝对值的变化程度。如上所述,上述最大频谱绝对值是指在对帧的频谱数据的大小采取绝对值运算的值中具有最大值的部分的绝对值。
具体地说,为了估计公用比例因子的初始值,量化部50分析从外部接收的当前帧的频谱数据,计算出当前帧的最大频谱绝对值。接着,量化部50使用已设定的比较算法,将上述计算出的当前帧的最大频谱绝对值与前一帧(即在当前帧之前处理的帧)的最大频谱绝对值进行比较。此时,上述前一帧的最大频谱绝对值是在进行前一帧的处理时预先求出的值。
例如,量化部50对上述计算出的当前帧的最大频谱绝对值取以2为底数的对数,即二进制对数(“log2”),计算出第一二进制对数值,而后将该第一二进制对数值与前一帧的最大频谱绝对值的二进制对数值(即第二二进制对数值)进行比较。上述第二二进制对数值是在计算出前一帧的公用比例因子的初始值时计算出的值。
然后,量化部50根据使用上述比较算法得到的比较结果值,从预先存储的信息中决定预先设定的计算算法,使用所决定的计算算法计算出要在进行当前帧的量化时使用的公用比例因子的初始值。例如量化部50使用与两个二进制对数值(即第一二进制对数值以及第二二进制对数值)的差值对应的特定计算算法,计算出要在进行当前帧的量化时使用的公用比例因子的初始值。
用于设定公用比例因子的初始值的计算算法如下面的数学公式(MathFigure)1。
数学公式1:
[数学.1]
est _ common _ scalefac [ i ] = 10 , if max _ spec [ i ] = = 0 CSF [ i - 1 ] + ( diff [ i ] &times; A ) , ifC < | diff [ i ] | < D CSF [ i - 1 ] + ( diff [ i ] &times; B ) , ifD &le; | diff [ i ] | CSF [ i - 1 ] , ifC &GreaterEqual; | diff [ i ] |
在上述数学公式1中使用的要素的定义如下:
1.i:帧索引,假设i为当前帧,假设i-1为前一帧;
2.est_common_scalefac[i]:为了进行当前帧的量化而估计的公用比例因子的初始值;
3.CSF[i-1]:通过前一帧的量化以及编码过程决定的公用比例因子;
4.max_spec[i]:当前帧的最大频谱绝对值;
5.A、B、C、D:常数值,各个值能够根据试验设定为适当的值;
6.diff[i]:从当前帧的最大频谱绝对值(即max_spec[i])的二进制对数值减去前一帧的最大频谱绝对值(即max_spec[i-1])的二进制对数值的值;用数学公式表示这种diff[i],如下的数学公式2。
数学公式2:
[数学.2]
diff[i]=log2(max_spec[i]-log2(max_spec[i-1])
参照上述数学公式1,量化部50为了估计(Estimate)当前帧的公用比例因子的初始值,根据从当前帧的最大频谱绝对值的二进制对数值(例如第一二进制对数值)减去前一帧的最大频谱绝对值的二进制对数值(例如第二二进制对数值)得到的值的绝对值(即作为两个二进制对数值之间的差值|diff[i]|),使用了与该绝对值对应的计算算法。
例如,如果作为上述两个二进制对数值之间的差值|diff[i]|大于作为特定常数的C且小于D,则在从第一二进制对数值减去第二二进制对数值的值,即diff[i]乘以作为特定常数的A,再将该乘积与前一帧的公用比例因子值,即CSF[i+1]相加,以此计算出当前帧的公用比例因子的初始值。
并且,如果作为上述两个二进制对数值之间的差值|diff[i]|等于或大于作为特定常数的D,则在从上述第一二进制对数值减去第二二进制对数值的值,即diff[i]乘以作为特定常数的B,再将该乘积与前一帧的公用比例因子值,即CSF[i+1]相加,以此计算出当前帧的公用比例因子的初始值。
例如,如果作为上述两个二进制对数值之间的差值的|diff[i]|等于或小于作为特定常数的C,则将当前帧的公用比例因子的初始值设定为与前一帧的公用比例因子值,即CSF[i+1]相同的值。
另一方面,如果当前帧的最大频谱绝对值为0,则将当前帧的公用比例因子的初始值设定为预先设定的值,例如10。
上述的常数值A、B、C、D是能够按照系统,并基于实验值适当设定的值。例如在本实施例中假设A为3.58,B为1.8,C为0.4,D为15。
量化部50存储与上述数学公式1及数学公式2对应的信息,例如比较算法,与作为上述两个二进制对数值之间的差值|diff[i]|对应的计算算法,以及帧的最大频谱绝对值为0时的计算算法(例如设定值)。在计算公用比例因子时,量化部50可从所存储的上述信息中决定所需的信息。
图5是将不同帧的最大频谱绝对值的二进制对数值(log2|max spec|)与在按照不同帧进行量化时所使用的实际公用比例因子的决定值进行比较来表示的曲线图。如图5所示,在依次输入编码器的400个帧中,不同帧的最大频谱绝对值的二进制对数值与不同帧的实际公用比例因子的决定值具有类似的趋势。
另一方面,相应于图5中所示的点A-1、A-2、A-3的帧表示音频数据急剧变化的部分,即帧的块类型变化的音频数据部分。例如上述点是相应于从长块变成短块或从短块变成长块的音频数据部分的帧。
像这样,在相应于块类型急剧变化的音频数据部分的帧的情况下,由于最大频谱绝对值的二进制对数值和实际公用比例因子的决定值有可能不同,因而量化部50针对块类型急剧变化的音频数据部分的帧,将公用比例因子的初始值设定为预先设定的值,例如“10”。
例如,量化部50判断当前帧的块类型和前一帧的块类型是否相同,在当前帧的块类型和前一帧的块类型不同的情况下,量化部50将预先设定的值设定为当前帧的公用比例因子的初始值。另一方面,在当前帧的块类型和前一帧的块类型相同的情况下,量化部50按照上述方式根据当前帧和前一帧的最大频谱绝对值,设定公用比例因子的初始值。
图6是按照各个不同帧进行频谱数据的量化时所使用的实际公用比例因子的决定值的曲线图,图7是根据上述的公用比例因子的初始值的估计方法估计的各个不同帧的公用比例因子初始值的曲线图,图8是将图6中所示的公用比例因子的值与图7中所示的公用比例因子的初始值进行比较的曲线图。
如图6至图8所示,在进行频谱数据量化时用到的实际公用比例因子的决定值与按照上述的估计方法估计的公用比例因子的初始值几乎一致。
由此,在开始进行特定帧的频谱数据的量化之前,估计要在进行上述量化时使用的公用比例因子的初始值并将其设定为与实际公用比例因子的决定值几乎类似,因而能够大幅缩减用于调整公用比例因子的循环的反复次数。因此,在编码器运行时能够大大减少伴随量化以及编码的运算负担。
像这样,设定公用比例因子的初始值,如图4所示,量化部50将执行内部循环时所需的标志设定为第一值,例如设定为0之后(步骤:S12),执行调整公用比例因子的内部循环L1(步骤:S13~S20),在执行内部循环L1时,量化部50将所设定的上述公用比例因子的初始值用作公用比例因子的起始值。
在内部循环L1中,首先,量化部50对频谱数据进行量化(步骤:S13),例如在内部循环L1的第一次循环中,基于所设定的公用比例因子的初始值进行量化。
接着,量化部50调整公用比例因子,以防止对量化后的数据进行编码的数据的使用比特数超过预先设定的可用比特数(步骤:S14、S15、S17、S18)。
下面对上述过程(步骤:S14、S15、S17、S18)进行更为详细的说明。量化部50计算对量化后的数据进行编码的数据的使用比特数(步骤:S14)。例如,量化部50在编码部60对量化后的数据进行编码之后,计算编码后的数据的比特数。
接着,量化部50将计算出的使用比特数与预先设定的可用比特数进行比较(步骤:S15)。此时,如果计算出的上述使用比特数超过可用比特数,量化部50则会调整公用比例因子(步骤:S17)。例如量化部50增加公用比例因子的值,其增加量相当于预定值(例如1)的量。调整公用比例因子之后,量化部50将标志设定为第二值,例如设定为1之后(步骤S18),返回到量化步骤(步骤:S13)之前重新反复执行内部循环L1。
另一方面,如果计算出的上述使用比特数等于或小于可用比特数,量化部50则调整公用比例因子,以防止可用比特数和使用比特数之差超过特定临界值(步骤:S16、S19、S20)。
下面对上述过程(步骤:S16、S19、S20)进行详细说明。量化部50检查标志,确认标志是否为第二值(例如1)(步骤:S16),在标志不是第二值的情况下,量化部50判断从可用比特数减去使用比特数的值是否超过临界值(步骤:S19)。
此时,在从上述可用比特数减去使用比特数的值超过临界值的情况下,量化部50调整公用比例因子(步骤:S20)。例如量化部50减少公用比例因子的值,其减少量相当于预定值(例如1)的量。量化部50在调整公用比例因子之后,返回到量化步骤(步骤:S13)之前重新执行内部循环L1。
另一方面,从上述可用比特数减去使用比特数的值等于或小于临界值的情况下,或者在标志为第一值的情况下,量化部50执行外部循环L2。
在外部循环L2中,量化部50首先计算频谱数据各频带的失真(步骤:S21)。接着,量化部50将计算出的各频带的失真与相应频带的容许失真进行比较,判断计算出的各频带的失真是否小于相应频带的容许失真(步骤:S22)。
此时,如果各频带的失真大于相应频带的容许失真,量化部50则在调整相应频带比例因子之后(步骤:S23),返回到量化步骤(步骤:S13)之前。相反,在各频带的失真小于或等于相应频带的容许失真的情况下,量化部50才能结束量化。
本说明书作出了诸多限定,但这些限定应视为受取特定发明的特定实施例的限定的特定说明,而不应解释为用于限定本发明或权利要求书要求保护的范围。并且,能够将本发明通过个别实施例记载的某些特征进行组合后在单一实施例实施。相反,通过单一实施例的方式说明的各种特征还能在多个实施例以个别或某种适当的子组合方式进行实施。进而,虽然这些特征能通过某种组合实施并受到保护,但还能在某种情况下从要求保护的组合中删除一个以上特征,上述要求保护的组合指子组合或子组合的变形。
另一方面,虽然附图中按照特定顺序示出了动作,但不应理解为上述动作必须要按照图示的特定顺序或依次进行,也不应理解为要想得到优选结果就必须要进行这些动作。在某种情况下,优选为进行多任务处理及并列处理。进而,如上所述的实施例的各种系统结构部件的分离并不是所有实施例的必须条件。
以上,只公开了个别实施例和方式,还能在本发明要求保护的范围内进行各种改善和变形来实施其他实施例。

Claims (18)

1.一种音频编码器的量化方法,其特征在于,包括如下的步骤:
分析从外部接收的音频数据第一帧的频谱数据,计算出上述音频数据第一帧的最大频谱绝对值的步骤;
基于上述音频数据第一帧的最大频谱绝对值以及之前计算出的音频数据第二帧的最大频谱绝对值,设定要在进行上述音频数据第一帧的量化时使用的公用比例因子的初始值的步骤;以及
基于所设定的上述公用比例因子的初始值,对上述音频数据第一帧的频谱数据进行量化的步骤。
2.根据权利要求1所述的音频编码器的量化方法,其特征在于,计算出上述音频数据第一帧的最大频谱绝对值的步骤包括计算出在上述音频数据第一帧的频谱数据中绝对值最大的部分的绝对值的步骤。
3.根据权利要求1所述的音频编码器的量化方法,其特征在于,设定要在进行上述音频数据第一帧的量化时使用的公用比例因子的初始值的步骤包括:
使用特定的比较算法,将上述音频数据第一帧的最大频谱绝对值与上述音频数据第二帧的最大频谱绝对值进行比较的步骤;以及
使用与上述比较的结果值对应的计算算法,计算出要在进行上述音频数据第一帧的量化时使用的公用比例因子的初始值的步骤。
4.根据权利要求3所述的音频编码器的量化方法,其特征在于,将上述音频数据第一帧的最大频谱绝对值与上述音频数据第二帧的最大频谱绝对值进行比较的步骤包括:
对上述音频数据第一帧的最大频谱绝对值取二进制对数,计算出第一二进制对数值的步骤;
对上述音频数据第二帧的最大频谱绝对值取二进制对数,计算出第二二进制对数值的步骤;以及
计算出上述第一二进制对数值和上述第二二进制对数值之间的差值的步骤。
5.根据权利要求4所述的音频编码器的量化方法,其特征在于,设定要在进行上述音频数据第一帧的量化时使用的公用比例因子的初始值的步骤包括:
决定与上述第一二进制对数值和上述第二二进制对数值之间的差值对应的计算算法的步骤;以及
使用所决定的上述计算算法,计算出上述公用比例因子的初始值的步骤。
6.根据权利要求5所述的音频编码器的量化方法,其特征在于,决定上述计算算法的步骤包括将上述第一二进制对数值和上述第二二进制对数值之间的差值与至少一个常数值进行比较的步骤。
7.根据权利要求4所述的音频编码器的量化方法,其特征在于,计算出上述公用比例因子的初始值的步骤包括使用上述音频数据第二帧的公用比例因子的值、从上述第一二进制对数值减去上述第二二进制对数值的值以及特定常数值中的至少一个值进行运算的步骤。
8.根据权利要求1所述的音频编码器的量化方法,其特征在于,还包括在计算出的上述音频数据第一帧的最大频谱绝对值为0的情况下,将预先设定的常数值设定为上述音频数据第一帧的公用比例因子的初始值的步骤。
9.根据权利要求1所述的音频编码器的量化方法,其特征在于,还包括调整公用比例因子,以防止对上述量化后的数据进行编码的数据的使用比特数超过预先设定的可用比特数的步骤。
10.根据权利要求9所述的音频编码器的量化方法,其特征在于,调整上述公用比例因子的步骤包括:
计算对上述量化后的数据进行编码的数据的使用比特数的步骤;
将计算出的上述使用比特数与上述可用比特数进行比较的步骤;以及
在上述使用比特数超过上述可用比特数的情况下,调整上述公用比例因子的步骤。
11.根据权利要求9所述的音频编码器的量化方法,其特征在于,还包括调整上述公用比例因子,以防止从上述可用比特数减去上述对上述量化后的数据进行编码的数据的使用比特数的值超过特定临界值的步骤。
12.根据权利要求1所述的音频编码器的量化方法,其特征在于,还包括调整与各频带对应的频带比例因子,以防止上述音频数据第一帧的频谱数据的上述各频带的失真超过上述各频带的容许失真的步骤。
13.一种用于设定要在对从外部接收的音频数据第一帧的频谱数据进行量化时使用的公用比例因子的初始值的方法,其特征在于,包括如下步骤:
判断上述音频数据第一帧的块类型是否与作为上述音频数据第一帧的前一帧的音频数据第二帧的块类型不同的步骤;以及
在上述音频数据第一帧的块类型与上述音频数据第二帧的块类型不同的情况下,将特定常数值设定为上述公用比例因子的初始值,在上述音频数据第一帧的块类型与上述音频数据第二帧的块类型相同的情况下,基于上述音频数据第一帧以及音频数据第二帧的最大频谱绝对值,计算出上述公用比例因子的初始值的步骤。
14.一种利用音频编码器对音频数据进行量化的量化装置,其特征在于,包括:
初始值设定模块,分析从外部接收的帧单位的频谱数据,计算出对于各帧的最大频谱绝对值,根据计算出的上述最大频谱绝对值的帧间的变化程度来设定各帧的公用比例因子的初始值;以及
至少一个功能模块,基于由上述初始值设定模块设定的公用比例因子的初始值进行量化,调整公用比例因子,以防止对上述量化后的数据进行编码的数据的使用比特数超过预先设定的可用比特数。
15.根据权利要求14所述的音频编码器的量化装置,其特征在于,上述初始值设定模块计算出当前帧的最大频谱绝对值和前一帧的最大频谱绝对值,使用特定比较算法来对上述当前帧的最大频谱绝对值与前一帧的最大频谱绝对值进行比较。
16.根据权利要求15所述的音频编码器的量化装置,其特征在于,上述初始值设定模块决定如下的计算算法:对上述当前帧的最大频谱绝对值取二进制对数来计算出第一二进制对数值,对上述前一帧的最大频谱绝对值取二进制对数来计算出第二二进制对数值之后,根据上述第一二进制对数值和上述第二二进制对数值之间的差值,来计算出上述当前帧的公用比例因子的初始值。
17.根据权利要求15所述的音频编码器的量化装置,其特征在于,上述至少一个功能模块包括:
量化模块,其基于上述当前帧的公用比例因子的初始值,对上述当前帧的频谱数据进行量化;以及
内部循环模块,其调整公用比例因子,以防止对经上述量化模块量化后的数据进行编码的数据的使用比特数超过预先设定的可用比特数。
18.根据权利要求17所述的音频编码器的量化装置,其特征在于,上述内部循环模块调整上述公用比例因子,以防止上述可用比特数和上述使用比特数之间的差值超过特定临界值。
CN2010800103313A 2009-03-04 2010-02-02 用于音频编码器的量化方法和装置 Expired - Fee Related CN102341846B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020090018623A KR101078378B1 (ko) 2009-03-04 2009-03-04 오디오 부호화기의 양자화 방법 및 장치
KR10-2009-0018623 2009-03-04
PCT/KR2010/000636 WO2010101354A2 (en) 2009-03-04 2010-02-02 Quantization for audio encoding

Publications (2)

Publication Number Publication Date
CN102341846A true CN102341846A (zh) 2012-02-01
CN102341846B CN102341846B (zh) 2013-09-25

Family

ID=42679017

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010800103313A Expired - Fee Related CN102341846B (zh) 2009-03-04 2010-02-02 用于音频编码器的量化方法和装置

Country Status (5)

Country Link
US (1) US8600764B2 (zh)
JP (1) JP5379871B2 (zh)
KR (1) KR101078378B1 (zh)
CN (1) CN102341846B (zh)
WO (1) WO2010101354A2 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103258552A (zh) * 2012-02-20 2013-08-21 扬智科技股份有限公司 调整播放速度的方法
CN105706165A (zh) * 2013-07-22 2016-06-22 弗朗霍夫应用科学研究促进协会 用于多声道音频编码的噪声填充

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019049543A1 (ja) * 2017-09-08 2019-03-14 ソニー株式会社 音声処理装置、音声処理方法及びプログラム

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0737959A1 (en) * 1994-10-28 1996-10-16 Nippon Steel Corporation Coded data decoding device and video/audio multiplexed data decoding device using it
US5758315A (en) * 1994-05-25 1998-05-26 Sony Corporation Encoding/decoding method and apparatus using bit allocation as a function of scale factor
US20040230425A1 (en) * 2003-05-16 2004-11-18 Divio, Inc. Rate control for coding audio frames
CN1662958A (zh) * 2002-06-17 2005-08-31 杜比实验室特许公司 使用频谱孔填充的音频编码系统
CN1905373A (zh) * 2005-07-29 2007-01-31 上海杰得微电子有限公司 一种音频编解码器的实现方法
CN1909066A (zh) * 2005-08-03 2007-02-07 上海杰得微电子有限公司 音频编码码量控制和调整的方法
US20070033024A1 (en) * 2003-09-15 2007-02-08 Budnikov Dmitry N Method and apparatus for encoding audio data
CN101061534A (zh) * 2004-11-18 2007-10-24 佳能株式会社 音频信号编码装置及方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09288498A (ja) * 1996-04-19 1997-11-04 Matsushita Electric Ind Co Ltd 音声符号化装置
JP2001094433A (ja) * 1999-09-17 2001-04-06 Matsushita Electric Ind Co Ltd サブバンド符号化・復号方法
JP2001306095A (ja) * 2000-04-18 2001-11-02 Mitsubishi Electric Corp オーディオ符号化装置及びオーディオ符号化方法
JP4212591B2 (ja) * 2003-06-30 2009-01-21 富士通株式会社 オーディオ符号化装置
US7349842B2 (en) * 2003-09-29 2008-03-25 Sony Corporation Rate-distortion control scheme in audio encoding
KR100682890B1 (ko) * 2004-09-08 2007-02-15 삼성전자주식회사 비트량 고속제어가 가능한 오디오 부호화 방법 및 장치
JP4822816B2 (ja) * 2005-11-14 2011-11-24 キヤノン株式会社 オーディオ信号符号化装置および方法
WO2006054583A1 (ja) * 2004-11-18 2006-05-26 Canon Kabushiki Kaisha オーディオ信号符号化装置および方法
JP2007293118A (ja) * 2006-04-26 2007-11-08 Sony Corp 符号化方法および符号化装置
JP5224666B2 (ja) * 2006-09-08 2013-07-03 株式会社東芝 オーディオ符号化装置
JP4823001B2 (ja) * 2006-09-27 2011-11-24 富士通セミコンダクター株式会社 オーディオ符号化装置
JP5434592B2 (ja) * 2007-06-27 2014-03-05 日本電気株式会社 オーディオ符号化方法、オーディオ復号方法、オーディオ符号化装置、オーディオ復号装置、プログラム、およびオーディオ符号化・復号システム
TWI374671B (en) * 2007-07-31 2012-10-11 Realtek Semiconductor Corp Audio encoding method with function of accelerating a quantization iterative loop process
US8346547B1 (en) * 2009-05-18 2013-01-01 Marvell International Ltd. Encoder quantization architecture for advanced audio coding

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5758315A (en) * 1994-05-25 1998-05-26 Sony Corporation Encoding/decoding method and apparatus using bit allocation as a function of scale factor
EP0737959A1 (en) * 1994-10-28 1996-10-16 Nippon Steel Corporation Coded data decoding device and video/audio multiplexed data decoding device using it
CN1662958A (zh) * 2002-06-17 2005-08-31 杜比实验室特许公司 使用频谱孔填充的音频编码系统
US20040230425A1 (en) * 2003-05-16 2004-11-18 Divio, Inc. Rate control for coding audio frames
US20070033024A1 (en) * 2003-09-15 2007-02-08 Budnikov Dmitry N Method and apparatus for encoding audio data
CN101061534A (zh) * 2004-11-18 2007-10-24 佳能株式会社 音频信号编码装置及方法
CN1905373A (zh) * 2005-07-29 2007-01-31 上海杰得微电子有限公司 一种音频编解码器的实现方法
CN1909066A (zh) * 2005-08-03 2007-02-07 上海杰得微电子有限公司 音频编码码量控制和调整的方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103258552A (zh) * 2012-02-20 2013-08-21 扬智科技股份有限公司 调整播放速度的方法
CN103258552B (zh) * 2012-02-20 2015-12-16 扬智科技股份有限公司 调整播放速度的方法
CN105706165A (zh) * 2013-07-22 2016-06-22 弗朗霍夫应用科学研究促进协会 用于多声道音频编码的噪声填充
US10468042B2 (en) 2013-07-22 2019-11-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Noise filling in multichannel audio coding
CN105706165B (zh) * 2013-07-22 2020-07-14 弗朗霍夫应用科学研究促进协会 使用噪声填充的音频编码器、解码器、编码及解码方法
US10978084B2 (en) 2013-07-22 2021-04-13 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Noise filling in multichannel audio coding
US11594235B2 (en) 2013-07-22 2023-02-28 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Noise filling in multichannel audio coding
US11887611B2 (en) 2013-07-22 2024-01-30 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Noise filling in multichannel audio coding

Also Published As

Publication number Publication date
US8600764B2 (en) 2013-12-03
KR20100099997A (ko) 2010-09-15
US20100228556A1 (en) 2010-09-09
KR101078378B1 (ko) 2011-10-31
WO2010101354A3 (en) 2010-11-04
WO2010101354A2 (en) 2010-09-10
CN102341846B (zh) 2013-09-25
JP5379871B2 (ja) 2013-12-25
JP2012519309A (ja) 2012-08-23

Similar Documents

Publication Publication Date Title
US7627480B2 (en) Support of a multichannel audio extension
EP2186087B1 (en) Improved transform coding of speech and audio signals
CA2284220C (en) Method for signalling a noise substitution during audio signal coding
EP1736966B1 (en) Method for generating audio information
US7613603B2 (en) Audio coding device with fast algorithm for determining quantization step sizes based on psycho-acoustic model
TWI397903B (zh) 編碼音訊之節約音量測量技術
KR100823097B1 (ko) 멀티채널 신호를 처리하는 장치 및 방법
KR100986924B1 (ko) 정보 신호 인코딩
US8200351B2 (en) Low power downmix energy equalization in parametric stereo encoders
EP2490215A2 (en) Method and apparatus to extract important spectral component from audio signal and low bit-rate audio signal coding and/or decoding method and apparatus using the same
JP2007525716A (ja) 量子化器のステップサイズを求める装置および方法
US8825494B2 (en) Computation apparatus and method, quantization apparatus and method, audio encoding apparatus and method, and program
US9202454B2 (en) Method and apparatus for audio encoding for noise reduction
EP1671213B1 (en) Rate-distortion control scheme in audio encoding
CN102341846B (zh) 用于音频编码器的量化方法和装置
EP1175670B1 (en) Using gain-adaptive quantization and non-uniform symbol lengths for audio coding
KR20210076134A (ko) 서브밴드 병합 및 시간 도메인 에일리어싱 감소를 사용하는 적응형 비-균일 시간/주파수 타일링을 갖는 지각 오디오 코딩
Rongshan et al. High quality audio coding using a novel hybrid WLP-subband coding algorithm
JP2002182695A (ja) 高能率符号化方法及び装置
CN114783449A (zh) 神经网络训练方法、装置、电子设备及介质
KR970006825B1 (ko) 오디오신호 부호화장치
MXPA06009933A (en) Device and method for processing a multi-channel signal

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20130925

Termination date: 20190202

CF01 Termination of patent right due to non-payment of annual fee