CN1938758A - 确定估计值的方法和装置 - Google Patents

确定估计值的方法和装置 Download PDF

Info

Publication number
CN1938758A
CN1938758A CNA2005800067994A CN200580006799A CN1938758A CN 1938758 A CN1938758 A CN 1938758A CN A2005800067994 A CNA2005800067994 A CN A2005800067994A CN 200580006799 A CN200580006799 A CN 200580006799A CN 1938758 A CN1938758 A CN 1938758A
Authority
CN
China
Prior art keywords
frequency band
value
signal
measuring
energy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2005800067994A
Other languages
English (en)
Other versions
CN1938758B (zh
Inventor
迈克尔·斯古格
约翰尼斯·希尔皮尔特
斯蒂芬·格耶尔斯博尔格尔
麦克斯·纽恩朵夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of CN1938758A publication Critical patent/CN1938758A/zh
Application granted granted Critical
Publication of CN1938758B publication Critical patent/CN1938758B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Electrical Discharge Machining, Electrochemical Machining, And Combined Machining (AREA)
  • Control Of Ac Motors In General (AREA)
  • Radar Systems Or Details Thereof (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Manufacture Or Reproduction Of Printing Formes (AREA)
  • Diaphragms For Electromechanical Transducers (AREA)
  • Branch Pipes, Bends, And The Like (AREA)
  • Measurement Of Current Or Voltage (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Analysing Materials By The Use Of Radiation (AREA)
  • Apparatus For Radiation Diagnosis (AREA)
  • Measurement Of Resistance Or Impedance (AREA)

Abstract

为了确定对用于对信号进行编码的信息单元的需求的估计值,除了用于频带的可允许的干扰以及频带的能量之外,还考虑频带中能量分布的量度(nl(b))。通过这个方法,获得对信息单元的需求的更好估计值,使得能够更有效地并且更精确地进行编码。

Description

确定估计值的方法和装置
技术领域
本发明涉及对包括音频和/或视频信息的信号进行编码的编码器,更具体而言,本发明涉及对该信号进行编码的信息单元的需求的估计。
背景技术
以下将介绍现有技术的编码器。要被编码的音频信号在输入端1000被输入。该音频信号首先被馈送到定标级1002,其中所谓的AAC放大级被执行以确定音频信号的电平。来自定标的边信息被输入到比特流格式器1004,如其通过块1002和块1004之间的箭头所示。被定标的音频信息然后被输入到MDCT滤波器组1006。使用AAC编码器,滤波器组实现具有50%重叠窗口的改进的离散余弦变换,其中窗长度由块1008确定。
通常来讲,块1008的目的是使用相对短的窗口对瞬变信号加窗,以及使用相对长的窗口对趋于稳定的信号加窗。这是为了,对于瞬变信号由于相对短的窗口而达到更高的时间分辨率(以频率分辨率为代价),而对于趋于稳定的信号由于较长的窗口而达到较高的频率分辨率(以时间分辨率为代价),其中趋向于优选为较长的窗口,因为它们会产生更高的编码增益。在滤波器组1006的输出端是时间上连续的频谱值块,其根据滤波器组的实现形式而可以是MDCT系数、傅立叶系数或子带信号,其中每个子带信号具有由滤波器组1006中相应子带信道所确定的特定受限带宽,并且每个子带信号具有特定数量的子带采样值。
接下来例如介绍这种情况,其中滤波器组输出时间上连续的MDCT频谱系数块,其通常来说表示在输入端1000上要被编码的音频信号的连续短时频谱。MDCT频谱值块然后被馈送到TNS处理块1010(TNS=暂时噪声成形),在该TNC处理块中执行暂时噪声成形。TNS技术被用来形成每个变换窗口中量化噪声的暂时形式。这通过将滤波过程应用到每个信道的频谱数据的部分而实现。编码是基于窗口执行的。特别地,执行以下步骤,以将TNS工具应用到频谱数据的窗口上,即应用到频谱值块上。
首先,选择TNS工具的频率范围。合适的选择在于:以滤波器覆盖直到可能的最高定标因子频带的1.5kHz的频率范围。应当指出,该频率范围依赖于采样速率,如其在AAC标准(ISO/IEC14496-3:2001(E))中所规定的。
随后,执行LPC计算(LPC=线性预测编码),更准确地说,使用位于所选择的目标频率范围中的频谱MDCT系数。对于提高的稳定性,从该过程中排除了对应于低于2.5kHz频率的系数。普通LPC程序-如其在语音处理中已知的那样-可以用于LPC计算,例如已知的Levinson-Durbin算法。为噪声成形滤波器的最大允许阶数执行该计算。
作为LPC计算的结果,获得期望的预测增益PG。此外,还获得反射系数,或部分自相关系数(Parcor-Koeffizient)。
如果预测增益没有超过规定的阈值,就不采用TNS工具。在该情况中,控制信息被写入比特流中,这样解码器知道没有执行过TNS处理。
但是,如果预测增益超过阈值,就采用TNS处理。
下一步,量化反射系数。通过从反射系数阵列的“尾部”除去绝对值小于阈值的所有反射系数,确定所使用的噪声成形滤波器的阶数。剩余反射系数的数量位于噪声成形滤波器的数量级。合适的阈值是0.1。
剩余的反射系数通常被转换为线性预测系数,其中该技术也被称为“建立”程序。
所计算的LPC系数然后被用作编码器噪声成形滤波器系数,即作为预测滤波器系数。该FIR滤波器用于在特定目标频率范围中滤波。解码时使用自回归滤波器,而在编码时使用所谓的移动平均滤波器。最后,TNS工具的边信息被输入到比特流格式器,如其通过图3中TNS处理块1010和比特流格式器1004之中的箭头所示。
然后,通过多个图3未示出的可选工具,诸如长时预测工具、强度/耦合工具、预测工具、噪声替换工具,直到最终到达中/边编码器1012。当要被编码的音频信号是多声道信号-即具有左声道和右声道的立体声信号-时,中/边编码器1012是活动的。至今为止,即在图3的块1012之前的处理方向上,左右立体声声道被互相分开地处理,即定标,被滤波器组变换,经过或不经过TNS处理等等。
在中/边编码器中,首先验证中/边编码是否有意义,即是否能根本上产生编码增益。当左右声道趋于相似时,中/边编码将产生编码增益,因为在这种情况中,中声道-即左右声道之和-几乎等于左声道或右声道,除了被因子1/2定标之外,而边声道只具有非常小的值,因为其等于左右声道的差值。因此,可以看出,当左声道和右声道几乎相同时,差就几乎为0,或者仅仅具有非常小的值,该值可以-希望的也是这样-在随后的量化器1014中被量化成0,并从而可以被非常有效地传送,因为熵编码器1016连接到量化器1014后面。
心理声学模型1020在每个定标因子频带输入可允许的干扰到量化器1014。量化器以迭代的方式工作,即首先调用外环迭代,外环迭代然后调用内环迭代。通常来讲,从量化器步长启动值出发,首先执行对量化器1014的输入端上的值块的量化。特别地,内环量化MDCT系数,其中消耗特定数量的比特。外环使用定标因子计算失真和修改的系数能量,以便再次调用内环。该过程被迭代多次,直到满足特定条件。其中,对于外环迭代中的每一次迭代,重建信号,以便计算由量化引入的干扰,并且将其与心理声学模型1020所提供的可允许的干扰相比较。此外,定标因子从一个迭代到另一个迭代、更正确地说,对于外环迭代的每一次迭代,被放大一级。
当达到这样的情形-即量化所引入的量化干扰低于心理声学模型所确定的可允许干扰-时,并且当同时满足比特要求-即没有超过最大比特率-时,终止迭代、即分析-综合方法,并且所获得的定标因子被编码、如在块1014中所执行的,并以编码后的形式被输入到比特流格式器1004,如在块1014和块1004之间所示的箭头所示。量化后的值然后被输入到熵编码器1016,熵编码器1016通常使用多个霍夫曼(Huffman)编码表格为各个定标因子频带执行熵编码,以便将量化后的值变换成二进制格式。如已知的,在霍夫曼编码形式的熵编码中利用基于期望的信号统计学而建立的编码表格,并且其中经常出现的值与较少出现的值相比较获得更短的码字。然后,熵编码后的值被作为实际的主信息输入到比特流格式器1004,比特流格式器1004然后根据特定比特流语法在输出侧输出编码音频信号。
至今为止,音频信号的数据缩减是已知的技术,其是一系列国际标准(例如ISO/MPEG-1,MPEG-2AAC,MPEG-4)的主题。
上述方法的共同点在于,输入信号通过利用与感知相关的效应(心理声学、心理光学)的所谓的编码器被转换成紧密的、数据缩减的表示。为此,通常在考虑感知模型的情况下执行信号的频谱分析并且量化相应的信号分量,然后以尽可能紧密的方式将其编码成为所谓的比特流。
为了在实际量化之前估计信号的要被编码的特定部分需要多少比特,可以使用所谓的感知熵(PE)。PE还提供关于对于编码器而言对特定信号或其部分进行编码有多困难的量度。
PE与实际需要的比特数量的偏离对于估计质量至关重要。
此外,感知熵或对于信息单元的需要的每个估计值可以被用于编码信号,以估计信号是瞬变的还是稳态的,因为瞬变信号比更为稳定的信号需要更多比特来编码。信号的瞬变特性的估计例如被用来执行窗口长度确定,如图3中块1008所示。
在图6中,感知熵被示为根据ISO/IEC IS13818-7(MPEG-2高级音频编码(AAC))计算。图6中所示的等式被用来计算该感知熵,即频带方式的感知熵。在该等式中,参数pe表示感知熵。此外,width(b)表示相应频带b中的频谱系数的数量。此外,e(b)是该频带中的信号能量。最后,nb(b)是与其匹配的掩蔽阈值,或者更通常来讲,其是例如通过量化可以引入到信号中的可允许的干扰,这样,人类收听者仍然听不到干扰或者只能听到极小的干扰。
这些频带可以产生自心理声学模型(图3中的块1020)的频带分割,或者涉及在量化中所使用的所谓定标因子频带(scfb)。心理声学掩蔽阈值是量化误差不应当超过的能量值。
图6所示的图解从而显示了,这样确定的感知熵如何好地用作对编码所需比特数量的估计。为此,在对于每个单独块有不同比特率的AAC编码器的例子中,根据所消耗的比特画出相应感知熵。所使用的测试段包含音乐、语音和独立乐器的典型混合。
理想地,点将沿着通过零点的直线聚集。点系列的具有与理想线的偏离的扩张说明了不精确的估计。
因此,图6中所示概念的缺点在于偏离,其表示例如产生用于感知熵的太高的值,其反过来意味着,其通知量化器,需要比本来必需的更多比特。这导致了这样的事实,即量化器量化的太精确,其没有充分利用对于可允许干扰的量度,这导致缩减的编码增益。另一方面,如果感知熵的值被确定得太小,则它通知量化器,需要比本来必需的更少的比特来编码信号。这又导致这样的事实,即量化器量化的太粗糙,这将直接导致信号中听得见的干扰,只要不采取反措施。反措施可以是:量化器还需要一个或多个另外的迭代环,这可能增加编码器的计算时间。
为了改善感知熵的计算,常数项、例如1.5可以被引入到对数表达式中,如图7所示。于是,获得更好的结果,即向上或向下更小的偏离,虽然仍然可以看到,当考虑对数表达式中的常数项时减少了这样的情况,即感知熵表示对比特的太乐观的需求。然而,另一方面,可以清楚地从图7中看出,显著表示了比特数量太大,这导致了这样的事实,即量化器将始终太精确地量化,即,采用比本来更大的比特需求,这又导致减小的编码增益。对数表达式中的常数是对于边信息需要的比特的粗糙估计。
因此,将一个项插入对数表达式中实际上提供了频带方式感知熵的改善,如图6所示,因为具有能量和掩蔽阈值之间非常小间距的频带被更容易考虑,因为即使对于传送被量化为0的频谱系数也需要一定数量的比特。
图8中示出了感知熵的计算时间很长的另一计算。在图8中,示出了这样的情况,其中以线方式计算感知熵。然而,缺点就是线方式计算的计算花费较高。这里,不使用能量,而使用频谱系数X(k),其中koffset(b)表示频带b的第一索引。当将图8和图7相比较时,在2000到3000比特之间的范围内可以清楚地看到向上“偏移”的减小。因此,PE估计将更精确,即不是太悲观地估计,而是乐观地估计,使得与图6和7所示的计算方法相比,编码增益会提高,或量化器中的迭代数量减小。
然而,线方式计算感知熵的缺点在于评估图8所示等式所需要的计算时间。
因此,如果编码器运行在功能强大的PC或功能强大的工作站,则这种计算时间缺点就不算什么。但是,如果在便携式设备-诸如UMTS蜂窝电话-中提供编码器,则情况完全不同,这些便携式设备一方面必须小和便宜,另一方面必须具有低电流需求,并且还必须快速工作,以便能够对经由UMTS连接所传送的音频信号或视频信号进行编码。
发明内容
本发明的目的在于提供一种有效的并且精确的概念用于确定对用于编码信号的信息单元的需求的估计。
通过权利要求1的装置、权利要求12的方法或者权利要求13的计算机程序来实现该目的。
本发明基于这样的认识:出于计算时间的原因,必须坚持对信息单元的需求的估计值的频带方式的计算,但是为了获得估计值的精确确定,必须考虑在要以频带方式计算的频带内的能量分布。
由此,量化器后面的熵编码器被暗含地“引入”对信息单元需求的估计值的确定中。熵编码使得对较小频谱值传输需求的比特量少于用于较大频谱值的传输的比特量。熵编码器在被量化为0的频谱值可以被传送时尤其有效。因为这通常经常发生,所以用于传送被量化为0的频谱线的码字是最短的码字,而用于传送越大量化频谱线的码字就越长。此外,对于用于传送被量化为0的频谱值序列的尤为有效的概念,甚至可以使用行程编码,这产生了这样的结果,即在每个被量化为0的频谱值的零运行的情况下,从平均上看,实质不需要一个比特。
已经发现,如果频带中的能量分布偏离完全均匀的分布,则在现有技术中所使用的用于确定信息单元需求的估计值的频带方式的感知熵计算完全忽略了后面所接的熵编码器的操作模式。
因此,根据本发明,为了减小频带方式计算的不精确性,考虑能量在频带内如何分布。
根据实施方式,可以基于实际振幅确定、或通过估计不被量化器量化为0的频谱线而确定频带中能量分布的量度。该量度-其也被称为“n1”,其中n1表示“有效线的数量”-出于计算时间效率的原因而是优选的。然而,也可以考虑被量化为0的频谱线的数量或更精细的划分,其中考虑后面所接的熵编码器的信息越多,该估计就越精确。如果基于霍夫曼码表建立熵编码器,则这些码表的特性可以被非常好地集成,因为码表不是基于信号统计学而在线计算的,但是因为码表是独立于实际信号而固定的。
但是,根据计算时间限制,在一种特别有效的计算的情况下,对于频带中能量分布的量度是通过确定在量化之后仍然存在的线-即有效线的数量-而执行的。
本发明的优点在于,确定对信息内容的需要的估计值,其比现有技术中更精确又更有效率。
此外,本发明可定标于各种应用,因为根据期望的估计值精确性,熵编码器的更多特性可以被用于比特需求的估计,但是以提高的计算时间为代价。
附图说明
以下将参考附图来更详细描述本发明的优选实施例,其中:
图1是根据本发明用于确定估计值的装置的电路框图;
图2是用于计算频带中能量分布的量度的设备的优选实施例;
图2b是用于计算对比特的需求的估计值的设备的优选实施例。
图3是已知音频编码器的电路框图;
图4是用于解释频带中能量分布对确定估计值的影响的原理图;
图5是根据本发明的估计值计算的框图;
图6是根据ISO/IEC IS 13818-7(AAC)的估计值计算的框图;
图7是用于具有常数项的估计值计算的框图;
图8是用于具有常数项的线方式估计值计算的框图。
具体实施方式
接下来,参考图1说明根据本发明的用于确定用于编码信号的信息单元需求的估计值的装置。可以是音频和/或视频信号的信号经由输入端100被输入。优选地,信号已经作为具有频谱值的频谱表示存在。但这并不是绝对必须的,因为通过相应的例如带通滤波也可以执行一些具有时间信号的计算。
信号被输入到用于提供用于信号的频带的可允许干扰的量度的设备102。可允许的干扰例如可以借助于心理声学模型确定,如已经基于图3(块1020)所述。设备102还可用于也提供用于频带中的信号能量的量度。对频带方式计算的前提是,对其说明可允许干扰或信号能量的频带包含信号频谱表示的至少2条或更多频谱线。在典型的标准化音频编码器中,频带优选地是定标因子频带,因为比特需求估计直接被量化器需要,以便确定发生的量化是否满足比特标准。
设备102被构造以将频带中信号的可允许的干扰nb(b)以及信号能量e(b)馈送给用于计算比特需求的估计值的设备104。
根据本发明,用于计算比特需求的估计值的设备104被构造,以便除了可允许的干扰和信号能量之外还考虑频带中能量分布的量度nl(b),其中在频带中的能量分布偏离完全均匀的分布。对能量分布的量度在设备106中被计算,其中设备106需要至少一个频带,即音频或视频信号的被观察频带作为带通信号或者直接作为频谱线的序列,以便能够执行例如频带的频谱分析,从而获得频带中能量分布的量度。
当然,音频或视频信号可以作为时间信号被输入到设备106,其中设备106然后执行频带滤波或频带中的分析。可选地,输入到设备106的音频或视频信号可以已经在频域中存在,例如作为MDCT系数,或者作为在具有比MDCT滤波器组更少数量的通带滤波器的滤波器组中的频带信号。
在一个优选实施例中,用于计算的设备106被构造,以考虑频带中频谱值的当前数值来计算估计值。
此外,用于计算能量分布的量度的设备可以被构造以确定一定数量的频谱值作为能量分布的量度,其中这些频谱值的数值大于或等于预定数值阈值,或者这些频谱值的数值小于或等于该数值阈值,其中该数值阈值优选地是估计的量化器级,其中该估计的量化器级在量化器中使得小于或等于该量化器级的值被量化为0。在该情况中,用于能量的量度是有效线的数量,即在量化之后依然存在的或者不等于0的线的数量。
图2a显示了用于计算用于频带中能量分布的量度的设备106的一个优选实施例。在图2a中,用于频带中能量分布的量度被表示为nl(b)。形状因子ffac(b)已经是用于频带中能量分布的量度。如从块106中可以看出的那样,通过与信号能量e(b)除以频带宽度width(b)的4次方根或定标因子频带b中的线的数量加权,根据形状因子ffac(b)确定用于频谱分布的量度nl。在该情况中,应当指出,形状因子还是表示能量分布量度的量的例子,而相反,nl(b)是表示用于与量化相关的线的数量的估计值的量的例子。
通过频谱线的求绝对值以及随后该频谱线的求根以及随后对频带中的频谱线的“开方”数值加和来计算形状因子ffac(b)。
图2b显示了用于计算估计值pe的设备104的一个优选实施例,其中情况区别也被引入到图2b中,即当能量与可允许干扰之比的底为2的对数大于常数因子c1或等于该常数因子时。在该情况中,取块104中上面的方案,即频谱分布的量度n1乘以对数表达式。
相反,如果确定信号能量与可允许干扰之比的底为2的对数小于值c1,则使用图2b的块104中下面的方案,其附加地还包括附加的常数c2和由常数c2和c1所计算的乘法常数c3。
接下来,借助于图4a和图4b,展示本发明的概念。图4a显示了频带,其中存在4条频谱线,它们大小相同。因此,在该频带中的能量在频带上均匀分布。相反,图4b显示了这样的情形,其中在频带中的能量驻留在一条频谱线中,而其他3条频谱线等于0。图4b中所示的频带例如可以存在于量化之前,或者可以在量化之后获得,如果图4b中被设置为0的频谱线在量化之前小于第一量化器级,并因此被量化器设置为0,即不“继续存在”。
因此,图4b中有效线的数量等于1,其中图4b中的参数nl被计算成2的平方根。相反,图4a中的值nl、即能量频谱分布的量度被计算为4。这表示,如果频谱能量的分布的量度更大,则能量的频谱分布更加均匀。
应当指出,根据现有技术的感知熵的频带方式计算不确定这两种情况之间的差别。特别地,如果在图4a和4b中所示的两个频带中存在相同的能量,就确定没有差别。
但是,图4b中所示的情况显然可以由仅仅一条相关线以更少比特编码,因为被设置为0的3条谱线可以非常有效地被传送。通常,图4b中所示情况的更简单的可量化性基于这样的事实,即在量化和无损编码之后,更小的值、尤其是被量化为0的值需要更少的比特来传送。
因此,根据本发明,考虑能量在频带中如何分布。如上所实现的那样,这是通过将已知等式(图6)中每个频带的线的数量替换成在量化之后不等于0的线的数量的估计来实现的。该估计在图2a中示出。
此外,应当指出,图2a中所示的形状因子在编码器的其他地方也被需要,例如在用于确定量化步长的量化块1014中。当形状因子已经在其他地方被计算时,对于比特估计就不必重新计算它,使得根据本发明的用于更好估计用于所需比特的量度的概念以最小的附加计算开销实现。
如上所实现的那样,X(k)是后来要被量化的谱系数,而变量koffset(b)表示频带b中的第一索引。
如从图4a和4b中看出的那样,图4a中的频谱得到值nl=4,而图4b中的频谱得到值1.41。因此,借助于形状因子,可以提供用于频带内频谱场结构的特性的量度。
因此,改善的频带方式感知熵的计算的新公式是基于能量的频谱分布的量度与对数表达式的乘积,该表达式中信号能量e(b)在分子上,可允许的干扰在分母上,其中根据需要,可以在对数中插入项,如图7所示。该项例如同样可以是1.5,但是也可以等于0,如图2b中所示的情况,其中这例如可以根据经验确定。
此时,应当再一次在图5中表明,其中表示根据本发明所计算的感知熵,更准确地说相对于所需要的比特而画出。显然可以看出相对于图6、7和8中的比较例子更高的精确度。根据本发明的改进的频带方式计算也相对于线方式计算一样好。
根据情况,根据本发明的方法可以以硬件或软件实现。可以在数字存储介质、尤其是具有能够和可编程计算机系统协同工作以执行该方法的可电子读取的控制信号的磁盘或CD上实现。通常,本发明因此还包括具有存储在机器可读载体上的程序代码的计算机程序产品,其中当计算机程序产品在计算机上运行时,该程序代码用来执行根据本发明的方法。换句话说,本发明还可以被实现为具有程序代码的计算机程序,其中当在计算机上运行计算机程序时,该程序代码用来执行该方法。

Claims (13)

1.一种用于确定对用于对包括音频或视频信息的信号进行编码的信息单元的需求的估计值的装置,其中所述信号包括多个频带,所述装置包括:
设备(102),用于提供用于所述信号的频带的可允许干扰的量度和用于所述频带中的信号能量的量度,其中所述频带包括所述信号的谱表示的至少两个频谱值;
设备(106),用于计算用于所述频带中的能量分布的量度,其中所述频带中的能量分布偏离完全均匀分布;以及
设备(104),用于使用所述用于干扰的量度、用于能量的量度以及用于能量分布的量度来计算所述估计值。
2.如权利要求1所述的装置,其中所述用于计算的设备(106)被构造,以考虑所述频带中频谱值的数值用于计算所述用于能量分布的量度。
3.如权利要求1或2所述的装置,其中所述用于计算用于能量分布的量度的设备(106)被构造,以确定一定量的频谱值作为所述用于能量分布的量度,其中所述频谱值的数值大于或等于预定数值阈值,或者所述频谱值的数值小于或等于所述数值阈值。
4.如权利要求3所述的装置,其中所述数值阈值是精确的或估计的量化器级,其中所述量化器级在量化器中使得小于或等于所述量化器级的值被量化为0。
5.如之前任何一个权利要求所述的装置,其中所述用于计算的设备(106)被构造以根据以下等式计算形状因子:
ffac ( b ) = Σ k = kOffset ( b ) kOffset ( b + 1 ) - 1 | X ( k ) | ,
其中X(k)是频谱索引k的频谱值,koffset是频带b中的第一频谱值,ffac(b)是形状因子。
6.如之前任何一个权利要求所述的装置,
其中所述用于计算的设备(106)被构造以考虑所述频带中的能量和所述频带的宽度之间的比的四次方根或所述频带内频谱值的数量。
7.如之前任何一个权利要求所述的装置,
其中所述用于计算的设备(106)被构造以根据以下等式计算所述用于能量分布的量度:
nl ( b ) = ffac ( b ) ( e ( b ) width ( b ) ) 02 S
ffac ( b ) = Σ K = Koffset ( b ) kOffset ( b + 1 ) - 1 | X ( k ) |
其中X(k)是频谱索引k的频谱值,koffset是频带b中的第一频谱值,ffac(b)是形状因子,nl(b)表示所述频带b中的能量分布的量度,e(b)是所述频带b中的信号能量,width(b)是所述频带的宽度。
8.如之前任何一个权利要求所述的装置,
其中所述用于计算估计值的设备(104)被构造以使用所述频带中的能量和所述频带中的干扰的商。
9.如之前任何一个权利要求所述的装置,
其中所述用于计算估计值的设备(104)被构造以通过使用以下表达式来计算所述估计值:
pe = Σ b nl ( b ) . log 2 ( e ( b ) nb ( b ) + s )
其中pe是所述估计值,nl(b)表示在所述频带b中的能量分布的量度,e(b)是所述频带b中的信号能量,nb(b)是所述频带b中可允许的干扰,s是优选地等于1.5的附加项。
10.如之前任何一个权利要求所述的装置,
其中所述用于计算估计值的设备(104)被构造以根据以下等式计算所述估计值:
pe = Σ b nl ( b ) · log 2 ( e ( b ) nb ( b ) + s )
其中
nl ( b ) = ffac ( b ) ( e ( b ) width ( b ) ) 0.25 , 并且
ffac ( b ) = Σ k = kOffset ( b ) kOffset ( b - 1 ) - 1 | X ( k ) |
其中pe是所述估计值,nl(b)表示所述频带b中的能量分布的量度,e(b)是所述频带b中的信号能量,nb(b)是所述频带b中可允许的干扰,s是优选地等于1.5的附加项,X(k)是在频谱索引k处的频谱值,koffset是所述频带b中的第一频谱值,ffac(b)是形状因子,width(b)是所述频带的宽度。
11.如之前任何一个权利要求所述的装置,其中所述信号作为具有频谱值的频谱表示被给出。
12.一种用于确定对用于对包括音频或视频信息的信号进行编码的信息单元的需求的估计值的方法,其中所述信号包括多个频带,所述方法包括以下步骤:
提供(102)用于所述信号的频带的可允许干扰的量度和所述频带中的信号能量的量度,其中所述频带包括所述信号的谱表示的至少两个频谱值;
计算(106)所述频带中的能量分布的量度,其中所述频带中的能量分布偏离完全均匀分布;以及
使用所述用于干扰的量度、用于能量的量度和用于能量分布的量度来计算(104)所述估计值。
13.一种具有程序代码的计算机程序,其中当在计算机上运行所述程序时用于执行如权利要求12所述的用于确定对用于对信号进行编码的信息单元的需求的估计值的方法。
CN2005800067994A 2004-03-01 2005-02-17 确定估计值的方法和装置 Active CN1938758B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102004009949.9 2004-03-01
DE102004009949A DE102004009949B4 (de) 2004-03-01 2004-03-01 Vorrichtung und Verfahren zum Ermitteln eines Schätzwertes
PCT/EP2005/001651 WO2005083680A1 (de) 2004-03-01 2005-02-17 Vorrichtung und verfahren zum ermitteln eines schätzwerts

Publications (2)

Publication Number Publication Date
CN1938758A true CN1938758A (zh) 2007-03-28
CN1938758B CN1938758B (zh) 2010-11-10

Family

ID=34894902

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2005800067994A Active CN1938758B (zh) 2004-03-01 2005-02-17 确定估计值的方法和装置

Country Status (19)

Country Link
US (1) US7318028B2 (zh)
EP (3) EP2034473B1 (zh)
JP (1) JP4673882B2 (zh)
KR (1) KR100852482B1 (zh)
CN (1) CN1938758B (zh)
AT (1) ATE532173T1 (zh)
AU (1) AU2005217507B2 (zh)
BR (1) BRPI0507815B1 (zh)
CA (1) CA2559354C (zh)
DE (1) DE102004009949B4 (zh)
DK (1) DK1697931T3 (zh)
ES (3) ES2376887T3 (zh)
HK (1) HK1093813A1 (zh)
IL (1) IL176978A (zh)
NO (1) NO338917B1 (zh)
PL (2) PL2034473T3 (zh)
PT (2) PT3544003T (zh)
RU (1) RU2337414C2 (zh)
WO (1) WO2005083680A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111405419A (zh) * 2020-03-26 2020-07-10 海信视像科技股份有限公司 音频信号处理方法、装置及可读存储介质
CN116707557A (zh) * 2022-12-20 2023-09-05 荣耀终端有限公司 信道选择方法、接收机及存储介质

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2707873B1 (en) 2011-05-09 2015-04-08 Dolby International AB Method and encoder for processing a digital stereo audio signal
FR2977439A1 (fr) * 2011-06-28 2013-01-04 France Telecom Fenetres de ponderation en codage/decodage par transformee avec recouvrement, optimisees en retard.
US11232804B2 (en) * 2017-07-03 2022-01-25 Dolby International Ab Low complexity dense transient events detection and coding
WO2019091576A1 (en) * 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0446037B1 (en) * 1990-03-09 1997-10-08 AT&T Corp. Hybrid perceptual audio coding
EP0559348A3 (en) * 1992-03-02 1993-11-03 AT&T Corp. Rate control loop processor for perceptual encoder/decoder
US5285498A (en) * 1992-03-02 1994-02-08 At&T Bell Laboratories Method and apparatus for coding audio signals based on perceptual model
CA2090052C (en) * 1992-03-02 1998-11-24 Anibal Joao De Sousa Ferreira Method and apparatus for the perceptual coding of audio signals
DE69334139T2 (de) * 1992-06-24 2008-01-10 British Telecommunications P.L.C. Testen von Nachrichtenübertragungsgerät
JP2927660B2 (ja) * 1993-01-25 1999-07-28 シャープ株式会社 樹脂封止型半導体装置の製造方法
US5632003A (en) * 1993-07-16 1997-05-20 Dolby Laboratories Licensing Corporation Computationally efficient adaptive bit allocation for coding method and apparatus
US5623577A (en) * 1993-07-16 1997-04-22 Dolby Laboratories Licensing Corporation Computationally efficient adaptive bit allocation for encoding method and apparatus with allowance for decoder spectral distortions
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
DE19736669C1 (de) * 1997-08-22 1998-10-22 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Erfassen eines Anschlags in einem zeitdiskreten Audiosignal sowie Vorrichtung und Verfahren zum Codieren eines Audiosignals
DE19747132C2 (de) * 1997-10-24 2002-11-28 Fraunhofer Ges Forschung Verfahren und Vorrichtungen zum Codieren von Audiosignalen sowie Verfahren und Vorrichtungen zum Decodieren eines Bitstroms
AU3372199A (en) * 1998-03-30 1999-10-18 Voxware, Inc. Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment
US6418408B1 (en) * 1999-04-05 2002-07-09 Hughes Electronics Corporation Frequency domain interpolative speech codec system
JP3762579B2 (ja) * 1999-08-05 2006-04-05 株式会社リコー デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
JP2001166797A (ja) * 1999-12-07 2001-06-22 Nippon Hoso Kyokai <Nhk> オーディオ信号の符号化装置
US6937979B2 (en) * 2000-09-15 2005-08-30 Mindspeed Technologies, Inc. Coding based on spectral content of a speech signal
EP1199711A1 (en) * 2000-10-20 2002-04-24 Telefonaktiebolaget Lm Ericsson Encoding of audio signal using bandwidth expansion
SE0004187D0 (sv) * 2000-11-15 2000-11-15 Coding Technologies Sweden Ab Enhancing the performance of coding systems that use high frequency reconstruction methods
US6636830B1 (en) * 2000-11-22 2003-10-21 Vialta Inc. System and method for noise reduction using bi-orthogonal modified discrete cosine transform
US6996523B1 (en) * 2001-02-13 2006-02-07 Hughes Electronics Corporation Prototype waveform magnitude quantization for a frequency domain interpolative speech codec system
US6871176B2 (en) * 2001-07-26 2005-03-22 Freescale Semiconductor, Inc. Phase excited linear prediction encoder
US6912495B2 (en) * 2001-11-20 2005-06-28 Digital Voice Systems, Inc. Speech model and analysis, synthesis, and quantization methods

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111405419A (zh) * 2020-03-26 2020-07-10 海信视像科技股份有限公司 音频信号处理方法、装置及可读存储介质
CN111405419B (zh) * 2020-03-26 2022-02-15 海信视像科技股份有限公司 音频信号处理方法、装置及可读存储介质
CN116707557A (zh) * 2022-12-20 2023-09-05 荣耀终端有限公司 信道选择方法、接收机及存储介质
CN116707557B (zh) * 2022-12-20 2024-05-03 荣耀终端有限公司 信道选择方法、接收机及存储介质

Also Published As

Publication number Publication date
PL3544003T3 (pl) 2021-07-12
EP2034473A3 (de) 2015-09-16
ATE532173T1 (de) 2011-11-15
RU2006134638A (ru) 2008-04-10
IL176978A0 (en) 2006-12-10
DE102004009949B4 (de) 2006-03-09
PL2034473T3 (pl) 2019-11-29
CA2559354A1 (en) 2005-09-09
CN1938758B (zh) 2010-11-10
EP2034473B1 (de) 2019-05-15
EP3544003A1 (de) 2019-09-25
NO20064432L (no) 2006-09-29
AU2005217507A1 (en) 2005-09-09
RU2337414C2 (ru) 2008-10-27
JP2007525715A (ja) 2007-09-06
KR20060121978A (ko) 2006-11-29
CA2559354C (en) 2011-08-02
NO338917B1 (no) 2016-10-31
DE102004009949A1 (de) 2005-09-29
DK1697931T3 (da) 2012-02-27
ES2376887T3 (es) 2012-03-20
HK1093813A1 (en) 2007-03-09
IL176978A (en) 2012-08-30
PT3544003T (pt) 2021-02-04
US7318028B2 (en) 2008-01-08
ES2739544T3 (es) 2020-01-31
US20070129940A1 (en) 2007-06-07
BRPI0507815A (pt) 2007-07-10
AU2005217507B2 (en) 2008-08-14
BRPI0507815B1 (pt) 2018-09-11
WO2005083680A1 (de) 2005-09-09
EP1697931A1 (de) 2006-09-06
EP2034473A2 (de) 2009-03-11
ES2847237T3 (es) 2021-08-02
KR100852482B1 (ko) 2008-08-18
EP1697931B1 (de) 2011-11-02
JP4673882B2 (ja) 2011-04-20
PT2034473T (pt) 2019-08-05
EP3544003B1 (de) 2020-12-23

Similar Documents

Publication Publication Date Title
CN1938758B (zh) 确定估计值的方法和装置
RU2608878C1 (ru) Регулировка уровня во временной области для декодирования или кодирования аудиосигналов
CN100589657C (zh) 编码音频的节约式响度测量方法及装置
CN1922656B (zh) 用于确定量化器步长的设备和方法
KR100991450B1 (ko) 스펙트럼 홀 충전을 사용하는 오디오 코딩 시스템
CN1926608B (zh) 多声道信号处理设备和方法
US20080140405A1 (en) Audio coding system using characteristics of a decoded signal to adapt synthesized spectral components
CN105679325A (zh) 解码设备、解码方法以及音频处理设备
US6466912B1 (en) Perceptual coding of audio signals employing envelope uncertainty
JP4639073B2 (ja) オーディオ信号符号化装置および方法
EP2793228B1 (en) Stereo encoding method, stereo encoding device
US20080004873A1 (en) Perceptual coding of audio signals by spectrum uncertainty
CN110534119B (zh) 一种基于人耳听觉频率尺度信号分解的音频编解码方法
US20110191112A1 (en) Encoder
Nurminen et al. Objective evaluation of methods for quantization of variable-dimension spectral vectors in WI speech coding
Füg Spectral Windowing for Enhanced Temporal Noise Shaping Analysis in Transform Audio Codecs
MXPA06009934A (es) Metodo y aparato para determinar un estimado

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: Munich, Germany

Patentee after: Fraunhofer Application and Research Promotion Association

Address before: Munich, Germany

Patentee before: Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V.