CN101443842B - 信息信号编码 - Google Patents

信息信号编码 Download PDF

Info

Publication number
CN101443842B
CN101443842B CN2007800172561A CN200780017256A CN101443842B CN 101443842 B CN101443842 B CN 101443842B CN 2007800172561 A CN2007800172561 A CN 2007800172561A CN 200780017256 A CN200780017256 A CN 200780017256A CN 101443842 B CN101443842 B CN 101443842B
Authority
CN
China
Prior art keywords
quantization
predictive
signal
coefficient
filter coefficient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2007800172561A
Other languages
English (en)
Other versions
CN101443842A (zh
Inventor
延斯·希斯费尔德
格拉尔德·舒勒
曼弗雷德·卢茨基
乌尔里希·克雷默
斯特凡·瓦希尼克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Publication of CN101443842A publication Critical patent/CN101443842A/zh
Application granted granted Critical
Publication of CN101443842B publication Critical patent/CN101443842B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/124Quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/80Details of filtering operations specially adapted for video compression, e.g. for pixel interpolation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

通过不直接对预滤波信号进行量化,而是对预滤波信号的前向自适应预测所获得的预测误差进行量化,在没有或仅有非常小质量损失的情况下,实现了超过掩蔽阈值所确定的度量的非常粗略的量化。由于前向自适应,量化误差对解码器侧的预测没有负面影响。

Description

信息信号编码
技术领域
本发明涉及信息信号编码,如音频或视频编码。
背景技术
在新的通信网络以及在专业音频制作中使用数字音频编码来进行双向实时通信需要非常经济的算法编码以及非常短的编码延迟。数字音频编码的应用在延迟时间意义上变得非常关键的一种典型情形是同时使用直接的(即未编码的)和已传送的(即已编码和解码的)信号的情况。因此,示例是使用无绳麦克风和同时(在耳中(in-ear))监听的直播制作,或“分散(scattered)”制作(其中艺术家在不同的演播室中同时演奏)。在这些应用中,可容许的总延迟时间段小于10ms。例如,如果使用不对称的参与者线路进行通信,则比特率是另外的限制因素。
诸如MPEG-13(MP3)、MPEG-2AAC和MPEG-2/4之类的标准音频编码器的低延迟的算法延迟的范围从20毫秒到数百毫秒,其中例如参考了以下文献:M.Lutzky,G.Schuller,M.Gayer;U.Kraemer,S.Wabnik:“A guideline to audio codec delay”,presented at the 116th AESConvention,Berlin,May 2004。语音编码器操作于更低的比特率,并具有更小的算法延迟,但仅提供有限的音频质量。
例如,文献B.Edler,C.Faller and G.Schuller,“Perceptual AudioCoding Using a Time-Varying Linear Pre-and Postfilter”,presented at109thAES Convention,Los Angeles,September 2000描述了一种编码方案,该编码方案缩小了上述一方面的标准音频编码器而另一方面的语音编码器之间的差异,根据这一方案,在编码器侧,使用掩蔽阈值的倒数对要编码的信号进行滤波,随后对其进行量化以执行不相关性减少,将量化信号提供给熵编码以执行与不相关性减少分离的冗余减少,在解码器侧,对经量化和预滤波的信号进行重构,并在后滤波器中使用标记阈值作为传输函数地对其进行滤波。这样的编码方案(以下称为ULD编码方案)产生了可以与标准音频编码器(如MP3)相比的感知质量,其比特率约为每信道80kbit/s及更高。例如,WO2005/078703 A1中也描述了一种这样的编码器。
具体地,其中所描述的ULD编码器使用了心理声学控制的线性滤波器来形成量化噪声。由于其结构,该量化噪声总是在给定的阈值之上,即便在给定频域内没有信号时也是如此。只要噪声与心理声学掩蔽阈值相对应,则该噪声就保持为不可听见。为了获得甚至比该阈值所预定的比特率更小的比特率,必须增大量化噪声,这将使噪声变得可听见。具体地,可以在没有信号部分的域中听见噪声。因此,示例是非常低或非常高的音频。通常,在这些域中只有非常低的信号部分,而掩蔽阈值较高。如果在整个频域内均匀地增大掩蔽阈值,则量化噪声处于该增大的阈值处(即使没有信号),使得该量化噪声可以被听觉感知为听起来虚假的信号。基于子带的编码器没有这个问题,这是因为该编码器简单地将具有比该阈值更小信号的子带量化为零。
在所允许的比特率下降至最低比特率(所述最低比特率不会引起虚假量化噪声,并由掩蔽阈值确定)以下时出现的上述问题不是唯一的问题。此外,在上述参考文献中描述的ULD编码器为了获得恒定的数据速率而经受复杂的过程,尤其是由于使用了迭代环,其中,为了每个采样块确定用于调整解量化步长的放大因子的值,必须经过所述迭代环。
发明内容
本发明的目的是提供一种信息编码方案,能够在低比特率和高编码质量的情况下,允许ULD类型编码器的短延时。
该目的是通过根据权利要求1或24所述的设备、根据权利要求44或45所述的方法以及根据权利要求47所述的编码器和根据权利要求48所述的解码器来实现的。
本发明的中心思想是以下发现,即通过不直接对预滤波信号进行量化,而是对由预滤波信号的前向自适应预测而获得的预测误差进行量化,可以实现超过由掩蔽阈值所确定的度量的极粗略的量化,而不会带来质量损失或仅带来非常小的质量损失。由于前向自适应,量化误差对预测系数没有负面影响。
根据另一个实施例,以非线性方式对预滤波信号进行平滑量化或平滑限幅,即通过量化函数来进行量化,所述量化函数将预测误差的未量化值映射到量化阶的量化索引上,所述量化函数的过程在阈值之下比在阈值之上更陡。因此,由于较低的可用比特率,相对于掩蔽阈值而增大的噪声PSD调整为信号PSD,使得在没有信号部分的频谱部分中不出现违反掩蔽阈值的情况,尽管可用比特率降低,但这分别进一步提高了收听质量或维持了收听质量。
根据本发明的另一个实施例,量化是分别通过限幅(即分别通过量化至数目有限且固定的量化等级或量化阶)来进行的平滑量化或平滑限幅。通过前向自适应预测来预测预滤波信号,粗略的量化对预测系数本身没有负面影响。通过量化至固定数目的量化等级,固有地避免了用于获得恒定比特率的迭代。
根据本发明的另一个实施例,以后向自适应的方式,根据先前通过量化所获得的量化等级索引来分别确定固定数目的量化等级之间的量化步长或阶高。因此,一方面,尽管量化等级的数目非常小,但是可以分别获得预测误差或残差信号的更好的或至少尽可能最好的量化,而无须向解码器侧提供进一步的辅助信息。另一方面,可以确保在向解码器侧传输量化后的残差信号的过程中的传输误差对于具有适当的后向自适应步长调整配置的解码器侧而言仅具有短时效应。
附图说明
下面将参考附图讨论本发明的优选实施例。附图示出了:
图1是根据本发明的实施例的编码器的框图;
图2a/b分别示例性地示出了如下图:在根据权利要求1所述的编码器的情况下,与掩蔽阈值和信号功率谱密度相关的噪声频谱的过程(图a),或者在具有对预滤波信号的后向自适应预测和迭代以及掩蔽阈值逐块量化步长调整的情况下,与掩蔽阈值和信号功率谱密度相关的噪声频谱的过程(图b);
图3a/3b和3c分别示例性地示出如下图:在如图1所示的编码器中执行预滤波信号的前向自适应预测以及迭代量化步长调整的情况下,分别对于不同的限幅范围或不同数目的量化等级的、与噪声或误差功率谱密度相关的信号功率谱密度;
图4是根据本发明的实施例的图1的编码器中的系数编码器的结构的框图;
图5是根据本发明的实施例的用于对图1中的编码器所编码的信息信号进行解码的解码器的框图;
图6是根据本发明的实施例的图1的编码器或图5的解码器中的系数编码器的结构的框图;
图7是用于例证收听测试结果的图;以及
图8a至8c是可以分别用于图1、4、5和6中的量化和量化/限幅装置中的示例性量化函数的图。
具体实施方式
在参照附图更详细地讨论本发明的实施例之前,首先,为了更好地理解这些实施例的优点和原理,将讨论ULD类型的编码方案的可能实现作为比较示例,基于该比较示例,可以更清晰地说明最终导致后续实施例的这些实施例的潜在的实质性优点和考虑。
如在本说明书的介绍部分已经描述的,需要更低比特率(例如64kbit/s)的、具有可比感知质量的ULD版本,以及用于获得恒定比特率(尤其是用于获得所需的更低比特率)的较简单的方案。此外,传输误差之后的恢复时间保持为较低或保持在最小值将是有利的。
为了减少经心理声学预处理后的信号的冗余,比较ULD编码器使用了一种逐样本的后向自适应闭环预测。这意味着,对编码器和解码器中的预测系数的计算仅仅基于过去的或已经量化和重构的信号样本。为了分别获得对信号或预滤波信号的适配,针对每个样本再次计算新的预测器系数集合。这产生了以下优点:由于不需要将预测器系数从编码器侧传送到解码器侧,因此可以使用较长的预测器或预测值确定公式,即具体为可以使用较大数目的预测器系数。另一方面,这意味着必须在不损失精确度的情况下将量化后的预测误差传送至解码器,以获得与编码过程中潜在的预测系数完全相同的预测系数。否则,编解码和解码器中的预测的值彼此分别不同,这将导致不稳定的编码过程。更合理地,在比较ULD编码器中,需要在编码器和解码器侧周期性地复位预测器,以便能够选择性地访问编码比特流以及阻止传输误差的传播。然而,周期性复位导致了比特率达到峰值,这对比特率可变的信道不是问题,但对于比特率固定的信道而言,该比特率峰值限制了恒定比特率调整的下限。
从随后利用本发明的实施例对ULD比较编码方案的更详细描述中可以得出,这些实施例与比较编码方案的差别在于:使用具有后向自适应量化步长调整的逐块前向自适应预测,来代替逐样本的后向自适应预测。另一方面,其缺点在于:为了限制用于向编码器侧传送所需预测系数的所需辅助信息量,预测器应该更短,这还可能导致编码器效率降低,但是,另一方面,其优点在于,随后的实施例的过程对更高的量化误差(这是比特率减小的结果)仍能够有效工作,因此解码器侧的预测器可以用于对噪声形状进行量化。
从随后的比较也可以得出,与比较ULD编码器相比,通过在传输之前限制预测余数值的范围来限制比特率。与比较ULD编码方案相比,这导致了修正的噪声形状,也导致了不同且更少的虚假的收听人工效应。此外,在不使用迭代环的情况下产生恒定比特率。此外,由于逐块的前向适配,对于每个样本块,固有地包括了“复位”。此外,在以下描述的实施例中,针对预滤波器系数和前向预测系数使用了一种编码方案,该方案对系数的LSF(线谱频率)表示,使用了具有后向自适应量化步长控制的不同编码。如以下要描述的,该方案提供了对系数的逐块访问,产生了恒定的辅助信息比特率,并在该比特率上对传输误差具有鲁棒性。
下面,将更详细地描述比较ULD编码器和解码器的结构,接着描述本发明的实施例并例证其在从较高恒定比特率传输至较低比特率方面的优点。
在比较ULD编码方案中,在编码器侧,分别通过感知模型或收听模型来对编码器的输入信号进行分析,以获得关于信号中在感知上无关的部分的信息。该信息用于通过时变滤波器系数来控制预滤波器。从而,预滤波器将输入信号相对于其掩蔽阈值进行归一化。每128样本的块计算一次滤波器系数,对其进行量化,并将其传送至编码器侧作为辅助信息。
在通过减去后向自适应预测信号来将预滤波信号与放大因子相乘之后,通过均匀(uniform)量化器(即具有均匀步长的量化器)对预测误差进行量化。如上所述,通过逐样本后向闭环预测来获得该预测信号。相应地,不需要向解码器传送预测系数。随后,对量化的预测残差信号进行熵编码。为了获得恒定比特率,提供了一种环,该环对每个预滤波样本块重复数次相乘、预测、量化和熵编码的步骤。在迭代之后,确定预定放大值集合中仍满足恒定比特率条件的最高放大因子。将该放大值传送至解码器。然而,如果确定了小于1的放大值,则在解码后量化噪声是可感知的,即其频谱被整形为与掩蔽阈值类似,但其总功率高于预测模型所预定的功率。对于输入信号频谱的部分,量化噪声甚至可能高于输入信号频谱本身,由于预测编码器的使用,这还在该频谱部分中产生了可听见的人工效应,否则在该频谱部分中不会出现可听见的信号。在考虑更低的恒定比特率时,量化噪声所导致的效应表示了一种限制因素。
继续描述该比较ULD方案,仅将预滤波系数作为帧内LSF差来传送,而且仅当其超过特定限制时才进行传送。为了避免非受限的时间段的传输误差传播,时常对该系统进行复位。可以使用其他技术来对传输误差情况下解码信号感知的下降进行最小化。该传输方案产生了可变的辅助信息比特率,在上述环中通过调整上述放大因子相应地调节(level)该比特率。
在比较ULD编码器的情况下,量化预测残差信号的熵编码包括诸如Golomb、Huffman或算术编码方法之类的方法。必须时常对该熵编码进行复位,并且该熵编码固有地产生可变比特率,该可变比特率仍由上述环来调节的可变比特率。
在比较ULD编码方案的情况下,根据熵编码获得解码器中的量化预测残差信号,在其上加入预测余数和预测信号,将和与所传送的放大因子的倒数相乘,由此,通过其频率响应为一个预滤波器的倒数的后滤波器来产生重构的输出信号,其中,该后滤波器使用传送的预滤波器系数。
例如,在32kHz至48kHz的采样频率上,刚刚描述的类型的比较ULD编码器获得5.33至8ms的总编码器/解码器延迟。在没有(虚假环)迭代的情况下,该ULD编码器产生80至96kbit/s范围内的比特率。如上所述,在较低恒定比特率上,由于噪声频谱更为均匀,该编码器中的收听质量下降。此外,由于迭代,获得均匀比特率的代价较高。以下描述的实施例克服或最小化了这些缺点。在恒定传输数据速率上,以下描述的实施例的编码方案在不需要任何迭代的情况下使得量化误差的噪声形状改变。更准确地,在上述比较ULD编码方案中,在迭代过程中具有恒定传输数据速率的情况下,确定了乘数,在该乘数的帮助下,在量化之前对来自预滤波器的信号进行相乘,其中量化噪声在频谱上是白的,这导致解码器中的量化噪声被成形为类似于收听阈值,但根据所选择的乘数,该量化噪声略低于或略高于该收听阈值,如上所述,该乘数也可以被理解为是对预定的收听阈值的一种移位。与之相关的是,在解码之后产生量化噪声,其功率在各频域内甚至可以超过各频域内的输入信号的功率。可以清晰地听见所产生的编码人工效应。以下描述的实施例对量化噪声进行整形,以使得其功率谱密度在频谱上不再是白的。更合理地,对预滤波器信号的粗略量化/限制或限幅将产生的量化噪声分别整形为类似于预滤波器信号的功率谱密度。从而,对解码器中的量化噪声进行整形,以使其保持在输入信号的功率谱密度以下。这可以被理解为是所确定的收听阈值的变形(deformation)。与比较ULD编码方案相比,这样产生的编码人工效应不那么虚假。此外,随后的实施例不需要迭代过程,从而降低了复杂度。
由于通过描述上述比较ULD编码方案已经提供了充分的基础,从而将注意力转到以下实施例中潜在的优点和考虑,以用于描述这些实施例,首先,下面将描述根据本发明的实施例的编码器的结构。
总体上由10表示的图1中的编码器包括用于要编码的信息信号的输入12,以及用于已编码信息信号的输出14,其中,以下示例性地假定该信号是音频信号,尤其示例性地假设该信号是已采样的音频信号,但是也可以在输入12之后的编码器中进行采样。在图1中,x(n)表示输入的输出信号的样本。
如图1所示,可以将编码器10划分为掩蔽阈值确定装置16、预滤波装置18、前向预测预测装置20和量化/限幅装置22以及比特流产生装置24。掩蔽阈值确定装置16分别根据感知模型或收听模型来操作,使用感知模型分别确定从输入12处输入的音频信号的掩蔽或收听阈值的表示,该表示指示了与可感知性或可听见性分别无关的音频信号部分,或表示了频率的频谱阈值,在该频率上,频谱能量分别由于心理声学的遮蔽效应而保持不可听见,或不被人所感知。如以下将要描述的,确定装置16以逐块的方式来确定掩蔽阈值,即该装置针对音频信号的后续样本块中的每一块确定掩蔽阈值。也可以进行其他过程。与随后的描述(尤其是关于图4的描述)相反,从确定装置16产生的掩蔽阈值的表示也可以是频谱掩蔽阈值的频谱样本的表示。
预滤波或预估计装置18与掩蔽阈值确定装置16和输入12相耦合,并对输出信号进行滤波,以将其相对于掩蔽阈值进行归一化,以获得预滤波信号f(n)。例如,预滤波装置18基于线性滤波器,并被实现为根据掩蔽阈值确定装置16所提供的掩蔽阈值的表示来调整滤波器系数,以使得该线性滤波器的传输函数实质上与掩蔽阈值的倒数相对应。可以逐块地、每半块地(例如在以下描述的在掩蔽阈值确定中块一半重叠的情况下)、或逐样本地执行滤波器系数的调整,例如通过对由逐块确定的掩蔽阈值表示所获得的滤波器系数进行内插、或者通过对跨过块间隔而获得的滤波器系数进行内插来执行。
前向预测装置20与预滤波装置18相耦合,用于对预滤波信号的样本f(n)(通过使用心理声学掩蔽阈值在时域中对其进行了自适应滤波)进行前向自适应预测,以获得预测信号
Figure G2007800172561D00091
表示与预滤波信号f(n)的预测误差的残差信号r(n)以及预测滤波器系数的表示,基于此可以重构预测信号。具体地,前向自适应预测装置20被实现为直接根据预滤波信号f来确定预测滤波器系数的表示,而不仅仅基于残差信号r的后续量化。如以下将参照图4更详细地讨论的,尽管在LFS域中(尤其采取LFS预测残差的形式)表示预测滤波器系数,但是,其他表示也是可能的,例如线性滤波器系数整形中的中间表示。此外,根据随后的描述,装置20示例性地逐块(即对预滤波信号的样本f(n)中的后续块中的每一块)执行预测滤波器系数的确定,然而,其中其他过程也是可能的。然后,装置20被实现为通过所确定的这些预测滤波器系数来确定预测信号
Figure G2007800172561D00092
并将其从预滤波信号f中减去,其中,例如通过线性滤波器来执行该预测信号的确定,其中根据前向自适应确定的预测系数表示来调整该线性滤波器的滤波器系数。如以下将要更详细地描述的,解码器侧提供的与先前输出的滤波器输出信号值相加的残差信号(即经量化和限幅的残差信号ic(n))可以作为滤波器输出信号。
量化/限幅装置22与预测装置20相耦合,用于通过量化函数对残差信号分别进行量化和限幅,该量化函数将残差信号的值r(n)映射到数目恒定且有限的量化等级,以及用于向前向自适应预测装置20传送以这种方式在量化索引的整形中获得的如上所述的量化残差信号ic(n)。
量化残差信号ic(n)、装置20所确定的预测系数的表示、以及由装置16确定的掩蔽阈值的表示构成了通过编码信号14向解码器侧提供的信息,其中,因此在图1中示例性提供了比特流产生装置24,用于根据串行比特流或分组传输,可能地通过使用其他无损编码方式来组合该信息。
在对图1中的编码器的更详细的结构进行讨论之前,以下基于编码器10的上述结构来描述编码器1的操作模式。预滤波装置18使用与掩蔽阈值的倒数相对应的传输函数来对音频信号进行滤波,从而产生预滤波信号f(n),该信号通过均匀量化获得了误差的功率谱密度,该功率谱密度主要与白噪声相对应,并且可能导致在解码器侧的后滤波器中滤波得到的噪声功率谱与掩蔽阈值类似。然而,首先,前向自适应预测装置20通过从残差信号f中减去前向自适应的预测信号
Figure G2007800172561D00101
来获得预测误差r。不论在编码器还是在解码器侧,量化/限幅装置22对该预测误差r进行的后续的粗略量化对预测装置20的预测系数没有影响,这是由于该预测系数的计算是以前向自适应方式执行的,因此是基于未量化的值f(n)。不仅在使用粗略量化步长的意义上利用粗略的方式来执行量化,而且在仅执行平滑量化至数目恒定且有限的量化等级的意义上以粗略的方式来执行量化,因此,为了表示每个量化残差信号ic(n)或编码音频信号14中的每个量化索引,仅需要固定的比特数,这固有地允许了残差值ic(n)的恒定比特率。如以下将要描述的,主要通过量化至固定数目的均匀间隔的量化等级来执行量化(以下示例性地量化至仅3个量化等级的数目),其中,例如,执行量化以使未量化的残差信号值r(n)被量化至下一个量化等级,以获得该信号值的对应量化等级的量化索引ic(n)。因此,将未量化残差信号r(n)的极高或极低的值分别映射至各自最高或最低的量化等级或各自量化等级索引(即使在具有相同步长的均匀量化中它们也可以被映射到更高的量化等级)。自此,装置22也分别对残差信号r进行“限幅”或限制。然而,如以下将要描述的,后者具有以下效果,即预滤波信号的误差PSD(PSD=功率谱密度)不再是白噪声,而是根据限幅的程度而近似于预滤波信号的信号PSD。在解码器侧,这具有以下效果,即甚至在比掩蔽阈值所预定的比特率更低的比特率上,噪声PSD也保持在信号PSD以下。
下面将更详细地描述图1的编码器的结构。具体地,掩蔽阈值确定装置16分别包括根据感知模型进行操作的掩蔽阈值确定器或感知模型26、预滤波器系数计算模块28和系数编码器30,二者以命名顺序连接在输入12与预滤波器装置18以及比特流产生器24之间。预滤波器装置18包括:系数解码器32,其输入与系数编码器30的输出相连接;以及预滤波器34,例如,预滤波器34是自适应线性滤波器,其数据输入与输入12相连接,其数据输出与装置20相连接,而其用于对滤波器系数进行适配的适配输入与系数解码器32的输出相连接。预测装置20包括预测系数计算模块36、系数编码器38、系数解码器40、减法器42、预测滤波器44、延迟元件46、另一加法器48和解量化器50。预测系数计算模块46和系数编码器38串联在一起,其连接顺序分别是在预滤器34的输出与系数解码器40的输入或比特流产生器24的另一个输入之间,并协作用于以前向自适应方式逐块确定预测系数的表示。系数解码器40连接在系数编码器38与预测滤波器44之间,预测滤波器44是例如线性预测滤波器。除了与系数解码器40连接的预测系数输入之外,滤波器44包括数据输入和数据输出,该数据输入和数据输入将滤波器44连接在闭环中,除了滤波器44之外,该闭环包括加法器48和延迟元件46。具体地,延迟元件46连接在加法器48和滤波器44之间,而滤波器44的数据输出与加法器48的第一输入连接。此外,滤波器44的数据输出也与减法器42的反相输入连接。减法器42的非反相输入与预滤波器34的输出连接,而加法器48的第二输入与解量化器50的输出连接。解量化器50的数据输入与量化/限幅装置22连接,并与解量化器50的步长控制输入连接。量化/限幅装置22包括量化器模块52和步长适配块54,其中,量化模块52还由具有均匀可控步长的均匀量化器56和限幅器58构成,均匀量化器56和限幅器58以命名顺序串联在减法器42的输出与比特流产生器24的另一个输入之间,其中,步长适配块54还包括步长适配模块60和延迟部件62,步长适配模块60和延迟部件62以命名顺序串联在限幅器58的输出与量化器56的步长控制输入之间。此外,限幅器58的输出与解量化器50的数据输入连接,其中,解量化器50的步长控制输入还与步长适配模块60连接。比特流产生器24的输出还形成了编码器10的输出14。
在上述详细描述了图1的编码器详细结构之后,以下描述其操作模式。感知模型模块26以逐块的方式分别根据音频信号来确定或估计掩蔽阈值。因此,例如,感知模型模块26使用长度为256的DFT,即块长为256个样本的x(n),块之间存在50%的重叠,该重叠导致了编码器10的128个样本的音频信号延迟。例如,以Bark带或线性频率缩放的频谱采样的形式来表示感知模型模块26输出的掩蔽阈值的估计。在系数计算模块24中,使用感知模型模块26逐块输出的掩蔽阈值来计算预定滤波器(即滤波器34)的滤波器系数。例如,模块28计算的系数可以是对掩蔽阈值进行建模的LPC系数。系数编码器30还对每块的预滤波器系数进行编码,这将参照图4更详细地讨论。系数解码器34对编码的预滤波器系数进行解码,以重新获得模块28的预滤波器系数,其中,预滤波器34还分别获得这些参数或预滤波器系数,并使用它们,因此预滤波器34分别关于输入信号x(n)的掩蔽阈值来对输入信号x(n)进行归一化,或使用传输函数对输入信号x(n)进行滤波,该传输函数本质上与该掩蔽阈值的倒数相对应。与输入信号相比,产生的预滤波信号f(n)在量上明显更小。
在预测系数计算模块36中,以逐块的方式来处理预滤波信号的样本f(n),其中,感知模型模块26可以示例性地将逐块划分与音频信号12之一相对应,但不是必需的。对于每个预滤波样本块,系数计算模块36计算预测滤波器44所使用的预测系数。因此,例如,系数计算模块36执行每个预滤波信号块的LPC(LPC=线性预测编码)分析,以获得预测系数。然后,如以下将要更详细讨论的,与系数编码器30类似,系数编码器38对预测系数进行编码,并向比特流产生器24(具体是系数解码器40)输出该预测系数的表示,其中,系数解码器40使用所获得的预测系数表示来向线性滤波器44施加系数计算模块36在LPC分析中获得的预测系数,使得由滤波器44、延迟部件46和加法器48的闭环组成的闭环预测器产生预测信号
Figure G2007800172561D00121
减法器42再次从预滤波信号f(n)中减去例如,线性滤波器44是长度为N的 A ( z ) = Σ i = 1 n a i z - i 类型的线性预测滤波器,其中,系数解码器40根据系数计算模块36所计算的预测系数来调整值ai,即用于对先前预测值
Figure G2007800172561D00124
加上解量化后的残差信号值进行加权并求和以分别获得新的或当前的预测值
Figure G2007800172561D00125
的权重。
在量化器56中,对减法器42所获得的预测余数r(n)进行均匀量化,即具有均匀量化步长的量化,其中,步长Δ(n)是时变的,并由步长适配模块以后向自适应方式(即从量化残差信号到先前的残差信号r(m<n))分别计算或确定。更准确地,均匀量化器56对每个残差信号r(n)输出量化残差值q(n),可表示为q(n)=i(n)·Δ(n),可将其称为具有索引的临时量化步长。限幅器58还将临时量化索引i(n)限幅至量C=[-c;c],其中c是常数c∈{1,2,...}。具体地,限幅器58被实现为将在|i(n)|>c之内的所有临时索引值i(n)设置为-c或c(根据哪个更接近)。仅分别通过限幅或限制,限幅器58将索引序列或系列ic(n)分别输出至比特流产生器24、解量化器50和步长适配块54或延迟元件62,因为延迟部件62和本实施例中的所有其他延迟部件将输入值延迟了一个样本。
现在,通过步长适配块54来实现后向自适应步长控制,其中,步长适配块54使用延迟部件62所延迟的过去的索引序列值ic(n)来不断地适配步长Δ(n),以将限幅器58所限制的区域(即由“允许的”量化索引或对应的量化等级分别设定的区域)设置为未量化残差值r(n)的出现统计概率,使得所允许的量化等级在所产生的限幅的量化索引序列流ic(n)中尽可能均匀地出现。具体地,例如,步长适配模块60例如使用两个紧接在前的限幅量化索引ic(n-1)和i2(n-2)以及前一次确定的步长值Δ(n-1)至Δ(n)=βΔ(n-1)+δ(n)来计算当前的步长Δ(n),其中β∈[0.0;1.0[,δ(n)=δ0,(|ic(n-1)+ic(n-2)|≤I);δ(n)=δ1,其中(|ic(n-1)+ic(n-2)|>I),其中,δ0、δ1和I以及β是适当调整的常数。
如以下参照图5更详细地讨论的,解码器使用所获得的量化索引序列ic(n)和步长序列Δ(n),步长序列Δ(n)还利用后向自适应方式来计算,以通过计算ic(n)·Δ(n)来重构解量化的残差值序列qc(n),这也在图1中的编码器10中执行,即由预测装置20中的解量化器50执行。与解码器侧类似,以逐样本的方式,将按照该方式重构的残差值序列qc(n)与预测值
Figure G2007800172561D00131
相加,其中在编码器10中,通过加法器48来执行该相加。尽管被分别重构或解量化,但是在编码器10中,除了计算后续预测值之外,不再使用按照该方式获得的预滤波信号,在解码器侧,后滤波器由此产生解码的音频样本序列y(n),该后滤波器取消了预滤波器34进行的归一化。
由于限幅,在量化索引序列qc(n)中引入的量化噪声不再是白噪声。而是其频谱形成了预滤波信号的一个复制。为了说明这一点,现在简要地参照图3,图3分别在图形a、b和c中示出了不同数目的量化等级或量化阶的预滤波信号的PSD(上图)和量化误差的PSD(各下图),即图形a中针对C=[-15;15],图形b中针对[-7;7]的限幅器范围,以及图形c中针对[-1;1]的限幅范围。为了清楚原因,还应注意,以-10dB的偏移画出了每个图形A-C中误差PSD的PSD过程。可以看到,预滤波信号与功率为σ2=34的有色噪声相对应。在步长Δ=1的量化中,信号位于[-21;21]之内,即预滤波信号的样本分别具有位于该域之内的出现分布或形成在该域之内的直方图。对于图3中的图形a至c,如上所述,量化范围被限制为:a)中的[-15;15]、b)中的[-7;7]和c)中的[-1;1]。将量化误差作为未量化预滤波信号与解码的预滤波信号之差来度量。可以看出,通过增大限幅,或随着对量化等级数目的限制的增加,向预滤波信号添加量化噪声,该量化噪声复制了预滤波信号的PSD,其中,复制的程度分别取决于所应用的限幅的硬度(hardness)或程度。由此可见,在后滤波之后,解码器侧的量化噪声频谱更多地复制音频输入信号的PSD。这意味着,在解码之后,量化噪声保持在信号频谱之下。图2示意了这样的效果,在图形a中,针对后向自适应预测的情况,即根据上述比较ULD方案的预测的情况,在图形b中,针对根据图1的应用了限幅的前向自适应预测的情况,分别示出了归一化频域中的三个过程,即自上而下分别为:信号PSD(即音频信号的PSD)、量化误差PSD或解码后的量化噪声(直线)以及掩蔽阈值(虚线)。可以看出,对于比较ULD编码器(图2a),量化噪声被形成为类似于掩蔽阈值,并对于信号部分超过了信号频谱。现在,图2b中清晰地示意了分别与随后的量化等级数目的限幅或限制相结合的预滤波信号的前向自适应预测的效果,从图2b可以看到,量化噪声总是低于信号频谱,其形状表现出信号频谱和掩蔽阈值的混合。在收听测试中,已经发现,根据图2b的编码人工效应不那么虚假,即所感知的收听质量更好。
图1的编码器的操作模式的上述描述集中于预滤波信号f(n)的后处理,以用于获得要向解码器侧发送的限幅的量化索引ic(n)。由于它们源自索引数目恒定而有限的量,因此,在输出14的编码数据流中,可以使用相同的比特数来表示它们中的每一个。因此,例如,比特流产生器24使用将量化索引映射至可以由预定比特数m来表示的m个比特字的单射(injective)映射。
以下描述讨论将系数计算模块28和36分别计算的预滤波器或预测系数传送至解码器侧,即具体利用针对系数编码器30和38的结构的实施例。
如图所示,根据图4的实施例的系数编码器包括LSF转换模块102、第一减法器104、第二减法器106、具有均匀且可调整的量化步长的均匀量化器108、限幅器110、解量化器112、第三加法器114、两个延迟部件116和118、分别具有固定滤波器系数或恒定滤波器系数的预测滤波器120、以及步长适配模块122。要编码的滤波器系数来自输入124,其中,提供了输入126用于输出编码表示。
LSF转换模块102的输入直接跟着输入124。减法器104使用其非反相输入和输出连接在LSF转换模块102的输出与减法器106的第一输入之间,其中,将常数lc施加至减法器104的输入。减法器106使用其非反相输入和输出连接在第一减法器104与量化器108之间,其中,其反相输入与预测滤波器120的输出相耦合。预测滤波器120与延迟部件118和加法器114一起形成了闭环预测器,其中,它们串联在具有反馈的回路中,以使得延迟部件118连接在加法器114的输出与预测滤波器120的输入之间,预测滤波器120的输出与加法器114的第一输入连接。其余结构大体上与编码器10的装置22之一相对应,即量化器108连接在减法器106的输出与限幅器110的输入之间,限幅器110的输出还与输出126、延迟部件116的输入以及解量化器112的输入连接。延迟部件116的输出与步长适配模块122的输入连接,从而一起形成了步长适配块。步长适配模块122的输出与量化器108的步长控制输入以及解量化器112连接。解量化器112的输出与加法器114的第二输入连接。
在以上描述了系数编码器的结构之后,下面再次参照图1,描述其操作模式。通过使用由根据图4的结构实现的恒定比特率编码方案,分别执行预滤波器和预测或预测器系数的传送,或其者编码。然后,在LSF转换模块102中,首先将滤波器系数(即分别为预滤波器或预测系数)分别转换为LSF值l(n),或转移至LSF域。然后,图4中的其余元件如下对每个谱线频率l(n)进行处理。这意味着,以下描述仅涉及一个谱线频率,其中,对所有谱线频率执行过程的处理。例如,模块102对每个表示掩蔽阈值的预滤波器系数的集合或预测预滤波信号的预测系数块产生LSF值。减法器104从计算的值l(n)中减去恒定参考值lc,其中,lc的充分范围例如从0至π。减法器106从产生的差ld(n)中减去预测值
Figure G2007800172561D00161
该预测值由包括具有固定系数A(z)的预测滤波器120(例如线性滤波器)在内的闭环预测器120、118和114来计算。自适应步长量化器108对剩余值(即残差值)进行量化,其中,限幅器110将量化器108输出的量化索引限幅至由其接收的量化索引的子集,例如,对于由限幅器110输出的所有限幅的量化索引le(n),适用以下关系: &ForAll; : l e ( n ) &Element; { - 1,0,1 } . 对于LSF残差量化器108的Δ(n)的量化步长适配,步长适配模块122和延迟部件116例如利用关于参照图1的步长适配块54所描述的方式来协作,然而可能利用不同的适配函数或利用不同的常数β、I、δ0、δ1和I。尽管量化器108使用当前步长来将当前残差值量化为le(n),解量化器112使用步长Δ1(n)再次对该索引值le(n)进行解量化,并向加法器114提供产生的针对LSF残差值的重构值(减法器106已输出的),加法器114将该值与对应的预测值
Figure G2007800172561D00164
相加,并将经由延迟部件118延迟一个样本的预测值提供给滤波器120,用以计算下一个LSF值ld(n)的预测LSF值
Figure G2007800172561D00165
如果利用图4所述的方式来实现两个系数编码器30和38,则图1中的编码器10满足恒定比特率条件,而无需使用任何环。由于LPC系数的逐块前向适配和所应用的编码方案,不需要显式地复位预测器。
在以下讨论根据图1和4的编码器所获得的收听测试结果之前,下面参照图5和6,讨论根据本发明的实施例的解码器的结构,该结构适于对来自该编码器的编码数据流进行解码。图6也示出了图1中的系数解码器的结构。
在图5中,总体上由200表示的解码器包括:输入202,用于接收编码数据流;输出204,用于输出解码音频流y(n);解量化装置206,具有数目有限且恒定的量化等级;预测装置208;重构装置210;以及后滤波器装置212。此外,提供了提取器214,提取器214与输入202相耦合,并被实现为从输入的编码比特流中提取量化并限幅的预滤波残差信号ic(n)、关于预滤波器系数的编码信息以及关于预测系数的编码信息,因为系数编码器30和38(图1)已经产生了这些编码信息,并通过各自输出将这些编码信息输出。解量化装置206与提取器214相耦合,以从提取器214获得量化索引ic(n),并对这些索引执行解量化,将这些索引解量化为有限且恒定数目的量化等级,即——放入与上述相同的表示——{-c·Δ(n);c·Δ(n)},以分别获得解量化或重构的预滤波信号qc(n)。预测装置208与提取器214相耦合,以获得预滤波信号的预测信号,即根据关于预测系数的信息来获得
Figure G2007800172561D00171
预测装置208与提取器214相耦合,以从关于预测系数的信息中获得预滤波信号的预测信号,即
Figure G2007800172561D00172
其中,根据图5的实施例的预测装置208也与重构装置210的输出连接。提供重构装置210用于基于预测信号和解量化残差信号qc(n)来重构预滤波信号。然后,随后的后滤波器装置212使用该重构,基于从提取器214接收的预滤波器系数信息来对预滤波信号进行滤波,从而消除关于掩蔽阈值的归一化,以获得解码的音频信号y(n)。
在以上描述了图5的解码器的基本结构之后,将更详细地讨论解码器200的结构。具体地,解量化器206包括延迟部件216和步长自适配模块218组成的步长适配块以及均匀解量化器220。解量化器220的数据输入与提取器214的输出连接,以获得量化索引ic(n)。此外,步长适配模块218经由延迟部件216与提取器214的这个输出连接,步长适配模块218的输出还与解量化器220的步长控制输入连接。解量化器220的输出与形成重构装置210的加法器222的第一输入连接。预测装置208包括系数解码器224、预测滤波器226以及延迟部件228。系数解码器224、加法器222、预测滤波器226和延迟部件228在其操作模式及其连接方面与编码器10的元件40、44、46和48相对应。具体地,预测滤波器226的输出与加法器222的另一个输入连接,加法器222的输出还经由延迟部件228反馈至预测滤波器226的数据输入,并与后滤波器装置212相耦合。系数解码器224连接在提取器224的另一输出与预测滤波器226的适配输入之间。该后滤波器装置包括系数解码器230和后滤波器232,其中,后滤波器232的数据输入与加法器22的输出连接,后滤波器232的数据输出与输出204连接,而后滤波器232的适配输入与用于对滤波器232进行适配的系数解码器230的输出连接,系数解码器230的输入还与提取器214的另一输出连接。
如上所述,提取器214从输入202处的编码数据流中提取表示量化的预滤波残差信号的量化索引ic(n)。在均匀解量化器220中,将这些量化索引解量化为量化残差值qc(n)。固有地,由于在编码器侧已经对量化索引ic(n)进行了限幅,因此该解量化仍保持在所允许的量化等级内。利用与图1的编码器的步长适配块54中相同的方式,利用后向适配方式执行步长适配。在没有传输误差的情况下,解量化器220产生与图1的编码器的解量化器50相同的值。因此,元件222、226、228和224基于编码的预测系数来获得与图1的编码器10中在加法器48的输出处所获得的相同的结果,即分别获得解量化或重构的预滤波信号。在后滤波器232中,使用与掩蔽阈值相对应的传输函数,对重构的预滤波信号进行滤波,其中,系数解码器230对后滤波器232进行自适应调整,系数解码器230基于预滤波器系数信息,分别适当地调整后滤波器232或其滤波器系数。
假定向编码器10提供了如图4所示地实现的系数编码器30和38,则如图6所示地构造编码器200的系数解码器224和230以及编码器10的系数解码器40。可以看出,系数解码器包括两个延迟部件302和304、与延迟部件302一起形成步长适配块的步长适配模块306、具有均匀步长的均匀解量化器308、预测滤波器310、两个加法器312和314、LSF重转换模块316以及用于接收具有恒定偏移-lc的量化LSF残差值le(n)的输入318和用于分别输出重构的预测或预滤波器系数的输出320。由此,延迟部件302连接在步长适配模块306与输入318之间,解量化器308的输入也与输入318连接,解量化器308的步长适配输入与步长适配模块306的输出连接。元件302、306和308的操作模式和连接与图4中的元件112、116和122相对应。由延迟部件304、预测滤波器310和加法器312组成的闭环预测器与解量化器308的输出连接,其中,通过将延迟部件304连接在加法器312的输出与预测滤波器310的输入之间、将加法器312的第一输入与解量化器308的输出连接以及将加法器312的第二输入与预测滤波器310的输出连接,将延迟部件304、预测滤波器310和加法器312连接在公共回路中。元件304、310和312在其操作模式和连接方面与图4中的元件120、118和114相对应。此外,加法器312的输出与加法器314的第一输入连接,在加法器314的第二输入施加常数值lc,其中,根据本实施例,常数lc是一个协议量,该量被呈现给编码器和解码器,因此不必作为辅助信息的一部分来传送,尽管后者也是可能的。LSF重转换模块316连接在加法器314的输出与输出320之间。
解量化器308对在输入318处输入的LSF残差信号索引le(n)进行解量化,其中,解量化器308使用后向自适应步长值Δ(n),后向自适应步长值Δ(n)是由步长适配模块306利用后向适配的方式从已经解量化的量化索引(即已由延迟部件302延迟一个样本的量化索引)中确定的。加法器312将预测信号添加到解量化的LSF残差值中,这从加法器312先前已经计算的和来计算延迟部件304和预测滤波器210的组合,从而表示了重构的LSF值(仅由常数偏移lc提供了恒定偏移)。加法器314通过向加法器312输出的LSF值添加lc来校正该偏移。因此,在加法器314的输出处,产生了重构的LSF值,模块316将其从LSF域分别转换回重构的预测或预滤波器系数。因此,LSF重转换模块316考虑了所有的谱线频率,而图6中的其他元件的讨论局限于对一个谱线频率的描述。然而,元件302-314也在其他谱线频率处执行上述措施。
在提供了上述编码器和解码器的实施例之后,下面将基于图7来呈现收听测试结果,该结果是通过根据图1、4、5和6的编码方案而获得的。在所执行的测试中,在根据省略了仲裁员的MUSHRA标准的收听测试中,已经测试了根据图1、4和6的编码器和根据在附图描述的开始处所讨论的比较ULD编码方案的编码器。在安静的办公室环境中,在具有外部数模转换器和STAX放大器/耳机的膝上型电脑上执行MUSHRA测试。一组8个测试收听者由专家和非专家收听者组成。在参与者开始收听测试之前,他们有机会收听测试集合。使用MPEG测试集合中的12个单声道音频文件来执行测试,其中,所有文件具有32kHz的采样频率,即es01(Suzanne Vega)、es02(男性语音,德语)、es03(女性语音,英语)、sc01(小号)、sc02(管弦乐)、sc03(流行音乐)、si01(羽管键琴)、si02(响板)、si03(律管)、sm01(风笛)、sm02(钟琴)、sm03(弹拨乐器)。
对于比较ULD编码方案,在实现中使用了长度为64的后向自适应预测,以及具有64kbit/s的恒定比特率的、用于熵编码的后向自适应Golomb编码器。相反,为了实现根据图1、4和6的编码器,使用了长度为12的前向自适应预测器,其中,将不同量化等级的数目限制为3,即使得 &ForAll; n : i c ( n ) &Element; { - 1,0,1 } 这与编码的辅助信息一起产生了64kbit/s的恒定比特率,这意味着相同的比特率。
图7示出了MUSHRA收听测试的结果,其中,分别针对12个测试片断,并针对所有片断上的总体结果示出了平均值和95%的置信区间。只要置信区间重叠,则在编码方法之间没有统计上的显著差异。
片断es01(Suzanne Vega)是根据图1、4、5和6的编码方案在较低比特率下的优越性的很好的示例。与比较ULD编码方案相比,解码信号频谱的较高部分示出了较少的可听见人工效应。这导致了根据图1、4、5和6的方案具有明显更高的评级。
对于比较ULD编码方案,片断sm02(钟琴)的信号瞬变具有较高的比特率要求。利用所使用的64kbit/s,比较ULD编码方案在全部样本块上产生了虚假的编码人工效应。相反,根据图1、4和6操作的编码器分别提供了明显改善的收听质量或感知质量。将图7中的图形右侧,根据图1、4和6形成的编码方案的总体评级获得了比对比ULD编码方案明显更好的评级。总体而言,在给定的测试条件下,该编码方案得到了“良好音频质量”的总体评级。
总而言之,根据上述实施例中,产生了具有低延迟结果的音频编码方案,该方案使用逐块前向自适应预测以及限幅/限制来代替后向自适应逐样本预测。噪声整形不同于比较ULD编码方案。收听测试表明,在较低比特率的情况下,上述实施例优于根据比较ULD编码方案的后向自适应方法。随后,上述实施例是用于缩小高质量语音编码器与具有低延迟的音频编码器之间的比特率差异的候选方案。总体上,对于减小的比特率,上述实施例提供了一种具有6-8ms的非常低的延迟的音频编码方案的可能性,与比较ULD编码器相比,该音频编码方案具有以下优点。该方案相对于高量化误差更为鲁棒,具有附加的噪声整形能力,具有更好的获得恒定比特率的能力,并表现出更好的误差恢复行为。实施例通过一种修正的方式,增大掩蔽阈值之上的量化噪声,即通过向掩蔽阈值加入信号频谱来取代均匀地增大掩蔽阈值至某个程度,解决了在比较ULD编码方案的情况下在没有信号的位置处出现可听见的量化噪声的问题。按照这种方式,在没有信号的位置处不存在可听见的量化噪声。
换言之,上述实施例与比较ULD编码方案的不同之处在于下列方式。在比较ULD编码方案中,使用了后向自适应预测,这意味着:基于逐样本,根据先前解码的信号值来更新预测滤波器A(z)的系数。使用具有可变步长的量化器,其中,通过使用来自熵编码器的信息,使得步长适配全部128个样本,该信息作为辅助信息被发送至解码器侧。通过这一过程,增大了量化步长,这向预滤波信号添加了更多白噪声,从而均匀地增大了掩蔽阈值。在比较ULD编码方案中,如果使用前向自适应逐块预测来代替后向自适应预测,这意味着,针对未量化预滤波样本中的128个样本,计算一次预测滤波器A(z)的系数,并将其作为辅助信息来发送,此外如果通过来自熵编码器、并作为辅助信息发送至解码器侧的信息来使步长适配128个样本,则如比较ULD编码方案的情况一样,量化步长仍增大,但是任何量化均不影响预测器的更新。上述实施例仅使用前向自适应逐块预测,其中,量化器另外仅具有给定数目2N+1的量化阶,该量化阶具有固定的步长。对于具有在量化器范围[-NA;NΔ]之外的幅度的预滤波信号x(n),将量化信号限制在[-NΔ;NΔ]。这样产生其PSD不再是白的、但复制了输入信号(预滤波音频信号)的PSD的量化噪声。
作为总结,在上述实施例中应注意以下内容。首先,应注意,对于发送关于掩蔽阈值的表示的信息,存在不同的可能性,该信息是由编码器内的感知模型模块26产生的,分别发送至预滤波器34或预测滤波器44,并发送至解码器,具体发送至后滤波器232和预测滤波器226。具体地,应注意,不要求编码器内的系数解码器32和40精确地接收与在编码器的输出14处输出的、以及在解码器的输出202接收的掩蔽阈值相关的信息。更合理地,例如,在根据图4的系数编码器30的结构中,所获得索引le(n)以及预滤波残差信号量化索引ic(n)也可以仅源自三个值的量,即-1、0、1,比特流产生器24可以将这些索引清晰地映射至对应的n比特字。分别根据如图1、4或5、6的实施例,将每个源自量-1、0、1的预滤波器量化索引、预测系数量化索引和/或预滤波器量化索引,5个一组地映射至8比特字,这与将35种可能性映射至28比特字相对应。由于该映射不是满射的,因此若干8比特字保持为未使用,可以利用其他方式来使用它们,例如用于同步等等。
在这种情况下,应注意以下内容。在上文中,参考图6描述的系数解码器32和230的结构是相同的。在这种情况下,预滤波器34和后滤波器232被实现为使得当应用相同的滤波器系数时,它们具有互为倒数的传输函数。然而,以下过程当然也是可能的,例如,系数编码器32执行附加的滤波器系数转换,以使得该预滤波器具有大体与掩蔽阈值的倒数相对应的传输函数,而该后滤波器具有大体与掩蔽阈值相对应的传输函数。
在上述实施例中,假定在模块26中计算掩蔽阈值。然而,应注意,所计算的阈值不必与心理声学阈值精确对应,而是可以表示其或多或少精确的估计,可以不考虑全部心理声学效应而仅考虑其中的一些。具体地,该阈值可以表示有意地经过与对心理声学的掩蔽阈值的估计相反的修正的心理声学引起的阈值。
此外,应注意,在对预滤波残差信号值进行量化中,不需要步长的后向自适应适配。更合理地,在特定应用情况下,固定步长是足够的。
此外,应注意,本发明不局限于音频编码领域。更合理地,要编码的信号也可以是用于刺激计算机空间手套中的指尖的信号,其中,在这种情况下,感知模型26考虑人类的触觉不再能感知到的特定的触觉特性。例如,要编码的信息信号的另一个示例是视频信号。具体地,要编码的信息信号可以分别是像素或图像点的亮度信息,其中,感知模型26也可以考虑不同的时间、位置和频率心理视觉遮蔽效应,例如视觉掩蔽阈值。
此外,应注意,量化器56和限幅器58或量化器108和限幅器110分别不必是分离的组件。更合理地,也可以由单个映射来执行未量化值至量化值/限幅值的映射。另一方面,可以使用除法器接着是步长均匀且恒定的量化器的串联来分别实现量化器56和量化器108,其中,该除法器可以使用从各自的步长适配模块中获得的步长值Δ(n)作为除数,而要编码的残差信号形成被除数。可以提供步长恒定且均匀的量化器作为简单的舍入模块,该模块将除法结果舍入至下一个整数,基于此,随后的限幅器可以如上所述地将该整数限制为具有所允许的量C的整数。在各解量化器中,简单地使用Δ(n)作为乘数来执行均匀解量化。
此外,应注意,上述实施例局限于具有恒定比特率的应用。然而,本发明不局限于此,因此,在这些实施例中使用的例如通过限幅预滤波信号来进行量化仅是一种可能的备选。可以使用具有非线性特性曲线的量化函数来代替限幅。为了说明这一点,参照图8a至图8c。图8a示出了上述使用的在三个量化阶上产生限幅的量化函数,即具有3个阶402a、b、c的阶梯函数,该函数将未量化值(x轴)映射至量化索引(y轴),其中也标记了量化阶高或量化步长Δ(n)。可以看出,高于Δ(n)/2的未量化值被分别限幅至各自的下一阶402a或c。图8b总体上示出了产生限幅至2n+1个量化阶的量化函数。再次示出了量化步长Δ(n)。图8a和8b的量化函数表示了这样的量化函数,即其中以均匀的方式(即使用相同的阶高)进行阈值-Δ(n)与Δ(n)或-NΔ(n)与NΔ(n)之间的量化,基于这种方式,量化阶函数以平坦的方式行进,这与限幅相对应。图8c示出了非线性量化函数,其中,该量化函数在-NΔ(n)与NΔ(n)之间的区域的行进不是完全平坦的,而是与第一区域相比具有较低的倾斜,即分别具有较大的步长或阶高。如在上述实施例中的情况一样,这种非线性量化不固有地产生恒定比特率,但是也产生上述量化噪声的变形,使得量化噪声调整为信号PSD。仅作为一种预防性措施,应注意,参照图8a-c,可以使用非均匀量化取代均匀量化区域,在非均匀量化中,例如,阶高连续增大,其中,在保持其相互关系的同时,可以通过阶高调整值Δ(n)来缩放阶高。因此,例如,可以在各量化器中通过非线性函数将未量化值映射至中间值,其中,在映射之前或之后执行与Δ(n)的相乘,最终,对所产生的值进行均匀量化。在各解量化器中,执行相反的过程,即通过Δ(n)的均匀解量化,接着是反非线性映射,或相反地,首先进行非线性转换映射,接着使用Δ(n)进行解量化。最终,应注意,当阶高可以被调整至足够高,或量化足够粗略,使得对于要量化的信号(如预滤波信号)的信号统计量,该量化有效地如非线性量化一样工作时,通过获得上述误差PSD的变形效果,实现连续均匀(即线性)的量化也是可能的,其中,预测的前向自适应再次使该阶高调整成为可能。
此外,在编码比特流的处理方面,上述实施例也可以变化。
具体地,也可以分别省略比特流产生器和提取器214。
不同的量化索引,即预滤波信号的残差值、预滤波器系数的残差值和预测系数的残差值也可以分别通过单独的信道,并行地互相传送、存储或以其他方式为解码所用。另一方面,在恒定比特率不是必需的情况下,也可以对这些数据进行熵编码。
具体地,可以单独实现或以子程序过程的结合来实现图1、4、5和6的块中的上述功能。可选地,以集成电路的形式来实现本发明的设备,例如其中将这些块实现为ASIC的单独电路部分。
特别地,应注意,根据情况,可以以软件来实现本发明的方案。实现方式可以是在数字存储介质上,尤其是具有电子可读的控制信号的光盘或CD上,所述控制信号可以与可编程计算机系统协作来执行各方法。一般地,因此,本发明也在于具有程序代码的计算机程序产品,所述程序代码存储在机器可读载体上,当计算机程序产品在计算机上运行时,所述程序代码执行本发明的方法。换言之,因此,本发明可以被认为是具有程序代码的计算机程序,当计算机程序在计算机上运行时,所述程序代码执行本方法。

Claims (47)

1.一种用于将信息信号编码为编码信息信号的设备,包括:
用于通过使用感知模型来确定心理感知引起的阈值的表示的装置(16),所述表示指示了信息信号中与感知不相关的部分;
用于对所述信息信号进行滤波以关于所述心理感知引起的阈值来对所述信息信号进行归一化来获得预滤波信号的装置(18);
用于以前向自适应方式来预测所述预滤波信号以获得预测信号、预滤波信号的预测误差以及预测系数的表示的装置(20),所述预滤波信号是能够基于预测信号、预滤波信号的预测误差以及预测系数的表示来重构的;以及
用于对所述预测误差进行量化以获得量化预测误差的装置(22),其中,所述编码信息信号包括关于心理感知引起的阈值的表示、预测系数的表示以及量化预测误差的信息。
2.如权利要求1所述的设备,其中,所述用于对所述预测误差进行量化以获得量化预测误差的装置(22)被实现为通过量化函数来对预测误差进行量化,所述量化函数将预测误差的未量化值映射至量化阶的量化索引,以及所述量化函数的过程在阈值之下比在阈值之上更陡。
3.如权利要求1所述的设备,其中,所述用于对所述预测误差进行量化以获得量化预测误差的装置(22)被实现为以后向自适应方式从所述量化预测误差中获得所述量化函数的量化阶高Δ(n)。
4.如权利要求1所述的设备,其中,所述用于对所述预测误差进行量化以获得量化预测误差的装置(22)被实现为使得通过量化函数的限幅来对预测误差的未量化值进行量化,所述量化函数将预测误差的未量化值映射至恒定且有限的第一数目的量化阶的量化索引,以获得所述量化预测误差。
5.如权利要求4所述的设备,其中,用于对所述预测误差进行量化以获得量化预测误差的装置(22)被实现为:以后向自适应方式,根据量化预测误差的两个过去的量化索引ic(n-1)和ic(n-2),根据Δ(n)=βΔ(n-1)+δ(n),获得用于对预测误差的值(r(n))进行量化的量化函数的量化阶高Δ(n),其中β∈[0.0;1.0],对于|ic(n-1)+ic(n-2)|≤I,δ(n)=δ0,对于|ic(n-1)+ic(n-2)|>I,δ(n)=δ1,其中,δ0、δ1、I是恒定参数,并且Δ(n-1)表示所获得的用于对量化误差的先前值进行量化的量化阶高。
6.如权利要求4所述的设备,其中,所述用于对所述预测误差进行量化以获得量化预测误差的装置(22)被实现为以非线性方式来对量化误差进行量化。
7.如权利要求4所述的设备,其中,所述恒定且有限的第一数目是3。
8.如权利要求1所述的设备,其中,所述用于通过使用感知模型来确定心理感知引起的阈值的表示的装置(16)被实现为以逐块的方式根据所述信息信号来确定所述心理感知引起的阈值。
9.如权利要求1所述的设备,其中,所述用于通过使用感知模型来确定心理感知引起的阈值的表示的装置(16)被实现为在LSF域中表示所述心理感知引起的阈值。
10.如权利要求1所述的设备,其中,所述用于通过使用感知模型来确定心理感知引起的阈值的表示的装置(16)被实现为以逐块的方式确定所述心理感知引起的阈值,并将其以滤波系数表示,对滤波器系数进行预测,并通过另一量化函数对预测产生的滤波器系数残差信号进行量化,所述另一量化函数将滤波器系数残差信号的未量化值映射至量化阶的量化索引,以获得量化的滤波器系数残差信号,所述另一量化函数的过程在另一阈值之下比在所述另一阈值之上更陡,其中,所述编码信息信号也包括与量化的滤波器系数残差信号有关的信息。
11.如权利要求10所述的设备,其中,所述用于通过使用感知模型来确定心理感知引起的阈值的表示的装置(16)被实现为通过所述另一量化函数的限幅来对滤波器系数残差信号的未量化值进行量化,所述另一量化函数将滤波器系数残差信号的未量化值映射至恒定且有限的第二数目的量化阶的量化索引。
12.如权利要求11所述的设备,其中,所述用于通过使用感知模型来确定心理感知引起的阈值的表示的装置(16)被实现为使得以后向自适应方式,基于量化的滤波器系数残差信号的量化索引来执行预测。
13.如权利要求10所述的设备,其中,所述用于通过使用感知模型来确定心理感知引起的阈值的表示的装置(16)被实现为通过使用具有恒定系数的预测滤波器来执行对所述滤波器系数的预测。
14.如权利要求9所述的设备,其中,所述用于通过使用感知模型来确定心理感知引起的阈值的表示的装置(16)还被实现为:在对表示所述心理感知引起的阈值的滤波器系数进行预测之前,将其与常数值相减。
15.如权利要求1所述的设备,其中,所述用于以前向自适应方式来预测所述预滤波信号以获得预测信号、预滤波信号的预测误差以及预测系数的表示的装置(20)还包括:
用于确定预测滤波器系数的装置(36),用于根据所述预滤波信号确定预测滤波器系数;以及
用于预测预滤波信号的装置(44、446、48),用于通过受控于所述预测滤波器系数的滤波器(44)来预测所述预滤波信号。
16.如权利要求15所述的设备,其中,所述用于确定预测滤波器系数的装置(36)被实现为以逐块的方式,根据所述预滤波信号来确定所述预测滤波器系数。
17.如权利要求15所述的设备,其中,所述用于确定预测滤波器系数的装置(36)被实现为在LSF域中表示所述预测滤波器系数。
18.如权利要求15所述的设备,其中,所述用于确定预测滤波器系数的装置(36)被实现为以逐块的方式确定所述预测滤波器系数,对所述预测滤波器系数进行预测,并通过第三量化函数对预测产生的预测滤波器系数残差信号进行量化,所述第三量化函数将预测滤波器系数残差信号的未量化值映射至量化阶的量化索引,以获得量化的预测滤波器系数残差信号,所述第三量化函数的过程在第三阈值之下比在所述第三阈值之上更陡,其中,所述编码信息信号也包括与量化的预测滤波器系数残差信号有关的信息。
19.如权利要求18所述的设备,其中,用于确定预测滤波器系数的装置(36)被实现为:通过所述第三量化函数,通过限幅来将所述预测滤波器系数残差信号的未量化值量化为第三数目的量化阶的量化索引,所述第三量化函数将所述预测滤波器系数残差信号的未量化值映射至恒定且有限的第三数目的量化阶的量化索引。
20.如权利要求18所述的设备,其中,所述用于确定预测滤波器系数的装置(36)被实现为使得以后向自适应方式,基于所述预滤波信号的一个或多个先前块的量化的预测滤波器系数残差信号的量化索引来执行预测。
21.如权利要求18所述的设备,其中,所述用于确定预测滤波器系数的装置(36)被实现为使得通过使用具有恒定系数的预测滤波器来执行所述预测滤波器系数的预测。
22.如权利要求18所述的设备,其中,所述用于确定预测滤波器系数的装置(36)还被实现为在对所述预测滤波器系数进行预测之前,将其与常数值相减。
23.如权利要求1所述的设备,所述设备被实现为将音频信号或视频信号编码为信息信号,其中,所述感知模型是心理声学模型,所述心理感知引起的阈值是心理声学引起的阈值,或所述感知模型是心理视觉模型,所述心理感知引起的阈值是心理视觉引起的阈值。
24.一种用于将编码信息信号解码为解码信息信号的设备,所述编码信息信号包括关于心理感知引起的阈值的表示、预测系数的表示以及量化预测误差的信息,所述设备包括:
用于解量化的装置(206),对量化预测误差进行解量化,以获得解量化预测误差;
用于确定预测信号的装置(208),基于所述预测系数来确定预测信号;
用于重构的装置(210),基于所述预测信号和所述解量化预测误差来重构预滤波信号;以及
用于对预滤波信号进行滤波的装置(212),对所述预滤波信号进行滤波来对关于所述心理感知引起的阈值的归一化进行重转换,以获得解码信息信号。
25.如权利要求24所述的设备,其中,所述用于解量化的装置(206)被实现为将所述量化预测误差解量化至有限且恒定数目的量化阶。
26.如权利要求25所述的设备,其中,所述用于解量化的装置(206)被实现为以后向自适应方式,从已解量化的量化预测误差的量化索引中获得量化阶之间的量化阶高Δ(n)。
27.如权利要求25所述的设备,其中,所述用于解量化的装置(206)被实现为:以后向自适应方式,根据量化预测误差的两个过去的量化索引ic(n-1)和ic(n-2),根据Δ(n)=βΔ(n-1)+δ(n),获得用于对所述量化预测误差的量化索引进行解量化的量化阶之间的量化阶高Δ(n),其中β∈[0.0;1.0],对于|ic(n-1)+ic(n-2)|≤I,δ(n)=δ0,对于|ic(n-1)+ic(n-2)|>I,δ(n)=δ1,其中,δ0、δ1、I是恒定参数,并且Δ(n-1)表示所获得的用于对ic(n-1)进行解量化的量化阶高。
28.如权利要求25所述的设备,其中,所述恒定且有限的数目小于或等于32。
29.如权利要求25所述的设备,其中,所述恒定且有限的数目是3。
30.如权利要求24所述的设备,其中,所述用于对预滤波信号进行滤波的装置(212)包括:
用于确定感知阈值滤波系数的装置(230),用于针对预滤波信号的块序列,以逐块的方式,根据关于所述心理感知引起的阈值的表示的信息来确定感知阈值滤波系数;以及
后滤波器(232),用于通过使用所述感知阈值滤波器系数来对所述预滤波信号进行滤波。
31.如权利要求24所述的设备,其中,所述用于确定感知阈值滤波系数的装置(230)被实现为:通过从LSF域的重转换来获得所述感知阈值滤波器系数。
32.如权利要求24所述的设备,其中,所述用于确定感知阈值滤波系数的装置(230)被实现为:从所述心理感知引起的阈值的表示中获得量化的滤波器系数残差信号的量化索引;将其解量化至有限且恒定的第二数目的量化等级,以获得解量化的滤波器系数残差信号;预测表示所述心理感知引起的阈值的滤波器系数,并将其与解量化的滤波器系数残差信号相加;以及通过重转换,将所述相加产生的重构的滤波器系数残差信号转换为所述感知阈值滤波器系数。
33.如权利要求32所述的设备,其中,所述用于确定感知阈值滤波系数的装置(230)被实现为:使得以后向自适应方式,基于已预测的表示所述心理感知引起的阈值的滤波器系数来执行所述预测。
34.如权利要求32所述的设备,其中,所述用于确定感知阈值滤波系数的装置(230)被实现为:使得通过使用具有恒定系数的预测滤波器来执行对表示所述所述心理感知引起的阈值的滤波器系数的预测。
35.如权利要求32所述的设备,其中,所述用于确定感知阈值滤波系数的装置(230)还被实现为:在重转换之前,将所述相加产生的重构的滤波器系数残差信号与常数值相减。
36.如权利要求24所述的设备,其中,所述用于确定预测信号的装置(208)还包括:
用于确定预测滤波器系数的装置(224),用于根据所述编码信息信号中包括的预测系数的表示来确定预测滤波器系数;以及
用于预测预滤波信号的装置(226、228),用于通过受控于所述预测滤波器系数的滤波器(226)来预测所述预滤波信号。
37.如权利要求36所述的设备,其中,所述用于确定预测滤波器系数的装置(224)被实现为:以逐块的方式,针对所述预滤波信号的块序列中的块,确定所述预测滤波器系数。
38.如权利要求36所述的设备,其中,所述用于确定预测滤波器系数的装置(224)被实现为通过从LSF域的重转换来获得所述预测滤波器系数。
39.如权利要求36所述的设备,其中,所述用于确定预测滤波器系数的装置(224)被实现为:从所述预测系数的表示中获得量化的预测系数残差信号的量化索引;将其解量化至有限且恒定的第三数目的量化等级,以获得解量化的预测系数残差信号;对预测滤波器系数进行预测,并将其与所述解量化的预测系数残差信号相加;以及通过重转换,将所述相加产生的重构的预测系数残差信号转换为预测滤波器系数。
40.如权利要求39所述的设备,其中,所述用于确定预测滤波器系数的装置(224)被实现为:使得以后向自适应方式,基于已预测的预测系数来执行所述预测。
41.如权利要求39所述的设备,其中,所述用于确定预测滤波器系数的装置(224)被实现为使得通过使用具有恒定系数的预测滤波器来执行对预测系数的预测。
42.如权利要求39所述的设备,其中,所述用于确定预测滤波器系数的装置(224)还被实现为:在重转换之前,将所述相加产生的重构的预测系数残差信号与常数值相减。
43.如权利要求24所述的设备,所述设备被实现为将音频信号或视频信号解码为信息信号,其中,所述心理感知引起的阈值是声学掩蔽阈值或视觉掩蔽阈值。
44.一种用于将信息信号编码为编码信息信号的方法,包括:
使用感知模型来确定心理感知引起的阈值的表示,所述表示指示了信息信号中与感知不相关的部分;
对所述信息信号进行滤波,以关于所述心理感知引起的阈值来对信息信号进行归一化,以获得预滤波信号;
以前向自适应方式来预测所述预滤波信号,以获得预测信号、预滤波信号的预测误差以及预测系数的表示,基于预测信号、预滤波信号的预测误差以及预测系数的表示来重构预滤波信号;以及
对所述预测误差进行量化,以获得量化预测误差,其中,所述编码信息信号包括关于心理感知引起的阈值的表示、预测系数的表示以及量化预测误差的信息。
45.一种用于将编码信息信号解码为解码信息信号的方法,所述编码信息信号包括关于心理感知引起的阈值的表示、预测系数的表示以及量化预测误差的信息,所述方法包括:
对量化预测误差进行解量化,以获得解量化预测误差;
基于所述预测系数来确定预测信号;
基于所述预测信号和所述解量化预测误差来重构预滤波信号;以及
对所述预滤波信号进行滤波,以对关于所述心理感知引起的阈值的归一化进行重转换,以获得解码信息信号。
46.一种编码器,包括:
信息信号输入(12);
感知阈值确定器(26),其根据感知模型进行操作,并具有与所述信息信号输入耦合的输入以及感知阈值输出;
自适应预滤波器(34),包括与所述信息信号输入耦合的滤波器输入、滤波器输出、以及与所述感知阈值输出耦合的适配控制输入;
前向预测系数确定器(36),包括与所述预滤波器输出耦合的输入以及预测系数输出;
第一减法器(42),包括与所述预滤波器输出耦合的第一输入、第二输入以及输出;
限幅和量化级(52),包括:有限且恒定数目的量化等级、与减法器输出耦合的输入、量化步长控制输入、以及输出;
步长调整器(54),包括与所述限幅和量化级(52)的输出耦合的输入、以及与所述限幅和量化级(52)的步长控制输入耦合的量化步长输出;
解量化级(50),包括与所述限幅/量化级的输出耦合的输入、以及解量化器控制输出;
加法器(48),包括与所述解量化器控制输出耦合的第一加法器输入、第二加法器输入、以及加法器输出;
预测滤波器(44、46),包括与所述加法器输出耦合的预测滤波器输入、与所述第一减法器(42)的第二输入以及第二加法器输入耦合的预测滤波器输出、以及与所述预测系数输出耦合的预测系数输入;
信息信号产生器(24),包括与所述感知阈值输出耦合的第一输入、与所述预测系数输出耦合的第二输入、与所述限幅和量化级的输出耦合的第三输入、以及表示编码器输出的输出。
47.一种用于将编码信息信号解码为解码信息信号的解码器,所述编码信息信号包括关于心理感知引起的阈值的表示、预测系数以及量化预测误差的信息,所述解码器包括:
解码器输入;
提取器(214),包括与所述解码器输入耦合的输入、感知阈值输出、预测系数输出以及量化预测误差输出;
解量化器(206),包括有限且恒定数目的量化等级、与所述量化预测误差输出连接的解量化输入、解量化器输出以及量化阈值控制输入;
后向自适应阈值调整器,包括与所述量化预测误差输出耦合的输入和与所述量化阈值控制输入耦合的输出;
加法器(222),包括与所述解量化器输出耦合的第一加法器输入、第二加法器输入以及加法器输出;
预测滤波器(226),包括与所述加法器输出耦合的准确滤波器输入、与所述第二输入耦合的预测滤波器输出、以及与所述预测系数输出耦合的预测滤波器系数输入;以及
自适应后滤波器(232),包括与所述加法器输出耦合的预测滤波器输入、表示解码器输出的预测滤波器输出、以及与所述感知阈值输出耦合的适配控制输入。
CN2007800172561A 2006-05-12 2007-02-28 信息信号编码 Active CN101443842B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102006022346.2 2006-05-12
DE102006022346A DE102006022346B4 (de) 2006-05-12 2006-05-12 Informationssignalcodierung
PCT/EP2007/001730 WO2007131564A1 (de) 2006-05-12 2007-02-28 Informationssignalcodierung

Publications (2)

Publication Number Publication Date
CN101443842A CN101443842A (zh) 2009-05-27
CN101443842B true CN101443842B (zh) 2012-05-23

Family

ID=38080073

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007800172561A Active CN101443842B (zh) 2006-05-12 2007-02-28 信息信号编码

Country Status (19)

Country Link
US (2) US9754601B2 (zh)
EP (1) EP2022043B1 (zh)
JP (1) JP5297373B2 (zh)
KR (1) KR100986924B1 (zh)
CN (1) CN101443842B (zh)
AT (1) ATE542217T1 (zh)
AU (1) AU2007250308B2 (zh)
BR (1) BRPI0709450B1 (zh)
CA (1) CA2651745C (zh)
DE (1) DE102006022346B4 (zh)
ES (1) ES2380591T3 (zh)
HK (1) HK1121569A1 (zh)
IL (1) IL193784A (zh)
MX (1) MX2008014222A (zh)
MY (1) MY143314A (zh)
NO (1) NO340674B1 (zh)
PL (1) PL2022043T3 (zh)
RU (1) RU2407145C2 (zh)
WO (1) WO2007131564A1 (zh)

Families Citing this family (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101435411B1 (ko) * 2007-09-28 2014-08-28 삼성전자주식회사 심리 음향 모델의 마스킹 효과에 따라 적응적으로 양자화간격을 결정하는 방법과 이를 이용한 오디오 신호의부호화/복호화 방법 및 그 장치
WO2010028299A1 (en) * 2008-09-06 2010-03-11 Huawei Technologies Co., Ltd. Noise-feedback for spectral envelope quantization
US8532983B2 (en) * 2008-09-06 2013-09-10 Huawei Technologies Co., Ltd. Adaptive frequency prediction for encoding or decoding an audio signal
US8532998B2 (en) * 2008-09-06 2013-09-10 Huawei Technologies Co., Ltd. Selective bandwidth extension for encoding/decoding audio/speech signal
US8515747B2 (en) * 2008-09-06 2013-08-20 Huawei Technologies Co., Ltd. Spectrum harmonic/noise sharpness control
WO2010031049A1 (en) * 2008-09-15 2010-03-18 GH Innovation, Inc. Improving celp post-processing for music signals
WO2010031003A1 (en) 2008-09-15 2010-03-18 Huawei Technologies Co., Ltd. Adding second enhancement layer to celp based core layer
FR2938688A1 (fr) * 2008-11-18 2010-05-21 France Telecom Codage avec mise en forme du bruit dans un codeur hierarchique
US9774875B2 (en) * 2009-03-10 2017-09-26 Avago Technologies General Ip (Singapore) Pte. Ltd. Lossless and near-lossless image compression
CN101609680B (zh) * 2009-06-01 2012-01-04 华为技术有限公司 压缩编码和解码的方法、编码器和解码器以及编码装置
US8705623B2 (en) * 2009-10-02 2014-04-22 Texas Instruments Incorporated Line-based compression for digital image data
MX2012004116A (es) * 2009-10-08 2012-05-22 Fraunhofer Ges Forschung Decodificador multimodo para señal de audio, codificador multimodo para señal de audio, metodo y programa de computacion que usan un modelado de ruido en base a linealidad-prediccion-codi ficacion.
EP2466580A1 (en) 2010-12-14 2012-06-20 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Encoder and method for predictively encoding, decoder and method for decoding, system and method for predictively encoding and decoding and predictively encoded information signal
TW202339510A (zh) * 2011-07-01 2023-10-01 美商杜比實驗室特許公司 用於適應性音頻信號的產生、譯碼與呈現之系統與方法
PL397008A1 (pl) * 2011-11-17 2013-05-27 Politechnika Poznanska Sposób kodowania obrazu
KR101594480B1 (ko) * 2011-12-15 2016-02-26 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 클립핑 아티팩트를 피하기 위한 장치, 방법 및 컴퓨터 프로그램
US9716901B2 (en) * 2012-05-23 2017-07-25 Google Inc. Quantization with distinct weighting of coherent and incoherent quantization error
EP2757558A1 (en) * 2013-01-18 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Time domain level adjustment for audio signal decoding or encoding
US9711156B2 (en) 2013-02-08 2017-07-18 Qualcomm Incorporated Systems and methods of performing filtering for gain determination
US9620134B2 (en) 2013-10-10 2017-04-11 Qualcomm Incorporated Gain shape estimation for improved tracking of high-band temporal characteristics
US10614816B2 (en) 2013-10-11 2020-04-07 Qualcomm Incorporated Systems and methods of communicating redundant frame information
US10083708B2 (en) 2013-10-11 2018-09-25 Qualcomm Incorporated Estimation of mixing factors to generate high-band excitation signal
US9384746B2 (en) 2013-10-14 2016-07-05 Qualcomm Incorporated Systems and methods of energy-scaled signal processing
US10163447B2 (en) 2013-12-16 2018-12-25 Qualcomm Incorporated High-band signal modeling
DE102014101307A1 (de) * 2014-02-03 2015-08-06 Osram Opto Semiconductors Gmbh Kodierverfahren zur Datenkompression von Leistungsspektren eines optoelektronischen Bauteils und Dekodierverfahren
EP2916319A1 (en) * 2014-03-07 2015-09-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for encoding of information
EP2980795A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
US10770088B2 (en) 2016-05-10 2020-09-08 Immersion Networks, Inc. Adaptive audio decoder system, method and article
KR20190011742A (ko) * 2016-05-10 2019-02-07 이멀젼 서비시즈 엘엘씨 적응형 오디오 코덱 시스템, 방법, 장치 및 매체
US10756755B2 (en) 2016-05-10 2020-08-25 Immersion Networks, Inc. Adaptive audio codec system, method and article
US10699725B2 (en) 2016-05-10 2020-06-30 Immersion Networks, Inc. Adaptive audio encoder system, method and article
US11281312B2 (en) 2018-01-08 2022-03-22 Immersion Networks, Inc. Methods and apparatuses for producing smooth representations of input motion in time and space
US11380343B2 (en) 2019-09-12 2022-07-05 Immersion Networks, Inc. Systems and methods for processing high frequency audio signal
CN112564713B (zh) * 2020-11-30 2023-09-19 福州大学 高效率低时延的动觉信号编解码器及编解码方法
US11935546B2 (en) * 2021-08-19 2024-03-19 Semiconductor Components Industries, Llc Transmission error robust ADPCM compressor with enhanced response
CN116193156A (zh) * 2022-12-30 2023-05-30 北京天兵科技有限公司 航天遥测码流地面传输分组压缩编码方法、装置和系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2150377A (en) * 1983-11-28 1985-06-26 Kokusai Denshin Denwa Co Ltd Speech coding system
US4677671A (en) * 1982-11-26 1987-06-30 International Business Machines Corp. Method and device for coding a voice signal
CN1347549A (zh) * 1999-04-16 2002-05-01 多尔拜实验特许公司 在音频编码中应用增益自适应量化和变长码
CN1460247A (zh) * 2001-04-09 2003-12-03 皇家菲利浦电子有限公司 有特殊步长适应的自适应差分脉码调制语音编码系统

Family Cites Families (51)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2481026B1 (zh) * 1980-04-21 1984-06-15 France Etat
GB8410044D0 (en) 1984-04-18 1984-05-31 Communications Patents Ltd Data transmission system
US4751736A (en) * 1985-01-31 1988-06-14 Communications Satellite Corporation Variable bit rate speech codec with backward-type prediction and quantization
US5125030A (en) * 1987-04-13 1992-06-23 Kokusai Denshin Denwa Co., Ltd. Speech signal coding/decoding system based on the type of speech signal
JPH02272500A (ja) * 1989-04-13 1990-11-07 Fujitsu Ltd コード駆動音声符号化方式
EP0401452B1 (en) * 1989-06-07 1994-03-23 International Business Machines Corporation Low-delay low-bit-rate speech coder
US5347478A (en) * 1991-06-09 1994-09-13 Yamaha Corporation Method of and device for compressing and reproducing waveform data
US5233660A (en) * 1991-09-10 1993-08-03 At&T Bell Laboratories Method and apparatus for low-delay celp speech coding and decoding
ES2143673T3 (es) * 1994-12-20 2000-05-16 Dolby Lab Licensing Corp Metodo y aparato para aplicar una prediccion de formas de onda a subbandas de un sistema codificador perceptual.
JP2842276B2 (ja) * 1995-02-24 1998-12-24 日本電気株式会社 広帯域信号符号化装置
US5699481A (en) * 1995-05-18 1997-12-16 Rockwell International Corporation Timing recovery scheme for packet speech in multiplexing environment of voice with data applications
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
US5710863A (en) * 1995-09-19 1998-01-20 Chen; Juin-Hwey Speech signal quantization using human auditory models in predictive coding systems
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US5781888A (en) * 1996-01-16 1998-07-14 Lucent Technologies Inc. Perceptual noise shaping in the time domain via LPC prediction in the frequency domain
JPH11504733A (ja) * 1996-02-26 1999-04-27 エイ・ティ・アンド・ティ・コーポレーション 聴覚モデルによる量子化を伴う予測残余信号の変形符号化による多段音声符号器
JP3357795B2 (ja) * 1996-08-16 2002-12-16 株式会社東芝 音声符号化方法および装置
GB2318029B (en) * 1996-10-01 2000-11-08 Nokia Mobile Phones Ltd Audio coding method and apparatus
FI114248B (fi) * 1997-03-14 2004-09-15 Nokia Corp Menetelmä ja laite audiokoodaukseen ja audiodekoodaukseen
JP3064947B2 (ja) * 1997-03-26 2000-07-12 日本電気株式会社 音声・楽音符号化及び復号化装置
JP3199020B2 (ja) * 1998-02-27 2001-08-13 日本電気株式会社 音声音楽信号の符号化装置および復号装置
GB2342829B (en) * 1998-10-13 2003-03-26 Nokia Mobile Phones Ltd Postfilter
RU2144222C1 (ru) 1998-12-30 2000-01-10 Гусихин Артур Владимирович Способ сжатия звуковой информации и система для его реализации
US6377915B1 (en) * 1999-03-17 2002-04-23 Yrp Advanced Mobile Communication Systems Research Laboratories Co., Ltd. Speech decoding using mix ratio table
EP1052622B1 (en) * 1999-05-11 2007-07-11 Nippon Telegraph and Telephone Corporation Selection of a synthesis filter for CELP type wideband audio coding
SE9903223L (sv) * 1999-09-09 2001-05-08 Ericsson Telefon Ab L M Förfarande och anordning i telekommunikationssystem
US6778953B1 (en) * 2000-06-02 2004-08-17 Agere Systems Inc. Method and apparatus for representing masked thresholds in a perceptual audio coder
US7110953B1 (en) * 2000-06-02 2006-09-19 Agere Systems Inc. Perceptual coding of audio signals using separated irrelevancy reduction and redundancy reduction
JP2002006895A (ja) * 2000-06-20 2002-01-11 Fujitsu Ltd ビット割当装置および方法
DE60143327D1 (de) * 2000-08-09 2010-12-02 Sony Corp Sprachdatenverarbeitungsvorrichtung und -verarbeitungsverfahren
KR100898879B1 (ko) * 2000-08-16 2009-05-25 돌비 레버러토리즈 라이쎈싱 코오포레이션 부수 정보에 응답하여 하나 또는 그 이상의 파라메터를변조하는 오디오 또는 비디오 지각 코딩 시스템
US7171355B1 (en) * 2000-10-25 2007-01-30 Broadcom Corporation Method and apparatus for one-stage and two-stage noise feedback coding of speech and audio signals
KR100872538B1 (ko) * 2000-11-30 2008-12-08 파나소닉 주식회사 Lpc 파라미터의 벡터 양자화 장치, lpc 파라미터복호화 장치, lpc 계수의 복호화 장치, 기록 매체,음성 부호화 장치, 음성 복호화 장치, 음성 신호 송신장치, 및 음성 신호 수신 장치
US6675148B2 (en) * 2001-01-05 2004-01-06 Digital Voice Systems, Inc. Lossless audio coder
US6950794B1 (en) * 2001-11-20 2005-09-27 Cirrus Logic, Inc. Feedforward prediction of scalefactors based on allowable distortion for noise shaping in psychoacoustic-based compression
US7020603B2 (en) * 2002-02-07 2006-03-28 Intel Corporation Audio coding and transcoding using perceptual distortion templates
US7275036B2 (en) * 2002-04-18 2007-09-25 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for coding a time-discrete audio signal to obtain coded audio data and for decoding coded audio data
CN100343895C (zh) * 2002-05-30 2007-10-17 皇家飞利浦电子股份有限公司 音频编码方法和装置,音频解码方法和装置
DE10236694A1 (de) * 2002-08-09 2004-02-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum skalierbaren Codieren und Vorrichtung und Verfahren zum skalierbaren Decodieren
KR100480341B1 (ko) * 2003-03-13 2005-03-31 한국전자통신연구원 광대역 저전송률 음성 신호의 부호화기
RU2368018C2 (ru) * 2003-07-18 2009-09-20 Конинклейке Филипс Электроникс Н.В. Кодирование аудиосигнала с низкой скоростью передачи битов
WO2005024783A1 (en) * 2003-09-05 2005-03-17 Koninklijke Philips Electronics N.V. Low bit-rate audio encoding
ATE452401T1 (de) * 2003-10-13 2010-01-15 Koninkl Philips Electronics Nv Audiocodierung
US7324937B2 (en) * 2003-10-24 2008-01-29 Broadcom Corporation Method for packet loss and/or frame erasure concealment in a voice communication system
DE102004007200B3 (de) * 2004-02-13 2005-08-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiocodierung
DE102004007191B3 (de) * 2004-02-13 2005-09-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audiocodierung
DE102004007184B3 (de) * 2004-02-13 2005-09-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zum Quantisieren eines Informationssignals
JPWO2005106848A1 (ja) * 2004-04-30 2007-12-13 松下電器産業株式会社 スケーラブル復号化装置および拡張レイヤ消失隠蔽方法
US7177804B2 (en) * 2005-05-31 2007-02-13 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding
DE602007004502D1 (de) * 2006-08-15 2010-03-11 Broadcom Corp Neuphasierung des status eines dekodiergerätes nach einem paketverlust
US7756350B2 (en) * 2006-11-13 2010-07-13 Global Ip Solutions, Inc. Lossless encoding and decoding of digital data

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4677671A (en) * 1982-11-26 1987-06-30 International Business Machines Corp. Method and device for coding a voice signal
GB2150377A (en) * 1983-11-28 1985-06-26 Kokusai Denshin Denwa Co Ltd Speech coding system
CN1347549A (zh) * 1999-04-16 2002-05-01 多尔拜实验特许公司 在音频编码中应用增益自适应量化和变长码
CN1460247A (zh) * 2001-04-09 2003-12-03 皇家菲利浦电子有限公司 有特殊步长适应的自适应差分脉码调制语音编码系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SCHULLER G ET AL.Low delay audio compression using predictive coding.《2002 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING. PROCEEDINGS》.2002, *
SCHULLER, G., YU, B., HUANG, D., EDLER, B.Perceptual Audio Coding Using Adaptive Pre- and Post Filters and Lossless Compression.《IEEE Transactions on speech and audio processing》.2002,第10卷(第6期), *

Also Published As

Publication number Publication date
ES2380591T3 (es) 2012-05-16
WO2007131564A1 (de) 2007-11-22
ATE542217T1 (de) 2012-02-15
US20180012608A1 (en) 2018-01-11
IL193784A (en) 2014-01-30
DE102006022346B4 (de) 2008-02-28
US10446162B2 (en) 2019-10-15
CN101443842A (zh) 2009-05-27
JP2009537033A (ja) 2009-10-22
PL2022043T3 (pl) 2012-06-29
MX2008014222A (es) 2008-11-14
KR100986924B1 (ko) 2010-10-08
EP2022043A1 (de) 2009-02-11
EP2022043B1 (de) 2012-01-18
DE102006022346A1 (de) 2007-11-15
JP5297373B2 (ja) 2013-09-25
NO340674B1 (no) 2017-05-29
BRPI0709450A2 (pt) 2011-07-12
CA2651745C (en) 2013-12-24
RU2008148961A (ru) 2010-06-20
US20090254783A1 (en) 2009-10-08
KR20090007427A (ko) 2009-01-16
US9754601B2 (en) 2017-09-05
MY143314A (en) 2011-04-15
AU2007250308B2 (en) 2010-05-06
CA2651745A1 (en) 2007-11-22
BRPI0709450B1 (pt) 2020-02-04
NO20084786L (no) 2008-12-11
BRPI0709450A8 (pt) 2019-01-08
RU2407145C2 (ru) 2010-12-20
AU2007250308A1 (en) 2007-11-22
HK1121569A1 (en) 2009-04-24

Similar Documents

Publication Publication Date Title
CN101443842B (zh) 信息信号编码
JP6173288B2 (ja) マルチモードオーディオコーデックおよびそれに適応されるcelp符号化
JP4212591B2 (ja) オーディオ符号化装置
KR100331166B1 (ko) 오디오신호를 코딩하기 위한 방법 및 장치와 비트스트림을디코딩하기 위한 방법 및 장치
KR100304055B1 (ko) 음성 신호 부호화동안 잡음 대체를 신호로 알리는 방법
US8116486B2 (en) Mixing of input data streams and generation of an output data stream therefrom
EP2378516B1 (en) Analysis filterbank, synthesis filterbank, encoder, decoder, mixer and conferencing system
JP5096468B2 (ja) サイド情報なしの時間的ノイズエンベロープの自由な整形
CN101425294B (zh) 声音编解码与发送接收设备及编码方法、通信终端和基站
CN1918632B (zh) 音频编码
JP2016505168A (ja) 音声信号復号化または符号化の時間領域レベル調整
CN104838443A (zh) 语音声响编码装置、语音声响解码装置、语音声响编码方法及语音声响解码方法
CN1918630B (zh) 量化信息信号的方法和设备
WO2003096325A1 (en) Coding method, coding device, decoding method, and decoding device
CN105957533B (zh) 语音压缩方法、语音解压方法及音频编码器、音频解码器
JP5451603B2 (ja) デジタルオーディオ信号の符号化
JP4297078B2 (ja) 復号方法及び装置
Holters et al. Delay-free lossy audio coding using shelving pre-and post-filters
Asmuth et al. Sequential noise spectral shaping in ADPCM
Malvar Perceptual Audio Coding

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant