CN114258567A - 具有信号依赖数量和精度控制的音频编码器、音频解码器和相关方法与计算机程序 - Google Patents
具有信号依赖数量和精度控制的音频编码器、音频解码器和相关方法与计算机程序 Download PDFInfo
- Publication number
- CN114258567A CN114258567A CN202080058343.7A CN202080058343A CN114258567A CN 114258567 A CN114258567 A CN 114258567A CN 202080058343 A CN202080058343 A CN 202080058343A CN 114258567 A CN114258567 A CN 114258567A
- Authority
- CN
- China
- Prior art keywords
- frame
- audio data
- audio
- value
- information units
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 56
- 230000001419 dependent effect Effects 0.000 title claims description 28
- 238000004590 computer program Methods 0.000 title claims description 12
- 238000007781 pre-processing Methods 0.000 claims abstract description 5
- 230000003595 spectral effect Effects 0.000 claims description 70
- 238000005457 optimization Methods 0.000 claims description 48
- 238000013139 quantization Methods 0.000 claims description 26
- 238000012545 processing Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 12
- 239000003638 chemical reducing agent Substances 0.000 claims description 11
- 238000007493 shaping process Methods 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 7
- 230000002123 temporal effect Effects 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000012804 iterative process Methods 0.000 claims description 4
- 230000002087 whitening effect Effects 0.000 claims description 4
- 238000009826 distribution Methods 0.000 claims description 3
- 238000009825 accumulation Methods 0.000 claims description 2
- 230000000694 effects Effects 0.000 claims description 2
- 230000001186 cumulative effect Effects 0.000 claims 1
- 230000007423 decrease Effects 0.000 claims 1
- 238000012805 post-processing Methods 0.000 claims 1
- 230000009467 reduction Effects 0.000 description 48
- 238000001228 spectrum Methods 0.000 description 32
- 230000008569 process Effects 0.000 description 19
- 230000005540 biological transmission Effects 0.000 description 7
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 6
- 230000003044 adaptive effect Effects 0.000 description 5
- 230000000717 retained effect Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000011664 signaling Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/22—Mode decision, i.e. based on audio signal content versus external parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/002—Dynamic bit allocation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/028—Noise substitution, i.e. substituting non-tonal spectral components by noisy source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/03—Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
一种用于对音频输入数据(11)进行编码的音频编码器,包括:预处理器(10),用于对所述音频输入数据(11)进行预处理以获得待编码的音频数据;编码器处理器(15),用于对所述待编码的音频数据进行编码;和控制器(20),用于控制所述编码器处理器,使得取决于所述待编码的音频数据的第一帧的第一信号特性,与第二帧的第二信号特性相比减少将由所述编码器处理器(15)针对所述第一帧编码的音频数据的音频数据项的数量,并且用于对用于所述第一帧的减少数量的音频数据项进行编码的第一数量的信息单元与用于所述第二帧的第二数量的信息单元相比受到更强的增强。
Description
技术领域
本发明涉及音频信号处理,并且特别涉及应用信号依赖数量和精度控制的音频编码器/解码器。
背景技术
现代基于变换的音频编码器将一系列心理声学促动处理应用于音频段(帧)的频谱表示以获得残余频谱。量化此残余频谱,并且使用熵编码来编码系数。
在此方法中,通常经由全局增益控制的量化步长大小对熵编码器的位消耗具有直接影响,并且需要以使得满足通常有限且往往固定的位预算的方式而选定。由于熵编码器,并且具体而言算术编码器的位消耗在编码之前并不确切的已知,所以计算最佳全局增益可能仅在量化和编码的闭合回路迭代中进行。然而,在某些复杂度约束下,如算术编码具有明显计算复杂度,这是不可行的。
如可见于3GPP EVS编解码器中的最先进的编码器因此通常以用于导出第一全局增益估计的位消耗估计器为特征,所述位消耗估计器通常依残余信号的功率谱操作。取决于复杂度约束,这可以后接速率回路以优化第一估计。单独或者结合极有限校正能力使用此估计降低复杂度,而且降低准确度从而导致位消耗的明显低估或者高估。
位消耗的高估在第一编码级之后导致过量位。最先进的编码器使用这些过量位来在被称作残余编码的第二编码级中优化编码系数的量化。残余编码根本上不同于第一编码级,这是由于其作用于位粒度且因此并未并入有任何熵编码。另外,残余编码通常仅在具有不等于零的经量化值的频率下应用,从而保留并不进一步改良的盲区。
另一方面,位消耗的低估必然导致频谱系数的部分损失,通常最高频率。在最先进的编码器中,通过在解码器处应用噪声替换来减轻此效应,噪声替换是基于假设高频内容通常为有噪声的。
在此设置中,显而易见的是,需要在第一编码步骤中编码尽可能多的信号,所述第一编码步骤使用熵编码且因此比残余编码步骤更有效。因此,想要选择具有尽可能地接近于可用位预算的位估计的全局增益。虽然基于功率谱的估计器适用于大部分音频内容,但其可以导致高音调信号的问题,其中所述第一级估计是主要基于滤波器组的频率分解的不相关旁瓣,而重要分量由于位消耗的低估而丢失。
发明内容
本发明的目的是提供一种用于音频编码或者解码的改良概念,尽管如此,所述改良概念也为有效的且获得良好音频质量。
此目的通过技术方案1的音频编码器、技术方案33的对音频输入数据进行编码的方法和技术方案35的音频解码器、技术方案41的对经编码的音频数据进行解码的方法或者技术方案42的计算机程序来达成。
本发明是基于以下发现:为了尤其关于一方面位速率和另一方面音频质量提高效率,关于由心理声学考虑给定的典型情形的依赖于信号的改变是必需的。当预期平均结果时,典型心理声学模型或者心理声学考虑平均地针对所有信号类别,亦即,针对所有音频信号帧而无关于其信号特性,以低位速率产生良好音频质量。然而,已发现,对于特定信号类别或者用于具有特定信号特性的信号,诸如几乎音调信号,简单心理声学模型或者编码器的直接心理声学控制仅相对于音频质量(当位速率保持恒定时)或者相对于位速率(当音频质量保持恒定时)产生次最佳结果。
因此,为了解决典型心理声学考虑的此缺点,在音频编码器的上下文中,本发明提供:用于预处理音频输入数据以获得待编码的音频数据的预处理器;和用于编码待编码的音频数据的编码器处理器;用于控制编码器处理器的控制器,使得取决于帧的特定信号特性,与通过最先进的心理声学考虑获得的典型简单结果相比减少将由编码器处理器编码的音频数据的音频数据项的数量。另外,以依赖于信号的方式完成音频数据项的数量的此减少,以使得对于具有特定第一信号特性的帧,所述数量与具有不同于第一帧的信号特性的另一信号特性的另一帧相比减少得更多。尽管音频数据项的数量的此减少可以被视为绝对数的减少或者相对数量的减少,但这并非确定性的。然而,特征在于通过音频数据项的数量的既定减少而“保存”的信息单元并非简单地丢失,而是用于更精确地编码剩余数量的数据项,亦即,并未通过音频数据项的数量的既定减少而消除的数据项。
根据本发明,用于控制编码器处理器的控制器以一种方式操作,所述方式使得取决于待编码的音频数据的第一帧的第一信号特性,将由编码器处理器针对第一帧编码的所述音频数据的音频数据项的数量与第二帧的第二信号特性相比减少,并且同时,用于针对第一帧编码减少数量的音频数据项的第一数量的信息单元与第二帧的第二数量的信息单元相比受到更强的增强。
在优选实施例中,以一种方式完成减少,所述方式使得对于更多音调信号帧,执行大量减少,并且同时,相应线的位的数量与音调较低,亦即更具噪声的帧相比增强得更多。此处,数量并未以此较高程度减少,并且对应地,用于编码较低音调音频数据项的信息单元的数量并未增大如此多。
本发明提供一种框架,其中,以依赖于信号的方式,或者多或者少地违反了通常提供的心理声学考虑。然而,另一方面,此违反并未被视为在普通编码器中,其中心理声学的违反例如在紧急情形中进行,诸如为了维持所需位速率将较高频率部分设定为零的情形。实际上,根据本发明,普通心理声学考虑的此违反无关于任何紧急情形而进行,并且“经保存”信息单元应用于进一步优化“留存的”音频数据项。
在优选实施例中,使用两级编码器处理器,其具有例如诸如算术编码器的熵编码器或者诸如哈夫曼编码器的可变长度编码器作为初始编码级。第二编码级充当优化级,并且此第二编码器通常在优选实施例中实施为残余编码器或者在位粒度上操作的位编码器,其可以例如通过在信息单元的第一值的情况下加上特定经定义偏移或者在信息单元的相反值的情况下减去偏移而实施。在一实施例中,此优化编码器优选地实施为在第一位值的情况下加上偏移且在第二位值的情况下减去偏移的残余编码器。在一优选实施例中,音频数据项的数量的减少产生可用位在典型固定帧速率情形中的分布以使得初始编码级接收比优化编码级更低的位预算的方式发生改变的情形。迄今为止,范例为初始编码级接收尽可能高的位预算而与信号特性无关,这是因为认为诸如算术编码级的初始编码级具有最高效率,并且因此,从熵的观点来看,比残余编码级更佳地编码。然而,根据本发明,移除了此范例,这是因为已发现对于特定信号,诸如具有较高音调的信号,诸如算术编码器的熵编码器的效率并不与通过诸如位编码器的随后连接的残余编码器获得的效率一样高。然而,虽然熵编码级平均而言对于音频信号为高效的,但本发明现通过不观察平均值但以依赖于信号的方式减少初始编码级且优选地音调信号部分的位预算来解决此问题。
在一优选实施例中,基于输入数据的信号特性的从初始编码级至优化编码级的位预算移位以一种方式进行,所述方式使得至少两个优化信息单元可用于至少一个且优选地50%且甚至更佳地数据项的数量的减少中留存的所有音频数据项。另外,已发现,用于在编码器侧上计算这些优化信息单元且在解码器侧上应用这些优化信息单元的特别高效的过程为迭代过程,其中,在诸如从低频至高频的特定次序中,依次地消耗来自用于优化编码级的位预算的剩余位。取决于留存音频数据项的数量且取决于优化编码级的信息单元的数量,迭代的数量可以明显地大于二,并且已发现,对于强音调信号帧,迭代的数量可以为四,五或者甚至更高。
在一优选实施例中,以间接方式进行控制器对控制值的确定,亦即,无需信号特性的显式确定。为此目的,基于经操纵的输入数据来计算控制值,其中此经操纵的输入数据为例如待量化的输入数据或者从待量化的数据导出的与振幅有关的数据。尽管编码器处理器的控制值是基于经操纵的数据而确定,但实际量化/编码在无此操纵的情况下执行。以此方式,通过以依赖于信号的方式确定用于操纵的操纵值而获得依赖于信号的过程,其中在无特定信号特性的明确知识的情况下,此操纵或者多或者少地影响音频数据项的数量的所得减少。
在另一实施中,可以应用直接模式,其中特定信号特性经直接估计,并且取决于此信号分析的结果,执行数据项的数量的特定减少以使得获得留存数据项的更高精度。
在又一实施中,可以出于减少音频数据项的目的应用分离式过程。在分离式过程中,借助于受通常心理声学驱动量化器控制控制的量化且基于输入音频信号来获得特定数量的数据项,已量化的音频数据项相对于其数量减少,并且优选地,此减少是通过相对于其振幅,其能量或者其功率消除最小音频数据项而完成。同样,对减少的控制可以通过直接/显式信号特性确定或者通过间接或者非显式信号控制而获得。
在另一优选实施例中,应用整合式过程,其中可变量化器受控制以执行单个量化,但基于经操纵的数据,同时,其中未被操纵的数据经量化。使用依赖于信号的操纵数据来计算诸如全局增益的量化器控制值,而无此操纵的数据经量化,并且使用所有可用信息单元来编码量化结果,使得在两级编码的情况下,保留优化编码级的通常大量信息单元。
实施例提供一种高音调内容的质量损失的问题的解决方案,所述解决方案是基于对用于估计熵编码器的位消耗的功率谱的修改。虽然此修改增大了高音调内容的位预算估计,但利用实际无变化的平坦残余频谱保持共同音频内容的估计的信号自适应本底噪声加法器存在此修改。此修改的影响为双重的。第一,其使滤波器组噪声和谐波分量的不相关旁瓣量化成零,所述谐波分量由本底噪声覆盖。第二,其使位从第一编码级移位至残余编码级。虽然此移位对于大部分信号为不合乎需要的,但对于高音调信号为完全有效的,这是因为位用于提高谐波分量的量化准确度。这意味着移位用于以低有效性编码位,所述位通常遵循均匀分布且因此完全有效地编码有二进制表示。另外,过程是计算上便宜的,使得其为用于解决前述问题的极有效工具。
附图说明
随后关于随附附图公开本发明的优选实施例,其中:
图1是音频编码器的实施例;
图2说明图1的编码器处理器的优选实施;
图3说明优化编码级的优选实施;
图4a说明具有迭代优化位的第一帧或者第二帧的示例性帧语法;
图4b说明如可变量化器的音频数据项减少器的优选实施;
图5说明具有频谱预处理器的音频编码器的优选实施;
图6说明具有时间后处理器的音频解码器的优选实施例;
图7说明图6的音频解码器的编码器处理器的实施;
图8说明图7的优化解码级的优选实施;
图9说明用于控制值计算的间接模式的实施;
图10说明图9的操纵值计算器的优选实施;
图11说明直接模式控制值计算;
图12说明分离式音频数据项减少的实施;且
图13说明整合式音频数据项减少的实施。
具体实施方式
图1说明用于对音频输入数据进行编码11的音频编码器。音频编码器包括预处理器10,编码器处理器15和控制器20。预处理器10预处理音频输入数据11以使得获得项12处所说明的每帧音频数据或者待编码的音频数据。待编码的音频数据被输入至编码器处理器15中以用于编码待编码的音频数据,并且编码器处理器输出经编码的音频数据。关于其输入,控制器20被连接至预处理器的每帧音频数据,但替代地,控制器也可以被连接以接收音频输入数据而无需任何预处理。控制器被配置为取决于帧中的信号而减少每帧的音频数据项的数量,并且同时,控制器取决于帧中的信号而针对减少数量的音频数据项增加信息单元,或者优选地,位的数量。控制器被配置为用于控制编码器处理器15,使得取决于待编码的音频数据的第一帧的第一信号特性,将由编码器处理器针对第一帧编码的音频数据的音频数据项的数量与第二帧的第二信号特性相比减少,并且用于针对第一帧编码减少数量的音频数据项的多个信息单元与第二帧的第二数量的信息单元相比增强得更多。
图2说明编码器处理器的优选实施。编码器处理器包括初始编码级151和优化编码级152。在一实施中,初始编码级包括熵编码器,如算术或者哈夫曼(Huffman)编码器。在另一实施例中,优化编码级152包括在位或者信息单元粒度上操作的位编码器或者残余编码器。另外,关于音频数据项的数量的减少的功能性在图2中通过音频数据项减少器150体现,音频数据项减少器150可以例如在图13中所说明的整合式减少模式中实施为可变量化器,或者替代地,如单独减少模式902中所说明实施为在已量化音频数据项上操作的独立元件,并且在另一未图示的实施例中,音频数据项减少器也可以通过将未被量化的元素设定成零或者通过以特定加权数加权待消除的数据项而在此类未被量化的元素上操作,使得此类音频数据项被量化成零,并且因此,在随后连接的量化器中被消除。图2的音频数据项减少器150可以在单独减少程序中在未被量化的或者经量化数据元素上操作,或者可以如图13整合式减少模式中所说明由特定地受依赖于信号的控制值控制的可变量化器实施。
图1的控制器20被配置为减少针对第一帧由初始编码级151编码的音频数据项的数量,并且初始编码级151被配置为使用第一帧初始数量的信息单元来编码第一帧的减少数量的音频数据项,并且初始数量的信息单元的经计算位/单元由如图2中所说明的块151输出,项151。
另外,优化编码级152被配置为将第一帧剩余数量的信息单元用于第一帧的减少数量的音频数据项的优化编码,并且第一帧初始数量的信息单元添加至第一帧剩余数量的信息单元产生第一帧的预定数量的信息单元。具体而言,优化编码级152输出第一帧剩余数量的位和第二帧剩余数量的位,并且对于至少一个或者优选地至少50%或者甚至更佳地所有非零音频数据项,亦即经音频数据项的减少而留存的且最初由初始编码级151编码的音频数据项而言,确实存在至少两个优化位。
优选地,第一帧的信息单元的预定数量等于第二帧的信息单元的预定数量或者相当接近于第二帧的信息单元的预定数量,使得获得音频编码器的恒定或者实质上恒定的位速率操作。
如图2中所说明,音频数据项减少器150以依赖于信号的方式将音频数据项减少至低于心理声学驱动数量。因此,对于第一信号特性,数量相比于心理声学驱动数量仅略微减少,并且举例而言,在具有第二信号特性的帧中,数量显著地减少至低于心理声学驱动数量。并且,优选地,音频数据项减少器以最小振幅/功率/能量来消除数据项,并且此操作优选地经由在整合模式中获得的间接选择执行,其中通过将特定音频数据项量化成零来进行音频数据项的减少。在一实施例中,初始编码级仅编码尚未量化成零的音频数据项,并且优化编码级152仅优化已由初始编码级处理的音频数据项,亦即,尚未由图2的音频数据项减少器150量化成零的音频数据项。
在一优选实施例中,优化编码级被配置为在至少两个顺序执行的迭代中将第一帧剩余数量的信息单元迭代地分配至第一帧的减少数量的音频数据项。具体而言,计算用于至少两个顺序执行的迭代的所分配信息单元的值,并且将用于至少两个顺序执行的迭代的信息单元的计算值以预定次序引入至经编码的输出帧中。具体而言,优化编码级被配置为在第一迭代中以从音频数据项的低频信息至音频数据项的高频信息的次序顺序分配第一帧的减少数量的音频数据项的每一音频数据项的信息单元。具体而言,音频数据项可以是通过时间/频谱转换获得的相应频谱值。替代地,音频数据项可以是通常在频谱中彼此邻接的两个或者更多个频谱线的元组(tuple)。随后,从具有低频信息的特定起始值至具有最高频率信息的特定结束值进行位值的计算,并且在又一迭代中,执行相同程序,亦即,再一次执行从低频谱信息值/元组至高频谱信息值/元组的处理。具体而言,优化编码级152被配置为检查已分配信息单元的数量是否低于小于信息单元的第一帧初始数量的第一帧的信息单元的预定数量,并且优化编码级也被配置为在否定检查结果的情况下停止第二迭代,或者在肯定检查结果的情况下执行多个进一步迭代,直至获得否定检查结果为止,其中进一步迭代的数量为1,2……优选地,迭代的最大数量由两位数限定,诸如在10至30之间的值,并且优选地20个迭代。在一替代性实施例中,如果首先计数非零频谱线,并且相应地针对每一迭代或者针对整个程序调整残余位的数量,则可以省略对最大数量的迭代的检查。因此,当存在例如20个留存频谱元组和50个残余位时,在编码器或者解码器中的程序期间无任何检查的情况下,可以确定迭代的数量为三,并且在第三迭代中,优化位将被计算或者在用于前十个频谱线/元组的位流中是可用的。因此,此替代例在迭代处理期间并不要求检查,这是因为关于非零或者留存音频项的数量的信息在编码器或者解码器中的初始阶段的处理之后为已知的。
图3说明由图2的优化编码级152执行的迭代过程的优选实施,所述迭代过程能够实现是因为与其他过程对比,由于用于特定帧的音频数据项的对应减少,用于帧的优化位的数量针对此特定帧已明显增大。
在步骤300中,确定留存音频数据项。此确定可以通过在已由图2的初始编码级151处理的音频数据项上操作而自动执行。在步骤302中,程序的开始于诸如具有最低频谱信息的音频数据项的预定义音频数据项处进行。在步骤304中,计算预定义序列中的每一音频数据项的位值,其中此预定义序列是例如从低频谱值/元组至高频谱值/元组的序列。使用起始偏移305和优化位仍可用的在控制中314来进行步骤304中的计算。在项316处,输出第一迭代优化信息单元,亦即,指示每一留存音频数据项的一个位的位模式,其中所述位指示偏移,亦即起始偏移305,是将加上还是将减去,或者替代地,所述起始偏移是将加上还是不加上。
在步骤306中,以预定规则减少偏移。此预定规则可以例如为偏移减半,亦即,新偏移为原始偏移的一半。然而,也可以应用与0.5加权不同的其他偏移减少规则。
在步骤308中,再次计算预定义序列中的每一项的位值,但现在处于第二迭代中。随着输入至第二迭代中,在307处所说明的第一迭代后的经优化项得以输入。因此,对于步骤314中的计算,由第一迭代优化信息单元表示的优化已应用,并且在如步骤314中所指示优化位仍可用的先决条件下,在318处计算并输出第二迭代优化信息单元。
在步骤310中,通过准备好用于第三迭代的预定规则来再次减少偏移,并且第三迭代再一次依赖于309处所说明的第二迭代之后的经优化项且再次在如314处所指示优化位仍可用的先决条件下,在320处计算并输出第三迭代优化信息单元。
图4a说明具有用于第一帧或者第二帧的信息单元或者位的示例性帧语法。帧的位数据的一部分由初始数量的位,亦即项400,构成。另外,第一迭代优化位316,第二迭代优化位318和第三迭代优化位320也包括于帧中。具体而言,根据帧语法,解码器处于适当位置以识别帧的哪些位为初始数量的位,哪些位为第一,第二或者第三迭代改进位316,318,320,并且帧中的哪些位为任何其他位402,举例而言,可以例如也包括全局增益(global gain;gg)的经编码表示的此任何侧信息例如可以直接由控制器200计算或者可以例如借助于控制器输出信息21受控制器影响。在一部分316,318,320内,给定相应信息单元的特定序列。此序列为优选地,使得位序列中的位应用于待解码的经初始解码的音频数据项。由于相对于位速率要求,此序列对于明确地用信号通知关于第一,第二和第三迭代优化位的任何内容并非有用的,所以块316,318,320中的相应位的次序应与留存音频数据项的对应次序相同。鉴于所述情况,优选为在如图3中所说明的编码器侧上和如图8中所说明的解码器侧上使用相同迭代程序。并不需要至少在块316至320中用信号通知任何特定位分配或者位关联。
另外,一方面初始数量的位和另一方面剩余数量的位的数量仅为示例性的。通常地,通常编码诸如频谱值或者频谱值的元组的音频数据项的最高有效位部分的初始数量的位大于表示“留存”音频数据项的最低有效部分的迭代优化位。另外,初始数量的位400通常借助于熵编码器或者算术编码器确定,但迭代优化位是使用在信息单元粒度上操作的残余或者位编码器来确定。尽管优化编码级大概并不执行任何熵编码,但尽管如此,音频数据项的最低有效位部分的编码由优化编码级更有效地进行,这是因为可以假设诸如频谱值的音频数据项的最低有效位部分平均地分布,并且因此,具有可变长度码或者算术编码以及特定上下文的任何熵编码并不引入任何额外优点,而相反地甚至会引入额外负担。
换言之,对于音频数据项的最低有效位部分,使用算术编码器应比使用位编码器效率更低,这是因为位编码器对于特定上下文并不要求任何位速率。如由控制器引起的音频数据项的既定减少不仅会提高主频谱线或者线元组的精度,而且另外出于优化由算术或者可变长度码表示的这些音频数据项的MSB部分的目的而提供高效编码操作。
鉴于此情况,通过一方面初始编码级151和另一方面优化编码级152借助于如图2中所说明的图1的编码器处理器15的实施获得若干和例如以下优点。
提议高效两级编码方案,包括第一熵编码级和基于单个位(非熵)编码的第二残余编码级。
方案采用低复杂度全局增益估计器,所述全局增益估计器并入有用于第一编码级的以信号自适应本底噪声加法器为特征的基于能量的位消耗估计器。
本底噪声加法器实际上针对高音调信号将位从第一编码级传输至第二编码级,同时使对其他信号类型的估计无变化。从熵编码级至非熵编码级的此位移位对于高音调信号为充分有效的。
图4b说明可变量化器的优选实施,所述可变量化器可以例如被实施为优选地在关于图13所说明的整合式减少模式中执行音频数据项减少。为此目的,可变量化器包括接收在线12处所说明的待编码(未被操纵的)音频数据的加权器155。此数据也输入至控制器20中,并且控制器被配置为计算全局增益21,但基于如输入至加权器155中的未被操纵的数据,并且使用依赖于信号的操纵。全局增益21在加权器155中应用,并且加权器的输出经输入至依赖于固定量化步长的量化器核心157中。可变量化器150被实施为受控加权器,其中使用全局增益(gg)21和随后连接的固定量化步长量化器核心157进行控制。然而,也可以执行其他实施,诸如具有受控制器20输出值控制的可变量化步长的量化器核心。
图5说明音频编码器的优选实施,并且具体而言,说明图1的预处理器10的特定实施。优选地,预处理器包括加窗器13,所述加窗器13从音频输入数据11产生使用特定分析窗加窗的时域音频数据的帧,所述特定分析窗可以例如为余弦窗。时域音频数据的帧输入至频谱转换器14中,所述频谱转换器14可以被实施为执行修改型离散余弦变换(modifieddiscrete cosine transform;MDCT)或者诸如FFT或者MDST的任何其他变换或者任何其他时间-频谱转换。优选地,加窗器以特定提前控制操作,使得进行重叠帧产生。在50%重叠的情况下,加窗器的先验值为由加窗器13应用的分析窗的大小的一半。将由频谱转换器输出的频谱值的(未被量化的)帧输入至频谱处理器15中,所述频谱处理器15被实施为执行几种频谱处理,诸如运行时间噪声整形操作,频谱噪声整形操作或者诸如频谱白化操作的任何其他操作,通过所述频谱处理,由频谱处理器产生的经修改频谱值具有比在由频谱处理器15处理之前的频谱值的频谱包络线更平坦的频谱包络线。待编码的音频数据(每帧)经由线12转发至编码器处理器15中和控制器20中,其中控制器20经由线21将控制信息提供至编码器处理器15。编码器处理器将其数据输出至例如实施为位流多路复用器的位流写入器30,并且经编码帧在线35上输出。
关于解码器侧处理,参考图6。通过块30输出的位流可以例如在某种存储或者传输之后直接输入至位流读取器40中。当然,可以根据诸如DECT协议或者蓝芽协议或者任何其他无线传输协议的无线传输协议在编码器与解码器之间执行诸如传输处理的任何其他处理。将输入至图6中所示出的音频解码器中的数据输入至位流读取器40中。位流读取器40读取数据并将数据转发至受控制器60控制的编码器处理器50。具体而言,位流读取器接收经编码数据,其中经编码的音频数据针对帧包括帧初始数量的信息单元和帧剩余数量的信息单元。编码器处理器50处理经编码的音频数据,并且编码器处理器50包括如图7中所说明的在用于初始解码级的项51处和在用于优化解码级的项52处的初始解码级和优化解码级,所述初始解码级和优化解码级皆受控制器60控制。控制器60被配置为控制优化解码级52以在优化如由图7的初始解码级51输出的经初始解码的数据项时将剩余数量的信息单元中的至少两个信息单元用于优化同一个经初始解码的数据项。另外,控制器60被配置为控制编码器处理器,以使得初始解码级使用帧初始数量的信息单元来在图7中的线连接块51和52处获得经初始解码的数据项,其中优选地,控制器60如由进入图6或者图7的块60中的输入线指示从位流读取器40接收对一方面帧初始数量的信息单元和帧初始剩余数量的信息单元的指示。后处理器70处理经优化的音频数据项以在后处理器70的输出处获得经解码的音频数据80。
在对应于图5的音频编码器的音频解码器的优选实施中,后处理器70包括频谱处理器71作为输入级,所述频谱处理器71执行逆时间噪声整形操作,或者逆频谱噪声整形操作或者逆频谱白化操作,或者减少由图5的频谱处理器15应用的某种处理的任何其他操作。将频谱处理器的输出输入至时间转换器72中,所述时间转换器72用以执行从谱域至时域的转换,并且优选地,时间转换器72与图5的频谱转换器14匹配。将时间转换器72的输出输入至重叠相加级73中,所述重叠相加级73针对诸如至少两个重叠帧的多个重叠帧执行重叠/相加操作,以使得获得经解码的音频数据80。优选地,重叠相加级73将合成窗应用于时间转换器72的输出,其中此合成窗与由分析加窗器13应用的分析窗匹配。另外,通过块73执行的重叠操作与通过图5的加窗器13执行的块推进操作匹配。
如图4a中所说明,帧剩余数量的信息单元包括用于预定次序下的至少两个顺序迭代的信息单元316,318,320的计算值,其中在图4a实施例中,说明甚至三个迭代。另外,控制器60被配置为控制优化解码级52以针对第一迭代将诸如块316的计算值用于根据预定次序的第一迭代,并且针对第二迭代将来自块318的计算值用于按预定次序的第二迭代。
随后,关于图8说明在控制器60的控制下的优化解码级的优选实施。在步骤800中,控制器或者图7的优化解码级52确定待优化的音频数据项。这些音频数据项通常为由图7的块51输出的所有音频数据项。如步骤802中所指示,执行在诸如最低频谱信息的预定义音频数据项处的起始。使用起始偏移805,针对预定义序列中的每一项应用804从位流或者从控制器16接收到的第一迭代优化信息单元,例如,图4a的块316中的数据,其中所述预定义序列从低频谱值/频谱元组/频谱信息延伸至高频谱值/频谱元组/频谱信息。结果为如线807所说明的第一迭代之后的经优化的音频数据项。在步骤808中,应用预定义序列中的每一项的位值,其中位值来自如818处所说明的第二迭代优化信息单元,并且这些位是取决于特定实施而从位流读取器或者控制器60接收到。步骤808的结果为第二迭代之后的经优化项。同样,在步骤810中,根据在块806中已应用的预定偏移减少规则来减少偏移。利用减少的偏移,使用例如从位流或者从控制器60接收到的第三迭代优化信息单元来如812处所说明应用预定义序列中的每一项的位值。在图4a的项320处将第三迭代优化信息单元写入位流中。块812中的过程的结果为如821处所指示的第三迭代之后的经优化项。
此过程继续直至包括于帧的位流中的所有迭代优化位被处理为止。此通过控制器60经由控制线814检查,所述控制线814优选地针对每一迭代但至少针对在块808,812中经处理的第二和第三迭代控制优化位的剩余可用性。在每一迭代中,控制器60控制优化解码级以检查已读取信息单元的数量是否低于帧的帧剩余信息单元中的信息单元的数量,从而在否定检查结果的情况下停止第二迭代,或者在肯定检查结果的情况下,执行多个进一步迭代直至获得否定检查结果为止。进一步迭代的数量是至少一个。由于类似过程在图3的上下文中论述的编码器侧上和如图8中所概述的解码器侧上的应用,任何特定用信号通知并非必需的。实际上,多重迭代优化处理以高效方式进行而无需任何特定负担。在一替代性实施例中,如果首先计数非零频谱线,并且相应地针对每一迭代调整残余位的数量,则可以省略对最大数量的迭代的检查。
在优选实施中,优化解码级52被配置为在帧剩余数量的信息单元中的读取信息数据单元具有第一值时将偏移加至经初始解码的数据项,并且在帧剩余数量的信息单元中的读取信息数据单元具有第二值时从最初经解码项减去偏移。对于第一迭代,此偏移为图8的起始偏移805。在如图8中的808处所说明的第二迭代中,在帧剩余数量的信息单元中的读取信息数据单元具有第一值时,将如由块806产生的经减少偏移用于使经减少或者第二偏移加至第一迭代的结果,并且在帧剩余数量的信息单元中的读取信息数据单元具有第二值时,将所述经减少偏移用于从第一迭代的结果减去第二偏移。一般而言,第二偏移低于第一偏移,并且优选地,第二偏移在第一偏移的0.4倍至0.6倍之间且最佳地为第一偏移的0.5倍。
在使用图9中所说明的间接模式的本发明的优选实施中,任何显式信号特性确定并非必需的。实际上,优选地使用图9中所说明的实施例来计算操纵值。对于间接模式,控制器20如图9中所指示的实施。具体而言,控制器包括控制预处理器22,操纵值计算器23,组合器24和全局增益计算器25,所述全局增益计算器25在最后计算实施为图4b中所说明的可变量化器的图2的音频数据项减少器150的全局增益。具体而言,控制器20被配置为分析第一帧的音频数据来针对第一帧确定可变量化器的第一控制值,并且分析第二帧的音频数据以针对第二帧确定可变量化器的第二控制值,第二控制值与第一控制值不同。通过操纵值计算器23执行对帧的音频数据的分析。控制器20被配置为执行第一帧的音频数据的操纵。在此操作中,并不存在图9中所说明的控制预处理器20,因此,块22的旁路管线为主动的。
然而,当操纵并未执行于第一帧或者第二帧的音频数据,但施加至从第一帧或者第二帧的音频数据导出的振幅相关值时,存在控制预处理器22且并不存在旁路管线。实际操纵由组合器24执行,所述组合器24组合从块23输出的操纵值与从特定帧的音频数据导出的振幅相关值。在组合器24的输出处,确实存在经操纵的(优选地能量)数据,并且基于这些经操纵的数据,全局增益计算器25计算404处指示的全局增益或者至少全局增益的控制值。全局增益计算器25必须施加关于频谱的所允许位预算的限制,使得获得帧所允许的特定数据速率或者特定数量的信息单元。
在图11处所说明的直接模式中,控制器20包括用于每帧信号特性确定的分析器201,并且分析器208输出例如诸如音调信息的定量信号特性信息,并且使用此优选定量数据来控制控制值计算器202。一种用于计算帧的音调的过程用来计算帧的谱平度(spectralflatness measure;SFM)。任何其他音调确定过程或者任何其他信号特性确定过程可以通过块201执行,并且将执行从特定信号特性值至特定控制值的转换以使得获得帧的音频数据项的数量的预期减少。用于图11的直接模式的控制值计算器202的输出可以是至编码器处理器,诸如至可变量化器,或者替代地至初始编码级的控制值。当控制值给定至可变量化器时,执行整合式减少模式,而当控制值给定至初始编码级时,执行单独减少。单独减少的另一实施应移除或者特定地影响在实际量化之前存在的选定未被量化的音频数据项,使得借助于特定量化器,此受影响音频数据项被量化成零,并且因此,出于熵编码和后续优化编码的目的被消除。
尽管图9的间接模式已连同整合式减少示出,亦即,全局增益计算器25被配置为计算可变全局增益,但由组合器24输出的经操纵的数据也可用以直接控制初始编码级以移除诸如最小经量化数据项的任何特定经量化音频数据项,或者替代地,控制值也可以经发送至未说明的音频数据影响级,所述音频数据影响级在使用已在而无任何数据操纵的情况下经确定的可变量化控制值的实际量化之前影响音频数据,并且因此,通常遵守心理声学规则,然而,本发明的过程有意违反所述心理声学规则。
如图11中对于直接模式所说明,控制器被配置为将第一音调特性确定为第一信号特性且将第二音调特性确定为第二信号特性,其方式为使得在第一音调特性的情况下的优化编码级的位预算与在第二音调特性的情况下的优化编码级的位预算相比增大,其中第一音调特性指示比第二音调特性更大的音调。
本发明并不产生通常通过应用较大全局增益获得的较粗糙量化。实际上,基于依赖于信号的操纵数据的全局增益的此计算仅产生从接收较小位预算的初始编码级至接收较高位预算的优化解码级的位预算移位,但此位预算移位是以依赖于信号的方式进行且对于越高音调信号部分越大。
优选地,图9的控制预处理器22计算振幅相关值作为从音频数据的一个或多个音频值导出的多个功率值。具体而言,其为借助于组合器24使用相同操纵值的加法而操纵的这些功率值,并且已由操纵值计算器23确定的相同操纵值与帧的多个功率值中的所有功率值组合。
替代地,如由旁路管线指示,将通过块23计算的操纵值的同一量值获得但优选地具有随机符号的值,和/或通过略微不同项从同一量值(但优选地具有随机符号)的减法而获得的值或者复数操纵值,或者更一般而言,作为样本从使用操纵值的所计算复数或者实数量值缩放的特定标准化机率分布获得的值加至包括于帧中的多个音频值中的所有音频值。通过控制预处理器22执行的过程,诸如计算功率谱和下采样,可以包括在全局增益计算器25内。因此,优选地,将本底噪声直接加至频谱音频值或者替代地加至从每帧音频数据导出的振幅相关值,亦即,控制预处理器22的输出。优选地,控制器预处理器计算对应于使用等于2的指数值取幂的经下采样功率谱。然而,替代地,可以使用高于1的不同指数值。示例性地,等于3的指数值应表示响度而非功率。但,也可以使用诸如更小或者更大指数值的其他指数值。
在图10中所说明的优选实施中,操纵值计算器23包括用于搜索帧中的最大频谱值的搜索器26和计算由图10的项27指示的信号独立贡献中的至少一个或者用于如图10的块28所说明计算每帧一个或多个矩的计算器。基本上,存在块26或者块28以使得对帧的操纵值提供依赖于信号的影响。具体而言,搜索器26被配置为搜索多个音频数据项或者振幅相关值的最大值或者搜索对应帧的多个经下采样的音频数据或者多个经下采样的振幅相关值的最大值。使用块26,27和28的输出通过块29进行实际计算,其中块26,28实际表示信号分析。
优选地,借助于实际编码器会话的位速率,帧持续时间或者实际编码器会话的采样频率来确定信号独立贡献。另外,用于计算每帧一个或多个矩的计算器28被配置为计算从至少帧内的音频数据或者经下采样的音频数据的量值的第一总和,帧内的音频数据或者经下采样的音频数据的量值乘以与每一量值相关联的索引的第二总和以及第二总和与第一总和的商导出的信号依赖加权值。
在通过图9的全局增益计算器25执行的优选实施中,取决于能量值和实际控制值的候选值计算每一能量值的所需位估计。累积能量值的所需位估计和控制值的候选值,并且检查控制值的候选值的累积位估计是否满足如例如图9中所说明的所允许位消耗准则,如引入至全局增益计算器25中的频谱的位预算。如果并不满足所允许位消耗准则,则修改控制值的候选值,并且重复对所需位估计的计算,所需位速率的累积和用于控制值的经修改候选值的所允许位消耗准则的实现的检查。一旦发现此最佳控制值,即在图9的线404处输出此值。
随后,说明优选实施例。
■编码器的详细描述(例如图5)
■记法
通过fs表示以赫兹(Hz)为单位的潜在采样频率,通过Nms表示以毫秒为单位的潜在帧持续时间,并且通过br表示以位每秒为单位的潜在位速率。
■残余频谱的导出(例如预处理器10)
实施例依真实残余频谱Xf(k),k=0..N-1操作,所述真实残余频谱通常通过如MDCT的时间至频率变换导出,继的以如用以移除时间结构的时间噪声整形(TNS)和用以移除频谱结构的频谱噪声整形(SNS)的心理声学促动修改。因此,对于具有缓慢改变的频谱包络线的音频内容,残余频谱Xf(k)的包络线为平坦的。
■全局增益估计(例如图9)
经由以下通过全局增益gglob控制频谱的量化
在以因子4下采样之后从功率谱X(k)2导出初始全局增益估计(图9的项22),
PXlp(k)=Xf(4k)2+Xf(4k+1)2+Xf(4k+2)2+Xf(4k+3)2
和通过以下给定的信号自适应本底噪声N(Xf)
参数regBits取决于位速率,帧持续时间和采样频率,并且计算为
其中C(Nms,fs)如下表中所规定。
N<sub>ms</sub>\f<sub>s</sub> | 48000 | 96000 |
2.5 | -6 | -6 |
5 | 0 | 0 |
10 | 2 | 5 |
参数lowBits取决于残余频谱的绝对值的质心且计算为
其中
和
是绝对频谱的矩。
从值
E(k)=10log10(PXlp(k)+N(Xf)+2-31),(例如图9的组合器24的输出)
以
的形式估计全局增益。
其中ggoff是位速率和采样频率依赖偏移。
可能已例如在3GPP EVS编解码器(3GPP TS 26.445,章节5.3.3.2.8.1)中找到基于纯功率谱的估计。在实施例中,完成本底噪声N(Xx)的添加。本底噪声以两种方式为信号自适应的。
第一,其以最大振幅Xf缩放。因此,对平坦频谱的能量的影响极小,其中所有振幅均接近于最大振幅。但对于高音调信号,其中残余频谱也以频谱和多个强峰的扩展为特征,总能量明显增大,其增大如下文概述的全局增益计算的位估计。
第二,如果频谱呈现低质心,则本底噪声以参数lowBits降低。在此情况下,主要是低频内容,由此高频分量的损失很可能并不与高音调内容一样关键。
通过如下文C程序代码中所概述的低复杂度二分搜索来执行(例如图9的块25)全局增益的实际估计,其中nbits′spec表示用于编码频谱的位预算。考虑用于阶段1编码的算术编码器中的上下文依赖性,(变量tmp中累积的)位消耗估计是基于能量值E(k)。
■残余编码(例如图3)
残余编码使用在经量化频谱xq(k)的算术编码之后可用的过量位。使B表示过量位的数量,并且使K表示经编码非零系数Xq(k)的数量。另外,使ki,i=1..K表示这些非零系数从最低频率至最高频率的行举。系数ki的残余位bi(j)(取值0和1)经计算以使得最小化误差
这可以以测试以下是否成立的迭代方式完成
如果(1)为真,则系数ki的第n残余位bi(n)被设定为0,否则,其经设定为1。通过计算每一ki的第一残余位且随后第二位等等进行残余位的计算,直至所有残余位耗尽,或者进行了最大数量nmax个迭代为止。这留下系数Xq(ki)的
个残余位。此残余编码方案改良在每非零系数耗费至多一个位的3GPP EVS编解码器中应用的残余编码方案。
通过以下伪码说明具有nmax=20的残余位的计算,其中gg表示全局增益:
■解码器的描述(例如图6)
通过以下给定经解码残余频谱
■结论:
●提议高效两级编码方案,包括第一熵编码级和基于单个位(非熵)编码的第二残余编码级。
●方案采用低复杂度全局增益估计器,所述全局增益估计器并入有用于第一编码级的以信号自适应本底噪声加法器为特征的基于能量的位消耗估计器。
●本底噪声加法器实际上针对高音调信号将位从第一编码级传输至第二编码级,同时使对其他信号类型的估计无变化。认为从熵编码级至非熵编码级的此位移位对于高音调信号为充分有效的。
图12说明用于使用分离式减少以依赖于信号的方式减少音频数据项的数量的程序。在步骤901中,使用如从信号数据计算的诸如全局增益的未被操纵的信息执行量化而无需任何操纵。为此目的,需要音频数据项的(总)位预算,并且在块901的输出处,获得经量化数据项。在块902中,通过基于依赖于信号的控制值消除优选地最小音频数据项的(受控制的)量来减少音频数据项的数量。在块902的输出处,获得减少数量的数据项,并且在块903中,应用初始编码级,并且在由于受控制减少而保留的残余位的位预算的情况下,如904中所说明应用优化编码级。
除图12中的过程以外,也可以在实际量化之前使用全局增益值或者通常已使用未被操纵的音频数据确定的特定量化器步长来执行减少块902。因此,音频数据项的此减少也可以通过将特定优选地较小值设定成零或者通过用加权因子加权特定值而在未被量化的域中执行,最后,产生经量化成零的值。在分离式减少实施中,在执行对特定量化的控制的情况下执行一方面显式量化步长和另一方面显式减少步骤而无需任何数据操纵。
与其相反,图13说明根据本发明的实施例的整合式减少模式。在块911中,通过控制器20确定经操纵的信息,诸如图9的块25的输出处所说明的全局增益。在块912中,使用经操纵的全局增益或者通常在块911中计算的经操纵的信息来执行未被操纵的音频数据的量化。在块912的量化程序的输出处,获得在块903中最初编码且在块904中优化编码的减少数量的音频数据项。由于音频数据项的依赖于信号的减少,保留用于至少单个完整迭代和用于第二迭代的至少一部分且优选地用于甚至多于两个迭代的残余位。根据本发明且以依赖于信号的方式执行位预算从初始编码级至优化编码级的移位。
本发明可以至少以四种不同模式实施。作为操纵的示例,可以以直接模式利用显式信号特性确定或者以间接模式而无需显式信号特性确定但利用依赖于信号的本底噪声至音频数据或者至经导出音频数据的添加来进行控制值的确定。同时,以整合方式或者以单独方式进行音频数据项的减少。也可以执行间接确定和整合式减少或者控制值的间接产生和单独减少。另外,也可以执行直接确定以及整合式减少和控制值的直接确定以及单独减少。出于低效率的目的,控制值的间接确定以及音频数据项的整合式减少为优选的。
此处应提及,可以相应地使用如之前所论述的所有替代方案或者方面和如以下权利要求中的独立权利要求所定义的所有方面,即,不具有除预期替代方案,对象或者独立权利要求外的任何其他替代方案或者对象。然而,在其他实施例中,所述替代方案或者所述方面或者所述独立权利要求中的两者或者多于两者可以彼此组合,并且在其他实施例中,所有方面或者替代方案和所有独立权利要求可以彼此组合。
本发明的经编码音频信号可以存储于数字存储介质或者非暂时性存储介质上,或者可以在传输介质(诸如无线传输介质或者有线传输介质,诸如因特网)上传输。
尽管已在装置的上下文中描述一些方面,但显然,这些方面也表示对应方法的描述,其中块或者装置对应于方法步骤或者方法步骤的特征。类似地,方法步骤的上下文中所描述的方面也表示对应装置的对应块或者项目或者特征的描述。
取决于某些实施要求,本发明的实施例可以在硬件或者软件中实施。实施可以使用数字存储介质来执行,所述介质例如软性磁盘,DVD,CD,ROM,PROM,EPROM,EEPROM或者闪存,所述介质上存储有电子可读控制信号,所述电子可读控制信号与可编程计算机系统协作(或者能够协作),使得执行相应的方法。
根据本发明的一些实施例包括具有电子可读控制信号的数据载体,其能够与可编程计算机系统协作,使得执行本文中所描述的方法中的一个。
大体而言,本发明的实施例可以实施为具有程序代码的计算机程序产品,当计算机程序产品执行于计算机上时,程序代码操作性地用于执行所述方法中的一个。程序代码可以(例如)存储于机器可读载体上。
其他实施例包括用于执行本文中描述的方法中的一个的计算机程序,其存储于机器可读载体或者非暂时性存储介质上。
换言之,因此,发明方法的实施例为具有当计算机程序运行于计算机上时,用于执行本文中所描述的方法中的一个的程序代码的计算机程序。
因此,本发明方法的另一实施例系数据载体(或者数字存储介质,或者计算机可读介质),所述数据载体包括记录于其上的用于执行本文中所描述的方法中的一个的计算机程序。
因此,本发明方法的另一实施例为表示用于执行本文中所描述的方法中的一个的计算机程序的数据流或者信号序列。数据流或者信号序列可以例如被配置为经由数据通信连接而传输,例如经由因特网。
另一实施例包括处理构件,例如被配置或者经适配以执行本文中所描述的方法中的一个的计算机或者可编程逻辑器件。
另一实施例包括计算机,所述计算机具有安装于其上的用于执行本文中所描述的方法中的一个的计算机程序。
在一些实施例中,可编程逻辑器件(例如,现场可编程门阵列)可用以执行本文中所描述的方法的功能性中的一些或者全部。在一些实施例中,现场可编程门阵列可以与微处理器协作,以使得执行本文中所描述的方法中的一个。一般而言,所述方法优选由任何硬件设备执行。
上述实施例仅说明本发明的原理。应理解,对本文中所描述的配置和细节的修改和变化将对本领域技术人员显而易见。因此,意图为仅受到接下来的权利要求的范畴限制,而不受到通过本文中的实施例的描述解释所呈现的特定细节限制。
Claims (42)
1.一种用于对音频输入数据(11)进行编码的音频编码器,包括:
预处理器(10),用于对所述音频输入数据(11)进行预处理以获得待编码的音频数据;
编码器处理器(15),用于对所述待编码的音频数据进行编码;和
控制器(20),用于控制所述编码器处理器(15),使得取决于所述待编码的音频数据的第一帧的第一信号特性,与第二帧的第二信号特性相比减少将由所述编码器处理器(15)针对所述第一帧编码的音频数据的音频数据项的数量,并且用于对用于所述第一帧的减少数量的音频数据项进行编码的第一数量的信息单元与用于所述第二帧的第二数量的信息单元相比受到更强的增强。
2.根据权利要求1所述的音频编码器,
其中所述编码器处理器(15)包括初始编码级(151)和优化编码级(152),
其中所述控制器(20)被配置为减少由所述初始编码级(151)针对所述第一帧编码的音频数据项的数量,
其中所述初始编码级(151)被配置为使用第一帧初始数量的信息单元对用于所述第一帧的减少数量的音频数据项进行编码,并且
其中所述优化编码级(152)被配置为使用第一帧剩余数量的信息单元对用于所述第一帧的减少数量的音频数据项进行优化编码,其中所述第一帧初始数量的信息单元添加至所述第一帧剩余数量的信息单元产生用于所述第一帧的预定数量的信息单元。
3.根据权利要求2所述的音频编码器,
其中所述控制器(20)被配置为将由所述初始编码级(151)针对所述第二帧编码的音频数据项的数量减少至与所述第一帧相比更高的音频数据项的数量,
其中所述初始编码级(151)被配置为使用第二帧初始数量的信息单元对用于所述第二帧的减少数量的音频数据项进行编码,信息单元的所述第二帧初始数量高于信息单元的所述第一帧初始数量,并且
其中所述优化编码级(152)被配置为使用第二帧剩余数量的信息单元对用于所述第二帧的减少数量的音频数据项进行优化编码,其中所述第二帧初始数量的信息单元添加至所述第二帧剩余数量的信息单元产生用于所述第一帧的所述预定数量的信息单元。
4.根据前述权利要求中任一项所述的音频编码器,
其中所述编码器处理器(15)包括初始编码级(151)和优化编码级(152),
其中所述初始编码级(151)被配置为使用第一帧初始数量的信息单元对用于所述第一帧的减少数量的音频数据项进行编码,
其中所述优化编码级(152)被配置为使用第一帧剩余数量的信息单元对用于所述第一帧的减少数量的音频数据项进行优化编码,其中所述第一帧初始数量的信息单元添加至所述第一帧剩余数量的信息单元产生用于所述第一帧的预定数量的信息单元,并且
其中所述控制器(20)被配置为控制所述编码器处理器(15),使得所述优化编码级(152)使用至少两个信息单元执行所述第一帧的所述减少数量的音频数据项中的至少一个的优化编码,或者使得所述优化编码级(152)针对每一音频数据项使用至少两个信息单元执行多于百分之50的所述减少数量的音频数据项的优化编码,或者
其中所述控制器(20)被配置为控制所述编码器处理器(15),使得所述优化编码级(152)使用少于两个信息单元执行所述第二帧的所有音频数据项的优化编码,或者使得所述优化编码级针对每一音频数据项使用至少两个信息单元执行少于百分之50的所述减少数量的音频数据项的优化编码。
5.根据前述权利要求中任一项所述的音频编码器,
其中所述编码器处理器(15)包括初始编码级(151)和优化编码级(152),
其中所述初始编码级(151)被配置为使用第一帧初始数量的信息单元对用于所述第一帧的减少数量的音频数据项进行编码,
其中所述优化编码级(152)被配置为使用第一帧剩余数量的信息单元对用于所述第一帧的减少数量的音频数据项进行优化编码,
其中所述优化编码级(152)被配置为在至少两个顺序执行的迭代中将所述第一帧剩余数量的信息单元迭代地分配(300,302)至所述减少数量的音频数据项,以计算(304,308,312)用于所述至少两个顺序执行的迭代的所分配信息单元的值,并且按预定次序将用于所述至少两个顺序执行的迭代的所述信息单元的计算值引入(316,318,320)至经编码的输出帧中。
6.根据权利要求5所述的音频编码器,其中所述优化编码级(152)被配置为在第一迭代中按从所述音频数据项的低频信息至所述音频数据项的高频信息的次序,顺序计算(304)用于所述第一帧的所述减少数量的音频数据项中的每一音频数据项的信息单元,
其中所述优化编码级(152)被配置为在第二迭代中按从所述音频数据项的低频信息至所述音频数据项的高频信息的次序,顺序计算(308)用于所述第一帧的所述减少数量的音频数据项中的每一音频数据项的信息单元,并且
其中所述优化编码级(152)被配置为检查(314)已分配的信息单元的数量是否低于小于信息单元的所述第一帧初始数量的用于所述第一帧的信息单元的预定数量,并且在否定检查结果的情况下停止所述第二迭代,或者在肯定检查结果的情况下执行(312)多个进一步迭代,直至获得否定检查结果为止,所述进一步迭代的数量是至少一个,或者
其中所述优化编码级(152)被配置为对非零音频项的数量进行计数,并且从非零音频项的所述数量和小于信息单元的所述第一帧初始数量的用于所述第一帧的信息单元的预定数量来确定迭代的数量。
7.根据前述权利要求中任一项所述的音频编码器,
其中所述编码器处理器(15)包括初始编码级(151)和优化编码级(152),
其中所述初始编码级(151)被配置为使用第一帧初始数量的信息单元对用于所述第一帧的所述减少数量的音频数据项中的每一音频数据项的多个最高有效信息单元进行编码,所述数量大于一,并且
其中所述优化编码级(152)被配置为使用第一帧剩余数量的信息单元对用于所述第一帧的所述减少数量的音频数据项中的每一音频数据项的多个最低有效信息单元进行编码,所述数量对于用于所述第一帧的所述减少数量的音频数据项中的至少一个音频数据项大于一。
8.根据前述权利要求中任一项所述的音频编码器,
其中所述第一信号特性是第一音调值,其中所述第二信号特性是第二音调值,并且其中所述第一音调值指示比所述第二音调值更高的音调,并且
其中所述控制器(20)被配置为将用于所述第一帧的音频数据项的数量减小至小于用于所述第二帧的音频数据项的数量的第一数量,并且将用于对所述第一帧的减少数量的音频数据项中的每一音频数据项进行编码的信息单元的平均数量增加至大于用于对所述第二帧的减少数量的音频数据项中的每一音频数据项进行编码的信息单元的平均数量。
9.根据前述权利要求中任一项所述的音频编码器,其中所述编码器处理器(15)包括:
可变量化器(150),用于对所述第一帧的所述音频数据进行量化以获得用于所述第一帧的经量化音频数据,并且用于对所述第二帧的所述音频数据进行量化以获得用于所述第二帧的经量化音频数据;
初始编码级(151),用于对所述第一帧或者所述第二帧的所述经量化音频数据进行编码;
优化编码级(152),用于对所述第一帧和所述第二帧的残余数据进行编码;
其中所述控制器(20)被配置为用于分析(26,28)所述第一帧的所述音频数据以确定用于所述第一帧的用于所述可变量化器(150)的第一控制值(21),并且用于分析(26,28)所述第二帧的所述音频数据以确定用于所述第二帧的所述可变量化器(150)的第二控制值,所述第二控制值与所述第一控制值(21)不同,并且
其中所述控制器(20)被配置为取决于用于确定所述第一控制值(21)或者所述第二控制值(21)的所述音频数据来执行(23,24)对所述第一帧或者所述第二帧的所述音频数据的操纵或者对从所述第一帧或者所述第二帧的所述音频数据导出的振幅相关值的操纵,并且其中所述可变量化器(150)被配置为在没有所述操纵的情况下对所述第一帧或者所述第二帧的所述音频数据进行量化。
10.根据权利要求1至9中任一项所述的音频编码器,其中所述编码器处理器(15)包括:
可变量化器(150),用于对所述第一帧的所述音频数据进行量化以获得用于所述第一帧的经量化音频数据,并且用于对所述第二帧的所述音频数据进行量化以获得用于所述第二帧的经量化音频数据;
初始编码级(151),用于对所述第一帧或者所述第二帧的所述经量化音频数据进行编码;
优化编码级(152),用于对所述第一帧和所述第二帧的残余数据进行编码;
其中所述控制器(20)被配置用于分析所述第一帧的所述音频数据以确定用于所述第一帧的用于所述可变量化器(150)、用于所述初始编码级(151)或者用于音频数据项减少器(150)的第一控制值(21),并且用于分析所述第二帧的所述音频数据以确定用于所述第二帧的用于所述可变量化器(150)、用于所述初始编码级(151)或者用于音频数据项减少器(150)的第二控制值,所述第二控制值与所述第一控制值不同,并且
其中所述控制器(20)被配置(201)为将第一音调特性确定为所述第一信号特性以确定所述第一控制值,并且将第二音调特性确定为所述第二信号特性以确定所述第二控制值,使得与在第二音调特性的情况下用于所述优化编码级(152)的位预算相比在第一音调特性的情况下增大用于所述优化编码级(152)的位预算,其中所述第一音调特性指示比所述第二音调特性更大的音调。
11.根据权利要求9或10所述的音频编码器,其中所述初始编码级(151)是用于熵编码的熵编码级,或者所述优化编码级(152)是用于对所述第一帧和所述第二帧的残余数据进行编码的残余或者二进制编码级。
12.根据权利要求9至11中任一项所述的音频编码器,
其中所述控制器(20)被配置为确定所述第一控制值或者第二控制值,使得用于所述初始编码级(151)的信息单元的第一预算低于或者等于预定义值,并且其中所述控制器(20)被配置为使用用于所述第一帧或者第二帧的信息单元的所述第一预算和信息单元的最大数量或者所述预定义值来导出用于所述优化编码级(152)的信息单元的第二预算。
13.根据权利要求9至12中任一项所述的音频编码器,其中所述控制器(20)被配置为计算(22)所述振幅相关值作为从所述音频数据的一个或多个音频值导出的多个功率值,并且使用相同操纵值与所述多个功率值中的所有功率值的相加来操纵(24)所述功率值,或者
其中所述控制器(20)被配置为
随机地将相同操纵值与所述帧中包括的多个音频值中的所有音频值相加或者从所述帧中包括的所述多个音频值中的所有音频值中减去(24)所述相同操纵值,或者
加上或者减去通过所述操纵值的相同量值获得但优选地具有随机符号的值,或者
加上或者减去通过减去与所述相同量值稍微不同的项而获得的值,
加上或者减去作为样本从使用所述操纵值的经计算的复数或者实数量值缩放后的标准化概率分布获得的值,或者
其中所述控制器(20)被配置为使用利用指数值对所述第一帧或者第二帧的所述音频数据或者所述第一帧或者第二帧的经下采样的音频数据进行取幂来计算(22)所述振幅相关值,所述指数值大于1。
14.根据权利要求9至13中任一项所述的音频编码器,其中所述控制器(20)被配置为使用所述多个音频数据或者所述振幅相关值的最大值(26),或者使用多个经下采样的音频数据的最大值或者用于所述第一帧或者第二帧的多个经下采样的振幅相关值,来计算(23)用于所述操纵的操纵值。
15.根据权利要求9至14中任一项所述的音频编码器,其中所述控制器(20)被配置为额外地使用信号独立加权值(27)来计算(23)用于所述操纵的操纵值,所述信号独立加权值取决于用于所述第一帧或者第二帧的位速率、帧持续时间和采样频率中的至少一个。
16.根据权利要求9至15中任一项所述的音频编码器,其中所述控制器(20)被配置为使用从所述帧内的所述音频数据或者所述经下采样的音频数据的量值的第一总和、所述帧内的所述音频数据或者所述经下采样的音频数据的量值的第二总和乘以与每一量值相关联的索引、以及所述第二总和与所述第一总和的商中的至少一个导出的信号依赖加权值来计算(23,29)用于所述操纵的操纵值。
18.根据前述权利要求中任一项所述的音频编码器,其中所述预处理器(10)进一步包括:
时间频率转换器(14),用于将时域音频数据转换为所述帧的频谱值;以及
频谱处理器(15),用于计算具有比所述频谱值的频谱包络线更平坦的频谱包络线的经修改频谱值,其中所述经修改频谱值表示将由所述编码器处理器(15)编码的所述第一帧或者所述第二帧的所述音频数据。
19.根据权利要求18所述的音频编码器,其中所述频谱处理器(15)被配置为执行时间噪声整形操作、频谱噪声整形操作和频谱白化操作中的至少一个。
20.根据权利要求9至19中任一项所述的音频编码器,其中所述控制器(20)被配置为使用多个能量值作为用于所述帧的所述振幅相关值来计算所述控制值,其中每一能量值是从作为振幅相关值的功率值和用于所述操纵的信号依赖操纵值导出(22,23,24)的。
21.根据权利要求20所述的音频编码器,其中所述控制器(20)被配置为
取决于所述能量值和用于所述控制值的候选值来计算每一能量值的所需位估计,
累积用于所述能量值和用于所述控制值的所述候选值的所需位估计,
检查用于所述控制值的所述候选值的累积位估计是否满足所允许的位消耗准则,以及
在不满足所允许的位消耗准则的情况下修改用于所述控制值的所述候选值,并且重复所需位估计的所述计算、所需位速率的所述累积和所述检查,直至发现用于所述控制值的经修改候选值的所允许位消耗准则的满足为止。
22.根据权利要求20或21所述的音频编码器,
其中所述控制器(20)被配置为基于以下等式计算所述多个能量值:
E(k)=10log10(PXlp(k)+N(Xf)+2-31),
其中E(k)是针对索引k的能量值,其中PXlp(k)是作为所述振幅相关值的针对索引k的功率值,并且其中N(Xf)是所述信号依赖操纵值。
23.根据权利要求9至22中任一项所述的音频编码器,其中所述控制器(20)被配置为基于对于每一经操纵的音频数据值或者经操纵的振幅相关值所需的累积信息单元的估计来计算所述第一控制值或者第二控制值。
24.根据权利要求9至23中任一项所述的音频编码器,
其中所述控制器(20)被配置为以使得由于所述操纵用于所述初始编码级(151)的位预算增大或者用于所述优化编码级(152)的位预算减小的方式进行操纵。
25.根据权利要求9至24中任一项所述的音频编码器,
其中所述控制器(20)被配置为以使得操纵导致用于具有第一音调的信号的残余编码级的位预算与具有第二音调的信号相比更高的方式进行操纵,其中所述第二音调低于所述第一音调。
26.根据权利要求9至25中任一项所述的音频编码器,
其中所述控制器(20)被配置为以使得用以计算用于所述初始编码级(151)的位预算的所述音频数据的能量相对于将由所述可变量化器(150)量化的所述音频数据的能量增加的方式进行操纵。
27.根据前述权利要求中任一项所述的音频编码器,其中所述编码器处理器(15)包括可变量化器(150),所述可变量化器用于对所述第一帧的所述音频数据进行量化以获得用于所述第一帧的经量化音频数据,并且用于对所述第二帧的所述音频数据进行量化以获得用于所述第二帧的经量化音频数据,
其中所述控制器(20)被配置为计算用于所述第一帧或者所述第二帧的全局增益,并且
其中所述可变量化器(150)包括:用于以所述全局增益进行加权的加权器(155);以及具有固定量化步长的量化器核心(157)。
28.根据前述权利要求中任一项所述的音频编码器,其中所述编码器处理器(15)包括初始编码级(151)和优化编码级(152),
其中所述优化编码级(152)被配置用于在多个迭代中计算用于经量化音频值的优化位,其中,在每一迭代中,优化位指示不同量,或者
其中较低迭代中的优化位指示高于较高迭代中的优化位的量,或者
其中所述量是部分量,该部分量是由所述控制值指示的量化器步长的一部分。
29.根据前述权利要求中任一项所述的音频编码器,其中所述编码器处理器(15)包括优化编码级(152),其中所述优化编码级(152)被配置(304,308,312)为
执行具有至少两个迭代的迭代处理,
检查在第一迭代中经量化音频值或者所述量化音频值连同与用于所述经量化音频值的优化位相关联的潜在第一量当通过全局增益加权时与用于所述第二迭代的第二量相加或者被从用于所述第二迭代的第二量中减去后,是否大于或者小于未被量化的音频值,以及
取决于所述检查的结果设置用于所述第二迭代的优化位。
30.根据前述权利要求中任一项所述的音频编码器,其中所述编码器处理器(15)包括可变量化器(150)和优化编码级(152),其中所述优化编码级(152)被配置为仅针对未由所述可变量化器(150)量化至零的音频值计算优化位。
31.根据前述权利要求中任一项所述的音频编码器,
其中所述控制器(20)被配置为减小针对具有较低频率处的质心的音频数据的操纵的影响,并且
其中所述编码器处理器(15)的初始编码级(151)被配置为在确定用于所述第一帧或者所述第二帧的位预算不足以用于对所述帧的所述经量化音频数据进行编码的情况下从所述音频数据移除高频频谱值。
32.根据前述权利要求中任一项所述的音频编码器,
其中所述控制器(20)被配置为单独地使用用于所述第一帧或者所述第二帧的经操纵的频谱能量值作为用于所述第一帧或者所述第二帧的经操纵的振幅相关值来执行针对每一帧的二分搜索。
33.一种对音频输入数据进行编码的方法,包括:
对所述音频输入数据(11)进行预处理以获得待编码的音频数据;
对所述待编码的音频数据进行编码;和
控制所述编码,使得取决于所述待编码的音频数据的第一帧的第一信号特性,与第二帧的第二信号特性相比减少将针对所述第一帧编码的音频数据的音频数据项的数量,并且用于对用于所述第一帧的减少数量的音频数据项进行编码的第一数量的信息单元与用于所述第二帧的第二数量的信息单元相比受到更强的增强。
34.根据权利要求33所述的方法,其中所述编码包括:
对帧的音频数据进行可变量化以获得经量化音频数据;
对所述帧的所述经量化音频数据进行熵编码;以及
对所述帧的残余数据进行编码;
其中所述控制包括确定用于所述可变量化的控制值,所述确定包括:分析所述第一帧或者所述第二帧的所述音频数据;和取决于用于确定所述控制值的所述音频数据来执行对所述第一帧或者所述第二帧的所述音频数据或者从所述第一帧或者所述第二帧的所述音频数据导出的振幅相关值的操纵,其中所述可变量化在没有所述操纵的情况下对所述帧的所述音频数据进行量化,或者
其中所述控制包括确定所述音频数据的第一音调特性或者第二音调特性并且确定所述控制值,使得与在所述第二音调特性的情况下的用于残余编码级的位预算相比,在所述第一音调特性的情况下增大用于所述残余编码的位预算,其中所述第一音调特性指示比所述第二音调特性更大的音调。
35.一种用于对经编码的音频数据进行解码的音频解码器,所述经编码的音频数据包括用于帧的帧初始数量的信息单元和帧剩余数量的信息单元,所述音频解码器包括:
编码器处理器(50),用于对所述经编码的音频数据进行处理,所述编码器处理器(50)包括初始解码级(51)和优化解码级(52);以及
控制器(60),用于控制所述编码器处理器(50),使得所述初始解码级(51)使用所述帧初始数量的信息单元以获得经初始解码的数据项,并且所述优化解码级(52)使用所述帧剩余数量的信息单元,
其中所述控制器(60)被配置为控制所述优化解码级(52)以在优化所述经初始解码的数据项时使用所述剩余数量的信息单元中的至少两个信息单元对同一个经初始解码的数据项进行优化;以及
后处理器(70),用于对经优化的音频数据项进行后处理以获得经解码的音频数据。
36.根据权利要求35所述的音频解码器,其中所述帧剩余数量的信息单元包括用于按预定次序的至少两个顺序迭代的信息单元的计算值,
其中所述控制器(60)被配置为控制所述优化解码级(52)以针对第一迭代(804)使用用于根据所述预定次序的所述第一迭代的计算值(36),并且针对第二迭代(808)使用用于按所述预定次序的所述第二迭代的计算值(318)。
37.根据权利要求35或36所述的音频解码器,其中所述优化解码级(52)被配置为在第一迭代中按从用于经初始解码的音频数据项的低频信息至用于所述经初始解码的音频数据项的高频信息的次序,从所述帧剩余数量的信息单元顺序读取和应用(804)用于所述帧的每一经初始解码的音频数据项的信息单元,
其中所述优化解码级(52)被配置为在第二迭代中按从用于经初始解码的音频数据项的低频信息至用于所述经初始解码的音频数据项的高频信息的次序,从所述帧剩余数量的信息单元顺序读取和应用(808)用于所述帧的每一经初始解码的音频数据项的信息单元,并且
其中所述控制器(60)被配置为控制所述优化解码级(52),以检查(814)已读取的信息单元的数量是否低于用于所述帧的所述帧剩余信息单元中的信息单元的数量,以在否定检查结果的情况下停止所述第二迭代,或者在肯定检查结果的情况下,执行多个进一步迭代(812),直至获得否定检查结果为止,所述进一步迭代的数量是至少一个,或者
其中所述优化解码级(52)被配置为对非零音频项的数量进行计数,并且从非零音频项的数量和用于所述帧的所述帧剩余信息单元确定迭代的数量。
38.根据权利要求35至37中的一项所述的音频解码器,其中所述优化解码级(52)被配置为在所述帧剩余数量的信息单元中的读取信息数据单元具有第一值时,将偏移加至所述经初始解码的数据项,并且在所述帧剩余数量的信息单元中的所述读取信息数据单元具有第二值时,从所述经初始解码的数据项减去偏移。
39.根据权利要求35至38中的一项所述的音频解码器,其中所述控制器(60)被配置为控制所述优化解码级(52)以执行多个至少两个迭代,其中所述优化解码级(52)被配置为在第一迭代中,在所述帧剩余数量的信息单元中的读取信息数据单元具有第一值时将第一偏移加至所述经初始解码的数据项,并且在所述帧剩余数量的信息单元中的所述读取信息数据单元具有第二值时从所述经初始解码的数据项减去第一偏移,
其中所述优化解码级(52)被配置为在第二迭代中在所述帧剩余数量的信息单元中的读取信息数据单元具有第一值时,将第二偏移加至所述第一迭代的结果,并且在所述帧剩余数量的信息单元中的所述读取信息数据单元具有第二值时,从所述第一迭代的所述结果减去第二偏移,并且
其中所述第二偏移低于所述第一偏移。
40.根据权利要求35至39中的一项所述的音频解码器,其中所述后处理器(70)被配置为在时域中执行逆频谱白化操作(71)、逆频谱噪声整形操作(71)、逆时间噪声整形操作(71)、谱域至时域转换(72)和重叠加法运算(73)中的至少一个。
41.一种对经编码的音频数据进行解码的方法,所述经编码的音频数据包括用于帧的帧初始数量的信息单元和帧剩余数量的信息单元,所述方法包括:
处理所述经编码的音频数据,所述处理包括初始解码步骤和优化解码步骤;以及
控制所述处理,使得所述初始解码使用所述帧初始数量的信息单元以获得经初始解码的数据项,并且所述优化解码步骤使用所述帧剩余数量的信息单元,
其中所述控制包括控制所述优化解码步骤以在优化所述经初始解码的数据项时使用所述剩余数量的信息单元中的至少两个信息单元对同一个经初始解码的数据项进行优化;以及
对经优化的音频数据项进行后处理以获得经解码的音频数据。
42.一种计算机程序,用于在计算机或者处理器上运行时执行根据权利要求33或者权利要求41所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210151650.0A CN114974272A (zh) | 2019-06-17 | 2020-06-10 | 具有信号依赖数量和精度控制的音频编码器、音频解码器和相关方法与计算机程序 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EPPCT/EP2019/065897 | 2019-06-17 | ||
PCT/EP2019/065897 WO2020253941A1 (en) | 2019-06-17 | 2019-06-17 | Audio encoder with a signal-dependent number and precision control, audio decoder, and related methods and computer programs |
PCT/EP2020/066088 WO2020254168A1 (en) | 2019-06-17 | 2020-06-10 | Audio encoder with a signal-dependent number and precision control, audio decoder, and related methods and computer programs |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210151650.0A Division CN114974272A (zh) | 2019-06-17 | 2020-06-10 | 具有信号依赖数量和精度控制的音频编码器、音频解码器和相关方法与计算机程序 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114258567A true CN114258567A (zh) | 2022-03-29 |
Family
ID=67137900
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080058343.7A Pending CN114258567A (zh) | 2019-06-17 | 2020-06-10 | 具有信号依赖数量和精度控制的音频编码器、音频解码器和相关方法与计算机程序 |
CN202210151650.0A Pending CN114974272A (zh) | 2019-06-17 | 2020-06-10 | 具有信号依赖数量和精度控制的音频编码器、音频解码器和相关方法与计算机程序 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210151650.0A Pending CN114974272A (zh) | 2019-06-17 | 2020-06-10 | 具有信号依赖数量和精度控制的音频编码器、音频解码器和相关方法与计算机程序 |
Country Status (13)
Country | Link |
---|---|
US (3) | US20220101866A1 (zh) |
EP (2) | EP3984025A1 (zh) |
JP (2) | JP7518863B2 (zh) |
KR (1) | KR20220019793A (zh) |
CN (2) | CN114258567A (zh) |
AU (2) | AU2020294839B2 (zh) |
BR (2) | BR122022002977A2 (zh) |
CA (1) | CA3143574A1 (zh) |
MX (2) | MX2021015562A (zh) |
RU (1) | RU2022101245A (zh) |
TW (1) | TWI751584B (zh) |
WO (2) | WO2020253941A1 (zh) |
ZA (2) | ZA202110219B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114900246A (zh) * | 2022-05-25 | 2022-08-12 | 中国电子科技集团公司第十研究所 | 噪声基底估计方法、装置、设备及存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2980795A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3186489B2 (ja) * | 1994-02-09 | 2001-07-11 | ソニー株式会社 | ディジタル信号処理方法及び装置 |
JP2005004119A (ja) | 2003-06-16 | 2005-01-06 | Victor Co Of Japan Ltd | 音響信号符号化装置及び音響信号復号化装置 |
FR2888699A1 (fr) * | 2005-07-13 | 2007-01-19 | France Telecom | Dispositif de codage/decodage hierachique |
US20090099851A1 (en) * | 2007-10-11 | 2009-04-16 | Broadcom Corporation | Adaptive bit pool allocation in sub-band coding |
EP2077550B8 (en) * | 2008-01-04 | 2012-03-14 | Dolby International AB | Audio encoder and decoder |
EP2346030B1 (en) * | 2008-07-11 | 2014-10-01 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, method for encoding an audio signal and computer program |
FR2947945A1 (fr) * | 2009-07-07 | 2011-01-14 | France Telecom | Allocation de bits dans un codage/decodage d'amelioration d'un codage/decodage hierarchique de signaux audionumeriques |
KR101508819B1 (ko) * | 2009-10-20 | 2015-04-07 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 멀티 모드 오디오 코덱 및 이를 위해 적응된 celp 코딩 |
CN102222505B (zh) * | 2010-04-13 | 2012-12-19 | 中兴通讯股份有限公司 | 可分层音频编解码方法系统及瞬态信号可分层编解码方法 |
GB2490879B (en) * | 2011-05-12 | 2018-12-26 | Qualcomm Technologies Int Ltd | Hybrid coded audio data streaming apparatus and method |
CN106847295B (zh) * | 2011-09-09 | 2021-03-23 | 松下电器(美国)知识产权公司 | 编码装置和编码方法 |
US9672840B2 (en) * | 2011-10-27 | 2017-06-06 | Lg Electronics Inc. | Method for encoding voice signal, method for decoding voice signal, and apparatus using same |
FR2984580A1 (fr) * | 2011-12-20 | 2013-06-21 | France Telecom | Procede de detection d'une bande de frequence predeterminee dans un signal de donnees audio, dispositif de detection et programme d'ordinateur correspondant |
WO2013183977A1 (ko) * | 2012-06-08 | 2013-12-12 | 삼성전자 주식회사 | 프레임 에러 은닉방법 및 장치와 오디오 복호화방법 및 장치 |
CN107731237B (zh) * | 2012-09-24 | 2021-07-20 | 三星电子株式会社 | 时域帧错误隐藏设备 |
PL3067890T3 (pl) * | 2013-01-29 | 2018-06-29 | Fraunhofer Ges Forschung | Koder audio, dekoder audio, sposób dostarczania zakodowanej informacji audio, sposób dostarczania zdekodowanej informacji audio, program komputerowy i zakodowana reprezentacja, wykorzystujące adaptacyjne względem sygnału powiększanie szerokości pasma |
EP2830064A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection |
US9564136B2 (en) * | 2014-03-06 | 2017-02-07 | Dts, Inc. | Post-encoding bitrate reduction of multiple object audio |
US10194151B2 (en) * | 2014-07-28 | 2019-01-29 | Samsung Electronics Co., Ltd. | Signal encoding method and apparatus and signal decoding method and apparatus |
EP2980793A1 (en) * | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoder, decoder, system and methods for encoding and decoding |
CN111968655B (zh) * | 2014-07-28 | 2023-11-10 | 三星电子株式会社 | 信号编码方法和装置以及信号解码方法和装置 |
TWI602172B (zh) * | 2014-08-27 | 2017-10-11 | 弗勞恩霍夫爾協會 | 使用參數以加強隱蔽之用於編碼及解碼音訊內容的編碼器、解碼器及方法 |
WO2016105216A1 (en) * | 2014-12-22 | 2016-06-30 | Intel Corporation | Cepstral variance normalization for audio feature extraction |
FI3696813T3 (fi) * | 2016-04-12 | 2023-01-31 | Audiokooderi audiosignaalin koodaamiseksi, menetelmä audiosignaalin koodaamiseksi ja tietokoneohjelma havaitulla huippuspektrialeella tarkastettuna ylemmällä taajuuskaistalla | |
WO2019091576A1 (en) * | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits |
-
2019
- 2019-06-17 WO PCT/EP2019/065897 patent/WO2020253941A1/en active Application Filing
-
2020
- 2020-06-10 KR KR1020227000856A patent/KR20220019793A/ko not_active Application Discontinuation
- 2020-06-10 BR BR122022002977-9A patent/BR122022002977A2/pt unknown
- 2020-06-10 MX MX2021015562A patent/MX2021015562A/es unknown
- 2020-06-10 CA CA3143574A patent/CA3143574A1/en active Pending
- 2020-06-10 EP EP20730662.2A patent/EP3984025A1/en active Pending
- 2020-06-10 CN CN202080058343.7A patent/CN114258567A/zh active Pending
- 2020-06-10 CN CN202210151650.0A patent/CN114974272A/zh active Pending
- 2020-06-10 WO PCT/EP2020/066088 patent/WO2020254168A1/en active Application Filing
- 2020-06-10 BR BR112021025582A patent/BR112021025582A2/pt unknown
- 2020-06-10 JP JP2021574961A patent/JP7518863B2/ja active Active
- 2020-06-10 AU AU2020294839A patent/AU2020294839B2/en active Active
- 2020-06-10 EP EP23171372.8A patent/EP4235663A3/en active Pending
- 2020-06-10 MX MX2021015564A patent/MX2021015564A/es unknown
- 2020-06-10 RU RU2022101245A patent/RU2022101245A/ru unknown
- 2020-06-16 TW TW109120247A patent/TWI751584B/zh active
-
2021
- 2021-12-09 ZA ZA2021/10219A patent/ZA202110219B/en unknown
- 2021-12-09 US US17/546,540 patent/US20220101866A1/en active Granted
- 2021-12-10 US US17/547,971 patent/US20220101868A1/en active Pending
- 2021-12-17 AU AU2021286443A patent/AU2021286443B2/en active Active
-
2022
- 2022-02-01 ZA ZA2022/01443A patent/ZA202201443B/en unknown
- 2022-02-15 JP JP2022021237A patent/JP7422966B2/ja active Active
-
2024
- 2024-02-15 US US18/443,287 patent/US20240185873A1/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114900246A (zh) * | 2022-05-25 | 2022-08-12 | 中国电子科技集团公司第十研究所 | 噪声基底估计方法、装置、设备及存储介质 |
CN114900246B (zh) * | 2022-05-25 | 2023-06-13 | 中国电子科技集团公司第十研究所 | 噪声基底估计方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
TW202101428A (zh) | 2021-01-01 |
KR20220019793A (ko) | 2022-02-17 |
WO2020254168A1 (en) | 2020-12-24 |
BR112021025582A2 (pt) | 2022-03-03 |
CA3143574A1 (en) | 2020-12-24 |
MX2021015564A (es) | 2022-03-11 |
EP4235663A3 (en) | 2023-09-06 |
US20220101868A1 (en) | 2022-03-31 |
AU2021286443A1 (en) | 2022-01-20 |
JP7518863B2 (ja) | 2024-07-18 |
WO2020253941A1 (en) | 2020-12-24 |
US20240185873A1 (en) | 2024-06-06 |
TWI751584B (zh) | 2022-01-01 |
JP7422966B2 (ja) | 2024-01-29 |
US20220101866A1 (en) | 2022-03-31 |
CN114974272A (zh) | 2022-08-30 |
AU2020294839A1 (en) | 2022-01-20 |
BR122022002977A2 (pt) | 2022-03-29 |
RU2022101245A (ru) | 2022-02-11 |
AU2021286443B2 (en) | 2023-01-05 |
AU2020294839B2 (en) | 2023-03-16 |
ZA202201443B (en) | 2023-03-29 |
JP2022537033A (ja) | 2022-08-23 |
JP2022127601A (ja) | 2022-08-31 |
EP4235663A2 (en) | 2023-08-30 |
EP3984025A1 (en) | 2022-04-20 |
MX2021015562A (es) | 2022-03-11 |
ZA202110219B (en) | 2022-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101953648B1 (ko) | 오디오 신호 디코딩 또는 인코딩을 위한 시간 도메인 레벨 조정 | |
JP6970789B2 (ja) | 高位周波数帯域における検出されたピークスペクトル領域を考慮してオーディオ信号を符号化するオーディオ符号器、オーディオ信号を符号化する方法、及びコンピュータプログラム | |
JP5356406B2 (ja) | オーディオコーディングシステム、オーディオデコーダ、オーディオコーディング方法及びオーディオデコーディング方法 | |
KR100852481B1 (ko) | 양자화 스텝 사이즈 결정 장치 및 방법 | |
EP2981961B1 (en) | Advanced quantizer | |
US20240185873A1 (en) | Audio encoder with a signal-dependent number and precision control, audio decoder, and related methods and computer programs | |
AU2014280256B2 (en) | Apparatus and method for audio signal envelope encoding, processing and decoding by splitting the audio signal envelope employing distribution quantization and coding | |
RU2782182C1 (ru) | Аудиокодер с зависимым от сигнала управлением точностью и числом, аудиодекодер и связанные способы и компьютерные программы | |
EP3008726A1 (en) | Apparatus and method for audio signal envelope encoding, processing and decoding by modelling a cumulative sum representation employing distribution quantization and coding | |
KR20220011780A (ko) | 신호의존적 수 및 정밀도 제어가 가능한 오디오 인코더, 오디오 디코더 및 관련 방법 및 컴퓨터 프로그램 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |