CN101006496A - 可分级音频编码 - Google Patents
可分级音频编码 Download PDFInfo
- Publication number
- CN101006496A CN101006496A CNA2005800282897A CN200580028289A CN101006496A CN 101006496 A CN101006496 A CN 101006496A CN A2005800282897 A CNA2005800282897 A CN A2005800282897A CN 200580028289 A CN200580028289 A CN 200580028289A CN 101006496 A CN101006496 A CN 101006496A
- Authority
- CN
- China
- Prior art keywords
- signal
- excitation pattern
- expression
- audio
- decoder
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005284 excitation Effects 0.000 claims abstract description 99
- 230000005236 sound signal Effects 0.000 claims abstract description 76
- 238000000034 method Methods 0.000 claims abstract description 21
- 230000003595 spectral effect Effects 0.000 claims abstract description 6
- 238000004364 calculation method Methods 0.000 claims description 17
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 230000010076 replication Effects 0.000 claims description 2
- 238000001228 spectrum Methods 0.000 abstract description 13
- 230000000873 masking effect Effects 0.000 abstract description 3
- 230000004044 response Effects 0.000 description 6
- 244000025254 Cannabis sativa Species 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000011002 quantification Methods 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000007792 addition Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 210000002469 basement membrane Anatomy 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 210000000883 ear external Anatomy 0.000 description 1
- 210000000959 ear middle Anatomy 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/028—Noise substitution, i.e. substituting non-tonal spectral components by noisy source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/03—Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/038—Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及音频编码器和解码器以及音频编码和解码方法。在优选编码器实施方式中,由确定性编码器装置对音频信号进行编码,以形成第一编码信号部分。该音频信号的频谱由激励图案(即,与人类听觉系统滤波器相应的频谱值)确定并表达为第二编码信号部分。还根据激励图案提取出掩蔽曲线,这样提高了从位速率的角度来说的编码效率。在优选解码器中,由确定性解码器装置解码出第一编码信号部分。噪声发生器使用解码第一信号部分与第二信号部分(即,原始音频信号对应的激励图案)一同来生成噪声信号。然后将噪声信号加到第一解码信号部分,以形成输出音频信号。在解码器端,还根据第二编码信号部分(即,激励图案)提取出掩蔽曲线。噪声信号是这样生成的:使得输出音频信号表现出的激励图案几乎与原始音频信号相同。这样,获得了感受到的高质量声音,同时编码信号是可分级的,因为第一信号部分的编码与解码之间的偏差在解码器端由噪声发生器进行了补偿。在优选实施方式中,编码装置包括正弦编码器。
Description
技术领域
本发明涉及音频信号编码的领域。尤其是,本发明涉及适合于低位速率的高效音频编码。更加具体地讲,本发明涉及可分级音频编码。本发明涉及一种编码器、一种解码器、编码和解码的方法、一种编码音频信号、具有代表这一编码信号的数据的存储和传输介质以及具有编码器和/或解码器的装置。
背景技术
在低位速率音频编码中,通常可用位速率过低,以至于不能用诸如正弦或波形编码器这样的确定性类型的编码器来模拟音频信号的整个频谱。已经使用了两种手段来克服这一问题。
按照一种手段,对要加以模拟的信号的带宽加以限制,从而使得可用位速率足以用来用确定性编码器模拟有限带宽。这种手段的缺点在于,必须的带宽限制实际上造成了音频质量下降。
按照第二种手段,对整个带宽进行模拟。使用大部分的可用位速率来由确定性编码器对部分信号进行模拟,而音频信号剩下的部分是按照噪声进行模拟的。这通常会得到可接受的结果,因为所感觉到的原始音频信号的带宽和音色几乎都保持不变。不过,对第二种所提到的手段来说,问题是确定应当如何产生噪声信号。
在使用正弦编码器作为确定性编码器时,通常将残余信号(即,减掉各个音频段中的正弦分量之后剩下的信号)用作估算噪声参数的基础。很多高级的编码器在噪声参数估算之前就准备好了残余信号,以克制诸如解码后信号的过度嘈杂声音质量或者由于噪声编码器的频谱分辨率过差而造成的低频假声这样的一些假声。在WO2004049311中可以找到这种手段的一个例子。
在使用波形编码器时,例如,在使用变换编码器时,编码器判断哪些音频频带不应或不能由波形编码器模拟。然后送出与这些遭忽略的频带相关的信息,从而使得解码器能够据此产生噪声。
前面介绍的方法受到这样的缺点的困扰:在编码器端必须已经做出了关于将要在解码器端产生的噪声信号的最终判决。结果,一旦对信号进行了编码,就不再允许改变解码器的确定性部分所用的参数或数据。而这种改变有可能会发生在例如传输编码信号期间或者在对压缩音频文件进行快速大小重定(此时会抛弃某些信息层)期间。如果发生了这种情况,结果将会是,在解码器端,所产生的噪声信号将会与来自确定性解码器部分的结果信号相匹配并且结果会造成相当严重的听得到的假声。换句话说,按照所介绍的原理进行的噪声编码是不可分级的,因为在估算了噪声参数之后就不再能够对确定性信号进行改造了。
发明内容
可以将提供给出可分级编码(即,能够实现在解码之前进行的对编码信号的改造,而不会造成结果得到的解码信号带有严重的可听见的假声)的方法以及音频编码器和解码器看作本发明的目的。
按照本发明的第一个方面,这一目的是通过提供一种适用于对音频信号进行编码的音频编码器而实现的,该音频编码器包括:
-编码器装置,该编码器装置适用于将音频信号编码为第一编码信号部分,
-计算装置,该计算装置适用于计算音频信号的激励图案的表达并且作为第二编码器信号部分来给出所述表达,该计算装置此外还适用于根据激励图案的表达计算掩蔽曲线的表达,并且将这一掩蔽曲线的表达提供给编码器装置,以便优化编码效率。
术语“激励图案(excitation pattern)”要理解为是跨越人类听觉系统中的听觉滤波器的谱能量分布,也见[1](参见“具体实施方式”部分末尾的参考文献列表)。激励图案是人类基膜或人类听觉神经对音频信号的响应的表达。这一响应可以由例如40个并联听觉滤波器的滤波器联排来模拟。这样,认为包括各自与听觉滤波器的频带的信号层级相关的40个值的激励图案的表达是人类听觉系统的适当模型。这样,音频信号的激励图案是音频信号的参数频谱描述。借助因听觉滤波器形状的频谱重叠而相互有关的例如40个值的表达,如果使用例如差分编码的话,激励图案的内容从要包含在编码音频信号中的数据量的角度来说是相当廉价的。取决于例如目标频率范围,激励图案可以由少于40个值来表达,比如30个值,比如20个值,或者更少。
与音频信号相关的“掩蔽曲线(masking curve)”要理解为是在将音频信号输入到人类听觉系统中的情况下的人类听觉阈的频谱表达。对于编码精度而言,这是非常重要的,因为它给出了带有这样的信息的编码器装置:只要加在原始信号上的可能有的失真或噪声产物不超过掩蔽曲线,那么就感受不到这些产物。这样,可以通过相对于掩蔽曲线对信号分量进行编码来避免针对原始信号的感受不到的细节进行的不必要的位分配,进行例如正弦幅度或变换系数的编码。由此,掩蔽曲线表达有助于提高编码器装置的编码效率。
按照第一方面的音频编码器在第二编码信号部分的内容(即,编码器的输出位流中的原始音频信号的激励图案的内容)的帮助下给出了可分级编码信号。这样,由于为接收该编码信号的解码器提供了与原始信号的激励图案有关的信息,因此可以将适当的信号(例如噪声)加到第一解码信号部分上,以致生成表现出的激励图案几乎与原始信号的激励图案相同的结果信号。结果,所感受到的再现信号的音色将会类似于原始信号,并且因此确保了与总体声音质量有关的关键参数。
从感觉上讲,重建原始激励图案是合乎要求的感知目标,因为激励图案描述了跨越不同听觉滤波器的能量分布,并且因而包括与适当重构原始频谱包络所需要的信息相比不多也不少的频谱包络信息。不过,应当注意,激励图案并不包含所有的与感觉相关的信息。音频信号的时域结构一般来说并没有采集到激励图案内。鉴于这一时域信息是与感觉有关的,因此采取了用编码器装置来部分地对此进行模拟,因而包含在了第一编码信号部分中。不过,激励图案编码器也能够以两种方式编码时域信息。第一种,通过有规律地更新激励参数。第二种,通过使用包含所需的时域信息的时域包络来调制要加到第一解码信号部分上的信号。
将原始音频信号的激励图案包含在编码位流中的另一个优点在于,它为在编码器和解码器两端轻松计算原始信号的相应掩蔽曲线的表达提供了方便的信息。从第一编码信号部分的编码效率的角度来说,掌握掩蔽曲线是很重要的,因为掩蔽曲线包括使得编码器能够判定是否可以因为参数值的某些部分由于人类听觉系统的掩蔽导致聆听者在最终信号中感觉不到而忽略这些部分的信息。优选地,掩蔽曲线的表达在编码器端是根据激励图案的量化表达而计算出来的。由此,确保了在编码器和解码器端可以等同地得到相同的掩蔽曲线。
优选地,音频编码器装置包括从下列编码器构成的组中选取的确定性信号类型的编码器:参数编码器、变换编码器、波形编码器、规则脉冲激励编码器和码本激励线性预测编码器。
本发明的第二个方面给出了一种适用于从编码音频信号再生音频信号的音频解码器,该音频解码器包括:
-适用于由第二编码音频信号部分生成该音频信号的激励图案的表达的装置,
-解码器装置,该解码器装置适用于由第一编码信号部分生成第一解码信号部分,
-信号发生器装置,该信号发生器装置适用于生成第二解码信号部分,使得第一和第二解码信号部分的总和表现出的激励图案基本上等于所述音频信号的激励图案。
为了创建具有与原始信号类似的感觉得到的频谱特性的解码音频信号,将原始信号的激励图案与解码出来的第一编码信号部分的激励图案进行比较。可能有的偏差将会由解码器通过添加适当信号来加以补偿,以致至少从激励图案的角度来讲结果得到的信号类似于原始信号。这样,解码器就不需要包括与编码器装置精确反向的解码装置。
优选地,解码器包括用来提供第一和第二解码信号部分的总和作为原始音频信号的表达的装置。
优选地,解码器装置包括从下列解码器构成的组中选取的确定性信号类型的解码器:参数解码器、变换解码器、波形解码器、规则脉冲激励编码器和码本激励线性预测编码器。
解码器装置可以利用在编码器中使用的基于原始音频信号的掩蔽曲线的表达。这个掩蔽曲线方便地基于从第二解码信号部分中提取出来的激励图案的表达。
信号发生器装置可以包括噪声发生器或谱带复制装置或者它们的组合。优选地,信号发生器包括用来通过使用迭代方法根据激励图案的表达来生成第二解码信号部分的装置。
在本发明的第三个方面中,给出了一种对音频信号进行编码的方法,该方法包括步骤:
-计算音频信号的激励图案的表达,
-根据激励图案的表达计算掩蔽曲线的表达,
-通过利用掩蔽曲线按照编码方案将音频信号编码为第一编码信号部分,和
-给出包括音频信号的激励图案的表达的第二编码信号部分。
此处的解释说明与针对第一个方面的解释说明相同。
在本发明的第四个方面中,给出了一种由编码音频信号再生音频信号的方法,该方法包括步骤:
-由第二编码信号部分生成音频信号的激励图案的表达,
-由激励图案的表达生成掩蔽曲线的表达,
-按照解码方案将第一编码信号部分解码成第一解码信号部分,
-根据激励图案的表达生成第二解码信号部分,使得第一和第二解码信号部分的总和表现出的激励图案基本上等于音频信号的激励图案。
此处的解释说明与针对第二个方面的解释说明相同。
在本发明的第五个方面中,给出了表达音频信号的编码音频信号,该编码音频信号包括:包括第一编码信号部分的第一部分,和包括音频信号的激励图案的表达的第二部分。
该编码信号可以是具有遵从标准数字音频格式的格式的数字电子信号。该信号可以用两个音频装置之间的电连接电缆来传送。不过,该编码信号可以是无线信号,比如使用射频载波的空中传播信号,或者可以是适合于使用光纤传输的光信号。
在本发明的第六个方面中,给出了一种存储介质,包括表达按照第五个方面的编码音频信号的数据。该存储介质优选地是标准音频数据存储介质,比如DVD、DVD+r、DVD+rw、DVD-r、DVD-rw、CD、CD-r、CD-rw、可读写CD、闪存、记忆棒等。不过,也可以是计算机数据存储介质,比如计算机硬盘、计算机存储器、固态装置、软盘等。
在本发明的第七个方面中,给出了包括按照第一个方面的音频编码器的装置。
在本发明的第八个方面中,给出了包括按照第二个方面的音频解码器的装置。
按照第七个和第八个方面的优选装置是所有不同类型的基于磁带、磁盘或存储器的音频记录器和播放器。例如:随身听、车载CD播放器、DVD播放器、计算机用的音频处理器等。此外,可以有益地用于移动电话。
附图说明
在下文中,将参照附图更加详细地介绍本发明,其中:
附图1图解说明优选音频编码器的框图,和
附图2图解说明相应音频解码器的框图。
具体实施方式
附图1表示图解说明针对信号流动的优选音频编码器的原理的框图。将音频输入信号IN供应给编码器装置ENC。该编码器装置ENC给出第一编码信号部分,将该第一编码信号部分供应给位流编码器BSE,该位流编码器BSE将第一编码信号部分提供给从该音频编码器输出的输出位流OUT。优选地,编码器装置包括确定性类型的编码器,比如正弦编码器或者变换编码器。在正弦编码器的情况下,该编码器确定音频输入信号IN的哪些部分要用正弦波模拟。在变换编码器的情况下,编码器装置确定一组变换系数来代表音频输入信号IN。
在附图1的实施方式中,音频输入信号IN的频谱表达由其激励图案来表达。将音频输入信号IN供应给激励图案计算装置EPC,该激励图案计算装置EPC适用于计算原始信号的激励图案,优选地使用40个值来表达激励图案,例如,人类听觉系统临界频带的层级。不过,对于某些应用,可以优先排除某些听觉滤波器,从而例如仅仅使用完整激励图案中的30个值。对于最低声音频率并不重要的应用,比如移动电话,某些最低频带可以忽略不计。
优选地,以激励图案中随时间进行的变化能够得到跟踪的方式针对短的输入信号段计算激励图案。将激励图案供应给位流编码器BSE并且从而将其包含在输出位流OUT中。
音频编码器包括掩蔽曲线计算单元MCC,该掩蔽曲线计算单元MCC适用于接收由激励图案计算装置EPC计算出来的激励图案。将由掩蔽曲线计算单元MCC基于激励图案计算出来的掩蔽曲线供应给编码器装置ENC。该编码器装置ENC适用于根据掩蔽曲线提高它的编码效率,因为掩蔽曲线会告知编码器装置音频输入信号IN中不需要加以编码的部分(因为它们将会由人类听觉系统掩蔽并且因此在最终信号中是感受不到的)。此外,可以例如相对于掩蔽曲线进行第一编码信号部分的参数的编码,这样可以避免不必要的位分配。掩蔽曲线优选地是按照[2]计算的。与掩蔽曲线计算相关的更多细节在下面给出。
附图2图解说明优选的音频解码器,优选地是用于接收来自前面介绍的音频编码器的表达编码音频信号的输入位流IN的解码器。该音频解码器包括位流解码器BSD,该位流解码器BSD适用于从输入位流IN中取回信息,从而生成第一和第二编码信号部分。
将第一编码信号部分供应给解码器装置DEC,该解码器装置DEC优选地包括确定性类型的解码器,比如正弦或变换解码器。解码器装置DEC必须具有与产生第一编码信号部分的编码器相同的类型。不过,可能有这样的情况:在解码器中,接收到的是位流/参数的经过缩减的形式,而不是在解码器处最初发送或可得到的形式。解码器装置DEC响应于第一编码信号部分生成第一解码信号部分。
将第二编码信号部分(即,原始音频信号的激励图案)供应给信号发生器,在本优选实施方式中,将该信号发生器图示为噪声建模器NM。将第一解码信号部分也供应给噪声建模器NM,该噪声建模器NM响应于此生成第二解码信号部分。噪声建模器NM适用于生成第二解码信号部分(即,噪声信号),以使第一和第二解码信号部分的总和构成原始音频信号的表达并且表现出的激励图案仅仅细微偏离原始音频信号的激励图案。与此有关的更多细节将在下面给出。
将第一和第二解码信号部分供应给求和装置SUM,该求和装置SUM适用于将第一和第二解码信号部分相加,以生成输出信号OUT,该输出信号OUT是在输入位流IN中接收到的编码音频信号的解码表达并且因此是原始音频信号的表达。
音频解码器此外还包括掩蔽曲线计算单元MCC,该掩蔽曲线计算单元MCC适用于接收第二编码信号部分(即,原始信号激励图案)。响应于第二编码信号部分的接收,掩蔽曲线计算单元MCC基于原始激励图案向解码器装置DEC供应掩蔽曲线表达。这个掩蔽曲线表达由解码器DEC用来解码第一编码信号部分,只要第一编码信号部分的参数的编码是例如使用该掩蔽曲线进行的,这样避免了不必要的位分配。
在下文中,用正弦编码器作为编码装置ENC来采用附图1中所示的音频编码器实施方式的方案。采用正弦编码器是基于[3]中介绍的正弦分析技术。
对音频输入信号IN进行编码的第一步骤是估算激励图案。这个估算优选地基于[2]中介绍的感知模型。在[2]中,发现掩蔽函数v(fm)是由下式给出的:
其中fm是计算掩蔽曲线所针对的频率,f是掩蔽器频谱中分量的频率,
是所评估的音频段的有效持续时间,Hom是人类外耳和中耳中采用的过滤,γi是模拟人类听觉滤波函数的第i个伽马音调滤波器的传递函数,m是原始音频输入信号的频谱,而Ca和Cs是校准常数。
激励图案是由下列量定义的:
这个激励图案具有指定听觉滤波器编号的系数i。一般来说,可以将听觉滤波器的编号限制到大约40个值,并且因此可以获得原始输入音频信号频谱的相对廉价的表达。在可以进行编码之前,需要对各个激励参数Ei进行量化。优选的是对数量化。优选地,使用介于0.5dB与5dB之间的步长大小,更好的步长大小为约2dB。结果得到的量化参数记为Eqi。
一旦知道了激励图案,也就知道了掩蔽曲线,这一点可以从等式(1)看出,在等式(1)中,分母包括与第i个激励图案参数相等的表达式,而分子不取决于输入信号。这样,可以将等式(1)写为:
优选地,使用经过量化的激励参数来生成掩蔽曲线。这确保由编码器使用的掩蔽曲线与解码器使用的掩蔽曲线一致,因为在解码器端计算出来的掩蔽曲线必须基于在第二编码信号部分中接收到的量化激励参数。
由位流编码器BSE进行的激励图案参数Eqi的编码可以通过使用帧内差分编码来有效地完成。通过定义EΔqi=Eq(i+1)-Eqi,可以得到变化不太大的适当的差异参数组,并且在这种情况下,可以对某些帧使用额外的时间差编码。
在使用正弦编码器的编码器实施方式中,输入音频信号IN的部分是用正弦波来模拟的。通过使用掩蔽曲线可以更加有效地编码正弦参数。有多种从包含在掩蔽曲线中的信息中获益的方式。一种方法是将所有正弦波幅度值除以掩蔽曲线。通过进行这种变换,幅度参数的熵将会减小,因为通过掩蔽曲线的相除,幅度值的分布得到了大大压缩。
从其中获得益处的另一种可选方法是在诸如[4]中提出的高速度量化方案中利用掩蔽曲线。注意,按照另外一种可选方案,在使用变换编码器来编码确定性信号部分的时候,某些技术(见例如[5])在对变换系数进行编码之前用掩蔽函数对变换系数进行加权。在解码器端,要进行反变换。加权曲线有效地消除了对指定变换系数的缩放的辅助信息进行编码的必要性。
解码处理由对激励图案参数进行解码开始。使用等式(3)可以得出掩蔽曲线,可以使该掩蔽曲线用在解码器装置DEC对第一编码信号部分进行解码的过程中。
噪声建模器NM响应于激励图案生成噪声信号和第一解码信号部分。存在各种各样的可用于使噪声信号同步、以使得这一噪声信号与第一解码信号部分一起具有与原始音频信号类似的激励图案的算法。在下文中,将会介绍一种预算复杂度相对较低的产生良好结果的方法。
假设分析和合成段的长度为M,其中M为偶数,则合成段的频谱表达中,前1/2M个复数定义完整的信号,因为知道时域信号是实数。将这1/2M个数分成L个带宽与等效矩形带宽(ERB)成比例的噪声带,比如[6]中所提出的。各个噪声带的L个开始位置记为kj。此外,kj+1是前一个噪声带的结束位置加上一。
将扩展矩阵G定义为:
扩展矩阵定义各个噪声带内的能量是如何跨越听觉滤波器i分布的。基于该扩展矩阵,将逆向扩展矩阵定义为:
该算法现在将尝试着为各个噪声带找出能量值Xj,以使
尽可能接近各个i对应的原始信号的激励图案Eqi。注意,Edi是第一编码信号部分的激励图案,并且bi(bi≥1)是适用于补偿量化在第一和第二编码信号部分中的影响(这一影响可能会导致解码器产生过多的噪声)的系数。对于bi,已经发现良好的值为1.3,不过,取决于所选择的量化方案并且取决于i(对于较小的i(即低频率)有较大的值),可以得到更好的结果。对于bi=1的情况,不进行补偿。
下面6个步骤定义了为Xj得出适当解的优选迭代方法:
步骤1,对于所有的j,初始化Xj: Xj=1 (7)
步骤2,按照后式计算激励图案:
步骤3,按照后式计算误差:
步骤4,按照后式拓展误差:
步骤5,按照后式修正误差: Xj:=Xjcj. (11)
步骤6,如果迭代处理没有完成,返回到步骤2。
优选地,为这一迭代方法选择这样一个停止准则:迭代过程在所有cj值足以接近完整之后或者按照另一种可选方案在固定数量的迭代之后停止。在后一种情况下,已经发现选择总共20次迭代为停止准则足以得出良好质量的噪声信号。
现在将能量值Xj供应给噪声信号W的频谱表达,从而对于各个能量带j:
使用反离散傅立叶变换来将这一信号转换到时域。此后接着进行缩放、窗口处理和重叠相加,以实现即将加到第一解码信号部分上的噪声信号的最终构成。
前面介绍的使用正弦编码器生成第一编码信号部分的实施方式已经使用M=2048的段长度和段之间50%的重叠在44.1kHz的采样频率下进行了测试。在仅仅使用激励图案参数的帧内差分编码的时候,需要9-10kbps的位速率来表达激励图案,即,第二编码信号部分。
结合正弦编码器/解码器,能够获得良好的声音质量,此时一般来说噪声得以与来自正弦解码器的确定性信号部分良好结合。已经证明噪声模式是可分级的。与正弦解码器中使用的正弦波的数量无关,可以传输相同的激励图案并且在解码器端能够生成适当的噪声信号,以补充正弦信号部分。
按照本发明的编码器和解码器可以实现在带有数字信号处理器的单独一个芯片上。然后可以将该芯片内置到诸如音频装置之类的装置中。这些编码器和解码器可以纯粹地由运行在应用装置的主信号处理器上的算法来实现。
除了从位速率的角度来说的编码效率以外,所介绍的编码方法还提供了要由编码器承担的运算负担方面的高效率。
Claims (20)
1.一种适用于对音频信号(IN)进行编码的音频编码器,该音频编码器包括:
-编码器装置(ENC),该编码器装置适用于将音频信号(IN)编码为第一编码信号部分,
-计算装置,该计算装置适用于计算音频信号(IN)的激励图案(EPC)的表达并且提供所述表达作为第二编码器信号部分,该计算装置此外还适用于根据激励图案(EPC)的表达计算掩蔽曲线(MCC)的表达,并且将这一掩蔽曲线(MCC)的表达提供给编码器装置(ENC),以便优化编码效率。
2.按照权利要求1所述的音频编码器,其中音频编码器装置(ENC)包括从下列编码器构成的组中选取的确定性信号类型的编码器:参数编码器、变换编码器、波形编码器、规则脉冲激励编码器和码本激励线性预测编码器。
3.按照权利要求1所述的音频编码器,包括用于在提供激励图案(EPC)的表达作为第二编码信号部分之前生成激励图案(EPC)的表达的量化形式的装置。
4.按照权利要求1所述的音频编码器,包括适用于按照从由帧内差分编码和跨段差分编码构成的组中选取的编码方案对第二编码信号部分进行编码的装置。
5.一种适用于从编码音频信号(IN)再生音频信号(OUT)的音频解码器,该音频解码器包括:
-适用于由第二编码音频信号部分生成该音频信号的激励图案的表达的装置,
-解码器装置(DEC),该解码器装置适用于由第一编码信号部分生成第一解码信号部分,
-信号发生器(NM)装置,该信号发生器装置适用于生成第二解码信号部分,使得第一和第二解码信号部分的总和表现出的激励图案基本上等于所述音频信号的激励图案。
6.按照权利要求5所述的音频解码器,此外还包括求和装置,该求和装置适用于生成音频信号(OUT)的表达作为第一和第二解码信号部分的总和(SUM)。
7.按照权利要求5所述的音频解码器,其中信号发生器装置(NM)包括用于通过使用迭代方法根据音频信号(IN)的激励图案的表达生成第二解码信号部分的装置。
8.按照权利要求5所述的音频解码器,其中信号发生器装置(NM)适用于进行从音频信号的激励图案中减去第一解码信号部分(DEC)的激励图案的表达的操作。
9.按照权利要求5所述的音频解码器,其中信号发生器装置(NM)包括噪声发生器。
10.按照权利要求5所述的音频解码器,其中信号发生器装置(NM)包括谱带复制装置。
11.按照权利要求5所述的音频解码器,其中解码器装置(DEC)包括从下列解码器构成的组中选取的确定性信号类型的解码器:参数解码器、变换解码器、波形解码器、规则脉冲激励编码器和码本激励线性预测编码器。
12.按照权利要求5所述的音频解码器,此外还包括适用于计算与音频信号(IN)的激励图案的表达对应的掩蔽曲线(MCC)的表达并且将掩蔽曲线的表达提供给解码器装置(DEC)的装置。
13.一种对音频信号进行编码的方法,该方法包括步骤:
-计算音频信号的激励图案的表达,
-根据激励图案的表达计算掩蔽曲线的表达,
-通过利用掩蔽曲线按照编码方案将音频信号编码为第一编码信号部分,和
-提供包括音频信号的激励图案的表达的第二编码信号部分。
14.一种由编码音频信号再生音频信号的方法,该方法包括步骤:
-由第二编码信号部分生成音频信号的激励图案的表达,
-由激励图案的表达生成掩蔽曲线的表达,
-按照解码方案将第一编码信号部分解码成第一解码信号部分,
-根据激励图案的表达生成第二解码信号部分,使得第一和第二解码信号部分的总和表现出的激励图案基本上等于音频信号的激励图案。
15.表达音频信号的编码音频信号,该编码音频信号包括:
-包括第一编码信号部分的第一部分,和
-包括音频信号的激励图案的表达的第二部分。
16.一种存储介质,包括表达按照权利要求15的编码音频信号的数据。
17.包括按照权利要求1的音频编码器的装置。
18.包括按照权利要求5的音频解码器的装置。
19.适用于按照权利要求13的方法对音频信号进行编码的计算机可读程序代码。
20.适用于按照权利要求14的方法对编码音频信号进行解码的计算机可读程序代码。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP04103940.5 | 2004-08-17 | ||
EP04103940 | 2004-08-17 | ||
PCT/IB2005/052483 WO2006018748A1 (en) | 2004-08-17 | 2005-07-25 | Scalable audio coding |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101006496A true CN101006496A (zh) | 2007-07-25 |
CN101006496B CN101006496B (zh) | 2012-03-21 |
Family
ID=35448254
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2005800282897A Expired - Fee Related CN101006496B (zh) | 2004-08-17 | 2005-07-25 | 可分级音频编码 |
Country Status (6)
Country | Link |
---|---|
US (1) | US7921007B2 (zh) |
EP (1) | EP1782419A1 (zh) |
JP (1) | JP2008510197A (zh) |
KR (1) | KR20070051857A (zh) |
CN (1) | CN101006496B (zh) |
WO (1) | WO2006018748A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101785316B (zh) * | 2007-08-17 | 2012-11-28 | 三星电子株式会社 | 用于处理死亡正弦波和普通连续正弦波的音频编码方法和设备以及音频解码方法和设备 |
CN102282611B (zh) * | 2008-11-18 | 2013-05-08 | 法国电信公司 | 数字音频信号的分级编码方法和分级编码器 |
TWI748465B (zh) * | 2020-05-20 | 2021-12-01 | 明基電通股份有限公司 | 噪音判斷方法及噪音判斷裝置 |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101299155B1 (ko) | 2006-12-29 | 2013-08-22 | 삼성전자주식회사 | 오디오 부호화 및 복호화 장치와 그 방법 |
KR101411900B1 (ko) * | 2007-05-08 | 2014-06-26 | 삼성전자주식회사 | 오디오 신호의 부호화 및 복호화 방법 및 장치 |
KR101346771B1 (ko) * | 2007-08-16 | 2013-12-31 | 삼성전자주식회사 | 심리 음향 모델에 따른 마스킹 값보다 작은 정현파 신호를효율적으로 인코딩하는 방법 및 장치, 그리고 인코딩된오디오 신호를 디코딩하는 방법 및 장치 |
KR101380170B1 (ko) * | 2007-08-31 | 2014-04-02 | 삼성전자주식회사 | 미디어 신호 인코딩/디코딩 방법 및 장치 |
US9055374B2 (en) * | 2009-06-24 | 2015-06-09 | Arizona Board Of Regents For And On Behalf Of Arizona State University | Method and system for determining an auditory pattern of an audio segment |
DK3040988T3 (en) * | 2011-11-02 | 2018-01-08 | ERICSSON TELEFON AB L M (publ) | AUDIO DECODING BASED ON AN EFFECTIVE REPRESENTATION OF AUTOREGRESSIVE COEFFICIENTS |
US9999769B2 (en) * | 2014-03-10 | 2018-06-19 | Cisco Technology, Inc. | Excitation modeling and matching |
US11416742B2 (en) * | 2017-11-24 | 2022-08-16 | Electronics And Telecommunications Research Institute | Audio signal encoding method and apparatus and audio signal decoding method and apparatus using psychoacoustic-based weighted error function |
EP3576088A1 (en) * | 2018-05-30 | 2019-12-04 | Fraunhofer Gesellschaft zur Förderung der Angewand | Audio similarity evaluator, audio encoder, methods and computer program |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4815132A (en) | 1985-08-30 | 1989-03-21 | Kabushiki Kaisha Toshiba | Stereophonic voice signal transmission system |
EP0551705A3 (en) * | 1992-01-15 | 1993-08-18 | Ericsson Ge Mobile Communications Inc. | Method for subbandcoding using synthetic filler signals for non transmitted subbands |
US5632003A (en) * | 1993-07-16 | 1997-05-20 | Dolby Laboratories Licensing Corporation | Computationally efficient adaptive bit allocation for coding method and apparatus |
US5623577A (en) * | 1993-07-16 | 1997-04-22 | Dolby Laboratories Licensing Corporation | Computationally efficient adaptive bit allocation for encoding method and apparatus with allowance for decoder spectral distortions |
JP3024468B2 (ja) * | 1993-12-10 | 2000-03-21 | 日本電気株式会社 | 音声復号装置 |
JPH07261797A (ja) * | 1994-03-18 | 1995-10-13 | Mitsubishi Electric Corp | 信号符号化装置及び信号復号化装置 |
JPH1091194A (ja) * | 1996-09-18 | 1998-04-10 | Sony Corp | 音声復号化方法及び装置 |
US6064954A (en) * | 1997-04-03 | 2000-05-16 | International Business Machines Corp. | Digital audio signal coding |
SE512719C2 (sv) * | 1997-06-10 | 2000-05-02 | Lars Gustaf Liljeryd | En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion |
WO1999053479A1 (en) * | 1998-04-15 | 1999-10-21 | Sgs-Thomson Microelectronics Asia Pacific (Pte) Ltd. | Fast frame optimisation in an audio encoder |
US6493665B1 (en) | 1998-08-24 | 2002-12-10 | Conexant Systems, Inc. | Speech classification and parameter weighting used in codebook search |
US7272556B1 (en) * | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
US6615169B1 (en) * | 2000-10-18 | 2003-09-02 | Nokia Corporation | High frequency enhancement layer coding in wideband speech codec |
GB0108080D0 (en) * | 2001-03-30 | 2001-05-23 | Univ Bath | Audio compression |
US20040002856A1 (en) | 2002-03-08 | 2004-01-01 | Udaya Bhaskar | Multi-rate frequency domain interpolative speech CODEC system |
US7328151B2 (en) * | 2002-03-22 | 2008-02-05 | Sound Id | Audio decoder with dynamic adjustment of signal modification |
US20030187663A1 (en) | 2002-03-28 | 2003-10-02 | Truman Michael Mead | Broadband frequency translation for high frequency regeneration |
US7447631B2 (en) * | 2002-06-17 | 2008-11-04 | Dolby Laboratories Licensing Corporation | Audio coding system using spectral hole filling |
JP2006508385A (ja) | 2002-11-27 | 2006-03-09 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 正弦波オーディオ符号化 |
FR2849727B1 (fr) * | 2003-01-08 | 2005-03-18 | France Telecom | Procede de codage et de decodage audio a debit variable |
KR101058062B1 (ko) | 2003-06-30 | 2011-08-19 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 잡음 부가에 의한 디코딩된 오디오의 품질 개선 |
US7461003B1 (en) * | 2003-10-22 | 2008-12-02 | Tellabs Operations, Inc. | Methods and apparatus for improving the quality of speech signals |
DE102004023446B3 (de) * | 2004-05-12 | 2005-12-29 | Fci | Steckverbinder und Verfahren seiner Vormontage |
-
2005
- 2005-07-25 JP JP2007526661A patent/JP2008510197A/ja active Pending
- 2005-07-25 KR KR1020077003540A patent/KR20070051857A/ko active IP Right Grant
- 2005-07-25 EP EP05776469A patent/EP1782419A1/en not_active Withdrawn
- 2005-07-25 WO PCT/IB2005/052483 patent/WO2006018748A1/en active Application Filing
- 2005-07-25 CN CN2005800282897A patent/CN101006496B/zh not_active Expired - Fee Related
- 2005-07-25 US US11/573,570 patent/US7921007B2/en not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101785316B (zh) * | 2007-08-17 | 2012-11-28 | 三星电子株式会社 | 用于处理死亡正弦波和普通连续正弦波的音频编码方法和设备以及音频解码方法和设备 |
CN102282611B (zh) * | 2008-11-18 | 2013-05-08 | 法国电信公司 | 数字音频信号的分级编码方法和分级编码器 |
TWI748465B (zh) * | 2020-05-20 | 2021-12-01 | 明基電通股份有限公司 | 噪音判斷方法及噪音判斷裝置 |
Also Published As
Publication number | Publication date |
---|---|
EP1782419A1 (en) | 2007-05-09 |
US7921007B2 (en) | 2011-04-05 |
JP2008510197A (ja) | 2008-04-03 |
WO2006018748A1 (en) | 2006-02-23 |
CN101006496B (zh) | 2012-03-21 |
KR20070051857A (ko) | 2007-05-18 |
US20070198274A1 (en) | 2007-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101006496B (zh) | 可分级音频编码 | |
CN101223582B (zh) | 一种音频编码方法、音频解码方法及音频编码器 | |
CN103106902B (zh) | 低比特率音频信号解码方法 | |
Liutkus et al. | Informed source separation through spectrogram coding and data embedding | |
KR100986153B1 (ko) | 합성된 스펙트럼 성분을 적용하기 위하여 디코딩된 신호의 특성을 사용하는 오디오 코딩 시스템 | |
CN101401152B (zh) | 通过多通道音频信号的主分量分析进行编码的设备和方法 | |
CN101128866B (zh) | 多声道音频编码中的优化保真度和减少的信令 | |
CN103765509B (zh) | 编码装置及方法、解码装置及方法 | |
KR101679083B1 (ko) | 2개의 블록 변환으로의 중첩 변환의 분해 | |
CN104321815A (zh) | 用于带宽扩展的高频编码/高频解码方法和设备 | |
CN101223570A (zh) | 获得用于数字媒体的高效编码的频带的频率分段 | |
Den Brinker et al. | Parametric coding for high-quality audio | |
CN101371447A (zh) | 使用扩展带频率编码的复变换信道编码 | |
TR201902394T4 (tr) | Gürültü doldurma konsepti. | |
CN105280190A (zh) | 带宽扩展编码和解码方法以及装置 | |
CN107077855A (zh) | 信号编码方法和装置以及信号解码方法和装置 | |
CN106233112A (zh) | 信号编码方法和设备以及信号解码方法和设备 | |
CN100592388C (zh) | 音乐信息编码设备及方法和音乐信息解码设备及方法 | |
JPH09152896A (ja) | 声道予測係数符号化・復号化回路、声道予測係数符号化回路、声道予測係数復号化回路、音声符号化装置及び音声復号化装置 | |
Porov et al. | Music enhancement by a novel CNN architecture | |
JP2008519308A5 (zh) | ||
CN104584123A (zh) | 解码方法、解码装置、程序、及其记录介质 | |
Ferreira et al. | Audio communication coder | |
Nemer et al. | Perceptual Weighting to Improve Coding of Harmonic Signals | |
Kurniawati et al. | The Significance of Tonality Index and Non-linear Psychoacoustics Models for Masking Threshold Estimation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120321 Termination date: 20120725 |