CN103493130B - 用以利用正弦代换进行音频编码及译码的装置和方法 - Google Patents
用以利用正弦代换进行音频编码及译码的装置和方法 Download PDFInfo
- Publication number
- CN103493130B CN103493130B CN201280018238.6A CN201280018238A CN103493130B CN 103493130 B CN103493130 B CN 103493130B CN 201280018238 A CN201280018238 A CN 201280018238A CN 103493130 B CN103493130 B CN 103493130B
- Authority
- CN
- China
- Prior art keywords
- value
- spectrum
- coefficient
- audio signal
- spectral coefficient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 49
- 238000001228 spectrum Methods 0.000 claims abstract description 724
- 230000005236 sound signal Effects 0.000 claims abstract description 224
- 238000012545 processing Methods 0.000 claims abstract description 40
- 238000012937 correction Methods 0.000 claims abstract description 24
- 230000003595 spectral effect Effects 0.000 claims description 384
- 238000013459 approach Methods 0.000 claims description 81
- 238000006243 chemical reaction Methods 0.000 claims description 26
- 238000013139 quantization Methods 0.000 claims description 21
- 230000005540 biological transmission Effects 0.000 claims description 11
- 238000004321 preservation Methods 0.000 claims description 11
- 238000013213 extrapolation Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 230000008859 change Effects 0.000 claims description 4
- 230000000717 retained effect Effects 0.000 claims 2
- 230000005484 gravity Effects 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 10
- 238000004590 computer program Methods 0.000 description 9
- 230000008447 perception Effects 0.000 description 6
- 238000011002 quantification Methods 0.000 description 4
- 238000007726 management method Methods 0.000 description 3
- 238000013439 planning Methods 0.000 description 3
- 238000012384 transportation and delivery Methods 0.000 description 3
- OVOUKWFJRHALDD-UHFFFAOYSA-N 2-[2-(2-acetyloxyethoxy)ethoxy]ethyl acetate Chemical compound CC(=O)OCCOCCOCCOC(C)=O OVOUKWFJRHALDD-UHFFFAOYSA-N 0.000 description 2
- 241000936936 Opitutaceae Species 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000005906 menstruation Effects 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000011664 signaling Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 240000004859 Gamochaeta purpurea Species 0.000 description 1
- 241000562516 Thisbe Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 239000007799 cork Substances 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000013442 quality metrics Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000000682 scanning probe acoustic microscopy Methods 0.000 description 1
- 230000035807 sensation Effects 0.000 description 1
- 230000013707 sensory perception of sound Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000000411 transmission spectrum Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/028—Noise substitution, i.e. substituting non-tonal spectral components by noisy source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明提供一种用以基于经编码音频信号频谱产生音频输出信号的装置。该装置包含处理单元(110)、伪系数确定器(120)、频谱修正单元(130)、频谱-时间转换单元(140)、可控振荡器(150)及混频器(160)。该伪系数确定器(120)被配置为确定该经译码音频信号频谱的一个或多个伪系数,该等伪系数中的每一者具有一频谱位置及一频谱值。该频谱修正单元(130)被配置为将该一个或多个伪系数设定为一预定义值,以获得一经修正音频信号频谱。该频谱-时间转换单元(140)被配置为将该经修正音频信号频谱转换至一时域,以获得一时域转换信号。该可控振荡器(150)被配置为产生一时域振荡器信号,该可控振荡器(150)由该一个或多个伪系数中的至少一者的该频谱位置及该频谱值控制。该混频器(160)被配置为混合该时域转换信号与该时域振荡器信号,以获得该音频输出信号。
Description
技术领域
本发明关于音频信号编码、译码及处理,且更具体而言,关于利用正弦代换进行音频编码及译码。
背景技术
音频信号处理变得愈来愈重要。随着调制解调器感知音频编译码器被要求以愈来愈低的位率传送令人满意的音频质量,挑战产生了。另外,可允许的等待时间通常亦非常低,例如对于双向通讯应用或分布式游戏等而言。
调制解调器音频编译码器,例如USAC(统一话音及音频写码),通常在时域预估写码与变换域写码的间切换,然而,音乐内容仍主要于变换域中写码。在低位率下,例如<14kbit/s,音乐项中的音调分量在经由变换写码器写码时通常听起来较差,此情形使得以充足质量写码音频的任务更具挑战性。
另外,低延迟约束通常导致变换写码器的滤波器组的次佳频率响应(归因于经低延迟最佳化的窗形状及/或变换长度),且因此进一步危害此等编译码器的感知质量。
根据典型心理声学模型,界定相对于量化噪声的透明性的前提。在高位率下,透明性系关于遵循人类听觉遮蔽位准的量化噪声的感知上适应的最佳时间/频率分布。然而,在低位率下,无法到达透明性。因此,可在低位率下利用降低遮蔽位准要求的策略。
已将顶尖编译码器用于音乐内容,具体而言,基于修正型离散余弦变换(ModifiedDiscreteCosineTransform,MDCT)的变换写码器,其量化并在频域中传输频谱系数。然而,在极低数据率下,每一时间框的仅非常少的频谱线可由该时间框的可利用的位写码。因此,时间调变异物(artifact)及所谓的颤音异物必然被引入经写码的信号中。
最重要的是,此等类型的异物系在准静态音调分量中被感知。此情形尤其在归因于延迟约束而必须选择因熟知的泄露效应而引起邻近频谱系数的间的显著串音(频谱宽化)的变换窗形状。然而,通常此等邻近频谱系数中的一者或少数几者在低位率写码器进行的粗略量化的后仍为非零。
如上文所述,在先前技术中,利用变换写码器。非常适合音乐内容的写码的当代高压缩比率音频编译码器全部依靠变换写码。最显著的实例为MPEG2/4高级音频写码(AdvancedAudioCoding,AAC)及MPEG-D统一话音及音频写码(UnifiedSpeechandAudioCoding,USAC)。USAC具有与代数码激发的线性预测(AlgebraicCodeExcitedLinearPrediction,ACELP)模块加上主要意在用于话音写码的经变换写码激发(TransformCodedExcitation,TCX)模块(见[5])及或者主要意在用于音乐的写码的AAC一致的经切换核心。类似于AAC,TCX亦为基于变换的写码方法。在低位率设定下,此等写码方案易于展现颤音异物,尤其在下面的写码方案系基于修正型离散余弦变换(MDCT)(见[1])的情况下。
对于音乐再制,变换写码器为用于音频数据压缩的较佳技术。然而,在低位率下,传统变换写码器展现强颤音及粗糙度异物。该等异物的大部分源自过于稀疏写码的音调频谱分量。此情形尤其在此些分量在频谱上被主要设计用来满足严苛延迟约束的次佳频谱转移函数(泄露效应)抹污的情况下发生。
根据先前技术中的另一方法,写码方案对于瞬时、正弦波及噪声而言为完全参数化的。具体而言,对于中等及低位率,完全参数化音频编译码器已经标准化,其最显著实例为MPEG-4部分3,分部分7,谐波及个别线加噪声(HarmonicandIndividualLinesplusNoise,HILN)(见[2]),以及MPEG-4部分3,分部分8,正弦写码(SinuSoidalCoding,SSC)(见[3])。然而,参数化写码器遭受具有令人不快的异物的声音,且随着位率增加,向感知透明度按比例缩放得并不好。
另一方法提供混合波形及参数化写码。在[4]中,提出基于变换的波形写码与MPEG4-SSC(仅正弦部分)的混合。在反复过程中,自信号提取并减除正弦波,以形成将要藉助变换写码技术写码的残余信号。所提取的正弦波由一组参数写码,并连同该残余一起传输。在[6]中,提供混合写码方法,该方法分别对正弦波及残余进行写码。在中[7],在所谓的受约束能量重迭变换(ConstrainedEnergyLappedTransform,CELT)编译码器/重影网页处,描绘利用振荡器组来进行混合写码的理念。
在中等或较高位率下,归因于其自然声音,变换写码器非常适合音乐的写码。在那点上,完全或几乎完全满足基本心理声学模型的透明度要求。然而,在低位率下,写码器不得不严重违反心理声学模型的要求,且在此情形下,变换写码器易出现颤音、粗糙度及音乐噪声异物。
尽管完全参数化音频编译码器最适合较低位率,但已知该等编译码器听起来具有令人不快的异物。此外,此等编译码器并不无缝地向感知透明度按比例缩放,因为相当粗糙参数化模型的逐渐细化并不可行。
混合式波形与参数化写码可潜在地克服个别方法的限制,且可潜在地受益于两种技术的相互正交性质。然而,在当前技术水平下,此举因混合编译码器的变换写码部分与参数化部分的间缺乏相互作用而受阻。问题系关于参数化编译码器部分与变换编译码器部分的间的信号划分、变换部分与参数化部分的间的位预算操纵、参数信令技术以及参数化与变换编译码器输出的无缝合并。
发明内容
本发明的目标在于为混合音频编码及译码提供改进的概念。本发明的目标由权利要求1的装置、如权利要求12的装置,权利要求29的方法、权利要求30的方法以及权利要求31的计算机程序来解决。
本发明提供一种用于基于经编码的音频信号频谱来产生音频输出信号的装置。
该装置包含处理单元,其用于处理经编码音频信号频谱以获得经译码音频信号频谱。该经译码音频信号频谱包含多个频谱系数,其中该多个频谱系数中的每一者具有一在该经编码音频信号频谱内的频谱位置以及一频谱值,其中该多个频谱系数根据其在该经编码音频信号频谱内的频谱位置而依次排序,使得该多个频谱系数形成频谱系数序列。
此外,该装置包含伪系数确定器,其用于确定该经译码音频信号频谱的一个或多个伪系数,该等伪系数中的每一者具有频谱位置及频谱值。
另外,该装置包含频谱修正单元,其用于将该一个或多个伪系数设定为预定义值,以获得经修正音频信号频谱。
此外,该装置包含频谱-时间转换单元,其用于将该经修正音频信号频谱转换至时域,以获得时域转换信号。
另外,该装置包含可控振荡器,其用于产生时域振荡器信号,该可控振荡器由该一个或多个伪系数中的至少一者的频谱位置及频谱值控制。
此外,该装置包含混频器,其用于混合该时域转换信号与该时域振荡器信号,以获得音频输出信号。
所提出的概念增强了熟知的基于块的变换编译码器在低位率下的感知质量。提出用在一些实施例中具有与将代换的区类似的能量或位准的伪线(亦称为伪系数)代换音频信号频谱中的局部音调区,从而跨越相邻局部最小值,包含局部最大值。
根据若干实施例,提供低延迟及低位率音频写码。一些实施例为基于称为音调填充(ToneFilling,TF)的新颖且具发明性的概念。术语音调填充表示一种写码技术,其中原本被恶劣写码的自然音调由感知上类似但较纯的正弦音调代替。藉此,避免了某一速率下的振幅调变异物(称为「颤音」),其取决于正弦波相对于最近MDCT频率组的频谱位置的频谱位置。
根据若干实施例,对所有可想象的异物的恼人程度进行加权。此举涉及感知态样,例如间距(pitch)、谐度(harmonicity)、调变以及异物的静止。所有态样均在声音感知恼人模型(SoundPerceptionAnnoyanceModel,SPAM)中评估。
由此模型操纵,音调填充提供足够优势。对照由稀疏量化的自然音调引起的加成性噪声及不良稳定性(「颤音」)的影响来对因用纯正弦音调代替自然音调而引入的间距及调变误差进行加权。
音调填充提供与正弦波加噪声编译码器的显著差异。举例而言,TF用正弦代换音调,而不是正弦波的减除。感知上类似的音调具有与将代换的原始声音分量相同的局部重心(CentersOfGravity,COG)。根据若干实施例,在音频频谱中抹除原始音调(COG函数的左足至右足)。通常,用于代换的正弦波的频率分辨率尽可能粗略以最小化侧边信息,同时考虑感知要求以避免调外感觉(out-of-tunesensation)。
在一些实施例中,可归因于该等感知要求而在较低截止频率之上但不在该较低截止频率之下进行音调填充。当进行音调填充时,经由变换写码器内的频谱伪线来表示音调。然而,在配备有音调填充的编码器中,伪线经受由典型心理声学模型控制的常规处理。因此,当进行音调填充时,不需要参数化部分(在位率x下,代换y个音调分量)的先验限制。因此,达成至变换编译码器中的紧凑整合。
可在编码器处通过侦测局部COG(经平滑估计;峰质量量度)、通过移除音调分量、通过产生经由伪线的振幅运载位准信息、经由伪线的频谱位置运载频率信息且经由伪线的正负号运载精细频率信息(半频率组偏移)的经代换伪线(例如伪系数)来使用音调填充功能性。正如任何常规频谱系数(频谱线),伪系数(伪线)由编译码器的后续量化器单元处置。
可另外在译码器处通过侦测经隔离频谱线来使用音调填充,其中真实伪系数(伪线)可由旗标数组(例如位字段)标记。译码器可连结伪线信息来建立正弦轨道。可使用出生/持续/死亡方案来合成连续轨道。
为了译码,可通过在侧边信息内传输的旗标数组将伪系数(伪线)如此标记。伪线的半频率组频率分辨率可由伪系数(伪线)的正负号表示。在译码器处,可在逆变换单元之前将伪线自频谱抹除,且通过一排振荡器来单独地合成该等伪线。随着时间的过去,可连结若干对振荡器,且使用参数内插来确保平滑渐进的振荡器输出。
可对参数驱动的振荡器的开始及偏移进行整型,使得其严密对应于变换编译码器的窗口操作的时间特性,从而确保变换输出信号的编译码器所产生部分与振荡器所产生部分之间的无缝转变。
所提供的概念合意且轻松地整合至如AAC、TCX或类似组配等现存变换写码方案中。参数量化精度的操纵可由编译码器的现存速率控制来隐含地执行。
根据一实施例,该多个频谱系数中的每一者可具有最接近前任者及最接近后继者中的至少一者,其中该频谱系数的该最接近前任者可为该多个频谱系数中的在该频谱系数序列内紧接该频谱系数之前的一个频谱系数,其中该频谱系数的该最接近后继者可为该多个频谱系数中的在该序列中紧接该频谱系数之后的一个频谱系数。伪系数确定器可经被配置为通过确定该序列的具有不同于该预定义值的频谱值的至少一频谱系数来确定该经译码音频信号频谱的该多个频谱系数,该至少一频谱系数具有最接近前任者,该最接近前任者的频谱值等于该预定义值,且该至少一频谱系数具有最接近后继者,该最接近后继者的频谱值等于该预定义值。
在一实施例中,该预定义值可为零。
根据一实施例,伪系数确定器可经被配置为通过确定该序列的至少一频谱系数为伪系数候选者来确定该经译码音频信号频谱的该一个或多个伪系数,该至少一频谱系数具有最接近前任者,该最接近前任者的频谱值等于该预定义值,且该至少一频谱系数具有最接近后继者,该最接近后继者的频谱值等于该预定义值。伪系数确定器可经被配置为通过确定侧边信息是否指示该伪系数候选者为伪系数来确定该伪系数候选者为伪系数。
在一实施例中,可控振荡器可经被配置为产生具有振荡器信号频率的时域振荡器信号,使得该振荡器信号的振荡器信号频率取决于该一个或多个伪系数中的一者的频谱位置。
在一些实施例中,通过进行两个或两个以上时间上连续的伪系数的频谱位置之间的内插来产生振荡器信号的信号频率。
根据一实施例,伪系数为带正负号的值,其各自包含正负号分量。可控振荡器可经被配置为产生时域振荡器信号,使得振荡器信号的振荡器信号频率另外取决于该一个或多个伪系数中的一者的正负号分量,使得当该正负号分量具有第一正负号值时,振荡器信号频率具有第一频率值,且使得当该正负号分量具有不同第二值时,振荡器信号频率具有不同第二频率值。
在一实施例中,可控振荡器可经被配置为产生时域振荡器信号,其中该振荡器信号的振幅取决于该一个或多个伪系数中的一者的频谱值,使得当频谱值具有第三值时,该振荡器信号的振幅具有第一振幅值,且使得当频谱值具有不同第四值时,该振荡器信号的振幅具有不同第二振幅值,当该第四值大于该第三值时,该第二振幅值大于该第一振幅值。
根据一些实施例,通过在两个或两个以上时间上连续的伪系数的频谱值之间进行内插来产生振荡器信号的振幅值。举例而言,通过在传输值的时间点之间进行内插来产生振荡器信号的振幅。
在一实施例中,可控振荡器另外经由自在前一帧的伪系数得出的外插参数控制,以便例如抵消传输期间的数据框损失,或平滑振荡器控制的不稳定行为。
根据一些实施例,通过在两个或两个以上伪系数的频谱值之间进行内插来产生振荡器信号的振幅值。举例而言,在一些实施例中,通过在传输值的时间点之间进行内插来产生振荡器信号的振幅。
根据一实施例,经修正音频信号频谱可为MDCT频谱,其包含MDCT系数。频谱-时间转换单元可经被配置为通过将经译码音频信号频谱的系数中的至少一些系数转换至时域来将MDCT频谱自MDCT域转换至时域。
在一实施例中,混频器经被配置为通过在时域中使时域转换信号与时域振荡器信号相加来混合时域转换信号与时域振荡器信号。
此外,提供一种用于编码音频信号输入频谱的装置。该音频信号输入频谱包含多个频谱系数,其中该多个频谱系数中的每一者具有在该音频信号输入频谱内的频谱位置以及频谱值,其中该多个频谱系数根据其在音频信号输入频谱内的频谱位置而依次排序,使得该多个频谱系数形成频谱系数序列。该多个频谱系数中的每一者具有的至少一者具有一个或多个前任者中的至少一者且具有一个或多个后继者中的至少一者,其中该频谱系数的前任者中的每一者为该多个频谱系数中的在该序列内在该频谱系数的前的一个频谱系数。该频谱系数的后继者中的每一者为该多个频谱系数中的在该序列内在该频谱系数的后的一个频谱系数。
该装置包含极值确定器,其用于较佳以如由基本时间-频率变换提供的较高频谱分辨率确定一个或多个极值系数。
举例而言,该音频信号输入频谱可为具有多个MDCT系数的MDCT频谱。
极值确定器可确定比较频谱上的该或该等极值,其中将比较频谱的系数的比较值指派给MDCT频谱的MDCT系数中的每一者。然而,比较频谱可具有高于音频信号输入频谱的频谱分辨率。举例而言,比较频谱可为离散傅立叶变换(DiscreteFourierTransform,DFT)频谱(偶数或奇数堆栈的DFT),其频谱分辨率为MDCT音频信号输入频谱的频谱分辨率的两倍。藉此,接着仅将DFT频谱的每第二个频谱值指派给MDCT频谱的频谱值。然而,当确定比较频谱的该或该等极值时,可考虑比较频谱的其它系数。藉此可将比较频谱的系数确定为不指派给音频信号输入频谱的频谱系数但具有最接近前任者及最接近后继者的极值,该最接近前任者及最接近后继者分别指派给音频信号输入频谱的频谱系数及音频信号输入频谱的该频谱系数的最接近后继者。因此,可认为比较频谱的(例如高分辨率DFT频谱的)该极值指派给(MDCT)音频信号输入频谱内位于(MDCT)音频信号输入频谱的该频谱系数与(MDCT)音频信号输入频谱的该频谱系数的该最接近后继者的间的频谱位置。可通过选择如稍后阐释的伪系数的恰当正负号值来编码此情形。藉此,达成次频率组分辨率。
此外,该装置包含频谱修正器,其用于通过将极值系数中的至少一者的前任者中的至少一者或后继者中的至少一者的频谱值设定为预定义值来修正音频信号输入频谱以获得经修正音频信号频谱。此外,频谱修正器经被配置为不将一个或多个极值系数的频谱值设定为该预定义值,或经被配置为用伪系数代替该一个或多个极值系数中的至少一者,其中该伪系数的频谱值不同于该预定义值。
另外,该装置包含处理单元,其用于处理该经修正音频信号频谱,以获得经编码音频信号频谱。
此外,该装置包含侧边信息产生器,其用于产生并传输侧边信息,其中该侧边信息产生器经被配置为定位由该频谱修正器产生的经修正音频信号输入频谱内的一个或多个伪系数候选者,其中该侧边信息产生器经被配置为选择该等伪系数候选者中的至少一者作为选定候选者,且其中该侧边信息产生器经被配置为产生侧边信息,使得该侧边信息指示选定候选者为伪系数。
极值确定器经被配置为较佳以如由基本时间-频率变换提供的较高频谱分辨率确定一个或多个极值系数,使得该等极值系数中的每一者为该多个频谱系数中的一个频谱系数,该频谱系数的频谱值大于其前任者中的至少一者的频谱值,且该频谱系数的频谱值大于其后继者中的至少一者的频谱值。或者,该多个频谱系数中的每一者具有与该频谱系数相关联的比较值,其中极值确定器经被配置为确定该一个或多个极值系数,使得该等极值系数中的每一者为该多个频谱系数中的一个频谱系数,该频谱系数的比较值大于其前任者中的至少一者的比较值,且该频谱系数的比较值大于其后继者中的至少一者的比较值。
根据若干实施例,由侧边信息产生器产生的侧边信息可为静态预定义大小,或其大小可以信号适应方式反复估计。在此情况下,亦将侧边信息的实际大小传输给译码器。因此,根据一实施例,侧边信息产生器440经被配置为传输侧边信息的大小。
在一实施例中,频谱修正器经被配置为修正音频信号输入频谱,使得该音频信号输入频谱的频谱系数中的至少一些频谱系数的频谱值在经修正音频信号频谱中获保留未修正。
根据一实施例,该多个频谱系数中的每一者具有作为其前任者中的一者的最接近前任者及作为其后继者中的一者的最接近后继者中的至少一者,其中该频谱系数的最接近前任者为该多个频谱系数中的在该序列内紧接该频谱系数的前的一个频谱系数,其中该频谱系数的最接近后继者为该多个频谱系数中的在该序列内紧接该频谱系数的后的一个频谱系数。
频谱修正器可经被配置为通过将极值系数中的一者的最接近前任者或最接近后继者的频谱值设定为预定义值来修正音频信号输入频谱以获得经修正音频信号频谱,其中频谱修正器可经被配置为不将一个或多个极值系数的频谱值设定为该预定义值,或可经被配置为用伪系数代替该一个或多个极值系数中的至少一者,其中该伪系数的频谱值不同于该预定义值。应注意,当极值确定器基于比较频谱(例如功率频谱)确定极值系数时,可例如为比较频谱(例如功率频谱)的局部最大值的频谱系数不必为音频信号输入频谱(例如MDCT频谱)的局部最大值。
极值确定器可经被配置为确定该一个或多个极值系数,使得该等极值系数中的每一者为该多个频谱系数中的一个频谱系数,该频谱系数的频谱值大于其最接近前任者的频谱值,且该频谱系数的频谱值大于其最接近后继者的频谱值。或者该多个频谱系数中的每一者具有与该频谱系数相关联的比较值,且极值确定器可经被配置为确定一个或多个极值系数,使得该等极值系数中的每一者为该多个频谱系数中的一个频谱系数,该频谱系数的比较值大于其最接近前任者的比较值,且该频谱系数的比较值大于其最接近后继者的比较值。
根据一实施例,极值确定器可经被配置为确定一个或多个最小系数,使得该一个或多个最小系数中的每一者为该多个频谱系数中的一个频谱系数,该频谱系数的频谱值小于其前任者中的一者的频谱值,且该频谱系数的频谱值小于其后继者中的一者的频谱值,或其中该多个频谱系数中的每一者具有与该频谱系数相关联的比较值,其中该极值确定器经被配置为确定该一个或多个最小系数,使得该等最小系数中的每一者为该多个频谱系数中的一个频谱系数,该频谱系数的比较值小于其前任者中的一者的比较值,且该频谱系数的比较值小于其后继者中的一者的比较值。在此实施例中,频谱修正器可经被配置为基于该等极值系数中的一或多者或该等最小系数中的一或多者的频谱值或比较值确定表示值,使得该表示值不同于该预定义值。另外,频谱修正器可经被配置为通过将该频谱值设定为该表示值来改变该音频信号输入频谱的系数中的一者的频谱值。
根据一实施例,频谱修正器可经被配置为确定该等极值系数中的一者的比较值或频谱值中的一者之间的值差是否小于临界值。此外,频谱修正器可经被配置为修正音频信号输入频谱,使得取决于该值差是否小于该临界值,音频信号输入频谱的频谱系数中的至少一些的频谱值在经修正音频信号频谱中获保留未修正。
在一实施例中,极值确定器可经被配置为确定频谱值序列的一个或多个子序列,使得该等子序列中的每一者包含该音频信号输入频谱的多个后续频谱系数,该等后续频谱系数可在该子序列内根据其频谱位置依次排序。该等子序列中的每一者可具有在依次排序的子序列中位于第一的第一元素,以及在依次排序的子序列中位于最后的最后元素。此外,该等子序列中的每一者可包含最小系数中的恰好两者以及极值系数中的恰好一者,最小系数中的一者为该子序列的该第一元素,且最小系数中的另一者为该子序列的该最后元素。在此实例中,频谱修正器可经被配置为基于该等子序列中的一者的极值系数的频谱值或比较值来确定表示值。频谱修正器可经被配置为通过将该频谱值设定为该表示值来改变该子序列的系数中的一者的频谱值。
根据一实施例,极值确定器可经被配置为通过以下步骤确定重心系数:通过确定该子序列的每一频谱系数的比较值与位置值的乘积以获得多个经加权系数,通过对该等经加权系数进行求和以获得第一总和,对该子序列的所有频谱系数的比较值进行求和以获得第二总和;通过使第一总和除以第二总和以获得中间结果;以及通过对该中间结果应用舍位至最近舍位以获得重心系数,且其中频谱修正器经被配置为将子序列的并非重心系数的所有频谱系数的频谱值设定为预定义值。或者,极值确定器可经被配置为通过以下步骤确定重心系数:通过确定子序列的每一频谱系数的频谱值与位置值的乘积以获得多个经加权系数,通过对经加权系数进行求和以获得第一总和,对子序列的所有频谱系数的频谱值进行求和以获得第二总和;通过使第一总和除以第二总和以获得中间结果;以及通过对该中间结果应用舍位至最近舍位以获得重心系数,且其中频谱修正器经被配置为将子序列的并非该重心系数的所有频谱系数的频谱值设定为预定义值。
在一实施例中,该预定义值为零。
根据一实施例,每一频谱系数的比较值为自音频信号的能量保存变换得出的另一频谱的另一系数的平方值。
在一实施例中,其中每一频谱系数的比较值为自音频信号的能量保存变换得出的另一频谱的另一系数的振幅值。
根据一实施例,该另一频谱为离散傅立叶变换(DFT)频谱,且其中该能量保存变换为离散傅立叶变换(偶数或奇数堆栈的DFT)。
根据另一实施例,该另一频谱为复杂修正型离散余弦变换(CMDCT)频谱,且其中该能量保存变换为CMDCT。
根据一实施例,频谱修正器可经被配置为接收微调信息。音频信号输入频谱的系数可为带正负号的值,其各自包含正负号分量。当微调信息处于第一微调状态时,频谱修正器可经被配置为将一个或多个极值系数中的一者的或伪系数的频谱值的正负号分量设定为第一正负号值。且当微调信息处于不同第二微调状态时,频谱修正器可经被配置为将一个或多个极值系数中的一者的或伪系数的频谱值的正负号分量设定为不同第二正负号值。
在一实施例中,音频信号输入频谱可为包含MDCT系数的MDCT频谱。
根据一实施例,处理单元可经被配置为量化经修正音频信号频谱以获得经量化音频信号频谱。处理单元可进一步经被配置为处理经量化音频信号频谱以获得经编码音频信号频谱。此外,处理单元可进一步经被配置为产生侧边信息,其仅对经量化音频信号频谱的具有最接近前任者及最接近后继者的彼多个频谱系数指示该系数是否为极值系数中的一者,该最接近前任者的频谱值等于预定义值,且该最接近后继者的频谱值等于预定义值。频谱系数的最接近前任者为在经量化音频信号频谱内紧接该频谱系数的前的另一频谱系数,且其中频谱系数的最接近后继者为在经量化音频信号频谱内紧接该频谱系数的后的另一频谱系数。
此外,提供一种用于基于经编码音频信号频谱产生音频输出信号的方法。频谱系数中的每一者具有一在该经编码音频信号频谱内的频谱位置以及一频谱值,其中该多个频谱系数根据其在经编码音频信号频谱内的频谱位置而依次排序,使得该多个频谱系数形成频谱系数序列。该用于产生音频输出信号的方法包含:
-处理经编码音频信号频谱以获得经译码音频信号频谱,该经译码音频信号频谱包含多个频谱系数。
-确定经译码音频信号频谱的一个或多个伪系数,该等伪系数中的每一者具有频谱位置及频谱值。
-将一个或多个伪系数设定为预定义值,以获得经修正音频信号频谱。
-将经修正音频信号频谱转换至时域,以获得时域转换信号。
-通过可控振荡器产生时域振荡器信号,该可控振荡器由一个或多个伪系数中的至少一者的频谱位置及频谱值控制。以及:
-混合时域转换信号与时域振荡器信号,以获得音频输出信号。
此外,提供一种用于编码音频信号输入频谱的方法。该音频信号输入频谱包含多个频谱系数。该多个频谱系数中的每一者具有一在该音频信号输入频谱内的频谱位置、一频谱值及一比较值。该多个频谱系数根据其在该音频信号输入频谱内的频谱位置而依次排序,使得该多个频谱系数形成频谱系数序列。该多个频谱系数中的每一者具有的至少一者具有一个或多个前任者及一个或多个后继者中的至少一者。该频谱系数的每一前任者为该多个频谱系数中在该序列内在该频谱系数之前的一个频谱系数。该频谱系数的每一后继者为该多个频谱系数中在该序列内在该频谱系数之后的一个频谱系数。该用于编码音频信号输入频谱的方法包含:
-确定一个或多个极值系数。
-通过将该等极值系数中的至少一者的前任者中的至少一者或后继者中的至少一者的频谱值设定为预定义值来修正音频信号输入频谱以获得经修正音频信号频谱,其中通过不将一个或多个极值系数的频谱值设定为预定义值,或通过用伪系数代替一个或多个极值系数中的至少一者来进行修正该音频信号输入频谱,其中该伪系数的频谱值不同于该预定义值。
-处理经修正音频信号频谱以获得经编码音频信号频谱。以及:
-产生并传输侧边信息,其中通过定位经修正音频信号输入频谱内的一个或多个伪系数候选者来产生侧边信息,其中通过选择伪系数候选者中的至少一者作为选定候选者来产生侧边信息,且其中产生侧边信息以使得该侧边信息指示该等选定候选者作为伪系数。
确定一个或多个极值系数,使得该等极值系数中的每一者为该多个频谱系数中的一个频谱系数,该频谱系数的频谱值大于其前任者中的至少一者的频谱值,且该频谱系数的频谱值大于其后继者中的至少一者的该频谱值。或者,该多个频谱系数中的每一者具有与该频谱系数相关联的比较值,其中确定一个或多个极值系数,使得该等极值系数中的每一者为该多个频谱系数中的一个频谱系数,该频谱系数的比较值大于其前任者中的至少一者的比较值,且该频谱系数的比较值大于其后继者中的至少一者的比较值。
此外,提供一种用于在于计算机或信号处理器上执行时实施上文所述方法的计算机程序。
提供一种音频编码器、音频译码器、相关方法以及程序或经编码音频信号。此外,提供用于波形写码器的正弦代换的概念。
在低位率下,本发明提供如何紧凑整合波形写码与参数化写码来获得改进的感知质量以及单一技术上的感知质量对位率的改进定标。
在一些实施例中,频谱的多峰区域(跨越相邻局部最小值,包含局部最大值)可完全由单一正弦波代换;与自残余物反复减除经合成正弦波的正弦写码器形成对比。在经平滑且稍稍白化的频谱表示上提取合适的多峰区域,且相对于某些特征(峰高度、峰形状)来选择多峰区域。
根据一些实施例,此等代换正弦波可表示为待写码频谱内的伪线(伪系数),且反映正弦波的全振幅或能量(与的对比,例如常规MDCT线对应于真值的真实投影。
在一些实施例中,正如任何常规频谱线,伪线(伪系数)可由编译码器现存量化器来处置;与正弦参数的单独信令形成对比。
根据一些实施例,伪线(伪系数)可由侧边信息旗标数组如此标记。
在一些实施例中,伪线的正负号的选择可表示半次频带频率分辨率。
根据一些实施例,归因于有限的频率分辨率(例如,半次频带),用于正弦代换的较低截止频率可为可取的。
在一些实施例中,在译码器中,可将伪线自常规频谱删除;伪线合成由一排内插振荡器完成。
在一些实施例中,可使用自在前频谱的外插获得的正弦轨道的任择量测的开始相位。
根据一些实施例,可通过对正弦轨道的开始/偏移处的频迭进行建模来使用任择的时域频迭消除(TimeDomainAliasCancellation,TDAC)技术。
根据一些实施例,可使用通过对开始/偏移处的频迭进行建模来进行的任择的TDAC频迭消除。
附图说明
在下文中,参考各图更详细地描述本发明的实施例,其中:
图1例示出根据一实施例的用于基于经编码的音频信号频谱来产生音频输出信号的装置,
图2描绘出根据另一实施例的用于基于经编码的音频信号频谱来产生音频输出信号的装置,
图3展示出将原始正弦波与由MDCT/逆MDCT链接处理的后的正弦波进行比较的两个图,
图4例示出根据一实施例的用于编码音频信号输入频谱的装置,
图5描绘出音频信号输入频谱、对应功率频谱及经修正(经代换)音频信号频谱,以及
图6例示出另一功率频谱、另一经修正((经代换))音频信号频谱以及经量化音频信号频谱,其中,在编码器侧产生的经量化音频信号频谱在一些实施例中可对应于在译码侧译码的经译码音频信号频谱。
()()具体实施方式
图4例示出根据一实施例的用于编码音频信号输入频谱的装置。该用于编码的装置包含极值确定器410、频谱修正器420、处理单元430及侧边信息产生器440。
在更详细地考虑图4的装置之前,更详细地考虑由图4的装置编码的音频信号输入频谱。
原则上,任何种类的音频信号频谱均可由图4的装置编码。音频信号输入频谱可例如为MDCT(修正型离散余弦变换)频谱、DFT(离散傅立叶变换)量级频谱或MDST(修正型离散正弦变换)频谱。
图5例示出音频信号输入频谱510的实例。在图5中,音频信号输入频谱510为MDCT频谱。
音频信号输入频谱包含多个频谱系数。该多个频谱系数中的每一者具有在音频信号输入频谱内的频谱位置以及频谱值。
考虑图5的实例,其中音频信号输入频谱因音频信号的MDCT变换而产生,例如已变换了音频信号来获得音频信号输入频谱的滤波器组可例如使用1024个通道。于是,该多个频谱系数中的每一者与1024个通道中的一者相关联,且可将通道编号(例如,介于0与1023的间的数字)视为该多个频谱系数的频谱位置。在图5中,横坐标511代表频谱系数的频谱位置。为了更好地例示,图5仅例示出具有介于52与148之间的频谱位置的系数。
在图5中,纵坐标512帮助确定频谱系数的频谱值。在图5的描绘MDCT频谱(在那点上,音频信号输入频谱的频谱系数的频谱值)的实例中,横坐标512代表频谱系数的频谱值。应注意,MDCT音频信号输入频谱的频谱系数可具有正实数及负实数作为频谱值。
然而,其它音频信号输入频谱可仅具有频谱值为正或零的频谱系数。举例而言,音频信号输入频谱可为DFT量级频谱,其频谱系数具有表示因离散傅立叶变换而产生的系数的量级的频谱值。彼等频谱值仅能为正或零。
在进一步实施例中,音频信号输入频谱包含频谱值为复数的频谱系数。举例而言,指示量级及相位信息的DFT频谱可包含频谱值为复数的频谱系数。
如图5中例示,根据频谱系数在音频信号输入频谱内的频谱位置依次对频谱系数进行排序,使得该多个频谱系数形成频谱系数序列。该多个频谱系数中的每一者具有一个或多个前任者及一个或多个后继者中的至少一者,其中该频谱系数的每一前任者为该序列内在该频谱系数之前的频谱系数中的一者。该频谱系数的每一后继者为该序列内在该频谱系数之后的频谱系数中的一者。举例而言,在图5中,具有频谱位置81、82或83(等等)的频谱系数为具有频谱位置80的频谱系数的后继者。具有频谱位置79、78或77(等等)的频谱系数为具有频谱位置80的频谱系数的前任者。对于MDCT频谱的实例,频谱系数的频谱位置可为MDCT变换的该频谱系数与的相关的通道(例如,介于例如0与1023之间的通道编号)。再次应注意,出于例示性目的,图5的MDCT频谱510仅例示出具有介于52与148的间的频谱位置的频谱系数。
返回至图4,现更详细地描述极值确定器410。极值确定器410经被配置为确定一个或多个极值系数。
一般而言,极值确定器410检查音频信号输入频谱或与该音频信号输入频谱有关的频谱来寻找极值系数。确定极值系数的目的在于,的后,一个或多个局部音调区将在音频信号频谱中被伪系数代换,例如被每一音调区的单一伪系数代换。
一般而言,音频信号的功率频谱中的多峰区域(音频信号输入频谱与的有关)指示音调区。因此,可较佳识别音频信号的功率频谱中音频信号输入频谱与的有关的多峰区域。极值确定器410可例如检查功率频谱,包含系数,该等系数可称为比较系数(因为其频谱值由极值确定器逐对比较),使得音频信号输入频谱的频谱系数中的每一者具有与的关联的比较值。
在图5中,例示出功率频谱520。功率频谱520及MDCT音频信号输入频谱510与同一音频信号有关。功率频谱520包含称为比较系数的系数。每一频谱系数包含一与横坐标521有关的频谱位置以及一比较值。音频信号输入频谱的每一频谱系数均具有与的相关联的比较系数,且因此另外具有与的相关联的其比较系数的比较值。举例而言,与音频信号输入频谱的频谱值相关联的比较值可为与音频信号输入频谱的所考虑频谱系数具有相同频谱位置的比较系数的比较值。音频信号输入频谱510的频谱系数中的三者与功率频谱520的比较系数中的三者之间的关联(且因此与此些比较系数的比较值的关联)由虚线513、514、515指示,虚线513、514、515指示音频信号输入频谱510的相应比较系数(或其比较值)与相应频谱系数的关联。
极值确定器410可经被配置为确定一个或多个极值系数,使得该等极值系数中的每一者为频谱系数中比较值大于其前任者中的一者的比较值且比较值大于其后继者中的一者的比较值的一频谱系数。
举例而言,极值确定器410可确定功率频谱的局部最大值。换言的,极值确定器410可经组配以确定一个或多个极值系数,使得极值系数中的每一者为频谱系数中比较值大于其最接近前任者的比较值且比较值大于其最接近后继者的比较值的一频谱系数。此处,频谱系数的最接近前任者为该多个频谱系数中在功率频谱中紧接该频谱系数之前的一频谱系数。该频谱系数的最接近后继者为该多个频谱系数中在功率频谱中紧接该频谱系数之后的一频谱系数。
然而,其它实施例不要求极值确定器410确定所有局部最大值。举例而言,在一些实施例中,极值确定器可仅检查功率频谱的例如仅与某一频率范围有关的某些部分。
在其它实施例中,极值确定器410经被配置为仅作为极值系数的彼等系数,其中所考虑的局部最大值的比较值与后续局部最小值和/或在前局部最小值的比较值之间的差大于临界值。
极值确定器410可确定比较频谱上的极值,其中将比较频谱的系数的比较值指派给MDCT频谱的MDCT系数中的每一者。然而,比较频谱可具有比音频信号输入频谱高的频谱分辨率。举例而言,比较频谱可为具有与MDCT音频信号输入频谱相比频谱分辨率翻倍的DFT频谱。藉此,接着将DFT频谱的仅每隔一个频谱值指派给MDCT频谱的频谱值。然而,当确定比较频谱的极值时,可考虑比较频谱的其它系数。藉此,可将比较频谱的系数确定为不指派给音频信号输入频谱的频谱系数但具有最接近前任者及最接近后继者的极值,该前任者及该后继者分别指派给音频信号输入频谱的频谱系数及音频信号输入频谱的该频谱系数的最接近后继者。因此,可考虑将比较频谱的(例如,高分辨率DFT频谱的)该极值指派给(MDCT)音频信号输入频谱内的位于该(MDCT)音频信号输入频谱的该频谱系数与该(MDCT)音频信号输入频谱的该频谱系数的该最接近后继者之间的频谱位置。如后面将阐释,此情形可通过选择伪系数的恰当带正负号的值来编码。藉此,达成次频率组分辨率。
应注意,在一些实施例中,极值系数不必满足其比较值大于其最接近前任者的比较值及其最接近后继者的比较值的要求。代替地,在彼等实施例中,极值系数的比较值大于其前任者中的一者及其后继者中的一者的比较值可能已足够。举例而言,考虑以下情形,其中:
频谱位置 | 212 | 213 | 214 | 215 | 216 |
比较值 | 0.02 | 0.84 | 0.83 | 0.85 | 0.01 |
表1
在表1所述的情形中,极值确定器410可合理地将频谱位置214处的频谱系数视为极值系数。频谱系数214的比较值不大于其最接近前任者213的比较值(0.83<0.84),且不大于其最接近后继者215的比较值(0.83<0.85),但频谱系数214的比较值(显著)大于其前任者中的另一者(前任者212)的比较值(0.83>0.02),且(显著)大于其后继者中的另一者(后继者216)的比较值(0.83>0.01)。此外,将频谱系数214视为此「多峰区域」的极值看起来亦为合理,因为频谱系数位于与系数212及216的比较值相比具有相对较大比较值的三个系数213、214、215中间。
举例而言,极值确定器410可经组配以自比较系数中的一些或全部确定该比较系数的比较值是否大于最靠近该比较系数的频谱位置的三个前任者的比较值中的至少一者。且/或,极值确定器410可经组配以自比较系数中的一些或全部确定该比较系数的比较值是否大于靠近该比较系数的频谱位置的三个后继者的比较值中的至少一者。极值确定器410可接着依据该等确定的结果来决定是否选择该比较系数。
在一些实施例中,每一频谱系数的比较值为因音频信号的能量保存变换而产生的另一频谱(比较频谱)的另一系数的平方值。
在进一步实施例中,每一频谱系数的比较值为因音频信号的能量保存变换而产生的另一频谱的另一系数的振幅值。
根据一实施例,该另一频谱为离散傅立叶变换频谱,且其中能量保存变换为离散傅立叶变换。根据另一实施例,该另一频谱为复杂修正型离散余弦变换(CMDCT)频谱,且其中能量保存变换为CMDCT。
在另一实施例中,极值确定器410可不检查比较频谱,而是可检查音频信号输入频谱本身。举例而言,当音频信号输入频谱本身系因能量保存变换而产生时,例如当音频信号输入频谱为离散傅立叶变换量级频谱时,上述情况可为合理的。
举例而言,极值确定器410可经被配置为确定一个或多个极值系数,使得该等极值系数中的每一者为该多个频谱系数中频谱值大于其前任者中的一者的频谱值且频谱值大于其后继者中的一者的频谱值的一频谱系数。
在一实施例中,极值确定器410可经被配置为确定一个或多个极值系数,使得该等极值系数中的每一者为该多个频谱系数中频谱值大于其最接近前任者的频谱值且频谱值大于其最接近后继者的频谱值的一频谱系数。
此外,该装置包含频谱修正器420,其用于通过将极值系数中的至少一者的前任者或后继者的频谱值设定为预定义值来修正音频信号输入频谱以获得经修正的音频信号频谱。频谱修正器420经被配置为不将一个或多个极值系数的频谱值设定为预定义值,或经被配置为以伪系数代替一个或多个极值系数中的至少一者,其中伪系数的频谱值不同于该预定义值。
较佳地,该预定义值可为零。举例而言,在图5的经修正(代换)音频信号频谱530中,许多频谱系数的频谱值已由频谱修正器420设定为零。
换言之,为获得经修正的音频信号频谱,频谱修正器420将至少设定极值系数中的一者的前任者或后继者的频谱值为预定义值。该预定义值可例如为零。此前任者或后继者的比较值小于该极值的比较值。
此外,关于极值系数本身,频谱修正器420将如下进行:
-频谱修正器420将不设定极值系数为预定义值,或:
-频谱修正器420将用伪系数代替极值系数中的至少一者,其中该伪系数的频谱值不同于该预定义值。此意味着将极值系数中的至少一者的频谱值设定为预定义值,且将频谱系数中的另一者的频谱值设定为不同于该预定义值的值。此值可例如自该极值系数、该极值系数的前任者中的一者或该极值系数的后继者中的一者的频谱值得出。或者,此值可例如自该极值系数、该极值系数的前任者中的一者或该极值系数的后继者中的一者的比较值得出。
频谱修正器420可例如经被配置为用具有自该极值系数的频谱值或比较值、自该极值系数的前任者中的一者的频谱值或比较值或自该极值系数的后继者中的一者的频谱值或比较值得出的频谱值的伪系数代替该等极值系数中的一者。
此外,该装置包含处理单元430,其用于处理经修正的音频信号频谱来获得经编码的音频信号频谱。
举例而言,处理单元430可为任何种类的音频编码器,例如MP3(MPEG-1音频层Ⅲ或MPEG-2音频层Ⅲ;MPEG=动画专家小组(MovingPictureExpertsGroup))音频编码器、用于WMA(窗口媒体音频(WindowsMediaAudio)的音频编码器、用于WAVE档案的音频编码器,或MPEG-2/4AAC(高级音频写码)音频编码器,或MPEG-DUSAC(统一语音及音频写码(UnifiedSpeedandAudioCoding))写码器。
处理单元430可例如为[8](ISO/IEC14496-3:2005,信息技术,音频-视觉对象的写码,部分3:音频,分部分4)中所述,或如[9](ISO/IEC14496-3:2005-信息技术,音频-视觉对象的写码,部分3:音频,分部分4)中所述的音频编码器。举例而言,处理单元430可包含量化器,及/或时间噪声整型工具,例如如[8]中所述,且/或处理单元430可包含感知噪声代换工具,例如如[8]中所述。
此外,该装置包含侧边信息产生器440,其用于产生并传输侧边信息。侧边信息产生器440经被配置为定位由频谱修正器420产生的经修正音频信号输入频谱内的一个或多个伪系数候选者。另外,侧边信息产生器440经被配置为选择该等伪系数候选者中的至少一者作为选定候选者。此外,侧边信息产生器440经被配置为产生侧边信息,使得该侧边信息指示该等选定候选者为伪系数。
在图4中例示出的实施例中,侧边信息产生器440经被配置为通过频谱修正器420接收伪系数的位置(例如,伪系数中的每一者的位置)。此外,在图4的实施例中,侧边信息产生器440经被配置为接收伪系数候选者的位置(例如,伪系数候选者中的每一者的位置)。
举例而言,在一些实施例中,处理单元430可经被配置为基于经量化的音频信号频谱确定伪系数候选者。在一实施例中,处理单元430可能已通过量化经修正音频信号频谱而产生了经量化音频信号频谱。举例而言,处理单元430可将经量化音频信号频谱的至少一频谱系数确定为伪系数候选者,该候选者具有频谱值等于预定义值(例如,等于0)的最接近前任者,且具有频谱值等于预定义值的最接近后继者。
或者,在其它实施例中,处理单元430可将经量化音频信号频谱传递给侧边信息产生器440,且侧边信息产生器440可基于该经量化音频信号频谱自行确定伪系数候选者。根据其它实施例,基于经修正音频信号频谱以替代方式确定伪系数候选者。
侧边信息产生器所产生的侧边信息可具有静态的预定义大小,或可以信号适应性方式反复估计其大小。在此情况下,亦将侧边信息的实际大小传输给译码器。因此,根据一实施例,侧边信息产生器440经被配置为传输侧边信息的大小。
根据一实施例,极值确定器410经被配置为检查比较系数,例如图5中的功率频谱520的系数,且经被配置为确定一个或多个最小系数,使得该等最小系数中的每一者为频谱系数中比较值小于其前任者中的一者的比较值且比较值小于其后继者中的一者的比较值的一频谱系数。在此实施例中,频谱修正器420可经被配置为基于极值系数中的一或多者的比较值以及最小系数中的一或多者的比较值来确定代表值,使得该代表值不同于该预定义值。另外,频谱修正器420可经被配置为通过将该频谱值设定为该代表值而改变音频信号输入频谱的系数中的一者的频谱值。
在一特定实施例中,极值确定器经被配置为检查比较系数,例如图5中的功率频谱520的系数,且经组配以确定一个或多个最小系数,使得该等最小系数中的每一者为频谱系数中比较值小于其最接近前任者的比较值且比较值小于其最接近后继者的比较值的一频谱系数。
或者,极值确定器410经被配置为检查音频信号输入频谱510本身,且经被配置为确定一个或多个最小系数,使得该一个或多个最小系数中的每一者为频谱系数中频谱值小于其前任者中的一者的频谱值且频谱值小于其后继者中的一者的频谱值的一频谱系数。在此实施例中,频谱修正器420可经被配置为基于极值系数中的一或多者及最小系数中的一或多者的频谱值来确定代表值,使得该代表值不同于预定义值。此外,频谱修正器420可经被配置为通过将音频信号输入频谱的系数中的一者的频谱值设定为该代表值来改变该频谱值。
在一特定实施例中,极值确定器410经被配置为检查音频信号输入频谱510本身,且经被配置为确定一个或多个最小系数,使得该一个或多个最小系数中的每一者为频谱系数中频谱值小于其最接近前任者的频谱值且频谱值小于其最接近后继者的频谱值的一频谱系数。
在两者实施例中,频谱修正器420考虑极值系数以及该等最小系数中的一或多者,尤其考虑其相关联比较值或其频谱值,来确定代表值。接着,将音频信号输入频谱的频谱系数中的一者的频谱值设定为该代表值。此外,频谱值设定为该代表值的频谱系数可例如为极值系数本身,或频谱值设定为该代表值的频谱系数可为代替极值系数的伪系数。
在一实施例中,极值确定器410可经被配置为确定频谱值序列的一个或多个子序列,使得该等子序列中的每一者包含音频信号输入频谱的多个后续频谱系数。根据后续频谱系数的频谱位置将后续频谱系数依次排序在子序列内。该等子序列中的每一者具有在该经依次排序的子序列中位于第一的第一元素以及在该依次排序的子序列中位于最后的最后元素。
在一特定实施例中,该等子序列中的每一者可例如包含最小系数中的恰好两者以及极值系数中的恰好一者,最小系数中的一者为子序列的第一元素,且最小系数中的另一者为子序列的最后元素。
在一实施例中,频谱修正器420可经被配置为基于子序列中的一者的系数的频谱值或比较值而确定代表值。举例而言,若极值确定器410已检查例如功率频谱520的比较频谱的比较系数,则频谱修正器420可经被配置为基于该等子序列中的一者的系数的比较值而确定代表值。然而,若极值确定器410已检查音频信号输入频谱510的频谱系数,则频谱修正器420可经被配置为基于该等子序列中的一者的系数的频谱值而确定代表值。
频谱修正器420经被配置为通过将该子序列的系数中的一者的频谱值设定为该代表值来改变该频谱值。
表2提供在频谱位置252至258处具有五个频谱系数的实例。
频谱位置 | 252 | 253 | 254 | 255 | 256 | 257 | 258 |
比较值 | 0.12 | 0.05 | 0.48 | 0.73 | 0.45 | 0.03 | 0.18 |
表2
极值确定器410可确定频谱系数255(具有频谱位置255的频谱系数)为极值系数,因为其比较值(0.73)大于其(此处:最接近)前任者254的比较值(0.48),且因为其比较值(0.73)大于其(此处:最接近)后继者256的比较值(0.45)。
此外,极值确定器410可确定频谱系数253为最小系数,因为其比较值(0.05)小于其(此处:最接近)前任者252的比较值(0.12),且因为其比较值(0.05)小于其(此处:最接近)后继者254的比较值(0.48)。
另外,极值确定器410可确定频谱系数257为最小系数,因为其比较值(0.03)小于其(此处:最接近)前任者256的比较值(0.45),且因为其比较值(此处:最接近)后继者258的比较值(0.18)。
极值确定器410可因此通过确定频谱系数255为极值系数、通过确定频谱系数253为作为最小系数(其为极值系数255的最靠近在前最小系数),且通过确定频谱系数257为最小系数(其为极值系数255的最靠近在后最小系数)来确定包含频谱系数253至257的子序列。
频谱修正器420现可基于所有频谱系数253至257的比较值来确定子序列253至257的代表值。
举例而言,频谱修正器420可经被配置为总计子序列的所有频谱系数的比较值。(举例而言,对于表2,子序列253至257的代表值则总计为:0.05+0.48+0.73+0.45+0.03=1.74)。
或者,例如,频谱修正器420可经被配置为总计子序列的所有频谱系数的比较值的平方。(举例而言,对于表2,子序列253至257的代表值则总计为:(0.05)+(0.48)2+(0.73)2+(0.45)2+(0.03)2=0.9692)。
或者,例如,频谱修正器420可经被配置为求子序列253至257的所有频谱系数的比较值的平方的总和的平方根。(举例而言,对于表2,代表值则为0.98448)。
根据一些实施例,频谱修正器420将设定极值系数的频谱值(在表中,频谱系数253的频谱值)设定为预定义值。
然而,其它实施例使用重心方法。表3例示出包含频谱系数282至288的子序列:
频谱位置 | 281 | 282 | 283 | 284 | 285 | 286 | 287 | 288 | 289 |
比较值 | 0.12 | 0.04 | 0.10 | 0.20 | 0.93 | 0.92 | 0.90 | 0.05 | 0.15 |
表3
尽管极值系数位于频谱位置285处,但根据重心方法,重心位于不同频谱位置处。
为确定重心的频谱位置,极值确定器410对子序列的所有频谱系数的经加权频谱位置进行求和,并使结果除以该子序列的频谱系数的比较值的总和。接着可对除法结果使用商用舍位以确定重心。频谱系数的经加权频谱位置为其频谱位置与其比较值的乘积。
简而言的,极值确定器通过以下步骤来获得重心:
1)确定子序列的每一频谱系数的比较值与频谱位置的乘积;
2)对1)中所确定的乘积进行求和以获得第一总和;
3)对子序列的所有频谱系数的比较值进行求和以获得第二总和;
4)使第一总和除以第二总和以产生中间结果;以及
5)对该中间结果应用舍位至最近舍位值(round-to-nearestrounding)以获得重心(舍位至最近舍位值:8.49舍位至8;8.5舍位至9)。
因此,对于表3的实例,通过以下方式获得重心:
(0.04·282+0.10·283+0.20·284+0.93·285+0.92·286+0.90·287+0.05·288)/(0.04+0.10+0.20+0.93+0.92+0.90+0.05)=897.25/3.14=285.75=286。
因此,在表3的实例中,极值确定器410将被配置为确定频谱位置286为重心。
在一些实施例中,极值确定器410不检查完整比较频谱(例如,功率频谱520),或不检查完整音频信号输入频谱。代替地,极值确定器410可仅部分地检查比较频谱或音频信号输入频谱。
图6例示出以下实例。在该实例中,功率频谱620(作为比较频谱)已由极值确定器410自系数55开始检查。小于55的频谱位置处的系数尚未检查。因此,小于55的频谱位置处的频谱系数在经代换MDCT频谱630中保持未修正。相比的下,图5例示出经代换MDCT频谱530,其中所有MDCT频谱线均已由频谱修正器420修正。
因此,频谱修正器420可经被配置为修正音频信号输入频谱,使得该音频信号输入频谱的频谱系数中的至少一些的频谱值获保留未修正。
在一些实施例中,频谱修正器420经被配置为确定极值系数中的一者的比较值或频谱值中的一者的间的值差是否小于临界值。在该等实施例中,频谱修正器420经被配置为修正音频信号输入频谱,使得取决于该值差是否小于临界值,音频信号输入频谱的频谱系数中的至少一些的频谱值在经修正音频信号频谱中获保留未修正。
举例而言,在一实施例中,频谱修正器420可经被配置为不修正或替换所有极值系数,而是修正或替换极值系数中的仅一些极值系数。举例而言,当极值系数(例如,局部最大值)的比较值与后续和/或在前最小值的比较值的间的差小于临界值时,频谱修正器可决定不修正此等频谱值(且例如,其的间的频谱系数的频谱值),而是使此等频谱值在经修正(代换)MDCT频谱630中保持未修正。在图6的经修正MDCT频谱630中,频谱系数100至112的频谱值以及频谱系数124至136的频谱值在未修正(代换)频谱630中已由频谱修正器保持未修正。
处理单元可另外经被配置为量化经修正(代换)MDCT频谱630的系数,以获得经量化MDCT频谱635。
根据一实施例,频谱修正器420可经被配置为接收微调信息。音频信号输入频谱的频谱系数的频谱值可为带正负号的值,其各自包含正负号分量。当微调信息处于第一微调状态时,频谱修正器可经被配置为将一个或多个极值系数的或伪系数中的一者的正负号分量设定为第一正负号值。并且,当微调信息处于不同的第二微调状态时,频谱修正器可经被配置为将一个或多个极值系数的或伪系数中的一者的频谱值的正负号分量设定为不同的第二正负号值。
举例而言,在表4中,
频谱位置 | 291 | 301 | 321 | 329 | 342 | 362 | 388 | 397 | 405 |
频谱值 | +0.88 | -0.91 | +0.79 | -0.82 | +0.93 | -0.92 | -0.90 | +0.95 | -0.92 |
微调状态 | 1st | 2nd | 1st | 2nd | 1st | 2nd | 2nd | 1st | 2nd |
表4
频谱系数的频谱值指示频谱系数291处于第一微调状态,频谱系数301处于第二微调状态,频谱系数321处于第一微调状态,等等。
举例而言,返回上文所阐释的重心确定,若重心(例如,近似在中部)位于两个频谱位置的间,则频谱修正器可设定正负号,使得第二微调状态被指示。
根据一实施例,处理单元430可经被配置为量化经修正音频信号频谱,以获得经量化音频信号频谱。处理单元430可另外经被配置为处理经量化音频信号频谱,以获得经编码音频信号频谱。
此外,处理单元430可进一步经被配置为产生侧边信息,其仅对经量化音频信号频谱的具有频谱值等于预定义值的最接近前任者及频谱值等于预定义值的最接近后继者的彼多个频谱系数指示该系数是否为极值系数中的一者。
此信息可由极值确定器410提供给处理单元430。
举例而言,此信息可由处理单元430储存在位字段中,从而对经量化音频信号频谱的具有频谱值等于预定义值的最接近前任者及频谱值等于预定义值的最接近后继者的频谱系数中的每一者指示该系数是否为极值系数中的一者(例如,通过位值1),或该系数是否不是极值系数中的一者(例如,通过位值0)。在一实施例中,译码器可稍后使用此信息来重新储存音频信号输入频谱。该位字段可具有固定长度或信号适应性选择的长度。在后者情况下,可另外将位字段的长度传达给译码器。
举例而言,由处理单元430产生的位字段[000111111]可指示出现在(依次排序)(经量化)音频信号频谱中的前三个「独立」系数(其频谱值不等于预定义值,但其前任者及其后继者的频谱值等于预定义值)不是极值系数,但接下来的六个「独立」系数为极值系数。此位字段描述可在图6中的经量化MDCT频谱635中看到的情形,其中前三个「独立」系数5、8、25不是极值系数,但其中接下来的六个「独立」系数59、71、83、94、116、141是极值系数。
此外,该频谱系数的最接近前任者为经量化音频信号频谱内紧接该频谱系数的前的另一频谱系数,且该频谱系数的最接近后继者为经量化音频信号频谱内紧接该频谱系数的后的另一频谱系数。
在下文中,描述一种用于基于经编码音频信号频谱产生音频输出信号的装置。
图1例示出根据一实施例的用于基于经编码音频信号频谱产生音频输出信号的装置。
该装置包含处理单元110,其用于处理经编码音频信号频谱以获得经译码音频信号频谱。该经译码音频信号频谱包含多个频谱系数,其中该多个频谱系数中的每一者具有在经编码音频信号频谱内的频谱位置以及频谱值,其中该多个频谱系数根据其在经编码音频信号频谱内的频谱位置而依次排序,使得频谱系数形成频谱系数序列。
此外,该装置包含伪系数确定器120,其用于使用旁循序(sideinfo)来确定经译码音频信号频谱的一个或多个伪系数,该等伪系数中的每一者具有频谱位置及频谱值。
另外,该装置包含频谱修正单元130,其用于将一个或多个伪系数设定为预定义值,以获得经修正音频信号频谱。
此外,该装置包含频谱-时间转换单元140,其用于将经修正的音频信号频谱转换至时域,以获得时域转换信号。
另外,该装置包含可控振荡器150,其用于产生时域振荡器信号,该可控振荡器由一个或多个伪系数中的至少一者的频谱位置及频谱值控制。
此外,该装置包含混频器160,其用于混合时域转换信号与时域振荡器信号以获得音频输出信号。
在一实施例中,该混频器可经被配置为通过在时域中将时域转换信号与时域振荡器信号相加来混合时域转换信号与时域振荡器信号。
处理单元110可例如为任何种类的音频译码器,例如MP3音频译码器、用于WMA的音频译码器、用于WAVE档案的音频译码器、AAC音频译码器或USAC音频译码器。
处理单元110可例如为如中所描述[8](ISO/IEC14496-3:2005,信息技术,音频视觉对象的写码,部分3:音频,子部分4)中所述或如[9](ISO/IEC14496-3:2005,信息技术,音频视觉对象的写码,部分3:音频,子部分4)中所述的音频译码器。举例而言,处理单元430可包含经量化值的重新定标(「去量化」),及/或时间噪声整型工具,例如描述于[8]中,且/或处理单元430可包含感知噪声代换工具,例如描述于[8]中。
根据一实施例,频谱系数中的每一者可具有最接近前任者及最接近后继者,其中该频谱系数的最接近前任者可为该多个频谱系数中在序列内紧接该频谱系数之前的一个频谱系数,其中该频谱系数的最紧接后继者可为该多个频谱系数中在序列内紧接该频谱系数之后的一个频谱系数。
伪系数确定器120可经被配置为通过确定该序列的至少一频谱系数来确定经译码音频信号频谱的一个或多个伪系数,该频谱系数具有不同于预定义值的频谱值,该频谱系数具有频谱值等于预定义值的最接近前任者,且具有频谱值等于预定义值的最接近后继者。在一实施例中,该预定义值可为零,且该预定义值可为零。
换言的,伪系数确定器120对经译码音频信号频谱的一些或所有系数确定相应考虑的系数是否不同于预定义值(较佳:不同于0),在前系数的频谱值是否等于预定义值(较佳:等于0),且在后系数的频谱值是否等于预定义值(较佳:等于0)。
在一些实施例中,此所确定的系数为((总是))伪系数。
然而,在其它实施例中,此所确定的系数为((仅))伪系数候选者,且可或可不为伪系数。在彼等实施例中,伪系数确定器120经被配置为确定该至少一伪系数候选者,其具有不同于预定义值的频谱值,其具有频谱值等于预定义值的最接近前任者,且其可具有频谱值等于预定义值的最接近后继者。
伪系数确定器120接着被配置为通过确定侧边信息是否指示该伪系数候选者为伪系数而确定该伪系数候选者是否为伪系数。
举例而言,该侧边信息可由伪系数确定器120在位字段中接收,该侧边信息对经量化音频信号频谱的具有频谱值等于预定义值的最接近前任者及频谱值等于预定义值的最接近后继者的频谱系数中的每一者,指示该系数是否为极值系数中的一者(例如,通过位值1),或该系数是否不是极值系数中的一者(例如,通过位值0)。
举例而言,位字段可[000111111]指示出现在(依次排序)(经量化)音频信号频谱中的前三个「独立」系数(其频谱值不等于预定义值,但其前任者或其后继者的频谱值等于预定义值)不是极值系数,但接下来的六个「独立」系数为极值系数。此位字段描述可在图6中的经量化MDCT频谱635中看到的情形,其中前三个「独立」系数5、8、25不是极值系数,但接下来的六个「独立」系数为极值系数。
频谱修正单元130可经被配置为将伪系数自经译码音频信号频谱中「删除」。事实上,频谱修正单元将经译码音频信号频谱的伪系数的频谱值设定为预定义值(较佳为0)。此为合理的,因为将仅需要(至少一)伪系数来控制(至少一)可控振荡器150。因此,例如考虑图6中的经量化MDCT频谱635。若将频谱635视为经译码音频信号频谱,则频谱修正单元130将设定极值系数59、71、83、94、116及141的频谱值以获得经修正音频信号频谱,且将使频谱的其它系数保持未修正。
频谱-时间转换单元140将经修正音频信号频谱自频谱域转换至时域。举例而言,经修正音频信号频谱可为MDCT频谱,且频谱-时间转换单元140可为逆经修正离散余弦变换(IMDCT)滤波器组。在其它实施例中,频谱可为MDST频谱,且频谱-时间转换单元140可为逆经修正离散正弦变换(IMDST)滤波器组。或者,在进一步实施例中,频谱可为DFT频谱,且频谱-时间转换单元140可为逆离散傅立叶变换(IDFT)滤波器组。
可控振荡器150可经被配置为产生具有振荡器信号频率的时域振荡器信号,使得振动器信号的振荡器信号频率可取决于一个或多个伪系数中的一者的频谱位置。由振荡器产生的振荡器信号可为时域正弦信号。可控振荡器150可经被配置为依据一个或多个伪系数中的一者的频谱值来控制时域正弦信号的振幅。
根据一实施例,伪系数为带正负号的值,其各自包含正负号分量。可控振荡器150可经被配置为产生时域振荡器信号,使得振荡器信号的振荡器信号频率进一步可取决于一个或多个伪系数中的一者的正负号分量,使得当正负号分量具有第一正负号值时,振荡器信号频率可具有第一频率值,且使得当正负号分量具有不同的第二值时,振荡器信号频率可具有不同的第二频率值。
举例而言,考虑图6的MDCT频谱635中的频谱位置59处的伪系数。若频率8200Hz将被指派给频谱位置59,且若频率8400Hz将被指派给频谱位置60,则可控振荡器可例如经被配置为将振荡器频率设定为8200Hz(若伪系数的频谱值的正负号为正),且可例如经被配置为将振荡器频率设定为8300Hz((若伪系数的频谱值的正负号为负))。
因此,可使用伪系数的频谱值的正负号来控制可靠振荡器将振荡器频率设定为指派给伪系数的频谱位置((例如频谱位置59))的频率(例如8200Hz)抑或设定为介于指派给伪系数的频谱位置(例如频谱位置59)的频率((例如8200Hz))与指派给紧接该伪系数的频谱位置的后的频谱位置((例如频谱位置60))的频率(例如8400Hz)的间的频率((例如8300Hz))。
在一实施例中,可控振荡器150另外由自前一框的伪系数得出的一个或多个外插参数控制。举例而言,可控振荡器150亦可另外经由自该前一框的伪系数得出的外插参数来控制,以便例如抵消传输期间的数据框损失,或平滑振荡器控制的不稳定行为。外插参数可例如为频谱位置或频谱值。举例而言,当考虑时间-频率域的频谱系数时,与时间常数t-1有关的频谱系数可由第一框组成,且与时间常数t有关的频谱系数可被指派给第二框。举例而言,可拷贝与时间常数t-1有关的伪系数的频谱值及/或频谱位置,以为与时间常数t有关的当前一帧获得外插参数。
图2例示出一实施例,其中该装置包含另外的可控振荡器252、254、256,其用于产生可由频谱位置控制的另外的时域振荡器信号,以及一个或多个伪系数中的另外伪系数的频谱值。该等另外的可控振荡器252、254、256经被配置为基于伪系数中的一者的频谱位置而操纵振荡器信号频率。且/或可控振荡器252、254、256中的每一者经被配置为基于伪系数中的每一者的频谱值而操纵振荡器信号的振幅。
图1及图2的混频器160经被配置为混合由频谱-时间转换单元140产生的时域转换信号与由一个或多个可控振荡器150、252、254、256产生的一个或多个时域振荡器信号,以获得音频输出信号。混频器160可通过时域转换信号与一个或多个时域振荡器信号的迭加而产生音频输出信号。
图3例示出比较原始正弦波(左)及由MDCT/IMDCT链处理的后的正弦波(右)的两个图。在由MDCT/IMDCT链处理的后,正弦波包含颤音异物。上文所提供的概念避免了正弦波由MDCT/IMDCT链处理,而是正弦信息由伪系数编码,且/或正弦波由可控振荡器再制。
尽管已在装置的上下文中描述了一些态样,但将清除,此等态样亦表示对应方法的描述,其中方块或设备对应于方法步骤或方法步骤的特征。类似地,方法步骤的上下文中所描述的态样亦表示对应装置的对应框或项目或特征的描述。
本发明的经分解信号可储存于数字储存媒体上,或可于例如无线传输媒体或有线传输媒体(例如因特网)的传输媒体上传输。
取决于某些实施要求,本发明的实施例可在硬件中或软件中实施。可使用数字储存媒体来执行该实施,数字储存媒体例如为软式盘片、DVD、CD、ROM、PROM、EPROM及EEPROM或FLASH内存,其上储存有可以电子方式读取的控制信号,数字储存媒体与(或能够与)可规划计算机系统协作,使得相应方法被执行。
根据本发明的一些实施例包含非暂时性资料载体,其具有可以电子方式读取的控制信号,该非暂时性数据载体能够与可规划计算机系统协作,使得本文所述方法中的一者被执行。
一般而言,本发明的实施例可实施为具有程序代码的计算机程序产品,当该计算机程序产品在计算机上运行时,该程序代码操作以用于执行该等方法中的一者。该程序代码可例如储存于机器可读载体上。
其它实施例包含用于执行本文所述的方法中的一者的计算机程序,其储存于机器可读载体上。
换言之,本发明的方法的实施例因此为具有用于执行本文所述的方法中的一者的程序代码的计算机程序,当该计算机程序在计算机上运行时。
本发明的方法的另一实施例因此为数据载体(或数字储存媒体,或计算机可读媒体),其包含记录于其上的用于执行本文所述方法中的一者的计算机程序。
本发明的方法的另一实施例因此为表示用于执行本文所述方法中的一者的计算机程序的数据流或信号序列。该数据流或该信号序列可例如经被配置为经由数据通讯连接(例如经由因特网)而传送。
另一实施例包含处理构件,例如计算机或可规划逻辑装置,其经被配置为或适于执行本文所述方法中的一者。
另一实施例包含一种计算机,其上安装有用于执行本文所述方法中的一者的计算机程序。
在一些实施例中,可使用可规划逻辑装置(例如,可现场规划门阵列)来执行本文所述方法的一些或所有功能性。在一些实施例中,可现场规划门阵列可与微处理器协作,以便执行本文所述方法中的一者。一般而言,该等方法较佳由任何硬件装置执行。
上文所述的实施例仅例示本发明的原理。应理解,熟习此项技术者将明白本文所述的布置及细节的修正及变化。因此,希望本发明仅受附加的申请专利范围的范畴限制,而非受藉助于本文实施例的描述及阐释所呈现的具体细节限制。
参考文献
[1]Daudet,L.;Sandler,M.;,"MDCTanalysisofsinusoids:exactresultsandapplicationstocodingartifactsreduction,"SpeechandAudioProcessing,IEEETransactionson,vol.12,no.3,pp.302-312,May2004
[2]Purnhagen,H.;Meine,N.;,"HILN-theMPEG-4parametricaudiocodingtools,"CircuitsandSystems,2000.Proceedings.ISCAS2000Geneva.The2000IEEEInternationalSymposiuman,vol.3,no.,pp.201-204vol.3,2000
[3]Oomen,Werner;Schuijers,Erik;denBrinker,Bert;Breebaart,Jeroen:,"AdvancesinParametrieCodingforHigh-QualityAudio,"AudioEngineeringSocietyConvention114,preprint,Amsterdam/NL,March2003
[4]vanSchijndel,N.H.;vandePar,S.;,"Rate-distortionoptimizedhybridsoundcoding,"ApplicationsofSignalProcessingtoAudioandAcoustics,2005.IEEEWorkshopon,vol.,no.,pp.235-238,16-19Oct.2005
[5]Bessette,8.;Lefebvre,R.;Salami,R.;,"Universalspeech/audiocodingusinghybridACELP/TCXtechniques,"Acoustics,Speech,andSignalProcessing,2005.Proceedings.(ICASSP'05).IEEEInternationalConferenceon,vol.3,no.,pp.iii/301-iii/304Val.3,18-23March2005
[6]Ferreira,A.J.S."CombinedspectralenvelopenormalizationandsubtractionofsinusoidalcomponentsintheODFTandMDCTfrequencydomains,"ApplicationsofSignalProcessingtoAudioandAcoustics,2001IEEEWorkshoponthe,vol.,no.,pp.51-54,2001
[7]http://people.xiph.org/~xiphmont/demo/ghost/demo.html
Thecorrespondingarchive.org-websiteisstoredat:
http://web.archive.org/web/20110121141149/http://people.xiph.org/~xiphmont/demo/ghost/demo.html
[8]ISO/IEC14496-3:2005(E)–Informationtechnology–Codingofaudio-visualobjects–Part3:Audio,Subpart4
[9]ISO/IEC14496-3:2009(E)–Informationtechnology–Codingofaudio-visualobjects–Part3:Audio,Subpart4
Claims (30)
1.一种用以基于经编码音频信号频谱产生音频输出信号的装置,其中,所述装置包含:
一处理单元(110),用以处理所述经编码音频信号频谱以获得一经译码音频信号频谱,所述经译码音频信号频谱包含多个频谱系数,其中,所述多个频谱系数中的每一者均具有一频谱值以及在所述经编码音频信号频谱内的频谱位置,其中,所述多个频谱系数根据它们在所述经编码音频信号频谱内的频谱位置而依次排序,使得所述多个频谱系数形成一频谱系数序列,
一伪系数确定器(120),用以确定所述经译码音频信号频谱的一个或多个伪系数,所述一个或多个伪系数中的每一者均具有一频谱位置及一频谱值,
一频谱修正单元(130),用以将所述一个或多个伪系数设定为一预定义值,以获得一经修正音频信号频谱,
一频谱-时间转换单元(140),用以将所述经修正音频信号频谱转换至一时域,以获得一时域转换信号,
一可控振荡器(150),用以产生一时域振荡器信号,所述可控振荡器(150)由所述一个或多个伪系数中的至少一者的所述频谱位置和所述频谱值控制,以及
一混频器(160),用以混合所述时域转换信号与所述时域振荡器信号,以获得所述音频输出信号。
2.根据权利要求1所述的装置,
其中,所述多个频谱系数中的每一者均具有一最接近前任者及一最接近后继者中的至少一者,其中,所述频谱系数的所述最接近前任者为所述多个频谱系数中在所述频谱系数序列内紧接所述频谱系数之前的一个频谱系数,其中,所述频谱系数的所述最接近后继者为所述多个频谱系数中在所述序列中紧接所述频谱系数之后的一个频谱系数,
其中,所述伪系数确定器(120)被配置为通过确定所述序列中具有一不同于所述预定义值的频谱值的至少一频谱系数,来确定所述经译码音频信号频谱的所述一个或多个伪系数,所述至少一频谱系数均具有一最接近前任者,所述最接近前任者的频谱值等于所述预定义值,且所述至少一频谱系数具有一最接近后继者,所述最接近后继者的频谱值等于所述预定义值。
3.根据权利要求2所述的装置,其中,所述预定义值为零。
4.根据权利要求2所述的装置,
其中,所述伪系数确定器(120)被配置为通过确定所述序列的所述至少一频谱系数为一伪系数候选者,来确定所述经译码音频信号频谱的所述一个或多个伪系数,所述至少一频谱系数具有一最接近前任者,所述最接近前任者的频谱值等于所述预定义值,且所述至少一频谱系数具有一最接近后继者,所述最接近后继者的频谱值等于所述预定义值,且
其中,所述伪系数确定器(120)被配置为通过确定侧边信息是否指出所述伪系数候选者为一伪系数,来确定所述伪系数候选者是否为一伪系数。
5.根据权利要求1所述的装置,其中,所述可控振荡器(150)被配置为产生具有一振荡器信号频率的所述时域振荡器信号,使得所述振荡器信号的所述振荡器信号频率取决于所述一个或多个伪系数中的一者的频谱位置。
6.根据权利要求5所述的装置,
其中,所述伪系数为带正负号的值,且各自包含一正负号分量,以及
其中,所述可控振荡器(150)被配置为产生所述时域振荡器信号,使得所述振荡器信号的所述振荡器信号频率另外取决于所述一个或多个伪系数中的一者的所述正负号分量,使得当所述正负号分量具有一第一正负号值时,所述振荡器信号频率具有一第一频率值,且使得当所述正负号分量具有一不同的第二值时,所述振荡器信号频率具有一不同的第二频率值。
7.根据权利要求1所述的装置,其中,所述可控振荡器(150)被配置为产生所述时域振荡器信号,其中,所述振荡器信号的振幅取决于所述一个或多个伪系数中的一者的频谱值,使得当所述频谱值具有一第三值时,所述振荡器信号的所述振幅具有一第一振幅值,且使得当所述频谱值具有一不同的第四值时,所述振荡器信号的所述振幅具有一不同的第二振幅值,当所述第四值大于所述第三值时,所述第二振幅值大于所述第一振幅值。
8.根据权利要求1所述的装置,其中,所述可控振荡器(150)另外由从前一帧的一伪系数得出的一个或多个外插参数控制。
9.根据权利要求1所述的装置,
其中,所述经修正音频信号频谱为一MDCT(修正型离散余弦变换)频谱,所述MDCT频谱包含MDCT系数,且
其中,所述频谱-时间转换单元(140)被配置为通过将所述经译码音频信号频谱的所述系数中的至少一些系数转换至时域,来将所述MDCT频谱自一MDCT域转换至时域。
10.根据权利要求1所述的装置,其中,所述混频器(160)被配置为通过在所述时域中使所述时域转换信号与所述时域振荡器信号相加,来混合所述时域转换信号与所述时域振荡器信号。
11.根据权利要求1所述的装置,
其中,由所述可控振荡器(150)产生的所述时域振荡器信号为一第一时域振荡器信号,
其中,所述装置进一步包含用以产生一个或多个另外的时域振荡器信号的一个或多个另外的可控振荡器(252,254,256),其中,所述一个或多个另外的可控振荡器(252,254,256)中的每一者均被配置为产生所述一个或多个另外的时域振荡器信号中的一者,其中,所述一个或多个另外的可控振荡器(252,254,256)中的每一者均由所述一个或多个伪系数中的至少一者的频谱位置及频谱值控制,且
其中,所述混频器系被配置为混合所述第一时域振荡器信号、所述一个或多个另外的时域振荡器信号以及所述时域转换信号,以获得所述音频输出信号。
12.一种用以编码一音频信号的音频信号输入频谱的装置,所述音频信号输入频谱包含多个频谱系数,其中,所述多个频谱系数中的每一者均具有在所述音频信号输入频谱内的一频谱位置、一频谱值,其中,所述多个频谱系数根据它们在所述音频信号输入频谱内的频谱位置而依次排序,使得所述多个频谱系数形成一频谱系数序列,其中,所述多个频谱系数中的每一者均具有一个或多个前任者和一个或多个后继者中的至少一者,其中,所述频谱系数的所述前任者中的每一者为所述多个频谱系数中在所述序列内居于所述频谱系数之前的一个频谱系数,其中,所述频谱系数的所述后继者中的每一者为所述多个频谱系数中在所述序列内居于所述频谱系数之后的一个频谱系数,且其中,所述装置包含:
一极值确定器(410),用以确定一个或多个极值系数,
一频谱修正器(420),用以通过将所述一个或多个极值系数中的至少一者的所述前任者中的至少一者或所述后继者中的至少一者的频谱值设定为一预定义值,来修正所述音频信号输入频谱以获得一经修正音频信号频谱,其中,所述频谱修正器(420)被配置为不将所述一个或多个极值系数的所述频谱值设定为所述预定义值,或被配置为用一伪系数代替所述一个或多个极值系数中的至少一者,其中,所述伪系数的频谱值不同于所述预定义值,
一处理单元(430),用以处理所述经修正音频信号频谱,以获得一经编码音频信号频谱,以及
一侧边信息产生器(440),用以产生并传输侧边信息,其中,所述侧边信息产生器(440)被配置为定位由所述频谱修正器(420)产生的所述经修正音频信号输入频谱内的一个或多个伪系数候选者,其中,所述侧边信息产生器(440)被配置为选择所述伪系数候选者中的至少一者作为选定候选者,且其中,所述侧边信息产生器(440)被配置为产生所述侧边信息,使得所述侧边信息指出所述选定候选者为所述伪系数,
其中,所述极值确定器(410)被配置为确定所述一个或多个极值系数,使得所述极值系数中的每一者为所述多个频谱系数中的一个频谱系数,所述频谱系数的频谱值大于其前任者中的至少一者的频谱值,且所述频谱系数的所述频谱值大于其后继者中的至少一者的频谱值,或者
其中,所述多个频谱系数中的每一者均具有一与所述频谱系数相关联的比较值,其中,所述极值确定器(410)被配置为确定所述一个或多个极值系数,使得所述一个或多个极值系数中的每一者为所述多个频谱系数中的一个频谱系数,所述频谱系数的所述比较值大于其前任者中的至少一者的所述比较值,且所述频谱系数的所述比较值大于其后继者中的至少一者的所述比较值。
13.根据权利要求12所述的装置,其中,所述侧边信息产生器(440)被配置为传输所述侧边信息的大小。
14.根据权利要求12所述的装置,其中,所述频谱修正器(420)被配置为修正所述音频信号输入频谱,使得所述音频信号输入频谱的所述多个频谱系数中的至少一些频谱系数的所述频谱值在所述经修正音频信号频谱中被保留未修正。
15.根据权利要求12所述的装置,
其中,所述多个频谱系数中的每一者均具有作为其前任者中的一者的一最接近前任者及作为其后继者中的一者的一最接近后继者中的至少一者,其中,所述频谱系数的所述一最接近前任者为所述多个频谱系数中在所述序列内紧接所述频谱系数之前的一个频谱系数,其中,所述频谱系数的所述最接近后继者为所述多个频谱系数中在所述序列内紧接所述频谱系数之后的一个频谱系数,
其中,所述频谱修正器(420)被配置为通过将所述一个或多个极值系数中的一者的所述最接近前任者或所述最接近后继者的频谱值设定为所述预定义值,来修正所述音频信号输入频谱以获得所述经修正音频信号频谱,其中,所述频谱修正器(420)被配置为不将所述一个或多个极值系数的一个或多个所述频谱值设定为所述预定义值,或被配置为用一伪系数代替所述一个或多个极值系数中的至少一者,其中,所述伪系数的所述频谱值不同于所述预定义值,且
其中,所述极值确定器(410)被配置为确定所述一个或多个极值系数,使得所述一个或多个极值系数中的每一者均为所述多个频谱系数中的一个频谱系数,所述频谱系数的所述频谱值大于其最接近前任者的所述频谱值,且所述频谱系数的所述频谱值大于其最接近后继者的所述频谱值,或其中,所述多个频谱系数中的每一者均具有与所述频谱系数相关联的一比较值,其中,所述极值确定器(410)被配置为确定所述一个或多个极值系数,使得所述一个或多个极值系数中的每一者均为所述多个频谱系数中的一个频谱系数,所述频谱系数的所述比较值大于其最接近前任者的比较值,且所述频谱系数的所述比较值大于其最接近后继者的比较值。
16.根据权利要求15所述的装置,
其中,所述极值确定器(410)被配置为确定一个或多个最小系数,使得所述一个或多个最小系数中的每一者为所述多个频谱系数中的一个频谱系数,所述频谱系数的所述频谱值小于其前任者中的一者的频谱值,且此频谱系数的所述频谱值小于其后继者中的一者的频谱值,或其中所述多个频谱系数中的每一者均具有与所述频谱系数相关联的一比较值,其中,所述极值确定器(410)被配置为确定所述一个或多个最小系数,使得所述一个或多个最小系数中的每一者均为所述多个频谱系数中的一个频谱系数,所述频谱系数的所述比较值小于其前任者中的一者的比较值,且所述频谱系数的所述比较值小于其后继者中的一者的比较值,并且
其中,所述频谱修正器(420)被配置为基于所述一个或多个极值系数中的一者或多者或者所述一个或多个最小系数中的一者或多者的所述频谱值或所述比较值,来确定一表示值,使得所述表示值不同于所述预定义值,且其中,所述频谱修正器(420)被配置为通过将所述频谱值设定为所述表示值,来改变所述音频信号输入频谱的所述系数中的一者的所述频谱值。
17.根据权利要求16所述的装置,
其中,所述频谱修正器(420)被配置为确定所述一个或多个极值系数中的一者的所述比较值或所述频谱值中的一者之间的一数值差是否小于一临界值,且
其中,所述频谱修正器(420)被配置为修正所述音频信号输入频谱,使得取决于所述数值差是否小于所述临界值,所述音频信号输入频谱的所述多个频谱系数中的至少一些的所述频谱值在所述经修正音频信号频谱中被保留未修正。
18.根据权利要求16所述的装置,
其中,所述极值确定器(410)被配置为确定频谱值序列的一个或多个子序列,使得所述一个或多个子序列中的每一者均包含所述音频信号输入频谱的多个后续频谱系数,所述多个后续频谱系数在所述子序列内根据其频谱位置依次排序,其中,所述一个或多个子序列中的每一者均具有一在所述依次排序的子序列中位于第一的第一元素、以及一在所述依次排序的子序列中位于最后的最后元素,其中所述一个或多个子序列中的每一者均包含所述一个或多个最小系数中的恰好两者以及所述一个或多个极值系数中的恰好一者,所述一个或多个最小系数中的一者为所述子序列的所述第一元素,且所述一个或多个最小系数中的另一者为所述子序列的所述最后元素,并且
其中,所述频谱修正器(420)被配置为基于所述一个或多个子序列中的一者的所述系数的所述一个频谱值或所述比较值来确定所述表示值,且其中所述频谱修正器被配置为通过将所述子序列的所述系数中的一者的所述频谱值设定为所述表示值来改变所述频谱值。
19.根据权利要求18所述的装置,其中,所述频谱修正器(420)被配置为通过确定所述一个或多个子序列中的所述一者的所述系数的所述比较值的平方和来确定所述表示值。
20.根据权利要求18所述的装置,
其中,所述极值确定器(410)被配置为通过以下步骤确定一重心系数:确定所述子序列的每一频谱系数的所述比较值与位置值的乘积以获得多个经加权系数,对所述多个经加权系数进行求和以获得一第一总和,对所述子序列的所有频谱系数的所述比较值进行求和以获得一第二总和;将所述第一总和除以所述第二总和以获得一中间结果;以及对所述中间结果应用舍位至最近舍位值以获得所述重心系数,且其中所述频谱修正器(420)被配置为将所述子序列的并非所述重心系数的所有频谱系数的所述频谱值设定为所述预定义值,或者
其中,所述极值确定器(410)被配置为通过以下步骤确定一重心系数:确定所述子序列的每一频谱系数的所述频谱值与所述位置值的乘积以获得多个经加权系数,对所述多个经加权系数进行求和以获得一第一总和,对所述子序列的所有频谱系数的所述频谱值进行求和以获得一第二总和;将所述第一总和除以所述第二总和以获得一中间结果;以及对所述中间结果应用舍位至最近舍位值以获得所述重心系数,且其中所述频谱修正器(420)被配置为将所述子序列的并非所述重心系数的所有频谱系数的所述频谱值设定为所述预定义值。
21.根据权利要求12所述的装置,其中,所述预定义值为零。
22.根据权利要求12所述的装置,其中,每一频谱系数的所述比较值为自所述音频信号的一能量保存变换得出的一另一频谱的一另一系数的一平方值。
23.根据权利要求12所述的装置,其中,每一频谱系数的所述比较值为自所述音频信号的一能量保存变换得出的一另一频谱的一另一系数的一振幅值。
24.根据权利要求23所述的装置,其中,所述另一频谱为一复杂修正型离散余弦变换频谱,且其中所述能量保存变换为一复杂修正型离散余弦变换。
25.根据权利要求12所述的装置,
其中,所述频谱修正器(420)被配置为接收微调信息,
其中,所述音频信号输入频谱的所述多个频谱系数为带正负号的值,且各自包含一正负号分量,
其中,所述频谱修正器(420)被配置为在所述微调信息处于一第一微调状态时,将所述一个或多个极值系数中的一者的或所述伪系数的所述频谱值的所述正负号分量设定为一第一正负号值,以获得所述经修正音频信号频谱,且
其中,所述频谱修正器(420)被配置为在所述微调信息处于一不同的第二微调状态时,将所述一个或多个极值系数中的一者的或所述伪系数的所述频谱值的所述正负号分量设定为一不同的第二正负号值,以获得所述经修正音频信号频谱。
26.根据权利要求12所述的装置,其中,所述音频信号输入频谱为一包含MDCT系数的MDCT频谱。
27.根据权利要求12所述的装置,
其中,所述处理单元(430)被配置为量化所述经修正音频信号频谱以获得一经量化音频信号频谱,
其中,所述处理单元(430)进一步被配置为处理所述经量化音频信号频谱以获得一经编码音频信号频谱,
其中,所述处理单元(430)进一步被配置为产生侧边信息,其仅对所述经量化音频信号频谱的具有一最接近前任者及一最接近后继者的那些频谱系数指出所述系数是否为所述一个或多个极值系数中的一者,所述最接近前任者的所述频谱值等于所述预定义值,且所述最接近后继者的所述频谱值等于所述预定义值,
其中,所述频谱系数的所述最接近前任者为在所述经量化音频信号频谱内紧接所述频谱系数之前的另一频谱系数,且其中所述频谱系数的所述最接近后继者为在所述经量化音频信号频谱内紧接所述频谱系数之后的另一频谱系数。
28.根据权利要求12所述的装置,其中,所述频谱修正器(420)被配置为用具有一自所述极值系数的一所述频谱值或所述比较值、自所述极值系数的所述前任者中的一者的所述极值系数的所述频谱值或所述比较值、或自所述极值系数的所述后继者中的一者的所述极值系数的所述频谱值或所述比较值得出的频谱值的伪系数,代替所述极值系数中的一者。
29.一种用以基于经编码音频信号频谱产生音频输出信号的方法,其中,频谱系数中的每一者均具有一在所述经编码音频信号频谱内的频谱位置以及一频谱值,其中,所述频谱系数根据它们在所述经编码音频信号频谱内的频谱位置而依次排序,使得所述频谱系数形成一频谱系数序列,且其中,所述方法包含:
处理所述经编码音频信号频谱以获得一经译码音频信号频谱,所述经译码音频信号频谱包含多个频谱系数,
确定所述经译码音频信号频谱的一个或多个伪系数,所述一个或多个伪系数中的每一者均具有一频谱位置及一频谱值,
将所述一个或多个伪系数设定为一预定义值,以获得一经修正音频信号频谱,
将所述经修正音频信号频谱转换至一时域,以获得一时域转换信号,
通过一可控振荡器产生一时域振荡器信号,所述可控振荡器由所述一个或多个伪系数中的至少一者的所述频谱位置及所述频谱值控制,以及
混合所述时域转换信号与所述时域振荡器信号,以获得所述音频输出信号。
30.一种用以编码一音频信号输入频谱的方法,所述音频信号输入频谱包含多个频谱系数,其中,所述多个频谱系数中的每一者均具有一在所述音频信号输入频谱内的频谱位置、一频谱值及一比较值,其中,所述多个频谱系数根据它们在所述音频信号输入频谱内的频谱位置而依次排序,使得所述多个频谱系数形成一频谱系数序列,其中,所述多个频谱系数中的每一者均具有一个或多个前任者及一个或多个后继者中的至少一者,其中,所述频谱系数的所述前任者中的每一者为所述多个频谱系数中在所述序列内居于所述频谱系数之前的一个频谱系数,其中,所述频谱系数的所述后继者中的每一者为所述多个频谱系数中在所述序列内居于所述频谱系数之后的一个频谱系数,且其中所述方法包含:
确定一个或多个极值系数,
通过将所述一个或多个极值系数中的至少一者的所述前任者中的至少一者或所述后继者中的至少一者的所述频谱值设定为一预定义值,来修正所述音频信号输入频谱以获得一经修正音频信号频谱,其中,通过不将所述一个或多个极值系数的所述频谱值设定为所述预定义值,或通过用一伪系数代替所述一个或多个极值系数中的至少一者,来进行修正所述音频信号输入频谱,其中,所述伪系数的所述频谱值不同于所述预定义值,
处理所述经修正音频信号频谱以获得一经编码音频信号频谱,以及
产生并传输侧边信息,其中,通过定位所述经修正音频信号输入频谱内的一个或多个伪系数候选者来产生所述侧边信息,其中,通过选择所述一个或多个伪系数候选者中的至少一者作为选定候选者来产生所述侧边信息,且其中产生所述侧边信息以使得所述侧边信息指出所述选定候选者作为所述伪系数,
其中,确定所述一个或多个极值系数,使得所述一个或多个极值系数中的每一者为所述多个频谱系数中的一个频谱系数,所述频谱系数的频谱值大于其前任者中的至少一者的所述频谱值,且所述频谱系数的所述频谱值大于其后继者中的至少一者的所述频谱值,或者
其中,所述多个频谱系数中的每一者均具有与所述频谱系数相关联的一比较值,其中,确定所述一个或多个极值系数,使得所述一个或多个极值系数中的每一者均为所述多个频谱系数中的一个频谱系数,所述频谱系数的所述比较值大于其前任者中的至少一者的所述比较值,且所述频谱系数的所述比较值大于其后继者中的至少一者的所述比较值。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201261588998P | 2012-01-20 | 2012-01-20 | |
US61/588,998 | 2012-01-20 | ||
PCT/EP2012/076746 WO2013107602A1 (en) | 2012-01-20 | 2012-12-21 | Apparatus and method for audio encoding and decoding employing sinusoidal substitution |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103493130A CN103493130A (zh) | 2014-01-01 |
CN103493130B true CN103493130B (zh) | 2016-05-18 |
Family
ID=47603553
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201280018238.6A Active CN103493130B (zh) | 2012-01-20 | 2012-12-21 | 用以利用正弦代换进行音频编码及译码的装置和方法 |
Country Status (19)
Country | Link |
---|---|
US (1) | US9343074B2 (zh) |
EP (1) | EP2673776B1 (zh) |
JP (1) | JP5600822B2 (zh) |
KR (1) | KR101672025B1 (zh) |
CN (1) | CN103493130B (zh) |
AR (1) | AR089772A1 (zh) |
AU (1) | AU2012366843B2 (zh) |
BR (1) | BR112013026452B1 (zh) |
CA (2) | CA2831176C (zh) |
ES (1) | ES2545053T3 (zh) |
HK (1) | HK1192640A1 (zh) |
MX (1) | MX350686B (zh) |
MY (1) | MY157163A (zh) |
PL (1) | PL2673776T3 (zh) |
RU (1) | RU2562383C2 (zh) |
SG (1) | SG194706A1 (zh) |
TW (1) | TWI503815B (zh) |
WO (1) | WO2013107602A1 (zh) |
ZA (1) | ZA201308073B (zh) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
MX346927B (es) * | 2013-01-29 | 2017-04-05 | Fraunhofer Ges Forschung | Énfasis de bajas frecuencias para codificación basada en lpc (codificación de predicción lineal) en el dominio de frecuencia. |
BR112015032013B1 (pt) * | 2013-06-21 | 2021-02-23 | Fraunhofer-Gesellschaft zur Förderung der Angewandten ForschungE.V. | Método e equipamento para a obtenção de coeficientes do espectropara um quadro de substituição de um sinal de áudio, descodificador de áudio,receptor de áudio e sistema para transmissão de sinais de áudio |
CN104934032B (zh) * | 2014-03-17 | 2019-04-05 | 华为技术有限公司 | 根据频域能量对语音信号进行处理的方法和装置 |
US9672843B2 (en) | 2014-05-29 | 2017-06-06 | Apple Inc. | Apparatus and method for improving an audio signal in the spectral domain |
EP3067889A1 (en) | 2015-03-09 | 2016-09-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for signal-adaptive transform kernel switching in audio coding |
CN107924683B (zh) * | 2015-10-15 | 2021-03-30 | 华为技术有限公司 | 正弦编码和解码的方法和装置 |
US10146500B2 (en) | 2016-08-31 | 2018-12-04 | Dts, Inc. | Transform-based audio codec and method with subband energy smoothing |
US10839814B2 (en) * | 2017-10-05 | 2020-11-17 | Qualcomm Incorporated | Encoding or decoding of audio signals |
EP3483880A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Temporal noise shaping |
WO2019091576A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits |
EP3483882A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Controlling bandwidth in encoders and/or decoders |
EP3483884A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Signal filtering |
EP3483879A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Analysis/synthesis windowing function for modulated lapped transformation |
EP3483878A1 (en) * | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder supporting a set of different loss concealment tools |
EP3483886A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Selecting pitch lag |
EP3483883A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio coding and decoding with selective postfiltering |
US11523238B2 (en) * | 2018-04-04 | 2022-12-06 | Harman International Industries, Incorporated | Dynamic audio upmixer parameters for simulating natural spatial variations |
JP7354275B2 (ja) | 2019-03-14 | 2023-10-02 | ブームクラウド 360 インコーポレイテッド | 優先度を持つ空間認識マルチバンド圧縮システム |
TWI789577B (zh) * | 2020-04-01 | 2023-01-11 | 同響科技股份有限公司 | 音訊資料重建方法及系統 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1424713A (zh) * | 2003-01-14 | 2003-06-18 | 北京阜国数字技术有限公司 | 高频耦合的伪小波5声道音频编/解码方法 |
US6665638B1 (en) * | 2000-04-17 | 2003-12-16 | At&T Corp. | Adaptive short-term post-filters for speech coders |
Family Cites Families (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU597573B2 (en) | 1985-03-18 | 1990-06-07 | Massachusetts Institute Of Technology | Acoustic waveform processing |
US4686570A (en) * | 1985-12-24 | 1987-08-11 | Rca Corporation | Analog-to-digital converter as for an adaptive television deghosting system |
US4703357A (en) * | 1985-12-24 | 1987-10-27 | Rca Corporation | Adaptive television deghosting system |
DE8706928U1 (zh) * | 1987-05-14 | 1987-08-06 | Ant Nachrichtentechnik Gmbh, 7150 Backnang, De | |
CA2066851C (en) * | 1991-06-13 | 1996-08-06 | Edwin A. Kelley | Multiple user digital receiver apparatus and method with combined multiple frequency channels |
JP3241098B2 (ja) * | 1992-06-12 | 2001-12-25 | 株式会社東芝 | 多方式対応の受信装置 |
EP0638869B1 (de) * | 1993-08-13 | 1995-06-07 | Siemens Aktiengesellschaft | Verfahren zur hochauflösenden Spektralanalyse bei mehrkanaligen Beobachtungen |
US5640416A (en) * | 1995-06-07 | 1997-06-17 | Comsat Corporation | Digital downconverter/despreader for direct sequence spread spectrum communications system |
US6356555B1 (en) * | 1995-08-25 | 2002-03-12 | Terayon Communications Systems, Inc. | Apparatus and method for digital data transmission using orthogonal codes |
US6266644B1 (en) * | 1998-09-26 | 2001-07-24 | Liquid Audio, Inc. | Audio encoding apparatus and methods |
US6606129B1 (en) * | 1998-12-04 | 2003-08-12 | Samsung Electronics Co., Ltd. | Digital filtering of DTV I-F signal to avoid low-end boost of the baseband signal resulting from in-phase synchrodyne |
JP2002182695A (ja) * | 2000-12-14 | 2002-06-26 | Matsushita Electric Ind Co Ltd | 高能率符号化方法及び装置 |
KR100448892B1 (ko) * | 2002-06-04 | 2004-09-18 | 한국전자통신연구원 | 고전력 증폭기의 비선형 왜곡 보상을 위한 전치 왜곡 장치및 그 방법 |
AU2003281128A1 (en) | 2002-07-16 | 2004-02-02 | Koninklijke Philips Electronics N.V. | Audio coding |
CN1286087C (zh) | 2002-08-01 | 2006-11-22 | 松下电器产业株式会社 | 音频解码装置和音频解码方法 |
US20040083110A1 (en) * | 2002-10-23 | 2004-04-29 | Nokia Corporation | Packet loss recovery based on music signal classification and mixing |
KR100467617B1 (ko) * | 2002-10-30 | 2005-01-24 | 삼성전자주식회사 | 개선된 심리 음향 모델을 이용한 디지털 오디오 부호화방법과그 장치 |
DE10345995B4 (de) | 2003-10-02 | 2005-07-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Verarbeiten eines Signals mit einer Sequenz von diskreten Werten |
JP2006311353A (ja) * | 2005-04-28 | 2006-11-09 | Samsung Electronics Co Ltd | ダウンコンバータおよびアップコンバータ |
EP1895511B1 (en) * | 2005-06-23 | 2011-09-07 | Panasonic Corporation | Audio encoding apparatus, audio decoding apparatus and audio encoding information transmitting apparatus |
KR100888474B1 (ko) * | 2005-11-21 | 2009-03-12 | 삼성전자주식회사 | 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법 |
US20110057818A1 (en) * | 2006-01-18 | 2011-03-10 | Lg Electronics, Inc. | Apparatus and Method for Encoding and Decoding Signal |
JP4454604B2 (ja) * | 2006-06-19 | 2010-04-21 | シャープ株式会社 | 信号処理方法、信号処理装置及びプログラム |
KR101299155B1 (ko) * | 2006-12-29 | 2013-08-22 | 삼성전자주식회사 | 오디오 부호화 및 복호화 장치와 그 방법 |
JP4594942B2 (ja) | 2007-01-16 | 2010-12-08 | コベルコ建機株式会社 | 建設機械の冷却構造 |
US20100292986A1 (en) * | 2007-03-16 | 2010-11-18 | Nokia Corporation | encoder |
ES2358786T3 (es) * | 2007-06-08 | 2011-05-13 | Dolby Laboratories Licensing Corporation | Derivación híbrida de canales de audio de sonido envolvente combinando de manera controlable componentes de señal de sonido ambiente y con decodificación matricial. |
MX2010004220A (es) * | 2007-10-17 | 2010-06-11 | Fraunhofer Ges Forschung | Codificacion de audio usando mezcla descendente. |
US8527265B2 (en) * | 2007-10-22 | 2013-09-03 | Qualcomm Incorporated | Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs |
DE102008015702B4 (de) * | 2008-01-31 | 2010-03-11 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zur Bandbreitenerweiterung eines Audiosignals |
CA2821035A1 (en) * | 2008-03-10 | 2009-09-17 | Sascha Disch | Device and method for manipulating an audio signal having a transient event |
EP2104096B1 (en) * | 2008-03-20 | 2020-05-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for converting an audio signal into a parameterized representation, apparatus and method for modifying a parameterized representation, apparatus and method for synthesizing a parameterized representation of an audio signal |
KR101613975B1 (ko) | 2009-08-18 | 2016-05-02 | 삼성전자주식회사 | 멀티 채널 오디오 신호의 부호화 방법 및 장치, 그 복호화 방법 및 장치 |
JP5587061B2 (ja) | 2009-09-30 | 2014-09-10 | 三洋電機株式会社 | 抵抗溶接用通電ブロック、この通電ブロックを用いた密閉電池の製造方法及び密閉電池 |
US9117458B2 (en) * | 2009-11-12 | 2015-08-25 | Lg Electronics Inc. | Apparatus for processing an audio signal and method thereof |
US20120212375A1 (en) * | 2011-02-22 | 2012-08-23 | Depree Iv William Frederick | Quantum broadband antenna |
-
2012
- 2012-12-21 MX MX2013012409A patent/MX350686B/es active IP Right Grant
- 2012-12-21 BR BR112013026452-7A patent/BR112013026452B1/pt active IP Right Grant
- 2012-12-21 AU AU2012366843A patent/AU2012366843B2/en active Active
- 2012-12-21 CA CA2831176A patent/CA2831176C/en active Active
- 2012-12-21 CA CA2848275A patent/CA2848275C/en active Active
- 2012-12-21 SG SG2013080510A patent/SG194706A1/en unknown
- 2012-12-21 WO PCT/EP2012/076746 patent/WO2013107602A1/en active Application Filing
- 2012-12-21 KR KR1020137028601A patent/KR101672025B1/ko active IP Right Grant
- 2012-12-21 MY MYPI2013003947A patent/MY157163A/en unknown
- 2012-12-21 ES ES12818512.1T patent/ES2545053T3/es active Active
- 2012-12-21 RU RU2013148123/08A patent/RU2562383C2/ru active
- 2012-12-21 JP JP2014508848A patent/JP5600822B2/ja active Active
- 2012-12-21 PL PL12818512T patent/PL2673776T3/pl unknown
- 2012-12-21 EP EP12818512.1A patent/EP2673776B1/en active Active
- 2012-12-21 CN CN201280018238.6A patent/CN103493130B/zh active Active
-
2013
- 2013-01-18 TW TW102102004A patent/TWI503815B/zh active
- 2013-01-21 AR ARP130100181A patent/AR089772A1/es active IP Right Grant
- 2013-10-29 ZA ZA2013/08073A patent/ZA201308073B/en unknown
- 2013-11-12 US US14/078,468 patent/US9343074B2/en active Active
-
2014
- 2014-06-18 HK HK14105797.8A patent/HK1192640A1/zh unknown
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6665638B1 (en) * | 2000-04-17 | 2003-12-16 | At&T Corp. | Adaptive short-term post-filters for speech coders |
CN1424713A (zh) * | 2003-01-14 | 2003-06-18 | 北京阜国数字技术有限公司 | 高频耦合的伪小波5声道音频编/解码方法 |
Non-Patent Citations (1)
Title |
---|
COMBINED SPECTRAL ENVELOPE NORMALIZATION AND SUBTRACTION OF SINUSOIDAL COMPONENTS IN THE ODFT AND MDCT FREQUENCY DOMAINS;Anibal J.S.Ferreira;《2001 IEEE Workshop on the Applications of Signal Processing to Audio and Acoustics》;20011004;第51-54页 * |
Also Published As
Publication number | Publication date |
---|---|
WO2013107602A1 (en) | 2013-07-25 |
ZA201308073B (en) | 2015-01-28 |
AR089772A1 (es) | 2014-09-17 |
RU2013148123A (ru) | 2015-05-10 |
CA2848275A1 (en) | 2014-04-03 |
CA2831176A1 (en) | 2013-07-25 |
AU2012366843A1 (en) | 2013-10-10 |
MX350686B (es) | 2017-09-13 |
AU2012366843B2 (en) | 2015-08-06 |
BR112013026452B1 (pt) | 2021-02-17 |
EP2673776B1 (en) | 2015-06-17 |
RU2562383C2 (ru) | 2015-09-10 |
MX2013012409A (es) | 2013-12-06 |
KR101672025B1 (ko) | 2016-11-02 |
JP2014517932A (ja) | 2014-07-24 |
CA2848275C (en) | 2016-03-08 |
CA2831176C (en) | 2014-12-09 |
CN103493130A (zh) | 2014-01-01 |
HK1192640A1 (zh) | 2014-08-22 |
BR112013026452A2 (pt) | 2017-06-27 |
TWI503815B (zh) | 2015-10-11 |
US9343074B2 (en) | 2016-05-17 |
PL2673776T3 (pl) | 2015-12-31 |
TW201346891A (zh) | 2013-11-16 |
JP5600822B2 (ja) | 2014-10-08 |
US20140074486A1 (en) | 2014-03-13 |
SG194706A1 (en) | 2013-12-30 |
KR20130137235A (ko) | 2013-12-16 |
ES2545053T3 (es) | 2015-09-08 |
EP2673776A1 (en) | 2013-12-18 |
MY157163A (en) | 2016-05-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103493130B (zh) | 用以利用正弦代换进行音频编码及译码的装置和方法 | |
RU2520402C2 (ru) | Переключаемая аудио кодирующая/декодирующая схема с мультиразрешением | |
CN104903956B (zh) | 用于通过使用频谱模式有效合成正弦曲线和扫描的设备及方法 | |
CN102089811B (zh) | 用于编码和解码音频样本的音频编码器和解码器 | |
CN106663441B (zh) | 改进时域编码与频域编码之间的分类 | |
CN104838442B (zh) | 用于反向兼容多重分辨率空间音频对象编码的编码器、译码器及方法 | |
BR122020025711B1 (pt) | Esquema de codificação/decodificação de áudio com taxa de bits baixa com pré- processamento comum | |
CN102859588A (zh) | 音频信号编码器、音频信号译码器、用以提供音频内容的编码表示型态的方法、用以提供音频内容的译码表示型态的方法及用于低延迟应用的计算机程序 | |
CN102576540A (zh) | 一种处理音频信号的方法和装置 | |
CN102498515A (zh) | 处理音频信号的方法和设备 | |
CN102460574A (zh) | 用于使用层级正弦脉冲编码对音频信号进行编码和解码的方法和设备 | |
Eng et al. | A new bit allocation method for low delay audio coding at low bit rates | |
Quackenbush | MPEG Audio Compression Future |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: Munich, Germany Applicant after: Fraunhofer Application and Research Promotion Association Address before: Munich, Germany Applicant before: Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. |
|
COR | Change of bibliographic data | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |