CN101030373A - 使用自适应掩蔽阈值的立体声感知音频编码的系统和方法 - Google Patents
使用自适应掩蔽阈值的立体声感知音频编码的系统和方法 Download PDFInfo
- Publication number
- CN101030373A CN101030373A CNA2007100037311A CN200710003731A CN101030373A CN 101030373 A CN101030373 A CN 101030373A CN A2007100037311 A CNA2007100037311 A CN A2007100037311A CN 200710003731 A CN200710003731 A CN 200710003731A CN 101030373 A CN101030373 A CN 101030373A
- Authority
- CN
- China
- Prior art keywords
- masking threshold
- input signal
- frame
- sound channel
- reuse
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 86
- 230000000873 masking effect Effects 0.000 title claims abstract description 72
- 230000003044 adaptive effect Effects 0.000 title 1
- 238000004458 analytical method Methods 0.000 claims abstract description 19
- 238000013139 quantization Methods 0.000 claims abstract description 14
- 230000001052 transient effect Effects 0.000 claims description 25
- 230000003595 spectral effect Effects 0.000 claims description 18
- 238000006243 chemical reaction Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 abstract description 29
- 230000009466 transformation Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 7
- 238000001228 spectrum Methods 0.000 description 7
- 230000006835 compression Effects 0.000 description 6
- 238000007906 compression Methods 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000011002 quantification Methods 0.000 description 4
- 230000008447 perception Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000011282 treatment Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- RZVAJINKPMORJF-UHFFFAOYSA-N Acetaminophen Chemical compound CC(=O)NC1=CC=C(O)C=C1 RZVAJINKPMORJF-UHFFFAOYSA-N 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000008187 granular material Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
一种对输入信号进行立体声音频感知编码的方法,包括掩蔽阈值估计和位分配。每进行两次编码过程才进行掩蔽阈值估计和位分配。另一种对输入信号进行立体声音频感知编码的方法,包括进行时-频变换、量化、位流格式化来生成输出流,并包括心理声学分析。心理声学分析包括对输入信号的每两个连续帧的第一个帧进行的掩蔽阈值估计。
Description
对相关申请的交叉引用
根据35U.S.C.§119(e),本发明要求于2006年1月12日提交的美国临时专利申请60/758369的优先权,此处通过引用包含于本文之中。
技术领域
本公开一般涉及音频压缩,更具体地,涉及使用自适应掩蔽阈值的低功率立体声感知音频编码的系统和方法。
背景技术
数字音频传输通常需要相当多的存储空间和带宽。为实现有效率的传输,通常采用了信号压缩。有效率的编码系统能以优化的方式消除音频流中的不相关部分和冗余部分。可通过心理声学分析减少心理声学方面的无关性来实现上述第一个目标。“感知音频编码器”涉及那些利用人类听觉感知特性的压缩方案。
图1示出了感知编码器100的基本结构。感知编码器100包括滤波器组110、量化单元120和心理声学模块130。心理声学模块130可包括频谱分析部分132和掩蔽阈值计算部分134。在更先进的编码器中,在量化单元120之前进行额外的频谱处理。该频谱处理模块用于减少冗余成分,它主要包括一些预测工具。这些结构单元导致了各种感知音频编码器之间的差异。量化单元120可以向熵编码单元140提供数据。
滤波器组110负责时-频变换。由于编码利用了人耳的掩蔽特性,而该特性是在频域中计算出的,因而需要变换到频域。窗口大小和变换规模分别决定了时间分辨率和频率分辨率。大多数编码器可通过切换到更精细的时间分辨率来适应快速变化的信号。这种模块切换策略对避免前回声假象是至关重要的,前回声假象是指量化噪声在整个窗口大小中的扩散。
较早的编码器(如MPEG层1和层2编码器)用子带滤波器作为它们的变换引擎。MPEG层3则使用混合滤波器,该滤波器是对使用修正离散余弦变换(MDCT)的子带滤波器的改进。先进音频编码器(AAC)抛弃了对较早的编码器的向后兼容性,而仅使用MDCT。在杜比AC3中也使用了类似的变换。MDCT的优势在于它的时域混叠取消(TDAC)概念,这种概念消除了块效应。
心理声学模块130确定了掩蔽阈值,需要用该阈值来判断信号的哪一部分对感知重要和哪一部分是不相关的。所得的掩蔽阈值也可用于对量化噪声进行整形,以使得人耳不会因该量化过程的缘故而感知到声音信号的变差。本领域技术人员已知心理声学建模的细节,而且,为理解以下公开的实施例,不必知晓这些细节。
位分配和量化模块是典型感知音频编码器中的最重要的模块。非均匀量化器用于减少数据的动态范围,且调整了用于确定步长的两个量化系数,使得量化噪声低于掩蔽阈值,且所用位数低于可用的位速率。通常将这两种情形称为失真控制环和速率控制环。在量化中,更先进的编码器(如MPEG层3和AAC)引入无噪声编码来减少冗余,以提高压缩比。
由于存在心理声学模块和位分配-量化,因而编码器远比解码器复杂。尽管音频编码明确到足以保证解码器能正确地解码有效数据流,但它们同时也足够灵活,以根据不同的资源可用性和应用领域来改变实施方式。
发明内容
根据各种公开实施例,提供了一种对输入信号进行立体声音频感知编码的方法。该方法包括掩蔽阈值估计和位分配,其中,每两个编码过程才进行掩蔽阈值估计和位分配。
根据其他公开实施例,提供了一种对输入信号进行立体声音频感知编码的方法。该方法包括进行时-频变换、进行量化、进行位流格式化以生成输出流,和进行心理声学分析。心理声学分析包括对输入信号的每两个连续帧的第一个帧进行的掩蔽阈值估计。
从以下的附图、描述和权利要求中,本领域技术人员很容易了解本发明的其他技术特征。
附图说明
为更全面地理解本公开和其特征,现在参考以下描述和附图,其中:
图1示出了感知编码器的基本框架;
图2示出了掩蔽阈值的计算过程;
图3示出了立体声感知编码过程;
图4示出了根据本公开的编码过程;
图5示出了根据本公开的另一编码过程;
图6示出了根据本公开的窗口切换状态图;
图7示出了根据本公开的、总结了用于所有七种块组合类型的策略的表;
图8示出了可以由根据本公开的合适处理系统执行的编码过程。
具体实施方式
图1至图8和本公开中描述的各种实施例仅用于说明目的,不能将它们视为对本发明范围的限制。本领域技术人员将认识到,可修改本发明所述的各种实施例,但这些修改落在本发明的范围内。
本文使用的短语“感知音频编码器”是指利用人类听觉感知特性的音频压缩方案。各种实施例包括用于将量化噪声配置在掩蔽阈值以下来使人耳不能感知这类噪声的技术。这类处理可能需要进行相当多的计算,特别是由于心理声学分析和位分配-量化过程的缘故,需要进行很多计算。本文公开的技术包括根据信号特性自适应地重复使用计算的掩蔽阈值来简化心理声学建模过程的方法。也公开了一种填补频谱孔(spectral hole)的方法,在重复使用量化参数时,可能会出现频谱孔。可以将各个实施例应用于要求较低计算复杂度的一般立体声感知音频编码器。通过利用稳态的信号特性,各个实施例提供了立体声感知音频编码器的替代性的低功率实施方式,使得可以在各帧或各声道中重复使用所得的掩蔽阈值。
高质量的感知编码器具有用于计算掩蔽阈值的完备的心理声学模型(PAM),其中,掩蔽阈值指明了允许的失真。图2示出了可以由本领域技术人员已知的合适处理系统执行的、用于计算掩蔽阈值的过程。在步骤202中,系统执行时-频变换。在步骤204中,系统计算1/3Bark域中的能量。在步骤206中,系统用扩散函数进行卷积。在步骤208中,系统计算音调索引。在步骤210中,系统调整掩蔽阈值。在步骤212中,系统进行与安静状态时的阈值的比较。在步骤214中,系统进行对比例因子频带域的适应。
计算量最大的两个过程是时-频变换202和使用扩散函数的卷积206。已提议将来自编码器变换引擎(encoder transform engine)的结果用于心理声学分析,并使用简单的三角扩散函数来降低复杂度。然而,仍然对各个声道的每个帧执行这种分析。
在典型的分析过程中,位分配-量化模块中的计算量排第二,因为编码器必须进行嵌套的迭代计算来得到同时满足失真标准和位速率标准的一组参数。甚至在为减少速率控制回路的复杂度付出巨大努力后,仍然在每一声道的每一帧中进行这种过程。
例如,音乐是一种准稳态信号。当处于稳态时,随着时间的流逝,信号特性不会发生大的变化。这意味着它们的心理声学特性也不会发生大的变化。在稳态阶段中,表示可容忍的量化噪声值的掩蔽阈值也保持相对稳定。因此,比例因子值(即失真控制变量)也保持相对稳定。
信号在各帧之间的缓慢和逐渐的变化使得可通过对这些值执行预测技术来实现进一步压缩。但是,在信号的暂态部分,这些假设不再成立。快速变化的信号也具有更为动态的频谱特性。在此期间,编码器切换到短块编码,其数目是短块比例因子集的数目的三倍(对44.1kHz的采样速率为3×12)。
本公开的各个实施例包括当信号相对稳定时,为相邻帧重复使用掩蔽阈值。使用这种方法,(对于两个声道)每两个帧才进行一次代价高昂的掩蔽阈值估计。然而,如上所述,当用于暂态信号时,这种方案可能不理想。在这种情况下,编码器切换到在各声道中重复使用掩蔽阈值,对每一帧而言,由于仅为一个声道计算了掩蔽阈值,因而节省了相同的计算量。
根据各个实施例,可以对各种因素进行优化。一个因素是编码器区分暂态信号与稳态信号的方式。另一因素是,当重复使用掩蔽阈值时出现的潜在频谱孔。
图3示出了立体声感知编码的过程。为简明起见,此处假设心理声学分析使用与时-频变换相同的滤波器组。在这种结构中,对每个声道的每个帧进行心理声学分析。类似的,以相同方式进行位分配。下一个帧的处理过程与图3中所示的过程相同。
在图3中,在左声道和右声道上接收了立体声形式的脉冲代码调制(PCM)的音频输入数据。系统使用时-频变换312/314对各声道数据进行处理。随后,系统对各声道数据进行心理声学分析322/324,这生成了声道间位分布330。
然后,系统对各个声道数据进行位分配342/344。系统使用330处生成的位分布对各声道数据进行量化352/354。将量化后的声道数据馈入位流格式化器360,这生成了输出流。
图4示出了一种根据本公开的编码过程,当将相同的掩蔽阈值用于下一个帧时,可以使用该编码过程。图4也示出了对两个连续帧的处理(如图中的帧0和帧1),如本文所述,可以将该处理过程应用于任何两个连续帧。
对帧0而言,在左声道和右声道上接收了立体声形式的PCM音频输入数据。系统使用时-频变换412/414对各声道数据进行处理。随后,系统对各个声道数据进行心理声学分析422/424(包括掩蔽阈值估计),并计算声道间的位分布信息430。在考虑从心理声学分析得出的信号特性的情况下,声道间的位分布模块评估应当将多少个位分给各个声道。
随后,系统对各个声道数据进行位分配442/444。系统使用430处生成的位分布对各个声道数据进行量化452/454。将量化后的声道数据馈入位流格式化器460,这生成了输出流。
对帧1(随后的帧)而言,在左声道和右声道中接收了立体声形式的PCM音频输入数据。与412/414类似,系统使用时-频变换416/418对各声道信号进行处理。由于假设掩蔽阈值是相同的,因而未对第二帧中进行心理声学分析。因为在帧1中复制了失真控制参数(比例因子)(加入了“频谱孔填补”模块472/474),因而无需在帧1中重复位分配过程。
由于在下一个帧中未进行声道间的位分配,且由于假设信号是稳态的,因而也重复使用了声道间的位分布信息,且重复使用的声道间位分布430在图中显示为虚线部分432。在量化过程中,可以用该信息找到速率控制变量(全局比例因子)。在本文中,将该方法称为“跨帧”策略。因此,在该处理过程中,每进行两个编码过程才进行掩蔽阈值估计和位分配。系统使用430处生成的声道间位分布(图中用432表示该复制部分)对各声道数据进行量化456/458。将量化后的声道数据送入位流格式化器(462),这生成了输出流。
在各实施例中,可以对通用控制器和处理器进行编程来使它们执行本文所述的处理过程,或者,可以将专门的硬件模块用于各过程中的一部过程或所有过程。在对帧0和帧1执行类似步骤的情况下,相同物理模块也可以对后续的帧执行类似过程。例如,当连续地处理两个帧时,可通过同一量化模块来进行量化452和量化456。
图5示出了根据本公开的另一个编码过程。如图5所示,当信号特性变为暂态时,根据各公开实施例的编码器可切换到在各声道中重复使用掩蔽阈值。与上述过程类似,未进行心理声学分析和位分配。在复制量化系数之前,也进行了“频谱孔填补”。这些处理过程之间的一个区别在于声道间的位分布。在这种情况下,由于仅具有一个声道的心理声学信息,因而假设两个声道需要相同数目的位。因此,将该帧的预算位数平均分配到两个声道中。该方法称为“跨声道”(cross-channel)策略。
在图5中,在左声道和右声道中接收了立体声形式的PCM音频输入数据。系统用时-频变换512/514对各声道数据进行处理。随后,系统对一个声道的数据进行心理声学分析522(包括掩蔽阈值估计)。尽管图中示出使用的是左声道,但也可对右声道进行上述过程。在考虑从心理声学分析得出的信号特性的情况下,声道间位分布模块评估应将多少个位分配给各个声道。
随后,系统对一个声道进行位分配542。图中示出涉及的是左声道,也可以对右声道进行上述过程。使用位分配的结果,进行了频谱孔填补574。系统对各个声道数据进行量化552/554。将量化后的声道数据送入位流格式化器560,这生成了输出流。
各公开处理过程的一个难点在于确定信号中的暂态部分来相应地应用对应的策略。幸运的是,大多数(如果不是全部)编码器均配有暂态检测模块,以作出关于块切换的决定来避免如上所述的前回声假象。各公开实施例利用该结果来在跨帧策略与跨声道策略之间进行选择。
当检测到暂态情形时,编码器切换到较短的窗口长度。然而,在使用短窗口之前,可以应用开始窗口。在返回长窗口后,可以使用停止窗口。在某些编码器中,这些窗口类型的一个主要区别是一个帧的暂态阶段内所用的连续短窗口数目。例如,MP3使用三个连续短窗口,AAC使用八个短窗口,而杜比AC3使用两个短窗口。
图6示出了根据本公开的窗口切换状态图。箭头的数目表示可能使用的连续窗口类型对的数目。每种可能性均可以对应于最合适的方案。在各种实施例中,如图7所示和以下所说明的,存在七种在连续帧中使用的可能窗口类型。
在图6中,开始窗口620总是过渡到短窗口640。经过暂态过程后,短窗口640仍然保持为短窗口640。不经过暂态过程,短窗口640转变为停止窗口630。经过暂态过程后,停止窗口630转变为开始窗口620。不经过暂态过程,停止窗口630转变为长窗口610。经过暂态过程后,长窗口610转变为开始窗口620。不经过暂态过程,长窗口610仍然保持为长窗口610。
通常用长窗口处理稳态信号。任何其他类型的窗口一般都意味着暂态信号的存在。因此,仅应使用跨帧策略对长-长窗口组合进行处理。然而,策略是在第一个帧的处理过程中确定的。除非缓存了一个帧,否则不能检测到第二个帧中的暂态情形。由于这个原因,不可避免地将跨帧策略用于长窗口-开始窗口组合。
图7示出了总结用于根据本公开的所有七种块类型组合的策略的表。对于帧0和帧1的各种窗口组合,均指明了适当的跨帧或跨声道策略。
如上所述,另一个需要考虑的因素是潜在的频谱孔问题(包括频谱线的突然消失,这引起了通常称为尖叫声的恼人的假象)。在各个实施例中,当频带能量低于掩蔽阈值,可以将该频带的比例因子设置为零,以表示不需要对该频带的频谱线进行编码。当该值被重复使用时(特别是当目标频带的能量高于掩蔽阈值时),它会引发潜在的孔问题。为解决这个问题,在复制过程中进行了额外的检查。“频谱孔填补”模块检查复制的比例因子。如果检测到0,则对该特定频带进行能量计算,以保证其能量确实低于掩蔽阈值。如果计算的能量高于掩蔽阈值,则通过对该比例因子的相邻值进行线性插值来填补该比例因子值。
可以将公开的实施例用于任何通过将量化噪声隐藏在估计的掩蔽阈值之下来实现压缩的感知编码器。在一个实例中,滤波器组模块(如MP3)使用混合式的子带和MDCT滤波器组。分析子带滤波器组用于将宽带信号拆分成32个等间隔的子带。
图8示出了可以由根据本公开的合适的处理系统执行的编码过程。所用的MDCT公式如下所示:
其中z表示加窗的输入序列,k表示采样索引,i表示频谱系数索引,n表示窗口长度(12表示短块,36表示长块)。由暂态检测模块决定上述大小。
如图8所示,在步骤802中,对i=511向下至32时,系统计算X[i]=X[i-32]。在步骤804中,对i=31向下至0,系统计算X[i]=下一个输入音频样本。
在步骤806中,系统窗口乘以512个系数,以生成矢量z,其中,对i=0至511,Zi=Ci*Xi。在步骤808中,对i=0至63,进行局部计算,其中,
在步骤810中,系统通过矩阵化计算32个采样,其中,对i=0至31,
最后,在步骤812中,系统输出32个子带信号。
一个示范性实施例包括暂态检测模块和方案决定模块。暂态检测模块确定适当的编码器窗口大小,如果没有该模块,则将出现前回声假象。在某些实施例中,对连续的短窗口进行能量比较。如果检测到能量方面的突然增加,则可将该帧标记为暂态帧。
MP3中最小的编码块称为微粒(granule),它由576个采样组成。2个微粒组成一个MP3帧。可以在这些微粒中或在上述两个立体声声道中应用各公开的实施例。仅将暂态检测的第一个结果用于决定方案。如果检测到第一个微粒是稳态的(使用长窗口),则该微粒和下一个微粒使用跨微粒策略。如上所述,即使检测到第二个窗口是暂态的(长窗口-开始窗口组合),也仍然使用跨微粒策略。如以上总结的,剩余的组合使用跨声道策略。
本公开的各个实施例包括心理声学模型(PAM)。掩蔽阈值的计算遵循如图3所示的过程,且各个实施例包含一个或多个以下的改变:
-为效率的原因,可以将MDCT频谱用于分析;
-可以在比例因子带域而非分割域(partition domain)(1/3巴克域)中直接进行计算;
-使用简单的、具有+25dB/巴克和-10dB/巴克的斜率的三角扩散函数;
-使用频谱平坦度而非不可预测性计算了音调索引;
-掩蔽阈值调整将可用的位的数目作为输入,并根据该输入全局地调整掩蔽阈值。
在一个示范性实施例中,位分配-量化MP3使用以下非均匀量化器:
其中,i表示比例因子频带索引,x表示将要量化的频带内的频谱值,gl表示全局比例因子(速率控制参数),scf(i)表示比例因子值(失真控制参数)。
在各实施例中,对跨微粒策略而言,仅在第一个微粒中为两个声道计算量化参数。在填补频谱孔后,在第二个微粒中重复使用这些值。对跨声道策略而言,为两个微粒计算了量化参数,但仅对左声道计算了上述参数。在填补频谱孔之后,将这些数值重复用于右声道量化。
本文公开的各个实施例提供了一种通过根据信号特性在各帧中或各声道中重复使用掩蔽阈值来对音乐和其他听觉信号进行低功率立体声编码的新方法。用这种方法,每两个编码过程可减少一次掩蔽阈值估计和位分配,这就避免了进行这些掩蔽阈值估计和位估计的巨大计算量,从而导致完成编码任务所需的处理功率比以往更低。
在各实施例中,根据信号特性来作出有关重复使用掩蔽阈值的决定。当信号为稳态时,在各帧中重复使用掩蔽阈值。当信号具有暂态特性时,在各声道中重复使用掩蔽阈值。在某些实施例中,当在各帧中重复使用掩蔽阈值时,也重复使用声道间的位分布,并且,当在各声道中重复使用掩蔽阈值时,将声道间的位分布设置成相等分布。
在某些实施例中,将使用跨声道方案或跨帧方案的策略映射成在感知音频编码器中使用的7种可能的窗口类型对。同样,在某些实施例中,通过复制失真控制量化参数重复使用掩蔽阈值。此外,在某些实施例中,在重复使用失真控制量化参数之前,当发现频带的实际能量超过掩蔽阈值时,通过对其相邻参数值进行线性插值来进行频谱孔填补。
在某些实施例中,可以用由计算机可读程序代码形成的、包含在计算机可读介质中的计算机程序来实施或支持上述的各种功能。短语“计算机可读程序代码”包括任何形式的计算机代码,如源代码、目标代码和可执行代码。短语“计算机可读介质”包括任何形式的、可以由计算机访问的介质,如只读存储器(ROM)、随机存取存储器(RAM)、硬盘驱动器、光盘(CD),数字视频光盘(DVD),以及其他任何形式的存储器。然而,也可以使用任何其他合适的逻辑器件(硬盘、软盘、固件或它们的组合)来实现上述的各种编码功能。
给出在该专利文件中使用的某些词或短语的定义是有利的。术语“耦合”及其衍生词表示在两个或更多个元件之间的任何直接或间接的联系,而无论这些元件在物理上是否相互接触。术语“包括”和“包含”及其衍生词表示无限制的包括。术语“或者”是包容性的,它表示和/或。术语“与...相关”和“与之相关”及其衍生词可表示包括、被包括、与之互连、包含、被包含、连接到或与之连接、耦合到或与之耦合、可与之联系、与之协作、与之交错、与之并列、与之邻近、被结合到或与之结合、具有、具有属性,等等。术语“控制器”表示可控制至少一种操作的任何设备、系统或它们的部分。可以用硬件、固件或软件或它们中的至少两者的组合来实施控制器。应当注意,无论是采用本地方式还是远程方式,均可以将与任何特定控制气相关的功能集中化或分散化。
尽管本公开已描述了某些实施例及其相关的方法,但是,本领域技术人员可以方便地得出这些实施例和方法的变更和置换方式。因此,对示范实施例的以上说明未规定或限制本公开。也可以存在其他变化、替换和变更形式,而不至于背离由附录的权利要求定义的本发明的精神和范围。
Claims (20)
1.一种对输入信号进行立体声音频感知编码的方法,包括:
掩蔽阈值估计;以及
位分配;
其中每进行两个编码过程才进行所述掩蔽阈值估计和所述位分配。
2.根据权利要求1所述的方法;
根据所述输入信号的特性重复使用所述掩蔽阈值;以及
当所述输入信号为稳态时,在各帧中重复使用所述掩蔽阈值。
3.根据权利要求2所述的方法,当在各帧中重复使用所述掩蔽阈值时,重复使用声道间的位分布。
4.根据权利要求1所述的方法,其中:
根据所述输入信号的特性重复使用所述掩蔽阈值;以及
当所述输入信号具有暂态特性时,在各声道中重复使用所述掩蔽阈值。
5.根据权利要求4所述的方法,当在各声道中重复使用所述掩蔽阈值时,将声道间的位分布设置成相等分布。
6.根据权利要求1所述的方法,其中,根据感知音频编码器中使用的7种可能的窗口对类型中的其中之一在各声道中或各帧中重复使用所述掩蔽阈值。
7.根据权利要求1所述的方法,其中,通过复制失真控制量化参数来重复使用所述掩蔽阈值。
8.根据权利要求7所述的方法,还包括在复制所述失真控制量化参数之前应用频谱孔填补,当频带的实际能量高于所述掩蔽阈值时,所述频谱孔填补包括对相邻参数值进行线性插值。
9.一种对输入信号进行立体声音频感知编码的方法,包括:
进行时-频变换;
进行量化;
进行位流格式化,以生成输出数据流;
进行心理声学分析,该分析包括对所述输入信号的每两个连续帧的第一个帧进行的掩蔽阈值估计。
10.根据权利要求9所述的方法,还包括对所述输入信号的每两个连续帧的第一个帧进行位分配。
11.根据权利要求9所述的方法,还包括对所述输入信号的每两个连续帧的第一个帧进行声道间的位分配。
12.根据权利要求9所述的方法,还包括对所述输入信号的每两个连续帧的第一个帧进行帧间位分配。
13.根据权利要求12所述的方法,其中,在所述输入信号的每两个连续帧中的第二个帧上重复使用所述位分配的结果。
14.根据权利要求9所述的方法,其中:
根据所述输入信号的特性重复使用所述估计的掩蔽阈值;
当所述输入信号为稳态时,在各帧中重复使用所述掩蔽阈值。
15.根据权利要求14所述的方法,其中,当在各帧中重复使用所述掩蔽阈值时,重复使用声道间的位分布。
16.根据权利要求9所述的方法,其中:
根据所述输入信号的特性重复使用所述掩蔽阈值;以及
当所述输入信号具有暂态特性时,在各声道中重复使用所述掩蔽阈值。
17.根据权利要求16所述的方法,当在各声道中重复使用所述掩蔽阈值时,将声道间的位分布设置成相等分布。
18.根据权利要求9所述的方法,根据感知音频编码器中使用的7种可能的窗口对类型的其中之一在各声道中或各帧中重复使用所述掩蔽阈值。
19.根据权利要求9所述的方法,其中,通过复制失真控制量化参数来重复使用所述掩蔽阈值。
20.根据权利要求19所述的方法,还包括在复制所述失真控制量化参数之前应用频谱孔填补,当频带的实际能量高于所述掩蔽阈值时,所述频谱孔填补包括对相邻参数值进行线性插值。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US75836906P | 2006-01-12 | 2006-01-12 | |
US60/758369 | 2006-01-12 | ||
US11/507678 | 2006-08-22 | ||
US11/507,678 US8332216B2 (en) | 2006-01-12 | 2006-08-22 | System and method for low power stereo perceptual audio coding using adaptive masking threshold |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101030373A true CN101030373A (zh) | 2007-09-05 |
CN101030373B CN101030373B (zh) | 2014-06-11 |
Family
ID=37888266
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200710003731.1A Active CN101030373B (zh) | 2006-01-12 | 2007-01-12 | 使用自适应掩蔽阈值的立体声感知音频编码的系统和方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US8332216B2 (zh) |
EP (1) | EP1808851B1 (zh) |
CN (1) | CN101030373B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101843915A (zh) * | 2010-05-14 | 2010-09-29 | 蔡宇峰 | 一种紫外光催化氧化除臭装置 |
CN101751928B (zh) * | 2008-12-08 | 2012-06-13 | 扬智科技股份有限公司 | 应用音频帧频谱平坦度简化声学模型分析的方法及其装置 |
CN105264597A (zh) * | 2013-01-29 | 2016-01-20 | 弗劳恩霍夫应用研究促进协会 | 感知转换音频编码中的噪声填充 |
CN113574596A (zh) * | 2019-02-19 | 2021-10-29 | 公立大学法人秋田县立大学 | 音频信号编码方法、音频信号解码方法、程序、编码装置、音频系统及解码装置 |
Families Citing this family (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8332216B2 (en) * | 2006-01-12 | 2012-12-11 | Stmicroelectronics Asia Pacific Pte., Ltd. | System and method for low power stereo perceptual audio coding using adaptive masking threshold |
KR20080053739A (ko) * | 2006-12-11 | 2008-06-16 | 삼성전자주식회사 | 적응적으로 윈도우 크기를 적용하는 부호화 장치 및 방법 |
US7774205B2 (en) * | 2007-06-15 | 2010-08-10 | Microsoft Corporation | Coding of sparse digital media spectral data |
US7761290B2 (en) * | 2007-06-15 | 2010-07-20 | Microsoft Corporation | Flexible frequency and time partitioning in perceptual transform coding of audio |
CN101790757B (zh) * | 2007-08-27 | 2012-05-30 | 爱立信电话股份有限公司 | 语音与音频信号的改进的变换编码 |
EP2571024B1 (en) | 2007-08-27 | 2014-10-22 | Telefonaktiebolaget L M Ericsson AB (Publ) | Adaptive transition frequency between noise fill and bandwidth extension |
US8254588B2 (en) * | 2007-11-13 | 2012-08-28 | Stmicroelectronics Asia Pacific Pte., Ltd. | System and method for providing step size control for subband affine projection filters for echo cancellation applications |
KR101441897B1 (ko) * | 2008-01-31 | 2014-09-23 | 삼성전자주식회사 | 잔차 신호 부호화 방법 및 장치와 잔차 신호 복호화 방법및 장치 |
JP5262171B2 (ja) * | 2008-02-19 | 2013-08-14 | 富士通株式会社 | 符号化装置、符号化方法および符号化プログラム |
KR20090122142A (ko) * | 2008-05-23 | 2009-11-26 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 장치 |
JP5539992B2 (ja) * | 2009-08-20 | 2014-07-02 | トムソン ライセンシング | レート制御装置、レート制御方法及びレート制御プログラム |
US8781822B2 (en) * | 2009-12-22 | 2014-07-15 | Qualcomm Incorporated | Audio and speech processing with optimal bit-allocation for constant bit rate applications |
US8489391B2 (en) * | 2010-08-05 | 2013-07-16 | Stmicroelectronics Asia Pacific Pte., Ltd. | Scalable hybrid auto coder for transient detection in advanced audio coding with spectral band replication |
US8489403B1 (en) * | 2010-08-25 | 2013-07-16 | Foundation For Research and Technology—Institute of Computer Science ‘FORTH-ICS’ | Apparatuses, methods and systems for sparse sinusoidal audio processing and transmission |
EP2661746B1 (en) * | 2011-01-05 | 2018-08-01 | Nokia Technologies Oy | Multi-channel encoding and/or decoding |
JP5732994B2 (ja) * | 2011-04-19 | 2015-06-10 | ソニー株式会社 | 楽曲検索装置および方法、プログラム、並びに記録媒体 |
EP3937168A1 (en) | 2011-05-13 | 2022-01-12 | Samsung Electronics Co., Ltd. | Noise filling and audio decoding |
JP5704018B2 (ja) * | 2011-08-05 | 2015-04-22 | 富士通セミコンダクター株式会社 | オーディオ信号符号化方法および装置 |
TWI473078B (zh) * | 2011-08-26 | 2015-02-11 | Univ Nat Central | 音訊處理方法以及裝置 |
CN103854653B (zh) | 2012-12-06 | 2016-12-28 | 华为技术有限公司 | 信号解码的方法和设备 |
FR3008533A1 (fr) * | 2013-07-12 | 2015-01-16 | Orange | Facteur d'echelle optimise pour l'extension de bande de frequence dans un decodeur de signaux audiofrequences |
US9706415B2 (en) * | 2013-10-31 | 2017-07-11 | Aruba Networks, Inc. | Method for RF management, frequency reuse and increasing overall system capacity using network-device-to-network-device channel estimation and standard beamforming techniques |
EP3382700A1 (en) * | 2017-03-31 | 2018-10-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for post-processing an audio signal using a transient location detection |
WO2018201112A1 (en) * | 2017-04-28 | 2018-11-01 | Goodwin Michael M | Audio coder window sizes and time-frequency transformations |
US11030524B2 (en) * | 2017-04-28 | 2021-06-08 | Sony Corporation | Information processing device and information processing method |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4815134A (en) * | 1987-09-08 | 1989-03-21 | Texas Instruments Incorporated | Very low rate speech encoder and decoder |
DE4209544A1 (de) * | 1992-03-24 | 1993-09-30 | Inst Rundfunktechnik Gmbh | Verfahren zum Übertragen oder Speichern digitalisierter, mehrkanaliger Tonsignale |
US5651090A (en) * | 1994-05-06 | 1997-07-22 | Nippon Telegraph And Telephone Corporation | Coding method and coder for coding input signals of plural channels using vector quantization, and decoding method and decoder therefor |
JP3328080B2 (ja) * | 1994-11-22 | 2002-09-24 | 沖電気工業株式会社 | コード励振線形予測復号器 |
US5682463A (en) * | 1995-02-06 | 1997-10-28 | Lucent Technologies Inc. | Perceptual audio compression based on loudness uncertainty |
US5956674A (en) * | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
SG54383A1 (en) * | 1996-10-31 | 1998-11-16 | Sgs Thomson Microelectronics A | Method and apparatus for decoding multi-channel audio data |
FI970553A (fi) | 1997-02-07 | 1998-08-08 | Nokia Mobile Phones Ltd | Audiokoodausmenetelmä ja -laite |
US6952677B1 (en) * | 1998-04-15 | 2005-10-04 | Stmicroelectronics Asia Pacific Pte Limited | Fast frame optimization in an audio encoder |
US6810377B1 (en) * | 1998-06-19 | 2004-10-26 | Comsat Corporation | Lost frame recovery techniques for parametric, LPC-based speech coding systems |
KR100341197B1 (ko) * | 1998-09-29 | 2002-06-20 | 포만 제프리 엘 | 오디오 데이터로 부가 정보를 매립하는 방법 및 시스템 |
US6226608B1 (en) * | 1999-01-28 | 2001-05-01 | Dolby Laboratories Licensing Corporation | Data framing for adaptive-block-length coding system |
DE69932861T2 (de) * | 1999-10-30 | 2007-03-15 | Stmicroelectronics Asia Pacific Pte Ltd. | Verfahren zur kodierung eines audiosignals mit einem qualitätswert für bit-zuordnung |
DE19959156C2 (de) * | 1999-12-08 | 2002-01-31 | Fraunhofer Ges Forschung | Verfahren und Vorrichtung zum Verarbeiten eines zu codierenden Stereoaudiosignals |
US6499010B1 (en) | 2000-01-04 | 2002-12-24 | Agere Systems Inc. | Perceptual audio coder bit allocation scheme providing improved perceptual quality consistency |
US6778953B1 (en) | 2000-06-02 | 2004-08-17 | Agere Systems Inc. | Method and apparatus for representing masked thresholds in a perceptual audio coder |
CA2418722C (en) * | 2000-08-16 | 2012-02-07 | Dolby Laboratories Licensing Corporation | Modulating one or more parameters of an audio or video perceptual coding system in response to supplemental information |
AU2001276588A1 (en) * | 2001-01-11 | 2002-07-24 | K. P. P. Kalyan Chakravarthy | Adaptive-block-length audio coder |
US6934677B2 (en) * | 2001-12-14 | 2005-08-23 | Microsoft Corporation | Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands |
US7146313B2 (en) * | 2001-12-14 | 2006-12-05 | Microsoft Corporation | Techniques for measurement of perceptual audio quality |
US20040002856A1 (en) * | 2002-03-08 | 2004-01-01 | Udaya Bhaskar | Multi-rate frequency domain interpolative speech CODEC system |
KR100462615B1 (ko) * | 2002-07-11 | 2004-12-20 | 삼성전자주식회사 | 적은 계산량으로 고주파수 성분을 복원하는 오디오 디코딩방법 및 장치 |
WO2005004113A1 (ja) * | 2003-06-30 | 2005-01-13 | Fujitsu Limited | オーディオ符号化装置 |
SG120118A1 (en) * | 2003-09-15 | 2006-03-28 | St Microelectronics Asia | A device and process for encoding audio data |
US7895034B2 (en) * | 2004-09-17 | 2011-02-22 | Digital Rise Technology Co., Ltd. | Audio encoding system |
US7630902B2 (en) * | 2004-09-17 | 2009-12-08 | Digital Rise Technology Co., Ltd. | Apparatus and methods for digital audio coding using codebook application ranges |
US7983922B2 (en) * | 2005-04-15 | 2011-07-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing |
US7562021B2 (en) * | 2005-07-15 | 2009-07-14 | Microsoft Corporation | Modification of codewords in dictionary used for efficient coding of digital media spectral data |
US8332216B2 (en) * | 2006-01-12 | 2012-12-11 | Stmicroelectronics Asia Pacific Pte., Ltd. | System and method for low power stereo perceptual audio coding using adaptive masking threshold |
-
2006
- 2006-08-22 US US11/507,678 patent/US8332216B2/en active Active
-
2007
- 2007-01-10 EP EP20070250083 patent/EP1808851B1/en not_active Not-in-force
- 2007-01-12 CN CN200710003731.1A patent/CN101030373B/zh active Active
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101751928B (zh) * | 2008-12-08 | 2012-06-13 | 扬智科技股份有限公司 | 应用音频帧频谱平坦度简化声学模型分析的方法及其装置 |
CN101843915A (zh) * | 2010-05-14 | 2010-09-29 | 蔡宇峰 | 一种紫外光催化氧化除臭装置 |
CN105264597A (zh) * | 2013-01-29 | 2016-01-20 | 弗劳恩霍夫应用研究促进协会 | 感知转换音频编码中的噪声填充 |
US10410642B2 (en) | 2013-01-29 | 2019-09-10 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Noise filling concept |
CN105264597B (zh) * | 2013-01-29 | 2019-12-10 | 弗劳恩霍夫应用研究促进协会 | 感知转换音频编码中的噪声填充 |
US11031022B2 (en) | 2013-01-29 | 2021-06-08 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Noise filling concept |
CN113574596A (zh) * | 2019-02-19 | 2021-10-29 | 公立大学法人秋田县立大学 | 音频信号编码方法、音频信号解码方法、程序、编码装置、音频系统及解码装置 |
Also Published As
Publication number | Publication date |
---|---|
CN101030373B (zh) | 2014-06-11 |
EP1808851A1 (en) | 2007-07-18 |
EP1808851B1 (en) | 2011-11-30 |
US20070162277A1 (en) | 2007-07-12 |
US8332216B2 (en) | 2012-12-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101030373A (zh) | 使用自适应掩蔽阈值的立体声感知音频编码的系统和方法 | |
CN1135721C (zh) | 音频信号编码方法及其有关设备 | |
US7991621B2 (en) | Method and an apparatus for processing a signal | |
CN1172293C (zh) | 有效频谱包络编码方法及其编解码设备 | |
CN1258172C (zh) | 对音频信号进行编码及解码的装置和方法 | |
EP2850613B1 (en) | Efficient encoding and decoding of multi-channel audio signal with multiple substreams | |
CN1262990C (zh) | 利用谐波提取的音频编码方法和设备 | |
US20050159941A1 (en) | Method and apparatus for audio compression | |
CN1926608A (zh) | 多声道信号处理设备和方法 | |
WO2005096274A1 (fr) | Dispositif et procede de codage/decodage audio ameliores | |
TW201523590A (zh) | 使用時間雜訊修補成形以編碼及解碼已被編碼音訊的裝置及方法 | |
CN1735925A (zh) | 使用网格降低mpeg-2高级音频编码的比例因子传输成本 | |
CN1905373A (zh) | 一种音频编解码器的实现方法 | |
KR100695125B1 (ko) | 디지털 신호 부호화/복호화 방법 및 장치 | |
CN1458646A (zh) | 一种滤波参数矢量量化和结合量化模型预测的音频编码方法 | |
CN1252678C (zh) | 可缩放的立体声音频编码/解码方法及装置 | |
CN1266672C (zh) | 用较少的计算量重构高频分量的声频解码方法和装置 | |
KR20060036724A (ko) | 오디오 신호 부호화 및 복호화 방법 및 그 장치 | |
CN101562015A (zh) | 音频处理方法及装置 | |
CN1154084C (zh) | 一种基于伪小波滤波的音频编/解码方法 | |
CN1666571A (zh) | 音频处理 | |
CN1273955C (zh) | 采用带宽扩展技术编码和/或解码音频数据的方法和装置 | |
CN1165036C (zh) | 一种基于自适应阀值和典型样本预测的块长选择方法 | |
CN1127054C (zh) | 用于知觉音频编码的信号处理方法 | |
Cavagnolo et al. | Introduction to Digital Audio Compression |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240806 Address after: Geneva, Switzerland Patentee after: Italian Semiconductor International Co. Country or region after: Netherlands Address before: Singapore City Patentee before: STMicroelectronics Asia Pacific Pte. Ltd. Country or region before: Singapore |