CN105723452A - 音频信号的频谱的频谱系数的编码 - Google Patents
音频信号的频谱的频谱系数的编码 Download PDFInfo
- Publication number
- CN105723452A CN105723452A CN201480056910.XA CN201480056910A CN105723452A CN 105723452 A CN105723452 A CN 105723452A CN 201480056910 A CN201480056910 A CN 201480056910A CN 105723452 A CN105723452 A CN 105723452A
- Authority
- CN
- China
- Prior art keywords
- spectral coefficient
- frequency spectrum
- decoder
- spectral
- coefficient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001228 spectrum Methods 0.000 title claims abstract description 252
- 230000003595 spectral effect Effects 0.000 title claims abstract description 241
- 230000005236 sound signal Effects 0.000 title claims abstract description 52
- 238000006243 chemical reaction Methods 0.000 claims description 43
- 238000000034 method Methods 0.000 claims description 38
- 238000009826 distribution Methods 0.000 claims description 34
- 230000005540 biological transmission Effects 0.000 claims description 17
- 238000007493 shaping process Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 16
- 230000015572 biosynthetic process Effects 0.000 claims description 10
- 238000003786 synthesis reaction Methods 0.000 claims description 10
- 230000003044 adaptive effect Effects 0.000 claims description 8
- 230000007774 longterm Effects 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 5
- 238000012546 transfer Methods 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 238000013507 mapping Methods 0.000 description 38
- 230000006870 function Effects 0.000 description 32
- 238000010586 diagram Methods 0.000 description 16
- 238000009795 derivation Methods 0.000 description 11
- 230000002123 temporal effect Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 238000013461 design Methods 0.000 description 8
- 230000008447 perception Effects 0.000 description 7
- 238000003860 storage Methods 0.000 description 7
- 230000009466 transformation Effects 0.000 description 7
- 230000007246 mechanism Effects 0.000 description 6
- 230000011664 signaling Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 238000000354 decomposition reaction Methods 0.000 description 5
- 238000002372 labelling Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 239000002131 composite material Substances 0.000 description 3
- 230000003111 delayed effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000005728 strengthening Methods 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 108010076504 Protein Sorting Signals Proteins 0.000 description 2
- 238000005311 autocorrelation function Methods 0.000 description 2
- 229910002056 binary alloy Inorganic materials 0.000 description 2
- 230000001186 cumulative effect Effects 0.000 description 2
- 230000005284 excitation Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000004899 motility Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0017—Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
通过以熵编/解码同时根据关于频谱的形状的信息对先前编/解码的频谱系数与当前编/解码的频谱系数之间的相对频谱距离进行调整的方式对当前要编/解码的频谱系数进行编/解码来提高对音频信号的频谱的频谱系数进行编码的编码效率,其中,在进行熵编/解码时,以上下文自适应方式根据先前编/解码的频谱系数执行熵编/解码。关于频谱的形状的信息可以包括:音频信号的音高或周期的度量、音频信号的频谱的谐波间距离的度量和/或频谱的频谱包络的共振峰和/或谷的相对位置,并且基于该知识,为了形成当前要编/解码的频谱系数的上下文所采用的频谱邻居可以被调整为由此确定的频谱的形状,从而增强熵编码效率。
Description
技术领域
本申请涉及针对例如可以在各种基于变换的音频编解码器中使用的音频信号的频谱的频谱系数的编码方案。
背景技术
基于上下文的算术编码是对基于变换的编码器的频谱系数进行无噪声编码的有效方式[1]。上下文采用频谱系数与存在于其附近的已经编码的系数之间的交互信息。上下文可以在编码器和解码器侧二者处使用,并且无需发送任何额外信息。通过这种方式,基于上下文的熵编码具有提供比无记忆熵编码更高增益的潜力。然而,实际上,上下文的设计尤其由于内存要求、计算复杂度和对信道误差的鲁棒性而受到严重约束。这些约束限制了基于上下文的熵编码的效率,并且造成了较低的编码增益,特别是针对必须限制上下文以采用信号的谐波结构的音调信号。
此外,在低延迟的基于音频变换的编码中,低重叠窗用于减小算法延迟。作为直接结果,MDCT的泄露对于音调信号而言很重要,并且导致更高的量化噪声。可以如针对MPEG2/4-AAC[2]所进行的那样在频域中通过对变换和预测进行组合或者在时域中利用预测来处理音调信号[3]。
考虑编码构思将是有利的,这提高了编码效率。因此,本发明的目的是提供针对音频信号的频谱的频谱系数的编码构思,这提高了编码效率。该目的是通过未决的独立权利要求的主题来实现的。
本申请的基本发现是,可以通过以熵编/解码同时根据关于频谱的形状的信息对先前编/解码的频谱系数与当前编/解码的频谱系数之间的相对频谱距离进行调整的方式对当前要编/解码的频谱系数进行编/解码来提高对音频信号的频谱的频谱系数进行编码的编码效率,其中,在进行熵编/解码时,以上下文自适应方式根据先前编/解码的频谱系数执行熵编/解码。关于频谱的形状的信息可以包括:音频信号的音高或周期的度量、音频信号的频谱的谐波间距离的度量和/或频谱的频谱包络的共振峰和/或谷的相对位置,并且基于该知识,为了形成当前要编/解码的频谱系数的上下文所采用的频谱邻居可以被调整为由此确定的频谱的形状,从而增强熵编码效率。
附图说明
有利实现是从属权利要求的主题,并且在下文中参照附图描述了本申请的优选实施例,在附图中:
图1示出了说明频谱系数编码器及其在对音频信号的频谱的频谱系数进行编码时的操作模式的示意图;
图2示出了说明适应图1的频谱系数编码器的频谱系数解码器的示意图;
图3示出了根据实施例的图1的频谱系数编码器的可能内部结构的框图;
图4示出了根据实施例的图2的频谱系数解码器的可能内部结构的框图;
图5示意性地指示了频谱(其系数要被编码/解码)的图形以说明根据音频信号的音高或周期的度量或者谐波间距离的度量对相对频谱距离的调整;
图6示出了说明根据实施例的频谱(其频谱系数要被编码/解码)(其中,根据基于LP的感知加权合成滤波器(即,其逆)对频谱进行频谱成形)同时说明了根据实施例根据共振峰间距离度量对相对频谱距离的调整的示意图;
图7示意性地示出了根据实施例的频谱的一部分,以说明围绕当前要编码/解码的频谱系数的上下文模板以及根据关于频谱的形状的信息来对上下文模板频谱扩展的调整;
图8示出了说明根据实施例的使用标量函数从上下文模板81的参考频谱系数的一个或多个值进行映射以导出要用于对当前频谱系数进行编码/解码的概率分布估计的示意图;
图9a示意性地示出了使用隐式信令以在编码器和解码器之间对相对频谱距离的调整进行同步;
图9b示出了说明使用显式信令以在编码器和解码器之间对相对频谱距离的调整进行同步的示意图;
图10a示出了根据实施例的基于变换的音频编码器的框图;
图10b示出了适应图10a的编码器的基于变换的音频解码器的框图;
图11a示出了根据实施例的使用频域频谱成形的基于变换的音频编码器的框图;
图11b示出了适应图11a的编码器的基于变换的音频解码器的框图;
图12a示出了根据实施例的基于线性预测的变换码激励音频编码器的框图;
图12b示出了适应图12a的编码器的基于线性预测的变换码激励音频解码器;
图13示出了根据另一实施例的基于变换的音频编码器的框图;
图14示出了适应图13的实施例的基于变换的音频解码器的框图;
图15示出了说明覆盖当前要编码/解码的频谱系数的邻居的传统上下文或上下文模板;
图16a至图16c示出了根据本申请的实施例的修改的上下文模板配置或映射的上下文;
图17示意性地示出了谐波频谱的图形以说明针对谐波频谱使用图16a至图16c中的任意一个的映射的上下文相对于图15的上下文模板定义的优点;
图18示出了根据实施例用于优化用于上下文映射的相对频谱距离D的算法的流程图。
具体实施方式
图1示出了根据实施例的频谱系数编码器10。编码器被配置为对音频信号的频谱的频谱系数进行编码。图1以频谱图12的形式示出了连续频谱。更准确地,频谱系数14被示出为沿时间轴t和频率轴f在频谱时间上布置的框。虽然频谱时间分辨率可能保持恒定,但是图1示出了频谱时间分辨率可以随着时间而改变,其中在图1中在16处示出了一个这样的时刻。该频谱图12可以是在不同时刻应用于音频信号18的频谱分解变换的结果,例如,重叠变换,如严格采样变换,例如,MDCT或某种其他实值严格采样变换。迄今为止,频谱图12可以由频谱系数编码器10以频谱20的形式接收,频谱20由变换系数序列构成,变换系数序列中的每一个变换系数属于相同的时刻。频谱20因而表示频谱图的频谱片,并且在图1中被示出为频谱图12的单独列。每一个频谱由变换系数序列14构成,并且已经使用例如某一窗函数24根据音频信号18的相应时间帧22导出。具体地,时间帧22顺序地布置在前述时刻,并且与频谱20的时间序列相关联。如图1所示,它们可以彼此重叠,如同相应的变换窗24可以实现的一样。也即是说,如本文所使用的,“频谱”表示属于相同时刻的频谱系数,因此是频率分解。“频谱图”是由连续频谱构成的时频分解,其中“频谱(Spectra)”是频谱(spectrum)的复数。但是,有时“频谱”同义地用于频谱图。如果原始信号在时域并且变换是频率变换,则“变换系数”同义地用于“频谱系数”。
如刚刚所述的,频谱系数编码器10用于对音频信号18的频谱图12的频谱系数14进行编码,并且为此,编码器可以例如应用预定的编码/解码顺序,这沿频谱时间路径遍历例如频谱系数14,这例如在频谱上在一个频谱20内从低频到高频扫描频谱系数14,然后继续处理时间连续频谱20的频谱系数,如图1在26处所示。
通过下面更详细所述的方式,编码器10被配置为通过以上下文自适应方式根据一个或多个先前编码的频谱系数(如在图1中使用小圆圈ο示例性所示)进行熵编码来对当前要编码的频谱系数(如在图1中使用小十字x所示)进行编码。具体地,编码器10被配置为根据关于频谱的形状的信息来调整先前编码的频谱系数与当前编码的频谱系数之间的相对频谱距离。至于依赖性和关于频谱的形状的信息,在下文中阐述了细节以及关于由于根据刚刚提到的信息调整相对频谱距离28而产生的优点的考虑。
换言之,频谱系数编码器10将频谱系数14顺序地编码到数据流30中。如下文将更详细所述的,频谱系数编码器10可以是基于变换的编码器的一部分,其中,除了频谱系数14之外,基于变换的编码器还将其他信息编码到数据流30中使得数据流30实现对音频信号18的重构。
图2示出了适应图1的频谱系数编码器10的频谱系数解码器40。频谱系数解码器40的功能实质上是图1的频谱系数编码器10的逆:频谱系数解码器40使用例如解码顺序26对频谱12的频谱系数14进行顺序解码。在通过熵解码对当前要解码的频谱系数(在图2中使用小x示例性指示的)进行解码时,频谱系数解码器40以上下文自适应方式根据一个或多个先前解码的频谱系数(也在图2中也由小ο指示)执行熵解码。通过这样做,频谱系数解码器40根据前述关于频谱12的形状的信息来调整先前解码的频谱系数与当前要解码的频谱系数之间的相对频谱距离28。按照与上述方式相同的方式,频谱系数解码器40可以是基于变换的解码器的一部分,该基于变换的解码器被配置为根据数据流30对音频信号18进行重构,频谱系数解码器40使用熵解码根据数据流30对频谱系数14进行解码。后面的基于变换的解码器可以使频谱12经历逆变换(例如,逆重叠变换)作为重构的一部分,这例如导致重叠加窗时间帧22序列的重构,其通过重叠相加处理移除了由于频谱分解变换引起的混叠。
如下文将更详细描述的,由于根据关于频谱12的形状的信息调整相对频谱距离28产生的优点依赖于提高用于对当前频谱系数x进行熵编码/解码的概率分布估计的能力。概率分布估计越好,熵编码更有效,即,更紧凑。“概率分布估计”是当前频谱系数14的实际概率分布的估计,即,向值域中的每一个值指派概率的函数,其中,当前频谱系数14可以假定该值域。由于距离28的调整对频谱12的形状的依赖性,概率分布估计可以被确定以更接近地对应于实际概率分布,这是因为采用关于频谱12的形状的信息使得能够根据当前频谱系数x的频谱邻居来导出概率分布估计,这允许更准确地估计当前频谱系数x的概率分布。下面给出了这一点的细节以及关于频谱12的形状的信息的示例。
在继续前述关于频谱12的形状的信息的具体示例之前,图3和图4分别示出了频谱系数编码器10和频谱系数解码器40的可能内部结构。具体地,如图3所示,频谱系数编码器10可以由概率分布估计导出器42和熵编码引擎44构成,其中,类似地,频谱系数解码器40可以由概率分布估计导出器52和熵解码引擎54构成。概率分布估计导出器42和52以相同的方式操作:它们基于一个或多个先前解码/编码的频谱系数ο的值来导出用于对当前频谱系数x的进行熵解码/编码的概率分布估计56。具体地,熵编码/解码引擎44/54从导出器42/52接收概率分布估计,并且相应地关于当前频谱系数x执行熵编码/解码。
熵编码/解码引擎44/54可以使用例如可变长度编码(例如,霍夫曼编码)来对当前频谱系数x进行编码/解码,并且在这一方面,引擎44/54可以针对不同的概率分布估计56使用不同的VLC(可变长度编码)表格。备选地,引擎44/54可以关于当前频谱系数x使用算数编码/解码,其中概率分布估计56控制表示算数编码/解码引擎44/54的内部状态的当前概率区间的概率区间细分,每一个部分区间被指派给可以由当前频谱系数x假定的目标值范围中的不同可能值。如下文将更详细描述的,熵编码引擎44和熵解码引擎54可以使用逸出机制来将频谱系数14的总值范围映射到有限的整数值区间,即,目标范围,例如,[0…2N-1]。目标范围中的整数值集合(即,{0,…,2N-1})与逸出符号{esc}一起定义了算数编码/解码引擎44/54的符号字母表,即,{0,…,2N-1,esc}。例如,熵编码引擎44使输入频谱系数x根据需要(如果存在的话)除以2,以使频谱系数x进入前述目标区间[0…2N-1],其中,针对每次除法,将逸出符号编码到数据流30中、然后将除法余数——或者在不需要进行除法的情况下原始频谱值——算数编码到数据流30中。熵解码引擎54进而将按如下方式执行逸出机制:它将来自数据流30的当前变换系数x解码为0、1或者更多个逸出符号esc后接非逸出符号的序列,即,解码为序列{a}、{esc,a}、{esc,esc,a}……之一,其中a表示非逸出符号。熵解码引擎54将通过对非逸出符号进行算术解码来获得例如目标区间[0…2N-1]中的值a,并且将通过将当前频谱系数的值计算为等于a+2乘以逸出符号的数量来导出x的系数值。
关于使用概率分布估计56以及将概率分布估计56应用于用于表示当前频谱系数x的符号序列存在不同的可能性:概率分布估计可以例如应用于数据流30中针对频谱系数x表达的任何符号,即,非逸出符号以及任何逸出符号(如果存在的话)。备选地,概率分布估计56仅用于0个或更多个逸出符号后接非逸出符号的序列中的前一个或前两个或前n<N个,其中,例如,针对符号序列中的任意后续一个使用某一默认概率分布估计,例如,等概率分布。
图5示出了频谱图12中的示例性频谱20。具体地,在图5中沿y轴以任意单位绘制了频谱系数的幅度,而水平x轴以任意单位对应于频率。如上所述,图5中的频谱20对应于音频信号的频谱图上的某一时刻的频谱片,其中,频谱图12由这种频谱20序列构成。图5还示出了当前频谱系数x的频谱位置。
如下文更详细描述的,虽然频谱20可以是音频信号的未加权频谱,但是根据下面进一步所述的实施例,例如频谱20是已经使用与感知合成滤波器函数的逆相对应的传递函数感知加权的。然而,本申请不受下面进一步所述的具体情况的限制。
在任意情况下,图5示出了沿频率轴具有特定周期的频谱20,这以频谱中的局部最大值和最小值沿频率方向的差不多等距的布置体现。仅为了说明的目的,图5示出了由频谱的局部最大值之间的频谱距离定义的音频信号的音高或周期的度量60,其中,当前频谱系数x位于所述局部最大值之间。当然,度量60可以被区别地定义和确定,例如,局部最大值和/或局部最小值之间的平均音高或者等同于在时域信号18的自相关函数中测量的时间延迟最大值的频率距离。
根据实施例,度量60是关于频谱的形状的信息或者由关于频谱的形状的信息构成。编码器10和解码器40,或者更具体地,概率分布估计导出器42/52可以例如根据该度量60来调整先前的频谱系数ο与当前的频谱系数x之间的相对频谱距离。例如,相对频谱距离28可以根据度量60而改变,使得距离28随着度量60的增加而增加。例如,将距离28设置为等于度量60或者是其整数倍可以是有利的。
如下文将更详细描述的,关于如何使解码器利用关于频谱12的形状的信息存在不同的可能性。通常,可以显式地向解码器发信号通知该信息(例如,度量60),其中,仅编码器10或概率分布估计导出器42实际上确定关于频谱的形状的信息,或者对关于频谱的形状的信息的确定是在编码器和解码器侧基于频谱的先前解码部分并行执行的或者可以根据已经写入比特流的另一信息导出。
通过使用不同的术语,度量60还可以被解释为“谐波间距离的度量”,这是因为频谱中的前述局部最大值或峰值(hill)可以形成彼此的谐波。
图6提供了关于频谱的形状的信息的另一示例,其中可以基于该频谱的形状的信息——排他地或者与前述另一度量(例如,度量60)一起——来调整频谱距离28。具体地,图6示出了使用感知加权合成滤波器函数的逆来对由编码器10和解码器40编码/解码的频谱系数所表示的频谱12(在图6中示出了其频谱片)进行加权的示例性情况。也即是说,在图6中在62处示出了原始的且最终重构的音频信号的频谱。在64处使用虚线示出了预加强版本。使用点划线66示出了预加强版本64的线性预测估计的频谱包络,并且在图6中在68处使用点点划线示出了其感知修改版本,即,感知激励合成滤波器函数的传递函数。频谱12可以是使用感知加权合成滤波器函数68的逆对原始音频信号频谱62的预加强版本进行滤波的结果。在任意情况下,编码器和解码器二者可以有权访问频谱包络66,频谱包络66进而可以具有或多或少显著的共振峰70或谷72。根据本申请的备选实施例,至少部分地基于频谱12的频谱包络66的这些共振峰70和/或谷72的相位位置来定义关于频谱的形状的信息。例如,共振峰70之间的频谱距离74可以用于设置前述当前频谱系数x与先前频谱系数ο之间的相对频谱距离28。例如,距离28可以优选地被设置为等于距离74或距离74的整数倍,然而,其中备选方式也是可行的。
替代如图6所示的基于LP的包络,还可以区别地定义频谱包络。例如,包络可以以比例因子的方式被定义并且在数据流中传输。也可以使用发送包络的其他方式。
由于以上文关于图5和图6所述的方式对距离28进行调整,因此与例如在频谱上位于当前频谱系数x较近的其他频谱系数相比,“参考”频谱系数ο的值表示用于估计当前频谱系数x的概率分布估计的实质上更好的提示。在这一方面,应当注意的是,大多数情况下的上下文建模是在一方面熵编码复杂度与另一方面编码效率之间的折中。因此,迄今所述的实施例提议根据关于频谱的形状的信息对相对频谱距离28进行调整,使得例如距离28随着度量60的增加而增加和/或随着共振峰间距离74的增加而增加。然而,先前系数ο(基于所述先前系数来执行对熵编码/解码的上下文自适应)的数量可以是恒定的,即,可以不增加。先前频谱系数ο(基于所述先前频谱系数来执行上下文自适应)的数量可以例如是恒定的,而不论关于频谱的形状的信息的变化如何。这意味着以上述方式对相对频谱距离28的调整在不会显著增加执行上下文建模的开销的情况下导致更好的或更有效的熵编码/解码。仅频谱距离28本身的调整增加了上下文建模的开销。
为了更详细地说明刚刚提到的问题,参照示出了频谱图12的频谱时间部分的图7,频谱时间部分包括要编码/解码的当前频谱系数14。此外,图7示出了示例性的五个先前编码/解码的频谱系数ο的模板,其中,基于所述模板来执行针对当前频谱系数x的熵编码/解码的上下文建模。模板位于当前频谱系数x的位置处并且指示相邻的参考频谱系数ο。根据前述关于频谱的形状的信息,对这些参考频谱系数ο的频谱位置的频谱扩展进行调整。这在图7中使用双箭头80和小的阴影线ο示出,其中小的阴影线ο示例性地示出了在例如根据调整80对参考频谱系数的频谱位置的频谱扩展进行缩放的情况下参考频谱系数的位置。也即是说,图7示出了贡献于上下文建模的参考频谱系数的数量,即,当前频谱系数x周围的并且标识参考频谱系数ο的模板的参考频谱系数的数量,保持恒定,而不论关于频谱的形状的信息的任何变化如何。仅这些参考频谱系数与当前频谱系数之间的相对频谱距离根据80而被调整,并且参考频谱系数本身之间的距离是固有的。然而,应当注意的是,参考频谱系数ο的数量不必保持恒定。根据实施例,参考频谱系数的数量可以随着相对频谱距离的增加而增加。然而,相反的情况下也是可行的。
应当注意的是,图7示出了针对当前频谱系数x的上下文建模还涉及与早前频谱/时间帧相对应的先前编码/解码频谱系数的示例性情况。然而,这也仅应当被理解为示例,并且根据另一实施例,可以不再使用对这种时间在前的先前编码/解码频谱系数的依赖性。图8示出了概率分布估计导出器42/52可以如何根据一个或多个参考频谱系数ο来确定针对当前频谱系数的概率分布估计。如图8所述,为此,一个或多个参考频谱系数ο可能经历标量函数82。基于标量函数,例如,一个或多个参考频谱系数ο可以被映射为索引,该索引对可用的概率分布估计集合中要用于当前频谱系数x的概率分布估计编写索引。如先前所述的,可用的概率分布估计可以例如在算数编码的情况下对应于针对符号字母表的不同的概率区间细分或者在使用可变长度编码的情况下对应于不同的可变长度编码表格。
在继续描述将前述频谱系数编码器/解码器向相应的基于变换的编码器/解码器进行可能的集成之前,在下文中讨论了关于可以如何改变迄今所述的实施例的几个可能性。例如,上文关于图3和图4简要描述的逸出机制仅被选择用于说明的目的,并且可以根据备选实施例不再使用该逸出机制。在下述实施例中,使用了逸出机制。此外,如根据下述具体实施例的描述将清楚的是,不是单独地对频谱系数进行编码/解码,而是可以以n元组为单位(即,以n个频谱上紧邻的频谱系数为单位)对频谱系数进行编码/解码。在该情况下,还可以以这种n元组为单位或者以单独的频谱系数为单位来确定对相对频谱距离的确定。关于图8的标量函数82,应当注意的是,标量函数可以是算术函数或逻辑运算。此外,可以针对例如由于以下原因而不可用的那些参考标量系数ο采取特殊度量:例如超出频谱的频率范围或者例如位于通过频谱系数以与在对应于当前频谱系数的时刻对频谱进行采样的频谱时间分辨率不同的频谱时间分辨率采样的频谱的一部分中。不可用的参考频谱值ο的值可以由例如默认值替换,然后与其他(可用)参考频谱系数一起输入标量函数82中。关于熵编码/解码可以如何使用上文所述的频谱距离调整而工作的另一种方式如下:例如,当前频谱系数可以经历二进制化。例如,频谱系数x可以被映射为二进制序列,然后使用对相对频谱距离调整的调整来对二进制序列进行熵编码。当解码时,可以在遇到有效的二进制序列之前顺序地对二进制进行熵解码,然后,经解码的二进制可以被重新映射到当前频谱系数x的相应值。
此外,可以以与图8所述的方式不同的方式来实现根据一个或多个先前频谱系数ο的上下文自适应。具体地,标量函数82可以用于对可用上下文集合中的一个上下文编写索引,并且每一个上下文可以具有与之相关联的概率分布估计。在该情况下,每当已经将当前编码/解码的频谱系数x指派给特定上下文(即,使用该当前频谱系数x的值)时,与相应的上下文相关联的概率分布估计可以被调整为实际的频谱系数统计数据。
最后,图9a和图9b示出了关于可以如何在编码器与解码器之间同步对关于频谱的形状的信息的导出的不同可能性。图9a示出了隐式信令用于在编码器与解码器之间同步对关于频谱的形状的信息的导出的可能性。这里,在编码和解码侧二者处,分别基于比特流30的先前编码部分或先前解码部分来执行对信息的导出,编码侧处的导出是使用附图标记83来指示的,并且解码侧处的导出是使用附图标记84来指示的。可以例如由导出器42和52本身来执行两个导出。
图9b示出了显式信号作用用于从编码器向解码器传达关于频谱的形状的信息的可能性。编码侧处的导出83可能甚至涉及对原始音频信号(包括其分量)的分析,由于编码损耗,其分量在解码侧处不可用。更确切地,数据流30中的显式信令用于渲染解码侧处可用的关于频谱的形状的信息。换言之,解码侧处的导出84使用数据流30中的显式信号作用来获得对关于频谱的形状的信息的访问。显式信号作用30可以涉及区别编码。如下文将更详细所述的,例如,为了其他目的而在数据流30中已经可用的LTP(长期预测)滞后参数可以用作关于频谱的形状的信息。然而,备选地,图9b的显式信号作用可以关于(即,区别地针对)已经可用的LTP滞后参数对度量60进行区别编码。存在渲染解码侧可用的关于频谱的形状的信息的很多其他可能性。
除了上述备选实施例之外,还应当注意的是,除了熵编/解码,对频谱系数的编/解码还可以涉及对当前要编/解码的频谱系数进行频谱和/或时间预测。然后,预测残差可以经历如上所述的熵编/解码。
在已经描述了针对频谱系数编码器和解码器的各种实施例之后,在下文中,描述了关于可以如何将频谱系数编码器和解码器有利地构建到基于变换的编码器/解码器中的一些实施例。
图10a例如示出了根据本发明的实施例的基于变换的音频编码器。图10a的基于变换的音频编码器通常是使用附图标记100来指示的,并且包括频谱计算器102后接图1的频谱系数编码器10。频谱计算器102接收音频信号18,并且基于音频信号18来计算频谱12,频谱12的频谱系数由如上所述的频谱系数编码器10编码到数据流30中。图10b示出了相应解码器104的构造:解码器104包括级联的频谱系数解码器40(如上所述形成的),并且在图10a和图10b的情况下,频谱计算器102可以例如仅对频谱20执行重叠变换,而频谱到时域计算器106相应地仅执行其逆变换。频谱系数编码器10可以被配置为无损地对输入频谱20进行编码。与之相比,频谱计算器102可能由于量化而引入编码损耗。
为了对量化噪声进行频谱成形,可以如图11a所示的实现频谱计算器102。这里,频谱12是使用比例因子频谱成形的。具体地,根据图11a,频谱计算器102包括级联的变换器108和频谱成形器110,其中变换器108使输入音频信号18经历频谱分解变换以获得音频信号18的未成形的频谱112,其中频谱成形器110使用从频谱计算器102的比例因子确定器116获得的比例因子114对该未成形的频谱112进行频谱成形,以获得频谱12,最后由频谱系数编码器10对频谱12进行编码。例如,频谱成形器110针对来自比例因子确定器116的每一个比例因子频带获得一个比例因子114,并且将相应比例因子频带的每一个频谱系数除以与相应比例因子频带相关联的比例因子以接收频谱12。比例因子确定器116可以由感知模型来驱动,以基于音频信号18确定比例因子。备选地,比例因子确定器116可以基于线性预测分析来确定比例因子,使得比例因子表示取决于由线性预测系数信息定义的线性预测合成滤波器的传递函数。线性预测系数信息118与频谱20的频谱系数一起由编码器10编码到数据流30中。为了完整起见,图11a将量化器120示出为位于频谱成形器110的下游以使用量化的频谱系数获得频谱12,然后量化的频谱系数由频谱系数编码器10无损编码。
图11b示出了与图10a的编码器相对应的解码器。这里,频谱到时域计算器106包括比例因子确定器122,比例因子确定器122基于包含在数据流30中的线性预测系数信息118来重构比例因子118,使得比例因子表示取决于由线性预测系数信息118定义的线性预测合成滤波器的传递函数。频谱成形器根据比例因子114对由解码器40根据数据流30解码的频谱12进行频谱成形,即,频谱成形器124使用相应比例因子频带的比例因子对每一个频带内的比例因子进行缩放。因此,在频谱成形器124的输出端处,产生音频信号18的未成形频谱112的重构,并且如在图11b中通过虚线所示,通过逆变换器126的方式对频谱112进行逆变换以在时域中重构音频信号18是可选的。
图12a示出了在使用基于线性预测的频谱成形的情况下图11a的基于变换的音频编码器的更详细的实施例。除了图11a中所示的组件之外,图12a的编码器还包括预加强滤波器128,预加强滤波器128被配置为首先使输入音频信号18经历预加强滤波。预加强滤波器128可以例如被实现为FIR滤波器。预加强滤波器128的传递函数可以例如表示高通传递函数。根据实施例,预加强滤波器128被实现为n阶高通滤波器,例如,一阶高通滤波器,其具有传递函数H(z)=1-αz-1,其中,α被设置为例如0.68。因此,在预加强滤波器128的输出端,产生音频信号18的预加强版本130。此外,图12a将比例因子确定器116示出为由LP(线性预测)分析器132和线性预测系数到比例因子转换器134构成。LPC分析器132基于音频信号18的预加强版本来计算线性预测系数信息118。因此,信息118的线性预测系数表示音频信号18的基于线性预测的频谱包络,或者更具体地,其预加强版本130。LP分析器132的操作模式可以例如涉及对输入信号130进行加窗以获得要进行LP分析的信号130的加窗部分序列、进行自相关确定以确定每一个加窗部分的自相关、以及进行滞后加窗(可选的)以向自相关应用滞后窗函数。然后,可以对自相关或滞后窗输出(即,加窗的自相关函数)执行线性预测参数估计。线性预测参数估计可以例如涉及对(滞后加窗的)自相关执行Wiener-Levinson-Durbin或其他适合的算法以导出针对信号130的每一个自相关(即,针对每一个加窗部分)的线性预测系数。也即是说,在LP分析器132的输出端产生LPC系数118。LP分析器132可以被配置为对线性预测系数进行量化以插入数据流30中。线性预测系数的量化可以在与线性预测系数域不同的另一个域中执行,例如,在线性频谱对或线性频谱频率域中。然而,也可以使用与Wiener-Levinson-Durbin算法不同的其他算法。
线性预测系数到比例因子转换器134将线性预测系数转换为比例因子114。转换器134可以确定比例因子140以与由线性预测系数信息118定义的线性预测合成滤波器1/A(z)的逆相对应。备选地,转换器134确定比例因子以遵循该线性预测合成滤波器的感知激励修改,例如,1/A(γ·z),其中,例如γ=0.92±10%。线性预测合成滤波器的感知激励修改(即,1/A(γ·z))可以被称作“感知模型”。
为了说明的目的,图12a示出了另一元件,然而,对于图12a的实施例而言,该另一元件是可选的。该元件是位于变换器108上游的LTP(长期预测)滤波器136以使音频信号经历长期预测。优选地,LP分析器132对非长期预测滤波版本进行操作。换言之,LTP滤波器136对音频信号18或其预加强版本130执行LTP预测,并且输出LTP残差版本138使得变换器108对预加强的且LTP预测的残差信号138执行变换。LTP滤波器可以例如被实现为FIR滤波器,并且LTP滤波器136可以由包括例如LTP预测增益和LTP滞后的LTP参数来控制。两个LTP参数140被编码到数据流30中。如下面将更详细所述的,LTP增益表示度量60的示例,这是因为它指示音高或周期,音高或周期在没有LTP滤波的情况下在频谱12中完全体现并且在使用LTP滤波的情况下在频谱12中以逐渐减小的强度出现,其中,减小的程度取决于控制LTP滤波器136的LTP滤波的强度的LTP增益参数。
为了完整起见,图12b示出了适应图12a的编码器的解码器。除了图11b的组件以及比例因子确定器122被实现为LPC到比例因子转换器142之外,图12b的解码器还包括位于逆变换器126下游的重叠相加级144,该重叠相加级144使逆变换器126输出的逆变换经历重叠相加处理,从而获得预加强的且LTP滤波的版本138的重构,然后,该重构在LTP后置滤波器146处经历LTP后置滤波,其中,LTP后置滤波器146的传递函数对应于LTP滤波器136的传递函数的逆。LTP后置滤波器146可以例如被实现为IIR滤波器的形式。在LTP后置滤波器146的后续(在图12b中,示例性地,在LTP后置滤波器146的下游),图12b的解码器包括去加强滤波器148,去加强滤波器148使用与预加强滤波器128的传递函数的逆相对应的传递函数对时域信号执行去加强滤波。去加强滤波器148也可以实现为IIR滤波器的形式。在加强滤波器148的输出端产生音频信号18。
换言之,上述实施例提供了用于通过将诸如算数编码器上下文等的熵编码器上下文的设计调整为诸如信号的周期等的信号的频谱的形状来对音调信号和频域进行编码的可能性。坦白地说,上述实施例将上下文扩展超出邻居的概念,并且提议基于音频信号频谱的形状(例如,基于音高信息)的自适应上下文设计。这种音高信息可以附加地发送到解码器,或者可能已经可以从其他编码模块(例如,上述LTP增益)得到。然后,对上下文进行映射以指向以一距离与当前要编码的系数有关的已经编码的系数,所述距离是输入信号的基本频率的倍数或者与输入信号的基本频率成正比。
应当注意的是,根据图12和图12b使用的LTP前置/后置滤波器构思可以由谐波后置滤波器构思替换,根据谐波后置滤波器构思,通过经由数据流30从编码器向解码器发送的LTP参数(包括音高(或音高滞后))来控制解码器处的谐波后置滤波器。LTP参数可以用作参考,以使用显式信令区别地向解码器发送前述关于频谱的形状的信息。
通过上述实施例的方式,可以不再使用针对音调信号的预测,从而例如避免引入不期望的帧间依赖性。另一方面,关于编码/解码频谱系数的上述构思也可以与任何预测技术相组合,这是因为预测残差仍然表明一些谐波结构。
换言之,再次关于以下附图说明上述实施例,在所述附图中,图13示出了使用上述频谱距离调整的编码处理的一般框图。为了便于以下描述与迄今提出的描述之间的一致性,部分地重新使用附图标记。
首先,将输入信号18传送给TD(TD=时域)中噪声成形/预测模块200。模块200包含例如图12a的元件128和136中的一个或二者。该模块200可以被绕过,或者它可以通过使用LPC编码来执行短期预测,和/或——如图12a所示——长期预测。可以设想每种类型的预测。如果时域处理之一采用音高信息并且发送音高信息,则如上文已经通过LTP滤波器136输出的LTP滞后参数简要描述的,然后可以将这种信息传送到基于上下文的算数编码器模块以进行基于音高的上下文映射。
然后,由变换器108在时频变换的帮助下将残余的且成形的时域信号202变换到频域。可以使用DFT或MDCT。变换长度可以是自适应的,并且为了低延迟,将使用与前一变换窗和下一变换窗(比较:24)的低重叠区域。在文档的其余部分中,将使用MDCT作为说明性示例。
然后,由模块204在频域中对变换的信号112进行成形,模块204因此是例如使用比例因子确定器116和频谱成形器110实现的。这可以通过LPC系数的频率响应并且通过由心理声学模型驱动的比例因子来完成。还可以应用时间噪声成形(TNS)或频域预测,从而采用并发送音高信息。在这种情况下,可以根据基于音高的上下文映射将音高信息传送到基于上下文的算数编码器模块。后一个可能性也可以分别应用于图10a至图12b的上述实施例。
然后,在由基于上下文的熵编码器10对输出频谱系数进行无噪编码之前,由量化级120对输出频谱系数进行量化。如上所述,该最后一个模块10使用例如输入信号的音高估计作为关于音频信号的频谱的信息。这种信息可以是从噪声成形/预测模块200或204之一继承得到的,这已经在时域中或在频域中预先执行了。如果该信息不可用,则可以例如由音高估计模块206对输入信号执行专用音高估计,然后音高估计模块206将音高信息发送到比特流30中。
图14示出了适应图13的解码处理的一般框图。它由图13中所述的逆处理构成。音高信息——在图13和图14的情况下用作关于频谱的形状的信息的示例——被首先解码并且传送到算数解码器40。如果需要的话,该信息被进一步传送到需要该信息的其他模块。
具体地,除了对来自数据流30的音高信息进行解码并因此负责图9b中的导出处理84的音高信息解码器208之外,图14的解码器在基于上下文的解码器40之后按照其提及的顺序还包括解量化器210、FD(频域)中逆噪声成形/预测模块212、逆变换器214和TD中逆噪声成形/预测模块216,其均彼此串联以根据频谱12重构时域中的音频信号18,其中,频谱12的频谱系数由解码器40根据比特流30进行解码。在将图14的元件映射到例如图12b中所示的那些元件时,逆变换器214包含图12b的逆变换器126和重叠相加级144。此外,图14示出了可以例如使用针对所有频谱线等同的量化步长函数向由编码器40输出的经解码的频谱系数应用解量化。此外,图14示出了模块212(例如,TNS(时间噪声成形)模块)可以位于频谱成形器124和126之间。时域中逆噪声成形/预测模块216包含图12b的元件146和/或148。
为了再次促进由本申请的实施例提供的优点,图15示出了针对频谱系数的熵编码的传统上下文。该上下文涵盖当前要编码的系数的过去邻居的有限区域。也即是说,图15示出了如在MPEGUSAC中使用上下文自适应一样使用上下文自适应对频谱系数进行熵编码的示例。因此,图15以与图1和图2类似的方式示出了频谱系数,然而,对频谱相邻频谱系数进行分组或者将其划分为群集,称作频谱系数的n元组。为了将这种n元组与单独的频谱系数区分开但是保持与上文提出的描述的一致性,使用附图标记14’来指示这些n元组。图15通过使用矩形轮廓描绘已经编码/解码的n元组的形状并且使用圆形轮廓描绘还未编码/解码的n元组的形状来对已经编码/解码的n元组与还未编码/解码的n元组进行区分。此外,使用阴影线ο轮廓描绘了当前要解码/编码的n元组14’,同时还使用阴影线但是矩形轮廓指示了已经编码/解码的n元组14’,其中,已经编码/解码的n元组由位于当前要处理的n元组处的固定邻居模板局部化。因此,根据图15的示例,邻居上下文模板标识位于当前要处理的n元组附近的六个n元组14’,即,处于相同的时刻但是处于紧邻的较低频谱线的n元组(即,c0)、处于相同的频谱线但是处于紧邻的前一时刻的n元组(即,c1)、处于紧邻的较高频谱线并且处于紧邻的前一时刻的n元组(即,c2),以此类推。也即是说,根据图15所使用的上下文模板以与当前要处理的n元组固定的相对距离来标识参考n元组14’,即,紧邻的邻居。根据图15,以n个块示例性地考虑频谱系数,称作n元组。将n个连续值进行组合允许采用系数间依赖性。较高的维度指数地增加了要编码的n元组的字母表尺寸,因而增加了码本尺寸。在剩余描述中示例性地使用n=2的维度,并且n=2的维度表示编码增益与码本尺寸之间的折中。在所有实施例中,编码例如单独地考虑符号。此外,也可以单独地处理每一个系数的2个最高有效位和剩余的最低有效位。上下文自适应可以例如仅应用于无符号频谱值的2个最高有效位(MSB)。可以假定符号和最低有效位均匀分布。逸出符号ESC与2元组的MSB的16个组合一起添加到字母表中以指示解码器必须预期一个额附加LSB。发送与附加LSB一样多的ESC符号。总计17个符号形成代码字母表。本发明不限于上述产生符号的方式。
将随后的具体细节转移到图3和图4的描述,这意味着熵编码/解码引擎44和54的符号字母表可以涵盖值{0,1,2,3}加上逸出符号,并且如果要编码的输入频谱系数超出3,则根据需要将要编码的输入频谱系数除以4以便小于4,其中,针对每一次除法对逸出符号进行编码。因此,针对每一个频谱系数对0或更多个逸出符号后接实际的非逸出符号进行编码,其中,使用如本文先前所述的上下文自适应来对这些符号中的仅例如前两个符号进行编码。通过将该思想转移到2元组,即,频谱紧邻系数对,符号字母表可以包括针对该2元组的16个值对(即,{(0,0),(0,1),(1,0),…,(1,1)})以及逸出符号esc(其中,esc是逸出符号的缩写),即,一共17个符号。包括超出3的至少一个系数的每一个输入频谱系数n元组除以4,其中,对相应2元组的每一个系数应用除以4。在解码侧,逸出符号的数量乘以4(如果存在的话)被添加到根据非逸出符号获得的余数值。
图16示出了由于对根据上述构思的图15的构思进行修改产生的映射的上下文映射的配置,根据该上下文映射的配置,例如通过考虑信号的周期或音高信息,根据关于频谱的形状的信息对参考频谱系数的相对频谱距离28进行调整。具体地,图16a至图16c示出了可以通过以下公式给出的D0来粗略估计上下文中与前述相对频谱距离28相对应的距离D:
这里,fs是采样频率,N是MDCT大小,并且L是以样本为单位的滞后周期。在示例性图16(a)中,上下文指向与要编码的当前n元组相距D的倍数的n元组。图16(b)将传统的邻居上下文与和谐波相关的上下文进行组合。最后,图16(c)示出了与先前帧无关的帧内映射上下文的示例。也即是说,图16a示出了除了上文关于图7所述的可能性之外,根据关于频谱的形状的信息调整相对频谱距离还可以应用于属于上下文模板的所有固定数量的参考频谱系数。图16b示出了根据不同的示例仅这些参考频谱系数的子集根据调整80经历替换,例如,仅位于上下文模板的低频侧的在频谱上位于最外侧的参考频谱系数,这里C3和C5。剩余的参考频谱系数(这里,C0至C4)可以位于相对于当前处理的频谱系数的固定位置,即,位于相对于当前要处理的频谱系数的紧邻的频谱时间位置。最后,图16c示出了仅先前编码的频谱系数用作上下文模板的参考系数的可能性,其中,先前编码的频谱系数位于与当前要处理的频谱系数相同的时刻。
图17给出了关于图16a至图16c的映射的上下文可以比根据图15的传统上下文更有效的程度的说明,其中,根据图15的传统上下文未能预测高谐波频谱X(比较:20)的音调。
接下来,将详细描述可能的上下文映射机制并且给出用于对距离D进行有效估计和编码的示例性实现。为了说明的目的,将在以下部分中使用根据图16c的帧内映射上下文。
第一实施例:2元组编码和映射
首先,以最多减少对大小为N的当前量化频谱x[]进行编码所需的比特数量的方式搜索最佳距离。可以通过在先前执行的音高估计中找到的滞后周期L的D0函数来估计初始距离。搜索范围可以如下:
D0-Δ<D<D0+Δ
备选地,可以通过考虑D0的倍数来修改范围:扩展范围变成:
{M.D0-Δ<D<M.D0+Δ:M∈F}
其中,M是属于有限集F的乘法系数。例如,M可以取值0.5、1和2,以采用音高的一半和两倍。最后,还可以对D进行穷举搜索。实际上,该最后一种方法可能非常复杂。图18给出了搜索算法的示例。该搜索算法可以是例如导出处理82的一部分,或者是解码和编码侧处的导出处理82和84二者的一部分。
成本被初始化为当不执行针对上下文的映射时的成本。如果没有距离导致更好的成本,则不执行映射。将标志发送到解码器以发信号通知何时执行映射。
如果找到最佳距离Dopt,则需要发送该最佳距离。如果已经由编码器的另一模块发送了L,则需要发送与图9b的前述显式信令相对应的调整参数m和d,使得
Dopt=m.D0+d
否则,必须发送Dopt的绝对值。上文关于图9b讨论了两个备选方式。例如,如果考虑大小N=256并且fs=12800Hz的MDCT,则可以通过将D限制在2与17之间来覆盖30Hz和256Hz之间的音高频率。在整数分辨率的情况下,可以使用4个比特来对D进行编码,针对分辨率0.5,可以使用5个比特来对D进行编码,并且在分辨率0.25的情况下,可以使用6个比特对D进行编码。
可以在D用于产生上下文映射的情况下根据对x[]进行编码所需的比特的数量来计算成本函数。获取该成本函数通常很复杂,这是因为它需要对频谱进行算术编码或者至少对它所需的比特的数量进行良好估计。因为针对每一个候选D计算该成本函数可能很复杂,因此推荐备选方式以从根据值D导出上下文映射来直接得到成本的估计。当导出上下文映射时,可以容易地计算相邻映射上下文的范数的差值。因为在算术编码器中使用上下文来预测要编码的n元组并因为在优选的实施例中基于范数-L1来计算上下文,因此相邻映射上下文之间的范数的差值之和是对考虑到D的映射的效率的良好指示。首先,按如下方式计算x[]的每一个2元组的范数:
for(i=0;i<N/2;i++){
normVect[i]pow(abs(x[2*i]NORM,)+pow(abs(normVect[2*i+1],NORM),
}
其中,在优选实施例中NORM=1,这是因为在上下文计算中考虑了范数-L1。在该部分中,描述了在分辨率2的情况下工作的上下文映射,即,针对每一个2元组一个映射。该分辨率是r=2,并且上下文映射表格具有N/2的大小。如下给出了上下文映射产生和成本函数计算的伪代码:
一旦计算出了最佳距离D,就还可以推断索引排列表格,该索引排列表格给出了频谱的谐波位置、谷和尾部。然后,按如下方式推断上下文映射规则:
for(i=0;i<N/r;i++){
contextMapping[IndexPermutation[i]]=i;
}
这意味着针对频谱中的索引i的2元组(x[2*i],x[2*i+1]),将在索引contextMapping[i-1]、contextMapping[i-2]……contextMapping[i-1]的2元组的情况下考虑过去的上下文,其中,1是根据2元组的上下文的大小。如果针对上下文还考虑一个或多个先前频谱,则针对并入过去上下文的这些频谱的2元组将具有contextMapping[i+1]、……、contextMapping[i+1]、contextMapping[i]、contextMapping[i-1]、contextMapping[i-1]作为索引,其中,21+1是针对每一个频谱的上下文的大小。
IndexPermutation表格还给出了附加的令人感兴趣的信息,这是因为它聚集了音调分量的索引后接非音调分量的索引。因此,可以预期相应的幅度逐渐减小。这可以通过检测IndexPermutation中的最后一个索引(其对应于非零2元组)而被利用。该索引对应于(lastNz/2-1),其中,按如下方式计算lastNz:
在频谱分量之前的ceil(log2(N/2))个比特上对lastNz/2进行编码。
算数编码器伪代码:
cum_proba[]表格是在对较大训练集进行离线训练期间获得的不同的累积模型。在该具体情况下,它包括17个符号。proba_model_lookup[]是将上下文索引t映射为累积概率模型pki的查找表。该表格也是通过训练阶段获得的。cum_equiprob[]是针对具有2个符号(其是等概率的)的字母表的累积概率表格。
第二实施例:在1元组映射情况下的2元组
在该第二实施例中,仍然二元组接二元组地对频谱分量进行编码,但是contextMapping现在具有1元组的分辨率。这意味着在映射上下文时存在远远更多的可能性和灵活性。然后,映射的上下文可以更适合于给定的信号。以与在第三部分中进行的方式相同的方式搜索最佳距离,但是此时,分辨率r=1。为此,必须针对每一个MDCT线来计算normVect[]:
for(i=0;i<N;i++){
normVect[i]=pow(abs(x[2*i]NORM,);
}
然后,通过维度为N的表格给出由此产生的上下文映射。如在前一部分中一样计算LastNz,并且可以按如下方式描述编码:
与前一部分相反,两个非连续频谱系数可以聚集在相同的2元组中。由于该原因,针对2元组的两个元素的上下文映射可以指向上下文表格中的两个不同的索引。在优选实施例中,选择具有最低索引的映射上下文,但是也可以具有不同的规则,例如,对两个映射上下文进行平均。由于相同的原因,还应当区别地处理上下文的更新。如果2个元素在频谱中是连续的,则使用计算上下文的传统方式。否则,针对两个元素在仅考虑其自己的幅度的情况下单独地更新上下文。
解码由以下步骤构成:
对标志进行解码以获知是否执行了上下文映射
通过对Dopt或用于针对D0得到Dopt的参数调整参数进行解码来对上下文映射进行解码。
对lastNz进行解码
按如下方式对量化的频谱进行解码:
因此,上述实施例尤其揭示了例如用于音调信号的熵(例如,算数)编码的基于音高的上下文映射。
虽然已经在装置的上下文中描述了一些方面,但是应当清楚的是,这些方面也表示对相应方法的描述,其中,框或设备对应于方法步骤或方法步骤的特征。类似地,在方法步骤的上下文中所述的方面也表示对相应框或项目或者相应装置的特征的描述。方法步骤中的一些或全部可以由(或使用)硬件装置来执行,例如,微处理器、可编程计算机或电子电路。在一些实施例中,最重要的方法步骤中的某一个或多个可以由这种装置来执行。
创造性的编码音频信号可以存储在数字存储介质上,或者可以在诸如无线传输介质或有线传输介质(例如,互联网)等的传输介质上传输。
根据特定实现需要,可以在硬件中或在软件中实现本发明的实施例。可以使用其上存储有电子可读控制信号的数字存储介质(例如,软盘、DVD、蓝光、CD、ROM、PROM、EPROM、EEPROM或闪存)来执行实现,该电子可读控制信号与可编程计算机系统协作(或者能够与之协作)从而执行相应方法。因此,数字存储介质可以是计算机可读的。
根据本发明的一些实施例包括具有电子可读控制信号的数据载体,该电子可读控制信号能够与可编程计算机系统协作从而执行本文所述的方法之一。
通常,本发明的实施例可以实现为具有程序代码的计算机程序产品,程序代码可操作以在计算机程序产品在计算机上运行时执行方法之一。程序代码可以例如存储在机器可读载体上。
其他实施例包括存储在机器可读载体上的计算机程序,该计算机程序用于执行本文所述的方法之一。
换言之,本发明方法的实施例因此是具有程序代码的计算机程序,程序代码用于在计算机程序在计算机上运行时执行本文所述的方法之一。
本发明方法的另一实施例因此是其上记录有计算机程序的数据载体(或者数字存储介质或计算机可读介质),计算机程序用于执行本文所述的方法之一。数据载体、数字存储介质或记录介质通常是有形的和/或非瞬时性的。
因此,本发明方法的另一实施例是表示计算机程序的数据流或信号序列,所述计算机程序用于执行本文所述的方法之一。数据流或信号序列可以例如被配置为经由数据通信连接(例如,经由互联网)传递。
另一实施例包括处理装置,例如,计算机或可编程逻辑器件,所述处理装置被配置为或适于执行本文所述的方法之一。
另一实施例包括其上安装有计算机程序的计算机,所述计算机程序用于执行本文所述的方法之一。
根据本发明的另一实施例包括被配置为向接收机传递(例如,电子地或光学地)计算机程序的装置或系统,所述计算机程序用于执行本文所述的方法之一。接收机可以是例如计算机、移动设备、存储设备等。装置或系统可以例如包括用于向接收机传递计算机程序的文件服务器。
在一些实施例中,可编程逻辑器件(例如,现场可编程门阵列)可以用于执行本文所述的方法的功能中的一些或全部。在一些实施例中,现场可编程门阵列可以与微处理器协作以执行本文所述的方法之一。通常,方法优选地由任意硬件装置来执行。
上述实施例仅说明本发明的原理。应当理解的是,本文所述的布置和细节的修改和变形对于本领域其他技术人员将是显而易见的。因此,旨在仅由所附专利权利要求的范围而不由通过描述和解释本文的实施例的方式给出的具体细节来限制本发明。
参考文献
[1]Fuchs,G.;Subbaraman,V.;Multrus,M.,″Efficientcontextadaptiveentropycodingforreal-timeapplications,″Acoustics,SpeechandSignalProcessing(ICASSP),2011IEEEInternationalConfereneeon,vol.,no.,pp.493,496,22-27May2011
[2]ISO/IEC13818,Part7,MPEG-2AAC
[3]Juin-HweyChen;DongmeiWang,″Transformpredictivecodingofwidebandspeechsignals,″Acoustics,Speech,andSignalProcessing,1996.ICASSP-96)ConferenceProceedings.,1996IEEEInternationalConferenceon,vol.1,no.,pp.275,278vol.1,7-10May1996
Claims (19)
1.一种解码器(40),被配置为对音频信号(18)的频谱(12)的频谱系数(14)进行解码,所述解码器被配置为通过以上下文自适应的方式根据先前解码的频谱系数(o)进行熵解码、并且根据关于所述频谱的形状的信息对所述先前解码的频谱系数(o)与当前要解码的频谱系数(x)之间的相对频谱距离(28)进行调整,来对所述当前要解码的频谱系数(x)进行解码。
2.根据权利要求1所述的解码器,其中,关于所述频谱的形状的信息包括以下至少一项:
所述音频信号(18)的音高或周期的度量(60);
所述音频信号的频谱(12)的谐波间距离的度量;
所述频谱的频谱包络的共振峰(70)和/或谷(72)的相对位置。
3.根据权利要求1或2所述的解码器,其中,所述解码器(40)被配置为通过显式信号作用来导出关于所述频谱的形状的信息。
4.根据权利要求1或2所述的解码器,其中,所述解码器(40)被配置为根据所述频谱的先前解码的频谱系数(o)或先前解码的基于LPC的频谱包络来导出关于所述频谱的形状的信息。
5.根据前述权利要求中任一项所述的解码器,其中,所述解码器(40)被配置为使得对所述熵解码的依赖性涉及多个先前解码的频谱系数(o),所述多个先前解码的频谱系数(o)的频谱位置的频谱扩展是根据关于所述频谱的形状的信息来调整的。
6.根据前述权利要求中任一项所述的解码器,其中,所述解码器(40)被配置为使得
关于所述频谱的形状的信息是所述音频信号的音高的度量(60),并且所述解码器被配置为根据所述音高的度量来调整所述先前解码的频谱系数(o)与所述当前要解码的频谱系数(x)之间的相对频谱距离(28),使得所述相对频谱距离随着音高的增加而增加,或者
关于所述频谱的形状的信息是所述音频信号的周期的度量(60),并且所述解码器被配置为根据所述周期的度量来调整所述先前解码的频谱系数(o)与所述当前要解码的频谱系数(x)之间的相对频谱距离(28),使得所述相对频谱距离随着周期的增加而减小,或者
关于所述频谱的形状的信息是所述音频信号的频谱(12)的谐波间距离的度量,并且所述解码器(40)被配置为根据所述谐波间距离的度量来调整所述先前解码的频谱系数(o)与所述当前要解码的频谱系数(x)之间的相对频谱距离,使得所述相对频谱距离随着谐波间距离的增加而增加,或者
关于所述频谱的形状的信息包括所述频谱的频谱包络的共振峰(70)和/或谷(72)的相对位置,并且所述解码器被配置为根据所述位置来调整所述先前解码的频谱系数与所述当前要解码的频谱系数之间的相对频谱距离,使得所述相对频谱距离随着所述频谱包络中的谷之间和/或所述频谱包括中的共振峰之间的频谱距离(74)的增加而增加。
7.根据前述权利要求中任一项所述的解码器,其中,所述解码器被配置为:在通过熵解码对所述当前要解码的频谱系数进行解码时,通过使所述先前解码的频谱系数经历标量函数(82)来导出针对所述当前要解码的频谱系数的概率分布估计(56)并且使用所述概率分布估计来进行所述熵解码。
8.根据前述权利要求中任一项所述的解码器,其中,所述解码器被配置为使用算数解码作为熵解码。
9.根据前述权利要求中任一项所述的解码器,其中,所述解码器被配置为通过对所述当前要解码的频谱系数进行频谱和/或时间预测并且通过经由所述熵解码获得的预测残差对所述频谱和/或时间预测进行校正来对所述当前要解码的频谱系数进行解码。
10.一种基于变换的音频解码器,包括根据前述权利要求中任一项所述的、被配置为对音频信号的频谱的频谱系数进行解码的解码器。
11.根据权利要求10所述的基于变换的音频解码器,其中,所述解码器被配置为通过使用比例因子(114)对所述频谱进行缩放来对所述频谱进行频谱成形。
12.根据权利要求11所述的基于变换的音频解码器,被配置为基于线性预测系数信息来确定所述比例因子(114),使得所述比例因子表示取决于由所述线性预测系数信息定义的线性预测合成滤波器的传递函数。
13.根据权利要求12所述的基于变换的音频解码器,其中,所述传递函数对由所述线性预测系数信息定义的所述线性预测合成滤波器的依赖性使得对所述传递函数进行感知加权。
14.根据权利要求13所述的基于变换的音频解码器,其中,所述传递函数对由所述线性预测信息定义的所述线性预测合成滤波器1/A(z)的依赖性使得所述传递函数是传递函数1/A(k·z),其中k是常数。
15.根据权利要求10至14中任一项所述的基于变换的音频解码器,其中,所述基于变换的音频解码器支持经由显式发信号通知的长期预测参数控制的长期预测谐波或后置滤波,其中所述基于变换的音频解码器被配置为根据所述显式发信号通知的长期预测参数来导出关于所述频谱的形状的信息。
16.一种编码器(10),被配置为对音频信号(18)的频谱(12)的频谱系数(14)进行编码,所述编码器被配置为通过以上下文自适应的方式根据先前编码的频谱系数(o)进行熵编码、并且根据关于所述频谱的形状的信息对所述先前编码的频谱系数与当前编码的频谱系数之间的相对频谱距离(28)进行调整,来对所述当前要编码的频谱系数(x)进行编码。
17.一种用于对音频信号(18)的频谱(12)的频谱系数(14)进行解码的方法,所述方法包括:通过以上下文自适应的方式根据先前解码的频谱系数(o)进行熵解码、并且根据关于所述频谱的形状的信息对所述先前解码的频谱系数(o)与当前要解码的频谱系数(x)之间的相对频谱距离(28)进行调整,来对所述当前要解码的频谱系数(x)进行解码。
18.一种用于对音频信号(18)的频谱(12)的频谱系数(14)进行编码的方法,所述方法包括:通过以上下文自适应的方式根据先前编码的频谱系数(o)进行熵编码、并且根据关于所述频谱的形状的信息对所述先前编码的频谱系数与当前编码的频谱系数之间的相对频谱距离(28)进行调整,来对所述当前要编码的频谱系数(x)进行编码。
19.一种具有程序代码的计算机程序,所述程序代码用于当在计算机上运行时执行根据权利要求16或17所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010009068.1A CN111009249B (zh) | 2013-10-18 | 2014-10-17 | 编码器/解码器、编码/解码方法和非瞬时性存储介质 |
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP13189391 | 2013-10-18 | ||
EP13189391.9 | 2013-10-18 | ||
EP14178806 | 2014-07-28 | ||
EP14178806.7 | 2014-07-28 | ||
PCT/EP2014/072290 WO2015055800A1 (en) | 2013-10-18 | 2014-10-17 | Coding of spectral coefficients of a spectrum of an audio signal |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010009068.1A Division CN111009249B (zh) | 2013-10-18 | 2014-10-17 | 编码器/解码器、编码/解码方法和非瞬时性存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105723452A true CN105723452A (zh) | 2016-06-29 |
CN105723452B CN105723452B (zh) | 2020-01-31 |
Family
ID=51844681
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010009068.1A Active CN111009249B (zh) | 2013-10-18 | 2014-10-17 | 编码器/解码器、编码/解码方法和非瞬时性存储介质 |
CN201480056910.XA Active CN105723452B (zh) | 2013-10-18 | 2014-10-17 | 音频信号的频谱的频谱系数的解码方法及解码器 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010009068.1A Active CN111009249B (zh) | 2013-10-18 | 2014-10-17 | 编码器/解码器、编码/解码方法和非瞬时性存储介质 |
Country Status (17)
Country | Link |
---|---|
US (3) | US9892735B2 (zh) |
EP (1) | EP3058566B1 (zh) |
JP (3) | JP6385433B2 (zh) |
KR (1) | KR101831289B1 (zh) |
CN (2) | CN111009249B (zh) |
AU (1) | AU2014336097B2 (zh) |
BR (1) | BR112016008117B1 (zh) |
CA (1) | CA2925734C (zh) |
ES (1) | ES2660392T3 (zh) |
MX (1) | MX357135B (zh) |
MY (1) | MY181965A (zh) |
PL (1) | PL3058566T3 (zh) |
PT (1) | PT3058566T (zh) |
RU (1) | RU2638734C2 (zh) |
SG (1) | SG11201603046RA (zh) |
TW (1) | TWI578308B (zh) |
WO (1) | WO2015055800A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110544472A (zh) * | 2019-09-29 | 2019-12-06 | 上海依图信息技术有限公司 | 提升使用cnn网络结构的语音任务的性能的方法 |
CN114245919A (zh) * | 2019-04-11 | 2022-03-25 | 弗劳恩霍夫应用研究促进协会 | 音频解码器、用于确定定义滤波器的特征的值的集合的装置、用于提供解码音频表示的方法、用于确定定义滤波器的特征的值的集合的方法、以及计算机程序 |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9313359B1 (en) | 2011-04-26 | 2016-04-12 | Gracenote, Inc. | Media content identification on mobile devices |
EP3573056B1 (en) | 2008-07-11 | 2022-08-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder and audio decoder |
US20130110522A1 (en) * | 2011-10-21 | 2013-05-02 | Samsung Electronics Co., Ltd. | Energy lossless-encoding method and apparatus, audio encoding method and apparatus, energy lossless-decoding method and apparatus, and audio decoding method and apparatus |
US20190373312A1 (en) | 2012-02-21 | 2019-12-05 | Gracenote, Inc. | Media Content Identification on Mobile Devices |
KR101831289B1 (ko) * | 2013-10-18 | 2018-02-22 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베. | 오디오 신호의 스펙트럼의 스펙트럼 계수들의 코딩 |
EP3139381B1 (en) | 2014-05-01 | 2019-04-24 | Nippon Telegraph and Telephone Corporation | Periodic-combined-envelope-sequence generation device, periodic-combined-envelope-sequence generation method, periodic-combined-envelope-sequence generation program and recording medium |
DE102016200637B3 (de) * | 2016-01-19 | 2017-04-27 | Sivantos Pte. Ltd. | Verfahren zur Reduktion der Latenzzeit einer Filterbank zur Filterung eines Audiosignals sowie Verfahren zum latenzarmen Betrieb eines Hörsystems |
JP2018113414A (ja) * | 2017-01-13 | 2018-07-19 | 新光電気工業株式会社 | 半導体装置とその製造方法 |
EP3483886A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Selecting pitch lag |
EP3483882A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Controlling bandwidth in encoders and/or decoders |
EP3483884A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Signal filtering |
EP3483880A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Temporal noise shaping |
EP3483878A1 (en) * | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder supporting a set of different loss concealment tools |
EP3483883A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio coding and decoding with selective postfiltering |
EP3483879A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Analysis/synthesis windowing function for modulated lapped transformation |
WO2019091576A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits |
US11227614B2 (en) * | 2020-06-11 | 2022-01-18 | Silicon Laboratories Inc. | End node spectrogram compression for machine learning speech recognition |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101223573A (zh) * | 2005-07-15 | 2008-07-16 | 微软公司 | 在自适应编码和解码中选择性地使用多个熵模型 |
CN101484938A (zh) * | 2006-06-14 | 2009-07-15 | 西门子测听技术有限责任公司 | 信号分离器、基于麦克风信号确定输出信号的方法及计算机程序 |
CN102177543A (zh) * | 2008-10-08 | 2011-09-07 | 弗朗霍夫应用科学研究促进协会 | 音频解码器、音频编码器、用于解码音频信号的方法、用于编码音频信号的方法、计算机程序及音频信号 |
CN102648494A (zh) * | 2009-10-08 | 2012-08-22 | 弗兰霍菲尔运输应用研究公司 | 多模式音频信号解码器、多模式音频信号编码器、使用基于线性预测编码的噪声塑形的方法与计算机程序 |
CN102884572A (zh) * | 2010-03-10 | 2013-01-16 | 弗兰霍菲尔运输应用研究公司 | 音频信号解码器、音频信号编码器、用以将音频信号解码的方法、用以将音频信号编码的方法、及使用编码上下文的音高相依适应技术的计算机程序 |
CN103329199A (zh) * | 2011-01-25 | 2013-09-25 | 日本电信电话株式会社 | 编码方法、编码装置、周期性特征量决定方法、周期性特征量决定装置、程序、记录介质 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5583500A (en) | 1993-02-10 | 1996-12-10 | Ricoh Corporation | Method and apparatus for parallel encoding and decoding of data |
IT1281001B1 (it) * | 1995-10-27 | 1998-02-11 | Cselt Centro Studi Lab Telecom | Procedimento e apparecchiatura per codificare, manipolare e decodificare segnali audio. |
US7110941B2 (en) * | 2002-03-28 | 2006-09-19 | Microsoft Corporation | System and method for embedded audio coding with implicit auditory masking |
EP1734511B1 (en) * | 2002-09-04 | 2009-11-18 | Microsoft Corporation | Entropy coding by adapting coding between level and run-length/level modes |
JP4736699B2 (ja) * | 2005-10-13 | 2011-07-27 | 株式会社ケンウッド | 音声信号圧縮装置、音声信号復元装置、音声信号圧縮方法、音声信号復元方法及びプログラム |
US8527265B2 (en) * | 2007-10-22 | 2013-09-03 | Qualcomm Incorporated | Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs |
CN100578619C (zh) * | 2007-11-05 | 2010-01-06 | 华为技术有限公司 | 编码方法和编码器 |
RU2455709C2 (ru) | 2008-03-03 | 2012-07-10 | ЭлДжи ЭЛЕКТРОНИКС ИНК. | Способ и устройство для обработки аудиосигнала |
MY154452A (en) | 2008-07-11 | 2015-06-15 | Fraunhofer Ges Forschung | An apparatus and a method for decoding an encoded audio signal |
RU2464649C1 (ru) | 2011-06-01 | 2012-10-20 | Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." | Способ обработки звукового сигнала |
WO2014001182A1 (en) * | 2012-06-28 | 2014-01-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Linear prediction based audio coding using improved probability distribution estimation |
KR101831289B1 (ko) * | 2013-10-18 | 2018-02-22 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베. | 오디오 신호의 스펙트럼의 스펙트럼 계수들의 코딩 |
-
2014
- 2014-10-17 KR KR1020167010037A patent/KR101831289B1/ko active IP Right Grant
- 2014-10-17 SG SG11201603046RA patent/SG11201603046RA/en unknown
- 2014-10-17 CN CN202010009068.1A patent/CN111009249B/zh active Active
- 2014-10-17 JP JP2016524486A patent/JP6385433B2/ja active Active
- 2014-10-17 MY MYPI2016000657A patent/MY181965A/en unknown
- 2014-10-17 RU RU2016118776A patent/RU2638734C2/ru active
- 2014-10-17 TW TW103136011A patent/TWI578308B/zh active
- 2014-10-17 BR BR112016008117-0A patent/BR112016008117B1/pt active IP Right Grant
- 2014-10-17 EP EP14792420.3A patent/EP3058566B1/en active Active
- 2014-10-17 CN CN201480056910.XA patent/CN105723452B/zh active Active
- 2014-10-17 CA CA2925734A patent/CA2925734C/en active Active
- 2014-10-17 PL PL14792420T patent/PL3058566T3/pl unknown
- 2014-10-17 WO PCT/EP2014/072290 patent/WO2015055800A1/en active Application Filing
- 2014-10-17 MX MX2016004806A patent/MX357135B/es active IP Right Grant
- 2014-10-17 ES ES14792420.3T patent/ES2660392T3/es active Active
- 2014-10-17 PT PT147924203T patent/PT3058566T/pt unknown
- 2014-10-17 AU AU2014336097A patent/AU2014336097B2/en active Active
-
2016
- 2016-04-15 US US15/130,589 patent/US9892735B2/en active Active
-
2018
- 2018-01-02 US US15/860,311 patent/US10115401B2/en active Active
- 2018-08-07 JP JP2018148125A patent/JP6748160B2/ja active Active
- 2018-10-10 US US16/156,641 patent/US10847166B2/en active Active
-
2020
- 2020-08-06 JP JP2020133541A patent/JP7218329B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101223573A (zh) * | 2005-07-15 | 2008-07-16 | 微软公司 | 在自适应编码和解码中选择性地使用多个熵模型 |
CN101484938A (zh) * | 2006-06-14 | 2009-07-15 | 西门子测听技术有限责任公司 | 信号分离器、基于麦克风信号确定输出信号的方法及计算机程序 |
CN102177543A (zh) * | 2008-10-08 | 2011-09-07 | 弗朗霍夫应用科学研究促进协会 | 音频解码器、音频编码器、用于解码音频信号的方法、用于编码音频信号的方法、计算机程序及音频信号 |
CN102648494A (zh) * | 2009-10-08 | 2012-08-22 | 弗兰霍菲尔运输应用研究公司 | 多模式音频信号解码器、多模式音频信号编码器、使用基于线性预测编码的噪声塑形的方法与计算机程序 |
CN102884572A (zh) * | 2010-03-10 | 2013-01-16 | 弗兰霍菲尔运输应用研究公司 | 音频信号解码器、音频信号编码器、用以将音频信号解码的方法、用以将音频信号编码的方法、及使用编码上下文的音高相依适应技术的计算机程序 |
CN103329199A (zh) * | 2011-01-25 | 2013-09-25 | 日本电信电话株式会社 | 编码方法、编码装置、周期性特征量决定方法、周期性特征量决定装置、程序、记录介质 |
Non-Patent Citations (3)
Title |
---|
GULLAUME FUCHS ET AL: ""Efficient context adaptive entropy coding for real - time application"", 《2011 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS,SPEECH AND SIGNAL PROCESSING CONFERENCE PROCEEDINGS》 * |
JUIN-HWEY CHEN ET AL: ""Transform predictive coding of wideband speech signals"", 《1996 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS,SPEECH AND SIGNAL PROCESSING CONFERENCE PROCEEDINGS》 * |
NEUENDORF MAX ET AL: ""MPEG Unified Speech and Audio Coding - The ISO/MPEG Standard for high -efficiency Audio Coding of All Content Types"", 《AUDIO ENGINEERING SOCIETY CONVENTION 132》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114245919A (zh) * | 2019-04-11 | 2022-03-25 | 弗劳恩霍夫应用研究促进协会 | 音频解码器、用于确定定义滤波器的特征的值的集合的装置、用于提供解码音频表示的方法、用于确定定义滤波器的特征的值的集合的方法、以及计算机程序 |
CN110544472A (zh) * | 2019-09-29 | 2019-12-06 | 上海依图信息技术有限公司 | 提升使用cnn网络结构的语音任务的性能的方法 |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105723452A (zh) | 音频信号的频谱的频谱系数的编码 | |
JP5707410B2 (ja) | 前に復号されたスペクトル値のグループの検出を使用した、オーディオ符号器、オーディオ復号器、オーディオ情報を符号化するための方法、オーディオ情報を復号するための方法、および、コンピュータプログラム | |
TWI557725B (zh) | 頻譜包絡線之取樣值之依鄰近關係熵編碼技術 | |
EP3268960B1 (en) | Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal | |
CN111627451A (zh) | 用于获取音频信号的替换帧的频谱系数的方法及相关产品 | |
JP6526091B2 (ja) | 低複雑度の調性適応音声信号量子化 | |
CN103620674A (zh) | 用于对音频信号的时间段进行编码和解码的变换音频编解码器和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |