CN111357050A - 使用尺度参数的降采样或内插对音频信号进行编码及解码的装置及方法 - Google Patents
使用尺度参数的降采样或内插对音频信号进行编码及解码的装置及方法 Download PDFInfo
- Publication number
- CN111357050A CN111357050A CN201880072933.8A CN201880072933A CN111357050A CN 111357050 A CN111357050 A CN 111357050A CN 201880072933 A CN201880072933 A CN 201880072933A CN 111357050 A CN111357050 A CN 111357050A
- Authority
- CN
- China
- Prior art keywords
- scale
- spectral
- scale parameters
- parameters
- representation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 44
- 238000000034 method Methods 0.000 title claims description 64
- 238000005070 sampling Methods 0.000 title claims description 19
- 230000003595 spectral effect Effects 0.000 claims abstract description 155
- 238000012545 processing Methods 0.000 claims abstract description 32
- 238000013139 quantization Methods 0.000 claims description 49
- 238000001228 spectrum Methods 0.000 claims description 38
- 238000007493 shaping process Methods 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 26
- 238000009499 grossing Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 230000002123 temporal effect Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 238000013213 extrapolation Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 claims description 2
- 230000001419 dependent effect Effects 0.000 claims description 2
- 230000001131 transforming effect Effects 0.000 claims description 2
- 238000012935 Averaging Methods 0.000 claims 3
- 230000001174 ascending effect Effects 0.000 claims 3
- 230000006870 function Effects 0.000 description 16
- 238000001914 filtration Methods 0.000 description 11
- 230000000694 effects Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 4
- 230000001934 delay Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000009792 diffusion process Methods 0.000 description 3
- 230000000873 masking effect Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000003321 amplification Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/002—Dynamic bit allocation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
- G10L19/0208—Subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/038—Vector quantisation, e.g. TwinVQ audio
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
一种用于对音频信号进行编码的装置,包括:转换器,用于将音频信号转换为谱表示;尺度参数计算器,用于依据音频信号计算第一组尺度参数;降采样器,用于对第一组尺度参数进行降采样以获得第二组尺度参数,其中第二组尺度参数中的尺度参数的第二数目低于第一组尺度参数中的尺度参数的第一数目;尺度参数编码器,用于产生第二组尺度参数的编码表示;谱处理器,用于使用第三组尺度参数处理音频信号,第三组尺度参数具有大于尺度参数的第二数目的第三数目的尺度参数,其中谱处理器被配置为使用第一组尺度参数,或被配置为使用内插操作从第二组尺度参数或从第二组尺度参数的编码表示得出第三组尺度参数;以及输出接口,用于产生编码输出信号,编码输出信号包括关于谱表示的编码表示的信息以及关于第二组尺度参数的编码表示的信息。
Description
技术领域
本发明涉及音频处理,且特别来讲,涉及使用用于谱带的尺度参数在谱域中操作的音频处理。
背景技术
现有技术1:高级音频编码(AAC)
在最广泛使用的目前先进技术的感知音频编解码器之一中,即在高级音频编码(AAC)[1-2]中,借助于所谓的尺度因子执行频谱噪声整形。
在此方法中,MDCT谱被划分成多个非均匀尺度因子频带。举例而言,在48kHz处,MDCT具有1024个系数,且MDCT被划分成49个尺度因子频带。在每一频带中,使用尺度因子来缩放所述频带的MDCT系数。随后,采用具有恒定步长的标量量化器,对缩放后的MDCT系数进行量化。在解码器侧,在每一频带中执行逆缩放,对由标量量化器引入的量化噪声进行整形。
49个尺度因子作为侧信息被编码至位流中。由于相对较高的尺度因子数目及所需的高精度,因此通常需要相当大量的位用于对尺度因子进行编码。这在低比特率及/或低延迟下可能成为问题。
现有技术2:基于MDCT的TCX
在基于MDCT的TCX(即,在MPEG-D USAC[3]及3GPP EVS[4]标准中使用的基于变换的音频编解码器)中,借助于基于LPC的感知滤波器执行频谱噪声整形,所述感知滤波器与最近的基于ACELP的语音编解码器(例如,AMR-WB)中所使用的感知滤波器相同。
在此方法中,首先依据预加重的输入信号,估计一组16个LPC。随后,对LPC进行加权及量化。随后,在64个均匀隔开的频带中,计算加权及量化后的LPC的频率响应。随后,使用所计算的频率响应,在每一频带中对MDCT系数进行缩放。随后,使用具有由全局增益控制的步长的标量量化器,对缩放后的MDCT系数进行量化。在解码器处,在每64个频带中执行逆缩放,对由标量量化器引入的量化噪声进行整形。
与AAC方法相比,此方法具有明显优势:其仅需要对16个(LPC)+作为侧信息的1个(全局增益)参数(与AAC中的49个参数相比)进行编码。此外,可通过采用LSF表示及向量量化器,利用少量位有效地对16个LPC进行编码。因此,与现有技术1的方法相比,现有技术2的方法需要更少的侧信息位,这可在低比特率及/或低延迟下产生显著差异。
然而,此方法也具有一些缺陷。第一缺陷是噪声整形的频率缩放被限制为线性(即,使用均匀隔开的频带),这是因为LPC是在时域中估计的。这是不利的,因为人耳在低频中比在高频中更敏感。第二缺点是,此方法所需的高复杂性。LPC估计(自相关,莱文逊-德宾(Levinson-Durbin))、LPC量化(LPC<->LSF转换、向量量化)及LPC频率响应计算全部为高耗费的操作。第三缺陷是,此方法不是很灵活,这是因为基于LPC的感知滤波器不能被轻易修改,且这阻止了关键音频项可能需要的一些特定调谐。
现有技术3:改良的基于MDCT的TCX
一些最近的工作已经解决了现有技术2的第一缺陷及部分第二缺陷。其公开于US9595262B2、EP2676266B1中。在此新方法中,自相关(用于估计LPC)不再在时域中执行,而改为使用MDCT系数能量的逆变换在MDCT域中计算。这允许通过简单地将MDCT系数分组为64个非均匀频带且计算每一频带的能量,来使用非均匀频率缩放。这也降低了计算自相关所需的复杂性。
然而,即使使用所述新方法,所述第二缺陷及第三缺陷中的大多数仍然存在。
发明内容
本发明的目的是提供用于处理音频信号的改良概念。
所述目的通过如权利要求1所述的用于对音频信号进行编码的装置、如权利要求24所述的用于对音频信号进行编码的方法、如权利要求25所述的对编码音频信号进行解码的装置、如权利要求40所述的对编码音频信号进行解码的方法、或如权利要求41所述的计算机程序来实现。
一种用于对音频信号进行编码的装置包括用于将所述音频信号转换为谱表示的转换器。此外,提供了用于依据所述谱表示计算第一组尺度参数的尺度参数计算器。另外,为了保持比特率尽可能低,对所述第一组尺度参数进行降采样,以获得第二组尺度参数,其中所述第二组尺度参数中的尺度参数的第二数目低于所述第一组尺度参数中的尺度参数的第一数目。此外,除了用于使用第三组尺度参数处理所述谱表示的谱处理器之外,还提供了用于产生所述第二组尺度参数的编码表示的尺度参数编码器,所述第三组尺度参数具有第三数目的尺度参数,所述第三数目大于尺度参数的所述第二数目。特别地,所述谱处理器被配置为使用所述第一组尺度参数,或使用内插操作从所述第二组尺度参数或从所述第二组尺度参数的所述编码表示得出所述第三组尺度参数,以获得所述音频信号的编码表示。此外,提供输出接口以用于产生编码输出信号,所述编码输出信号包括关于所述音频信号的所述编码表示的信息,以及包括关于所述第二组尺度参数的所述编码表示的信息。
本发明是基于以下发现:可通过在编码器侧用较高数目的尺度因子进行缩放、且通过在编码器侧将尺度参数降采样为第二组尺度参数或尺度因子来获得无实质性质量损失的低比特率,其中第二组中随后将被编码且经由输出接口传输或存储的尺度参数少于尺度参数的所述第一数目。因此,在编码器侧一方面获得精细缩放,且另一方面获得低比特率。
在解码器侧,通过尺度因子解码器对所传输的小数目尺度因子进行解码以获得第一组尺度因子,其中所述第一组中的尺度因子或尺度参数的数目大于所述第二组中的尺度因子或尺度参数的数目,且由此,再次,在谱处理器内在解码器侧执行使用较高数目的尺度参数的精细缩放,以获得精细缩放后的谱表示。
因此,一方面获得低比特率,而且尽管如此,另一方面还获得音频信号频谱的高质量谱处理。
如在优选实施例中进行的频谱噪声整形是仅使用非常低的比特率来实施的。因此,即使在低比特率的基于变换的音频编解码器中,所述频谱噪声整形也可为必需工具。频谱噪声整形在频域中对量化噪声进行整形,使得量化噪声最小程度地被人耳感知,且因此,可最大化解码输出信号的感知质量。
优选实施例依赖于从振幅相关量度(诸如谱表示的能量)计算的谱参数。特别地,逐频带能量、或者一般而言的逐频带的振幅相关量度被计算作为尺度参数的基础,其中在计算逐频带的振幅相关量度中使用的带宽是从较低频带向较高频带增大,以便尽可能地接近人类听觉的特征。优选地,根据众所周知的巴克(Bark)尺度将谱表示划分为频带。
在其他实施例中,计算线性域尺度参数,且特别地针对具有大数目的尺度参数的第一组尺度参数计算线性域尺度参数,且将所述大数目的尺度参数转换至类对数域(log-like domain)中。类对数域一般而言是其中小值被扩展而高值被压缩的域。随后,在类对数域中进行尺度参数的降采样或抽取操作,所述类对数域可以是以10为底的对数域或以2为底的对数域,其中后者对于实施目的是优选的。随后,在类对数域中计算第二组尺度因子,且优选地,执行第二组尺度因子的向量量化,其中尺度因子是在类对数域中。因此,向量量化的结果指示类对数域尺度参数。第二组尺度因子或尺度参数所具有的尺度因子的数目例如是第一组中的尺度因子的数目的一半,或甚至是三分之一,或甚至更优选为四分之一。随后,第二组尺度参数中的量化后的小数目的尺度因子被带入位流中,且随后,被从编码器侧传输至解码器侧,或作为编码音频信号与也已使用这些参数处理后的量化谱一起存储,其中所述处理额外涉及使用全局增益的量化。然而,优选地,编码器从这些量化的类对数域得出再次成为一组线性域尺度因子的第二尺度因子,这是第三组尺度因子,且所述第三组尺度因子中的尺度因子的数目大于第二数目,且优选甚至等于第一组的第一尺度因子中的尺度因子的第一数目。随后,在编码器侧,这些内插后的尺度因子被用于处理谱表示,其中处理后的谱表示最终被量化,且以任何方式进行熵编码,诸如通过霍夫曼编码(Huffman-encoding)、算术编码或基于向量量化的编码等。
在接收具有低数目的频谱参数的编码信号以及谱表示的编码表示的解码器中,将低数目的尺度参数内插为高数目的尺度参数,即,获得第一组尺度参数,其中第二组尺度因子或尺度参数中的尺度参数或尺度因子的数目小于第一组中的尺度参数的数目,所述第一组是由尺度因子/参数解码器计算的组。随后,位于用于对编码音频信号进行解码的装置内的谱处理器使用所述第一组尺度参数处理解码谱表示,以获得缩放谱表示。随后,用于转换缩放谱表示的转换器进行操作,以最终获得优选在时域中的解码音频信号。
其他实施例导致下文阐述的额外优点。在优选实施例中,借助于与现有技术1中使用的尺度因子类似的16个尺度参数,来执行频谱噪声整形。这些参数是通过以下操作而在编码器中获得的:首先计算64个非均匀频带(类似于现有技术3的64个非均匀频带)中的MDCT谱的能量,随后对64个能量应用一些处理(平滑、预加重、噪声基底(noise-floor)、对数转换),随后按照因子4对64个处理后的能量进行降采样,以获得最终被标准化及缩放的16个参数。随后,使用向量量化(使用与现有技术2/3中使用的类似向量量化)对这16个参数进行量化。随后,对量化后的参数进行内插,以获得64个内插的尺度参数。随后,使用这64个尺度因子直接在64个非均匀频带中对MDCT频谱进行整形。类似于现有技术2及3,随后,使用具有由全局增益控制的步长的标量量化器,对缩放后的MDCT系数进行量化。在解码器处,在每64个频带中执行逆缩放,从而对由标量量化器引入的量化噪声进行整形。
如在现有技术2/3中,优选实施例仅使用16+1个参数作为侧信息,且所述参数可使用向量量化以低数目的位来有效地编码。因此,优选实施例具有与现有技术2/3相同的优点:它所需要的侧信息位比现有技术1的方法少,这可在低比特率及/或低延迟下产生显著差异。
如在现有技术3中,优选实施例使用非线性频率缩放,且因此不具有现有技术2的第一缺陷。
与现有技术2/3不同,优选实施例不使用任何具有高复杂性的LPC相关功能。所需的处理功能(平滑、预加重、噪声基底、对数转换、标准化、缩放、内插)相比之下需要非常小的复杂性。仅向量量化仍然具有相对高的复杂性。但可使用性能损失小的一些低复杂性向量量化技术(多错层/多级方法)。因此,优选实施例不具有现有技术2/3关于复杂性的第二缺陷。
与现有技术2/3不同,优选实施例不依赖于基于LPC的感知滤波器。其使用可很自由地计算的16个尺度参数。优选实施例比现有技术2/3更灵活,且因此不具有现有技术2/3的第三缺陷。
总之,优选实施例具有现有技术2/3的所有优点,而无任何缺陷。
附图说明
随后参考附图更详细地描述本发明的优选实施例,其中:
图1是用于对音频信号进行编码的装置的方块图;
图2是图1的尺度因子计算器的优选实施方式的示意性表示;
图3是图1的降采样器的优选实施方式的示意性表示;
图4是图4的尺度因子编码器的示意性表示;
图5是图1的谱处理器的示意性说明;
图6一方面示出编码器的一般表示,另一方面示出实施频谱噪声整形(SNS)的解码器的一般表示;
图7一方面示出编码器侧的更详细表示,另一方面示出解码器侧的更详细表示,其中时间噪声整形(TNS)与频谱噪声整形(SNS)一起实施;
图8示出用于对编码音频信号进行解码的装置的方块图;
图9示出对图8的尺度因子解码器、谱处理器及谱解码器的细节进行图示的示意性图示;
图10示出将频谱细分为64个频带;
图11一方面示出降采样操作的示意性图示,另一方面示出内插操作的示意性图示;
图12a示出具有重叠帧的时域音频信号;
图12b示出图1的转换器的实施方式;及
图12c示出图8的转换器的示意性图示。
具体实施方式
图1示出用于对音频信号160进行编码的装置。音频信号160优选在时域中可用,不过诸如预测域或任何其他域的音频信号的其他表示原理上也是有用的。所述装置包括转换器100、尺度因子计算器110、谱处理器120、降采样器130、尺度因子编码器140及输出接口150。转换器100被配置用于将音频信号160转换为谱表示。尺度因子计算器110被配置用于依据谱表示计算第一组尺度参数或尺度因子。
在整个说明书中,使用术语“尺度因子”或“尺度参数”以指代相同的参数或值,即,在某一处理之后用于对某种谱值进行加权的值或参数。当所述加权在线性域中执行时,所述加权实际上是利用尺度因子进行的乘法运算。然而,当所述加权在对数域中执行时,则利用尺度因子进行的加权运算是通过实际的加法或减法运算来进行的。因此,在本申请案的术语中,缩放(scaling)不仅意味着乘法或除法,也取决于特定域而意味着加法或减法,或一般而言,意味着用以使用尺度因子或尺度参数对谱值例如加权或修改的每种操作。
降采样器130被配置用于对第一组尺度参数进行降采样以获得第二组尺度参数,其中所述第二组尺度参数中的尺度参数的第二数目低于所述第一组尺度参数中的尺度参数的第一数目。这也在图1中的方框中概述,其阐述第二数目低于第一数目。如图1中所说明,尺度因子编码器被配置用于产生第二组尺度因子的编码表示,且此编码表示被转发至输出接口150。由于第二组尺度因子中的尺度因子的数目低于第一组尺度因子中的尺度因子的数目的事实,用于传输或存储第二组尺度因子的编码表示的比特率与以下情形相比较低:在所述情形中,在降采样器130中执行的尺度因子的降采样尚未执行。
此外,谱处理器120被配置用于使用第三组尺度参数处理由图1中的转换器100输出的谱表示,所述第三组尺度参数或尺度因子具有第三数目的尺度因子,所述第三数目大于尺度因子的所述第二数目,其中谱处理器120被配置为出于频谱处理的目的,使用如已经经由线171从块110获得的第一组尺度因子。或者,谱处理器120被配置为使用如由降采样器130输出的第二组尺度因子以用于计算如通过线172所示的第三组尺度因子。在另一实施方式中,谱处理器120使用由尺度因子/参数编码器140输出的编码表示以用于计算第三组尺度因子,如图1中的线173所示。优选地,谱处理器120不使用第一组尺度因子,而使用如由降采样器计算的第二组尺度因子,或甚至更优选地使用编码表示,或一般而言,使用量化的第二组尺度因子,且随后,执行内插操作以对所述量化的第二组谱参数进行内插,从而获得由于所述内插操作而具有更高数目的尺度参数的第三组尺度参数。
因此,由块140输出的第二组尺度因子的编码表示包括用于优选使用的尺度参数码本的码本索引,或包括一组对应的码本索引。在其他实施例中,编码表示包括当码本索引、或码本索引组、或更一般而言的编码表示被输入至解码器侧向量解码器或任何其他解码器时获得的量化尺度参数或量化尺度因子。
优选地,谱处理器120使用在解码器侧也可用的同一组尺度因子,即,使用量化的第二组尺度参数及内插操作以最终获得第三组尺度因子。
在优选实施例中,第三组尺度因子中的尺度因子的第三数目等于尺度因子的所述第一数目。然而,更小数目的尺度因子也是有用的。例示性地,举例而言,可在块110中得出64个尺度因子,且随后,可将64个尺度因子降采样至16个尺度因子以进行传输。从而,可不必对64个尺度因子执行内插,而是在谱处理器120中对32个尺度因子执行内插。或者,只要在编码输出信号170中传输的尺度因子的数目小于在图1的块110中计算的、或在块120中计算及使用的尺度因子的数目,便可执行至甚至更高数目的内插,诸如超过64个尺度因子(视具体情况而定)。
优选地,尺度因子计算器110被配置为执行图2中所示出的若干操作。这些操作是指每一频带的振幅相关量度的计算111。每一频带的优选振幅相关量度为每一频带的能量,但也可使用其他振幅相关量度,例如,每一频带的振幅的量值的总和、或与能量相对应的振幅的平方的总和。然而,除了用于计算每一频带的能量的2的幂之外,也可使用诸如能够反映信号的响度的3的幂的其他幂,甚至也可使用不同于整数的幂(诸如1.5或2.5的幂)以计算每一频带的振幅相关量度。甚至可使用小于1.0的幂,只要确保由这些幂处理的值为正值即可。
由尺度因子计算器执行的另一操作可以是频带间平滑112。所述频带间平滑优选用于平滑除去可能出现在如由步骤111获得的振幅相关量度的向量中的可能不稳定性。若不执行此平滑,则这些不稳定性在稍后如115处所示转换至对数域时将被放大,在能量接近于0的谱值中尤其如此。然而,在其他实施例中,不执行频带间平滑。
由尺度因子计算器110执行的另一优选操作为预加重操作113。所述预加重操作具有与在先前关于现有技术论述的基于MDCT的TCX处理的基于LPC的感知滤波器中使用的预加重操作类似的目的。所述过程增大低频中的整形后频谱的振幅,从而导致低频中的量化噪声减小。
然而,取决于实施方式,不一定必须执行预加重操作(如其他特定操作)。
另一可选的处理操作为噪声基底添加处理114。该过程通过限制谷值中的整形后频谱的振幅放大来改良包含极高频谱动力学(诸如钟琴)的信号的质量,其具有降低峰值中的量化噪声的间接效果,代价为谷值中的量化噪声的增大,其中量化噪声由于诸如绝对听取阈值、预掩蔽、后掩蔽或一般掩蔽阈值等人耳掩蔽特性而无论如何都是不可察觉的,所述人耳掩蔽特性指示通常在频率上相对接近于高音量音调的相当低音量的音调是完全不可察觉的,即完全被掩蔽或仅被人类听觉机构粗略地感知,从而该频谱贡献可被相当粗略地量化。
然而,不一定必须执行噪声基底添加操作114。
此外,块115指示类对数域(log-like domain)转换。优选地,在类对数域中执行图2中的块111、112、113、114之一的输出的变换。类对数域是其中接近于0的值被扩展而高值被压缩的域。优选地,对数域是以2为底的域,但也可使用其他对数域。然而,以2为底的对数域更适合在固定点信号处理器上实施。
尺度因子计算器110的输出是第一组尺度因子。
如图2中所说明,块112至115中的每一个都可被跨过,即,例如,块111的输出可能已经是第一组尺度因子。然而,所有处理操作、且特别是类对数域转换,是优选的。因此,例如,甚至可通过仅执行步骤111和115来实施尺度因子计算器,而无需步骤112至114中的过程。
因此,尺度因子计算器被配置用于执行图2中所示出的过程中的一个、或两个、或更多个,如通过连接若干块的输入/输出线所指示的。
图3示出图1的降采样器130的优选实施方式。优选地,在步骤131中执行低通滤波,或更一般而言,具有特定窗口w(k)的滤波,随后,对滤波结果执行降采样/抽取操作。由于低通滤波131、以及优选实施例中的降采样/抽取操作132两者皆为算术运算的事实,滤波131与降采样132可在单个操作内执行,如稍后将概述的。优选地,以如下方式执行降采样/抽取操作:执行第一组尺度参数中的个别尺度参数群组之间的重叠。优选地,执行两个抽取的所计算参数之间的滤波操作中的一个尺度因子的重叠。因此,步骤131在抽取之前对尺度参数的向量执行低通滤波。所述低通滤波具有与心理声学模型中使用的扩散函数类似的效果。其减少了峰值处的量化噪声,代价为峰值周围的量化噪声的增大,在该峰值周围处,该量化噪声无论如何都相对于峰值处的量化噪声在感知上被掩蔽至较高程度。
此外,降采样器额外执行均值移除133及额外缩放步骤134。然而,低通滤波操作131、均值移除步骤133及缩放步骤134仅为可选步骤。因此,图3中示出的或图1中示出的降采样器可被实施为仅执行步骤132、或执行图3中示出的两个步骤,诸如步骤132以及步骤131、133和134之一。或者,只要执行降采样/抽取操作132,降采样器便可执行图3所示出的四个步骤之中的所有四个步骤或仅三个步骤。
如图3中所概述,由降采样器执行的图3中的音频操作是在类对数域中执行的,以获得更佳的结果。
图4示出尺度因子编码器140的优选实施方式。尺度因子编码器140接收优选类对数域第二组尺度因子,以及执行如块141所示出的向量量化以最终每帧输出一个或多个索引。每帧的这些一个或多个索引可被转发至输出接口且写入至位流中,即借助于任何可用的输出接口过程引入至输出的编码音频信号170中。优选地,向量量化器141额外地输出量化的类对数域第二组尺度因子。因此,所述数据可由块141直接输出,如箭头144所指示。然而,替代地,解码器码本142也可在编码器中单独使用。所述解码器码本每帧接收一个或多个索引,且从每帧的这些一个或多个索引得出量化的优选类对数域第二组尺度因子,如线145所指示。在典型实施方式中,解码器码本142将被整合在向量量化器141内。优选地,向量量化器141是如例如在任何所指示的现有技术过程中使用的多级(multi-stage)或错层(split-level)、或组合的多级/错层向量量化器。
因此,确保了第二组尺度因子是在解码器侧,即在仅接收如由块141经由线146输出的具有每帧一个或多个索引的编码音频信号的解码器中也可获得的相同的量化的第二组尺度因子。
图5示出谱处理器的优选实施方式。包括在图1的编码器内的谱处理器120包括内插器121,该内插器121接收量化的第二组尺度参数以及输出第三组尺度参数,其中第三数目大于第二数目且优选等于第一数目。此外,谱处理器包括线性域转换器120。随后,在块123中一方面使用线性尺度参数、以及另一方面使用由转换器100获得的谱表示,来执行谱整形。优选地,执行后续时间噪声整形操作,即,频率上的预测,以便在块124的输出处获得谱残余值,同时如箭头129所指示将TNS侧信息转发至输出接口。
最终,谱处理器125具有标量量化器/编码器,所述标量量化器/编码器被配置用于接收用于整个谱表示、即用于整个框架的单个全局增益。优选地,依据某些比特率考虑因素,得出全局增益。因此,全局增益被设置为使得由块125产生的谱表示的编码表示满足特定要求,诸如比特率要求、质量要求或两者。可迭代地计算全局增益,或可在前馈测量中计算全局增益,视情况而定。通常,全局增益与量化器一起使用,且高全局增益通常导致更粗略的量化,而低全局增益导致更精细的量化。因此,换言之,当获得固定量化器时,高全局增益导致较高的量化步长,而低全局增益导致较小的量化步长。然而,其他量化器也可与全局增益功能一起使用,诸如具有用于高值的某种压缩功能(即,某种非线性压缩功能)的量化器,以使得例如较高的值比较低的值被压缩得更多。当与对数域中的加法对应地,全局增益在线性域中的量化之前乘以所述值时,全局增益与量化粗糙度之间的上述相依性是有效的。然而,若全局增益是通过线性域中的除法应用的,或是通过对数域中的减法应用的,则相依性相反。当“全局增益”表示逆值时,情况同样如此。
随后,给出关于图1至图5描述的个别过程的优选实施方式。
优选实施例的详细逐步骤描述
编码器:
·步骤1:每一频带的能量(111)
每一频带的能量EB(n)计算如下:
其中X(k)是MDCT系数,NB=64是频带的数目,且Ind(n)是频带索引。频带是非均匀的,且遵循感知相关的巴克尺度(低频更小,高频更大)。
·步骤2:平滑(112)
使用下式对每一频带的能量EB(b)进行平滑
备注:此步骤主要用于对可能出现在向量EB(b)中的可能不稳定度进行平滑。若不对其进行平滑,则这些不稳定性在转换至对数域(见步骤5)时会被放大,在能量接近于0的谷值中尤其如此。
·步骤3:预加重(113)
随后,使用下式对平滑后的每一频带的能量ES(b)进行预加重
其中gtilt控制预加重倾斜且取决于采样频率。其例如在16kHz下为18,在48kHz下为30。在此步骤中使用的预加重与在现有技术2的基于LPC的感知滤波器中使用的预加重具有相同目的,其增加了低频中的整形后的频谱的振幅,从而减少了低频中的量化噪声。
·步骤4:设噪声基底(114)
使用下式将-40dB下的噪声基底添加至EP(b)
EP(b)=max(EP(b),noiseFloor)对于b=0..63
其中噪声基底的计算方法为
(noiseFloor表示噪声基底)
此步骤通过限制谷值中的整形后频谱的振幅放大来改良含极高频谱动力学(诸如钟琴)的信号的质量,其具有降低峰值中的量化噪声的间接效果,代价为谷值中量化噪声的增大,其中量化噪声无论如何都是不可察觉的。
·步骤5:对数(115)
随后,使用下式执行至对数域的变换:
·步骤6:降采样(131、132)
随后,使用下式,按照因子4对向量EL(b)进行降采样
其中
此步骤在抽取前对向量EL(b)应用低通滤波(w(k))。所述低通滤波具有与心理声学模型中使用的扩散函数类似的效果:其减小了峰值处的量化噪声,代价为峰值周围的量化噪声的增大,在该峰值周围处,该量化噪声无论如何都在感知上被掩蔽。
·步骤7:均值移除及缩放(133,134)
最终尺度因子是在均值移除以及按照0.85的因子进行缩放后获得
由于编解码器具有额外全局增益,因此可在不丢失任何信息的情况下移除均值。移除均值也允许更有效的向量量化。0.85的缩放稍微压缩了噪声整形曲线的振幅。其具有与步骤6中提及的扩散函数类似的感知效果:减少峰值处的量化噪声且增大谷值中的量化噪声。
·步骤8:量化(141,142)
使用向量量化对尺度因子进行量化,从而产生随后将被封装至位流中且发送至解码器的索引,并产生量化的尺度因子scfQ(n)。
·步骤9:内插(121,122)
使用下式,对量化的尺度因子scfQ(n)进行内插
scfQint(0)=scfQ(0)
scfQint(1)=scfQ(0)
且使用下式将其变换回至线性域
gsNS(b)=2scfQint(b)对于b=0..63
内插可用于获得平滑的噪声整形曲线,且因此避免了邻近频带之间的任何大振幅跳跃。
·步骤10:频谱整形(123)
SNS尺度因子gSNS(b)分别应用于每一频带的MDCT频率线,以产生整形后频谱Xs(k)
图8示出用于对编码音频信号250进行解码的装置的优选实施方式,所述编码音频信号包括关于编码谱表示的信息及关于第二组尺度参数的编码表示的信息。解码器包括输入接口200、谱解码器210、尺度因子/参数解码器220、谱处理器230及转换器240。输入接口200被配置用于接收编码音频信号250,以及用于提取被转发至谱解码器210的编码谱表示,以及用于提取被转发至尺度因子解码器220的第二组尺度因子的编码表示。此外,谱解码器210被配置用于对编码谱表示进行解码,以获得被转发至谱处理器230的解码谱表示。尺度因子解码器220被配置用于对编码的第二组尺度参数进行解码,以获得转发至谱处理器230的第一组尺度参数。第一组尺度因子中的尺度因子或尺度参数的数目大于第二组中的尺度因子或尺度参数的数目。谱处理器230被配置为使用第一组尺度参数处理解码谱表示,以获得缩放谱表示。随后,缩放谱表示由转换器240转换,以最终获得解码音频信号260。
优选地,尺度因子解码器220被配置为以与已经相对于图1的谱处理器120讨论的且与结合块141或142论述的第三组尺度因子或尺度参数的计算有关的、且特别是相对于图5的块121、122论述的方式基本相同的方式操作。特别地,尺度因子解码器被配置为执行与内插及变换回至线性域的过程基本相同的过程,如之前相对于步骤9所论述的。因此,如图9中所示,尺度因子解码器220被配置用于将解码器码本221应用于表示编码尺度参数表示的每帧的一个或多个索引。随后,在块222中执行内插,所述内插与已经相对于图5中的块121所论述的内插基本相同。随后,使用线性域转换器223,所述线性域转换器223与已经相对于图5论述的线性域转换器122基本相同。然而,在其他实施方式中,块221、222、223可与已经相对于编码器侧的对应块论述的操作不同。
此外,图8中所示出的谱解码器210包括解量化器/解码器块,其接收编码频谱作为输入,且输出解量化频谱,所述解量化频谱优选的是使用以编码形式在编码音频信号内额外从编码器侧传输至解码器侧的全局增益进行解量化。解量化器/解码器210可例如包括算术或霍夫曼解码器功能,其接收某种代码作为输入,且输出表示谱值的量化索引。随后,将这些量化索引与全局增益一起输入至解量化器中,且输出是解量化后的谱值,随后可在TNS解码器处理块211中对所述解量化后的谱值进行TNS处理,诸如频率上的逆预测,然而该TNS处理是可选的。特别地,TNS解码器处理块额外地接收由图5的块124产生的TNS侧信息,如由线129所指示。TNS解码器处理步骤211的输出被输入至频谱整形块212,其中如由尺度因子解码器计算的第一组尺度因子被应用于解码谱表示,所述解码谱表示可以或可以未经过TNS处理,视情况而定,输出是随后将被输入至图8的转换器240中的缩放谱表示。
随后论述解码器的优选实施例的进一步过程。
解码器:
·步骤1:量化(221)
从位流读出在编码器步骤8中产生的向量量化器索引,且将其用于对量化的尺度因子scfQ(n)进行解码。
·步骤2:内插(222,223)
与编码器步骤9相同。
·步骤3:频谱整形(212)
图6及图7示出一般性的编码器/解码器设定,其中图6表示无TNS处理的实施方式,而图7示出包括TNS处理的实施。当指示相同的附图标记时,图6及图7中所示的类似功能对应于其他图中的类似功能。特别地,如图6中所说明,输入信号160输入至变换级110,且随后执行谱处理120。特别地,谱处理是通过由附图标记123、110、130、140指示的SNS编码器反映的,从而指示块SNS编码器实施由这些附图标记指示的功能。在SNS编码器块之后,执行量化编码操作125,且编码信号被输入至位流中,如图6中的180处所示。随后,位流180在解码器侧出现,且在由附图标记210示出的逆量化及解码后,执行由图8的块210、220、230所示出的SNS解码器操作,以使得最后在逆变换240之后,获得解码输出信号260。
图7示出与图6中类似的表示,但其指示,优选地,在编码器侧的SNS处理之后执行TNS处理,且相应地,相对于解码器侧的处理顺序,在SNS处理212的前执行TNS处理211。
优选地,使用在频谱噪声整形(SNS)与量化/编码(如下参见方块图)之间的额外工具TNS。TNS(时间噪声整形)也是对量化噪声进行整形,但是进行时域整形(与SNS的频域整形不同)。TNS对于包含尖锐起音(sharp attacks)的信号及语音信号是有用的。
通常在变换与SNS之间应用TNS(例如在AAC中)。然而,优选地,在整形后频谱上应用TNS。这避免了在以低比特率操作编解码器时由TNS解码器产生的一些伪声。
图10示出将由编码器侧的块100获得的谱系数或谱线细分为频带的优选细分。特别地,其指示出,较低频带具有比较高频带更少数目的谱线。
特别地,图10中的x轴对应于频带索引,且示出64个频带的优选实施例,而y轴对应于示出一帧中的320个谱系数的谱线索引。特别地,图10例示性地示出存在32kHz的采样频率的超宽频带(SWB)情况的情形。
对于宽频带情况,关于个别频带的情形是使得一帧产生160个谱线且采样频率是16kHz,以使得对于两种情况,一帧都具有10毫秒的时间长度。
图11示出关于在图1的降采样器130中执行的优选降采样、或在图8的尺度因子解码器220中执行或如图9的块222中所示出的对应升采样或内插的更多细节。
沿着x轴,给出了用于频带0至63的索引。特别地,存在从0至63的64个频带。
对应于scfQ(i)的16个降采样点被图示为竖直线1100。特别地,图11示出如何对尺度参数执行特定分组以最终获得降采样后的点1100。例示性地,四个频带的第一区块由(0、1、2、3)构成,且所述第一区块的中间点处于由项目1100沿着x轴在索引1.5处指示的1.5处。
对应地,四个频带的第二区块是(4、5、6、7),且第二区块的中间点是5.5。
窗口1110对应于关于先前描述的步骤6降采样所论述的窗口w(k)。可看出,这些窗口以降采样后的点为中心,且如先前所论述,存在一个区块与每一侧的重叠。
图9的内插步骤222从16个降采样后的点恢复出64个频带。这在图11中看出,通过作为在特定线1120周围的1100处指示的两个降采样后的点的函数,来计算任何线1120的位置。以下实例对此情况进行举例说明。
第二频带的位置是作为其周围的两条竖直线(1.5及5.5)的函数来计算的:2=1.5+1/8x(5.5-1.5)。
对应地,第三频带的位置是作为其周围的两条竖直线1100(1.5及5.5)的函数来计算的:3=1.5+3/8x(5.5-1.5)。
对前两个频带及后两个频带执行特定过程。对于这些频带而言,不能执行内插,这是因为不存在竖直线或者与从0至63的范围之外的竖直线1100对应的值。因此,为了解决此问题,如关于步骤9所描述的那样,执行外插:如先前概述的,对一方面的两个频带0、1以及另一方面的两个频带62和63进行内插。
随后,论述一方面的图1的转换器100以及另一方面的图8的转换器240的优选实施方式。
特别地,图12a示出用于指示在转换器100内在编码器侧执行的成帧的时间表。图12b示出编码器侧的图1的转换器100的优选实施方式,且图12c示出解码器侧的转换器240的优选实施方式。
编码器侧的转换器100优选被实施为执行具有重叠帧的成帧,所述重叠帧诸如是50%重叠,以使得帧2与帧1重叠,以及帧3与帧2和帧4重叠。然而,也可执行其他重叠或非重叠处理,但优选与MDCT算法一起执行50%重叠。为此,转换器100包括分析窗口101及随后连接的谱转换器102,用于执行FFT处理、MDCT处理或任何其他种类的时间-频谱转换处理,以获得与在图1中作为送往转换器100之后的各块的输入的谱表示序列对应的帧序列。
对应地,缩放谱表示被输入至图8的转换器240中。特别地,所述转换器包括时间转换器241,其实施逆FFT操作、逆MDCT操作或对应的频谱-时间转换操作。输出被插入至合成窗口242中,且合成窗口242的输出被输入至重叠-相加处理器243中以执行重叠-相加运算,以最终获得解码音频信号。特别地,例如,块243中的重叠-相加处理在例如帧3的后半部分与帧4的前半部分的对应样本之间执行逐样本相加,以获得针对如图12a中的项目1200所指示的帧3与帧4之间的重叠的音频采样值。以逐样本方式执行类似的重叠-相加运算,以获得解码音频输出信号的其余音频采样值。
本发明的编码音频信号可存储于数字存储介质或非暂时性存储介质上,或可在传输介质(诸如无线传输介质或有线传输介质,诸如因特网)上传输。
尽管已在装置的上下文中描述一些方面,但显然,这些方面也表示对应方法的描述,其中块或设备对应于方法步骤或方法步骤的特征。类似地,在方法步骤的上下文中描述的方面也表示对应块或项目或对应装置的特征的描述。
取决于某些实施要求,本发明的实施例可在硬件或软件中实施。可使用其上存储有与可编程计算机协作(或能够协作)的电子可读控制信号以执行各个方法的数字存储介质,例如,软盘、DVD、CD、ROM、PROM、EPROM、EEPROM或闪存,来执行该实施方式。
根据本发明的一些实施例包括具有电子可读控制信号的数据载体,所述控制信号能够与可编程计算机协作,使得执行本文所描述的方法之一。
一般而言,本发明的实施例可实施为具有程序代码的计算机程序产品,当计算机程序产品运行于计算机上时,程序代码操作性地用于执行所述方法之一。程序代码可例如存储于机器可读载体上。
其他实施例包括用于执行本文中描述的方法之一的计算机程序,其存储于机器可读载体或非暂时性存储介质上。
换言之,本发明方法的实施例因此是计算机程序,其具有用于当计算机程序在计算机上运行时执行本文中所描述的方法之一的程序代码。
因此,本发明方法的另一实施例为数据载体(或数字存储介质,或计算机可读介质),其包括记录于其上的用于执行本文中所描述的方法之一的计算机程序。
因此,本发明的方法的另一实施例为表示用于执行本文中所描述的方法之一的计算机程序的数据串流或信号序列。数据流或信号序列可(例如)被配置为经由数据通讯连接(例如,经由因特网)而传送。
另一实施例包括处理装置,例如被配置为或被适配为执行本文中所描述的方法之一的计算机或可编程逻辑器件。
另一实施例包括上面安装有用于执行本文中所描述的方法之一的计算机程序的计算机。
在一些实施例中,可编程逻辑器件(例如,现场可编程门阵列)可用以执行本文中所描述的方法的功能性中的一些或全部。在一些实施例中,现场可编程门阵列可与微处理器协作,以执行本文中所描述的方法之一。通常,所述方法优选由任何硬件装置来执行。
上述实施例仅说明本发明的原理。应理解,对本文中所描述的布置及细节的修改及变化将对本领域其他技术人员显而易见。因此,意图为仅受到所附专利权利要求的范围限制,而不受到通过本文中的实施例的描述及解释所呈现的具体细节限制。
参考文献
[1]ISO/IEC 14496-3:2001;Information technology–Coding of audio-visualobjects–Part 3:Audio.
[2]3GPP TS 26.403;General audio codec audio processing functions;Enhanced aacPlus general audio codec;Encoder specification;Advanced AudioCoding(AAC)part.
[3]ISO/IEC 23003-3;Information technology–MPEG audio technologies–Part 3:Unified speech and audio coding.
[4]3GPP TS 26.445;Codec for Enhanced Voice Services(EVS);Detailedalgorithmic de-scription.
Claims (41)
1.一种用于对音频信号(160)进行编码的装置,包括:
转换器(100),用于将所述音频信号转换为谱表示;
尺度参数计算器(110),用于依据所述谱表示计算第一组尺度参数;
降采样器(130),用于对所述第一组尺度参数进行降采样,以获得第二组尺度参数,其中所述第二组尺度参数中的尺度参数的第二数目低于所述第一组尺度参数中的尺度参数的第一数目;
尺度参数编码器(140),用于产生所述第二组尺度参数的编码表示;
谱处理器(120),用于使用第三组尺度参数处理所述谱表示,所述第三组尺度参数具有第三数目的尺度参数,所述第三数目大于尺度参数的所述第二数目,其中所述谱处理器(120)被配置为使用所述第一组尺度参数,或被配置为使用内插操作从所述第二组尺度参数或从所述第二组尺度参数的所述编码表示得出所述第三组尺度参数;以及
输出接口(150),用于产生编码输出信号(170),所述编码输出信号包括关于所述谱表示的所述编码表示的信息、以及关于所述第二组尺度参数的所述编码表示的信息。
2.如权利要求1所述的装置,
其中所述尺度参数计算器被配置为
针对所述谱表示的多个频带中的每一频带,在线性域中计算振幅相关量度,以获得第一组线性域量度;
将所述第一组线性域量度变换至类对数域中,以获得第一组类对数域量度;以及
其中所述降采样器(130)被配置为在所述类对数域中对所述第一组尺度因子进行降采样,以在所述类对数域中获得所述第二组尺度因子。
3.如权利要求2所述的装置,
其中所述谱处理器(120)被配置为在所述线性域中使用所述第一组尺度参数处理所述谱表示,或者在所述类对数域中对所述第二组尺度参数进行内插以获得内插的类对数域尺度因子,以及将所述类对数域尺度因子变换至线性域中以获得所述第三组尺度参数。
4.如前述权利要求之一所述的装置,
其中所述尺度参数计算器(110)被配置为针对非均匀频带计算所述第一组尺度参数,以及
其中所述降采样器(130)被配置为通过对具有所述第一组中的第一预定义数目的频率邻近尺度参数的第一群组进行组合来对所述第一组尺度参数进行降采样,以获得所述第二组中的第一尺度因子,以及其中所述降采样器被配置为通过将具有所述第一组中的第二预定义数目的频率邻近尺度参数的第二群组进行组合来对所述第一组尺度参数进行降采样,以获得所述第二组中的第二尺度参数,其中所述第二预定义数目等于所述第一预定义数目,且其中所述第二群组具有的成员不同于所述第一预定义组的成员。
5.如权利要求4所述的装置,其中所述第一组中的频率邻近尺度参数的所述第一群组与所述第一组中的频率邻近尺度参数的所述第二群组共同地具有所述第一组中的至少一个尺度参数,以使得所述第一群组与所述第二群组彼此重叠。
6.如前述权利要求之一所述的装置,其中所述降采样器(130)被配置为使用一群组的第一尺度参数之间的平均运算,所述群组具有两个或更多个成员。
7.如权利要求6所述的装置,
其中所述平均运算是加权平均运算,所述加权平均运算被配置为使得所述群组的中间处的尺度参数的权重高于所述群组的边缘处的尺度参数的权重。
8.如前述权利要求之一所述的装置,
其中所述降采样器(130)被配置为执行均值移除(133),以使得所述第二组尺度参数是无均值的。
9.如前述权利要求之一所述的装置,
其中所述降采样器(130)被配置为在类对数域中使用低于1.0且大于0.0的尺度因子执行缩放操作(134)。
10.如前述权利要求之一所述的装置,
其中所述尺度参数编码器(140)被配置为使用向量量化器(141)对所述第二组进行量化和编码,其中所述编码表示包括用于一个或多个向量量化器码本的一个或多个索引(146)。
11.如前述权利要求之一所述的装置,
其中所述尺度因子编码器(140)被配置为提供与所述编码表示(142)相关联的第二组量化的尺度因子,且
其中所述谱处理器(120)被配置为从所述第二组量化的尺度因子(145)得出所述第二组尺度因子。
12.如前述权利要求之一所述的装置,
其中所述谱处理器(120)被配置为确定所述第三组尺度参数,以使得所述第三数目等于所述第一数目。
13.如前述权利要求之一所述的装置,
其中所述谱处理器(120)被配置为基于量化的尺度因子、以及所述量化的尺度因子与关于频率按量化的尺度因子的递升顺序的下一量化的尺度因子之间的差,确定内插的尺度因子(121)。
14.如权利要求13所述的装置,
其中所述谱处理器(120)被配置为依据所述量化的尺度因子以及所述差,确定至少两个内插的尺度因子,其中针对两个内插的尺度因子中的每一个,使用不同加权因子。
15.如权利要求14所述的装置,
其中所述加权因子随着与所述内插的尺度因子相关联的频率的增大而增大。
16.如前述权利要求之一所述的装置,
其中所述谱处理器(120)被配置为在类对数域中执行所述内插操作(121),以及
将内插的尺度因子转换(122)至线性域中,以获得所述第三组尺度参数。
17.如前述权利要求之一所述的装置,
其中所述尺度参数计算器(110)被配置为针对每一频带计算振幅相关量度,以获得一组振幅相关量度(111),以及
对能量相关量度进行平滑(112),以获得一组平滑的振幅相关量度作为所述第一组尺度因子。
18.如前述权利要求之一所述的装置,
其中所述尺度参数计算器被配置为针对每一频带计算振幅相关量度,以获得一组振幅相关量度,以及
对所述一组振幅相关量度执行(113)预加重操作,其中所述预加重操作使得低频振幅相对于高频振幅被加重。
19.如前述权利要求之一所述的装置,
其中所述尺度参数计算器(110)被配置为针对每一频带计算振幅相关量度,以获得一组振幅相关量度,以及
执行噪声基底添加操作(114),其中噪声基底是依据从所述谱表示的两个或更多个频带作为均值得出的振幅相关量度来计算的。
20.如前述权利要求之一所述的装置,其中所述尺度因子计算器(110)被配置为执行一组操作中的至少一种,所述一组操作包括:针对多个频带计算(111)振幅相关量度,执行(112)平滑操作,执行(113)预加重操作,执行(114)噪声基底添加操作,以及执行类对数域转换操作(115)以获得所述第一组尺度参数。
21.如前述权利要求之一所述的装置,
其中所述谱处理器(120)被配置为使用所述第三组尺度因子对所述谱表示中的谱值进行加权(123)以获得加权的谱表示,以及将时间噪声整形(TNS)操作(124)应用于加权的谱表示,以及
其中所述谱处理器(120)被配置为对所述时间噪声整形操作(124)的结果进行量化(125)和编码,以获得所述谱表示的所述编码表示。
22.如前述权利要求之一所述的装置,
其中所述转换器(100)包括用于产生加窗音频样本的区块序列的分析窗口器(101),以及用于将加窗音频样本的所述区块转换为谱表示的序列的时间-谱转换器(102),谱表示是谱框架。
23.如前述权利要求之一所述的装置,
其中所述转换器(100)被配置为应用MDCT(改进离散余弦变换)操作,以从时域样本的区块获得MDCT谱,或者
其中所述尺度因子计算器被配置为针对每一频带计算所述频带的能量,所述计算包括对谱线求平方、将平方的谱线相加、以及将平方的谱线除以所述频带中的线的数目,或者
其中所述谱处理器(120)被配置为对所述谱表示的谱值进行加权(123),或者对根据频带方案从所述谱表示得出的谱值进行加权(123),所述频带方案与由所述尺度因子计算器(110)用于计算所述第一组尺度因子的频带方案相同,或者
其中频带的数目是64,所述第一数目是64,所述第二数目是16,以及第三数目是64,或者
其中所述谱处理器被配置为计算所有频带的全局增益,以及在涉及所述第三数目的尺度因子的缩放(123)之后使用标量量化器对所述谱值进行量化(125),其中所述谱处理器(120)被配置为依据所述全局增益控制所述标量量化器(125)的步长。
24.一种用于对音频信号(160)进行编码的方法,包括:
将所述音频信号转换(100)为谱表示;
依据所述谱表示计算(110)第一组尺度参数;
对所述第一组尺度参数进行降采样(130),以获得第二组尺度参数,其中所述第二组尺度参数中的尺度参数的第二数目低于所述第一组尺度参数中的尺度参数的第一数目;
产生(140)所述第二组尺度参数的编码表示;
使用第三组尺度参数处理(120)所述谱表示,所述第三组尺度参数具有第三数目的尺度参数,所述第三数目大于尺度参数的所述第二数目,其中所述处理(120)使用所述第一组尺度参数,或者使用内插操作从所述第二组尺度参数或从所述第二组尺度参数的所述编码表示得出所述第三组尺度参数;以及
产生(150)编码输出信号(170),所述编码输出信号包括关于所述谱表示的所述编码表示的信息、以及关于所述第二组尺度参数的所述编码表示的信息。
25.一种用于对编码音频信号进行解码的装置,所述编码音频信号包括关于编码谱表示的信息、以及关于第二组尺度参数的编码表示的信息,所述装置包括:
输入接口(200),用于接收所述编码信号,以及提取所述编码谱表示和所述第二组尺度参数的所述编码表示;
谱解码器(210),用于对所述编码谱表示进行解码,以获得解码谱表示;
尺度参数解码器(220),用于对所述编码的第二组尺度参数进行解码,以获得第一组尺度参数,其中所述第二组中的尺度参数的数目小于所述第一组中的尺度参数的数目;
谱处理器(230),用于使用所述第一组尺度参数处理所述解码谱表示,以获得缩放谱表示;以及
转换器(240),用于对所述缩放谱表示进行转换,以获得解码音频信号。
26.如权利要求25所述的装置,
其中所述谱尺度参数解码器(220)被配置为在类对数域中对所述第二组尺度参数进行内插(222),以获得内插的类对数域尺度参数。
27.如权利要求25或26所述的装置,
其中所述尺度参数解码器(220)被配置为使用向量解量化器(210)对所述编码谱表示进行解码,从而针对一个或多个量化索引提供第二组解码尺度参数,以及
其中所述尺度参数解码器(220)被配置为对所述第二组解码尺度参数进行内插(222),以获得所述第一组尺度参数。
28.如权利要求25至27之一所述的装置,
其中所述尺度参数解码器(222)被配置为基于量化的尺度参数、以及所述量化的尺度参数与关于频率按量化的尺度参数的递升顺序的下一量化的尺度参数之间的差,确定内插的尺度参数。
29.如权利要求28所述的装置,
其中所述尺度参数解码器(222)被配置为依据所述量化的尺度参数以及所述差,确定至少两个内插的尺度参数,其中针对两个内插的尺度参数中的每一个的产生,使用不同加权因子。
30.如权利要求29所述的装置,
其中所述尺度参数解码器(220)被配置为使用所述加权因子,其中所述加权因子随着与所述内插的尺度参数相关联的频率的增大而增大。
31.如权利要求25至30之一所述的装置,其中所述尺度参数解码器被配置为在类对数域中执行所述内插操作(222),以及
将内插的尺度参数(223)转换(223)至线性域中,以获得所述第一组尺度参数,其中所述类对数域是以10为底或以2为底的对数域。
32.如权利要求25至31之一所述的装置,
其中所述谱处理器(230)被配置为
将时间噪声整形(TNS)解码器操作应用(211)于所述解码谱表示,以获得TNS解码谱表示,以及
使用所述第一组尺度参数对所述TNS解码谱表示进行加权(212)。
34.如权利要求25至33之一所述的装置,
其中所述尺度参数解码器(220)被配置为执行内插(222)以获得关于频率在所述第一组尺度参数内的尺度参数,以及执行外插操作以获得关于频率在所述第一组尺度参数的边缘处的尺度参数。
35.如权利要求34所述的装置,
其中所述尺度参数解码器(220)被配置为通过外插操作,至少确定相对于递升频带的所述第一组尺度参数的第一尺度参数和最末尺度参数。
36.如权利要求25至35之一所述的装置,
其中所述尺度参数解码器(220)被配置为执行内插(222)、以及从类对数域至线性域的后续变换,其中所述类对数域是对数2域,以及其中所述线性域的值是使用底为二的求幂来计算的。
37.如权利要求25至36之一所述的装置,
其中所述编码音频信号(250)包括关于所述编码谱表示的全局增益的信息,
其中所述谱解码器(210)被配置为使用所述全局增益对所述编码谱表示进行解量化(210),以及
其中所述谱处理器(230)被配置为通过对每一解量化的谱值、或者使用频带的第一组尺度参数中的相同尺度参数从所述频带的所述解量化的谱表示得出的每一值进行加权,来处理所述解量化的谱表示或从所述解量化的谱表示得出的值。
38.如权利要求25至37之一所述的装置,
其中所述转换器(240)被配置为
对时间上后续的缩放谱表示进行转换(241);
对转换后的时间上后续的缩放谱表示进行合成加窗(242),以及
对加窗后的转换表示进行重叠及相加(243),以获得解码音频信号(260)。
39.如权利要求25至38之一所述的装置,
其中所述转换器(240)包括逆改进离散余弦变换(MDCT)转换器,或者
其中所述谱处理器(230)被配置为将谱值乘以所述第一组尺度参数中的对应尺度参数,或者
其中所述第二数目是16,以及所述第一数目是64,或者
其中所述第一组中的每一尺度参数与频带相关联,其中与较高频率对应的频带比与较低频率相关联的频带宽,以使得相比于与较低频带相关联的尺度参数,所述第一组尺度参数中的与高频带相关联的尺度参数被用于对更高数目的谱值进行加权,其中与所述较低频带相关联的所述尺度参数被用于对所述低频带中的更低数目的谱值进行加权。
40.一种用于对编码音频信号进行解码的方法,所述编码音频信号包括关于编码谱表示的信息、以及关于第二组尺度参数的编码表示的信息,所述方法包括:
接收(200)所述编码信号,以及提取所述编码谱表示和所述第二组尺度参数的所述编码表示;
对所述编码谱表示进行解码(210),以获得解码谱表示;
对所述编码的第二组尺度参数进行解码(220),以获得第一组尺度参数,其中所述第二组中的尺度参数的数目小于所述第一组中的尺度参数的数目;
使用所述第一组尺度参数处理(230)所述解码谱表示,以获得缩放谱表示;以及
对所述缩放谱表示进行转换(240),以获得解码音频信号。
41.一种计算机程序,用于当运行计算机或处理器时执行如权利要求24所述的方法或者如权利要求40所述的方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/EP2017/078921 WO2019091573A1 (en) | 2017-11-10 | 2017-11-10 | Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters |
EPPCT/EP2017/078921 | 2017-11-10 | ||
PCT/EP2018/080137 WO2019091904A1 (en) | 2017-11-10 | 2018-11-05 | Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111357050A true CN111357050A (zh) | 2020-06-30 |
CN111357050B CN111357050B (zh) | 2023-10-10 |
Family
ID=60388039
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880072933.8A Active CN111357050B (zh) | 2017-11-10 | 2018-11-05 | 对音频信号进行编码及解码的装置及方法 |
Country Status (16)
Country | Link |
---|---|
US (1) | US11043226B2 (zh) |
EP (2) | EP4375995A1 (zh) |
JP (1) | JP7073491B2 (zh) |
KR (1) | KR102423959B1 (zh) |
CN (1) | CN111357050B (zh) |
AR (2) | AR113483A1 (zh) |
AU (1) | AU2018363652B2 (zh) |
BR (1) | BR112020009323A2 (zh) |
CA (2) | CA3182037A1 (zh) |
MX (1) | MX2020004790A (zh) |
PL (1) | PL3707709T3 (zh) |
RU (1) | RU2762301C2 (zh) |
SG (1) | SG11202004170QA (zh) |
TW (1) | TWI713927B (zh) |
WO (2) | WO2019091573A1 (zh) |
ZA (1) | ZA202002077B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111402905B (zh) * | 2018-12-28 | 2023-05-26 | 南京中感微电子有限公司 | 音频数据恢复方法、装置及蓝牙设备 |
DE102020210917B4 (de) | 2019-08-30 | 2023-10-19 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung eingetragener Verein | Verbesserter M/S-Stereo-Codierer und -Decodierer |
US20210192019A1 (en) * | 2019-12-18 | 2021-06-24 | Booz Allen Hamilton Inc. | System and method for digital steganography purification |
AU2021306852B2 (en) | 2020-07-07 | 2024-05-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder, audio encoder, and related methods using joint coding of scale parameters for channels of a multi-channel audio signal |
CN115050378B (zh) * | 2022-05-19 | 2024-06-07 | 腾讯科技(深圳)有限公司 | 音频编解码方法及相关产品 |
WO2024175187A1 (en) | 2023-02-21 | 2024-08-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoder for encoding a multi-channel audio signal |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0376553A2 (en) * | 1988-12-30 | 1990-07-04 | AT&T Corp. | Perceptual coding of audio signals |
US4972484A (en) * | 1986-11-21 | 1990-11-20 | Bayerische Rundfunkwerbung Gmbh | Method of transmitting or storing masked sub-band coded audio signals |
US5012517A (en) * | 1989-04-18 | 1991-04-30 | Pacific Communication Science, Inc. | Adaptive transform coder having long term predictor |
CN1838238A (zh) * | 1999-01-27 | 2006-09-27 | 编码技术股份公司 | 一种用于增强信源解码器的设备 |
CN101939781A (zh) * | 2008-01-04 | 2011-01-05 | 杜比国际公司 | 音频编码器和解码器 |
WO2015010949A1 (en) * | 2013-07-22 | 2015-01-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for decoding or encoding an audio signal using energy information values for a reconstruction band |
WO2015063044A1 (en) * | 2013-10-31 | 2015-05-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder and method for providing a decoded audio information using an error concealment based on a time domain excitation signal |
Family Cites Families (109)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5233660A (en) | 1991-09-10 | 1993-08-03 | At&T Bell Laboratories | Method and apparatus for low-delay celp speech coding and decoding |
US5581653A (en) * | 1993-08-31 | 1996-12-03 | Dolby Laboratories Licensing Corporation | Low bit-rate high-resolution spectral envelope coding for audio encoder and decoder |
JP3402748B2 (ja) | 1994-05-23 | 2003-05-06 | 三洋電機株式会社 | 音声信号のピッチ周期抽出装置 |
EP0732687B2 (en) | 1995-03-13 | 2005-10-12 | Matsushita Electric Industrial Co., Ltd. | Apparatus for expanding speech bandwidth |
US5781888A (en) | 1996-01-16 | 1998-07-14 | Lucent Technologies Inc. | Perceptual noise shaping in the time domain via LPC prediction in the frequency domain |
WO1997027578A1 (en) | 1996-01-26 | 1997-07-31 | Motorola Inc. | Very low bit rate time domain speech analyzer for voice messaging |
US5812971A (en) | 1996-03-22 | 1998-09-22 | Lucent Technologies Inc. | Enhanced joint stereo coding method using temporal envelope shaping |
KR100261253B1 (ko) | 1997-04-02 | 2000-07-01 | 윤종용 | 비트율 조절이 가능한 오디오 부호화/복호화 방법및 장치 |
GB2326572A (en) | 1997-06-19 | 1998-12-23 | Softsound Limited | Low bit rate audio coder and decoder |
AU9404098A (en) * | 1997-09-23 | 1999-04-12 | Voxware, Inc. | Scalable and embedded codec for speech and audio signals |
US6507814B1 (en) | 1998-08-24 | 2003-01-14 | Conexant Systems, Inc. | Pitch determination using speech classification and prior pitch estimation |
US7272556B1 (en) * | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
US7099830B1 (en) | 2000-03-29 | 2006-08-29 | At&T Corp. | Effective deployment of temporal noise shaping (TNS) filters |
US6735561B1 (en) | 2000-03-29 | 2004-05-11 | At&T Corp. | Effective deployment of temporal noise shaping (TNS) filters |
US7395209B1 (en) | 2000-05-12 | 2008-07-01 | Cirrus Logic, Inc. | Fixed point audio decoding system and method |
US7353168B2 (en) | 2001-10-03 | 2008-04-01 | Broadcom Corporation | Method and apparatus to eliminate discontinuities in adaptively filtered signals |
US20030187663A1 (en) | 2002-03-28 | 2003-10-02 | Truman Michael Mead | Broadband frequency translation for high frequency regeneration |
US7447631B2 (en) | 2002-06-17 | 2008-11-04 | Dolby Laboratories Licensing Corporation | Audio coding system using spectral hole filling |
US7433824B2 (en) | 2002-09-04 | 2008-10-07 | Microsoft Corporation | Entropy coding by adapting coding between level and run-length/level modes |
US7502743B2 (en) * | 2002-09-04 | 2009-03-10 | Microsoft Corporation | Multi-channel audio encoding and decoding with multi-channel transform selection |
DE602004002390T2 (de) | 2003-02-11 | 2007-09-06 | Koninklijke Philips Electronics N.V. | Audiocodierung |
KR20030031936A (ko) | 2003-02-13 | 2003-04-23 | 배명진 | 피치변경법을 이용한 단일 음성 다중 목소리 합성기 |
US7983909B2 (en) | 2003-09-15 | 2011-07-19 | Intel Corporation | Method and apparatus for encoding audio data |
US7009533B1 (en) * | 2004-02-13 | 2006-03-07 | Samplify Systems Llc | Adaptive compression and decompression of bandlimited signals |
US8983834B2 (en) * | 2004-03-01 | 2015-03-17 | Dolby Laboratories Licensing Corporation | Multichannel audio coding |
DE102004009949B4 (de) | 2004-03-01 | 2006-03-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Ermitteln eines Schätzwertes |
DE102004009954B4 (de) | 2004-03-01 | 2005-12-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum Verarbeiten eines Multikanalsignals |
NZ562182A (en) | 2005-04-01 | 2010-03-26 | Qualcomm Inc | Method and apparatus for anti-sparseness filtering of a bandwidth extended speech prediction excitation signal |
US7539612B2 (en) * | 2005-07-15 | 2009-05-26 | Microsoft Corporation | Coding and decoding scale factor information |
US7546240B2 (en) | 2005-07-15 | 2009-06-09 | Microsoft Corporation | Coding with improved time resolution for selected segments via adaptive block transformation of a group of samples from a subband decomposition |
KR100888474B1 (ko) | 2005-11-21 | 2009-03-12 | 삼성전자주식회사 | 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법 |
US7805297B2 (en) | 2005-11-23 | 2010-09-28 | Broadcom Corporation | Classification-based frame loss concealment for audio signals |
US8255207B2 (en) | 2005-12-28 | 2012-08-28 | Voiceage Corporation | Method and device for efficient frame erasure concealment in speech codecs |
US8781842B2 (en) | 2006-03-07 | 2014-07-15 | Telefonaktiebolaget Lm Ericsson (Publ) | Scalable coding with non-casual predictive information in an enhancement layer |
US8150065B2 (en) | 2006-05-25 | 2012-04-03 | Audience, Inc. | System and method for processing an audio signal |
US20090204397A1 (en) | 2006-05-30 | 2009-08-13 | Albertus Cornelis Den Drinker | Linear predictive coding of an audio signal |
US8015000B2 (en) | 2006-08-03 | 2011-09-06 | Broadcom Corporation | Classification-based frame loss concealment for audio signals |
DE102006049154B4 (de) | 2006-10-18 | 2009-07-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Kodierung eines Informationssignals |
EP2099026A4 (en) | 2006-12-13 | 2011-02-23 | Panasonic Corp | POST-FILTER AND FILTERING METHOD |
US20110022924A1 (en) | 2007-06-14 | 2011-01-27 | Vladimir Malenovsky | Device and Method for Frame Erasure Concealment in a PCM Codec Interoperable with the ITU-T Recommendation G. 711 |
EP2015293A1 (en) | 2007-06-14 | 2009-01-14 | Deutsche Thomson OHG | Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain |
US20110116542A1 (en) | 2007-08-24 | 2011-05-19 | France Telecom | Symbol plane encoding/decoding with dynamic calculation of probability tables |
ATE535904T1 (de) * | 2007-08-27 | 2011-12-15 | Ericsson Telefon Ab L M | Verbesserte transformationskodierung von sprach- und audiosignalen |
WO2009084918A1 (en) | 2007-12-31 | 2009-07-09 | Lg Electronics Inc. | A method and an apparatus for processing an audio signal |
CN102057424B (zh) | 2008-06-13 | 2015-06-17 | 诺基亚公司 | 用于经编码的音频数据的错误隐藏的方法和装置 |
EP2144231A1 (en) | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme with common preprocessing |
ES2558229T3 (es) | 2008-07-11 | 2016-02-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Codificador y decodificador de audio para codificar tramas de señales de audio muestreadas |
EP2144230A1 (en) | 2008-07-11 | 2010-01-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Low bitrate audio encoding/decoding scheme having cascaded switches |
EP2346030B1 (en) | 2008-07-11 | 2014-10-01 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, method for encoding an audio signal and computer program |
US8577673B2 (en) | 2008-09-15 | 2013-11-05 | Huawei Technologies Co., Ltd. | CELP post-processing for music signals |
EP3640941A1 (en) | 2008-10-08 | 2020-04-22 | Fraunhofer Gesellschaft zur Förderung der Angewand | Multi-resolution switched audio encoding/decoding scheme |
AU2010209756B2 (en) | 2009-01-28 | 2013-10-31 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio coding |
JP4932917B2 (ja) | 2009-04-03 | 2012-05-16 | 株式会社エヌ・ティ・ティ・ドコモ | 音声復号装置、音声復号方法、及び音声復号プログラム |
FR2944664A1 (fr) | 2009-04-21 | 2010-10-22 | Thomson Licensing | Dispositif et procede de traitement d'images |
US8428938B2 (en) | 2009-06-04 | 2013-04-23 | Qualcomm Incorporated | Systems and methods for reconstructing an erased speech frame |
US8352252B2 (en) | 2009-06-04 | 2013-01-08 | Qualcomm Incorporated | Systems and methods for preventing the loss of information within a speech frame |
KR20100136890A (ko) | 2009-06-19 | 2010-12-29 | 삼성전자주식회사 | 컨텍스트 기반의 산술 부호화 장치 및 방법과 산술 복호화 장치 및 방법 |
BR122020024243B1 (pt) | 2009-10-20 | 2022-02-01 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E. V. | Codificador de sinal de áudio, decodificador de sinal de áudio, método para prover uma representação codificada de um conteúdo de áudio e método para prover uma representação decodificada de um conteúdo de áudio. |
RU2605677C2 (ru) | 2009-10-20 | 2016-12-27 | Франхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен | Аудио кодер, аудио декодер, способ кодирования аудио информации, способ декодирования аудио информации и компьютерная программа, использующая итеративное уменьшение размера интервала |
US8207875B2 (en) | 2009-10-28 | 2012-06-26 | Motorola Mobility, Inc. | Encoder that optimizes bit allocation for information sub-parts |
US7978101B2 (en) | 2009-10-28 | 2011-07-12 | Motorola Mobility, Inc. | Encoder and decoder using arithmetic stage to compress code space that is not fully utilized |
KR101761629B1 (ko) | 2009-11-24 | 2017-07-26 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 장치 |
PL2524372T3 (pl) | 2010-01-12 | 2015-08-31 | Fraunhofer Ges Forschung | Koder audio. dekoder audio, sposób kodowania i dekodowania informacji audio i program komputerowy uzyskujący wartość podobszaru kontekstu w oparciu o normę uprzednio zdekodowanych wartości widmowych |
US20110196673A1 (en) | 2010-02-11 | 2011-08-11 | Qualcomm Incorporated | Concealing lost packets in a sub-band coding decoder |
EP2375409A1 (en) | 2010-04-09 | 2011-10-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction |
FR2961980A1 (fr) | 2010-06-24 | 2011-12-30 | France Telecom | Controle d'une boucle de retroaction de mise en forme de bruit dans un codeur de signal audionumerique |
CA3025108C (en) | 2010-07-02 | 2020-10-27 | Dolby International Ab | Audio decoding with selective post filtering |
EP4131258A1 (en) | 2010-07-20 | 2023-02-08 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder, audio decoding method, audio encoder, audio encoding method and computer program |
US8738385B2 (en) | 2010-10-20 | 2014-05-27 | Broadcom Corporation | Pitch-based pre-filtering and post-filtering for compression of audio signals |
MX2013009346A (es) | 2011-02-14 | 2013-10-01 | Fraunhofer Ges Forschung | Prediccion lineal basada en esquema de codificacion utilizando conformacion de ruido de dominio espectral. |
US9270807B2 (en) | 2011-02-23 | 2016-02-23 | Digimarc Corporation | Audio localization using audio signal encoding and recognition |
CN103703511B (zh) | 2011-03-18 | 2017-08-22 | 弗劳恩霍夫应用研究促进协会 | 定位在表示音频内容的比特流的帧中的帧元素 |
MY166916A (en) | 2011-04-21 | 2018-07-24 | Samsung Electronics Co Ltd | Apparatus for quantizing linear predictive coding coefficients, sound encoding apparatus, apparatus for dequantizing linear predictive coding coefficients, sound decoding apparatus, and electronic device therefore |
US8891775B2 (en) | 2011-05-09 | 2014-11-18 | Dolby International Ab | Method and encoder for processing a digital stereo audio signal |
FR2977439A1 (fr) | 2011-06-28 | 2013-01-04 | France Telecom | Fenetres de ponderation en codage/decodage par transformee avec recouvrement, optimisees en retard. |
FR2977969A1 (fr) | 2011-07-12 | 2013-01-18 | France Telecom | Adaptation de fenetres de ponderation d'analyse ou de synthese pour un codage ou decodage par transformee |
WO2013149672A1 (en) | 2012-04-05 | 2013-10-10 | Huawei Technologies Co., Ltd. | Method for determining an encoding parameter for a multi-channel audio signal and multi-channel audio encoder |
US20130282373A1 (en) | 2012-04-23 | 2013-10-24 | Qualcomm Incorporated | Systems and methods for audio signal processing |
KR102102450B1 (ko) | 2012-06-08 | 2020-04-20 | 삼성전자주식회사 | 프레임 에러 은닉방법 및 장치와 오디오 복호화방법 및 장치 |
GB201210373D0 (en) | 2012-06-12 | 2012-07-25 | Meridian Audio Ltd | Doubly compatible lossless audio sandwidth extension |
FR2992766A1 (fr) | 2012-06-29 | 2014-01-03 | France Telecom | Attenuation efficace de pre-echos dans un signal audionumerique |
CN102779526B (zh) | 2012-08-07 | 2014-04-16 | 无锡成电科大科技发展有限公司 | 语音信号中基音提取及修正方法 |
US9406307B2 (en) | 2012-08-19 | 2016-08-02 | The Regents Of The University Of California | Method and apparatus for polyphonic audio signal prediction in coding and networking systems |
US9293146B2 (en) * | 2012-09-04 | 2016-03-22 | Apple Inc. | Intensity stereo coding in advanced audio coding |
TWI553628B (zh) | 2012-09-24 | 2016-10-11 | 三星電子股份有限公司 | 訊框錯誤隱藏方法 |
US9401153B2 (en) | 2012-10-15 | 2016-07-26 | Digimarc Corporation | Multi-mode audio recognition and auxiliary data encoding and decoding |
TWI530941B (zh) | 2013-04-03 | 2016-04-21 | 杜比實驗室特許公司 | 用於基於物件音頻之互動成像的方法與系統 |
TR201808890T4 (tr) | 2013-06-21 | 2018-07-23 | Fraunhofer Ges Forschung | Bir konuşma çerçevesinin yeniden yapılandırılması. |
EP2830055A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Context-based entropy coding of sample values of a spectral envelope |
MX355452B (es) | 2013-10-31 | 2018-04-18 | Fraunhofer Ges Forschung | Extension de ancho de banda de audio mediante insercion de ruido pre-formado temporal en el dominio de frecuencia. |
KR101831088B1 (ko) | 2013-11-13 | 2018-02-21 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 오디오 신호를 인코딩하기 위한 인코더, 오디오 전송 시스템 및 보정값들을 결정하기 위한 방법 |
GB2524333A (en) | 2014-03-21 | 2015-09-23 | Nokia Technologies Oy | Audio signal payload |
US9396733B2 (en) | 2014-05-06 | 2016-07-19 | University Of Macau | Reversible audio data hiding |
NO2780522T3 (zh) | 2014-05-15 | 2018-06-09 | ||
EP2963646A1 (en) | 2014-07-01 | 2016-01-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Decoder and method for decoding an audio signal, encoder and method for encoding an audio signal |
US9685166B2 (en) | 2014-07-26 | 2017-06-20 | Huawei Technologies Co., Ltd. | Classification between time-domain coding and frequency domain coding |
EP2980798A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Harmonicity-dependent controlling of a harmonic filter tool |
EP2980796A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method and apparatus for processing an audio signal, audio decoder, and audio encoder |
EP2980799A1 (en) | 2014-07-28 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for processing an audio signal using a harmonic post-filter |
EP2988300A1 (en) | 2014-08-18 | 2016-02-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Switching of sampling rates at audio processing devices |
US9886963B2 (en) | 2015-04-05 | 2018-02-06 | Qualcomm Incorporated | Encoder selection |
US9978400B2 (en) | 2015-06-11 | 2018-05-22 | Zte Corporation | Method and apparatus for frame loss concealment in transform domain |
US9837089B2 (en) | 2015-06-18 | 2017-12-05 | Qualcomm Incorporated | High-band signal generation |
US10847170B2 (en) | 2015-06-18 | 2020-11-24 | Qualcomm Incorporated | Device and method for generating a high-band signal from non-linearly processed sub-ranges |
KR20170000933A (ko) | 2015-06-25 | 2017-01-04 | 한국전기연구원 | 시간 지연 추정을 이용한 풍력 터빈의 피치 제어 시스템 |
US9830921B2 (en) | 2015-08-17 | 2017-11-28 | Qualcomm Incorporated | High-band target signal control |
US9978381B2 (en) | 2016-02-12 | 2018-05-22 | Qualcomm Incorporated | Encoding of multiple audio signals |
US10283143B2 (en) | 2016-04-08 | 2019-05-07 | Friday Harbor Llc | Estimating pitch of harmonic signals |
CN107103908B (zh) | 2017-05-02 | 2019-12-24 | 大连民族大学 | 复调音乐多音高估计方法及伪双谱在多音高估计中的应用 |
-
2017
- 2017-11-10 WO PCT/EP2017/078921 patent/WO2019091573A1/en active Application Filing
-
2018
- 2018-11-05 RU RU2020119052A patent/RU2762301C2/ru active
- 2018-11-05 KR KR1020207015511A patent/KR102423959B1/ko active IP Right Grant
- 2018-11-05 BR BR112020009323-8A patent/BR112020009323A2/pt unknown
- 2018-11-05 CA CA3182037A patent/CA3182037A1/en active Pending
- 2018-11-05 EP EP24166212.1A patent/EP4375995A1/en active Pending
- 2018-11-05 MX MX2020004790A patent/MX2020004790A/es unknown
- 2018-11-05 WO PCT/EP2018/080137 patent/WO2019091904A1/en active Search and Examination
- 2018-11-05 PL PL18793692.7T patent/PL3707709T3/pl unknown
- 2018-11-05 EP EP18793692.7A patent/EP3707709B1/en active Active
- 2018-11-05 SG SG11202004170QA patent/SG11202004170QA/en unknown
- 2018-11-05 AU AU2018363652A patent/AU2018363652B2/en active Active
- 2018-11-05 CN CN201880072933.8A patent/CN111357050B/zh active Active
- 2018-11-05 JP JP2020524593A patent/JP7073491B2/ja active Active
- 2018-11-05 CA CA3081634A patent/CA3081634C/en active Active
- 2018-11-08 TW TW107139706A patent/TWI713927B/zh active
- 2018-11-09 AR ARP180103275A patent/AR113483A1/es active IP Right Grant
-
2020
- 2020-04-27 US US16/859,106 patent/US11043226B2/en active Active
- 2020-05-04 ZA ZA2020/02077A patent/ZA202002077B/en unknown
-
2022
- 2022-01-27 AR ARP220100163A patent/AR124710A2/es unknown
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4972484A (en) * | 1986-11-21 | 1990-11-20 | Bayerische Rundfunkwerbung Gmbh | Method of transmitting or storing masked sub-band coded audio signals |
EP0376553A2 (en) * | 1988-12-30 | 1990-07-04 | AT&T Corp. | Perceptual coding of audio signals |
US5012517A (en) * | 1989-04-18 | 1991-04-30 | Pacific Communication Science, Inc. | Adaptive transform coder having long term predictor |
CN1838238A (zh) * | 1999-01-27 | 2006-09-27 | 编码技术股份公司 | 一种用于增强信源解码器的设备 |
CN101939781A (zh) * | 2008-01-04 | 2011-01-05 | 杜比国际公司 | 音频编码器和解码器 |
WO2015010949A1 (en) * | 2013-07-22 | 2015-01-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for decoding or encoding an audio signal using energy information values for a reconstruction band |
WO2015063044A1 (en) * | 2013-10-31 | 2015-05-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder and method for providing a decoded audio information using an error concealment based on a time domain excitation signal |
Non-Patent Citations (2)
Title |
---|
""26445-022"", 《3GPP TSG_SA\WG4_CODEC》 * |
3GPP: "Codec for enhanced voice service(EVS):detailed algorithmic description", 《3GPP TS 26.445》 * |
Also Published As
Publication number | Publication date |
---|---|
JP2021502592A (ja) | 2021-01-28 |
PL3707709T3 (pl) | 2024-08-26 |
CN111357050B (zh) | 2023-10-10 |
CA3182037A1 (en) | 2019-05-16 |
EP3707709C0 (en) | 2024-04-24 |
RU2020119052A (ru) | 2021-12-10 |
ZA202002077B (en) | 2021-10-27 |
CA3081634C (en) | 2023-09-05 |
AR124710A2 (es) | 2023-04-26 |
US20200294518A1 (en) | 2020-09-17 |
AU2018363652A1 (en) | 2020-05-28 |
AR113483A1 (es) | 2020-05-06 |
US11043226B2 (en) | 2021-06-22 |
EP3707709B1 (en) | 2024-04-24 |
RU2762301C2 (ru) | 2021-12-17 |
SG11202004170QA (en) | 2020-06-29 |
WO2019091904A1 (en) | 2019-05-16 |
JP7073491B2 (ja) | 2022-05-23 |
AU2018363652B2 (en) | 2021-09-16 |
EP4375995A1 (en) | 2024-05-29 |
KR102423959B1 (ko) | 2022-07-22 |
WO2019091573A1 (en) | 2019-05-16 |
RU2020119052A3 (zh) | 2021-12-10 |
TWI713927B (zh) | 2020-12-21 |
TW201923748A (zh) | 2019-06-16 |
MX2020004790A (es) | 2020-08-13 |
KR20200077574A (ko) | 2020-06-30 |
BR112020009323A2 (pt) | 2020-10-27 |
EP3707709A1 (en) | 2020-09-16 |
CA3081634A1 (en) | 2019-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111357050B (zh) | 对音频信号进行编码及解码的装置及方法 | |
KR101953648B1 (ko) | 오디오 신호 디코딩 또는 인코딩을 위한 시간 도메인 레벨 조정 | |
CN107925388B (zh) | 后置处理器、预处理器、音频编解码器及相关方法 | |
KR101792712B1 (ko) | 주파수 도메인 내의 선형 예측 코딩 기반 코딩을 위한 저주파수 강조 | |
US20230133513A1 (en) | Audio decoder, audio encoder, and related methods using joint coding of scale parameters for channels of a multi-channel audio signal | |
CN111344784B (zh) | 控制编码器和/或解码器中的带宽 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |