CN105144288A - 高级量化器 - Google Patents
高级量化器 Download PDFInfo
- Publication number
- CN105144288A CN105144288A CN201480019363.8A CN201480019363A CN105144288A CN 105144288 A CN105144288 A CN 105144288A CN 201480019363 A CN201480019363 A CN 201480019363A CN 105144288 A CN105144288 A CN 105144288A
- Authority
- CN
- China
- Prior art keywords
- quantizer
- coefficient
- block
- coefficient block
- jitter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/035—Scalar quantisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
- G10L19/025—Detection of transients or attacks for time/frequency resolution switching
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/028—Noise substitution, i.e. substituting non-tonal spectral components by noisy source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本文献涉及一种音频编码和解码系统,称为音频编解码器系统。具体地说,本文献涉及一种尤其良好地适于语音编码/解码的基于变换的音频编解码器系统。描述了被配置为对系数块(141)中的第一系数进行量化的量化单元(112)。系数块(141)包括用于多个对应频率窗(301)的多个系数。量化单元(112)被配置为提供量化器集合(326、327)。量化器集合(326、327)包括分别与多个不同信噪比SNR关联的多个不同量化器(321、322、323)。所述多个不同量化器(321、322、323)包括噪声填充量化器(321);一个或多个抖动量化器(322);及一个或多个无抖动量化器(323)。量化单元(112)还被配置为:确定指示属于第一系数的SNR的SNR指示,并且基于SNR指示从量化器集合(326、327)选择第一量化器。此外,量化单元(112)被配置为使用第一量化器对第一系数进行量化。
Description
相关申请的交叉引用
本发明要求2013年4月5日提交的美国临时专利申请No.61/808,673以及2013年9月10日提交的美国临时专利申请No.61/875,817的优先权,其中的每一个通过其引用而整体合并到此。
技术领域
本文献涉及一种音频编码和解码系统(称为音频编解码器系统)。具体地说,本文献涉及一种尤其良好地适合于语音编码/解码的基于变换的音频编解码器系统。
背景技术
通用感知音频编码器通过使用关于覆盖几十毫秒(例如20ms)的样本的块大小的变换(如修正离散余弦变换(MDCT))来实现相对高的编码增益。用于这种基于变换的音频编解码器系统的示例是高级音频编码(AAC)或高效(HE)-AAC。然而,当关于语音信号使用这些基于变换的音频编解码器系统时,语音信号的质量朝着较低码速率而降级得比音乐信号更快,尤其是在干燥(无混响)话音信号的情况下。
本文献描述一种特别良好地适合于话音信号的编码的基于变换的音频编解码器系统。此外,本文献描述一种可以用在这种基于变换的音频编解码器系统中的量化方案。可以结合基于变换的音频编解码器系统来使用各种不同的量化方案。示例是矢量量化(例如孪生矢量量化)、分布保留量化、抖动量化、具有随机偏移的标量量化以及与噪声填充组合的标量量化(例如US7447631中所描述的量化器)。这些不同的量化方案关于以下属性中的一个或多个具有各种优点和缺点。
运算(编码器)复杂度,其典型地包括比特流的量化和生成的计算复杂度(例如可变长度编码);
感知性能,其可以基于理论考虑(率失真性能)并且基于关联噪声填充行为的特征(例如按实际上与话音低速率变换编码有关的比特率)而得以估计;
在存在全面比特率约束(例如比特的最大数量)的情况下的比特速率分配处理的复杂度;和/或
关于启用不同数据率和不同失真等级的灵活度。
在本文献中,描述一种针对上述属性中的至少一些的量化方案。具体地说,描述一种关于一些或所有上述属性提供改进的性能的量化方案。
发明内容
根据一方面,描述一种量化单元(在本文献中又称为系数量化单元),被配置为对系数块中的第一系数进行量化。所述系数块可以对应于预测残差系数块(又称为预测误差系数块)或从中推导出。故此,所述量化单元可以是如以下更详细地描述的使用子带预测的基于变换的音频编码器的一部分。通常,所述系数块可以包括用于多个对应频率窗的多个系数。可以从变换系数块推导所述系数块,其中,已经通过使用时域到频域变换(例如修正离散余弦变换,MDCT)将音频信号(例如话音信号)从时域转换到频域来确定所述变换系数块。
应注意,系数块中的所述第一系数可以与所述系数块中的系数中的任何一个或多个对应。所述系数块可以包括K个系数(K>1,例如K=256)。第一系数可以与k=1、……、K个频率系数中的任何一个对应。如以下将概述的那样,所述多个K个频率窗可以组成为多个L个频率带,其中,1<L<K。所述系数块中的系数可以分配给多个频率带之一(l=1、……、L)。可以使用相同量化器来对分配给特定频率带l的系数q(其中,q=1、……、Q并且0<Q<K)进行量化。对于任何q=1、……、Q并且对于任何l=1、……、L,所述第一系数可以与第l频率带的第q系数对应。
量化单元可以被配置为提供量化器集合。量化器集合可以包括分别与多个不同信噪比(SNR)或多个不同失真等级关联的多个不同量化器。故此,量化器集合中的不同量化器可以产生各个SNR或失真等级。量化器集合内的所述量化器可以根据与多个量化器关联的多个SNR而排序。具体地说,量化器可以排序,以使得与使用直接在前相邻量化器所获得的SNR相比,使用特定量化器所获得的SNR增加。
所述量化器集合可以又称为许可量化器集合。典型地,所述量化器集合内所包括的量化器的数量受限于量化器的数量R。可以基于待由量化器集合覆盖的整个SNR范围(例如从近似0dB到30dB)来选择所述量化器集合内所包括的量化器的数量R。此外,量化器的数量R典型地取决于在有序量化器集合内的各相邻量化器之间的SNR目标差值。用于量化器的数量R的典型值是10到20个量化器。
多个不同量化器可以包括噪声填充量化器、一个或多个抖动量化器、和/或一个或多个无抖动量化器。在优选示例中,多个不同量化器包括单个噪声填充量化器、一个或多个抖动量化器以及一个或多个无抖动量化器。如将在本文献中概述的那样,关于零比特率状况使用噪声填充量化器(例如,并非使用具有大的量化步长大小的抖动量化器)是有益的。噪声填充量化器与多个SNR之间的相对最低SNR关联,所述一个或多个无抖动量化器可以与多个SNR中的一个或多个相对最高SNR关联。所述一个或多个抖动量化器可以与大于多个SNR中的相对最低SNR并且小于一个或多个相对最高SNR的一个或多个中等SNR关联。故此,所述有序量化器集合可以包括用于最低SNR(例如小于或等于0dB)的噪声填充量化器,后面跟随用于中等SNR的一个或多个抖动量化器,并且后面跟随用于相对高的SNR的一个或多个无抖动量化器。据此,可以改进(从使用量化器集合量化的量化系数块推导的)重构的音频信号的感知质量。具体地说,在保持量化单元的MSE(均方误差)性能很高的同时,可以减少谱空洞所产生的听觉假象。
噪声填充量化器可以包括随机数发生器,被配置为根据预定统计模型来生成随机数。噪声填充量化器的随机数发生器的预定统计模型可以取决于在编码器处并且在对应解码器处可用的辅助信息(例如方差保留标志)。噪声填充量化器可以被配置为通过用随机数发生器所生成的随机数替换第一系数来量化第一系数(或所述系数块中的任何系数)。在量化单元处(例如在编码器内所包括的本地解码器处)使用的随机数发生器可以与在逆量化单元处(在对应解码器处)的对应随机数发生器同步。故此,噪声填充量化器的输出可以独立于第一系数,以使得噪声填充量化器的输出可以不需要任何量化指数的传输。噪声填充量化器可以与处于(接近或基本上)0dB的SNR关联。换言之,噪声填充量化器可以在接近0dB的SNR的情况下操作。在速率分配处理期间,虽然实际上,噪声填充量化器的SNR可以稍微距零偏离(例如(由于独立于所述输入信号的信号的合成)可以稍微小于零dB),但噪声填充量化器可以考虑为提供0dBSNR。
可以基于一个或多个附加参数来调整噪声填充量化器的SNR。例如,可以通过根据预测器增益的预定义函数来设置所合成的信号的方差(即已经使用所述噪声填充量化器来量化的系数的方差)而调整噪声填充量化器的方差。替代地或附加地,可以通过所述比特流中所发送的标志来设置所合成的信号的方差。具体地说,可以通过(在该文献内以下进一步提供的)预测器增益ρ的两个预定函数之一来调整噪声填充量化器的方差,其中,这些函数之一可以被选择为取决于所述标志(例如取决于方差保留标志)来呈现所合成的信号。通过示例的方式,可以通过调整噪声填充量化器所生成的信号的方差,以使得所述噪声填充量化器的SNR落入范围[-3.0dB到0dB]内。从MMSE(最小均方误差)观点,在0dB处的SNR典型地有益。另一方面,当使用较低SNR(例如下至-3.0dB)时,感知质量可以增加。
所述一个或多个抖动量化器优选地是减法抖动量化器。具体地说,所述一个或多个抖动量化器中的抖动量化器可以包括抖动应用单元,被配置为通过将抖动值(又称为抖动数)应用于第一系数来确定第一抖动系数。此外,所述抖动量化器可以包括标量量化器,被配置为通过将第一抖动系数分配给所述标量量化器的区间来确定第一量化指数。故此,所述抖动量化器可以基于第一系数来生成第一量化指数。通过相似的方式,可以量化系数块中的一个或多个其它系数。
所述一个或多个抖动量化器中的抖动量化器可以还包括逆标量量化器,被配置为将第一重构值分配给所述第一量化指数。此外,所述抖动量化器可以包括抖动移除单元,被配置为通过从第一重构值移除所述抖动值(即抖动应用单元已经应用的相同抖动值)来确定第一解抖动系数。
此外,抖动量化器可以包括后增益应用单元,被配置为通过将量化器后增益γ应用于第一解抖动系数来确定第一量化系数。通过将所述后增益γ应用于第一解抖动系数,可以改进抖动量化器的MSE性能。所述量化器后增益γ可以由下式给出:
其中,是所述系数块中的系数中的一个或多个的方差,并且其中,Δ是抖动量化器的标量量化器的量化器步长大小。
故此,所述抖动量化器可以被配置为执行逆量化,以产生量化系数。这可以用在编码器的本地解码器处,例如,在编码器处的预测环路保持与在解码器处的预测环路同步的情况下,这便于闭环预测。
抖动应用单元可以被配置为从第一系数减去抖动值,所述抖动移除单元可以被配置为将抖动值与第一重构值相加。替代地,所述抖动应用单元可以被配置为将所述抖动值与所述第一系数相加,所述抖动移除单元可以被配置为从所述第一重构值减去所述抖动值。
量化单元可以还包括抖动发生器,被配置为生成抖动值块。为了便于所述编码器与所述解码器之间的同步,所述抖动值可以是伪随机数。抖动值块可以分别包括用于所述多个频率窗的多个抖动值。故此,无论是否将要使用所述抖动量化器之一来量化特定系数,所述抖动发生器都可以被配置为生成用于待量化的系数块中的系数中的每一个的抖动值。这对于保持在编码器处所使用的抖动发生器与在对应解码器处所使用的抖动发生器之间的同步性是有益的。
抖动量化器的标量量化器具有预定量化器步长大小Δ。故此,抖动量化器的标量量化器可以是均匀量化器。所述抖动值可以从预定抖动区间取值。预定抖动区间可以具有等于或小于预定量化器步长大小Δ的宽度。此外,抖动值块可以包括在预定抖动区间内均匀分布的随机变量的实现。例如,所述抖动发生器被配置为生成从归一化抖动区间(例如[0,1)或[-0.5,0.5))抽取的抖动值块。故此,归一化抖动区间的宽度可以是1。所述抖动值块可以然后乘以特定抖动量化器的预定量化器步长大小Δ。据此,可以获得适合于随具有步长大小Δ的量化器使用的抖动实现。具体地说,通过这样做,获得实现所谓的Schuchman条件的量化器(L.Schuchman,"Dithersignalsandtheireffectonquantizationnoise",IEEETCOM,pp.162-165,Dec.1964.)。
抖动发生器可以被配置为选择M个预定抖动实现之一,其中,M是大于1的整数。此外,抖动发生器可以被配置为基于所选择的抖动实现来生成抖动值块。具体地说,在一些实现方式中,抖动实现的数量可以受限。通过示例的方式,所述预定抖动实现的数量M可以是10、5、4或更小。这对于已经使用一个或多个抖动量化器获得的所述量化指数的随后熵编码可能是有益的。具体地说,有限数量M的抖动实现的使用使得用于所述量化指数的熵编码器能够基于有限数量的抖动实现而受训练。据此,可以使用瞬时码(例如,多维Huffman编码),而非算术码,这在运算复杂度方面可能是有利的。
所述一个或多个无抖动量化器中的无抖动量化器可以是具有预定均匀量化器步长大小的标量量化器。故此,所述一个或多个无抖动量化器可以是确定性量化器,其并不使用(伪)随机抖动。
如上所述,所述量化器集合可以排序。鉴于高效比特分配处理,这可能是有益的。具体地说,量化器集合的排序使得能够基于整数指数从所述量化器集合选择量化器。所述量化器集合可以排序,以使得各相邻量化器之间的SNR的增加至少近似是恒定的。换言之,与来自有序量化器集合的一对相邻量化器关联的SNR的差值可以给出两个量化器之间的SNR差值。用于来自多个有序量化器的所有成对的相邻量化器的SNR差值可以落入以预定SNR目标差值为中心的预定SNR差值区间内。所述预定SNR差值区间的宽度可以小于预定SNR目标差值的10%或5%。可以设置所述SNR目标差值,以使得相对小的量化器集合可以在相对大的整个SNR范围处呈现操作。例如,在典型应用中,量化器集合可以便于从0dBSNR朝向30dBSNR的间隔内的操作。预定SNR目标差值可以设置为1.5dB或3dB,由此允许通过包括10到20个量化器的量化器集合来覆盖30dB的整个SNR范围。故此,有序量化器集合中的量化器的整数指数的增大直接转化为对应的SNR增加。这种一对一关系对于实现高效比特分配处理是有益的,其根据给定的比特率约束将具有特定SNR的量化器分配给特定频率带。
量化单元可以被配置为确定指示属于第一系数的SNR的SNR指示。可以使用速率分配处理(又称为比特分配处理)来确定属于第一系数的SNR。如上所述,属于第一系数的SNR可以直接标识来自量化器集合的量化器。故此,量化单元可以被配置为基于SNR指示从量化器集合选择第一量化器。此外,量化单元可以被配置为使用第一量化器来量化第一系数。具体地说,量化单元可以被配置为确定用于第一系数的第一量化指数。第一量化指数可以被熵编码,并且可以作为比特流内的系数数据发送到(对应解码器的)对应逆量化单元。此外,量化单元可以被配置为从第一系数确定第一量化系数。第一量化系数可以用在编码器的预测器内。
系数块可以与谱块包络(例如当前包络或量化后的当前包络,如下所述)关联。具体地说,可以通过使用谱块包络来对(从输入音频信号的分段推导出的)变换系数块进行扁平化来获得系数块。谱块包络可以指示用于多个频率窗的多个谱能量值。具体地说,谱块包络可以指示系数块中的系数的相对重要性。故此,谱块包络(或从谱块包络推导出的包络,如下述分配包络)可以用于速率分配的目的。具体地说,SNR指示可以取决于谱块包络。SNR指示可以进一步取决于用于偏移谱块包络的偏移参数。在速率分配处理期间,偏移参数可以增加/减少,直到从所量化的和所编码的系数块生成的系数数据满足预定比特率约束(例如,偏移参数可以选择得尽可能大,以使得所编码的系数块不超过预定数量的比特)。因此,偏移参数可以取决于对于对系数块进行编码可用的预定数量的比特。
可以通过使用偏移参数来偏移从与第一系数的频率窗关联的谱块包络推导出的值而确定指示属于第一系数的SNR的SNR指示。具体地说,本文献中所描述的比特分配公式可以用于确定SNR指示。比特分配公式可以是从谱块包络推导出的分配包络或偏移参数的函数。
故此,SNR指示可以取决于从谱块包络推导出的分配包络。分配包络可以具有分配分辨率(例如3dB的分辨率)。分配分辨率优选地取决于来自量化器集合的相邻量化器之间的SNR差值。具体地说,分配分辨率和SNR差值可以彼此对应。在示例中,SNR差值是1.5dB,分配分辨率是3dB。通过选择对应的分配分辨率和SNR差值(例如,通过在dB域中两倍于SNR差值的分配分辨率),可以(使用例如本文献中所描述的比特分配公式)简化比特分配处理和/或量化器选择处理。
系数块中的多个系数可以分配给多个频率带。频率带可以包括一个或多个频率窗。故此,多个系数中的多于一个系数可以分配给相同频率带。典型地,每频率带的频率窗的数量随增加频率而增加。具体地说,频率带结构(例如每频率带的频率窗的数量)可以服从心理声学考虑。量化单元可以被配置为对于多个频率带中的每一个从量化器集合选择量化器,以使得使用相同量化器来量化分配给相同频率带的系数。可以基于特定频率带内的谱块包络中的一个或多个谱能量值来确定用于量化特定频率带的量化器。关于量化方案的心理声学性能,为了量化目的而使用频率带结构可以是有益的。
量化单元可以被配置为接收指示系数块的性质的辅助信息。通过示例的方式,辅助信息可以包括由包括量化单元的编码器内包括的预测器所确定的预测器增益。预测器增益可以指示系数块的声调内容。替代地或附加地,辅助信息可以包括基于系数块和/或基于谱块包络所推导的谱反射系数。谱反射系数可以指示系数块的摩擦音内容。量化单元可以被配置为从在包括量化单元的编码器和解码器处并且在包括对应逆量化单元的对应解码器处可用的数据提取辅助信息。故此,辅助信息从编码器到解码器的传输可以不需要附加比特。
量化单元可以被配置为取决于辅助信息来确定量化器集合。具体地说,量化器集合内的抖动量化器的数量可以取决于辅助信息。甚至更具体地,量化器集合内所包括的抖动量化器的数量可以随着增加预测器增益而降低,反之亦然。通过使得量化器集合取决于辅助信息,可以改进量化方案的感知性能。
辅助信息可以包括方差保留标志。方差保留标志可以指示将要如何调整系数块的方差。换言之,方差保留标志可以指示待由解码器执行的处理,这对于待由量化器重构的系数块的方差具有影响。
通过示例的方式,可以取决于方差保留标志来确定量化器集合。具体地说,噪声填充量化器的噪声增益可以取决于方差保留标志。替代地或附加地,一个或多个抖动量化器可以覆盖SNR范围,可以取决于方差保留标志来确定SNR范围。此外,后增益γ可以取决于方差保留标志。替代地或附加地,可以取决于作为预测器增益的预定义函数的参数来确定抖动量化器的后增益γ。
方差保留标志可以用于将量化器的噪声程度适配于预测的质量。通过示例的方式,可以取决于作为预测器增益的预定义函数的参数来确定抖动量化器的后增益γ。替代地或附加地,可以通过对被预测器增益的预定义函数所缩放的方差保留后增益与均方误差优化后增益进行比较并且选择这两个增益中的最大者来确定后增益γ。具体地说,预测器增益的预定义函数可以随着预测器增益增加而减少所重构的信号的方差。作为该操作的结果,可以改进编解码器的感知质量。
根据另一方面,描述一种逆量化单元(在本文献中又称为谱解码器),被配置为对量化指数块中的第一量化指数进行解量化。换言之,逆量化单元可以被配置为基于系数数据(例如基于量化指数)来确定用于系数块的重构值。应注意,在量化单元的上下文中在本文献中已经描述的所有特征和方面也可应用于对应逆量化单元。具体地说,其应用于与量化器集合的结构和设计、量化器集合对辅助信息的依赖性、比特分配处理等有关的特征。
量化指数可以与包括用于多个对应频率窗的多个系数的系数块关联。具体地说,量化指数与对应量化系数块的量化系数(或重构值)关联。如在对应量化单元的上下文中概述的那样,量化系数块可以对应于或可以推导来自于预测残差系数块。更一般地,可以已经从已经使用时域到频域变换从音频信号的分段获得的变换系数块推导量化系数块。
逆量化单元可以被配置为提供量化器集合。如上所述,量化器集合可以是基于在逆量化单元处或在对应量化单元处可用的辅助信息而适配的或生成的。量化器集合典型地包括分别与多个不同信噪比(SNR)关联的多个不同量化器。此外,如上所述,量化器集合可以根据增加/降低SNR而排序。相邻量化器之间的SNR增加/降低可以基本上是恒定的。
多个不同量化器可以包括与量化单元的噪声填充量化器对应的噪声填充量化器。在优选示例中,多个不同量化器包括单个噪声填充量化器。逆量化单元的噪声填充量化器被配置为通过使用根据所规定的统计模型所生成的随机变量的实现来提供第一系数的重构。故此,应注意,量化指数块典型地不包括用于待使用噪声填充量化器重构的系数的任何量化指数。因此,待使用噪声填充量化器重构的系数与零比特率关联。
此外,多个不同量化器可以包括一个或多个抖动量化器。一个或多个抖动量化器可以包括一个或多个相应逆标量量化器,被配置为将第一重构值分配给第一量化指数。此外,一个或多个抖动量化器可以包括一个或多个相应抖动移除单元,被配置为通过从第一重构值移除抖动值来确定第一解抖动系数。逆量化单元的抖动发生器典型地与量化单元的抖动发生器同步。如在量化单元的上下文中概述的那样,一个或多个抖动量化器优选地应用量化器后增益,以改进一个或多个抖动量化器的MSE性能。
此外,多个量化器可以包括一个或多个无抖动量化器。一个或多个无抖动量化器可以包括相应均匀标量量化器,其被配置为将相应重构值分配给第一量化指数(而不执行后续抖动移除和/或不应用量化器后增益)。
此外,逆量化单元可以被配置为确定指示属于来自系数块的第一系数(或来自量化系数块的第一量化系数)的SNR的SNR指示。可以基于(典型地也在包括逆量化单元的解码器处可用的)谱块包络并且基于(典型地被包括于从编码器发送到解码器的比特流中的)偏移参数来确定SNR指示。具体地说,SNR指示可以指示待从量化器集合选择的逆量化器(或量化器)的指数数量。逆量化单元可以继续基于SNR指示来从量化器集合选择第一量化器。如在对应量化单元的上下文中概述的那样,当使用有序量化器集合时,可以通过高效方式来实现这种选择处理。此外,逆量化单元可以被配置为使用所选择的第一量化器来确定用于第一系数的第一量化系数。
根据另一方面,描述一种基于变换的音频编码器,被配置为将音频信号编码到比特流中。编码器可以包括量化单元,被配置为通过量化来自系数块的多个系数而确定多个量化指数。量化单元可以包括一个或多个抖动量化器。量化单元可以包括本文献中所描述的任何量化单元有关特征。
多个系数可以与多个对应频率窗关联。如上所述,可以已经从音频信号的分段推导系数块。具体地说,音频信号的分段可以已经从时域变换到频域,以产生变换系数块。可以已经从变换系数块推导由量化单元量化的所述系数块。
所述编码器可以还包括抖动发生器,被配置为选择抖动实现。此外,编码器可以包括熵编码器,被配置为基于变换系数的预定义统计模型来选择码字,其中,变换系数的统计模型(即概率分布函数)可以进一步依赖于抖动的实现。这种统计模型可以于是用于计算量化指数的概率,具体地说,依赖于与系数对应的抖动实现的量化指数的概率。量化指数的概率可以用于生成与该量化指数关联的二进制码字。此外,可以基于量化指数的相应概率来对量化指数序列进行联合编码,其中,相应概率可以依赖于相应抖动实现。例如,可以通过算术编码或距离编码来实现量化指数序列的这种联合编码。
根据另一方面,编码器可以包括抖动发生器,被配置为选择多个预定抖动实现之一。多个预定抖动实现可以包括M个不同预定抖动实现。此外,抖动发生器可以被配置为生成用于基于所选择的抖动实现来量化多个系数的多个抖动值。M可以是大于1的整数。具体地说,预定抖动实现的数量M可以是10、5、4或更小。抖动发生器可以包括本文献中所描述的任何抖动发生器有关特征。
此外,编码器可以包括熵编码器,被配置为从M个预定码书中选择码书。熵编码器可以进一步被配置为使用所选择的码书来对多个量化指数进行熵编码。M个预定码书可以分别与M个预定抖动实现关联。具体地说,可以已经分别使用M个预定抖动实现来训练M个预定码书。M个预定码书可以包括可变长度Huffman码字。
熵编码器可以被配置为选择与由抖动发生器选择的抖动实现关联的码书。换言之,熵编码器可以选择与用于生成多个量化指数的抖动实现关联(例如,已经针对抖动实现而受训练的)的用于熵编码的码书。据此,即使当使用抖动量化器时,也可以改进(例如优化)熵编码器的编码增益。发明人已经观察到,即使当使用相对小数量M个抖动实现时,也可以实现使用抖动量化器的感知益处。因此,为了允许优化的熵编码,仅要提供相对小数量M个码书。
指示已熵编码的量化指数的系数数据典型地插入到比特流中,以用于传输到或提供给对应解码器。根据另一方面,描述一种基于变换的音频解码器,被配置为对比特流进行解码,以提供重构的音频信号。应注意,对应音频编码器的上下文中所描述的特征和方面也可应用于音频解码器。具体地说,与使用有限数量M个抖动实现和对应有限数量M个码书有关的方面也可应用于音频解码器。
音频解码器包括抖动发生器,被配置为选择M个预定抖动实现之一。M个预定抖动实现与由对应编码器所使用的M个预定抖动实现相同。此外,抖动发生器可以被配置为基于所选择的抖动实现来生成多个抖动值。M可以是大于1的整数。通过示例的方式,M可以处于10或5的范围中。包括一个或多个抖动量化器的逆量化单元可以使用多个抖动值,一个或多个抖动量化器被配置为基于对应多个量化指数来确定对应多个量化系数。抖动发生器和逆量化单元可以分别包括本文献中所描述的任何抖动发生器有关特征和逆量化单元有关特征。
此外,音频解码器可以包括熵解码器,被配置为从M个预定码书选择码书。M个预定码书与由对应编码器使用的码书相同。此外,熵解码器可以被配置为使用所选择的码书来对来自比特流的系数数据进行熵解码,以提供多个量化指数。M个预定码书可以分别与M个预定抖动实现关联。熵解码器可以被配置为选择与由抖动发生器所选择的抖动实现关联的码书。基于多个量化系数来确定重构的音频信号。
根据另一方面,描述一种基于变换的话音编码器,被配置为将话音信号编码到比特流中。如以上已经指出的那样,编码器可以包括本文献中所描述的任何编码器有关特征和/或组件。具体地说,编码器可以包括成帧单元,被配置为接收多个顺序变换系数块。多个顺序块包括当前块以及一个或多个先前块。此外,多个顺序块指示话音信号的样本。具体地说,可以已经使用时域到频域变换(如修正离散余弦变换(MDCT))来确定多个顺序块。故此,变换系数块可以包括MDCT系数。变换系数的数量可以受限制。通过示例的方式,变换系数块可包括256个频率窗中的256个变换系数。
此外,话音编码器可以包括平坦化单元,被配置为通过使用对应当前(谱)块包络(例如对应调整包络)来对对应当前变换系数块进行平坦化而确定当前平坦化变换系数块。此外,话音编码器可以包括预测器,被配置为基于一个或多个所重构的先前变换系数块并且基于一个或多个预测器参数来预测所估计的当前平坦化变换系数块。此外,话音编码器可以包括差值单元,被配置为基于当前平坦化变换系数块并且基于所估计的当前平坦化变换系数块来确定当前预测误差系数块。
预测器可以被配置为使用加权均方误差准则(例如通过使得加权均方误差准则最小化)来确定所估计的当前平坦化变换系数块。加权均方误差准则可以考虑当前块包络或当前块包络的某预定义函数作为权重。在本文献中,描述用于使用加权均方误差准则来确定预测器增益的各个不同方式。
此外,话音编码器可以包括量化单元,被配置为使用预定量化器集合来量化从当前预测误差系数块推导出的系数。量化单元可以包括本文献中所描述的任何量化有关特征。具体地说,量化单元可以被配置为基于量化系数来确定用于比特流的系数数据。故此,系数数据可以指示当前预测误差系数块的量化后的版本。
基于变换的话音编码器可以还包括缩放单元,被配置为使用一个或多个缩放规则基于当前预测误差系数块来确定重新缩放的当前预测残差系数块(又称为重新缩放的误差系数块)。重新缩放的当前误差系数块可以被确定为使得,和/或一个或多个缩放规则可以使得:平均而言,重新缩放的当前误差系数块的重新缩放的误差系数的方差大于当前预测误差系数块的预测误差系数的方差。具体地说,一个或多个缩放规则可以使得:预测误差系数的方差对于所有频率窗或频率带更靠近单位1。量化单元可以被配置为量化重新缩放的当前误差系数块的重新缩放的误差预测残差系数,以提供系数数据(即用于系数的量化指数)。
当前预测误差系数块典型地包括用于对应多个频率窗的多个预测误差系数。由缩放单元根据缩放规则而应用于预测误差系数的缩放增益可以取决于各个预测误差系数的频率窗。此外,缩放规则可以取决于一个或多个预测器参数,例如取决于预测器增益。替代地或附加地,缩放规则可以取决于当前块包络。在本文献中,描述用于确定频率窗依赖缩放规则的各个不同方式。
基于变换的话音编码器可以还包括比特分配单元,被配置为基于当前块包络来确定分配矢量。分配矢量可以指示来自待用于对从当前预测误差系数块推导出的第一系数进行量化的量化器集合的第一量化器。具体地说,分配矢量可以指示待用于分别对从当前预测误差系数块推导出的所有系数进行量化的量化器。通过示例的方式,分配矢量可以指示待用于每个频率带的不同量化器(l=1、……、L)。
换言之,比特分配单元可以被配置为基于当前块包络和所给定的最大比特率约束来确定分配矢量。比特分配单元可以被配置为还基于一个或多个缩放规则来确定分配矢量。速率分配矢量的维度典型地等于频率带的数量L。分配矢量的项可以指示来自待用于对属于与速率分配矢量的各个项关联的频率带的系数进行量化的量化器集合的量化器的指数。具体地说,分配矢量可以指示待用于分别对从当前预测误差系数块推导出的所有系数进行量化的量化器。
比特分配单元可以被配置为确定分配矢量,以使得用于当前预测误差系数块的系数数据不超过预定数量的比特。此外,比特分配单元可以被配置为确定指示待应用于从当前块包络推导出的(例如,从当前调整包络推导出的)分配包络的偏移的偏移参数。偏移参数可以包括于比特流中,以使得对应解码器能够标识已经用于确定系数数据的量化器。
基于变换的话音编码器可以还包括熵编码器,被配置为对与量化系数关联的量化指数进行熵编码。熵编码器可以被配置为使用算术编码器来对量化指数进行编码。替代地,熵编码器可以被配置为使用(本文献中所描述的)多个M个预定码书来对量化指数进行编码。
根据另一方面,描述一种基于变换的话音解码器,被配置为对比特流进行解码,以提供重构的话音信号。话音解码器可以包括本文献中所描述的任何特征和/或组件。具体地说,解码器可以包括预测器,被配置为基于一个或多个所重构的先前变换系数块并且基于从比特流推导出的一个或多个预测器参数来确定所估计的当前平坦化变换系数块。此外,话音解码器可以包括逆量化单元,被配置为使用量化器集合基于比特流内所包括的系数数据来确定量化后的当前预测误差系数块(或其重新缩放的版本)。具体地说,逆量化单元可以使用与由对应话音编码器所使用的量化器集合对应的(逆)量化器集合。
逆量化单元可以被配置为取决于从所接收到的比特流推导出的辅助信息来确定量化器集合(和/或对应逆量化器集合)。具体地说,逆量化单元可以执行与对应话音编码器的量化单元相同的用于量化器集合的选择处理。通过使得量化器集合取决于辅助信息,可以改进重构的话音信号的感知质量。
根据另一方面,描述一种用于对系数块的第一系数进行量化的方法。系数块包括用于多个对应频率窗的多个系数。该方法可以包括:提供量化器集合,其中,量化器集合包括分别与多个不同信噪比(SNR)关联的多个不同量化器。多个不同量化器可以包括噪声填充量化器、一个或多个抖动量化器、以及一个或多个无抖动量化器。该方法可以还包括:确定指示属于第一系数的SNR的SNR指示。此外,该方法可以包括:基于SNR指示从量化器集合选择第一量化器,并且使用第一量化器来量化第一系数。
根据另一方面,描述一种用于对量化指数进行解量化的方法。换言之,该方法可以针对确定已经使用用于量化的对应方法所量化的用于系数块的重构值(又称为量化系数)。可以基于量化指数来确定重构值。然而,应注意,可以已经使用噪声填充量化器来量化来自系数块的系数中的一些。在此情况下,可以独立于量化指数来确定用于这些系数的重构值。
如上所述,量化指数与包括用于多个对应频率窗的多个系数的系数块关联。具体地说,量化指数可以与尚未使用噪声填充量化器来量化的系数块中的这些系数一一对应。该方法可以包括:提供量化器(或逆量化器)集合。量化器集合可以包括分别与多个不同信噪比(SNR)关联的多个不同量化器。多个不同量化器可以包括噪声填充量化器、一个或多个抖动量化器、和/或一个或多个无抖动量化器。该方法可以包括:确定指示属于系数块中的第一系数的SNR的SNR指示。该方法可以继续:基于SNR指示从量化器集合选择第一量化器,并且确定用于系数块中的第一系数的第一量化系数(即重构值)。
根据另一方面,描述一种用于将音频信号编码到比特流中的方法。该方法包括:通过使用抖动量化器来量化来自系数块的多个系数而确定多个量化指数。多个系数可以与多个对应频率窗关联。可以从音频信号推导系数块。该方法可以包括:选择M个预定抖动实现之一,并且基于所选择的抖动实现来生成用于量化多个系数的多个抖动值;其中,M是大于1的整数。此外,该方法可以包括:从M个预定码书中选择码书,并且使用所选择的码书对多个量化指数进行熵编码。M个预定码书可以分别与M个预定抖动实现关联,并且所选择的码书可以与所选择的抖动实现关联。此外,该方法可以包括:将指示已经熵编码的量化指数的系数数据插入比特流中。
根据另一方面,描述一种用于对比特流进行解码以提供重构的音频信号的方法。该方法可以包括:选择M个预定抖动实现之一,并且基于所选择的抖动实现来生成多个抖动值;其中,M是大于1的整数。包括抖动量化器的逆量化单元可以使用多个抖动值,以基于对应多个量化指数来确定对应多个量化系数。故此,该方法可以包括:使用抖动(逆)量化器来确定多个量化系数。此外,该方法可以包括:从M个预定码书选择码书,并且使用所选择的码书来对来自比特流的系数数据进行熵解码,以提供多个量化指数。M个预定码书可以分别与M个预定抖动实现关联,并且所选择的码书可以与所选择的抖动实现关联。此外,该方法可以包括:基于多个量化系数来确定重构的音频信号。
根据另一方面,描述一种用于将话音信号编码到比特流中的方法。该方法可以包括:接收包括当前块以及一个或多个先前块的多个顺序变换系数块。多个顺序块可以指示话音信号的样本。此外,该方法可以包括:基于一个或多个所重构的先前变换系数块并且基于预测器参数来确定所估计的当前变换系数块。可以已经从一个或多个先前变换系数块推导一个或多个所重构的先前变换系数块。该方法可以继续:基于当前变换系数块并且基于所估计的当前变换系数块来确定当前预测误差系数块。此外,该方法可以包括:使用量化器集合量化从当前预测误差系数块推导出的系数。量化器集合可以展现本文献中所描述的任何特征。此外,该方法可以包括:基于量化系数来确定用于比特流的系数数据。
根据另一方面,描述一种用于对比特流进行解码以提供重构的话音信号的方法。该方法可以包括:基于一个或多个所重构的先前变换系数块并且基于从比特流推导出的预测器参数来确定所估计的当前变换系数块。此外,该方法可以包括:使用量化器集合基于比特流内所包括的系数数据来确定当前量化预测残差系数块。量化器集合可以具有本文献中所描述的任何特征。该方法可以继续:基于所估计的当前变换系数块并且基于量化后的当前预测误差系数块来确定重构的当前变换系数块。可以基于重构的当前变换系数块来确定重构的话音信号。
根据另一方面,描述一种软件程序。软件程序可以适用于在处理器上的运行,并且适用于当在处理器上执行时执行本文献中所概述的方法步骤。
根据另一方面,描述一种存储介质。存储介质可以包括软件程序,软件程序适用于在处理器上的运行,并且适用于当在处理器上执行时执行本文献中所概述的方法步骤。
根据另一方面,描述一种计算机程序产品。计算机程序可以包括用于执行当在计算机上执行时执行本文献中概述的方法步骤的可执行指令。
应注意,包括本专利申请中所概述的其优选实施例的方法和系统可以单机地使用,或与该文献中所公开的其它方法和系统组合而使用。此外,本专利申请中所概述的方法和系统的所有方面可以通过各种方式组合。具体地说,权利要求的特征可以通过任意方式彼此组合。
附图说明
以下参照附图以示例性方式解释本发明,其中,
图1a示出按恒定比特率提供比特流的示例音频编码器的框图;
图1b示出按可变比特率提供比特流的示例音频编码器的框图;
图2示出基于多个变换系数块生成示例包络;
图3a示出变换系数块的示例包络;
图3b示出确定示例内插包络;
图4示出示例量化器集合;
图5a示出示例音频解码器的框图;
图5b示出图5a的音频解码器的示例包络解码器的框图;
图5c示出图5a的音频解码器的示例子带预测器的框图;
图5d示出图5a的音频解码器的示例谱解码器的框图;
图6a示出示例许可量化器集合的框图;
图6b示出示例抖动量化器的框图;
图6c示出基于变换系数块的谱的量化器的示例选择;
图7示出用于确定在编码器处以及在对应解码器处的量化器集合的示例方案;
图8示出用于对已经使用抖动量化器所确定的已经熵编码的量化指数进行解码的示例方案的框图;
图9a至图9c示出示例实验结果;以及
图10示出示例比特分配处理。
具体实施方式
如背景部分中所概述的那样,期望提供一种对于话音信号或语音信号展现相对高的编码增益的基于变换的音频编解码器。该基于变换的音频编解码器可以称为基于变换的话音编解码器或基于变换的语音编解码器。基于变换的话音编解码器可以传统地与普通的基于变换的音频编解码器(如AAC或HE-AAC)组合,因为其也在变换域中运算。此外,由于两个编解码器在变换域中运算的事实,输入音频信号的分段(例如帧)成为话音或非话音的分类以及随后在普通音频编解码器和特定话音编解码器之间的切换可以得以简化。
图1a示出示例基于变换的话音编码器100的框图。编码器100作为输入接收变换系数块131(又称为编码单元)。被配置为将输入音频信号的样本序列从时域变换到变换域的变换单元可以已经获得变换系数块131。变换单元可以被配置为执行MDCT。变换单元可以是普通音频编解码器(如AAC或HE-AAC)的一部分。该普通音频编解码器可以使用不同的块大小(例如长块和短块)。示例块大小对于长块是1024个样本,对于短块是256个样本。假设44.1kHz的样本速率以及50%的重叠,那么长块覆盖近似20ms的输入音频信号,短块覆盖近似5ms的输入音频信号。长块典型地用于输入音频信号的固定分段,短块典型地用于输入音频信号的瞬时分段。
话音信号可以被看作在大约20ms的时间分段中是固定的。具体地说,话音信号的谱包络可以被看作在大约20ms的时间分段中是固定的。为了能够对于这种20ms的分段在变换域中推导有意义的统计,为基于变换的话音编码器100提供(具有例如5ms的长度的)短变换系数块131可能是有用的。据此,多个短块131可以用于关于例如20ms的时间分段(例如长块的时间分段)推导统计。此外,这样具有对于话音信号提供足够的时间分辨率的优点。
因此,变换单元可以被配置为:如果输入音频信号的当前分段分类为话音,则提供短变换系数块131。编码器100可以包括成帧单元101,被配置为提取多个变换系数块131,称为块131的集合132。块集合132可以又称为帧。通过示例的方式,块131的集合132可以包括256个变换系数的四个短块,由此覆盖输入音频信号的近似20ms分段。
块集合132可以提供给包络估计单元102。包络估计单元102可以被配置为基于块集合132来确定包络133。包络133可以基于块集合132内所包括的多个块131的对应变换系数的均方根(RMS)值。块131典型地提供在对应多个频率窗(bin)301中的多个变换系数(例如256个变换系数)(见图3a)。多个频率窗301可以组成为多个频率带302。可以基于心理声学考虑来选择多个频率带302。通过示例的方式,频率窗301可以根据对数刻度或Bark刻度而组成为频率带302。已经基于当前块集合132而确定的包络134可以分别包括用于多个频率带302的多个能量值。可以基于与落入特定频率带302的频率窗301对应的集合132的块131的变换系数来确定用于特定频率带302的特定能量值。可以基于这些变换系数的RMS值来确定特定能量值。故此,用于当前块集合132的包络133(称为当前包络133)可以指示当前块集合132内所包括的变换系数块131的平均包络,或可以指示用于确定包络133的变换系数块132的平均包络。
应注意,可以基于与当前块集合132相邻的一个或多个另外变换系数块131来确定当前包络133。图2中示出该情况,其中,基于当前块集合132中的块131并且基于来自超前于当前块集合132的块集合的块201来确定(量化后的当前包络134所指示的)当前包络133。在所示示例中,基于五个块131来确定当前包络133。通过当确定当前包络133时考虑相邻块,可以确保相邻块集合132的包络的连续性。
当确定当前包络133时,不同块131的变换系数可以加权。具体地说,关于确定当前包络133所考虑的最外块201、202可以具有比其余块131更低的权重。通过示例的方式,最外块201、202的变换系数可以加权以0.5,其中,其它块131的变换系数可以加权以1。
应注意,通过与考虑超前块集合132中的块201相似的方式,关于确定当前包络133可以考虑直接随后块集合132中的一个或多个块(所谓的先行(look-ahead)块)。
当前包络133的能量值可以表示在对数刻度上(例如dB刻度上)。当前包络133可以提供给包络量化单元103,其被配置为量化当前包络133的能量值。包络量化单元103可以提供预定量化器分辨率(例如3dB的分辨率)。可以在编码器100所生成的比特流内提供包络133的量化指数作为包络数据161。此外,量化后的包络134(即包括包络133的量化后的能量值)的包络可以提供给内插单元104。
内插单元104被配置为基于量化后的当前包络134并且基于(已经对于直接超前于当前块集合132的块集合132所确定的)量化后的先前包络135来确定用于当前块集合132中的每个块131的包络。图2、图3a和图3b示出内插单元104的运算。图2示出变换系数块131的序列。块131的序列分组成为连续块集合132,其中,每个块集合132用于确定量化后的包络(例如量化后的当前包络134和量化后的先前包络135)。图3a示出量化后的先前包络135和量化后的当前包络134的示例。如以上所指示的那样,包络可以指示谱能量303(例如在dB刻度上)。可以(例如使用线性内插)插入针对相同频率带302的量化后的先前包络135和量化后的当前包络134的对应能量值303,以确定内插包络136。换言之,可以插入特定频率带302的能量值303,以提供特定频率带302内的内插包络136的能量值303。
应注意,对于其确定并且应用内插包络136的块集合可以不同于确定量化后的当前包络134所基于的当前块集合132。图2中示出该情况,图2示出移位的块集合332,其与当前块集合132相比是移位的,并且包括(标号203和201分别指示的)先前块集合132中的块3和4以及(标号204和205分别指示的)当前块集合132中的块1和2。事实上,与对于当前块集合132中的块的相关性相比,基于量化后的当前包络134并且基于量化后的先前包络135所确定的内插包络136可以具有关于移位的块集合332中的块的增加的相关性。
因此,图3b所示的内插包络136可以用于对移位的块集合332中的块131进行平坦化。图3b与图2组合来示出该情况。可见,图3b的内插包络341可以应用于图2的块203,图3b的内插包络342可以应用于图2的块201,图3b的内插包络343可以应用于图2的块204,图3b的内插包络344(其在所示示例中与量化后的当前包络136对应)可以应用于图2的块205。故此,用于确定量化后的当前包络134的块集合132可以与对于其确定内插包络136并且对于其应用内插包络136(以用于平坦化目的)的移位的块集合332不同。具体地说,可以关于待使用量化后的当前包络134来平坦化的移位的块集合332中的块203、201、204、205使用特定先行来确定量化后的当前包络134。从连续性观点来看,这是有益的。
图3b示出能量值303的内插以确定内插包络136。可见,可以对于移位的块集合332中的块131来确定从量化后的先前包络135的能量值到内插包络136的量化后的当前包络134能量值中的对应能量值之间的内插。具体地说,对于移位的集合332中的每个块131,可以确定内插包络136,由此提供用于移位的块集合332中的多个块203、201、204、205的多个内插包络136。变换系数块131(例如移位的块集合332中的任何块203、201、204、205)的内插包络136可以用于对变换系数块131进行编码。应注意,当前包络133的量化指数161在比特流内提供给对应的解码器。因此,对应的解码器可以被配置为以与编码器100的内插单元104类似的方式来确定多个内插包络136。
成帧单元101、包络估计单元103、包络量化单元103和内插单元104对块集合(即当前块集合132和/或移位的块集合332)进行运算。另一方面,可以在逐个块的基础上执行变换系数的实际编码。以下,谈及当前变换系数块131(其可以是移位的块集合332(或可能地,在基于变换的话音编码器100的其它实现方式中的当前块集合132)中的多个块131中的任一个)的编码。
用于当前块131的当前内插包络136可以提供当前块131的变换系数的谱包络的近似。编码器100可以包括预平坦化单元105和包络增益确定单元106,这些单元被配置为基于当前内插包络136并且基于当前块131来确定用于当前块131的调整包络139。具体地说,可以确定用于当前块131的包络增益,以使得当前块131的平坦化后的变换系数的方差受调整。X(k),k=1、……、K可以是当前块131的变换系数(其中,例如K=256),E(k),k=1、……、K可以是当前内插包络136的平均谱能量值303(其中,相同频率带302的能量值E(k)是相等的)。可以确定包络增益α,以使得平坦化后的变换系数的方差受调整。具体地说,可以确定包络增益α,以使得方差为1。
应注意,可以对于当前变换系数块131的整个频率范围的子范围来确定包络增益α。换言之,可以仅基于频率窗301的子集和/或仅基于频率带302的子集来确定包络增益α。通过示例的方式,可以基于大于起始频率窗304的频率窗301来确定包络增益α(起始频率窗大于0或1)。因此,可以通过将包络增益α仅应用于与位于起始频率窗304之上的频率窗301关联的当前内插包络136的平均谱能量值303来确定用于当前块131的调整包络139。因此,用于当前块131的调整包络139对于在起始频率窗处及其之下的频率窗301可以与当前内插包络136对应,并且对于在起始频率窗之上的频率窗301可以与包络增益α所偏移的当前内插包络136对应。在图3a中通过调整包络339示出该情况(以虚线示出)。
包络增益α137(其又称为等级校正增益)对于当前内插包络136的应用与当前内插包络136的调整或偏移对应,由此产生调整包络139,如图3a所示。包络增益α137可以作为增益数据162编码到比特流中。
编码器100可以还包括包络细化单元107,其被配置为基于包络增益α137并且基于当前内插包络136来确定调整包络139。调整包络139可以用于变换系数块131的信号处理。与当前内插包络136(其可以按3dB步长为单位而量化)相比,包络增益α137可以量化为更高的分辨率(例如,以1dB步长为单位)。故此,调整包络139可以量化为包络增益α137的更高的分辨率(例如,以1dB步长为单位)。
此外,包络细化单元107可以被配置为确定分配包络138。分配包络138可以与调整包络139的量化后的版本(例如量化为3dB量化等级)对应。分配包络138可以用于比特分配的目的。具体地说,分配包络138可以用于针对当前块131的特定变换系数来确定来自预定量化器集合的特定量化器,其中,特定量化器用于量化特定变换系数。
编码器100包括平坦化单元108,被配置为使用调整包络139对当前块131进行平坦化,由此产生平坦化后的变换系数的块140。可以在变换域内使用预测环路来对平坦化后的变换系数的块140进行编码。故此,可以使用子带预测器117来对块140进行编码。预测环路包括差值单元115,被配置为基于平坦化后的变换系数的块140并且基于所估计的变换系数的块150来确定预测误差系数Δ(k)的块141,例如应注意,由于块140包括平坦化后的变换系数(即已经使用调整包络139的能量值303归一化或平坦化后的变换系数)的事实,所估计的变换系数块150还包括平坦化后的变换系数的估计。换言之,差值单元115在所谓的平坦化域中操作。因此,在平坦化域中表示预测误差系数Δ(k)的块141。
预测误差系数Δ(k)的块141可以展现与1不同的方差。编码器100可以包括重新缩放单元111,被配置为重新缩放预测误差系数Δ(k),以产生重新缩放的误差系数块142。重新缩放单元111可以使用一个或多个预定启发式规则来执行重新缩放。因此,重新缩放的误差系数块142展现(平均)更接近1的方差(与预测误差系数块141相比)。这对于后续量化和编码可以是有益的。
编码器100包括系数量化单元112,被配置为量化预测误差系数块141或重新缩放的误差系数块142。系数量化单元112可以包括或可以使用预定量化器集合。预定量化器集合可以提供具有不同精确度或不同分辨率的量化器。图4中示出该情况,其中,示出不同的量化器321、322、323。不同量化器可以提供(不同的dB值所指示的)不同精度等级。多个量化器321、322、323中的特定量化器可以与分配包络138的特定值对应。故此,分配包络138的能量值可以指向多个量化器中的对应量化器。故此,确定分配包络138可以简化待用于特定误差系数的量化器的选择处理。换言之,分配包络138可以简化比特分配处理。
量化器集合可以包括对于量化误差进行随机化而使用抖动的一个或多个量化器322。图4中示出该情况,图4示出包括抖动量化器子集324的第一预定量化器集合326以及包括抖动量化器子集325的第二预定量化器集合327。故此,系数量化单元112可以使用不同的预定量化器集合326、327,其中,待由系数量化单元112使用的预定量化器集合可以取决于由预测器117所提供的和/或基于在编码器处并且在对应解码器处可用的其它辅助信息所确定的控制参数146。具体地说,系数量化单元112可以被配置为基于控制参数146来选择用于量化重新缩放的误差系数块142的预定量化器集合326、327,其中,控制参数146可以取决于由预测器117所提供的一个或多个预测器参数。一个或多个预测器参数可以指示由预测器117所提供的所估计的变换系数块150的质量。
可以使用例如Huffman码来对量化后的误差系数进行熵编码,由此产生待包括于编码器100所生成的比特流中的系数数据163。
以下描述关于选择或确定量化器321、322、323的集合326的其它细节。量化器集合326可以与有序量化器群326对应。有序量化器群326可以包括N个量化器,其中,每个量化器可以与不同失真等级对应。故此,量化器群326可以提供N个可能的失真等级。群326中的量化器可以根据下降失真(或等同地根据增加SNR)而排序。此外,可以通过整数标记来标记量化器。通过示例的方式,量化器可以标记0、1、2等,其中,增加的整数标记可以指示增加的SNR。
量化器群326可以是这样的:两个连续量化器之间的SNR间隔是至少近似恒定的。例如,具有标记“1”的量化器的SNR可以是1.5dB,具有标记“2”的量化器的SNR可以是3.0dB。因此,有序量化器群326中的量化器可以是这样的:对于所有成对的第一量化器和第二量化器,通过从第一量化器改变为相邻第二量化器,SNR(信噪比)增加基本上恒定的值(例如1.5dB)。
量化器群326可以包括:
·噪声填充量化器321,其可以提供稍微小于或等于0dB(其对于速率分配处理可以近似为0dB)的SNR。
·Ndith量化器322,其可以使用减法抖动,并且典型地与中等SNR等级对应(例如Ndith>0);以及
·Ncq传统量化器323,其不使用减法抖动,并且典型地与相对高的SNR等级对应(例如Ncq>0)。无抖动量化器323可以与标量量化器对应。
量化器的总数量N由N=1+Ndith+Ncq给出。
图6a示出量化器群326的示例。可以例如使用根据预定义统计模型输出随机变量的实现的随机数发生器来实现量化器群326的噪声填充量化器321。这种随机数发生器的可能实现方式可以包括使用具有预定义统计模型的随机样本并且可能地后续重新归一化的固定表。在编码器100处所使用的随机数发生器与在对应解码器处的随机数发生器同步。可以通过使用公共种子来对随机数发生器进行初始化和/或通过在固定时刻重置数发生器的状态来获得随机数发生器的同步性。替代地,发生器可以实现为包含根据规定的统计模型所生成的随机数据的查找表。具体地说,如果预测器是有效的,则可以确保噪声填充量化器321的输出在编码器100处和在对应解码器处是相同的。
此外,量化器群326可以包括一个或多个抖动量化器322。可以使用图6a所示的伪随机抖动信号602的实现来生成一个或多个抖动量化器。伪随机抖动信号602可以与伪随机抖动值块602对应。抖动块602数量可以具有与待量化的重新缩放的误差系数块142的维度相同的维度。可以使用抖动发生器601来生成抖动信号602(或抖动值块602)。具体地说,可以使用包含均匀分布的随机样本的查找表来生成抖动信号602。
如图6b的上下文中将示出的那样,抖动值块602的各个抖动值632用于将抖动应用于待量化的对应系数(例如,应用于重新缩放的误差系数块142的对应重新缩放的误差系数)。重新缩放的误差系数块142可以包括总共K个重新缩放的误差系数。以相似的方式,抖动值块602可以包括K个抖动值632。抖动值块602的第k抖动值632(其中,k=1、……、K)可以应用于重新缩放的误差系数块142的第k重新缩放的误差系数。
如上所述,抖动值块602可以具有与待量化的重新缩放的误差系数块142相同的维度。这是有益的,因为这允许对于量化器群326的所有抖动量化器322使用单个抖动值块602。换言之,为了对给定的重新缩放的误差系数块142进行量化并且编码,可以对于所有许可量化器群326、327并且对于所有可能分配仅一次生成伪随机抖动602用于失真。由于单个抖动信号602的使用并不需要显式地传送到对应解码器,因此这便于实现编码器100与对应解码器之间的同步性。具体地说,编码器100和对应解码器可以使用被配置为对于重新缩放的误差系数块142生成相同抖动值块602的相同抖动发生器601。
量化器群326的构成优选地基于心理声学考虑。低速率变换编码可能产生谱假象,其包括由在应用于变换系数的传统量化方案中发生的逆水填充(reverse-waterfilling)处理的性质所触发的谱空洞和带限制。谱空洞的可听性可能因噪声注入到这些频率带302中而减少,其发生在水等级之下达短时间段并且因此分配以零比特率。
频域中的系数的粗量化可能产生在当特定频率带302的系数在一个帧中量化为零(在深谱空洞的情况下)并且在下一帧中量化为非零值时并且当整个处理重复达几十毫秒时的情形中所生成的特定编码假象(例如深谱空洞,所谓的“啁啾”)。量化器越粗,它们就越倾向于产生这种行为。可以通过将噪声填充应用于对于在0等级的信号重构所使用的量化指数来解决该技术问题(如例如在US7447631中所概述的那样)。US7447631中所描述的解决方案促进假象的减少,因为其减少了与0等级量化相关联的深谱空洞的可听性,然而,与较浅谱空洞关联的假象仍在。可以将噪声填充方法也应用于粗量化器的量化指数。然而,这将使得这些量化器的MSE性能显著降级。发明人已经发现,可以通过使用抖动量化器来解决该缺点。在本文献中,提出关于低SNR等级使用具有减法抖动的量化器322,以解决MSE性能问题。此外,使用具有减法抖动的量化器322对于所有重构等级促进噪声填充性质。由于抖动量化器322是在任何比特率可分析地易处理的,因此可以通过推导后增益614来减少(例如最小化)由于抖动的性能损失,这在高失真等级(即低速率)是有用的。
通常,可以使用抖动量化器322来实现任意低比特率。例如,在标量的情况下,可以选取使用非常大的量化步长大小。然而,零比特率操作在实践中是不可行的,因为其将对在可变长度编码器的情况下启用量化器的运算所需的数值精度施加苛刻的要求。这提供用于将普通噪声填充量化器321应用于0dBSNR失真等级而不是应用抖动量化器322的动机。所提出的量化器群326被设计为这样的:抖动量化器322用于与相对小的步长大小相关联的失真等级,以使得可以在无须解决与保持数值精度有关的问题的情况下实现可变长度编码。
对于标量量化的情况,可以使用提供近乎优化的MSE性能的后增益来实现具有减法抖动的量化器322。图6b示出减法抖动标量量化器322的示例。抖动量化器322包括均匀标量量化器Q612,其用在减法抖动结构内。减法抖动结构包括抖动减法单元611,其被配置为从对应误差系数(从重新缩放的误差系数块142)中减去(来自抖动值块602的)抖动值632。此外,减法抖动结构包括对应加法单元613,其被配置为将(来自抖动值块602的)抖动值632与对应标量量化误差系数相加。在所示示例中,抖动减法单元611放置在标量量化器Q612的上游,抖动加法单元613放置在标量量化器Q612的下游。来自抖动值块602的抖动值632可以从区间[-0.5,0.5)或[0,1)乘以标量量化器612的步长大小取值。应注意,在抖动量化器322的替代实现方式中,抖动减法单元611和抖动加法单元613可以彼此交换。
减法抖动结构可以跟随缩放单元614,其被配置为通过量化器后增益γ来重新缩放量化后的误差系数。在量化后的误差系数的缩放之后,获得量化后的误差系数块145。应注意,抖动量化器322的输入X典型地与落入待使用抖动量化器322来量化的特定频率带中的重新缩放的误差系数块142的系数对应。以相似的方式,抖动量化器322的输出典型地与落入特定频率带中的量化后的误差系数块145的量化系数对应。
可以假设对抖动量化器322的输入X是零均值,并且输入X的方差是已知的。(例如,可以从信号的包络来确定信号的方差)。此外,可以假设包括抖动值632的伪随机抖动块Z602对于编码器100和对应解码器是可用的。此外,可以假设抖动值632独立于输入X。可以使用各个不同的抖动602,但以下假设抖动Z602均匀地分布在0至Δ之间,这可以表示为U(0,Δ)。在实践中,可以使用满足所谓的Schuchman条件的任何抖动器(例如均匀地分布在[-0.5,0.5)乘以标量量化器612的步长大小Δ之间的抖动器602)。量化器Q612可以是点阵,其Voronoi单元的范围可以是Δ。在此情况下,抖动信号将在所使用的点阵的Voronoi单元上具有均匀分布。
由于抖动量化器对于任何步长大小(即比特率)是可分析地易处理的,因此给定信号的方差和量化步长大小,可以推导量化器后增益γ。具体地说,可以推导后增益,以改进具有减法抖动的量化器的MSE性能。后增益可以由下式给出:
即使通过应用后增益γ,也可以改进抖动量化器322的MSE性能,抖动量化器322典型地具有比没有抖动的量化器更低的MSE性能(虽然这种性能损失随着比特率增加而消失)。因此,通常,抖动量化器是比它们的无抖动版本更有噪声的。因此,可以期望仅当由抖动量化器322的感知上有益的噪声填充属性来调节抖动量化器322的使用时使用抖动量化器322。
因此,可以提供包括三种类型的量化器的量化器群326。有序量化器群326可以包括单个噪声填充量化器321、一个或多个具有减法抖动的量化器322、以及一个或多个传统(无抖动)量化器323。连续量化器321、322、323可以提供对于SNR的增长的改进。有序量化器群326的一对相邻量化器之间的增长的改进对于一些或所有成对相邻量化器可以基本上是恒定的。
特定群326内所包括的抖动量化器322的数量和无抖动量化器323的数量可以定义特定量化器群326。此外,抖动信号602的特定实现可以定义特定量化器群326。可以设计群326,以提供呈现以下情况的变换系数的感知上高效的量化:零速率噪声填充(产生稍微小于或等于0dB的SNR);在中等失真等级的减法抖动进行的噪声填充(中等SNR);以及在低失真等级的噪声填充的缺少(高SNR)。群326提供可以在速率分配处理期间选择的许可量化器集合。在速率分配处理期间确定从量化器群326到特定频率带302的系数的特定量化器的应用。其典型地并非先验已知哪个量化器将用于量化特定频率带302的系数。然而,典型地先验已知量化器群326的构成是什么。
图6c示出对于误差系数块142的不同频率带302使用不同类型的量化器的方面,其中,示出速率分配处理的示例性结果。在该示例中,假设速率分配服从所谓的逆水填充原理。图6c示出输入信号的谱625(或待量化的系数块的包络)。可见,频率带623具有相对高的谱能量,并且被使用提供相对低失真等级的传统量化器323而量化。频率带622展现在水等级624之上的谱能量。可以使用提供中等失真等级的抖动量化器322来量化这些频率带622中的系数。频率带621展现在水等级624之下的谱能量。可以使用零速率噪声填充来量化这些频率带621中的系数。用于量化(谱625所表示的)特定系数块的不同量化器可以是已经对于特定系数块确定的特定量化器群326的一部分。
因此,可以有选择地(例如关于频率有选择地)应用三种不同类型的量化器321、322、323。可以在下述的速率分配过程的上下文中确定关于特定类型的量化器的应用的判断。速率分配过程可以使用可以从输入信号的RMS包络(或例如从信号的功率谱密度)推导出的感知准则。待在特定频率带302中应用的量化器的类型无需显式地传送到对应解码器。由于对应解码器能够确定用于对来自潜在感知准则(例如分配包络138)、来自量化器群的预定构成(例如不同量化器群的预定集合)、以及来自单个全局速率分配参数(又称为偏移参数)的输入信号块进行量化的特定量化器集合326,因此无需传送所选择的量化器的类型。
通过设计量化器群326来促进在由编码器100已经使用的量化器群326的解码器处的确定,以使得量化器根据它们的失真(例如SNR)而排序。群326的每个量化器可以降低超前量化器的失真(可以细化SNR)达恒定值。此外,在整个速率分配处理期间,特定量化器群326可以与伪随机抖动信号602的单个实现关联。因为这样,所以速率分配过程的结果不影响抖动信号602的实现。这对于确保速率分配过程的收敛性是有益的。此外,如果解码器获知抖动信号602的单个实现,则这使得解码器能够执行解码。解码器可以通过在编码器100处以及在对应解码器处使用相同伪随机抖动发生器601来得知抖动信号602的实现。
如上所述,编码器100可以被配置为执行比特分配处理。为此,编码器100可以包括比特分配单元109、110。比特分配单元109可以被配置为确定对于对重新缩放的当前误差系数块142进行编码可用的比特的总数量143。可以基于分配包络138来确定比特的总数量143。取决于分配包络138中的对应能量值,比特分配单元110可以被配置为提供比特对于不同的重新缩放的误差系数的相对分配。
比特分配处理可以使用迭代分配过程。在分配过程中,可以使用偏移参数来偏移分配包络138,由此选择具有增加的/降低的分辨率的量化器。故此,偏移参数可以用于细化或粗化整个量化。可以确定偏移参数,以使得使用由偏移参数和分配包络138所给定的量化器所获得的系数数据163包括对应于(或不超过)分配给当前块131的比特的总数量143的比特数量。用于对当前块131进行编码的编码器100已经使用的偏移参数作为系数数据163包括于比特流中。因此,使得对应解码器能够确定系数量化单元112已经使用来量化重新缩放的误差系数块142的量化器。
故此,可以在编码器100处执行速率分配处理,其中,其目的是根据感知模型来分布可用的比特143。感知模型可以取决于从变换系数块131推导出的分配包络138。速率分配算法在不同类型的量化器(即零速率噪声填充321、一个或更多个抖动量化器322以及一个或多个传统无抖动量化器323)之间分布可用的比特143。对于用于量化谱的特定频率带302的系数的量化器的类型的最终判断可以取决于感知信号模型、伪随机抖动的实现、以及比特率约束。
在对应解码器处,(分配包络138和偏移参数所指示的)比特分配可以用于确定量化指数的概率,以促进无损解码。可以使用量化指数的概率的计算方法,其采用满频带伪随机抖动602、用信号包络138参数化的感知模、以及速率分配参数(即偏移参数)的用法。使用分配包络138、偏移参数、以及关于抖动值块602的知识,在解码器处的量化器群326的构成可以与在编码器100处使用的群326同步。
如上所述,可以鉴于每帧的最大允许比特数量143来指定比特率约束。这应用于例如随后使用例如Huffman码来熵编码的量化指数。具体地说,这应用在以下情形中:以顺序方式生成比特流,其中一次量化单个参数,并且其中对应的量化指数被转换为随附到比特流的二进制码字。
如果使用算术编码(或距离编码),则原理是不同的。在算术编码的上下文中,典型地,单个码字分配给长量化指数序列。典型地无法将比特流的特定部分与特定参数确切地关联。具体地说,在算术编码的上下文中,对信号的随机实现进行编码所需的比特的数量典型地是未知的。即使信号的统计模型是已知的,情况亦然。
为了解决上述技术问题,提议使得算术编码器成为速率分配算法的一部分。在速率分配处理期间,编码器尝试对一个或更多个频率带302的系数集合进行量化并且编码。对于每次这样的尝试,可以观测算术编码器的状态的改变并且计算要在比特流中前进的位置的数量(而不是计算比特的数量)。如果设置最大比特率约束,则该最大比特率约束可以用在速率分配过程中。算术码的终止比特的代价可以包括于最新编码的参数的代价中,并且通常,终止比特的代价可以取决于算术编码器的状态而变化。然而,一旦终止代价是可用的,就可以确定对与一个或更多个频率带302的系数集合相对应的量化指数进行编码所需的比特数量。
应注意,在算术编码的上下文中,抖动器602的单个实现可以用于(特定系数块142的)整个速率分配处理。如上所述,算术编码器可以用于估计速率分配过程内的特定量化器选择的比特率代价。可以观测算术编码器的状态的改变,并且状态改变可以用于计算执行量化所需的比特数量。此外,算术码的终止的处理可以用在速率分配处理中之内。
如上所述,可以使用算术码或熵码来对量化指数进行编码。如果量化指数是熵编码的,则可以考虑量化指数的概率分布,以将变化长度的码字分配给单独的或成组的量化指数。使用抖动可以对量化指数的概率分布具有影响。具体地说,抖动信号602的特定实现可以对量化指数的概率分布具有影响。由于抖动信号602的虚拟无限数量的实现,在一般情况下,码字概率并非先验已知并且无法使用Huffman编码。
发明人已经观测到,有可能将可能的抖动实现的数量减少到相对小的并且可管理的抖动信号602的实现集合。通过示例的方式,对于每个频率带302,可以提供有限抖动值集合。为此,编码器100(以及对应解码器)可以包括分立式抖动发生器801,被配置为通过选择M个预定抖动实现之一来生成抖动信号602(见图8)。通过示例的方式,可以对于每一频率带302使用M个不同预定抖动实现。预定抖动实现的数量M可以是M<5(例如M=4或M=3)。
由于抖动实现的有限数量M,可以对于每个抖动实现训练(可能地多维)Huffman码书,从而产生M个码书群803。编码器100可以包括码书选择单元802,其被配置为基于所选择的抖动实现来选择M个预定码书群803之一。据此,确保熵编码同步于抖动器生成。所选择的码书811可以用于对已经使用所选择的抖动实现来量化的单独的或成组的量化指数进行编码。因此,当使用抖动量化器时,可以改进熵编码的性能。
预定码书群803和分立式抖动发生器801也可以用在对应解码器处(如图8所示)。如果使用伪随机抖动,并且如果解码器保持与编码器100同步,则解码是可行的。在此情况下,在解码器处的分立式抖动发生器801生成抖动信号602,并且特定抖动实现与来自码书群803的特定Huffman码书811唯一地关联。给定(例如由分配包络138和速率分配参数表示的)心理声学模型和所选择的码书811,解码器能够使用Huffman解码器551来执行解码,以产生所解码的量化指数812。
如此,可以使用相对小的Huffman码书集合803,而不是算术编码。来自Huffman码书集合813的特定码书811的使用可以取决于抖动信号602的预定实现。同时,可以使用形成M个预定抖动实现的有限许可抖动值集合。速率分配处理可以因此包括使用无抖动量化器、抖动量化器和Huffman编码。
作为重新缩放的误差系数的量化的结果,获得量化后的误差系数块145。量化后的误差系数块145与在对应解码器处可用的误差系数块对应。因此,量化后的误差系数块145可以用于确定所估计的变换系数块150。编码器100可以包括逆重新缩放单元113,被配置为执行由重新缩放单元113执行的重新缩放的逆操作,由此产生缩放的量化后的误差系数块147。加法单元116可以用于通过将所估计的变换系数块150与缩放的量化后的误差系数块147相加来确定重构的平坦化系数块148。此外,逆平坦化单元114可以用于将调整包络139应用于重构的平坦化系数块148,由此产生重构的系数块149。重构的系数块149与在对应解码处可用的变换系数块131的版本对应。因此,重构的系数块149可以用在预测器117中,以确定所估计的系数块150。
重构的系数块149表示在非平坦化域中,即重构的系数块149还表示当前块131的谱包络。如下所述,这对于预测器117的性能可能是有益的。
预测器117可以被配置为基于一个或多个重构的先前系数块149来估计所估计的变换系数块150。具体地说,预测器117可以被配置为确定一个或多个预测器参数,以使得预定预测误差准则减少(例如最小化)。通过示例的方式,可以确定一个或多个预测器参数,以使得预测误差系数块141的能量或感知加权能量减少(例如最小化)。一个或多个预测器参数可以作为预测器数据164包括于由编码器100生成的比特流中。
预测器117可以使用如专利申请US61750052以及要求其优先权的专利申请中所描述的信号模型,其内容通过引用合并到此。一个或多个预测器参数可以与信号模型的一个或多个模型参数对应。
图1b示出另一示例性基于变换的话音编码器170的框图。图1b的基于变换的话音编码器170包括图1a的编码器100的很多组件。然而,图1b的基于变换的话音编码器170被配置为生成具有可变比特率的比特流。为此,编码器170包括平均比特率(ABR)状态单元172,被配置为保持跟踪由超前块131的比特流已经用掉的比特率。比特分配单元171使用该信息,以用于确定对于对当前变换系数块131进行编码可用的比特的总数量143。
总体上,基于变换的话音编码器100、170被配置为生成指示或包括以下项的比特流:
·指示量化后的当前包络134的包络数据161。量化后的当前包络134用于描述变换系数块的当前集合132或移位的集合332中的块的包络。
·指示用于调整当前变换系数块131的内插包络136的等级校正增益α的增益数据162。典型地,对于块的当前集合132或移位的集合332中的每个块131提供不同的增益α。
·指示用于当前块131的预测误差系数块141的系数数据163。具体地说,系数数据163指示量化后的误差系数块145。此外,系数数据163可以指示可以用于确定用于在解码器处执行逆量化的量化器的偏移参数。
·指示待用于确定来自先前重构的系数块149的所估计的系数块150的一个或多个预测器系数的预测器数据164。
以下,在图5a至图5d的上下文中描述对应的基于变换的话音解码器500。图5a示出示例性基于变换的话音解码器500的框图。框图示出合成滤波器组504(又称为逆变换单元),其用于将重构的系数块149从变换域转换到时域,由此产生所解码的音频信号的样本。合成滤波器组504可以使用具有预定跨距(例如近似5ms或256个样本的跨距)的逆MDCT。
解码器500的主环路以该跨距为单位来运算。每个步长产生具有与系统的预定带宽设置对应的长度或维度的变换域矢量(又称为块)。在高达合成滤波器组504的变换大小的零填充时,变换域矢量将用于把预定长度(例如5ms)的时域信号更新合成到合成滤波器组504的重叠/相加处理。
如上所述,普通基于变换的音频编解码器典型地采用具有在5ms范围中的短块序列的帧,以用于瞬时处理。故此,普通基于变换的音频编解码器提供必要的变换和窗口切换工具,以用于短块和长块的无缝共存。通过省略图5a的合成滤波器组504所定义的语音谱前端可以因此方便地集成到通用基于变换的音频编解码器中,而无需引入附加切换工具。换言之,图5a的基于变换的话音解码器500可以方便地与普通基于变换的音频解码器组合。具体地说,图5a的基于变换的话音解码器500可以使用由普通基于变换的音频解码器(例如AAC解码器或HE-AAC解码器)所提供的合成滤波器组504。
包络解码器503可以根据到来比特流(具体地说,根据比特流内所包括的包络数据161和增益数据162)来确定信号包络。具体地说,包络解码器503可以被配置为基于包络数据161和增益数据162来确定调整包络139。故此,包络解码器503可以执行与编码器100、170的内插单元104和包络细化单元107相似的任务。如上所述,调整包络109表示预定义频率带集合302中的信号方差的模型。
此外,解码器500包括逆平坦化单元114,其被配置为将调整包络139应用于平坦化域矢量,平坦化域矢量的条目可以通常为方差1。平坦化域矢量与编码器100、170的上下文中所描述的重构的平坦化系数块148对应。在逆平坦化单元114的输出处,获得重构的系数块149。重构的系数块149提供给合成滤波器组504(以用于生成所解码的音频信号),并且提供给子带预测器517。
子带预测器517以与编码器100、170的预测器117相似的方式运算。具体地说,子带预测器517被配置为(使用比特流内所传送的一个或多个预测器参数)基于一个或多个重构的先前系数块149来确定(平坦化域中的)所估计的变换系数块150。换言之,子带预测器517被配置为基于预测器参数(如预测器延迟和预测器增益)从先前所解码的输出矢量和信号包络的缓冲器输出所预测的平坦化域矢量。解码器500包括预测器解码器501,被配置为对预测器数据164进行解码,以确定一个或多个预测器参数。
解码器500还包括谱解码器502,其被配置为典型地基于比特流的最大部分(即基于系数数据163)来布置对所预测的平坦化域矢量的加法校正。谱解码处理主要受控于从包络和所发送的分配控制参数(又称为偏移参数)推导出的分配矢量。如图5a所示,可能存在谱解码器502对预测器参数520的直接依赖性。故此,谱解码器502可以被配置为基于所接收到的系数数据163来确定缩放的量化后的误差系数块147。如编码器100、170的上下文中所概述的那样,用于对重新缩放的误差系数块142进行量化的量化器321、322、323典型地取决于(可以从调整包络139推导出的)分配包络138并且取决于偏移参数。此外,量化器321、322、323可以取决于预测器117所提供的控制参数146。解码器500可以(通过与编码器100、170类似的方式)使用预测器参数520来推导控制参数146。
如上所述,所接收到的比特流包括包络数据161和增益数据162,其可以用于确定调整包络139。具体地说,包络解码器503的单元531可以被配置为从包络数据161确定量化后的当前包络134。通过示例的方式,量化后的当前包络134可以在(图3a所指示的)预定义频率带302中具有3dB分辨率。可以关于每一块集合132、332(例如每隔四个编码单位,即块,或每隔20ms)——具体地说,关于每一移位的块集合332——更新量化后的当前包络134。量化后的当前包络134的频率带302可以包括增加数量的频率窗301作为频率的函数,以适配人类听力的性质。
量化后的当前包络134可以对于移位的块集合332(或可能地,当前块集合132)中的每个块131从量化后的先前包络135线性内插到内插包络136中。可以在量化后的3dB域中确定内插包络136。这意味着,内插的能量值303可以取整为最接近3dB等级。图3a的虚线示出示例内插包络136。对于每个量化后的当前包络134,提供四个等级校正增益α137(又称为包络增益)作为增益数据162。增益解码单元532可以被配置为从增益数据162确定等级校正增益α137。可以通过1dB步长来量化等级校正增益。每个等级校正增益应用于对应的内插包络136,以对于不同块131提供调整包络139。归因于等级校正增益137的增加的分辨率,调整包络139可以具有增加的分辨率(例如1dB分辨率)。
图3b示出量化后的先前包络135与量化后的当前包络134之间的示例线性内插或示例几何内插。包络135、134可以分离为对数谱的平均等级部分和形状部分。可以使用独立策略(如线性、几何或谐波(并行电阻器)策略)来内插这些部分。故此,不同内插方案可以用于确定内插包络136。解码器500所使用的内插方案典型地与编码器100、170所使用的内插方案对应。
包络解码器503的包络细化单元107可以被配置为通过将调整包络139量化(例如为3dB步长)而从调整包络139确定分配包络138。分配包络138可以与(系数数据163内所包括的)分配控制参数或偏移参数结合而使用,以创建用于控制谱解码(即系数数据163的解码)的标称整数分配矢量。具体地说,标称整数分配矢量可以用于确定用于对系数数据163内所包括的量化指数进行逆量化的量化器。可以通过与编码器100、170中和解码器500中类似的方式来确定分配包络138和标称整数分配矢量。
图10示出基于分配包络138的示例比特分配处理。如上所述,可以根据预定分辨率(例如3dB分辨率)来量化分配包络138。分配包络138的每个量化的谱能量值可以分配给对应整数值,其中,相邻整数值可以表示与预定分辨率相对应的谱能量的差值(例如3dB差值)。所得整数集合可以称为整数分配包络1004(称为iEnv)。整数分配包络1004可以按偏移参数而偏移,以产生标称整数分配矢量(称为iAlloc),其提供待用于对(频率带指数bandIdx所标识的)特定频率带302的系数进行量化的量化器的直接指示。
图10示出作为频率带302的函数的整数分配包络1004的示图1003。可见,对于频率带1002(bandIdx=7),整数分配包络1004取得整数值-17(iEnv[7]=-17)。整数分配包络1004可能受限于最大值(称为iMax,例如iMax=-15)。比特分配处理可以使用比特分配公式,其提供量化器指数1006(称为iAlloc[bandIdx])作为整数分配包络1004和偏移参数(称为AllocOffset)的函数。如上所述。偏移参数(即AllocOffset)发送到对应解码器500,由此使得解码器500能够使用比特分配公式来确定量化器指数1006。比特分配公式可以由下式给出
iAlloc[bandIdx]=iEnv[bandIdx]-(iMax-CONSTANT_OFFSET)+AllocOffset
其中,CONSTANT_OFFSET可以是恒定偏移,例如CONSTANT_OFFSET=20。通过示例的方式,如果比特分配处理已经确定可以使用偏移参数AllocOffset=-13来实现比特率约束,则可以获得第7频率带的量化器指数1007作为iAlloc[7]=-17-(-15-20)-13=5。通过对于所有频率带302使用上述比特分配公式,可以确定用于所有频率带302的量化器指数1006(并且因此量化器321、322、323)。小于零的量化器指数可以向上取整为量化器指数零。以相似的方式,大于最大可用量化器指数的量化器指数可以向下取整为最大可用量化器指数。
此外,图10示出可以使用本文献中所描述的量化方案实现的示例噪声包络1011。噪声包络1011示出在量化期间引入的量化噪声的包络。如果随(图10中的整数分配包络1004所表示的)信号包络一起绘制,则噪声包络1011示出这样的事实:量化噪声的分布是关于信号包络感知上优化的。
为了允许解码器500与所接收到的比特流同步,可以发送不同类型的帧。帧可以与块集合132、332(具体地说,块中的移位的块332)对应。具体地说,可以发送所谓的P帧,其是以关于先前帧的相对方式而编码的。在以上描述中,假设解码器500得知量化后的先前包络135。可以在先前帧内提供量化后的先前包络135,以使得当前集合132或对应移位的集合332可以与P帧对应。然而,在开始情形中,解码器500典型地并未得知量化后的先前包络135。为此,可以(例如在开始时或在定期的基础上)发送I帧。I帧包括两个包络,其中的一个用作量化后的先前包络135,另一个用作量化后的当前包络134。I帧可以用于例如当跟随采用不同音频编码模式的帧时的语音谱前端(即基于变换的话音解码器500)的开始情况,和/或用作用于显式地启用音频比特流的接合点的工具。
图5d中示出子带预测器517的运算。在所示示例中,预测器参数520是滞后参数和预测器增益参数g。可以使用用于滞后参数和预测器增益参数的可能值的预定表从预测器数据164确定预测器参数520。这样启用预测器参数520的比特率高效传输。
一个或多个先前所解码的变换系数矢量(即一个或多个重构的先前系数块149)可以存储在子带(或MDCT)信号缓冲器541中。可以根据跨度(例如每隔5ms)更新缓冲器541。预测器提取器543可以被配置为取决于归一化的滞后参数T对缓冲器541进行运算。可以通过将滞后参数520归一化为跨度单位(例如MDCT跨度单位)来确定归一化的滞后参数T。如果滞后参数T是整数,则提取器543可以将一个或多个先前所解码的变换系数矢量T时间单位送到缓冲器541中。换言之,滞后参数T可以指示一个或多个重构的先前系数块149中的哪些待用于确定所估计的变换系数块150。关于提取器543的可能的实现方式的详细讨论提供于专利申请US61750052以及要求其优先权的专利申请中,其内容通过引用合并到此。
提取器543可以对携带完整信号包络的矢量(或块)进行运算。另一方面,(待由子带预测器517提供的)所估计的变换系数块150表示在平坦化域中。因此,提取器543的输出可以成形为平坦化域矢量。可以使用利用一个或多个重构的先前系数块149的调整包络139的成形器544来实现该情况。一个或多个重构的先前系数块149的调整包络139可以存储在包络缓冲器542中。成形器单元544可以被配置为从进入包络缓冲器542中的T0时间单位起取得待用在平坦化中的所延时的信号包络,其中,T0是最接近T的整数。然后,平坦化域矢量可以由增益参数g缩放,以(在平坦化域中)产生所估计的变换系数块150。
作为替选,可以通过使用在平坦化域中运算的子带预测器517(例如对重构的平坦化系数块148进行运算的子带预测器517)来省略成形器544所执行的延时的平坦化处理。然而,已经发现,归因于变换(例如MDCT变换)的时间混叠方面,平坦化域矢量(或块)序列并非良好地映射为时间信号。因此,对于提取器543的潜在信号模型的拟合减少,并且较高等级的编码噪声源自替选结构。换言之,已经发现,(与平坦化域相比),子带预测器517所使用的信号模型(例如正弦模型或周期模型)在非平坦化域中产生增加的性能。
应注意,在替选示例中,预测器517的输出(即所估计的变换系数块150)可以在逆平坦化单元114的输出处相加(即与重构的系数块149相加)(见图5a)。图5c的成形器单元544可以然后被配置为执行延时的平坦化和逆平坦化的组合运算。
例如在I帧的第一编码单元(即第一块)的情况下,所接收到的比特流中的元素可以控制子带缓冲器541和包络缓冲器541的偶尔冲洗。这样使得能够在不知道先前数据的情况下对I帧进行解码。第一编码单元将典型地不能够使用预测贡献,然而却可以使用相对更小的数量的比特以传送预测器信息520。可以通过将更多比特分配给该第一编码单元的预测误差编码来补偿预测增益的损失。典型地,预测器贡献再次对于I帧的第二编码单元(即第二块)是实质性的。归因于这些方面,可以在比特率的相对小的增加的情况下,甚至在I帧的非常频繁的使用的情况下保持质量。
换言之,块集合132、332(又称为帧)包括可以使用预测编码来编码的多个块131。当对I帧进行编码时,仅无法使用由预测编码器所实现的编码增益来对块集合332中的第一块203进行编码。直接跟随块201已经可以使用预测编码的益处。这意味着,I帧关于编码效率的缺点受限于帧332的第一变换系数块203的编码,并且并不应用于帧332的其它块201、204、205。因此,本文献中所描述的基于变换的话音编码方案允许I帧的相对频繁的使用,而没有对编码效率的显著影响。故此,目前所描述的基于变换的话音编码方案特别适合于需要解码器与编码器之间的相对快速和/或相对频繁同步的应用。
图5d示出示例谱解码器502的框图。谱解码器502包括无损解码器551,其被配置为对已熵编码的系数数据163进行解码。此外,谱解码器502包括逆量化器552,其被配置为将系数值分配给系数数据163内所包括的量化指数。如编码器100、170的上下文中所概述的那样,可以使用从预定量化器集合(例如有限的基于模型的标量量化器集合)选择的不同量化器来量化不同变换系数。如图4所示,量化器321、322、323的集合可以包括不同类型的量化器。量化器集合可以包括:量化器321,其(在零比特率的情况下)提供噪声合成;一个或多个抖动量化器322(用于相对低信噪比(SNR),并且用于中等比特率);和/或一个或多个普通量化器323(用于相对高SNR,并且用于相对高比特率)。
包络细化单元107可以被配置为提供分配包络138,其可以与系数数据163内所包括的偏移参数组合,以产生分配矢量。分配矢量包含用于每个频率带302的整数值。用于特定频率带302的整数值指向待用于特定带302的变换系数的逆量化的率失真点。换言之,用于特定频率带302的整数值指向待用于特定带302的变换系数的逆量化的量化器。整数值增加达1与SNR的1.5dB增加对应。对于抖动量化器322和普通量化器323,Laplacian概率分布模型可以用在可以采用算术编码的无损编码中。一个或多个抖动量化器322可以用于在低比特率情况与高比特率情况之间以无缝方式来桥接间隔。抖动量化器322在创建用于固定的类似噪声信号的足够平滑的输出音频质量方面可能是有益的。
换言之,逆量化器552可以被配置为接收当前变换系数块131的系数量化指数。已经使用来自预定量化器集合的对应量化器确定特定频率带302的一个或多个系数量化指数。用于特定频率带302的(可以通过使用偏移参数来偏移分配包络138而确定的)分配矢量的值指示已经用于确定特定频率带302的一个或多个系数量化指数的量化器。在已经标识量化器的情况下,可以逆量化一个或多个系数量化指数,以产生量化后的误差系数块145。
此外,谱解码器502可以包括逆重新缩放单元113,以提供缩放的量化后的误差系数块147。附加工具以及图5d的无损解码器551和逆量化器552周围的互连部可以用于将谱解码适配于其在图5a所示的整个解码器500中的用法,其中,谱解码器502的输出(即量化后的误差系数块145)用于将加法校正提供给所预测的平坦化域矢量(即所估计的变换系数块150)。具体地说,附加工具可以确保解码器500所执行的处理与编码器100、170所执行的处理对应。
具体地说,谱解码器502可以包括启发式缩放单元111。如结合编码器100、170所示,启发式缩放单元111可以对比特分配具有影响。在编码器100、170中,当前预测误差系数块141可以通过启发式规则放大为单位方差。因此,默认分配可能导致启发式缩放单元111的最终缩小输出的太精细量化。因此,可以通过与预测误差系数的修改相似的方式来修改分配。
然而,如下所述,避免减少用于低频率窗(或低频率带)中的一个或多个的编码源可能是有益的。具体地说,这对于抵抗在语音化情形(即用于具有相对大的控制参数146(rfu)的信号)中出现为最显著的LF(低频率)轰鸣/噪声假象可能是有益的。故此,下述取决于控制参数146的比特分配/量化器选择可以被看作“语音化自适应LF质量提升”。
谱解码器可以取决于名为rfu的控制参数146,其可以是预测器增益g的受限版本,例如:
rfu=min(1,max(g,0)).
可以使用用于确定控制参数146(rfu)的替选方法。具体地说,可以使用表1中给出的伪码来确定控制参数146。
表1
变量f_gain和f_pred_gain可以设置得相等。具体地说,变量f_gain可以与预测器增益g对应。控制参数146(rfu)在表1中称为f_rfu。增益f_gain可以是实数。
与控制参数146的第一定义相比,(根据表1的)后一定义减少用于大于1的预测器增益的控制参数146(rfu),并且增加用于负预测器增益的控制参数146(rfu)。
使用控制参数146,可以适配编码器100、170的系数量化单元112中所使用的以及逆量化器552中所使用的量化器集合。具体地说,可以基于控制参数146来适配量化器集合的噪声性。通过示例的方式,接近1的控制参数146(rfu)的值可以触发使用抖动量化器来限制分配等级的范围,并且可以触发减少噪声合成等级的方差。在示例中,可以设置在rfu=0.75的抖动判决阈值和等于1-rfu的噪声增益。抖动适配可能影响无损解码和逆量化器,而噪声增益适配典型地仅影响逆量化器。
可以假设预测器贡献对于语音化/声调情形是实质性的。故此,相对高的预测器增益g(即相对高的控制参数146)可以指示语音化或声调话音信号。在这些情形中,抖动有关的或显式的(零分配情况)噪声的加入已经经验上示出对于所感知的编码信号的质量是起反作用的。因此,可以基于预测器增益g来适配对于噪声合成量化器321所使用的抖动量化器322的数量和/或噪声的类型,由此改进所编码的话音信号的感知质量。
故此,控制参数146可以用于修改抖动量化器322所用于的SNR的范围324、325。通过示例的方式,如果控制参数146rfu<0.75,则可以使用用于抖动量化器的范围324。换言之,如果控制参数146小于预定阈值,则可以使用第一量化器集合326。另一方面,如果控制参数146rfu>0.75,则可以使用用于抖动量化器的范围325。换言之,如果控制参数146大于或等于预定阈值,则可以使用第二量化器集合327。
此外,控制参数146可以用于修改方差和比特分配。该情况的原因在于,典型地,成功的预测将需要较小的校正,尤其在从0-1kHz的较低频率范围中。使得量化器显式地得知这种距单位方差模型的偏离以将编码资源释放给较高的频率带302可能是有利的。该情况描述于WO2009/086918的图17c面板iii的上下文中,其内容通过引用合并到此。在解码器500中,可以通过根据(使用缩放单元111所应用的)启发式缩放规则来修改标称分配矢量并且同时使用逆缩放单元113根据逆启发式缩放规则来缩放逆量化器552的输出而实现这种修改。采用WO2009/086918的理论,启发式缩放规则和逆启发式缩放规则应是接近地匹配的。然而,已经发现,经验上有利的是,消除用于一个或多个最低频率带302的分配修改,以抵抗针对关于语音化信号分量的LF(低频率)噪声的偶尔问题。可以取决于预测器增益g和/或控制参数146的值来执行分配修改的消除。具体地说,可以仅当控制参数146超过抖动判决阈值时执行分配修改的消除。
因此,本文献描述用于基于在编码器100、170处以及在对应解码器500处可用的辅助信息(例如控制参数146)来调整量化器群326的构成(例如无抖动量化器323的数量和/或抖动量化器322的数量)的手段。可以在存在预测器增益g的情况下(例如基于控制参数146)调整量化器群326的构成。具体地说,如果预测器增益g是相对低的,则抖动量化器322的数量Ndith可以增加并且无抖动量化器323的数量Ncq可以减少。此外,可以通过选择相对粗化的量化器来减少所分配的比特的数量。另一方面,如果预测器增益g是相对大的,则抖动量化器322的数量Ndith可以减少并且抖动量化器323的数量Ncq可以增大。此外,可以通过选择相对粗化的量化器来减少所分配的比特的数量。
替代地或附加地,可以在存在谱反射系数的情况下调整量化器群326的构成。具体地说,在类似嘶鸣的信号的情况下,可以增加抖动量化器322的数量Ndith。此外,可以通过选择相对粗化的量化器来减少所分配的比特的数量。
以下,描述用于确定指示输入信号的当前摘要的类似嘶鸣的性质的谱反射系数Rfc的示例方案。应注意,谱反射系数Rfc与自回归源建模的上下文中所使用的“反射系数”不同。变换系数块131可以划分为L个频率带302。可以定义L维矢量BW,其中,矢量BW的第l项可以等于属于第l频率带302的变换窗301的数量(l=1、……、L)。相似地,可以定义K维矢量F,其中,第l项可以等于通过计算属于第l频率带302的变换窗301的最小指数和变换窗301的最大指数的均值所获得的第l频率带302的中点。此外,可以定义L维矢量SPSD,其中,矢量SPSD可以包括可以通过将与包络有关的量化指数从dB刻度转换为线性刻度所获得的信号的功率谱密度的值。此外,可以定义最大窗指数Ncore,其为属于第L频率带302的最大的窗指数。标量反射系数Rfc可以确定为:
其中,l表示L维矢量的第l项。
通常,Rfc>0指示高频率部分所主导的谱,Rfc<0指示低频率部分所主导的谱。Rfc参数可以使用如下:如果Rfu值很低(即如果预测增益很低)并且如果Rfc>0,则这指示与摩擦音(即无语音嘶音)对应的谱。在此情况下,相对增加数量Ndith的抖动量化器322可以用在量化器群326、722内。
总体上,可以基于在编码器100处以及在对应解码器500处可用的辅助信息(例如控制参数146和/或谱反射系数)来调整量化器群326(和对应逆量化器)。可以从对编码器100和解码器500可用的参数提取辅助信息。如上所述,预测器增益g可以发送到解码器500,并且可以用在变换系数的逆量化之前,以选择适当的逆量化器群326。替代地或附加地,可以基于发送到解码器500的谱包络来估计或近似反射系数。
图7示出用于确定在编码器100处以及在对应解码器500处的量化器/逆量化器群326的示例方法的框图。可以从比特流提取701有关辅助信息721(例如预测器参数g和/或反射系数)。辅助信息721可以用于确定702待用于当前块系数和/或用于逆量化对应量化指数的量化器群722。使用速率分配处理703,来自所确定的量化器群722的特定量化器用于量化特定频率带302的系数,和/或用于逆量化对应量化指数。源自比特分配处理703的量化器选择723用在量化处理703内,以产生量化指数,和/或用在逆量化处理713内,以产生量化后的系数。
图9a至图9c示出可以使用本文献中所描述的基于变换的编解码器系统来实现的示例实验结果。具体地说,图9a至图9c示出包括一个或多个抖动量化器322的有序量化器群326的益处。图9a示出原始信号的谱图901。可见,谱图901包括白色圆圈所标识的频率范围中的谱内容。图9b示出(以22kps所量化的)原始信号的量化版本的谱图902。在图9b的情况下,使用用于零速率分配的噪声填充和标量量化器。可见,谱图902在白色圆圈所标识的频率范围中展现相对大的谱块,其与浅谱空洞(所谓的“啁啾”)关联。这些块典型地导致听觉假象。图9c示出(以22kps所量化的)原始信号的另一量化版本的谱图903。在图9c的情况下,使用用于零速率分配的噪声填充、抖动量化器和标量量化器(如本文献中所描述的那样)。可见,谱图903在白色圆圈所描述的频率范围中并不展现与谱空洞关联的大的谱块。本领域技术人员已知的是,这些量化块的缺少是本文献中所描述的基于变换的编解码器系统的改进的感知性能的指示。
以下,描述编码器100、170和/或解码器500的各种附加方面。如上所述,编码器100、170和/或解码器500可以包括缩放单元111,其被配置为重新缩放预测误差系数Δ(k),以产生重新缩放的误差系数块142。重新缩放单元111可以使用一个或多个预定启发式规则来执行重新缩放。在示例中,重新缩放单元111可以使用包括例如以下的增益d(f)的启发式缩放规则:
其中,破坏频率f0可以设置为例如1000Hz。因此,重新缩放单元111可以被配置为将频率依赖增益d(f)应用于预测误差系数,以产生重新缩放的误差系数块142。逆重新缩放单元113可以被配置为应用频率依赖增益d(f)的倒数。频率依赖增益d(f)可以取决于控制参数rfu146。在以上示例中,增益d(f)展现低通特性,以使得预测误差系数在较高频率处比在较低频率处衰减得更多,和/或以使得预测误差系数在较低频率处比在较高频率处加重得更多。上述增益d(f)总是大于或等于1。因此,在优选实施例中,启发式缩放规则是这样的:(取决于频率),以因子1或大于1来加重预测误差系数。
应注意,频率依赖增益可以指示功率或方差。在这些情况下,应基于频率依赖增益的平方根(例如基于)来推导缩放规则和逆缩放规则。
加重和/或衰减的程度可以取决于预测器117所实现的预测质量。预测器增益g和/或控制参数rfu146可以指示预测质量。具体地说,(相对接近零的)控制参数rfu146的相对低的值可以指示低的预测质量。在这些情况下,期望预测误差系数在所有频率上具有相对高的(绝对)值。(相对接近1的)控制参数rfu146的相对高的值可以指示高的预测质量。在这些情况下,期望预测误差系数具有用于(更难以预测的)高频率的相对高的(绝对)值。因此,为了实现在重新缩放单元111的输出处的单位方差,增益d(f)可以是这样的:在相对低的预测质量的情况下,增益d(f)对于所有频率基本上是平坦的,而在相对高的预测质量的情况下,增益d(f)具有低通特性,以增加或提升在低频率处的方差。对于上述依赖于rfu的增益d(f),情况亦然。
如上所述,取决于分配包络138中的对应能量值,比特分配单元110可以被配置为提供比特对于不同的重新缩放的误差系数的相对分配。比特分配单元110可以被配置为考虑启发式重新缩放规则。启发式重新缩放规则可以取决于预测质量。在相对高的预测质量的情况下,将相对增加的比特数量分配给在高频率处的预测误差系数(或重新缩放的误差系数块142)的编码而非在低频率处的系数的编码可能是有益的。这可以归因于:在高的预测质量的情况下,已经良好地预测低频率系数,而通常较不良好地预测高频率系数。另一方面,在相对低的预测质量的情况下,比特分配应保持不变。
可以通过将启发式规则/增益d(f)的倒数应用于当前调整包络139来实现上述行为,以确定考虑预测质量的分配包络138。
可以在log域或dB域中表示调整包络139、预测误差系数和增益d(f)。在此情况下,增益d(f)对于预测误差系数的应用可以与“加法”运算对应,并且增益d(f)的倒数对于调整包络139的应用可以与“减法”运算对应。
应注意,启发式规则/增益d(f)的各种变型是可能的。具体地说,可以通过取决于包络数据(例如取决于用于当前块131的调整包络139)的函数来替换低通特性的固定频率依赖曲线。修改的启发式规则可以取决于控制参数rfu146和包络数据。
以下,描述用于确定可以与预测器增益g对应的预测器增益ρ的不同方式。预测器增益ρ可以用作预测质量的指示。预测残差矢量(即预测误差系数z的块141)可以由下式给出:z=x-ρy,其中,x是目标矢量(例如当前平坦化变换系数块140或当前变换系数块131),y是表示所选取的用于预测的候选的矢量(例如重构的先前系数块149),ρ是(标量)预测器增益。
w≥0可以是对于确定预测器增益ρ所使用的权重矢量。在一些实施例中,权重矢量是信号包络的函数(例如可以在编码器100、170处估计并且然后发送到解码器500的)调整包络139的函数。权重矢量典型地具有与目标矢量和候选矢量相同的维度。矢量x的第i项表示为xi(例如i=1、……、K)。
存在用于定义预测器增益ρ的不同方式。在实施例中,预测器增益ρ是根据最小均方误差准则所定义的MMSE(最小均方误差)增益。在此情况下,可以使用以下公式来计算预测器增益ρ:
该预测器增益ρ典型地使得定义为的均方误差最小化。
一般(感知上)有益的是,将加权引入到均方误差D的定义。加权可以用于强调用于信号谱的感知上重要的部分的x与y之间的匹配的重要性,并且弱化用于相对较不重要的信号谱的部分的x与y之间的匹配的重要性。这种方法产生以下误差准则:其带来优化预测器增益的以下定义(在加权的均方误差的意义上):
预测器增益的以上定义典型地产生无界限的增益。如上所述。可以基于调整包络139来确定权重矢量w的权重wi。例如,可以使用调整包络139的预定义函数来确定权重矢量w。可以在编码器处并且在解码器处获知预定义函数(对于调整包络139情况亦然)。因此,可以在编码器处并且在解码器处通过相同方式来确定权重矢量。
另一可能的预测器增益公式被给出如下:
其中,并且预测器增益的这种定义产生总是在区间[-1,1]内的增益。后一公式所指定的预测器增益的重要特征是便于在目标信号x的能量与残差信号z的能量之间的易处理的关系的预测器增益ρ。LTP残差能量可以表示为:
可以使用上述公式基于预测器增益g来确定控制参数rfu146。预测器增益g可以等于使用任何上述公式所确定的预测器增益ρ。
如上所述,编码器100、170被配置为对残差矢量z(即预测误差系数块141)进行量化并且编码器。量化处理典型地根据潜在感知模型由信号包络(例如由分配包络138)引导,以便通过感知上有意义的方式在信号的谱分量之间分布可用的比特。通过从输入信号(例如从变换系数块131)推导出的信号包络(例如分配包络138)引导速率分配处理。预测器117的运算典型地改变信号包络。量化单元112典型地使用假设对单位方差源的运算而设计的量化器。注意,在高质量预测的情况下(即当预测器117成功时),单位方差性质可以不再如此,即预测误差系数块141可以不展现单位方差。
估计预测误差系数块141的(即用于残差z的)包络并且将该包络发送到解码器(即使用所估计的包络来再次平坦化预测误差系数块141)典型地不是高效的。反之,编码器100和解码器500可以使用启发式规则,以用于重新缩放预测误差系数块141(如上所述)。启发式规则可以用于重新缩放块141,以使得重新缩放的预测误差系数块142接近单位方差。作为该情况的结果,可以(使用假设单位方差的量化器)改进量化结果。
此外,如已经概述的那样,启发式规则可以用于修改用于比特分配处理的分配包络138。编码器100和解码器500典型地以相同方式(使用相同启发式规则)来执行分配包络138的修改和预测误差系数块141的重新缩放。
以上已经描述了可能的启发式规则d(f)。以下,描述用于确定启发式规则的另一方法。加权域能量预测增益的倒数由p∈[0,1]给出,以使得其中,指示加权域中的残差矢量(即预测误差系数块141)的平方能量,其中,指示加权域中的目标矢量(即平坦化变换系数块140)的平方能量。
以下,可以进行假设:
1.目标矢量x的项具有单位方差。这可以是平坦化单元108所执行的平坦化的结果。取决于平坦化单元108所执行的基于包络的平坦化的质量来完成该假设。
2.对于i=1、……、K并且对于一些t>0,预测残差矢量z的项的方差是的形式。这种假设基于面向最小二乘的预测器搜索带来加权域中均匀分布的误差贡献以使得残差矢量更平坦或更不平坦的启发式规则。此外,可以期望预测器候选接近平坦,这带来合理的界限E{z2(i)}≤1。应注意,可以使用该第二假设的各种修改。
为了估计参数t,我们可以将上述两种假设插入到预测误差公式中(例如),并且由此提供“水等级类型”方程
可以示出在区间t∈[0,max(w(i))]中存在对于上述方程的解。可以使用分类例程来求解用于找寻参数t的方程。
启发式规则可以由给出,其中,i=1、……K标识频率窗。启发式缩放规则的倒数由给出。逆重新缩放单元113应用启发式缩放规则的倒数。频率依赖缩放规则取决于权重w(i)=wi。如上所述,权重w(i)可以取决于并且可以对应于当前变换系数块131(例如调整包络139或调整包络139的某个预定义函数)。
可以示出当使用公式来确定预测器增益时,以下关系应用:p=1-ρ2。
因此,可以通过各种不同方式来确定启发式缩放规则。已经实验性地示出,与固定缩放规则d(f)相比,基于上述两种假设所确定缩放规则(称为缩放方法B)是有利的。具体地说,基于以上两种假设确定的缩放规则可以考虑预测器候选搜索的过程中所使用的加权的效果。缩放方法B方便地与增益的定义组合,因为残差的方差与信号的方差之间的可分析地易处理的关系(这促进上述p的推导)。
以下,描述用于改进基于变换的音频编码器的性能的另一方面。具体地说,提出使用所谓的方差保留标志。可以在每块131的基础上确定并且发送方差保留标志。方差保留标志可以指示预测质量。在实施例中,方差保留标志在相对高的预测质量的情况下关闭,方差保留标志在相对低的预测质量的情况下打开。编码器100、170可以例如基于预测器增益ρ和/或基于预测器增益g来确定方差保留标志。通过示例的方式,如果预测器增益ρ或g(或从其推导出的参数)小于预定阈值(例如2dB),则方差保留标志可以设为“打开”,反之亦然。如上所述,加权域能量预测增益ρ的倒数典型地取决于预测器增益,例如p=1-ρ2。参数p的倒数可以用于确定方差保留标志的值。通过示例的方式,(例如以dB为单位表示的)1/p可以与预定阈值(例如2dB)比较,以确定方差保留标志的值。如果1/p大于预定阈值,则方差保留标志可以设置“关闭”(指示相对高的预测质量),反之亦然。
方差保留标志可以用于控制编码器100和解码器500的各种不同设置。具体地说,方差保留标志可以用于控制多个量化器321、322、323的噪声性的程度。具体地说,方差保留标志可以影响以下设置中的一个或多个:
·用于零比特分配的自适应噪声增益。换言之,噪声合成量化器321的噪声增益可以受方差保留标志影响。
·抖动量化器的范围。换言之,抖动量化器322所用于的SNR的范围324、325可以受方差保留标志影响。
·抖动量化器的后增益。后增益可以应用于抖动量化器的输出,以影响抖动量化器的均方误差性能。后增益可以取决于方差保留标志。
·启发式缩放的应用。(重新缩放单元111中和逆重新缩放单元113中的)启发式缩放的使用可以取决于方差保留标志。
表2中提供方差保留标志可以如何改变编码器100和/或解码器500的一个或多个设置的示例。
表2
在用于后增益的公式中,是(待量化的)预测误差系数块141中的系数中的一个或多个的方差,Δ是后增益所应用到的抖动量化器的标量量化器(612)的量化器步长大小。
从表2的示例可见,噪声合成量化器321的噪声增益gN(即噪声合成量化器321的方差)可以取决于方差保留标志。如上所述,控制参数rfu146可以处于范围[0,1]中,其中,rfu的相对低的值指示相对低的预测质量,rfu的相对高的值指示相对高的预测质量。对于[0,1]的范围中的rfu值,左列公式提供比右列公式更低的噪声增益gN。因此,当方差保留标志打开时(指示相对低的预测质量),使用比当方差保留标志关闭时(指示相对高的预测质量)更高的噪声增益。已经实验性地示出,这样改进了总体感知质量。
如上所述,抖动量化器322的324、325的SNR范围可以取决于控制参数rfu而变化。根据表2,当方差保留标志打开时(指示相对低的预测质量),使用抖动量化器322的固定大范围(例如范围324)。另一方面,当方差保留标志关闭时(指示相对高的预测质量),取决于控制参数rfu,使用不同的范围324、325。
如以上已经概述的那样,确定量化后的误差系数块145可以包括:将后增益γ应用于已经使用抖动量化器322量化的量化后的误差系数。可以推导后增益γ,以改进抖动量化器322的MSE性能(例如具有减法抖动的量化器)。
已经实验性地示出,当使得后增益取决于方差保留标志时,可以改进感知编码质量。当方差保留标志关闭时(指示相对高的预测质量)使用上述MSE优化后增益。另一方面,当方差保留标志打开时(指示相对低的预测质量),使用(根据表2的右手边的公式所确定的)较高后增益可以是有益的。
如上所述,启发式缩放可以用于提供比预测误差系数块141更接近单位方差性质的重新缩放的误差系数块142。可以使得启发式缩放规则取决于控制参数146。换言之,可以使得启发式缩放规则取决于预测质量。启发式缩放在相对高的预测质量的情况下是特别有益的,而在相对低的预测质量的情况下,益处可能是有限的。有鉴于此,当方差保留标志关闭时(指示相对高的预测质量)仅使用启发式缩放可以是有益的。
在本文献中,已经描述了基于变换的话音编码器100、170和对应的基于变换的话音解码器500。基于变换的话音编解码器可以使用允许改进所编码的话音信号的质量的各种方面。具体地说,话音编解码器可以被配置为创建包括传统(无抖动)量化器、具有减法抖动的量化器、和“零速率”噪声填充的有序量化器群。可以通过这样的方式来创建有序量化器群:有序群根据由信号包络和速率分配参数所参数化的感知模型来促进速率分配处理。可以在存在辅助信息(例如预测器增益)的情况下重新配置量化器群的构成,以改进量化方案的感知性能。可以使用速率分配算法,其促进有序量化器群的使用,而无需对解码器的附加传送(例如与在编码器处所使用的量化器群的特定构成有关的和/或与用于实现抖动量化器的抖动信号有关的附加传送)。此外,可以使用速率分配算法,其在存在比特率约束(例如对于最大允许的比特数量的约束和/或对于最大许可消息长度的约束)的情况下促进算术编码器(或范围编码器)的使用。此外,在允许零比特分配给特定频率带的同时,有序量化器群促进抖动量化器的使用。此外,可以使用速率分配算法,其促进有序量化器群结合Huffman编码的使用。
本文献中所描述的方法和系统可以实现为软件、固件和/或硬件。特定组件可以例如实现为数字信号处理器或微处理器上运行的软件。其它组件可以例如实现为硬件和/或专用集成电路。所描述的方法和系统中所遇到的信号可以存储在介质(如随机存取存储器或光学存储介质)上。它们可以经由网络(如无线电网络、卫星网络、无线网络或有线网络(例如互联网))而传递。使用本文献中所描述的方法和系统的典型设备是便携式电子设备或其它用于存储和/或呈现音频信号的消费者装备。
Claims (63)
1.一种量化单元(112),被配置为对系数块(141)的第一系数进行量化,其中,所述系数块(141)包括用于多个对应频率窗(301)的多个系数,其中,所述量化单元(112)被配置为:
-提供量化器集合(326、327);其中,所述量化器集合(326、327)分别包括与不同信噪比SNR相关联的有限数量的不同量化器(321、322、323);其中,所述量化器集合中的不同量化器根据它们的SNR而排序;所述量化器(321、322、323)的集合(326、327)包括:
-噪声填充量化器(321);
-一个或更多个抖动量化器(322);以及
-一个或更多个无抖动量化器(323);
-确定指示属于所述第一系数的SNR的SNR指示;
-基于所述SNR指示从所述量化器集合(326、327)选择第一量化器;以及
-使用所述第一量化器来量化所述第一系数。
2.如权利要求1所述的量化单元(112),其中,
-所述噪声填充量化器(321)与不同SNR中的相对最低SNR相关联;
-所述一个或更多个无抖动量化器(323)与不同SNR中的一个或更多个相对最高SNR相关联;以及
-所述一个或更多个抖动量化器(322)与比不同SNR中的所述相对最低SNR更高且比所述一个或更多个相对最高SNR更低的一个或更多个中等SNR相关联。
3.如权利要求1或2所述的量化单元(112),其中,所述量化器集合根据与所述不同量化器相关联的增加SNR来排序。
4.如权利要求3所述的量化单元(112),其中,
-SNR差值由与来自排序的量化器集合的一对相邻量化器相关联的SNR的差值给定;以及
-用于来自不同量化器的所有成对的相邻量化器的SNR差值落入以预定SNR目标差值为中央的预定SNR差值区间内。
5.如权利要求4所述的量化单元(112),其中,所述预定SNR差值区间的宽度小于所述预定SNR目标差值的预定百分比。
6.如权利要求4至5中的任一项所述的量化单元(112),其中,所述预定SNR目标差值是1.5dB。
7.如任一先前权利要求所述的量化单元(112),其中,所述噪声填充量化器(321)
-包括随机数发生器,被配置为根据预定统计模型来生成随机数;
-被配置为通过以由随机数发生器根据所述预定统计模型生成的随机值来替换第一系数的值来量化所述第一系数;和/或
-与基本上小于或等于0dB的SNR相关联。
8.如任一先前权利要求所述的量化单元(112),其中,所述一个或多个抖动量化器(322)中的特定抖动量化器(322)包括:
-抖动应用单元(611),被配置为通过将抖动值应用于所述第一系数来确定第一抖动系数;以及
标量量化器(612),被配置为通过将所述第一抖动系数分配给所述标量量化器(612)的区间来确定第一量化指数。
9.如权利要求8所述的量化单元(112),其中,所述一个或更多个抖动量化器(322)中的特定抖动量化器(322)还包括:
-逆标量量化器(612),被配置为将第一重构值分配给所述第一量化指数;
-抖动移除单元(613),被配置为通过从所述第一重构值移除所述抖动值来确定第一解抖动系数。
10.如权利要求9所述的量化单元(112),其中,
-所述抖动应用单元(611)被配置为从所述第一系数减去所述抖动值,并且其中,所述抖动移除单元(613)被配置为将所述抖动值与所述第一重构值相加;或
-所述抖动应用单元(611)被配置为将所述抖动值与所述第一系数相加,并且其中,所述抖动移除单元(613)被配置为从所述第一重构值减去所述抖动值。
11.如权利要求9至10中的任一项所述的量化单元(112),其中,所述一个或更多个抖动量化器(322)中的所述特定抖动量化器(322)还包括:
-后增益应用单元(614),被配置为通过将量化器后增益γ应用于所述第一解抖动系数来确定第一量化系数。
12.如权利要求11所述的量化单元(112),其中,所述量化器后增益γ由下式给出:
其中,是所述系数块(141)中的系数中的一个或更多个的方差,并且其中,Δ是所述特定抖动量化器的所述标量量化器(612)的量化器步长大小。
13.如权利要求8至12中的任一项所述的量化单元(112),还包括:抖动发生器(601),被配置为生成抖动值块(602),其中,所述抖动值块(602)包括分别用于所述多个频率窗(301)的多个抖动值。
14.如权利要求13所述的量化单元(112),其中,所述抖动发生器(601)被配置为:
-选择M个预定抖动实现之一,其中M是整数;以及
-基于所选择的抖动实现来生成所述抖动值块(602)。
15.如权利要求14所述的量化单元(112),其中,所述预定抖动实现的数量M是10、5、4或更少。
16.如权利要求8至15中的任一项所述的量化单元(112),其中,所述抖动值是伪随机数。
17.如权利要求8至16中的任一项所述的量化单元(112),其中,
-所述标量量化器(612)具有预定量化器步长大小Δ;
-所述抖动值从预定抖动区间取值;以及
-所述预定抖动区间具有等于或小于所述预定量化器步长大小Δ的宽度。
18.如引用权利要求13的权利要求17所述的量化单元(112),其中,所述抖动值块(602)均匀地分布在所述预定抖动区间内。
19.如任一先前权利要求所述的量化单元(112),其中,所述一个或更多个抖动量化器(322)是减法抖动量化器。
20.如任一先前权利要求所述的量化单元(112),其中,所述一个或更多个无抖动量化器(323)中的无抖动量化器(323)是具有预定均匀量化器步长大小的标量量化器。
21.如任一先前权利要求所述的量化单元(112),其中,
-所述系数块(141)与谱块包络(136)关联;
-所述谱块包络(136)指示用于所述多个频率窗(301)的多个谱能量值(303);以及
-所述SNR指示取决于所述谱块包络(136)。
22.如权利要求21所述的量化单元(112),其中,
-所述SNR指示还取决于用于偏移所述谱块包络(136)的偏移参数;以及
-所述偏移参数取决于能用于对所述系数块(141)进行编码的比特的预定数量(143)。
23.如权利要求22所述的量化单元(112),其中,通过使用所述偏移参数来偏移从与第一系数的所述频率窗(301)相关联的谱块包络(136)推导的值而确定指示属于第一系数的SNR的SNR指示。
24.如引用权利要求4的权利要求21至23中的任一项所述的量化单元(112),其中,
-所述SNR指示取决于从所述谱块包络(136)推导出的分配包络(138);
-所述分配包络(138)具有分配分辨率;
-所述分配分辨率取决于来自所述量化器集合(326、327)的各相邻量化器之间的SNR差值。
25.如任一先前权利要求所述的量化单元(112),其中,
-所述系数块(141)中的多个系数被分配给多个频率带(302);
-频率带(302)包括一个或更多个频率窗(301);以及
-所述量化单元(112)被配置为对于所述多个频率带(302)中的每一个从所述量化器集合(326、327)中选择量化器,以使得使用同一量化器来量化分配给相同频率带(302)的系数。
26.如权利要求25所述的量化单元(112),其中,每频率带(302)的多个频率窗(301)随着增加频率而增加。
27.如任一先前权利要求所述的量化单元(112),其中,所述量化单元(112)被配置为:
-确定(701)指示所述系数块(141)的性质的辅助信息(721);以及
-取决于所述辅助信息(721)来生成(702)所述量化器集合(326、327)。
28.如引用权利要求7的权利要求27所述的量化单元(112),其中,所述噪声填充量化器(321)的所述随机数发生器的所述预定统计模型取决于所述辅助信息(721)。
29.如权利要求27至28中任一项所述的量化单元(112),其中,所述量化器集合(326、327)内的抖动量化器(322)的数量取决于所述辅助信息(721)。
30.如权利要求27至29中的任一项所述的量化单元(112),其中,所述量化单元(112)被配置为从在包括所述量化单元(112)的编码器(100、170)处以及在包括对应逆量化单元(552)的对应解码器(500)处能获得的数据提取(701)所述辅助信息(721)。
31.如权利要求30所述的量化单元(112),其中,所述辅助信息(721)包括以下信息中的至少一个:
-由所述编码器(100、170)内所包括的预测器(117)确定的预测器增益;其中,所述预测器增益指示所述系数块(141)的声调内容;和/或
-基于所述系数块(141)推导出的谱反射系数;其中,所述谱反射系数指示所述系数块(141)的摩擦音内容。
32.如权利要求31所述的量化单元(112),其中,所述预定量化器集合(326、327)内所包括的抖动量化器的数量随着增大的预测器增益而减少,以及随着减小的预测器增益而增加。
33.如权利要求27至32中的任一项所述的量化单元(112),其中,
-所述辅助信息包括方差保留标志;
-所述方差保留标志指示如何调整所述系数块(141)的方差;以及
-取决于所述方差保留标志来确定所述量化器集合(326、327)。
34.如权利要求33所述的量化单元(112),其中,所述噪声填充量化器(321)的噪声增益取决于所述方差保留标志。
35.如权利要求33至34中的任一项所述的量化单元(112),其中,取决于所述方差保留标志来确定由所述一个或更多个抖动量化器(322)所覆盖的SNR范围(324、325)。
36.如引用权利要求11的权利要求33至35中的任一项所述的量化单元(112),其中,所述后增益γ取决于所述方差保留标志。
37.一种逆量化单元(552),被配置为对量化指数进行解量化;其中,所述量化指数与包括用于多个对应频率窗(301)的多个系数的系数块相关联;
其中,所述逆量化单元(552)被配置为:
-提供量化器集合(326、327);其中,所述量化器集合(326、327)分别包括与不同信噪比SNR关联的有限数量的不同量化器(321、322、323);其中,所述量化器集合(326、327)中的不同量化器根据它们的SNR来排序;所述量化器(321、322、323)的集合(326、327)包括:
-噪声填充量化器(321);
-一个或更多个抖动量化器(322);以及
-一个或更多个无抖动量化器(323);
-确定指示属于来自所述系数块的第一系数的SNR的SNR指示;
-基于所述SNR指示从所述量化器集合(326、327)选择第一量化器;以及
-使用所述第一量化器来确定用于所述第一系数的第一量化系数。
38.一种基于变换的音频编码器(100、170),被配置为将音频信号编码为比特流;所述编码器(100、170)包括:
-量化单元(112),被配置为通过使用抖动量化器(322)对来自系数块(141)的多个系数进行量化来确定多个量化指数;其中,所述多个系数与多个对应频率窗(301)相关联;其中,从所述音频信号推导所述系数块(141);
-抖动发生器(601),被配置为选择M个预定抖动实现之一,并且被配置为基于所选择的抖动实现来生成用于量化所述多个系数的多个抖动值(602);其中,M是大于1的整数;以及
-熵编码器,被配置为从M个预定码书中选择码书,并且被配置为使用所选择的码书来对所述多个量化指数进行熵编码;其中,所述M个预定码书分别与所述M个预定抖动实现相关联;其中,所述熵编码器被配置为选择与由所述抖动发生器(601)选择的抖动实现相关联的码书;并且其中,指示已经熵编码的量化指数的系数数据(163)插入到所述比特流中。
39.如权利要求38所述的基于变换的话音编码器(100、170),其中,预定抖动实现的数量M是10、5、4或更少。
40.如权利要求38至39中的任一项所述的基于变换的话音编码器(100、170),其中,已经分别使用所述M个预定抖动实现来训练所述M个预定码书。
41.如权利要求38至40中的任一项所述的基于变换的话音编码器(100、170),其中,所述M个预定码书包括可变长度Huffman码字。
42.一种基于变换的音频解码器(500),被配置为对比特流进行解码,以提供重构的音频信号;所述解码器(500)包括:
-抖动发生器(601),被配置为选择M个预定抖动实现之一,并且被配置为基于所选择的抖动实现来生成多个抖动值(602);其中,M是大于1的整数;其中,所述多个抖动值(602)由逆量化单元(552)使用,所述逆量化单元(552)包括抖动量化器(322),抖动量化器(322)被配置为基于对应的多个量化指数来确定对应的多个量化系数;以及
-熵解码器(551),被配置为从M个预定码书中选择码书,并且被配置为使用所选择的码书对来自所述比特流的系数数据(163)进行熵解码,以提供所述多个量化指数;其中,所述M个预定码书分别与所述M个预定抖动实现相关联;并且其中,所述熵解码器(551)被配置为选择与由所述抖动发生器(601)选择的所述抖动实现相关联的码书;其中,基于所述多个量化系数来确定所重构的音频信号。
43.一种基于变换的话音编码器(100、170),被配置为将话音信号编码为比特流;所述编码器(100、170)包括:
-成帧单元(101),被配置为接收包括当前块(131)以及一个或更多个先前块(131)的多个顺序变换系数块(131);其中,所述多个顺序变换系数块(131)指示所述话音信号的样本;
-平坦化单元(108),被配置为通过使用对应的当前块包络(136)平坦化对应的当前变换系数块(131)来确定当前平坦化变换系数块(140);
-预测器(117),被配置为基于一个或更多个先前所重构的变换系数块(149)并且基于一个或更多个预测器参数(520)来确定所估计的当前平坦化变换系数块(150);其中,已经从所述一个或更多个先前变换系数块(131)推导出一个或更多个所重构的先前变换系数块(149);
-差值单元(115),被配置为基于当前平坦化变换系数块(140)并且基于所估计的当前平坦化变换系数块(150)来确定当前预测误差系数块(141);以及
-如权利要求1至36中的任一项所述的量化单元(112),被配置为对从当前预测误差系数块(141)推导出的系数进行量化;其中,基于与量化的系数相关联的量化指数来确定用于所述比特流的系数数据(163)。
44.如权利要求43所述的基于变换的话音编码器(100、170),其中,
-变换系数块(131)包括MDCT系数;和/或
-变换系数块(131)包括256个频率窗(301)中的256个变换系数。
45.如权利要求43至44中的任一项所述的基于变换的话音编码器(100、170),还包括:缩放单元(111),被配置为使用一个或更多个缩放规则基于所述当前预测误差系数块(141)来确定当前重新缩放的误差系数块(142),以使得平均而言重新缩放的当前误差系数块(142)中的重新缩放的误差系数的方差高于当前预测误差系数块(141)中的预测误差系数的方差。
46.如权利要求45所述的基于变换的话音编码器(100、170),其中,
-当前预测误差系数块(141)包括用于对应的多个频率窗(301)的多个预测误差系数;以及
-由所述缩放单元(111)根据一个或更多个缩放规则而应用于所述预测误差系数的缩放增益取决于各个预测误差系数的频率窗(301)。
47.如权利要求45至46中的任一项所述的基于变换的话音编码器(100、170),其中,所述缩放规则取决于一个或更多个预测器参数(520)。
48.如权利要求45至47中的任一项所述的基于变换的话音编码器(100、170),其中,所述缩放规则取决于所述当前块包络(136)。
49.如权利要求39至48中的任一项所述的基于变换的话音编码器(100、170),其中,
-所述预测器(117)被配置为使用加权均方误差准则来确定所估计的当前平坦化变换系数块(150);以及
-所述加权均方误差准则考虑所述当前块包络(136)作为权重。
50.如权利要求39至49中的任一项所述的基于变换的话音编码器(100、170),其中,所述系数量化单元(112)被配置为对重新缩放的当前误差系数块(142)中的重新缩放的误差系数进行量化。
51.如权利要求39至50中的任一项所述的基于变换的话音编码器(100、170),其中,
-所述基于变换的话音编码器(100、170)还包括比特分配单元(109、110、171、172),被配置为基于所述当前块包络(136)来确定分配矢量;以及
-所述分配矢量指示来自待用于对从当前预测误差系数块(141)推导出的第一系数进行量化的预定量化器集合(326、327)的第一量化器。
52.如权利要求51所述的基于变换的话音编码器(100、170),其中,所述分配矢量指示待用于分别从当前预测误差系数块(141)推导出的所有系数的量化器。
53.如引用权利要求45的权利要求51至52中的任一项所述的基于变换的话音编码器(100、170),其中,所述比特分配单元(109、110、171、172)被配置为还基于所述一个或更多个缩放规则来确定所述分配矢量。
54.如权利要求51至53中的任一项所述的基于变换的话音编码器(100、170),其中,所述比特分配单元(109、110、171、172)被配置为:
-确定所述分配矢量,以使得用于所述当前预测误差系数块(141)的系数数据(163)不超过预定比特数量(143);以及
-确定指示待应用于从所述当前块包络(136)推导出的分配包络(138)的偏移的偏移参数;其中,所述偏移参数包括于比特流中。
55.如权利要求39至54中的任一项所述的基于变换的话音编码器(100、170),还包括熵编码器,被配置为对与所述量化系数相关联的量化指数进行熵编码。
56.如权利要求55所述的基于变换的话音编码器(100、170),其中,所述熵编码器被配置为使用算术编码器对量化指数进行编码。
57.一种基于变换的话音解码器(500),被配置为对比特流进行解码,以提供重构的话音信号;所述解码器(500)包括:
-预测器(517),被配置为基于一个或更多个所重构的先前变换系数块(149)并且基于从所述比特流推导出的一个或更多个预测器参数(520)来确定所估计的当前平坦化变换系数块(150);
-如权利要求37所述的逆量化单元(552),被配置为使用预定量化器集合(326、327)基于所述比特流内包括的系数数据(163)来确定量化后的当前预测误差系数块(147);
-加法单元(116),被配置为基于所估计的当前平坦化变换系数块(150)并且基于量化后的当前预测误差系数块(147)来确定重构的当前平坦化变换系数块(148);以及
-逆平坦化单元(114),被配置为使用当前块包络(136)通过提供具有谱形状的重构的当前平坦化变换系数块(148)来确定重构的当前变换系数块(149);其中,基于重构的当前变换系数块(149)来确定重构的话音信号。
58.一种用于对系数块(141)中的第一系数进行量化的方法;其中,所述系数块(141)包括用于多个对应频率窗(301)的多个系数;其中,所述方法包括:
-提供量化器集合(326、327);其中,所述量化器集合(326、327)包括分别与多个不同信噪比SNR相关联的多个不同量化器(321、322、323),所述多个不同量化器(321、322、323)包括:
-噪声填充量化器(321);
-一个或更多个抖动量化器(322);以及
-一个或更多个无抖动量化器(323);
-确定指示属于所述第一系数的SNR的SNR指示;
-基于所述SNR指示从所述量化器集合(326、327)选择第一量化器;以及
-使用所述第一量化器来量化所述第一系数。
59.一种用于对量化指数进行解量化的方法;其中,所述量化指数与包括用于多个对应频率窗(301)的多个系数的系数块(141)相关联;其中,所述方法包括:
-提供量化器集合(326、327);其中,所述量化器集合(326、327)包括分别与多个不同信噪比SNR相关联的多个不同量化器(321、322、323),所述多个不同量化器(321、322、323)包括:
-噪声填充量化器(321);
-一个或更多个抖动量化器(322);以及
-一个或更多个无抖动量化器(323);
-确定指示属于来自所述系数块(141)的第一系数的SNR的SNR指示;
-基于所述SNR指示从所述量化器集合(326、327)选择第一量化器;以及
-使用所述第一量化器来确定用于所述第一系数的第一量化系数。
60.一种用于将音频信号编码到比特流中的方法;所述方法包括:
-通过使用抖动量化器(322)对来自系数块(141)的多个系数进行量化来确定多个量化指数;其中,所述多个系数与多个对应频率窗(301)相关联;其中,从所述音频信号推导所述系数块(141);
-选择M个预定抖动实现之一;
-基于所选择的抖动实现来生成用于对所述多个系数进行量化的多个抖动值(602);其中,M是大于1的整数;
-从M个预定码书中选择码书;
-使用所选择的码书来对所述多个量化指数进行熵编码;其中,所述M个预定码书分别与所述M个预定抖动实现相关联;其中,所选择的码书与所选择的抖动实现相关联;以及
-将指示已经熵编码的量化指数的系数数据(163)插入到所述比特流中。
61.一种用于对比特流进行解码以提供重构的音频信号的方法;所述方法包括:
-选择M个预定抖动实现之一;
-基于所选择的抖动实现来生成多个抖动值(602);其中,M是大于1的整数;其中,所述多个抖动值(602)由包括抖动量化器(322)的逆量化单元(552)使用来基于对应的多个量化指数确定对应的多个量化系数;
-从M个预定码书中选择码书;
-使用所选择的码书对来自所述比特流的系数数据(163)进行熵解码,以提供所述多个量化指数;其中,所述M个预定码书分别与所述M个预定抖动实现相关联;并且其中,所选择的码书与所选择的抖动实现相关联;以及
-基于所述多个量化系数来确定所重构的音频信号。
62.一种用于将话音信号编码到比特流中的方法;所述方法包括:
-接收包括当前块(131)以及一个或更多个先前块(131)的多个顺序变换系数块(131);其中,所述多个顺序变换系数块(131)指示话音信号的样本;
-通过使用对应当前块包络(136)平坦化对应的当前变换系数块(131)来确定当前平坦化变换系数块(140);
-基于一个或更多个所重构的先前变换系数块(149)并且基于一个或更多个预测器参数(520)来确定所估计的当前平坦化变换系数块(150);其中,从所述一个或更多个先前变换系数块(131)推导出一个或更多个所重构的先前变换系数块(149);
-基于当前平坦化变换系数块(140)并且基于所估计的当前平坦化变换系数块(150)来确定当前预测误差系数块(141);
-根据如权利要求58所述的方法来对从当前预测误差系数块(141)推导出的系数进行量化;以及
-基于与所述量化系数关联的量化指数来确定用于所述比特流的系数数据(163)。
63.一种用于对比特流进行解码以提供重构的话音信号的方法;所述方法包括:
-基于一个或更多个重构的先前变换系数块(149)并且基于从所述比特流推导出的一个或更多个预测器参数(520)来确定所估计的当前平坦化变换系数块(150);
-使用如权利要求59所述的方法基于所述比特流内包括的系数数据(163)来确定量化后的当前预测误差系数块(147);
-基于所估计的当前平坦化变换系数块(150)并且基于量化后的当前预测误差系数块(147)来确定重构的当前平坦化变换系数块(148);
-通过使用当前块包络(136)提供具有谱形状的重构的当前平坦化变换系数块(148)来确定重构的当前变换系数块(149);以及
-基于所重构的当前变换系数块(149)来确定所重构的话音信号。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361808673P | 2013-04-05 | 2013-04-05 | |
US61/808,673 | 2013-04-05 | ||
US201361875817P | 2013-09-10 | 2013-09-10 | |
US61/875,817 | 2013-09-10 | ||
PCT/EP2014/056855 WO2014161994A2 (en) | 2013-04-05 | 2014-04-04 | Advanced quantizer |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105144288A true CN105144288A (zh) | 2015-12-09 |
CN105144288B CN105144288B (zh) | 2019-12-27 |
Family
ID=50442507
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480019363.8A Active CN105144288B (zh) | 2013-04-05 | 2014-04-04 | 高级量化器 |
Country Status (10)
Country | Link |
---|---|
US (2) | US9940942B2 (zh) |
EP (2) | EP3217398B1 (zh) |
JP (3) | JP6158421B2 (zh) |
KR (3) | KR101754094B1 (zh) |
CN (1) | CN105144288B (zh) |
BR (1) | BR112015025009B1 (zh) |
ES (1) | ES2628127T3 (zh) |
HK (1) | HK1215751A1 (zh) |
RU (2) | RU2640722C2 (zh) |
WO (1) | WO2014161994A2 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018133043A1 (zh) * | 2017-01-20 | 2018-07-26 | 华为技术有限公司 | 量化器与量化方法 |
CN114019449A (zh) * | 2022-01-10 | 2022-02-08 | 南京理工大学 | 信号源的波达方向估计方法、装置、电子设备及存储介质 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
BR112015025009B1 (pt) | 2013-04-05 | 2021-12-21 | Dolby International Ab | Unidades de quantização e quantização inversa, codificador e decodificador, métodos para quantizar e dequantizar |
SG11201701197TA (en) * | 2014-07-25 | 2017-03-30 | Panasonic Ip Corp America | Audio signal coding apparatus, audio signal decoding apparatus, audio signal coding method, and audio signal decoding method |
US10553228B2 (en) * | 2015-04-07 | 2020-02-04 | Dolby International Ab | Audio coding with range extension |
US10321164B2 (en) * | 2015-09-29 | 2019-06-11 | Apple Inc. | System and method for improving graphics and other signal results through signal transformation and application of dithering |
GB2547877B (en) * | 2015-12-21 | 2019-08-14 | Graham Craven Peter | Lossless bandsplitting and bandjoining using allpass filters |
KR101968456B1 (ko) | 2016-01-26 | 2019-04-11 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 적응형 양자화 |
EP3544005B1 (en) * | 2018-03-22 | 2021-12-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio coding with dithered quantization |
EP3935581A4 (en) | 2019-03-04 | 2022-11-30 | Iocurrents, Inc. | DATA COMPRESSION AND COMMUNICATION USING MACHINE LEARNING |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006111294A1 (en) * | 2005-04-19 | 2006-10-26 | Coding Technologies Ab | Energy dependent quantization for efficient coding of spatial audio parameters |
US20070016404A1 (en) * | 2005-07-15 | 2007-01-18 | Samsung Electronics Co., Ltd. | Method and apparatus to extract important spectral component from audio signal and low bit-rate audio signal coding and/or decoding method and apparatus using the same |
CN1964244A (zh) * | 2005-11-08 | 2007-05-16 | 厦门致晟科技有限公司 | 一种用声码器收发数字信号的方法 |
EP2077550A1 (en) * | 2008-01-04 | 2009-07-08 | Dolby Sweden AB | Audio encoder and decoder |
GB2466675A (en) * | 2009-01-06 | 2010-07-07 | Skype Ltd | Reducing quantizer distortion with subtractive dithering |
Family Cites Families (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5388181A (en) | 1990-05-29 | 1995-02-07 | Anderson; David J. | Digital audio compression system |
DE69232202T2 (de) | 1991-06-11 | 2002-07-25 | Qualcomm Inc | Vocoder mit veraendlicher bitrate |
SE506379C3 (sv) * | 1995-03-22 | 1998-01-19 | Ericsson Telefon Ab L M | Lpc-talkodare med kombinerad excitation |
GB9509831D0 (en) | 1995-05-15 | 1995-07-05 | Gerzon Michael A | Lossless coding method for waveform data |
US5956674A (en) | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
US5805228A (en) | 1996-08-09 | 1998-09-08 | U.S. Robotics Access Corp. | Video encoder/decoder system |
US5990815A (en) * | 1997-09-30 | 1999-11-23 | Raytheon Company | Monolithic circuit and method for adding a randomized dither signal to the fine quantizer element of a subranging analog-to digital converter (ADC) |
US6170052B1 (en) | 1997-12-31 | 2001-01-02 | Intel Corporation | Method and apparatus for implementing predicated sequences in a processor with renaming |
US6029126A (en) | 1998-06-30 | 2000-02-22 | Microsoft Corporation | Scalable audio coder and decoder |
US6253165B1 (en) | 1998-06-30 | 2001-06-26 | Microsoft Corporation | System and method for modeling probability distribution functions of transform coefficients of encoded signal |
US6370502B1 (en) * | 1999-05-27 | 2002-04-09 | America Online, Inc. | Method and system for reduction of quantization-induced block-discontinuities and general purpose audio codec |
US7110953B1 (en) * | 2000-06-02 | 2006-09-19 | Agere Systems Inc. | Perceptual coding of audio signals using separated irrelevancy reduction and redundancy reduction |
US6662155B2 (en) * | 2000-11-27 | 2003-12-09 | Nokia Corporation | Method and system for comfort noise generation in speech communication |
CA2388358A1 (en) | 2002-05-31 | 2003-11-30 | Voiceage Corporation | A method and device for multi-rate lattice vector quantization |
US7447631B2 (en) | 2002-06-17 | 2008-11-04 | Dolby Laboratories Licensing Corporation | Audio coding system using spectral hole filling |
US7536305B2 (en) * | 2002-09-04 | 2009-05-19 | Microsoft Corporation | Mixed lossless audio compression |
US6812876B1 (en) * | 2003-08-19 | 2004-11-02 | Broadcom Corporation | System and method for spectral shaping of dither signals |
ATE390683T1 (de) * | 2004-03-01 | 2008-04-15 | Dolby Lab Licensing Corp | Mehrkanalige audiocodierung |
KR20070083677A (ko) * | 2004-09-14 | 2007-08-24 | 개리 데모스 | 고품질 광역 다중-레이어 이미지 압축 코딩 시스템 |
US7885809B2 (en) | 2005-04-20 | 2011-02-08 | Ntt Docomo, Inc. | Quantization of speech and audio coding parameters using partial information on atypical subsequences |
US7805314B2 (en) * | 2005-07-13 | 2010-09-28 | Samsung Electronics Co., Ltd. | Method and apparatus to quantize/dequantize frequency amplitude data and method and apparatus to audio encode/decode using the method and apparatus to quantize/dequantize frequency amplitude data |
GB0600141D0 (en) | 2006-01-05 | 2006-02-15 | British Broadcasting Corp | Scalable coding of video signals |
DE102006060338A1 (de) * | 2006-12-13 | 2008-06-19 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Haftfester Metall-Keramik-Verbund und Verfahren zu seiner Herstellung |
EP2381580A1 (en) | 2007-04-13 | 2011-10-26 | Global IP Solutions (GIPS) AB | Adaptive, scalable packet loss recovery |
WO2010003253A1 (en) | 2008-07-10 | 2010-01-14 | Voiceage Corporation | Variable bit rate lpc filter quantizing and inverse quantizing device and method |
KR101518532B1 (ko) | 2008-07-11 | 2015-05-07 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 오디오 인코더, 오디오 디코더, 오디오 신호, 오디오 스트림을 부호화 및 복호화하는 장치 및 컴퓨터 프로그램 |
CN102379088B (zh) * | 2009-03-31 | 2015-04-29 | 艾格瑞系统有限责任公司 | 通过使用△-∑调制器直接合成rf信号的方法和装置 |
US7868798B2 (en) * | 2009-03-31 | 2011-01-11 | Lsi Corporation | Methods and apparatus for whitening quantization noise in a delta-sigma modulator using dither signal |
US7834788B2 (en) * | 2009-03-31 | 2010-11-16 | Lsi Corporation | Methods and apparatus for decorrelating quantization noise in a delta-sigma modulator |
CN102081927B (zh) | 2009-11-27 | 2012-07-18 | 中兴通讯股份有限公司 | 一种可分层音频编码、解码方法及系统 |
EP2372699B1 (en) | 2010-03-02 | 2012-12-19 | Google, Inc. | Coding of audio or video samples using multiple quantizers |
JP5316896B2 (ja) | 2010-03-17 | 2013-10-16 | ソニー株式会社 | 符号化装置および符号化方法、復号装置および復号方法、並びにプログラム |
US8508395B2 (en) * | 2010-07-19 | 2013-08-13 | Massachusetts Institute Of Technology | Time varying quantization-based linearity enhancement of signal converters and mixed-signal systems |
WO2012122299A1 (en) | 2011-03-07 | 2012-09-13 | Xiph. Org. | Bit allocation and partitioning in gain-shape vector quantization for audio coding |
JP6173484B2 (ja) | 2013-01-08 | 2017-08-02 | ドルビー・インターナショナル・アーベー | 臨界サンプリングされたフィルタバンクにおけるモデル・ベースの予測 |
BR112015025009B1 (pt) * | 2013-04-05 | 2021-12-21 | Dolby International Ab | Unidades de quantização e quantização inversa, codificador e decodificador, métodos para quantizar e dequantizar |
US9503120B1 (en) * | 2016-02-29 | 2016-11-22 | Analog Devices Global | Signal dependent subtractive dithering |
-
2014
- 2014-04-04 BR BR112015025009-2A patent/BR112015025009B1/pt active IP Right Grant
- 2014-04-04 US US14/781,700 patent/US9940942B2/en active Active
- 2014-04-04 KR KR1020157027505A patent/KR101754094B1/ko active IP Right Grant
- 2014-04-04 EP EP17164112.9A patent/EP3217398B1/en active Active
- 2014-04-04 ES ES14715894.3T patent/ES2628127T3/es active Active
- 2014-04-04 WO PCT/EP2014/056855 patent/WO2014161994A2/en active Application Filing
- 2014-04-04 EP EP14715894.3A patent/EP2981961B1/en active Active
- 2014-04-04 KR KR1020177017734A patent/KR102069493B1/ko active IP Right Grant
- 2014-04-04 KR KR1020197023624A patent/KR102072365B1/ko active IP Right Grant
- 2014-04-04 CN CN201480019363.8A patent/CN105144288B/zh active Active
- 2014-04-04 JP JP2016505843A patent/JP6158421B2/ja active Active
- 2014-04-04 RU RU2015141996A patent/RU2640722C2/ru active
-
2016
- 2016-03-30 HK HK16103658.9A patent/HK1215751A1/zh unknown
-
2017
- 2017-06-07 JP JP2017112284A patent/JP6452759B2/ja active Active
- 2017-12-13 RU RU2017143614A patent/RU2752127C2/ru active
-
2018
- 2018-03-22 US US15/933,108 patent/US10311884B2/en active Active
- 2018-12-11 JP JP2018231463A patent/JP6779966B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2006111294A1 (en) * | 2005-04-19 | 2006-10-26 | Coding Technologies Ab | Energy dependent quantization for efficient coding of spatial audio parameters |
US20070016404A1 (en) * | 2005-07-15 | 2007-01-18 | Samsung Electronics Co., Ltd. | Method and apparatus to extract important spectral component from audio signal and low bit-rate audio signal coding and/or decoding method and apparatus using the same |
CN1964244A (zh) * | 2005-11-08 | 2007-05-16 | 厦门致晟科技有限公司 | 一种用声码器收发数字信号的方法 |
EP2077550A1 (en) * | 2008-01-04 | 2009-07-08 | Dolby Sweden AB | Audio encoder and decoder |
GB2466675A (en) * | 2009-01-06 | 2010-07-07 | Skype Ltd | Reducing quantizer distortion with subtractive dithering |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018133043A1 (zh) * | 2017-01-20 | 2018-07-26 | 华为技术有限公司 | 量化器与量化方法 |
CN109690673A (zh) * | 2017-01-20 | 2019-04-26 | 华为技术有限公司 | 量化器与量化方法 |
CN114019449A (zh) * | 2022-01-10 | 2022-02-08 | 南京理工大学 | 信号源的波达方向估计方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
EP3217398B1 (en) | 2019-08-14 |
ES2628127T3 (es) | 2017-08-01 |
EP3217398A1 (en) | 2017-09-13 |
RU2017143614A (ru) | 2019-02-14 |
US9940942B2 (en) | 2018-04-10 |
KR102069493B1 (ko) | 2020-01-28 |
CN105144288B (zh) | 2019-12-27 |
KR20190097312A (ko) | 2019-08-20 |
RU2752127C2 (ru) | 2021-07-23 |
US20180211677A1 (en) | 2018-07-26 |
RU2017143614A3 (zh) | 2021-01-22 |
JP2017182087A (ja) | 2017-10-05 |
EP2981961B1 (en) | 2017-05-10 |
BR112015025009A2 (pt) | 2017-07-18 |
KR102072365B1 (ko) | 2020-02-03 |
WO2014161994A3 (en) | 2014-11-27 |
KR101754094B1 (ko) | 2017-07-05 |
JP6779966B2 (ja) | 2020-11-04 |
RU2015141996A (ru) | 2017-04-13 |
HK1215751A1 (zh) | 2016-09-09 |
EP2981961A2 (en) | 2016-02-10 |
US20160042744A1 (en) | 2016-02-11 |
WO2014161994A2 (en) | 2014-10-09 |
KR20170078869A (ko) | 2017-07-07 |
JP2019079057A (ja) | 2019-05-23 |
JP2016519787A (ja) | 2016-07-07 |
KR20150139518A (ko) | 2015-12-11 |
BR112015025009B1 (pt) | 2021-12-21 |
RU2640722C2 (ru) | 2018-01-11 |
JP6158421B2 (ja) | 2017-07-05 |
JP6452759B2 (ja) | 2019-01-16 |
US10311884B2 (en) | 2019-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105144288A (zh) | 高级量化器 | |
CN103065637B (zh) | 音频编码器和解码器 | |
CN105247614B (zh) | 音频编码器和解码器 | |
AU2012201692B2 (en) | Audio Encoder and Decoder | |
CN105122358A (zh) | 用于处理编码信号的装置和方法与用于产生编码信号的编码器和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |