CN101292286A - 音频编码 - Google Patents
音频编码 Download PDFInfo
- Publication number
- CN101292286A CN101292286A CNA2006800390203A CN200680039020A CN101292286A CN 101292286 A CN101292286 A CN 101292286A CN A2006800390203 A CNA2006800390203 A CN A2006800390203A CN 200680039020 A CN200680039020 A CN 200680039020A CN 101292286 A CN101292286 A CN 101292286A
- Authority
- CN
- China
- Prior art keywords
- subband
- expansion
- calibrated
- applicable
- factor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000005236 sound signal Effects 0.000 claims abstract description 36
- 239000013598 vector Substances 0.000 claims description 37
- 238000000034 method Methods 0.000 claims description 31
- 238000005259 measurement Methods 0.000 claims description 25
- 238000007906 compression Methods 0.000 claims description 22
- BTCSSZJGUNDROE-UHFFFAOYSA-N gamma-aminobutyric acid Chemical compound NCCCC(O)=O BTCSSZJGUNDROE-UHFFFAOYSA-N 0.000 claims description 20
- 238000011002 quantification Methods 0.000 claims description 14
- 230000001186 cumulative effect Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 238000013459 approach Methods 0.000 claims description 6
- 238000001228 spectrum Methods 0.000 description 21
- 230000006835 compression Effects 0.000 description 19
- 230000003595 spectral effect Effects 0.000 description 8
- 238000013139 quantization Methods 0.000 description 7
- 230000006837 decompression Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 3
- 238000009826 distribution Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 102000002262 Thromboplastin Human genes 0.000 description 1
- 108010000499 Thromboplastin Proteins 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/035—Scalar quantisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
- G10L19/0208—Subband vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
音频编码,通过以下步骤进行:接收输入音频信号;将输入音频信号划分为至少两个子带;利用至少根据相应子带的标准差的因子来对所述至少两个子带进行下定标;对所述至少两个已下定标的子带的每个进行压缩扩展;以及利用格型量化器对所述已压缩扩展的、已定标的子带进行量化。
Description
技术领域
本发明一般涉及音频编码以及解码技术。
背景技术
对于音频编码,过去已经应用了不同的编码方案。这些编码方案中的一种编码方案是应用心理声学编码。关于这些编码方案,使用输入音频信号的频谱特性来减小冗余。分析输入音频信号的频谱分量并且去除显然不能由人耳识别的频谱分量。为了应用这些编码方案,获得输入音频信号的频谱系数。
诸如高级音频编码器(AAC)以及MPEG音频的心理声学编码中的频谱系数的量化通过以下方式来执行,即先使用标量量化,接着使用标度因子(scale factor)以及定标的频谱系数的熵编码。使用针对频谱系数的十一个可能的固定霍夫曼树、以及针对标度因子的一个树作为微分编码来执行熵编码。
理想的编码情况产生原始信号的压缩版本,这导致与原始非常接近(至少在可感知的意义上)的信号的解码过程,同时具有高压缩比并且压缩算法不太复杂。由于当今流传甚广的多媒体通信以及异类网络,为了相同或者更好的质量而同时保持较低复杂度而提高压缩比率是一项持久的挑战。
发明内容
根据一个方面,本申请提供了一种用于音频编码的方法,该方法通过以下步骤来进行:接收输入音频信号,将所述输入音频信号划分为至少两个子带,利用第一因子对所述至少两个子带进行定标,对所述至少两个已定标的子带的每个进行压缩扩展,以及对所述已压缩扩展的、已定标的子带进行量化。
根据另一方面,本申请提供了一种编码器,该编码器包括:变换单元,适用于接收输入音频信号,并且将所述输入音频信号划分为至少两个子带;定标单元,适用于利用第一因子对至少两个子带进行定标;压缩扩展单元,适用于对至少两个已定标的子带的每个子带进行压缩扩展;以及量化单元,适用于对所述已压缩扩展的、已定标的子带进行量化。
根据另一方面,本申请提供了一种包括与上述编码器相同组件的电子设备。
根据另一方面,本申请提供了一种存储软件代码的软件程序产品,当在电子设备的处理单元中执行时,所述软件代码适用于实现上述编码方法。
根据另一方面,本申请提供了一种用于音频解码的方法,该方法通过以下步骤来实现:接收已编码的音频数据,从所述已编码的音频数据生成至少两个已压缩扩展的子带;对每个已压缩扩展的子带进行解压缩扩展,利用第一因子对所述至少两个已解压缩扩展的子带进行定标;以及将所述已解压缩扩展的和已定标的子带结合到已解码的音频信号。
根据另一方面,本申请提供了一种解码器,该解码器包括:解压缩扩展单元,适用于对至少两个已压缩扩展的子带进行解压缩扩展,其中所述已压缩扩展的子带是从所接收的已编码的音频数据生成;定标单元,适用于利用第一因子对所述至少两个已解压缩扩展的子带进行定标;以及变换单元,适用于将所述已解压缩扩展和已定标的子带结合到已解码的音频信号。
根据另一方面,本申请提供了一种存储软件代码的软件程序产品,当在电子设备的处理单元中执行时,所述软件代码适用于实现上述解码方法。
根据另一方面,本申请提供了一种包括与上述解码器相同组件的电子设备。
根据另一方面,本申请提供了一种包括上述编码器和上述解码器的系统。
本申请在频谱数据的向量量化之前提供对输入音频信号子带的频谱分量进行压缩扩展。根据一个方面,压缩扩展通过使用已定标的子带来考虑输入音频数据的心理声学现象以及频谱系数的分布,其中所述已定标的子带实现性能-复杂度有效的量化。
根据一个实施方式,定标包括利用第一定标因子对至少两个子带进行定标。该第一定标因子可以例如依赖于针对已编码数据流的总可用比特率,依赖于针对每个子带的可用比特率、和/或依赖于各个子带的特性。第一定标因子可以包括例如基数和指数。总比特率例如可以由用户来设置,然后可以以适合的方式向子带自动分布所述总比特率。
然后,如果整体比特率(用户可以对其施加影响)具有较高的值,则例如可以将针对各个子带的基数设置为较低的值;以及如果由用户施加影响的比特率具有较低的值,则可以将该基数设置为较高的值。
例如可以针对每个子带确定指数,使得已编码音频信号的总比特率尽可能地接近,但可以不小于可用比特率,并且所有子带中的整体失真是最小化的。这允许对比特率-失真测量进行优化。
可以以各种方式确定指数。例如,可以根据针对每个子带所允许的失真来计算用于该子带的最小的所考虑的指数。
为了对已编码音频信号进行解码,关于在编码侧定标的信息还必须在解码侧也可用。为此,可以编码所需的信息,例如熵编码。仅提供和编码第一定标因子的一部分可以是足够的。在编码器和解码器两侧已知由用户设置的整体比特率,因此仅编码指数而不编码基数可以是足够的。
根据其他实施方式,定标可以包括第二因子,该第二因子是根据用第一因子定标的子带的标准差。利用第一定标因子的定标可以代替利用第二定标因子的定标。
根据其他实施方式,利用已定标子带的概率函数来创建用于压缩扩展的累积密度函数。频谱数据可以近似为具有0.5的形状因子的广义高斯概率密度函数。这一发现可以使得使用解析的广义高斯概率密度函数来以传统方式计算累积密度函数以及获取压缩扩展函数。这一经典方法称作“直方图均衡化”。其思想是变换数据,使得结果生成的已变换数据的概率密度函数是一致的。示出了将由数据的累积密度函数给出的变换函数。累计密度函数是最大值为1的非下降函数。可以离线预先确定该函数并且在编码端存储该函数,以及可以在解码端预先确定和存储针对每个子带的相应的函数。
根据其他实施方式,在利用第三定标因子量化之前对已压缩扩展的子带进行定标。此第三定标因子针对较高整体比特率可以比针对较低整体比特率较高。此第三因子可以依赖于子带系数的标准差,由此通过这样的乘法,提供了其他装置用于针对每个子带分别调整量化分辨率。
格型量化器可以使用例如矩形截断的格型用于对已压缩扩展的、已定标的子带进行量化,这生成针对每个子带的码向量。
对于每个子带,可以计算具体范数用于包括已量化子带的格型截断。针对每个子带,可以选择用于矩形截断的格型的范数,以便对应于与各个码向量的范数。在解码端不能预先已知这种范数,可以对其进行编码(例如,熵编码),使得可以将其提供作为用于已编码音频信号的另一侧的信息。
例如可以通过索引来编码导致量化的码向量。
例如但并非排他地,可以在AAC编码框架中应用上述编码选项。
根据示出可能实施方式的以下描述,本申请的其他方面将变得清楚明了。
附图说明
图1示意性地示出了根据本发明的一个实施方式的第一电子设备的编码器的功能块;
图2示意性地示出了根据实施方式的编码器组件的功能块;
图3是示出根据本发明的一个实施方式的编码操作的流程图;
图4示意性地示出了根据本发明的一个实施方式的第二电子设备的解码器的功能块;
图5示意性地示出了根据实施方式的解码器组件的功能块。
具体实施方式
图1是其中可以实现根据本发明的一个实施方式的低复杂度编码的示例性电子设备1的图示。
电子设备1包括编码器2,示意性地示出了编码器2的功能块。编码器2包括改进的离散余弦变换(MDCT)单元4、定标单元6、压缩扩展单元8、量化单元10、索引单元以及熵编码单元13。
在MDCT单元4中,输入音频信号14经MDCT变换到频率域。然后,在定标单元6中,利用各个定标因子来定标频率域信号的多个频率子带的频谱分量。例如,这种定标可以是利用第一和/或第二定标因子的下定标。
向压缩扩展单元8提供子带的这些已定标的频谱分量,在所述压缩扩展单元8中压缩扩展该频谱分量。向量化单元10提供已压缩扩展的频谱分量,其中利用第三定标因子乘以所述已压缩扩展的频谱分量,并且使用格型量化器来量化。可以在量化单元10外部实现定标。如果使用Zn格型,则此步骤对应于四舍五入到最接近的整数以便获得量化的频谱分量。每个子带的量化的频谱分量可以用各个格型向量来表示。
在索引单元12中,可以针对每个子带通过适合的索引方法来将所获得的整数格型向量进行索引。
可以以硬件(HW)和/或软件(SW)来实现编码器2。关于以软件实现的情况,当在设备1的处理单元中执行该软件时,存储在计算机可读介质上的软件代码实现所述功能。
现在,将参考图2来更详细地描述用于音频信号的MDCT频谱系数的非常低复杂度量化的新结构的实施方式。示出了MDCT单元4、改进的定标单元6以及压缩扩展格型向量量化器单元16。压缩扩展格型向量量化器单元16包括图1的压缩扩展单元8、量化单元10以及索引单元12。
根据实施方式,利用标度因子以及利用已定标子带标准差的倒数在定标单元6中对由MDCT单元4提供的每个子带SBi(其中i=1至N)进行定标。由于仅可从训练集来离线估计标准差的值,所以已定标的子带分量的方差值可以不同于1。然而,估计越好则方差值越接近等于1。
利用第一定标因子已经定标的数据的标准差的分割使得已定标数据具有“1”的方差。
用于标度因子的计算的基数b是根据可用比特率,该比特率可以由用户来设置。对于高于或者等于48kBit/s的比特率,此基数b可以是1.45;而对于低于48kBit/s的比特率,基数b可以是2。应该理解,如果发现适合则还可以选择其他的值。使用不同的基数值允许在不同比特率使用不同的量化分辨率。在下文中将进一步描述针对每个子带的标度因子计算所使用的指数{si}的确定,其中所述指数可以是从0至42的整数。
在编码器和解码器两侧,对于每个子带的标准差和基数b都是已知的。根据实施方式,可以例如在训练集上,离线计算所使用的标准差。由此,仅使得指数{si}必须可用于解码端。
以传统方式使用通过定标结果生成的频谱分量的概率密度函数,以便推断产生压缩扩展函数的累积密度函数。通过示例方式,从训练数据集抽取累积密度函数并将其存储为700个二维点(x,f(x))的表。“x”是部分线性的(具有3个不同斜率),从而使用一维点(仅仅f(x))可实现函数的存储。
在压缩扩展格型向量量化器单元16中,使用产生的压缩扩展函数来压缩扩展已定标的频谱分量。在压缩扩展之后,已压缩扩展的数据几乎具有一致的分布并且可以使用格型量化器来有效地得以量化。
为了增加量化分辨率,在量化之前,另外可以由另一第三定标因子来乘以已压缩扩展的数据,这可以是相应子带的标准差乘以一个因子,其中对于大于或者等于48kbit/s的比特率,所述因子等于3,而对于小于48kbit/s的比特率,所述因子等于2.1。
由此,在相同的编码结构中,可以通过两个参数来改变量化分辨率,即第一定标因子的基数b和量化之前直接应用的乘法的第三定标因子。例如,这允许针对不同的比特率域使用相同的编解码器,所述不同比特率域例如在44.1kHz的从16kbit/s至128kbit/s。
对于已压缩扩展数据的量化,压缩扩展格型向量量化器16更适合用于针对每个频谱子带使用矩形截断的Zn格型向量量化器,例如在每1024长度量化帧处。除Zn格型以外,其他格型也是适用的并且在本申请的范围中。各个Zn格型的维度可以等于各个子带中频谱分量的数目。
Zn格型包括n维空间的所有整数坐标点。格型的有限截断形成“码本”,并且可将一个点称作“码向量”。每个码向量可以关联于各个索引。另一方面,可以通过整数向量来表示各个子带的量化的频谱分量,所述整数向量与Zn格型量化器的特定码向量相对应。由此,代替对每个向量分量单独进行编码的是:可以从格型生成单个索引并将其针对向量而发送。
在截断的格型中,格型的点的数目是有限的。在其中包含了向量的矩形截断格型允许简单的索引算法。继而格型码向量是来自格型截断的点。
如果截断是矩形的,则与此截断相对应的范数可以是所考虑向量的分量的最大绝对值:
压缩扩展格型向量量化器16的输出包括码向量的范数{cnj (i)}和格型码向量索引{cIj (i)},其中码向量可以是从0至141的整数。索引i表示子带并且索引j枚举在比特率最小化算法中使用的可能的指数值。
可以使用本量化,因为所述量化是针对音频信号的频谱量化、或者适用于其他类型的数据的量化。
为了给出某些示例,范数{cnj (i)}和指数{si}可以是使用香农编码或者算术编码在熵编码器13中编码的熵。
由实现所提出的频谱量化方法的编码器2所输出的比特流包括每个子带的码向量的索引的二进制表示、以及熵编码的范数和指数。
如果码向量的范数是零,则不能编码标度因子的指数,这是因为其不再有效。
可以如下计算针对各个索引{cIj (i)所需的比特数目:
编码器具有例如可以由用户设置的可用总比特率,并且由编码器输出的比特流应具有该比特率。
为了确定适合的指数{si},定标单元6可以通过应用优化算法来执行失真/比特率优化。
为此,针对具有n维的每个子带的指数{si}可以通过下式来定初始值:
针对每个子带SBi,选择上至20个(作为示例,可以是不同的值)指数值用于评估。这些指数包括大于初始值的19个指数值和初始值。如果不存在大于初始值的20个指数值,则仅考虑这些可用的指数值。应该注意,这些数目还可以是变化的,但是如果考虑更多的值,则编码时间会增加。相反,考虑较少的值将使得编码时间降低,这在编码质量方面将付出轻微的代价。
针对每个子带和指数的每个考虑的值,针对给定的帧来应用上述定标、压缩扩展、乘法以及量化的处理。在这些情况的每个中,针对每个子带以及每个所考虑指数来获取已量化的向量。
为了编码结果生成的向量,需要Rmax的比特数目加上编码向量的最大范数的比特数目和编码所考虑的指数的比特数目。这三个量的总和对应于所谓的比特率值。
率-失真测量可以是关于每个子带所允许失真的错误率。当计算错误率时,存在两种可能途径:一种是从其定义来计算实际错误率;而第二种是,如果所允许的失真测量大于在所考虑子带中的信号能量,则将错误率设置为零。第一种途径可以认为是“定义”,而第二种途径可认为是“改进的定义”。
由此,针对每个子带和每个考虑的指数,可以获得比特率与错误率的各个配对。此配对还称作率-失真测量。
对于每个子带,排序率-失真测量使得比特率是增加的。通常,随着比特率的增加,失真将降低。如果不满足此规律,则排除具有较高比特率的失真测量。这就是不是所有子带都具有相同数目的率-失真测量的原因。
优化算法具有两种类型的初始化:
1.由与最低错误率相对应的率-失真测量开始,该最低错误率等效于最高比特率,或者
2.由与针对所有子带的小于1.0的错误率相对应的率-失真测量开始。
优化算法的目标在于针对当前帧的每个子带,从所考虑指数值中选择指数值,使得所选择的率-失真测量的累积比特率小于或者等于针对帧的可用比特率,并且整体错误率尽可能地小。用于此优化的标准应该为最小的错误率,而比特率应该在由比特池机制所给出的可用比特数目以内,例如在AAC中那样。
根据示例性的优化算法,率-失真测量按照沿子带i(其中i=1∶N)增加的比特率的值而从1至Ri,Ni地排序,并且结果是降低的错误率,Di,j(其中i=1∶N,j=1∶Ni)。由具有最小失真的率-失真测量来初始该算法。初始比特率是 为了选择具有索引k的最佳率-失真测量,可以应用如下伪代码:
Fori=1∶N k(i)=Ni
1.If R<Rmax Stop
2 Else
While(1)
4 Fori=1∶n
5 If k(i)>1
Grad(i)=(Ri,k(i)-Ri,k(i)-1)/(Di,k(i)-1-Di,k(i)));
End For
8 i_change=arg(max(Grad));
9 R=R-Ri_change,k(i_change)+Ri_change,k(i_change)-1
10 k(i_change)=k(i_change)-1;
11 If R<Rmax Stop,Output k
12 End While
索引k(i)(其中i=1∶N)指向率-失真测量,而且还指向应该针对每个子带所选择的指数值,该值可以用于生成率-失真测量。
对于高的比特率,例如,≥48kbit/s,可以在第5行将算法修改为:
if k(i)>2
使得如果通过降低其比特率,将所有系数设置为零,则在最大化过程不考虑子带i,并且用于该子带的比特率变为1。
如果总比特率过高,则应降低一些,由此某些子带将具有较小比特率。如果仅可应用于一个子带的率-失真测量是一个具有等于1的比特率的率-失真测量,其中相应于被设置为零的子带中的所有系数,1是针对子带比特率的最小可能值,则在该子带中,不能进一步降低比特率。这是测试k(i)是否大于1的原因。对于每个符合条件的子带,计算对应于一个配对向左侧前进的梯度,并且选择具有最低增加的失真并且具有最大降低的比特率的配对。然后,检查结果生成的总比特率,等等。
图3是概括上述编码的流程图。
首先,对接收到的音频信号进行变换,并将其划分为多个子带SBi,其中i=1至N(步骤101)。
然后,针对每个子带,基于在此子带中所允许的失真来确定指数si的初始值(步骤102)。如上所述,使用所确定的si的初始值,通过第一和/或第二定标因子将子带分量进行分割(步骤103),其中定标因子可以是标准差σi和,进行压缩扩展(步骤104),进一步利用第三定标因子进行定标(步骤105),以及进行量化(步骤106)。针对si的多达19个的其他值来重复相同操作,只要该值没有超过42,则在每次重复中将si递增1(步骤107、步骤103至106)。对于每个所使用的si值,确定结果生成的比特率和结果生成的失真(步骤108)。然后,根据增加的相关联的比特率来si值进行排序(步骤109)。丢弃导致比各个先前si值更高失真的那些si值。
接着,共同估计针对所有子带的排序的si值。更具体地,针对每个子带选择一个si值,从而针对所有子带的si值的集合{si}导致尽可能地靠近所允许的总比特率的总比特率,并且同时将整体失真最小化(步骤110)。
最后,针对每个子带SBi,对具有所选择si值的在步骤106的量化中产生的码向量进行索引,以及对在此量化中使用的范数和所选择的si值进行熵编码(步骤111)。
图4是其中可以实现根据本发明的实施方式的低复杂度解码的示例性电子设备17的图示。电子设备1和17可以一起形成根据本发明的系统的示例性实施方式。
电子设备17包括解码器18,示意性地示出了其中的功能块。解码器18包括熵解码器21、逆索引单元22、解压缩扩展单元24、逆定标单元26以及逆MDCT单元28。
在解码器18中接收已编码的比特流20。首先,通过熵解码单元21来抽取定标因子的范数和指数。在熵解码单元21和逆索引单元22之间存在连接器。将已解码的范数从熵解码单元21馈送至逆索引单元22,从而通知该索引表示多少比特。从二进制字读取码向量索引,并将其馈送至逆索引单元22,其中所述二进制字具有根据公式(2)由已解码范数给出的长度。
然后,在逆索引单元22中取回码向量。在解压缩扩展单元24中使用码向量的分量,以便获得已解压缩扩展的值的集合。在逆定标单元26中通过逆定标因子来定标这些值。在逆MDCT单元28中使用已定标的值以获取期望的音频信号。
解码器18可以以硬件(HW)和/或软件(SW)来实现。如果以软件来实现,则当在设备17的处理单元中执行时,存储在计算机可读介质上的软件代码实现所描述的功能。
图5示出了根据实施方式的解码器18的所选择组件。这些组件包括逆索引单元22、定标单元33(在图3中未示出)、解压缩扩展单元24以及改进的逆定标单元26。
已编码的比特流20包括针对每个子带SBi的码向量索引{cIj (i)}、针对每个子带SBi的已编码范数{cnj (i)}以及针对每个子带SBi的已编码指数{si}。
逆索引单元22利用从熵解码单元21接收的码向量索引{cIj (i)}以及已解码范数{cnj (i)},来取回每个子带的已压缩扩展的频谱分量。这些已压缩扩展的频谱分量在定标单元33中通过因子来分割,在编码器2中使用所述因子来乘以已压缩扩展的数据,即2.1*σi或者3*σi。
在解压缩扩展单元24中对结果生成的数据进行解压缩扩展。
使用从熵解码单元21接收的已解码指数{si},随已知的基数b一起生成针对各个子带的逆标度因子。在逆定标单元26中,针对各个子带,使用针对各个子带的逆标度因子和已知的标准差σi来重新定标由解压缩扩展单元24输出的频谱分量。
应该注意,所述实施方式可以以许多方式变化。
Claims (24)
1.一种用于音频编码的方法,该方法包括:
-接收输入音频信号,
-将所述输入音频信号划分为至少两个子带,
-利用第一因子对所述至少两个子带进行定标,
-对所述至少两个已定标的子带的每个进行压缩扩展,以及
-对所述已压缩扩展的、已定标的子带进行量化。
2.根据权利要求1所述的方法,其中所述第一因子依赖于以下项中至少一个:
A)针对已编码数据流可用的总比特率,
B)针对每个子带可用的比特率,以及
C)各个子带的特性。
3.根据权利要求1所述的方法,其中所述定标进一步包括利用第二因子对所述至少两个子带进行定标,所述第二因子至少取决于所述各个已定标子带的标准差。
4.根据权利要求1所述的方法,其中量化包括使用格型量化器进行量化。
5.根据权利要求1所述的方法,其中所述第一因子包括基数和指数,以及其中针对整体较高比特率将针对各个子带的所述基数设置为较低值,并且针对整体较低比特率将针对各个子带的所述基数设置为较高值。
6.根据权利要求1所述的方法,其中所述第一因子包括基数和指数,以及其中针对每个子带确定所述指数,使得所述已编码音频信号的所述总比特率尽可能地接近于可用比特率,以及所有子带中的整体错误率被最小化。
7.根据权利要求1所述的方法,其中所述第一因子包括基数和指数,以及其中至少从率-失真测量来确定所述指数。
9.根据权利要求7所述的方法,其中对针对每个子带的所述率-失真测量进行排序使得比特率增加。
10.根据权利要求7所述的方法,进一步包括通过以下之一来初始化一个搜索用于导致优化的指数的率-失真测量:
A)由与所述最低错误率相对应的所述率-失真测量开始,所述最低错误率等效于最高比特率,或者
B)由与针对所有子带小于1.0的错误率相对应的所述率-失真测量开始。
11.根据权利要求7所述的方法,其中所述率-失真测量是关于每个子带所允许的失真的错误率,所述错误率通过以下的至少一个来计算:
A)从错误率定义计算实际错误率,或者
B)如果所述允许的失真测量大于在所述考虑的子带中的所述信号的能量,则将所述错误率设置为零。
12.根据权利要求1所述的方法,进一步包括使用熵编码对所述第一因子的至少一个分量进行编码。
13.根据权利要求1所述的方法,进一步包括利用所述已定标子带的所述概率函数,用于创建用于压缩扩展的累积密度函数。
14.根据权利要求1所述的方法,进一步包括,在利用第三定标因子量化之前对所述已压缩扩展的子带进行定标,其中所述第三定标因子针对较高比特率比针对较低比特率较高。
15.根据权利要求1所述的方法,使用矩形截断的格型用于对所述已压缩扩展的、已定标的子带进行量化,所述量化导致用于每个子带的码向量。
16.根据权利要求15所述的方法,进一步包括针对每个子带计算用于包括所述已量化子带的格型截断的范数,使用熵编码对针对每个子带所计算的范数进行编码,以及通过索引对所述码向量进行编码。
17.一种编码器,包括:
-变换单元,适用于接收输入音频信号以及将所述输入音频信号划分为至少两个子带;
-定标单元,适用于利用第一因子对至少两个子带进行定标;
-压缩扩展单元,适用于对至少两个已定标的子带的每个进行压缩扩展;以及
-量化单元,适用于对所述已压缩扩展的、已定标的子带进行量化。
18.一种电子设备,包括:
-变换单元,适用于接收输入音频信号以及将所述输入音频信号划分为至少两个子带;
-定标单元,适用于利用第一因子对至少两个子带进行定标;
-压缩扩展单元,适用于对至少两个已定标的子带的每个进行压缩扩展;以及
-量化单元,适用于对所述已压缩扩展的、已定标的子带进行量化。
19.一种软件程序产品,其中存储了用于音频编码的软件代码,当由电子设备的处理单元执行时,所述软件代码实现以下步骤:
-接收输入音频信号;
-将所述输入音频信号划分为至少两个子带;
-利用第一因子对所述至少两个子带进行定标;
-对所述至少两个已定标的子带的每个进行压缩扩展;以及
-对所述已压缩扩展的、已定标的子带进行量化。
20.一种用于音频解码的方法,该方法包括:
-接收已编码的音频数据,
-从所述已编码的音频数据生成至少两个已压缩扩展的子带;
-对每个已压缩扩展的子带进行解压缩扩展,
-利用第一因子对所述至少两个已解压缩扩展的子带进行定标,以及
-将所述已解压缩扩展的和已定标的子带结合到已解码的音频信号。
21.一种解码器,包括:
-解压缩扩展单元,适用于对至少两个已压缩扩展的子带进行解压缩扩展,其中所述已压缩扩展的子带是从所接收的已编码音频数据生成的;
-定标单元,适用于利用第一因子对所述至少两个已解压缩扩展的子带进行定标;以及
-变换单元,适用于将所述已解压缩扩展和已定标的子带结合到已解码的音频信号。
22.一种电子设备,包括:
-解压缩扩展单元,适用于对至少两个已压缩扩展的子带进行解压缩扩展,其中所述已压缩扩展的子带是从所接收的已编码音频数据生成的;
-定标单元,适用于利用第一因子对所述至少两个已解压缩扩展的子带进行定标;以及
-变换单元,适用于将所述已解压缩扩展和已定标的子带结合到已解码的音频信号。
23.一种软件程序产品,其中存储有用于音频解码的软件代码,当由电子设备的处理单元执行时,所述软件代码实现以下步骤:
-接收已编码的音频数据,
-从所述已编码的音频数据生成至少两个已压缩扩展的子带,
-对每个已压缩扩展的子带进行解压缩扩展,
-利用第一因子对所述至少两个已解压缩扩展的子带进行定标,以及
-将所述已解压缩扩展的和已定标的子带结合到已解码的音频信号。
24.一种包括用于对音频数据进行编码的编码器以及用于对已编码音频数据进行解码的解码器的系统,所述编码器包括:
-变换单元,适用于接收输入音频信号以及将所述输入音频信号划分为至少两个子带;
-定标单元,适用于利用第一因子对至少两个子带进行定标;
-压缩扩展单元,适用于对至少两个已定标的子带的每个进行压缩扩展;以及
-量化单元,适用于对已压缩扩展的、已定标的子带进行量化;
并且所述解码器包括:
-解压缩扩展单元,适用于对至少两个已压缩扩展的子带进行解压缩扩展,其中所述已压缩扩展的子带是从所接收的已编码音频数据生成的;
-定标单元,适用于利用所述第一因子对所述至少两个已解压缩扩展的子带进行定标;以及
-变换单元,适用于将所述已解压缩扩展和已定标的子带结合到已解码的音频信号。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/256,670 US20070094035A1 (en) | 2005-10-21 | 2005-10-21 | Audio coding |
US11/256,670 | 2005-10-21 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101292286A true CN101292286A (zh) | 2008-10-22 |
Family
ID=37719330
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2006800390203A Pending CN101292286A (zh) | 2005-10-21 | 2006-10-09 | 音频编码 |
Country Status (5)
Country | Link |
---|---|
US (2) | US20070094035A1 (zh) |
EP (1) | EP1938314A1 (zh) |
KR (1) | KR20080049116A (zh) |
CN (1) | CN101292286A (zh) |
WO (1) | WO2007046027A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102483923A (zh) * | 2009-08-24 | 2012-05-30 | 斯灵媒体有限公司 | 音频编码中基于频带信号能量的频带比例因子确定 |
CN104282311A (zh) * | 2014-09-30 | 2015-01-14 | 武汉大学深圳研究院 | 一种音频编码带宽扩展中子带划分的量化方法及装置 |
CN107431491A (zh) * | 2014-11-26 | 2017-12-01 | 科立康公司 | 改进的文件压缩和加密 |
CN112997248A (zh) * | 2018-10-31 | 2021-06-18 | 诺基亚技术有限公司 | 确定空间音频参数的编码和相关联解码 |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7240001B2 (en) | 2001-12-14 | 2007-07-03 | Microsoft Corporation | Quality improvement techniques in an audio encoder |
US7460990B2 (en) * | 2004-01-23 | 2008-12-02 | Microsoft Corporation | Efficient coding of digital media spectral data using wide-sense perceptual similarity |
US7930184B2 (en) * | 2004-08-04 | 2011-04-19 | Dts, Inc. | Multi-channel audio coding/decoding of random access points and transients |
US20070168197A1 (en) * | 2006-01-18 | 2007-07-19 | Nokia Corporation | Audio coding |
CN101467203A (zh) * | 2006-04-24 | 2009-06-24 | 尼禄股份公司 | 先进音频编码装置 |
KR101322392B1 (ko) * | 2006-06-16 | 2013-10-29 | 삼성전자주식회사 | 스케일러블 코덱의 부호화 및 복호화 방법 및 장치 |
US8046214B2 (en) * | 2007-06-22 | 2011-10-25 | Microsoft Corporation | Low complexity decoder for complex transform coding of multi-channel sound |
US7885819B2 (en) | 2007-06-29 | 2011-02-08 | Microsoft Corporation | Bitstream syntax for multi-process audio decoding |
US8249883B2 (en) * | 2007-10-26 | 2012-08-21 | Microsoft Corporation | Channel extension coding for multi-channel source |
PL3367381T3 (pl) | 2008-02-15 | 2020-12-14 | Nokia Technologies Oy | Kwantyfikacja dźwięku poprzez redukcję złożoności indeksowania wektorów |
WO2010000304A1 (en) * | 2008-06-30 | 2010-01-07 | Nokia Corporation | Entropy - coded lattice vector quantization |
US20100106269A1 (en) * | 2008-09-26 | 2010-04-29 | Qualcomm Incorporated | Method and apparatus for signal processing using transform-domain log-companding |
EP2491554B1 (en) | 2009-10-20 | 2014-03-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder, method for encoding an audio information, method for decoding an audio information and computer program using a region-dependent arithmetic coding mapping rule |
JP5773502B2 (ja) | 2010-01-12 | 2015-09-02 | フラウンホーファーゲゼルシャフトツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. | オーディオ符号化器、オーディオ復号器、オーディオ情報を符号化するための方法、オーディオ情報を復号するための方法、および上位状態値と間隔境界との両方を示すハッシュテーブルを用いたコンピュータプログラム |
WO2012069885A1 (en) | 2010-11-26 | 2012-05-31 | Nokia Corporation | Low complexity target vector identification |
US9318115B2 (en) | 2010-11-26 | 2016-04-19 | Nokia Technologies Oy | Efficient coding of binary strings for low bit rate entropy audio coding |
CN102985969B (zh) | 2010-12-14 | 2014-12-10 | 松下电器(美国)知识产权公司 | 编码装置、解码装置和编码方法、解码方法 |
CA3013766C (en) | 2013-01-29 | 2020-11-03 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Decoder for generating a frequency enhanced audio signal, method of decoding, encoder for generating an encoded signal and method of encoding using compact selection side information |
JP6302071B2 (ja) * | 2013-09-13 | 2018-03-28 | サムスン エレクトロニクス カンパニー リミテッド | 無損失符号化方法及び無損失復号化方法 |
CN108028045A (zh) * | 2015-07-06 | 2018-05-11 | 诺基亚技术有限公司 | 用于音频信号解码器的位错误检测器 |
CN105070292B (zh) * | 2015-07-10 | 2018-11-16 | 珠海市杰理科技股份有限公司 | 音频文件数据重排序的方法和系统 |
US10586546B2 (en) | 2018-04-26 | 2020-03-10 | Qualcomm Incorporated | Inversely enumerated pyramid vector quantizers for efficient rate adaptation in audio coding |
US10573331B2 (en) | 2018-05-01 | 2020-02-25 | Qualcomm Incorporated | Cooperative pyramid vector quantizers for scalable audio coding |
US10734006B2 (en) | 2018-06-01 | 2020-08-04 | Qualcomm Incorporated | Audio coding based on audio pattern recognition |
US10580424B2 (en) | 2018-06-01 | 2020-03-03 | Qualcomm Incorporated | Perceptual audio coding as sequential decision-making problems |
CN112771610A (zh) * | 2018-08-21 | 2021-05-07 | 杜比国际公司 | 用压扩对密集瞬态事件进行译码 |
CN111852463B (zh) * | 2019-04-30 | 2023-08-25 | 中国石油天然气股份有限公司 | 气井产能评价方法及设备 |
CN114566174B (zh) * | 2022-04-24 | 2022-07-19 | 北京百瑞互联技术有限公司 | 一种优化语音编码的方法、装置、系统、介质及设备 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5581653A (en) * | 1993-08-31 | 1996-12-03 | Dolby Laboratories Licensing Corporation | Low bit-rate high-resolution spectral envelope coding for audio encoder and decoder |
US5651090A (en) * | 1994-05-06 | 1997-07-22 | Nippon Telegraph And Telephone Corporation | Coding method and coder for coding input signals of plural channels using vector quantization, and decoding method and decoder therefor |
US5625743A (en) * | 1994-10-07 | 1997-04-29 | Motorola, Inc. | Determining a masking level for a subband in a subband audio encoder |
US5956674A (en) * | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
KR100261253B1 (ko) | 1997-04-02 | 2000-07-01 | 윤종용 | 비트율 조절이 가능한 오디오 부호화/복호화 방법및 장치 |
KR100335611B1 (ko) | 1997-11-20 | 2002-10-09 | 삼성전자 주식회사 | 비트율 조절이 가능한 스테레오 오디오 부호화/복호화 방법 및 장치 |
US6353808B1 (en) * | 1998-10-22 | 2002-03-05 | Sony Corporation | Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal |
GB2388502A (en) | 2002-05-10 | 2003-11-12 | Chris Dunn | Compression of frequency domain audio signals |
CA2388358A1 (en) | 2002-05-31 | 2003-11-30 | Voiceage Corporation | A method and device for multi-rate lattice vector quantization |
US7499495B2 (en) * | 2003-07-18 | 2009-03-03 | Microsoft Corporation | Extended range motion vectors |
US7724827B2 (en) * | 2003-09-07 | 2010-05-25 | Microsoft Corporation | Multi-layer run level encoding and decoding |
US7317839B2 (en) * | 2003-09-07 | 2008-01-08 | Microsoft Corporation | Chroma motion vector derivation for interlaced forward-predicted fields |
US7092576B2 (en) * | 2003-09-07 | 2006-08-15 | Microsoft Corporation | Bitplane coding for macroblock field/frame coding type information |
US7548853B2 (en) * | 2005-06-17 | 2009-06-16 | Shmunk Dmitry V | Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding |
-
2005
- 2005-10-21 US US11/256,670 patent/US20070094035A1/en not_active Abandoned
-
2006
- 2006-07-11 US US11/485,076 patent/US7689427B2/en not_active Expired - Fee Related
- 2006-10-09 KR KR1020087009379A patent/KR20080049116A/ko active IP Right Grant
- 2006-10-09 EP EP06809541A patent/EP1938314A1/en not_active Withdrawn
- 2006-10-09 CN CNA2006800390203A patent/CN101292286A/zh active Pending
- 2006-10-09 WO PCT/IB2006/053691 patent/WO2007046027A1/en active Application Filing
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102483923A (zh) * | 2009-08-24 | 2012-05-30 | 斯灵媒体有限公司 | 音频编码中基于频带信号能量的频带比例因子确定 |
CN104282311A (zh) * | 2014-09-30 | 2015-01-14 | 武汉大学深圳研究院 | 一种音频编码带宽扩展中子带划分的量化方法及装置 |
CN104282311B (zh) * | 2014-09-30 | 2018-04-10 | 武汉大学深圳研究院 | 一种音频编码带宽扩展中子带划分的量化方法及装置 |
CN107431491A (zh) * | 2014-11-26 | 2017-12-01 | 科立康公司 | 改进的文件压缩和加密 |
CN112997248A (zh) * | 2018-10-31 | 2021-06-18 | 诺基亚技术有限公司 | 确定空间音频参数的编码和相关联解码 |
Also Published As
Publication number | Publication date |
---|---|
KR20080049116A (ko) | 2008-06-03 |
US20070094035A1 (en) | 2007-04-26 |
WO2007046027A1 (en) | 2007-04-26 |
US20070094027A1 (en) | 2007-04-26 |
EP1938314A1 (en) | 2008-07-02 |
US7689427B2 (en) | 2010-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101292286A (zh) | 音频编码 | |
KR101330362B1 (ko) | 오디오 인코딩 방법, 오디오 디코딩 방법 및 오디오 인코더 디바이스 | |
US20070168197A1 (en) | Audio coding | |
EP1914725B1 (en) | Fast lattice vector quantization | |
KR100283547B1 (ko) | 오디오 신호 부호화 방법 및 복호화 방법, 오디오 신호 부호화장치 및 복호화 장치 | |
US6205256B1 (en) | Table-based compression with embedded coding | |
EP1914724B1 (en) | Dual-transform coding of audio signals | |
CN101223570B (zh) | 获得用于数字媒体的高效编码的频带的频率分段 | |
JP4224021B2 (ja) | 信号のマルチレートによる格子ベクトル量子化の方法とシステム | |
US20070067166A1 (en) | Method and device of multi-resolution vector quantilization for audio encoding and decoding | |
EP0942411B1 (en) | Audio signal coding and decoding apparatus | |
CN100361405C (zh) | 利用可升级的音频编码器和解码器处理输入信号的方法 | |
US20080097757A1 (en) | Audio coding | |
JP3434260B2 (ja) | オーディオ信号符号化方法及び復号化方法、これらの装置及びプログラム記録媒体 | |
KR20070046752A (ko) | 신호 처리 방법 및 장치 | |
JP3344944B2 (ja) | オーディオ信号符号化装置,オーディオ信号復号化装置,オーディオ信号符号化方法,及びオーディオ信号復号化方法 | |
US6678648B1 (en) | Fast loop iteration and bitstream formatting method for MPEG audio encoding | |
US8924202B2 (en) | Audio signal coding system and method using speech signal rotation prior to lattice vector quantization | |
JP3361790B2 (ja) | オーディオ信号符号化方法、オーディオ信号復号化方法およびオーディオ信号符号化/復号化装置と前記方法を実施するプログラムを記録した記録媒体 | |
Mainard et al. | A bi-dimensional coding scheme applied to audio bitrate reduction | |
Kandadai et al. | Perceptually-weighted audio coding that scales to extremely low bitrates |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20081022 |