CN102306494B - 对音频信号编码和解码的方法和设备 - Google Patents
对音频信号编码和解码的方法和设备 Download PDFInfo
- Publication number
- CN102306494B CN102306494B CN201110259904.2A CN201110259904A CN102306494B CN 102306494 B CN102306494 B CN 102306494B CN 201110259904 A CN201110259904 A CN 201110259904A CN 102306494 B CN102306494 B CN 102306494B
- Authority
- CN
- China
- Prior art keywords
- code element
- context
- bit plane
- coding
- decoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 102
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000011002 quantification Methods 0.000 claims description 30
- 238000013139 quantization Methods 0.000 claims description 28
- 230000009466 transformation Effects 0.000 claims description 15
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 4
- 230000001131 transforming effect Effects 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 18
- 230000000873 masking effect Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 230000008447 perception Effects 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013501 data transformation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/0017—Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
提供了一种对音频信号编码和解码的方法和设备。所述对音频信号编码的方法包括:将输入的音频信号变换成频域中的音频信号;对频域变换的音频信号进行量化;当使用位平面编码执行编码时,使用代表高位平面可具有的各码元的上下文对量化的音频信号执行编码。
Description
本申请是向中国知识产权局提交的申请日为2006年12月7日、标题为“对音频信号编码和解码的方法和设备”、申请号为200610164568.2的申请的分案申请。
技术领域
本发明涉及音频信号的编码和解码,更具体地讲,涉及一种用于对音频信号进行编码和解码以将在对音频数据编码或解码时使用的码本的大小最小化的方法和设备。
背景技术
随着数字信号处理技术的发展,音频信号主要作为数字数据被存储和重放。数字音频存储器和/或重放装置对模拟音频信号进行采样和量化,将模拟音频信号变换为作为数字信号的脉冲编码调制(PCM)音频数据,并将PCM音频数据存储在诸如压缩盘(CD)、数字多功能盘(DVD)等的信息存储介质中,从而当用户期望听所述PCM音频数据时,他/她可从所述信息存储介质重放数据。与密纹(LP)唱片、磁带等上使用的模拟音频信号存储器和/或再现方法相比,数字音频信号存储器和/或再现方法极大地提高了声音质量并显著地减小了由长存储周期引起的声音失真。然而,大量数字音频数据有时造成存储和发送问题。
为了解决这些问题,使用用于减小数字音频数据量的各种压缩技术。由国际标准组织(ISO)起草的运动图像专家组音频标准和由Dolby开发的AC-2/AC-3技术采用使用心理声学模型减小数据量的方法,这使得不论信号的特性如何数据量都能被有效地减小。
通常,在变换和量化的音频信号的编码期间,对于熵编码和解码,已使用基于上下文的编码和解码。为此,需要基于上下文的编码和解码的码本,从而需要大量存储器。
发明内容
本发明提供了一种对音频信号编码和解码的方法和设备,在该方法和设备中,在将码本大小最小化的同时可提高编码和解码的效率。
根据本发明的一方面,提供了一种对音频信号编码的方法。该方法包括:将输入的音频信号变换成频域中的音频信号;对频域变换的音频信号进行量化;当使用位平面编码执行编码时,使用代表高位平面可具有的各码元的上下文对量化的音频信号执行编码。
根据本发明的另一方面,提供了一种对音频信号解码的方法。该方法包括:当对使用位平面编码被编码的音频信号进行解码时,使用被确定为代表高位平面可具有的各码元的上下文对音频信号进行解码;对解码的音频信号进行逆量化;和对逆量化的音频信号进行逆变换。
根据本发明的另一方面,提供了一种对音频信号编码的设备。该设备包括:变换单元,将输入的音频信号变换成频域中的音频信号;量化单元,对频域变换的音频信号进行量化;和编码单元,当使用位平面编码执行编码时,使用代表高位平面可具有的各码元的上下文对量化的音频信号执行编码。
根据本发明的另一方面,提供了一种对音频信号解码的设备。该设备包括:解码单元,使用被确定为代表高位平面可具有的各码元的上下文对使用位平面编码被编码的音频信号进行解码;逆量化单元,对解码的音频信号进行逆量化;和逆变换单元,对逆量化的音频信号进行逆变换。
附图说明
通过下面结合附图对本发明示例性实施例进行的详细描述,本发明的上述和其它特点和优点将会变得更加清楚,其中:
图1是示出根据本发明实施例的对音频信号编码的方法的流程图;
图2示出根据本发明实施例的形成被编码为分等级结构的比特流的帧的结构;
图3示出根据本发明实施例的图2所示的附加信息的详细结构;
图4是根据本发明实施例的详细示出图1所示的对量化的音频信号编码的操作的流程图;
图5是根据本发明实施例的用于解释图4所示的将多个量化的样本映射到位平面上的操作的参考示图;
图6是根据本发明实施例的示出上下文以解释图4所示的确定上下文的操作的参考示图;
图7示出根据本发明实施例的用于对音频信号进行Huffman编码的伪码;
图8是示出根据本发明实施例的对音频信号解码的方法的流程图;
图9是根据本发明实施例的详细示出图8所示的使用上下文对音频信号解码的操作的流程图;
图10是根据本发明实施例的对音频信号编码的设备的框图;
图11是根据本发明实施例的图10所示的编码单元的详细框图;和
图12是根据本发明实施例的对音频信号解码的设备的框图。
具体实施方式
下面将参照附图来详细描述本发明的示例性实施例。
图1是示出根据本发明实施例的对音频信号编码的方法的流程图。
参照图1,在操作10,将输入的音频信号变换为频域中的音频信号。输入作为时域中的音频信号的脉冲编码调制(PCM)音频数据,然后参考关于心理声学模型的信息将其变换为频域中的音频信号。人可感知到的音频信号的特性在时域中差异不大。相反,考虑到心理声学模型,频域中人可感知到的音频信号的特性与人感知不到的音频信号的特性之间的差异很大。因而,通过为每个频带分配不同数量的比特可以提高压缩效率。在本发明的当前实施例中,使用修改的离散余弦变换(MDCT)将音频信号变换到频域。
在操作12,对已经变换为频域中的音频信号的音频信号进行量化。基于相应的分级矢量(scale vector)信息对每个带中的音频信号进行标量量化以将每个带中的量化噪声强度减小到小于掩蔽阈值,并输出量化的样本,以使人感知不到音频信号中的量化噪声。
在操作14,使用位平面编码对量化的音频信号编码,在位平面编码中,使用代表高位平面的各码元的上下文。根据本发明,使用位平面编码对属于每层的量化的样本编码。
图2示出根据本发明实施例的构成被编码为分等级结构的比特流的帧的结构。参照图2,通过将量化的样本和附加信息映射到分等级结构来对根据本发明的比特流的帧编码。换句话说,所述帧具有包括低层比特流和高层比特流的分等级结构。对每层所需的附加信息逐层编码。
存储头信息的头区位于比特流的起始部分,层0的信息被打包,并且附加信息和编码的音频数据被存储为层1至层N中的每层的信息。例如,附加信息2和编码的量化的样本2被存储为层2的信息。这里,N是大于或等于1的整数。
图3示出根据本发明实施例的图2所示的附加信息的详细结构。参照图3,任意层的附加信息和编码的量化的样本被存储为信息。在当前实施例中,附加信息包含Huffman编码模型信息、量化因子信息、声道附加信息和其它附加信息。Huffman编码模型信息表示用于对包含在相应层中的量化的样本进行编码或解码的Huffman编码模型的索引信息。量化因子信息将对包含在相应层中的音频数据进行量化或逆量化的量化步长大小通知给相应层。声道附加信息表示诸如middle/side(M/S)立体声的关于声道的信息。其它附加信息是指示是否使用M/S立体声的标志信息。
图4是根据本发明实施例的详细示出图1所示的操作14的流程图。
在操作30,将量化的音频信号的多个量化的样本映射到位平面上。通过将所述多个量化的样本映射到位平面上来将其表示为二进制数据,并且以码元为单位在对应于量化的样本的层中允许的比特范围内按照从由最重要的比特(MSB)形成的码元到由最不重要的比特(LSB)形成的码元的顺序,对所述二进制数据进行编码。通过在位平面上首先对重要信息进行编码然后对相对不重要的信息进行编码来固定对应于每层的比特率和频带,从而减小被称为“birdy effect”的失真。
图5是根据本发明实施例的用于解释图4所示的操作30的参考示图。如图5所示,当量化的样本9、2、4和0被映射到位平面上时,以二进制形式,即,分别以1001b、0010b、0100b和0000b表示它们。也就是说,在当前实施例中,位平面上作为编码单元的编码块的大小为4×4。每个量化的样本的相同顺序的比特的集合被称为码元。由多个MSB msb形成的码元为“1000b”,由下一多比特msb-1形成的码元为“0010b”,由下一多比特msb-2形成的码元为“0100b”,由多个LSB msb-3形成的码元为“1000b”。
再参照图4,在操作32,确定代表位于将被编码的当前位平面之上的高位平面的各码元的上下文。这里,所述上下文是指编码所需的高位平面的码元。
在操作32,代表高位平面的各码元中具有包括三个或更多个“1”的二进制数据的码元的上下文被确定为用于编码的高位平面的代表码元。例如,当高位平面的代表码元的4位二进制数据是“0111”、“1011”、“1101”、“1110”和“1111”之一时,可以看出,所述码元中“1”的数量大于或等于3。在这种情况下,代表高位平面的各码元中具有包括三个或更多个“1”的二进制数据的码元的码元被确定为上下文。
或者,代表高位平面的码元中具有包括两个“1”的二进制数据的码元的上下文可被确定为用于编码的高位平面的代表码元。例如,当高位平面的代表码元的4位二进制数据是“0011”、“0101”、“0110”、“1001”、“1010”和“1100”之一时,可以看出,所述码元中“1”的数量等于2。在这种情况下,代表高位平面的各码元中具有包括两个“1”的二进制数据的码元的码元被确定为上下文。
或者,代表高位平面的码元中具有包括1个“1”的二进制数据的码元的上下文可被确定为用于编码的高位平面的代表码元。例如,当高位平面的代表码元的4位二进制数据是“0001”、“0010”、“0100”和“1000”之一时,可以看出,所述码元中“1”的数量等于1。在这种情况下,代表高位平面的各码元中具有包括1个“1”的二进制数据的码元的码元被确定为上下文。
图6是示出上下文以解释图4所示的操作32的的参考示图。在图6的“步骤1”中,“0111”、“1011”、“1101”、“1110”和“1111”之一被确定为代表具有包括三个或更多个“1”的二进制数据的码元的上下文。在图6的“步骤2”中,“0011”、“0101”、“0110”、“1001”、“1010”和“1100”之一被确定为代表具有包括两个“1”的二进制数据的码元的上下文,“0111”、“1011”、“1101”、“1110”和“1111”之一被确定为代表具有包括三个或更多个“1”的二进制数据的码元的上下文。根据现有技术,必须对高位平面的每个码元产生码本。换句话说,当码元包括4比特时,该码元必须被划分为16种类型。然而,根据本发明,一旦在图6的“步骤2”以后确定了代表高位平面的码元的上下文,那么由于码元仅被划分为7种类型,所以可减小所需码本的大小。
图7示出用于对音频信号进行Huffman编码的伪码。参照图7,将使用“upper_vector_mapping()”来确定代表高位平面的多个码元的上下文的代码作为示例。
再参照图4,在操作34,使用确定的上下文对当前位平面的码元进行编码。
具体地讲,使用确定的上下文对当前位平面的码元执行Huffman编码。
用于Huffman编码的Huffman模型信息,即,码本索引如下:
表1
附加信息 | 重要性 | Huffman模型 |
0 | 0 | 0 |
1 | 1 | 1 |
2 | 1 | 2 |
3 | 2 | 3 |
4 | ||
4 | 2 | 5 |
6 | ||
5 | 3 | 7 |
8 | ||
9 | ||
6 | 3 | 10 |
11 | ||
12 | ||
7 | 4 | 13 |
14 | ||
15 | ||
16 | ||
8 | 4 | 17 |
18 | ||
19 | ||
20 | ||
9 | 5 | * |
10 | 6 | * |
11 | 7 | * |
12 | 8 | * |
13 | 9 | * |
14 | 10 | * |
15 | 11 | * |
16 | 12 | * |
17 | 13 | * |
18 | 14 | * |
* | * | * |
根据表1,即使对相同的重要性等级(当前实施例中的msb)也存在两个模型。这是因为对显示不同分布的量化的样本产生两个模型。
将更加详细地描述根据表1对图5的示例编码的过程。
当码元的比特数量小于4时,根据本发明的Huffman编码如下:
Huffman代码值=HuffmanCodebook[码本索引][高位平面][码元](1)
换句话说,Huffman编码使用码本索引、高位平面和码元作为3个输入变量。码本索引指示从表1获得的值,高位平面指示位平面上在紧挨当前将被编码的码元之上的码元,码元指示当前将被编码的码元。在操作32确定的上下文作为高位平面的码元被输入。码元是指当前将被编码的当前位平面的二进制数据。
由于图5的示例中的重要性等级是4,所以选择Huffman模型的13-16或17-20。如果将被编码的附加信息是7,那么
由msb形成的码元的码本索引是16,
由msb-1形成的码元的码本索引是15,
由msb-2形成的码元的码本索引是14,
由msb-3形成的码元的码本索引是13。
在图5的示例中,由于由msb形成的码元不具有高位平面的数据,所以如果高位平面的值是0,那么用代码HuffmanCodebook[16][0b][1000b]执行编码。由于由msb-1形成的码元的高位平面是1000b,所以用代码HuffmanCodebook[15][1000b][0010b]执行编码。由于由msb-2形成的码元的高位平面是0010b,所以用代码HuffmanCodebook[14][0010b][0100b]执行编码。由于由msb-3形成的码元的高位平面是0100b,所以用代码HuffmanCodebook[13][0100b][1000b]执行编码。
在以码元为单位进行编码之后,对编码的比特的数量进行计数,并将计数的数量与层中允许使用的比特的数量进行比较。如果计数的数量大于允许的数量,那么停止编码。如果在下一层中有可用空间,那么对没有被编码的其余比特编码,并将其置于下一层中。如果在分配给层的量化的样本都被编码之后在所述层中允许的比特的数量中还有空间,即,如果所述层中还有空间,那么对在低层中的编码完成之后还没有被编码的量化的样本进行编码。
如果由msb形成的码元的比特数量大于或等于5,那么使用当前位平面上的位置来确定Huffman代码值。换句话说,如果重要性大于或等于5,那么每个位平面上的数据中存在很少的统计差异,使用相同的Huffman模型对数据进行Huffman编码。话句话说,每个位平面存在Huffman模式。
如果重要性大于或等于5,即,码元的比特数量大于或等于5,那么根据本发明的Huffman编码如下:
Huffman代码=20+bpl (2)
其中,bpl指示当前将被编码的位平面的索引,并且bpl是大于或等于1的整数。常数20是添加的用于指示下述情况的值,即,因为与表1中列出的附加信息8对应的Huffman模型的最后索引是20,所以索引从21开始。因而,用于编码带的附加信息仅指示重要性。在表2中,根据当前将被编码的位平面的索引来确定Huffman模型。
表2
附加信息 | 重要性 | Huffman模型 |
9 | 5 | 21-25 |
10 | 6 | 21-26 |
11 | 7 | 21-27 |
12 | 8 | 21-28 |
13 | 9 | 21-29 |
14 | 10 | 21-30 |
15 | 11 | 21-31 |
16 | 12 | 21-32 |
17 | 13 | 21-33 |
18 | 14 | 21-34 |
19 | 15 | 21-35 |
对于附加信息中的量化因子信息和Huffman模型信息,对对应于所述信息的编码带执行DPCM。当对量化因子编码时,用帧的头信息中的8比特来表示DPCM的初值。用于Huffman模型信息的DPCM的初值被设置为0。
为了控制比特率,即,为了应用可分级性,基于每层中允许使用的比特数量来切断对应于一帧的比特流,从而可仅对少量数据来执行解码。
可使用确定的上下文对当前位平面的码元执行算术编码。对于算术编码,使用概率表来代替码本。此时,码本索引和确定的上下文也用于概率表,并且以ArithmeticFrequencyTable[][][]的形式表示概率表。每维中的输入变量与Huffman编码中相同,概率表示出产生给定码元的概率。例如,当ArithmeticFrequencyTable[3][0][1]的值为0.5时,是指当码本索引为3并且上下文为0时产生码元1的概率为0.5。通常,用为定点运算而乘以预定值的整数来表示概率表。
以下,将参照图8和图9来详细描述根据本发明的对音频信号解码的方法。
图8是示出根据本发明实施例的对音频信号解码的方法的流程图。
当对使用位平面编码被编码的音频信号解码时,在操作50,使用被确定为代表高位平面的各码元的上下文来对其解码。
图9是根据本发明实施例的详细示出图8所示的操作50的流程图。
在操作70,使用确定的上下文对当前位平面的码元进行解码。已使用在编码期间确定的上下文对编码的比特流进行了编码。接收包括被编码为分等级结构的音频数据的编码的比特流,并对包括在每帧中的头信息进行解码。对包括对应于第一层的编码模型信息和比例因子(scale factor)信息的附加信息解码。接下来,参考编码模型信息以码元为单位按照从由MSB形成的码元到由LSB形成的码元的顺序执行解码。
具体地讲,使用确定的上下文对音频信号执行Huffman解码。Huffman解码是上述Huffman编码的逆处理。
还可使用确定的上下文对音频信号执行算术解码。算术解码是算术编码的逆处理。
在操作72,从解码的码元排列在其中的位平面中提取量化的样本。获得每层的量化的样本。
再参照图8,对解码的音频信号进行逆量化。根据比例因子信息对获得的量化的样本进行逆量化。
在操作54,对逆量化的音频信号进行逆变换。
对重构的样本执行频率/时间映射以形成时域中的PCM音频数据。在本发明的当前实施例中,根据MDCT执行逆变换。
同时,还可将根据本发明的对音频信号编码和解码的方法实施为计算机可读记录介质上的计算机可读代码。所述计算机可读记录介质是可存储其后能由计算机系统读取的数据的任何数据存储装置。计算机可读记录介质的示例包括只读存储器(ROM)、随机存取存储器(RAM)、CR-ROM、磁带、软盘、光学数据存储装置和载波。所述计算机可读记录介质还可以分布在联网的计算机系统上,从而计算机可读代码以分散方式被存储和执行。本领域的程序员可以容易地解释用于实现本发明的功能程序、代码和代码段。
以下,将参照图10和图11来详细描述根据本发明的对音频信号编码的设备。
图10是根据本发明实施例的对音频信号编码的设备的框图。参照图10,该设备包括变换单元100、心理声学建模单元110、量化单元120和编码单元130。
变换单元110接收作为时域音频信号的脉冲编码调制(PCM)音频数据,并通过参考关于由心理声学建模单元110提供的心理声学模型的信息来将PCM音频数据变换为频域信号。人可感知到的音频信号的特性之间的差异在时域中不是很大,但是根据人心理声学模型,在通过变换获得的频域音频信号中,在每个频带中人可感知到的信号的特性与人感知不到的信号的特性之间的差异很大。因此,通过将不同数量的比特分配给不同的频带,可提高压缩效率。在本发明的当前实施例中,变换单元110执行修改的离散余弦变换(MDCT)。
心理声学建模单元110将诸如攻击感测信息的关于心理声学模型的信息提供给变换单元100,并将由变换单元100变换的音频信号分成适当子带的信号。心理声学建模单元110还使用由信号之间的相互作用引起的掩蔽效应来计算每个子带中的掩蔽阈值,并将该掩蔽阈值提供给量化单元120。掩蔽阈值是由于音频信号之间的相互作用而导致人感知不到的信号的最大大小。在本发明的当前实施例中,心理声学建模单元110使用两耳掩蔽压降(binauralmasking level depression,BMLD)来计算立体声组件的掩蔽阈值。
量化单元120基于对应于每个带中的音频信号的比例因子信息对所述音频信号进行标量量化,从而带中的量化噪声的大小小于心理声学建模单元110提供的掩蔽阈值,因而人感知不到噪声。然后,量化单元120输出量化的样本。换句话说,通过使用在心理声学建模单元110中计算的掩蔽阈值和作为在每个带中产生的噪声比的噪声掩蔽比(NMR),量化单元120执行量化,从而在整个带中NMR值为0dB或更小。NMR值为0dB或更小意味着人感知不到量化噪声。
当使用位平面编码执行编码时,编码单元130使用代表高位平面的各码元的上下文对量化的音频信号执行编码。编码单元130对对应于每层的量化的样本和附加信息进行编码,并以分等级结构排列编码的音频信号。每层中的附加信息包括分级带(scale band)信息、编码带信息、比例因子信息和编码模型信息。可将分级带信息和编码带信息打包为头信息,然后将其发送给解码设备。也可将分级带信息和编码带信息编码并打包作为每一层的附加信息,然后将其发送给解码设备。由于分级带信息和编码带信息被预先存储在解码设备中,所以可不将它们发送给解码设备。更具体地讲,在对包括对应于第一层的比例因子信息和编码模型信息的附加信息编码时,编码单元130通过参考对应于第一层的编码模型信息以码元为单位按照从由MSB形成的码元到由LSB形成的码元的顺序执行编码。在第二层中,重复相同的处理。换句话说,对多个预定的层顺序地执行编码,直到所述层的编码完成。在本发明的当前实施例中,编码单元130对比例因子信息和编码模型信息进行差分编码,对量化的样本进行Huffman编码。分级带信息指的是根据音频信号的频率特性更适当地执行量化的信息。当频区被划分为多个带并且适当的比例因子被分配给每个带时,分级带信息指示对应于每层的分级带。因而,每层包括在至少一个分级带中。每个分级带具有一个分配的分级矢量。编码带信息也表示根据音频信号的频率特性更适当地执行量化的信息。当频区被划分为多个带并且适当的编码模型被分配给每个带时,编码带信息指示对应于每层的编码带。主要根据经验来划分分级带和编码带,并确定对应于它们的比例因子和编码模型。
图11是根据本发明实施例的图10所示的编码单元130的详细框图。参照图11,编码单元130包括映射单元200、上下文确定单元210和熵编码单元220。
映射单元200将量化的音频信号的多个量化的样本映射到位平面上,并将映射结果输出到上下文确定单元210。映射单元200通过将量化的样本映射到位平面上来将量化的样本表示为二进制数据。
上下文确定单元210确定代表高位平面的各码元的上下文。上下文确定单元210确定代表高位平面的各码元中具有包括三个或更多个“1”的二进制数据的码元的上下文。此外,上下文确定单元210确定代表高位平面的各码元中具有包括两个“1”的二进制数据的码元的上下文。此外,上下文确定单元210确定代表高位平面的各码元中具有包括1个“1”的二进制数据的码元的上下文。
例如,如图6所示,在“步骤1”中,“0111”、“1011”、“1101”、“1110”和“1111”之一被确定为代表具有包括三个或更多个“1”的二进制数据的码元的上下文。在“步骤2”中,“0011”、“0101”、“0110”、“1001”、“1010”和“1100”之一被确定为代表具有包括两个“1”的二进制数据的码元的上下文,“0111”、“1011”、“1101”、“1110”和“1111”之一被确定为代表具有包括三个或更多个“1”的二进制数据的码元的上下文。
熵编码单元220使用确定的上下文对当前位平面的码元执行编码。
具体地讲,熵编码单元220使用确定的上下文对当前位平面的码元执行Huffman编码。以上已经描述了Huffman编码,因而此时不提供其描述。
以下,将参照图12来详细描述对音频信号解码的设备。
图12是根据本发明实施例的对音频信号解码的设备的框图。参照图12,该设备包括解码单元300、逆量化单元310和逆变换单元320。
解码单元300使用被确定为代表高位平面的各码元的上下文对已经使用位平面编码的音频信号解码,并将解码结果输出到逆量化单元310。解码单元300使用确定的上下文对当前位平面的码元进行解码,并从解码的码元排列在其中的位平面提取量化的样本。已经使用在编码期间确定的上下文对音频信号进行了编码。解码单元300接收包括被编码为分等级结构的音频数据的编码的比特流,并对包括在每帧中的头信息解码。然后,解码单元300对包括对应于第一层的比例因子信息和编码模型信息的附加信息解码。解码单元300通过参考编码模型信息以码元为单位按照从由MSB形成的码元到由LSB形成的码元的顺序执行解码。
具体地讲,解码单元300使用确定的上下文对音频信号执行Huffman解码。Huffman解码是上述Huffman编码的逆处理。
解码单元300也可使用确定的上下文对音频信号执行算术解码。算术解码是算术编码的逆处理。
逆量化单元310对解码的音频信号执行逆量化,并将逆量化结果输出到逆变换单元320。逆量化单元310根据对应于每层的用于重构的比例因子信息来对对应于所述层的量化的样本进行逆量化。
逆变换单元320对逆量化的音频信号进行逆变换。逆变换单元320对重构的样本执行频率/时间映射以形成时域中的PCM音频数据。在本发明的当前实施例中,逆变换单元320根据MDCT执行逆变换。
如上所述,根据本发明,当使用位平面编码对音频信号编码时,使用代表高位平面的多个码元的上下文,从而减小存储在存储器中的码本的大小并提高编码效率。
尽管已参照本发明的示例性实施例具体显示和描述了本发明,但是本领域的普通技术人员应该理解,在不脱离由权利要求所限定的本发明的精神和范围的情况下,可以对其进行形式和细节的各种改变。
Claims (16)
1.一种对音频信号编码的方法,该方法包括:
将输入的音频信号变换成频域中的音频信号;
对频域变换的音频信号进行量化;和
当使用位平面编码执行编码时,使用作为高位平面可具有的各码元的代表的上下文对量化的音频信号执行编码,
其中,根据高位平面可具有的各码元中包括一个“1”、两个“1”还是三个或更多个“1”来确定上下文。
2.如权利要求1所述的方法,其中,使用上下文执行编码的步骤包括:
将量化的音频信号的多个量化的样本映射到位平面上;
确定代表高位平面的各码元的上下文;和
使用确定的上下文对当前位平面的码元执行编码。
3.如权利要求1所述的方法,其中,对当前位平面的码元执行编码的步骤包括:使用确定的上下文对当前位平面的码元执行Huffman编码。
4.如权利要求1所述的方法,其中,对当前位平面的码元执行编码的步骤包括:使用确定的上下文对当前位平面的码元执行算术编码。
5.一种对音频信号解码的方法,该方法包括:
当对使用位平面编码被编码的音频信号解码时,使用被确定为高位平面可具有的各码元的代表的上下文对音频信号进行解码;
对解码的音频信号进行逆量化;和
对逆量化的音频信号进行逆变换,
其中,根据高位平面可具有的各码元中包括一个“1”、两个“1”还是三个或更多个“1”来确定上下文。
6.如权利要求5所述的方法,其中,对音频信号解码的步骤包括:
使用确定的上下文对当前位平面的码元解码;和
从解码的码元排列在其中的位平面中提取量化的样本。
7.如权利要求5所述的方法,其中,对音频信号解码的步骤包括:使用确定的上下文对音频信号执行Huffman解码。
8.如权利要求5所述的方法,其中,对音频信号解码的步骤包括:使用确定的上下文对音频信号执行算术解码。
9.一种对音频信号编码的设备,该设备包括:
变换单元,将输入的音频信号变换成频域中的音频信号;
量化单元,对频域变换的音频信号进行量化;和
编码单元,当使用位平面编码执行编码时,使用作为高位平面可具有的各码元的代表的上下文对量化的音频信号执行编码,
其中,根据高位平面可具有的各码元中包括一个“1”、两个“1”还是三个或更多个“1”来确定上下文。
10.如权利要求9所述的设备,其中,编码单元包括:
映射单元,将量化的音频信号的多个量化的样本映射到位平面上;
上下文确定单元,确定代表高位平面的各码元的上下文;和
熵编码单元,使用确定的上下文对当前位平面的码元执行编码。
11.如权利要求10所述的设备,其中,熵编码单元使用确定的上下文对当前位平面的码元执行Huffman编码。
12.如权利要求10所述的设备,其中,熵编码单元使用确定的上下文对当前位平面的码元执行算术编码。
13.一种对音频信号解码的设备,该设备包括:
解码单元,使用被确定为高位平面可具有的各码元的代表的上下文对使用位平面编码被编码的音频信号进行解码;
逆量化单元,对解码的音频信号进行逆量化;和
逆变换单元,对逆量化的音频信号进行逆变换,
其中,根据高位平面可具有的各码元中包括一个“1”、两个“1”还是三个或更多个“1”来确定上下文。
14.如权利要求13所述的设备,其中,解码单元使用确定的上下文对当前位平面的码元解码,从解码的码元排列在其中的位平面中提取量化的样本。
15.如权利要求13所述的设备,其中,解码单元使用确定的上下文对音频信号执行Huffman解码。
16.如权利要求13所述的设备,其中,解码单元使用确定的上下文对音频信号执行算术解码。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US74288605P | 2005-12-07 | 2005-12-07 | |
US60/742,886 | 2005-12-07 | ||
KR10-2006-0049043 | 2006-05-30 | ||
KR1020060049043A KR101237413B1 (ko) | 2005-12-07 | 2006-05-30 | 오디오 신호의 부호화 및 복호화 방법, 오디오 신호의부호화 및 복호화 장치 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2006101645682A Division CN101055720B (zh) | 2005-12-07 | 2006-12-07 | 对音频信号编码和解码的方法和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102306494A CN102306494A (zh) | 2012-01-04 |
CN102306494B true CN102306494B (zh) | 2014-07-02 |
Family
ID=38356105
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2006101645682A Expired - Fee Related CN101055720B (zh) | 2005-12-07 | 2006-12-07 | 对音频信号编码和解码的方法和设备 |
CN201110259904.2A Expired - Fee Related CN102306494B (zh) | 2005-12-07 | 2006-12-07 | 对音频信号编码和解码的方法和设备 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2006101645682A Expired - Fee Related CN101055720B (zh) | 2005-12-07 | 2006-12-07 | 对音频信号编码和解码的方法和设备 |
Country Status (6)
Country | Link |
---|---|
US (1) | US8224658B2 (zh) |
EP (1) | EP1960999B1 (zh) |
JP (1) | JP5048680B2 (zh) |
KR (1) | KR101237413B1 (zh) |
CN (2) | CN101055720B (zh) |
WO (1) | WO2007066970A1 (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2183851A1 (fr) * | 2007-08-24 | 2010-05-12 | France Telecom | Codage/decodage par plans de symboles, avec calcul dynamique de tables de probabilites |
KR101756834B1 (ko) | 2008-07-14 | 2017-07-12 | 삼성전자주식회사 | 오디오/스피치 신호의 부호화 및 복호화 방법 및 장치 |
KR101456495B1 (ko) | 2008-08-28 | 2014-10-31 | 삼성전자주식회사 | 무손실 부호화/복호화 장치 및 방법 |
WO2010086342A1 (en) * | 2009-01-28 | 2010-08-05 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder, method for encoding an input audio information, method for decoding an input audio information and computer program using improved coding tables |
KR101622950B1 (ko) * | 2009-01-28 | 2016-05-23 | 삼성전자주식회사 | 오디오 신호의 부호화 및 복호화 방법 및 그 장치 |
KR20100136890A (ko) | 2009-06-19 | 2010-12-29 | 삼성전자주식회사 | 컨텍스트 기반의 산술 부호화 장치 및 방법과 산술 복호화 장치 및 방법 |
PL2491553T3 (pl) | 2009-10-20 | 2017-05-31 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Koder audio, dekoder audio, sposób kodowania informacji audio, sposób dekodowania informacji audio i program komputerowy wykorzystujący iteracyjne zmniejszania rozmiaru przedziału |
JP5624159B2 (ja) | 2010-01-12 | 2014-11-12 | フラウンホーファーゲゼルシャフトツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. | オーディオ符号化器、オーディオ復号器、オーディオ情報を符号化および復号するための方法、ならびに以前に復号されたスペクトル値のノルムに基づいてコンテキストサブ領域値を取得するコンピュータプログラム |
KR101676477B1 (ko) | 2010-07-21 | 2016-11-15 | 삼성전자주식회사 | 컨텍스트 기반의 무손실 부호화 장치 및 방법, 그리고 복호화 장치 및 방법 |
EP2469741A1 (en) * | 2010-12-21 | 2012-06-27 | Thomson Licensing | Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field |
WO2013002585A2 (ko) * | 2011-06-28 | 2013-01-03 | 삼성전자 주식회사 | 엔트로피 부호화/복호화 방법 및 장치 |
CN110706715B (zh) * | 2012-03-29 | 2022-05-24 | 华为技术有限公司 | 信号编码和解码的方法和设备 |
EP3066760B1 (en) * | 2013-11-07 | 2020-01-15 | Telefonaktiebolaget LM Ericsson (publ) | Methods and devices for vector segmentation for coding |
EP3324406A1 (en) | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a variable threshold |
EP3324407A1 (en) * | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic |
US10950251B2 (en) * | 2018-03-05 | 2021-03-16 | Dts, Inc. | Coding of harmonic signals in transform-based audio codecs |
BR112020025515A2 (pt) * | 2018-06-21 | 2021-03-09 | Sony Corporation | Dispositivo e método de codificação, mídia de armazenamento legível por computador, e, dispositivo e método de decodificação |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1271494A (zh) * | 1997-09-23 | 2000-10-25 | 艾利森电话股份有限公司 | 嵌入的离散余弦变换式静止图像编码算法 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE511186C2 (sv) * | 1997-04-11 | 1999-08-16 | Ericsson Telefon Ab L M | Förfarande och anordning för att koda datasekvenser |
AUPQ982400A0 (en) | 2000-09-01 | 2000-09-28 | Canon Kabushiki Kaisha | Entropy encoding and decoding |
JP2002368625A (ja) | 2001-06-11 | 2002-12-20 | Fuji Xerox Co Ltd | 符号量予測装置、符号化選択装置および符号化装置ならびにその方法 |
US7110941B2 (en) * | 2002-03-28 | 2006-09-19 | Microsoft Corporation | System and method for embedded audio coding with implicit auditory masking |
JP3990949B2 (ja) | 2002-07-02 | 2007-10-17 | キヤノン株式会社 | 画像符号化装置及び画像符号化方法 |
KR100908117B1 (ko) * | 2002-12-16 | 2009-07-16 | 삼성전자주식회사 | 비트율 조절가능한 오디오 부호화 방법, 복호화 방법,부호화 장치 및 복호화 장치 |
KR100561869B1 (ko) * | 2004-03-10 | 2006-03-17 | 삼성전자주식회사 | 무손실 오디오 부호화/복호화 방법 및 장치 |
MX2007000459A (es) * | 2004-07-14 | 2007-07-25 | Agency Science Tech & Res | Codificacion y descodificacion de senales, basadas en contexto. |
US7161507B2 (en) * | 2004-08-20 | 2007-01-09 | 1St Works Corporation | Fast, practically optimal entropy coding |
US7196641B2 (en) * | 2005-04-26 | 2007-03-27 | Gen Dow Huang | System and method for audio data compression and decompression using discrete wavelet transform (DWT) |
-
2006
- 2006-05-30 KR KR1020060049043A patent/KR101237413B1/ko not_active IP Right Cessation
- 2006-12-06 US US11/634,251 patent/US8224658B2/en not_active Expired - Fee Related
- 2006-12-06 JP JP2008544254A patent/JP5048680B2/ja not_active Expired - Fee Related
- 2006-12-06 WO PCT/KR2006/005228 patent/WO2007066970A1/en active Application Filing
- 2006-12-06 EP EP06823935.9A patent/EP1960999B1/en not_active Expired - Fee Related
- 2006-12-07 CN CN2006101645682A patent/CN101055720B/zh not_active Expired - Fee Related
- 2006-12-07 CN CN201110259904.2A patent/CN102306494B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1271494A (zh) * | 1997-09-23 | 2000-10-25 | 艾利森电话股份有限公司 | 嵌入的离散余弦变换式静止图像编码算法 |
Non-Patent Citations (2)
Title |
---|
JP特开2004-40372A 2004.02.05 |
Tong Qiu.Lossless audio coding based on high order context modeling.《Multimedia Signal Processing, 2001 IEEE Fourth Workshop on》.2001, * |
Also Published As
Publication number | Publication date |
---|---|
JP2009518934A (ja) | 2009-05-07 |
EP1960999B1 (en) | 2013-07-03 |
US8224658B2 (en) | 2012-07-17 |
JP5048680B2 (ja) | 2012-10-17 |
KR101237413B1 (ko) | 2013-02-26 |
CN101055720B (zh) | 2011-11-02 |
WO2007066970A1 (en) | 2007-06-14 |
KR20070059849A (ko) | 2007-06-12 |
US20070127580A1 (en) | 2007-06-07 |
EP1960999A1 (en) | 2008-08-27 |
EP1960999A4 (en) | 2010-05-12 |
CN102306494A (zh) | 2012-01-04 |
CN101055720A (zh) | 2007-10-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102306494B (zh) | 对音频信号编码和解码的方法和设备 | |
JP3354863B2 (ja) | ビット率の調節可能なオーディオデータ符号化/復号化方法及び装置 | |
RU2455709C2 (ru) | Способ и устройство для обработки аудиосигнала | |
CN101223576B (zh) | 从音频信号提取重要频谱分量的方法和设备以及使用其的低比特率音频信号编码和/或解码方法和设备 | |
KR100571824B1 (ko) | 부가정보 삽입된 mpeg-4 오디오 bsac부호화/복호화 방법 및 장치 | |
US7333929B1 (en) | Modular scalable compressed audio data stream | |
CN112767954B (zh) | 音频编解码方法、装置、介质及电子设备 | |
US20120101825A1 (en) | Method and apparatus for encoding/decoding audio data with scalability | |
JP4925671B2 (ja) | デジタル信号の符号化/復号化方法及びその装置並びに記録媒体 | |
JP2006011456A (ja) | 低ビット率符号化/復号化方法及び装置並びにコンピュータ可読媒体 | |
CN104025190A (zh) | 能量无损编码方法和设备、音频编码方法和设备、能量无损解码方法和设备、以及音频解码方法和设备 | |
KR20070037945A (ko) | 오디오 신호의 부호화/복호화 방법 및 장치 | |
CN1262990C (zh) | 利用谐波提取的音频编码方法和设备 | |
WO2007011157A1 (en) | Virtual source location information based channel level difference quantization and dequantization method | |
US20100239027A1 (en) | Method of and apparatus for encoding/decoding digital signal using linear quantization by sections | |
JP5587599B2 (ja) | 量子化方法、符号化方法、量子化装置、符号化装置、逆量子化方法、復号化方法、逆量子化装置、復号化装置、処理装置 | |
CN101105940A (zh) | 音频编解码的量化方法、反变换方法及音频编解码装置 | |
JP3353868B2 (ja) | 音響信号変換符号化方法および復号化方法 | |
KR100754389B1 (ko) | 음성 및 오디오 신호 부호화 장치 및 방법 | |
JP4618823B2 (ja) | 信号符号化装置及び方法 | |
Sung et al. | An audio compression system using modified transform coding and dynamic bit allocation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20140702 Termination date: 20191207 |
|
CF01 | Termination of patent right due to non-payment of annual fee |