CN1525436A - 可伸缩地编解码音频数据的方法和装置 - Google Patents

可伸缩地编解码音频数据的方法和装置 Download PDF

Info

Publication number
CN1525436A
CN1525436A CNA03165035XA CN03165035A CN1525436A CN 1525436 A CN1525436 A CN 1525436A CN A03165035X A CNA03165035X A CN A03165035XA CN 03165035 A CN03165035 A CN 03165035A CN 1525436 A CN1525436 A CN 1525436A
Authority
CN
China
Prior art keywords
bit
symbol
coding
information
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA03165035XA
Other languages
English (en)
Other versions
CN1525436B (zh
Inventor
金重会
金尚煜
吴殷美
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN1525436A publication Critical patent/CN1525436A/zh
Application granted granted Critical
Publication of CN1525436B publication Critical patent/CN1525436B/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Abstract

提供用于可伸缩地编解码音频数据的方法和装置。所述方法切片音频数据,使得切片的音频数据对应于多个层;获得对应于多个层的每个的定标段信息和编码段信息;基于对应于第一层的定标段信息和编码段信息,编码包含定标因子信息和编码模型信息的附加信息;通过参照定标因子信息量化对应于第一层的音频数据,获得量化样本;通过参照编码模型信息,按照从由最高有效位(MSB)形成的符号直到由最低有效位(LSB)形成的符号的顺序,以符号为单位编码所获得的多个量化样本;和随着每次逐层增加层的序数,重复执行所述步骤,直到完成多个层的编码。按照该方法,精细粒度可伸缩性(FGS)可以被提供,并可以提供具有较低的复杂性和良好的音频质量,即使是在低层。

Description

可伸缩地编解码音频数据的方法和装置
技术领域
本发明涉及编码和解码音频数据,尤其特别的是,涉及用于编码音频数据,以便编码的音频比特流具有可伸缩的比特率的方法和装置,以及用于解码音频数据的方法和装置。
背景技术
由于近来数字信号处理技术的发展,多数情况下音频信号通常被存储成数字信号并且再现。数字音频存储/恢复装置通过采样和量化把音频信号变换成脉冲编码调制(PCM),也就是数字信号。通过这样的操作,数字音频存储/再现装置在信息存储介质,比如光盘(CD)和数字化视频光盘(DVD)中存储PCM音频数据,并响应用户的命令再现存储的信号以便用户能听音频数据。相对于使用密纹(LP)记录或磁带的模拟方法来说,数字存储/恢复方法大大地提高了音频质量,并显著减少了由长的存储周期引起的恶化。然而,由于大量的数字数据,数字方法在存储和传输方面存在问题。
为解决该问题,各种压缩方法被用于压缩数字音频信号。
在由国际标准化组织标准化的运动图象专家组(MPEG)中,或者由Dolby开发的AC-2/AC-3中,使用音质模型减少了数据量。作为结果,数据量能被有效地减少而不管信号的特性如何。就是说,MPEG/音频标准或AC-2/AV-3方法能以仅仅64~384Kbps的比特率提供几乎与CD相同的音频质量,该比特率是先前数字编码方法的比特率的1/6到1/8。
然而,在这些方法中,搜索适用于固定比特率的最佳状态并且接着执行量化和编码。因此,如果在通过网络发送比特流时由于网络条件很差而使得传输带宽被降低,可能会出现断开和适当的服务不能再提供给用户。此外,当比特流期望被变换成较小尺寸的比特流以更适用于具有有限存储容量的移动装置时,应该执行再编码处理以减少比特流的尺寸,并增加了所需的计算量。
为解决该问题,本发明的的申请人提出了韩国专利申请No.97-61298,1997年11月19日,标题“使用位切片算法编码(BSAC)的可伸缩比特率音频编码/解码的方法和装置”,此专利在2000年4月17日被授权,韩国专利号No.261253。根据BSAC技术,具有高比特率编码的比特流能被变成具有低比特率的比特流,并能够只用部分的比特流进行恢复。因此,当网络过载时,或者解码器的性能很差时,或用户请求低比特率时,通过只使用部分的比特流,可以把具有一定音频质量的服务提供给用户,尽管随着比特率的下降,质量会不可避免地成比例地下降。
然而,由于BSAC技术采用算术编码,复杂性很高,并且当BSAC技术在实际的装置中被实现时,成本增加。此外,由于BSAC技术利用修正离散余弦变换(MDCT)来进行音频信号的变换,低层中的音频质量会被严重的损坏。
发明内容
发明提供了用于可伸缩地(with scalability)编解码音频数据的一种方法和装置,通过该方法和装置为精细粒度可伸缩性(FGS)提供较低的复杂度。
根据本发明的另一个方面,提供了一种编码方法,包括切片(slicing)音频数据以使切片音频数据对应于多个层,获得对应于多个层的每个的定标段信息和编码段信息,基于对应于第一层的定标段信息和编码段信息编码包含定标因子信息和编码模型信息的附加信息,通过参照定标因子信息量化对应于第一层的音频数据,获得量化样本,通过参照编码模型信息,以从利用最高有效位(MSB)形成的符号直到利用最低有效位(LSB)形成的符号的方式,按顺序以符号为单位编码所得到的多个量化样本,以及随着每次逐层增加层的序数,重复执行步骤,直到完成预定的多个层的编码。
在编码附加信息之前,该方法可以进一步包括,获得多个层的每个中所允许的比特范围,其中在获得的多个量化样本的编码中,编码比特的数目被计数,和如果计数的比特的数目超过相应于比特的比特范围,编码停止,以及即使在量化样本全被编码之后,如果计数的比特的数目小于相应于比特的比特范围,在低层编码被完成之后仍然未编码的比特被编码到比特范围允许的范围。
音频数据的切片包括执行音频数据的子波变换,并且通过参照截止频率切片子波变换的数据,使得切片的数据对应于多个层。
多个量化样本的编码包括在比特平面上映射多个量化样本,并按照从利用最高有效位(MSB)形成的符号直到利用最低有效位(LSB)形成的符号的顺序,在对应于样本的一个层中允许的比特范围内以符号为单位编码样本。在多个量化样本的映射中,K个量化样本被映射在比特平面上,并且在样本的编码中,获得对应于由K比特二进制数据形成的符号的标量值,并通过参照K比特二进制数据,获得的标量值,和对应于高于比特平面上当前符号的一个符号的标量值执行赫夫曼编码(Huffman coding),其中K是一个整数。
根据本发明的另一个方面,提供了一种编码方法,包括差分解码包含对应于第一层的定标因子信息和编码模型信息的附加信息,按照从由最高有效位(MSB)形成的符号到由最低有效位(LSB)形成的符号的顺序,以符号为单位赫夫曼解码音频数据,并通过参照编码模型信息获得量化样本,通过参照定标因子信息反向量化所获得的量化样本,反向MDCT变换该反向量化样本,以及随着每次逐层增加层的序数,重复执行步骤,直到完成预定的多个层的解码。
附加信息的赫夫曼解码包括按照从由最高有效位(MSB)形成的符号直到由最低有效位(LSB)形成的符号的顺序,在对应于音频数据的层中所允许的比特范围内以符号为单位解码音频数据,以及从其上安排了解码的符号的比特平面获得量化样本。
在解码音频数据时,获得由解码符号形成的4*K比特平面,并且在获得量化样本时,从4*K比特平面获得K个量化样本,其中K是一个整数。
根据本发明的另一个方面,提供了一种装置,用于可伸缩地解码在分层结构中被编码的音频数据,包括解封单元,其解码包含对应于第一层的定标因子信息和编码模型信息的附加信息,并且通过参照编码模型信息,按照从由最高有效位(MSB)形成的符号直到由最低有效位(LSB)形成的符号的顺序以符号为单位解码音频数据和获得量化的样本;反向量化单元,其通过参照定标因子信息反向量化所获得的量化样本;和反向变换单元,其反向变换该反向量化样本。
解封单元按照从由最高有效位(MSB)形成的符号直到由最低有效位(LSB)形成的符号的顺序,在对应于音频数据的层中所允许的比特范围内以符号为单位解码音频数据,并且从其上安排了解码的符号的比特平面获得量化样本。
解封单元获得由解码的符号形成的4*K比特平面,并且接着从4*K比特平面获得K个量化样本,其中K是一个整数。
根据本发明的另一个方面,提供了一种装置,用于可伸缩地解码音频数据,包括MDCT变换音频数据的变换单元;量化单元,其通过参照定标因子信息量化对应于每层的变换音频数据,并输出量化样本;和封装单元,其差分编码包含对应于每层的定标因子信息和编码模型信息的附加信息,并且通过参照编码模型信息,按照从由最高有效位(MSB)形成的符号直到由最低有效位(LSB)形成的符号的顺序,以符号为单位赫夫曼编码来自量化单元的多个量化样本。
封装单元获得对应于多个层的每个的定标段信息和编码段信息,并基于对应于每层的定标段信息和编码段信息编码包含定标因子信息和编码模型信息的附加信息。
封装单元计数编码的比特的数目,如果计数的比特数超过相应于比特的比特范围,编码停止,并且即使在量化样本全被编码之后,如果计数的比特数小于相应于比特的比特范围,将低层编码完成之后仍然未编码的比特编码到比特范围允许的范围。
封装单元通过参照一个截止频率切片MDCT变换数据,使得切片的数据对应于多个层。
封装单元在比特平面上映射多个量化样本,并按照从由最高有效位(MSB)形成的符号直到由最低有效位(LSB)形成的符号的顺序,在对应于符号的层中所允许的比特范围内以符号为单位解码符号。
封装单元在比特平面上映射K个量化样本,获得对应于由K比特二进制数据形成的符号的标量值,并通过参照K比特二进制数据,获得的标量值,和对应于高于比特平面上当前符号的一个符号的标量值执行赫夫曼编码,其中K是一个整数。
附图说明
通过结合参考附图详细描述本发明的优选实施例,本发明的上述目的和优点将变得更加清楚,其中:
图1是根据本发明的一个优选实施例的编码装置的方框图;
图2是根据本发明的优选实施例的解码装置的方框图;
图3是帧的结构图,所述的帧形成在分层结构中编码的比特流以便能够控制比特率;
图4是附加信息的结构的详细图;
图5是参考图,用以解释按照本发明的一种编码方法;
图6是参考图,用以更加具体地解释按照本发明的编码方法;
图7是流程图,用于解释按照本发明优选实施例的编码方法;
图8是流程图,用于解释按照本发明的优选实施例的解码方法;而
图9是流程图,用于解释按照本发明的另一个优选实施例的解码方法。
具体实施方式
参考图1,按照本发明,编码装置以分层结构编码音频数据,以便能控制编码的比特流的比特率,并且包括变换单元11,音质单元12,量化单元13,和比特封装单元14。
变换单元11接收作为时域音频信号的脉冲编码调制(PCM)音频数据,并把信号变换成频域信号,其中参照由音质单元12提供的有关音质模型的信息。当人能感知的音频信号的特性之间的差在时域中不是很大时,在通过变换获得的频域音频信号中,人能感知的信号和不能被人所感知的信号的特性之间具有大的差别。所以,通过差分分配到各个频段的比特的数目,压缩效率可以被提高。在本发明实施例中,变换单元11执行修正离散余弦变换(MDCT)。
音质单元12提供音质模型的信息,比如冲击感信息给变换单元11,并把变换单元11变换的音频信号组合成适当子频段的信号。此外,音质单元12通过使用各个信号之间的交互作用所引起的屏蔽效应计算每个子频段中的屏蔽门限,并提供该门限值给量化单元13。屏蔽门限是由于信号间的交互作用而不能被人所感觉到的信号的最大值。在本实施例中,音质单元12通过两耳屏蔽电平降低(binaural masking level depression)(BMLD)来计算立体声分量的屏蔽门限。
量化单元13根据相应于音频信号的定标因子信息在每个频段标量量化音频信号,使得频段中量化噪声的水平小于音质单元12所提供的屏蔽门限,以致人不能感知到噪声。接着,量化单元13输出量化的样本。就是说,通过使用音质单元12中计算的屏蔽门限和每个频段产生的作为噪声比率的噪声-屏蔽比率(NMR),量化单元13执行量化,使得全频段中的NMR值是0dB或更小。0dB或更小的NMR值意味着人不能感知量化噪声。
比特封装单元14编码属于每层的量化样本和附加信息,并以分层结构封装编码信号。附加信息包括每层中的定标段信息,编码段信息,它们的定标因子信息,和编码模型信息。定标段信息和编码段信息可以被封装成首部信息,并且接着被发送到解码装置。否则,定标段信息和编码段信息可以被编码和封装成每层的附加信息,并接着发送到解码装置。定标段信息和编码段信息可以不被发送到解码装置,因为在一些情况下它们被预存在解码装置中。
更为特别的是,当编码包含对应于第一层的定标因子信息和编码模型信息的附加信息时,比特封装单元14参照对应于第一层的编码模型信息,按照从由最高有效位(MSB)形成的符号直到由最低有效位(LSB)形成的符号的顺序,以符号为单位执行样本和信息的编码。接着,在第二层中,相同的处理被重复执行。就是说,随着层数的增加而执行编码,直到多个预定层的编码被完成。在本实施例中,比特封装单元14差分编码定标因子信息和编码模型信息,并赫夫曼编码量化样本。后面将解释根据本发明编码的比特流的分层结构。
定标段信息是指用于按照音频信号的频率特性更合适地执行量化的信息。当频率区域被分成多个频段并且一个合适的定标因子被分配到每个频段时,定标段信息指示相应于每层的定标段。这样,每层属于至少一个定标段。每个定标段具有一个分配的定标因子。此外,编码段信息是指用于根据音频信号的频率特性更合适地执行编码的信息。当频率区域被分成多个频段并且适当的编码模型被分配到每个频段时,编码段信息指示对应于每层的编码段。定标段和编码段以经验为主进行划分,并且分别与之对应的定标因子和编码模型基于相同的方式被确定。
图2是按照本发明的优选实施例的解码装置的方框图。
参考图2,解码装置解码比特流到由网络条件,解码装置的性能和用户的选择所确定的目标层,使得比特流的比特率能被控制。解码装置包括解封单元21,反向量化单元22,和反向变换单元23。
解封单元21解封比特流到目标层,并解码每层中的比特流。就是说,包含相应于每层的定标因子信息和编码模型信息的附加信息被解码,并接着基于获得的编码模型信息,属于该层的编码量化样本被解码,并且量化样本被恢复。在本实施例中,解封单元21差分解码定标因子信息和编码模型信息,并赫夫曼解码所编码的量化样本。
同时,从比特流的首部信息,或通过解码每层中的附加信息,获得定标段信息和编码段信息。可替换的,解码装置可以提前存储定标段信息和编码段信息。按照相应于样本的定标因子信息,反向量化单元22反向量化和恢复每层中的量化样本。反向变换单元23频率/时间映射所恢复的样本,以便把样本变换成时域的PCM音频数据,并输出它。在当前实施例中,反向变换单元23执行基于MDCT的反向变换。
图3是帧的结构图,所述帧形成以分层结构编码的比特流,使得可以控制比特率。
参考图3,按照本发明的比特流的帧通过映射量化样本和附加信息被编码到分层结构,以获得精细粒度可伸缩性(FGS)。换句话说,低层比特流被包括在分层结构的增强层比特流中。每层中需要的附加信息被分配到每层并接着被编码。
用于存储首部信息的首部区域被放在比特流的前面,然后有关层0的信息在首部区域之后被封装,接着,属于作为增强层的层1-N的信息按顺序被封装。从首部区域至层0信息的层被称作基层,从首部区域至层1信息的层被称作层1,和从首部区域至层2信息的层被称作层2。同样,最上层表示从首部区域至层N信息,就是说,从基层到作为增强层的层N。附加信息和编码音频数据被存储成每个层信息。例如,附加信息2和编码量化样本被存储成层2信息。这里,N是大于或等于1的一个整数。
图4是附加信息的结构的详细图。
参考图4,附加信息和编码量化样本被存储成任意的附加信息,并在本实施例中,附加信息包括赫夫曼编码模型信息,量化因子信息,有关信道的附加信息,和其它附加信息。赫夫曼编码模型信息是赫夫曼编码模型的索引信息,应该被用于编码或解码属于相应于该信息的层的量化样本。量化因子信息指示量化步长,该步长用于量化或反向量化属于相应于信息的层的音频数据。有关信道的附加信息是有关信道的诸如M/S立体声的信息。其它附加信息是有关是否使用M/S立体声的标志信息。
在本实施例中,比特封装单元14对赫夫曼编码模型信息和量化因子信息执行差分编码。在差分编码中,一个直接在先频段的值的差分值被编码。有关信道的附加信息被赫夫曼编码。
图5是参考图,用于更具体地解释根据本发明的编码方法。
参考图5,要编码的量化样本具有3-层结构。斜线矩形表示包括量化样本的频谱线,实线表示定标段,虚线表示编码段。定标段(1),(2),(3),(4)和(5)以及编码段(1),(2),(3),(4)和(5)属于层0。定标段(5)和(6)以及编码段(6),(7),(8),(9)和(10)属于层1。定标段(6)和(7)以及编码段(11),(12),(13),(14)和(15)属于层2。同时,定义层0,使得执行编码直到频段(a),定义层1,使得执行编码直到频段(b),并且定义层2,使得执行编码直到频段(c)。
首先,使用相应编码模型在100的比特范围内编码属于层0的量化样本。此外,作为层0的附加信息,属于层0的定标段(1),(2),(3),(4)和(5)以及编码段(1),(2),(3),(4)和(5)被编码。在以符号为单位编码量化样本时,比特的数目被计数。如果计数的比特数超过允许的比特范围,层0的编码被停止,并且层1被算术编码。在属于层0的量化样本中,当层0和1中的允许比特数仍然有空间时,未编码的量化样本下一次被编码。
接下来,属于层1的量化样本被编码,其中使用属于层1的编码段,就是说,编码段(6),(7),(8),(9)和(10)中要编码的量化样本所属的一个编码段的编码模型。此外,作为层1的附加的信息,属于层1的定标段(5)和(6)以及编码段(6),(7),(8),(9)和(10)被编码。甚至在编码相应于层1的所有样本之后,如果在允许的比特范围,即100比特中仍然有空间,层0中剩余的未编码比特被编码,直到允许比特,即100比特被计数到。如果针对编码而计数的比特数超过允许比特范围,层1的编码被停止,并且层2的编码开始。
最后,属于层2的量化样本被编码,其中使用属于层2的编码段,即编码段(11),(12),(13),(14)和(15)中要编码的量化样本所属的一个编码段的编码模型。此外,作为层2的附加信息,属于层2的定标段(6)和(7)以及编码段(11),(12),(13),(14)和(15)被编码。甚至在编码相应于层2的所有样本之后,如果在允许的比特范围,即100比特中仍然有空间,层0中剩余的未编码比特被编码,直到允许的比特,即100比特被计数到。
如果所有的量化样本被编码而不考虑层0的允许比特范围,即如果所有的量化样本被编码,甚至在编码比特数超过允许比特范围,即100之后(这意味着下一层,即层1的允许比特范围中的一些比特被用于编码当前层),通常的情况是,属于层1的量化样本不能被编码。因此,在可伸缩解码的情况下,如果在范围到层1的层上执行解码,由于相应于层1的范围到预定频段(b)的所有量化样本不被编码,在低于(b)的频率上解码的量化样本会波动,导致“Birdy”效应,其中音频质量会恶化。
在确定多个层中(目标层)时,分配比特范围,其中考虑到被编码的所有音频数据的整体大小。这样,没有可能因为其中安排被编码的比特的比特范围的缺陷而不执行编码。
在以和编码处理相反的方式执行解码时,按照允许的比特范围计数比特数。因此,预定层的解码定时点能被识别。
图6是参考图,用以更具体地解释按照本发明的编码方法。
按照本发明,比特封装单元14通过比特明码(bit-plain)编码和赫夫曼编码在对相应于每个层的量化样本执行编码。多个量化样本被映射在比特平面上,以便接着以二进制形式表示,并在每层的允许的比特范围内,按照从由MSB形成的符号直到由LSB形成的符号的顺序被编码。比特平面上重要的信息首先被编码,而相对不太重要的信息随后被编码。通过这样操作,相应于每层的比特率和频段在编码处理中被固定,使得能够减少被称作“Birdy效应”的失真。
图6示例了在此情况下的编码例子,其中包括MSB的符号的比特数是4或更少。当量化样本9,2,4,和0被映射在比特平面上时,它们以二进制形式被表示,也就是,分别为1001b,0010b,0100b和0000b。就是说,在本实施例中,作为比特平面上的编码单元的编码块的大小是4*4。
由MSB形成的符号msb是“1001b”,由下一MSB形成的符号msb-1是“0010b”,由下一MSB形成的符号msb-2是“0100b”,由LSB形成的符号msb-3是“1000b”。
用于赫夫曼编码的赫夫曼模型信息,即码本索引被示于表1:
表1
 附加信息  有效性  赫夫曼模型
 0  0  0
 1  1  1
 2  1  2
 3  2  3
 4
 4  2  5
 6
 5  3  7
 8
 9
 6  3  10
 11
 12
 7  4  13
 14
 15
 16
 8  4  17
 18
 19
 20
 9  5  *
 10  6  *
 11  7  *
 12  8  *
 13  9  *
 14  10  *
 15  11  *
 16  12  *
 17  13  *
 18  14  *
 *  *  *
根据表1,对于相同有效水平(本实施例中的msb)甚至存在两个模型。这是因为两个模型是针对显示出不同分布的量化样本而产生的。
现在将更详细地解释按照表1的图6例子的用于编码的处理过程。
在一个符号的比特数是4或更小的情况下,按照本发明的赫夫曼编码如公式1所示:
赫夫曼码值=赫夫曼码本[码本索引][更高比特平面][符号].........(1)
就是说,赫夫曼编码使用3个输入变量,包括码本索引,更高比特平面,和符号。码本索引表示从表1获得的值,更高比特平面表示比特平面上紧临当前期望编码的符号之上的符号。符号表示目前期望编码的符号。
由于在图6的例子中赫夫曼模型的msb是4,选择13-16或17-20。如果被编码的附加信息是8,
由msb比特形成的符号的码本索引是16,
由msb-1比特形成的符号的码本索引是15,
由msb-2比特形成的符号的码本索引是14,并且
由msb-3比特形成的符号的码本索引是13。
同时,由于收msb比特形成的符号不具有更高比特平面的数据,如果更高比特平面的值是0,用赫夫曼码本[16][0b][1000b]的码执行编码。由于由msb-1比特形成的符号的更高比特平面是1000b,用赫夫曼码本[15][1000b][0010b]的码执行编码。由于由msb-2比特形成的符号的更高比特平面是0010b,用赫夫曼码本[14][0010b][0100b]的码执行编码。由于由msb-3比特形成的符号的更高比特平面是0100b,用赫夫曼码本[13][0100b][1000b]的码执行编码。
比特封装单元14计数编码比特的数目,用层中允许使用的比特的数目比较该计数,如果计数大于允许数目,停止编码。当在下一层中允许空间时,没有被编码的剩余比特被编码并且被放进下一层。在分配到相应层的量化样本被全部编码之后,如果层中允许的比特的数目中仍然有空间,即如果层中有空间,则低层中编码完成之后仍然未编码的量化样本被编码。
同时,如果由msb形成的符号的比特数大于或等于5,使用当前比特平面上的位置确定赫夫曼码值。换句话说,如果有效性大于或等于5,每个比特平面上的数据中只具有较小统计差,使用相同的赫夫曼模型对数据进行赫夫曼编码。就是说,每个比特平面均存在赫夫曼模式。
如果有效性大于或等于5,就是说,符号的比特数大于或等于5,本发明的赫夫曼编码满足公式2:
赫夫曼码=20+bpl                 ...2
其中‘bpl’表示期望当前被编码的比特平面的索引,并且是大于或等于1的整数。,如表2所列,常数20是增加的一个值,用于表示索引从21开始,因为赫夫曼模型的最后索引(对于附加数8)是20。因此,用于一个编码段的附加信息简单地表示了有效性。在表2中,按照期望被当前编码的比特平面的索引确定赫夫曼模型。
表2
附加信息 有效性 赫夫曼模型
9 5 21-25
  10   6   21-26
  11   7   21-27
  12   8   21-28
  13   9   21-29
  14   10   21-30
  15   11   21-31
  16   12   21-32
  17   13   21-33
  18   14   21-34
  19   15   21-35
对于附加信息中的量化因子信息和赫夫曼模型信息,在相应于信息的编码段上执行DPCM。当量化因子信息被编码时,在帧的首部信息中用8个比特表示初始的DPCM值。用于赫夫曼模型信息的DPCM的初始值被设置为0。
下面列出根据本发明和现有技术的BSAC技术的编码方法之间的差别。首先,在BSAC技术中,编码以比特为单位来执行,而在本发明中是以符号为单位来执行编码。第二,在BSAC技术中,使用了算术编码,而在本发明中使用赫夫曼编码。算术编码提供了较高的压缩增益,但增加了复杂性和成本。因此,在本发明中,数据不是以比特单位被编码,而是以符号为单位通过赫夫曼被编码,以便降低复杂性和成本。
为了控制比特率,就是说为了提供可伸缩性,相应于一个帧的比特流被截止,考虑到每层中允许使用的比特的数目,使得只利用较小的数据量但可进行解码。例如,如果只有对应于48kbps的比特流期望被解码,只使用比特流的1048比特,使得能够获得对应于48kbps的解码音频数据。
现在将解释基于上述结构的按照本发明的编码和解码方法。
编码装置读取PCM音频数据,在存储器中存储数据(未显示),并且通过音质建模从存储的PCM音频数据中获得屏蔽门限和附加信息。由于PCM音频数据是时域信号,PCM音频数据被子波变换成频域信号。接着,编码装置根据量化段信息和量化因子信息通过量化子波变换的信号来获得量化样本。如上所述,编码量化样本并通过比特切片编码,基于符号单位的编码和赫夫曼编码来封装。
图7是流程图,用于解释按照本发明优选实施例的编码方法。
参考图7,现在将解释编码装置的比特封装单元14编码和封装量化的样本的处理过程。
首先,比特封装单元14根据所提供的目标比特率和附加信息提取相应于每层的信息。该处理在步骤701至703中执行。更具体的,在步骤701获得作为用于每层的截止的基础的截止频率,在步骤702获得对应于每层的量化段信息和编码段信息,并且在步骤703分配比特范围,在该范围内,应当编码的比特在每个层中能够被编码。
接着,在步骤704中,层索引被确定为基层,并且附加信息(包括量化段信息和编码段信息)在步骤705被编码。
接下来,相应于基层的量化样本被映射在比特平面上,并在步骤706根据由msb比特形成的符号以4*4块为单位进行编码。在步骤707,编码的比特数被计数,并且如果该计数超过当前层的比特范围,则当前层的编码被停止,并且在下一层开始编码。如果在步骤707计数的比特数没有超出比特范围,则在步骤709,过程返回到步骤705以处理下一层。由于基层没有更低的层,步骤708不被执行,但针对基层之后跟着的层执行步骤708。通过上述步骤,直到目标层的所有范围的层均被编码。
步骤706,也就是用于编码量化的样本的步骤如下所述:
1.相应于一个层的量化样本被以N样本为单位分组和映射在比特平面上。
2.根据由映射的二进制数据的msb比特形成的符号执行赫夫曼编码。
子步骤2可以如下进行详细解释:
2.1相应于期望编码的符号的标量值(cur Val)被获得。
2.2相应于标量值(upper Val)的赫夫曼代码被获得,该标量值对应于更高比特平面中的符号,就是说,比特流中处于比期望当前编码的符号更高的位置的符号。
对于附加信息中的量化因子信息和赫夫曼模型信息,在相应于信息的编码段上执行DPCM。当量化因子信息被编码时,DPCM的初始值在帧的首部信息中由8个比特表示。用于赫夫曼模型信息的DPCM的初始值被设置到0。
图8是流程图,用于解释按照本发明的优选实施例的解码方法。
参考图8,解码装置接收由在分层结构中编码的音频数据形成的比特流,并解码每帧中的首部信息。接着,在步骤801,包括相应于第一层的定标因子信息和编码模型信息的附加信息被解码。在步骤802,参照编码模型信息,通过按照从由MSB比特形成的符号直到由LSB比特形成的符号的顺序以符号为单位地解码比特流,获得量化样本。在步骤803,通过参考定标因子信息,获得的量化样本被反向量化,并在步骤804中,反向量化样本被反向变换。随着每次逐层增加层的序数,重复执行步骤801-804,直到完成预定的多个层的编码。
图9是流程图,用于解释按照本发明另一个优选实施例的解码方法。
参考图9,接收由在分层结构中编码的音频数据形成的比特流,并在步骤901,根据每帧中的首部信息解码相应于每层的截止频率。在步骤902,通过解码,根据首部信息识别相应于每层的量化段信息和编码段信息。在步骤903,每层的允许使用比特范围被识别。在步骤904,层索引被设置为基层。步骤905解码基层上的附加信息,在步骤906,通过按照从由MSB比特形成的符号直到由LSB比特形成的符号的顺序以符号单位地将比特流解码为每层允许的比特范围,获得量化样本。在步骤907,检查当前层是否最后一个。随着层数的逐个增加,步骤905和906在各层上重复执行,直到达预定的目标层。在步骤901-903中,解码装置可以提前具有截止频率,量化段信息,编码段信息和比特范围,而不是根据存储在接收的比特流的每帧中的首部信息获得这些信息。在此情况下,通过读取存储的信息,解码装置获得信息。
如上所述,根据本发明,通过在执行比特切片之后以符号为单位编码比特,提供借以能够通过自顶向下方式控制比特率的可伸缩性,使得编码装置的计算量不太大于没有提供可伸缩性的装置。就是说,根据本发明,提供了一种用于编解码带有可伸缩性的音频数据的方法和装置,其中复杂性较低,同时可以提供FGS,以及良好的音频质量,即使是在低层。
此外,比较于使用算术编码的MPEG-4音频BSAC技术,使用赫夫曼编码的本发明的编解码装置减少了用于封装/解封处理的计算量,其降至BSAC技术的八分之一。即使当按照本发明的比特封装被执行以便提供FGS时,开销是小的,使得编码增益与没有提供可伸缩性时相同。
此外,由于按照本发明的装置具有分层结构,为使得服务器端能够控制比特率而再产生比特流的处理是很简单的,因此,用于变换编码的装置的复杂性是低的。
当通过网络发送音频流时,能根据用户的选择或网络条件控制传输比特率,以便可以提供不停断的服务。
此外,当音频流被存储在具有有限容量的信息存储介质中时,文件的大小能被任意控制和被存储。如果比特率变低,频段被约束。因此,是编/解码器中最复杂装置的滤波器的复杂性被大大降低,并且与比特率成反比,编/解码器装置的实际复杂性降低。

Claims (17)

1.一种编码方法,包括:
切片音频数据,使得切片的音频数据对应于多个层;
获得对应于多个层的每个的定标段信息和编码段信息;
基于对应于第一层的定标段信息和编码段信息,编码包含定标因子信息和编码模型信息的附加信息;
通过参照定标因子信息量化对应于第一层的音频数据,获得量化样本;
通过参照编码模型信息,按照从由最高有效位(MSB)形成的符号直到由最低有效位(LSB)形成的符号的顺序,以符号为单位编码所获得的多个量化样本;和
随着每次逐层增加层的序数,重复执行所述步骤,直到完成多个层的编码。
2.根据权利要求1的方法,进一步包括,在编码附加的信息之前,
获得在多个层的每个中所允许的比特范围,其中在编码所获得的多个量化样本时,编码的 比特的数目被计数,并且如果计数的 比特的数目超过相应于该比特的比特范围,编码停止,而即使是在量化样本全被编码之后,如果计数的比特的数目小于相应于该比特的比特范围,在低层编码被完成之后仍然未编码的比特被编码到比特范围允许的范围。
3.根据权利要求1的方法,其中音频数据的切片包括:
执行音频数据的子波变换;和
通过参照截止频率,切片子波变换的数据,使得切片的数据对应于多个层。
4.根据权利要求1的方法,其中多个量化样本的编码包括:
在比特平面上映射多个量化样本;和
按照从由MSB比特形成的符号直到由LSB比特形成的符号的 顺序,在对应于样本的层中所允许的比特范围内以符号为单位编码样本。
5.根据权利要求4的方法,其中在映射多个量化样本时,K个量化样本被映射在比特平面上,并且在样本的编码中,获得对应于由K比特二进制数据形成的符号的标量值,并通过参照K比特二进制数据,获得的标量值,和对应于高于比特平面上当前符号的一 个符 号的标量值,执行赫夫曼编码,其中K是一个整数。
6.一种用于可伸缩地解码以分层结构编码的音频数据的方法,包括:
差分解码包含对应于第一层的定标因子信息和编码模型信息的附加信息;
通过参照编码模型信息,按照从由MSB比特形成的符号直到由LSB比特形成的符号的顺序,以符号为单位赫夫曼解码音频数据,并获得量化样本;
通过参照定标因子信息反向量化所获得的量化样本;
反向MDCT变换该反向量化的样本;和
随着每次逐层增加层的序数,重复执行所述步骤,直到完成预定多个层的解码。
7.根据权利要求6的方法,其中音频数据的赫夫曼解码进一步包括:
按照从由MSB比特形成的符号直到由LSB比特形成的符号的顺序,在对应于音频数据的层中所允许的比特范围内以符号为单位解码音频数据;和
从其上安排了解码符号的比特平面获得量化样本。
8.根据权利要求7的方法,其中在解码音频数据时,获得由解码符号形成的4*K比特平面,并且从获得的量化样本中,从4*K比特平面获得K个量化样本,其中K是一个整数。
9.一种用于可伸缩地解码以分层结构编码的音频数据的装置,包括:
解封单元,其解码包含对应于第一层的定标因子信息和编码模型信息的附加信息,并且通过参照编码模型信息,按照从由MSB比特形成的符号直到由LSB比特形成的符号的顺序,以符号为单位解码音频数据,并获得量化样本;
反向量化单元,其通过参照定标因子信息反向量化所获得的量化样本;和
反向变换单元,其反向变换该反向量化样本。
10.根据权利要求9的装置,其中解封单元按照从由MSB比特形成的符号直到由LSB比特形成的符号的顺序,在对应于音频数据的层中所允许的比特范围内以符号为单位解码音频数据,从其上安排了解码符号的比特平面获得量化样本。
11.根据权利要求10的装置,其中解封单元获得由解码符号形成的4*K比特平面,并且从4*K比特平面获得K个量化样本,其中K是一个整数。
12.一种用于可伸缩地解码音频数据的装置,包括:
MDCT变换音频数据的变换单元;
量化单元,其通过参照定标因子信息,量化对应于每层的MDCT变换音频数据,并输出量化样本;和
封装单元,其差分编码包含对应于第一层的定标因子信息和编码模型信息的附加信息,通过参照编码模型信息,按照从由最高有效位(MSB)形成的符号直到由最低有效位(LSB)形成的符号的顺序,以符号为单位赫夫曼编码来自量化单元的多个量化样本。
13.根据权利要求12的装置,其中封装单元获得对应于多个层的每个的定标段信息和编码段信息,并基于对应于每层的定标段信息和编码段信息编码包含定标因子信息和编码模型信息的附加信息。
14.根据权利要求12的装置,其中封装单元计数编码的比特的数目,并且如果计数的比特的数目超过相应于该比特的比特范围,编码停止,而即使是在量化样本全被编码之后,如果计数的比特的数目小于相应于该比特的比特范围,在低层的编码完成之后仍然未编码的比特被编码到比特范围允许的范围。
15.根据权利要求12的装置,其中封装单元通过参照截止频率切片MDCT变换的数据,使得切片的数据对应于多个层。
16.根据权利要求12的装置,其中封装单元在比特平面上映射多个 量化样本,并且按照从由MSB比特形成的符号直到由LSB比特形成的符号的顺序,在对应于样本的层中所允许的比特范围内以符号为单位编码样本。
17.根据权利要求16的装置,其中封装单元在比特平面上映射K个量化样本,获得对应于由K比特二进制数据形成的符号的标量值,并通过参照K比特二进制数据,获得的标量值,和对应于高于比特平面上当前符号的一个符号的标量值执行赫夫曼编码,其中K是一个整数。
CN03165035XA 2002-12-16 2003-09-17 可伸缩地编解码音频数据的方法和装置 Expired - Fee Related CN1525436B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2002-0080320 2002-12-16
KR1020020080320A KR100908117B1 (ko) 2002-12-16 2002-12-16 비트율 조절가능한 오디오 부호화 방법, 복호화 방법,부호화 장치 및 복호화 장치

Publications (2)

Publication Number Publication Date
CN1525436A true CN1525436A (zh) 2004-09-01
CN1525436B CN1525436B (zh) 2010-05-26

Family

ID=32388327

Family Applications (1)

Application Number Title Priority Date Filing Date
CN03165035XA Expired - Fee Related CN1525436B (zh) 2002-12-16 2003-09-17 可伸缩地编解码音频数据的方法和装置

Country Status (6)

Country Link
US (2) US8046234B2 (zh)
EP (1) EP1431963B1 (zh)
JP (1) JP4056466B2 (zh)
KR (1) KR100908117B1 (zh)
CN (1) CN1525436B (zh)
DE (1) DE60316099T2 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101313482B (zh) * 2005-11-17 2011-12-21 微软公司 确定音频设备的质量
WO2014005327A1 (zh) * 2012-07-06 2014-01-09 深圳广晟信源技术有限公司 对多声道数字音频编码的方法

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7240001B2 (en) 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
KR101015497B1 (ko) * 2003-03-22 2011-02-16 삼성전자주식회사 디지털 데이터의 부호화/복호화 방법 및 장치
US7460990B2 (en) 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity
US7630882B2 (en) * 2005-07-15 2009-12-08 Microsoft Corporation Frequency segmentation to obtain bands for efficient coding of digital media
KR20070037945A (ko) * 2005-10-04 2007-04-09 삼성전자주식회사 오디오 신호의 부호화/복호화 방법 및 장치
KR101237413B1 (ko) * 2005-12-07 2013-02-26 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법, 오디오 신호의부호화 및 복호화 장치
KR100793287B1 (ko) * 2006-01-26 2008-01-10 주식회사 코아로직 비트율 조절이 가능한 오디오 복호화 장치 및 그 방법
CN101395661B (zh) * 2006-03-07 2013-02-06 艾利森电话股份有限公司 音频编码和解码的方法和设备
US8306827B2 (en) 2006-03-10 2012-11-06 Panasonic Corporation Coding device and coding method with high layer coding based on lower layer coding results
KR101322392B1 (ko) * 2006-06-16 2013-10-29 삼성전자주식회사 스케일러블 코덱의 부호화 및 복호화 방법 및 장치
US8010370B2 (en) * 2006-07-28 2011-08-30 Apple Inc. Bitrate control for perceptual coding
US8032371B2 (en) * 2006-07-28 2011-10-04 Apple Inc. Determining scale factor values in encoding audio data with AAC
EP2080270A4 (en) * 2006-10-06 2010-11-17 Agency Science Tech & Res METHOD OF CODING, DECODING METHOD, CODIER, DECODER AND COMPUTER PROGRAM PRODUCTS
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
KR100988010B1 (ko) * 2008-04-23 2010-10-18 (주)휴맥스 결정 비트를 이용한 부호화/복호화 방법 및 장치
WO2009080982A2 (fr) * 2007-12-10 2009-07-02 France Telecom Traitement d'erreurs binaires dans une trame binaire audionumerique
EP2237269B1 (en) * 2009-04-01 2013-02-20 Motorola Mobility LLC Apparatus and method for processing an encoded audio data signal
US8965545B2 (en) * 2010-09-30 2015-02-24 Google Inc. Progressive encoding of audio
CN104641414A (zh) * 2012-07-19 2015-05-20 诺基亚公司 立体声音频信号编码器
CN104934034B (zh) 2014-03-19 2016-11-16 华为技术有限公司 用于信号处理的方法和装置
EP3324406A1 (en) 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a variable threshold
EP3324407A1 (en) * 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0559348A3 (en) * 1992-03-02 1993-11-03 AT&T Corp. Rate control loop processor for perceptual encoder/decoder
KR100261254B1 (ko) 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 데이터 부호화/복호화방법 및 장치
KR100261253B1 (ko) 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 부호화/복호화 방법및 장치
DE19747132C2 (de) 1997-10-24 2002-11-28 Fraunhofer Ges Forschung Verfahren und Vorrichtungen zum Codieren von Audiosignalen sowie Verfahren und Vorrichtungen zum Decodieren eines Bitstroms
KR100335611B1 (ko) 1997-11-20 2002-10-09 삼성전자 주식회사 비트율 조절이 가능한 스테레오 오디오 부호화/복호화 방법 및 장치
JP2001134294A (ja) 1999-11-10 2001-05-18 Toshiba Corp オーディオ信号のビットストリームの処理方法及び処理装置
JP3609323B2 (ja) 2000-05-08 2005-01-12 日本電信電話株式会社 楽音符号化方法および楽音復号化方法、符号生成方法およびこれらの方法を実行するプログラムを記録した記録媒体
US7395209B1 (en) * 2000-05-12 2008-07-01 Cirrus Logic, Inc. Fixed point audio decoding system and method
JP2002156998A (ja) * 2000-11-16 2002-05-31 Toshiba Corp オーディオ信号のビットストリーム処理方法、この処理方法を記録した記録媒体、及び処理装置
AUPR192700A0 (en) * 2000-12-06 2001-01-04 Canon Kabushiki Kaisha Storing coding image data in storage of fixed memory size

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101313482B (zh) * 2005-11-17 2011-12-21 微软公司 确定音频设备的质量
WO2014005327A1 (zh) * 2012-07-06 2014-01-09 深圳广晟信源技术有限公司 对多声道数字音频编码的方法

Also Published As

Publication number Publication date
JP4056466B2 (ja) 2008-03-05
KR20040053865A (ko) 2004-06-25
EP1431963B1 (en) 2007-09-05
DE60316099D1 (de) 2007-10-18
DE60316099T2 (de) 2008-05-29
JP2004199064A (ja) 2004-07-15
CN1525436B (zh) 2010-05-26
US8046234B2 (en) 2011-10-25
KR100908117B1 (ko) 2009-07-16
EP1431963A1 (en) 2004-06-23
US20120101825A1 (en) 2012-04-26
US20040181394A1 (en) 2004-09-16

Similar Documents

Publication Publication Date Title
CN1525436A (zh) 可伸缩地编解码音频数据的方法和装置
CN101055720A (zh) 对音频信号编码和解码的方法和设备
CN1244904C (zh) 声频信号编码方法和设备
CN1266673C (zh) 可伸缩音频编码的有效改进
CN1110145C (zh) 可变规模语音编码/解码的方法和装置
CN1878001A (zh) 对音频数据编码及解码的设备及方法
CN1217502C (zh) 音频信号的编码装置、解码装置及编码方法和解码方法
CN1756086A (zh) 多通道音频数据编码/解码方法和设备
CN1926610A (zh) 基于编码的多声道音频信号合成单声道音频信号
US7774205B2 (en) Coding of sparse digital media spectral data
CN1527306A (zh) 使用带宽扩展技术编码和/或解码数字数据的方法和装置
CN1681213A (zh) 无损音频编码/解码方法和装置
CN1942928A (zh) 音频信号编码
CN1262990C (zh) 利用谐波提取的音频编码方法和设备
CN1765153A (zh) 表示多信道信号的主和副信号的编码
CN1918632A (zh) 音频编码
CN1735928A (zh) 用于可变速率音频编解码的方法
CN1822508A (zh) 对数字信号进行编码和解码的方法和设备
CN1249669C (zh) 使用时间频率相关编码和/或解码数字音频的方法及装置
CN1787383A (zh) 变换、编码、逆变换和解码音频信号的方法和设备
CN1677490A (zh) 一种增强音频编解码装置及方法
CN1524348A (zh) 编码方法和装置以及解码方法和装置
CN1677491A (zh) 一种增强音频编解码装置及方法
CN1533036A (zh) 用于编码和/或解码数字数据的方法和装置
CN1918631A (zh) 音频编码

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100526

Termination date: 20140917

EXPY Termination of patent right or utility model