CN100555413C - 可伸缩地编解码音频数据的方法和装置 - Google Patents
可伸缩地编解码音频数据的方法和装置 Download PDFInfo
- Publication number
- CN100555413C CN100555413C CNB031650376A CN03165037A CN100555413C CN 100555413 C CN100555413 C CN 100555413C CN B031650376 A CNB031650376 A CN B031650376A CN 03165037 A CN03165037 A CN 03165037A CN 100555413 C CN100555413 C CN 100555413C
- Authority
- CN
- China
- Prior art keywords
- bit
- coding
- information
- layer
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000013139 quantization Methods 0.000 claims description 25
- 238000005538 encapsulation Methods 0.000 claims description 11
- 230000009466 transformation Effects 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 10
- 230000005236 sound signal Effects 0.000 description 10
- 238000011002 quantification Methods 0.000 description 6
- 238000010276 construction Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000008447 perception Effects 0.000 description 4
- 101000591286 Homo sapiens Myocardin-related transcription factor A Proteins 0.000 description 3
- 102100034099 Myocardin-related transcription factor A Human genes 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000007906 compression Methods 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 244000287680 Garcinia dulcis Species 0.000 description 1
- 244000141353 Prunus domestica Species 0.000 description 1
- 241000746998 Tragus Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005469 granulation Methods 0.000 description 1
- 230000003179 granulation Effects 0.000 description 1
- 230000003116 impacting effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000013517 stratification Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B14/00—Transmission systems not characterised by the medium used for transmission
- H04B14/02—Transmission systems not characterised by the medium used for transmission characterised by the use of pulse modulation
- H04B14/04—Transmission systems not characterised by the medium used for transmission characterised by the use of pulse modulation using pulse code modulation
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Networks & Wireless Communication (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
对音频数据进行可伸缩编码/解码的方法和装置。对音频数据进行可伸缩编码的方法包括,对包含与第一层对应的定标因子信息和编码模型信息的附加信息进行编码,通过参考编码模型信息,以K比特为单位按照从MSB到LSB和从低频到高频的顺序对与第一层对应的多个量化样本进行算术编码,其中K是大于或等于1的一个整数,并且通过每次使层的序数加1,重复进行这些步骤,直到多层的编码被完成。按照这个方法,精细粒度可伸缩性(FGS)可以具有低的复杂性,即使在低层也可以获得较好的音频质量。
Description
技术领域
本发明涉及编码和解码音频数据,尤其特别的是,涉及用于编码音频数据,以便编码的音频比特流具有可伸缩的比特率的方法和装置,以及用于解码音频数据的方法和装置。
背景技术
由于近来数字信号处理技术的发展,多数情况下音频信号通常被存储成数字信号并且再现。数字音频存储/恢复装置通过采样和量化把音频信号变换成脉冲编码调制(PCM),也就是数字信号。通过这样的操作,数字音频存储/再现装置在信息存储介质,比如光盘(CD)和数字化视频光盘(DVD)中存储PCM音频数据,并响应用户的命令再现存储的信号以便用户能听音频数据。相对于使用密纹(LP)记录或磁带的模拟方法来说,数字存储/重构方法大大地提高了音频质量,并显著减少了由长的存储周期引起的恶化。然而,由于大量的数字数据,数字方法在存储和传输方面存在问题。
为解决该问题,各种压缩方法被用于压缩数字音频信号。
在由国际标准化组织标准化的运动图象专家组(MPEG)中,或者由Dolby开发的AC-2/AC-3中,使用音质模型减少了数据量。作为结果,数据量能被有效地减少而不管信号的特性如何。就是说,MPEG/音频标准或AC-2/AV-3方法能以仅仅64~384Kbps的比特率提供几乎与CD相同的音频质量,该比特率是先前数字编码方法的比特率的1/6到1/8。
然而,在这些方法中,搜索适用于固定比特率的最佳状态并且接着执行量化和编码。因此,如果在通过网络发送比特流时由于网络条件很差而使得传输带宽被降低,可能会出现断开和适当的服务不能再提供给用户。此外,当比特流期望被变换成较小尺寸的比特流以更适用于具有有限存储容量的移动装置时,应该执行再编码处理以减少比特流的尺寸,并增加了所需的计算量。
为解决该问题,本发明的的申请人提出了韩国专利申请No.97-61298,1997年11月19日,标题“使用位切片算法编码(BSAC)的可伸缩比特率音频编码/解码的方法和装置”,此专利在2000年4月17日被授权,韩国专利号No.261253。根据BSAC技术,具有高比特率编码的比特流能被变成具有低比特率的比特流,并能够只用部分的比特流进行重构。因此,当网络过载时,或者解码器的性能很差时,或用户请求低比特率时,通过只使用部分的比特流,可以把具有一定音频质量的服务提供给用户,尽管随着比特率的下降,质量会不可避免地成比例地下降。
然而,由于BSAC技术采用修正离散余弦变换(MDCT)变换音频信号,低层失真变得更严重。原因如下。即,虽然MDCT在层变低的时候降低了音频质量,但MDCT的频率分辨率是恒定的。因此,从音质模型来看,关于人耳不敏感的频带的频率分辨率过度地增加了。
发明内容
发明提供了用于可伸缩地(with scalability)编解码音频数据的一种方法和装置,通过该方法和装置为精细粒度可伸缩性(FGS)提供较低的复杂度。
按照本发明的一个方面,提供一种对音频数据进行可伸缩性编码的方法,该方法包括对包含对应于第一层的定标因子信息和编码模型信息的附加信息进行编码,参考编码模型信息,按照从MSB(最高有效位)到LSB(最低有效位)和从低频到高频的顺序,以K比特为单位对与第一层对应的多个量化样本进行算术编码,其中K是大于或等于1的整数,以及通过每次逐1增加层的序数重复执行这些步骤,直到多层的编码完成。
按照本发明的另一方面,提供一种编码方法,它包括,对音频数据进行切片(slicing),使切片的音频数据与多个层对应,获得与多层的每一层对应的定标段信息和编码段信息,根据与第一层对应的定标段信息和编码段信息对包含定标因子信息和编码模型信息的附加信息进行编码,通过参考定标因子信息对与第一层对应的音频数据进行量化而获得量化样本,参考编码模型信息,按照从MSB到LSB和从低频到高频的顺序,以K比特为单位对所得到的多个量化样本进行算术编码,其中K是大于或等于1的一个整数,以及通过每次逐1增加层的序数重复执行这些步骤,直到多层的编码完成。
在附加信息编码以前,该方法还可包括,获得多个层的每一个层中的可用比特范围,其中在所获得的多个量化样本的算术编码中,编码比特的数目被计数,如果所计数的比特的数目超过对应于该比特的比特范围,编码就停止,如果即使在各量化样本全部被编码以后所计数的比特的数目小于该比特范围,在低层的偏码完成以后仍未被编码的比特就被编码到该比特范围容许的范围。
音频数据的切片包括,进行音频数据的子波变换,参考截止频率对子波变换数据进行切片,以使切片的数据对应于多个层。
并且,附加信息的编码可包括对定标因子信息和编码模型信息的差分编码。
算术编码可包括把多个量化样本映射到比特平面上,以及按照从MSB到LSB和从低频到高频的顺序在与样本对应的层中容许的比特范围内以K比特为单位对样本进行算术编码。
按照本发明的另一个方面,提供一种对以分层结构编码的音频数据进行可伸缩的解码的方法,该方法包括,对包含对应第一层的定标因子信息和编码模型信息的附加信息进行解码,参考编码模型信息,按照从MSB到LSB和从低频到高频的顺序,以K比特为单位对音频数据进行算术解码,并且获得量化样本,其中K是大于或等于1的一个整数,参考定标因子信息反量化所得到的量化样本,对反量化样本执行反子波变换,以及通过每次逐1增加层的序数重复执行这些步骤,直到多层的解码完成。
附加信息的解码可以包括对定标因子信息和编码模型信息的差分编码。音频数据的算术解码可包括按照从MSB到LSB和从低频到高频的顺序,以K比特为单位对音频数据进行算术解码,以及从解码的比特中获得量化样本。
按照本发明的另一个方面,提供一种对以分层结构编码的音频数据进行可伸缩的解码的装置,它包括解封单元,其对包含对应于第一层的定标因子信息和编码模型信息的附加信息进行解码,以及参考编码模型信息,按照从MSB到LSB和从低频到高频的顺序以K比特为单位对音频数据进行解码,并获得量化样本,其中K是一个大于或等于1的整数;反量化单元,其参考定标因子信息对所获得的量化样本进行反量化;和反变换单元,其对反量化样本执行反子波变换。
解封单元最好按照从MSB到LSB和从低频到高频的顺序在相应层所容许的比特范围内以K比特为单位对定标因子信息和编码模型信息进行差值解码,顺序是从MSB到LSB和从低频到高频,并从解码的比特被安排的比特平面上获得量化样本。
按照本发明的另一个方面,提供一种对音频数据进行可伸缩的编码的装置,它包括,变换单元,其对音频数据进行子波变换,量化单元,其参考定标因子信息,对与每层对应的子波变换音频数据进行量化,并输出量化样本,和封装单元,其对包含对应于每层的定标因子信息和编码模型信息的附加信息进行编码,并参考编码模型信息,按照从MSB到LSB和从低频到高频的顺序,以K比特为单位对来自量化单元的多个量化样本进行算术编码,其中K是一个大于或等于1的整数。
封装单元获得对应于多个层的每一层的定标段信息和编码段信息,并根据和对应于每一层的定标段信息编码段信息对包含定标因子信息和编码模型信息的附加信息进行编码。并且,封装单元计数编码比特的数目,如果所计数的比特的数目超过对应于该比特的比特范围,就停止编码,如果即使在量化样本全部被编码以后所计数的比特的数目小于对应于该比特的比特范围,则将低层编码完成后仍未编码的比特编码到该比特范围允许的范围。封装单元对定标因子信息和编码模型信息进行差分编码。
封装单元把多个量化样本映射在比特平面上,并按照从MSB到LSB和从低频到高频的顺序在与样本对应的层中容许的比特范围内以K比特为单位对样本进行算术编码。
附图说明
通过参考附图详细描述其最佳实施例,本发明的上述目的和优点将会变得更加明显,其中:
图1是本发明的最佳实施例的编码装置的方块图;
图2是本发明的最佳实施例的解码装置的方块图;
图3是帧的结构图,所述的帧形成在分层结构中编码的比特流以便能够控制比特率;
图4是附加信息的结构的详图;
图5是原理地解释本发明的编码和解码方法的参考图;
图6是更具体地解释本发明的编码方法的参考图;
图7是解释本发明最佳实施例的编码方法的流程图;
图8是解释本发明最佳实施例的解码方法的流程图;和
图9是解释本发明另一个最佳实施例的解码方法的流程图。
具体实施方式
参考图1,按照本发明,编码装置以分层结构编码音频数据,以便能控制编码的比特流的比特率,并且包括变换单元11,音质单元12,量化单元13,和比特封装单元14。
变换单元11接收作为时域音频信号的脉冲编码调制(PCM)音频数据,并把信号变换成频域信号,其中参照由音质单元12提供的有关音质模型的信息。当人能感知的音频信号的特性之间的差在时域中不是很大时,在通过变换获得的频域音频信号中,人能感知的信号和不能被人所感知的信号的特性之间具有大的差别。所以,通过区分分配到各个频段的比特的数目,压缩效率可以被提高。在本发明实施例中,变换单元11执行子波变换。在MDCT中,由于低频段中不必要的高频分辨率,甚至轻微的失真也可引起能由人耳朵感觉到的降级。然而,在子波变换中,时间/频率分辨率是更合适的,以至于可以提供更稳定的音频质量,即使是在具有低频段的低层中。
音质单元12提供音质模型的信息,比如冲击感信息给变换单元11,并把变换单元11变换的音频信号组合成适当子频段的信号。此外,音质单元12通过使用各个信号之间的交互作用所引起的屏蔽效应计算每个子频段中的屏蔽门限,并提供该门限值给量化单元13。屏蔽门限是由于信号间的交互作用而不能被人所感觉到的信号的最大值。在本实施例中,音质单元12通过两耳屏蔽电平降低(binaural masking level depression)(BMLD)来计算立体声分量的屏蔽门限。
量化单元13根据相应于音频信号的定标因子信息在每个频段标量量化音频信号,使得频段中量化噪声的水平小于音质单元12所提供的屏蔽门限,以致人不能感知到噪声。接着,量化单元13输出量化的样本。就是说,通过使用音质单元12中计算的屏蔽门限和作为每个频段产生的噪声的比率的噪声-屏蔽比率(NMR),量化单元13执行量化,使得全频段中的NMR值是0dB或更小。0dB或更小的NMR值意味着人不能感知量化噪声。
比特封装单元14编码属于每层的量化样本和附加信息,并以分层结构封装编码信号。附加信息包括每层中的定标段信息,编码段信息,它们的定标因子信息,和编码模型信息。定标段信息和编码段信息可以被封装成首部信息,并且接着被发送到解码装置。否则,定标段信息和编码段信息可以被编码和封装成每层的附加信息,并接着发送到解码装置。定标段信息和编码段信息可以不被发送到解码装置,因为在一些情况下它们被预存在解码装置中。
更特别地,当对包含与第一层对应的定标因子信息和编码模型信息的附加信息进行差分编码时,比特封装单元14参考与第一层对应的编码模型信息,以若干比特为单位对量化样本进行切片,并按照从最高有效位到最低有效位的顺序对比特的样本进行编码。要被编码的两个分量是附加信息和量化样本,附加信息比量化样本更重要。理由如下。也就是,即使量化样本被准确传送,然而当包含定标段信息、量化步长等的附加信息没有被正确传送时,它被重构成完全错误的信号。不过,当仅仅附加信息被准确重构的时候,则可以被重构总轮廓,即使在量化样本中有微小误差。因此,附加信息首先被编码,然后,量化样本被编码。在对附加信息和量化样本进行编码的时候,如果所计数的比特的数目大于或等于每一层所容许的比特数,编码就停止,比特流的形成也终止。仍未编码的量化样本在其容许比特数还有空间的层中编码。因为比特范围和层数是根据音频数据的大小而适当确定的。即使所有的量化样本不被编码,而比特流的形成由于编码期间目标层的数量的变化而被终止,因为重要(significant)信息首先被编码,音频质量也不会严重变劣。按照本实施例,在对量化样本编码的时候,比特封装单元14对多个量化样本进行比特切片(bit slicing),并以K比特为单位对经过比特切片的样本进行算术编码,顺序是从低频到高频(K是大于或等于1的一个整数)。然后,在第二层中,相同的过程被重复进行。即,编码随着层数的增加来进行,直到多个预定层的编码完成。按本发明编码的比特流的分层结构将在下面解释。
定标段信息是指用于按照音频信号的频率特性更合适地执行量化的信息。当频率区域被分成多个频段并且一个合适的定标因子被分配到每个频段时,定标段信息指示相应于每层的定标段。这样,每层属于至少一个定标段。每个定标段具有一个分配的定标因子。通常,因为定标段是按照人的听觉特性形成的,在低频时定标段的带宽较小,它随着频率的增加而增加。
此外,编码段信息是指用于根据音频信号的频率特性更合适地执行无损编码的信息。当频率区域被分成多个频段并且适当的编码模型被分配到每个频段时,编码段信息指示对应于每层的编码段。因为定标带宽随频率变化,所以很难获得均匀的概率分布。因此,组合几个频率信号,以使各个段的信号具有相似的概率分布。每组这种组合信号称为一个编码段。通常,在低频时多个定标段落在一个编码段上。随着频率增加,定标段与编码段重合。在实际中,定标段和编码段按经验分开,并且与之对应的定标因子和编码模型分别按照各段确定。特别是,本发明基于子波变换,并且划分编码段,以便与子波变换的树结构的最后节点相对应。这将在以后详细描述。
图2是本发明最佳实施例的解码装置的方块图。
参考图2,解码装置解码比特流到由网络条件,解码装置的性能和用户的选择所确定的目标层,使得比特流的比特率能被控制。解码装置包括解封单元21,反量化单元22,和反变换单元23。
解封单元21解封比特流到目标层,并对每层中的比特流进行解码。即,包含与每一层对应的定标因子信息和编码模型信息的附加信息被解码,然后根据所得到的编码模型信息,属于该层的编码量化样本被解码,量化样本被重构。在本实施例中,解封单元21对定标因子信息和算术编码模型信息进行差分解码,按照从MSB到LSB和从低频到高频的顺序,以K比特为单位对编码量化样本进行算术解码,然后进行比特组合,由此获得量化样本。这里,K是大于或等于1的一个整数。比特组合是编码期间进行的比特切片的反过程。
同时,从比特流的首部信息,或通过解码每层中的附加信息,获得定标段信息和编码段信息。另一方面,解码装置可以事先存储定标段信息和编码段信息。反量化单元22按照与各样本对应的定标因子信息反量化和重构每一层中的量化样本。反变换单元23通过子波变换对重构样本进行频率/时间映射,以便输出作为时域的PCM音频数据的样本。
图3是帧的结构图,所述帧形成以分层结构编码的比特流,使得可以控制比特率。
参考图3,按照本发明的比特流的帧通过映射量化样本和附加信息被编码到分层结构,以获得精细粒度可伸缩性(FGS)。换句话说,低层比特流被包括在分层结构的增强层比特流中。每层中需要的附加信息被分配到每层,然后被编码。
用于存储首部信息的首部区域被放在比特流的前面,然后有关层0的信息在首部区域之后被封装,接着,属于作为增强层的层1-N的信息按顺序被封装。从首部区域至层0信息的层被称作基层,从首部区域至层1信息的层被称作层1,和从首部区域至层2信息的层被称作层2。同样,最上层表示从首部区域至层N信息,就是说,从基层到作为增强层的层N。附加信息和编码音频数据被存储成每个层信息。例如,附加信息2和编码量化样本被存储成层2信息。这里,N是大于或等于1的一个整数。
图4是附加信息的结构的详图。
参考图4,附加信息和编码量化样本作为任意附加信息被存储,在本实施例中,附加信息包括算术编码模型信息,量化因子信息,有关信道的附加信息,和其它附加信息。算术编码模型信息是算术编码模型的索引信息,应该用于编码或解码属于相应于该信息的层的量化样本。定标因子信息指示量化步长,该步长用于量化或反量化属于相应于信息的层的音频数据。有关信道的附加信息是有关信道的诸如M/S立体声的信息。其它附加信息是有关是否使用M/S立体声的标志信息。
在本实施例中,比特封装单元14对算术编码模型信息和定标因子信息进行无损编码。因为每个定标段具有一个量化段,为了对量化因子进行编码,属于每个定标段的量化因子中间的最小值首先被无损编码,然后,最小值和另一个量化因子之间的差被无损编码。对于附加信息的无损编码,算术编码或Arithmetic编码可以被使用。在本实施例中,算术编码被执行。同样,对应于每个编码段的算术编码模型和有关容许比特范围的信息可以通过与量化步长中相同的编码方法,即差分编码进行编码。
在本实施例中,比特解封单元21执行附加信息的无损解码,附加信息包括算术编码模型信息和定标因子信息。因为每个定标段具有一个量化段,为了对量化因子进行解码,属于每个定标段的量化因子中的最小值首先被无损解码,然后,该最小值和另一量化因子之间的差被无损解码。按照与算术编码被用于对附加信息进行无损编码的编码装置相同的方式,本实施例的解码装置执行算术编码。同样,对应于每个编码段的算术编码模型和有关容许比特范围的信息通过与量化因子中相同的解码方法被解码。
图5是解释本发明的编码方法和解码方法的参考图。
参照图5,用斜线矩形表示量化样本组成的谱线。参考符号A表示每层的边界线,B表示对应于子波变换的树结构的每个终端节点的划分界线。
在本发明编码方法使用的子波变换中,频率变换是使用树结构进行的,以便表示类似于与人耳特点对应的滤波器组的形状的音频数据。树结构的最后节点分别与算术编码的定标段对应。因此,每个最后的节点就与定标因子对应。
编码段是用于算术编码的算术编码模型信息的传输单位,它可以根据编码效率来确定。例如,假设最后节点的定标段和编码段相同。然后,层和最后节点互相映射,如图5所示。因为对应于每个最后节点的数据出现在同一频率段的时间轴上,所以对应于最后节点的数据段在分层时不被分开。
确定层0以使编码执行直到一个频率段(a)。确定层1以使编码执行直到一个率段(b)。确定层2以使编码执行直到一个频率段(c)。确定层3以使编码执行直到一个频率段(d)。确定层4以使编码执行直到一个频率段(e)。确定层5以使编码执行直到一个频率段(f)。确定层6以使编码执行直到一个频率段(g)。确定层7以使编码执行直到一个频率段(h)。
首先,属于层0的量化样本利用对应的编码模型在预定的比特范围内被编码。同时,作为层0的附加信息,属于层0的量化样本被算术编码。在以若干比特为单位对量化样本进行编码的时候,比特数被计数。如果所计数的比特数超过容许的比特范围,层0的编码就停止,并且层1被算术编码。在层0的量化样本之中,当层0和1中容许的比特数目中还有空间的时候,未编码的量化样本被编码。
接着,属于层1的量化样本利用对应的编码模型被编码。同时,层1的附加信息被算术编码。如果即使在对与层1对应的所有样本进行编码以后在容许的比特范围内还有空间,层0中仍未编码的比特就被编码,直到计数到容许的比特。如果编码所计数的比特数超过容许的比特范围,层1的编码就停止,并且层2的编码被启动。同一过程被重复,直到层7的编码完成。
如果所有的最化样本被编码而不考虑每一层的容许比特范围,即,如果即使在编码比特数超过容许比特范围之后所有量化样本被编码(这意味着下一层的容许比特范围中的某些比特被用于对当前层进行编码),则通常的情况是,属于下一层的量化样本不能被编码。因此,在可伸缩解码情况下,如果解码是在低层,而不是在所有被解码的层上进行,因为范围直到预定频率的所有量化样本不被编码,解码的量化样本可能出现波动,导致“Birdy”效应,使得音频质量会变劣。
当解码以和编码过程相反的方式进行的时候,比特数根据容许比特范围进行计数。因此,预定层的解码定时点可被识别。
当编码沿从msb到Isb的方向的谱线上进行的时候,在子波变换的树结构的最后节点上的同一比特平面上的数据应该一起编码。例如,假设下面的量化样本在某个最后节点上。
00000000101010110101
11111100000000000000
00001100110000000110
在基于MDCT的编码中,量化样本被分组成下面5个3*4比特平面,然后编码向右,向下进行。
0000 0000 1010 1011 0101
1111 1100 0000 0000 0000
0000 1100 1100 0000 0110
在基于子波的编码中,量化样本被认为是在比特平面上,然后以若干多个比特为单位,从MSB到LSB和从低频到高频依次进行编码。如上所述,MSB 00000000101010110101以K比特为单位从左至右被编码,然后接下来的比特11111100000000000000以K比特为单位从左至右被编码,最后,LSB00001100110000000110以K比特为单位被编码。这里,K是大于或等于1的一个整数。特别是,如果K等于1,二进制编码被执行,因为在本发明中执行算术编码。
图6是更具体地解释本发明的编码方法的参考图。
参考图6,编码装置分别存储通过量化被转化成频域信号的样本X1,X2,X3,X4……而获得的量化样本XQ1,XQ2,XQ3,XQ4的符号值S[XQ1],S[XQ2],S[XQ3],S[XQ4],……,并获得它们的绝对值,即|XQ1|,|XQ2|,|XQ3|,|XQ4|,……,使所有量化样本都是正值。
通常,如所公知的,由于低比特下的1比特差错引起的信息差错大于高比特下所引起的信息差错,所以MSB的重要性(significance)就大于LSB。不过,在传统编码技术情况下,进行编码时不考虑重要性。因此,如果仅仅某些前导的比特流可以被使用,则大量的与包含在未使用的尾部比特流中的信息相比较不太重要的信息会包含在前导比特流中。因此,在本发明中,用于每个段的量化样本的绝对值以若干比特为单位被分开。当|XQ1|是5比特数据并且从MSB到LSB以若干比特为单位被分开的时候,给出XO1,5,XO1,4,XO1,3,XO1,2,XO1,1,|XQ2|给出XO2,5,XO2,4,XO2,3,XO2,2,XO2,1,|XQ3|给出XO3,5,XO3,4,XO3,3,XO3,2,XO3,1,而|XQ4|给出XO4,5,XO4,4,XO4,3,XO4,2,XO4,1(???··)。
接着,MSB按照从低频到高频的顺序被收集并以预定单位分切以形成向量,然后向量被编码。这里,C[A1,…,Ak]表示A1,…,Ak构成的向量的算术编码,K是大于或等于1的一个整数。因为算术编码以若干比特为单位进行,即使小数点级比特分配,例如0.001比特,在对1比特进行编码中也是容许的,由此可用较少数量比特对大量信息进行编码,这表明编码效率高。Arithmetic编码是无损耗编码的替代形式,它要求每个符号至少一个比特,它的编码效率比算术编码(arithmetic coding)低得多。
符号值编码或早于或迟于量化样本的绝对值。首先对符号值编码可能导致首先对较少(重要性)信息编码。在本实施例中,符号值的编码较后。理由如下。即,从MSB到LSB的顺序来看,如果只对在1首先到来以前出现的比特编码,量化样本被认为是零,它的符号值没有意义。例如,假设量化样本是5位二进制数字00011,在5位之中只有3个最高有效比特被编码,当解码进行的时候,它们被重构为00000。因此,在这种情况下,即使量化样本具有一个符号值,符号值信息也是无意义的。不过,如果4个最高有效比特被编码,量化样本被认为是00010,并重构为00010。在这种情况下,符号值就具有重要的意义。因此,当在1(而不是0)首先到来的情况下对MSB形成的量化样本进行编码时,有关对应量化样本是正值还是负值的信息,即符号值先于对其它值的编码而首先被编码。MSB构成的向量1010首先被编码,然后确定符号值的编码是否需要。从作为4个量化样本的MSB组的1010,可以确定在第一和第三量化样本中是1而不是0首先被编码。因此,第一和第三量化样本的符号值被编码。接着,次有效比特组被编码。用同一方式,1首先到来的量化样本的符号值被编码。用同一方式,进行编码直到LSB。
这样形成的比特流的解码是以编码的相反顺序进行的。形成比特流的帧的首部被解码,然后,基层的附加信息被解码。更具体地,基层的附加信息,即编码模型信息和定标因子信息被解码。根据所得到的编码模型信息和定标因子信息,编码的量化样本从MSB到LSB和从低频到高频依次被解码。
现在通过举例详细解释。
0100
0000
0000
0001
在上述比特平面中,0出现的概率大于1出现的概率,编码能以较小的比特数进行。在作为无损编码的可选方案的Arithmetic编码的情况下,为了对0进行编码,至少一个比特是需要的。使用算术编码允许仅通过分配小于1的比特数进行编码,由此实现至少1位编码,即,二进制编码。因此,更精细的分层结构可以形成。
算术编码的编码模型可以根据上级向量和当前编码的向量的在前向量进行选择。下面的例子示出本发明的比特平面的算术编码:
0110
0011
0101
1000
其中比特切片被执行,例如,每4个比特按照从MSB到LSB的顺序相连,获得第一向量0110,第二向量0011,第三向量0101和第4向量1000。在向量被逐位算术编码的时候,第二向量的用于对第三位1进行编码的编码模型是根据最上面的向量,即第一向量0110,和当前正编码的向量的前面的位00选择的。选择编码模型意味着选择要被用作0/1的算术编码信息的0的出现概率。
为了控制比特率,即为了应用可伸缩性,考虑到容许被用于每层的比特数,对应于一帧的比特流被切断,从而仅利用少量的数据就可以解码。例如,在最高比特率是96kbps并且比特流大小是2096比特的情况下,如果仅有对应于48kbps的比特流希望被解码,则仅有比特流的1048比特被使用,从而对应于48kbps的解码音频数据可以被获得。
现在解释根据上述结构的本发明的编码和解码方法。
编码装置读取PCM音频数据,在存储器中存储数据(未显示),并且通过音质建模从存储的PCM音频数据中获得屏蔽门限和附加信息。由于PCM音频数据是时域信号,PCM音频数据被子波变换成频域信号。接着,编码装置根据量化段信息和量化因子信息通过量化子波变换的信号来获得量化样本。如上所述,量化样本被比特切片,以K比特为单位被算术编码并以分层结构封装。这里,K是一个大于或等于1的整数。
图7是解释本发明最佳实施例的编码方法的流程图。
在本实施例中,编码装置根据一个给定的目标比特率和附加信息确定目标层,并产生与每层对应的信息。换言之,作为截止每一层的基础的截止频率,对应于每层的量化段信息和编码信息被获得,并且根据要被编码的数据,每层中容许编码的比特范围被分配到每层。
参考图7,PCM音频数据的子波变换在步骤701中执行。在步骤702,根据子波变换数据所属的编码段的量化步长进行量化。在步骤703,当前层被设定为基层。在步骤704,包括对应于基层的定标因子信息和算术编码模型信息的附加信息被编码。
然后,在步骤705,多个对应于基层的量化样本通过比特切片被映射到比特平面,并以K比特为单位进行算术编码(K≥1),顺序是从msb到lsb和从低频到高频。编码比特数被计数,如果在步骤706,这个数超过当前层的比特范围,则当前层中的编码被停止,并且开始下一层中的编码。如果所计数的比特数超过706步骤中的比特范围,此过程在步骤707经步骤708和709返回到步骤705,以处理下一层。因为基层不具有更低的层,步骤707不执行,但是,如果所计数的比特数不超过步骤706的比特范围,则步骤707执行。通过上述步骤,直到达到目标层的所有层都被编码为止。
图8是解释本发明的最佳实施例的解码方法的流程图。
参考图8,解码装置接收由以分层结构编码的音频数据形成的比特流,并对每一帧中的首部信息进行解码。然后在步骤801中,对包括对应于第一层的定标因子信息和算术编码模型信息的附加信息进行解码。参考算术编码模型信息,在步骤802,量化样本通过以K比特为单位从MSB到LSB对比特流进行算术解码而获得。这里,K是大于或等于1的一个整数。在步骤803,通过参考定标因子信息,所获得的量化样本被反量化。在步骤804,反量化样本被反子波变换。随着每次逐1增加每层的序数,步骤801到804重复执行,直到多达预定目标层的解码完成为止。
图9是解释本发明的另一最佳实施的解码方法的流程图。
参看图9,接收由以分层结构编码的音频数据形成的比特流,根据每帧中的首部信息解码相应于每层的截止频率,通过解码从首部信息识别相应于每层的量化段信息和编码段信息,并且每层的允许使用比特范围被识别。
在步骤901,层索引被设定为基层。在步骤902,有关基层的附加信息被解码,在步骤903,通过从MSB到LSB和从低频到高频以K比特为单位依次把比特流解码到每层中容许的比特范围中而获得量化样本。这里,K是大于或等于1的一个整数。在步骤904,检查一层是否是最后一层。在步骤905,随着层数逐一增加,在各层中重复执行步骤902和903直到预定的目标层达到。可选地,解码装置可事先具有截止频率、量化段信息、编码段信息和比特范围中的至少一个,而不是从所接收的比特流的每一帧中存储的首部信息中获得这些信息。
按照上述的本发明,提供了对音频数据进行可伸缩编码/解码的方法和装置,其复杂性较低,同时提供了精细粒度的可伸缩性(FGS)。换言之,按照本发明,更高质量FGS可以通过使用算术编码而以较少量的数据提供,并且更好的音频质量通过利用子波变换形成类似于人耳传递函数的频率分辨率也能提供,即使在低层中。
Claims (18)
1、一种对音频数据进行可伸缩编码的方法,包括:
对附加信息进行编码,附加信息包含对应于第一层的定标因子信息和编码模型信息;
通过参考编码模型信息按照从MSB到LSB和从低频到高频的顺序以K比特为单位对与第一层对应的多个量化样本进行算术编码,其中K是大于或等于1的一个整数;
通过每次使层的序数加1重复执行各步骤,直到多层的编码被完成,
在对附加信息进行编码以前,获得多层的每一层中可用的比特范围,其中在所获得的多个量化样本的算术编码中,编码比特数被计数,如果所计数的比特数超过对应于这些比特的比特范围,编码就停止,如果即使在量化样本全部被编码以后所计数的比特数少于对应于这些比特的比特范围,在低层的编码完成后仍未被编码的比特被编码到比特范围容许的范围。
2、一种编码方法,包括:
对音频数据切片,使得切片的音频数据与多个层对应;
获得与多层的每一层对应的定标段信息和编码段信息;
根据对应于第一层的定标段信息和编码段信息对包含定标因子信息和编码模型信息的附加信息进行编码;
通过参考定标因子信息对与第一层对应的音频数据进行量化而获得量化样本;
通过参考编码模型信息,按照从MSB到LSB和从低频到高频的顺序以K比特为单位对所获得的多个量化样本进行算术编码,其中K是大于或等于1的一个整数;和
通过每次使层的序数加1重复执行这些步骤,直到多层的编码被完成,
在对附加信息进行编码以前,获得多层的每一层中可用的比特范围,其中在所获得的多个量化样本的算术编码中,编码比特数被计数,如果所计数的比特数超过对应于这些比特的比特范围,编码就停止,如果即使在量化样本全部被编码以后所计数的比特数少于对应于这些比特的比特范围,在低层的编码完成后仍未被编码的比特被编码到比特范围容许的范围。
3、根据权利要求2的方法,其中在算术编码中,参考编码模型信息,所获得的多个量化样本被算术编码,使得MSB按照从低频到高频的顺序以K比特为单位首先被算术编码,接着次最高有效位按照从低频到高频的顺序以K比特为单位被算术编码,最后LSB以K比特为单位按照从低频到高频的顺序被算术编码。
4、根据权利要求2的方法,其中音频数据的切片包括:
进行音频数据的子波变换;和
通过参考截止频率对子波变换数据进行切片,从而使切片数据与多个层对应。
5、根据权利要求2的方法,其中附加信息的编码包括对定标因子信息和编码模型信息的差分编码。
6、根据权利要求2的方法,其中算术编码包括:
把多个量化样本映射到比特平面上;和
按照从MSB到LSB和从低频到高频的顺序在对应于样本的层中所容许的比特范围内以K比特为单位对样本进行算术编码。
7、一种对以分层结构编码的音频数据进行可伸缩解码的方法,包括:
对包含对应于第一层的定标因子信息和编码模型信息的附加信息进行解码;
通过参考编码模型信息,以K比特为单位按照从MSB到LSB和从低频到高频的顺序对音频数据进行算术解码,并获得量化样本,其中K是一个大于或等于1的整数;
通过参考定标因子信息对所获得的量化样本进行反量化;
将反量化样本进行反变换为时域信号;和
通过每次使层的序数加1,重复执行这些步骤,直到预定的多个层的解码完成,
其中在多个量化样本的算术编码中编码音频数据,编码比特数被计数,如果所计数的比特数超过多层的每一层中可用的比特范围时,编码就停止,如果即使在量化样本全部被编码以后所计数的比特数少于对应于这些比特的比特范围,在低层的编码完成后仍未被编码的比特被编码到比特范围容许的范围。
8、根据权利要求7的方法,其中对附加信息进行的解码包括对定标因子信息和编码模型信息的差分解码。
9、根据权利要求7的方法,其中音频数据的算术解码包括:
按照从MSB到LSB和从低频到高频的顺序对音频数据进行解码;
从解码的比特获得量化样本。
10、根据权利要求9的方法,其中进行音频数据的解码,使得首先MSB以K比特为单位按照从低频到高频的顺序被算术解码,接着次最高有效位以K比特为单位按照从低频到高频的顺序被算术解码,最后LSB以K比特为单位按照从低频到高频的顺序被解码。
11、一种对以分层结构编码的音频数据进行可伸缩解码的装置,包括:
解封单元,它对包含对应于第一层的定标因子信息和编码模型信息的附加信息进行解码,并通过参考编码模型信息,以K比特为单位按照从MSB到LSB和从低频到高频的顺序对音频数据进行解码,并获得量化样本,其中K是一个大于或等于1的整数;
反量化单元,它通过参考定标因子信息对所获得的量化样本进行反量化;和
反变换单元,它将反量化样本执行反变换为时域信号,
其中在多个量化样本的算术编码中编码音频数据,编码比特数被计数,如果所计数的比特数超过多层的每一层中可用的比特范围时,编码就停止,如果即使在量化样本全部被编码以后所计数的比特数少于对应于这些比特的比特范围,在低层的编码完成后仍未被编码的比特被编码到比特范围容许的范围。
12、根据权利要求11的装置,其中解封单元对定标因子信息和编码模型信息进行差分解码。
13、根据权利要求11的装置,其中解封单元以K比特为单位按照从MSB到LSB和从低频到高频的顺序在对应层中所容许的比特范围内对音频数据进行解码,并从在其上安排解码比特的比特平面获得量化样本。
14、根据权利要求13的装置,其中解封单元进行算术解码,使得MSB首先以K比特为单位按照从低频到高频的顺序被算术解码,接着次最高有效位以K比特为单位按照从低频到高频的顺序被算术解码,最后LSB以K比特为单位按照从低频到高频的顺序被算术解码。
15、一种对音频数据进行可伸缩编码的装置,包括:
变换单元,它将音频数据进行变换为频域信号;
量化单元,它通过参考定标因子信息对与每层对应的变换音频数据进行量化,并输出量化样本;和
封装单元,它对包含对应于每层的定标因子信息和编码模型信息的附加信息进行编码,并通过参考编码模型信息,以K比特为单位按照从MSB到LSB和从低频到高频的顺序,对来自量化单元的多个量化样本进行算术编码,其中K是一个大于或等于1的整数,
其中封装单元计数编码比特数,如果所计数的比特数超过多层的每一层中可用的比特范围,就停止编码,如果即使在量化样本全都被编码以后所计数的比特数小于对应于该比特的比特范围,则将低层中编码完成以后仍未被编码的比特编码到该比特范围容许的范围。
16、根据权利要求15的装置,其中封装单元获得对应于多个层的每一层的定标段信息和编码段信息,并根据对应于每层的定标段信息和编码段信息对包含定标因子信息和编码模型信息的附加信息进行编码。
17、根据权利要求15的装置,其中封装单元对定标因子信息和编码模型信息进行差分编码。
18、根据权利要求15的装置,其中封装单元把多个量化样本映射到一个比特平面,并以K比特为单位按照从MSB到LSB和从低频到高频的顺序在与样本对应的层中所容许的比特范围内对样本进行算术编码。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2003-0000050 | 2003-01-02 | ||
KR10-2003-0000050A KR100528327B1 (ko) | 2003-01-02 | 2003-01-02 | 비트율 조절가능한 오디오 부호화 방법, 복호화 방법,부호화 장치 및 복호화 장치 |
KR102003000005O | 2003-01-02 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1527282A CN1527282A (zh) | 2004-09-08 |
CN100555413C true CN100555413C (zh) | 2009-10-28 |
Family
ID=34805966
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB031650376A Expired - Fee Related CN100555413C (zh) | 2003-01-02 | 2003-09-17 | 可伸缩地编解码音频数据的方法和装置 |
Country Status (2)
Country | Link |
---|---|
KR (1) | KR100528327B1 (zh) |
CN (1) | CN100555413C (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100813259B1 (ko) * | 2005-07-13 | 2008-03-13 | 삼성전자주식회사 | 입력신호의 계층적 부호화/복호화 장치 및 방법 |
CN101283402B (zh) * | 2005-10-05 | 2012-05-16 | Lg电子株式会社 | 信号处理的方法和装置以及编码和解码方法及其装置 |
KR100793287B1 (ko) * | 2006-01-26 | 2008-01-10 | 주식회사 코아로직 | 비트율 조절이 가능한 오디오 복호화 장치 및 그 방법 |
KR100827458B1 (ko) * | 2006-07-21 | 2008-05-06 | 엘지전자 주식회사 | 오디오 부호화 방법 |
US8577687B2 (en) * | 2007-07-06 | 2013-11-05 | France Telecom | Hierarchical coding of digital audio signals |
KR100912826B1 (ko) * | 2007-08-16 | 2009-08-18 | 한국전자통신연구원 | G.711 코덱의 음질 향상을 위한 향상 계층 부호화 및복호화 장치와 그 방법 |
MX351750B (es) | 2010-10-25 | 2017-09-29 | Voiceage Corp | Codificación de señales de audio genéricas a baja tasa de bits y a retardo bajo. |
-
2003
- 2003-01-02 KR KR10-2003-0000050A patent/KR100528327B1/ko not_active IP Right Cessation
- 2003-09-17 CN CNB031650376A patent/CN100555413C/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
KR20040062261A (ko) | 2004-07-07 |
KR100528327B1 (ko) | 2005-11-15 |
CN1527282A (zh) | 2004-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1525436B (zh) | 可伸缩地编解码音频数据的方法和装置 | |
CN1527306B (zh) | 使用带宽扩展技术编码和/或解码数字数据的方法和装置 | |
US6947886B2 (en) | Scalable compression of audio and other signals | |
EP0869622B1 (en) | Scalable audio coding/decoding method and apparatus | |
US20060013405A1 (en) | Multichannel audio data encoding/decoding method and apparatus | |
JP3964860B2 (ja) | ステレオオーディオの符号化方法、ステレオオーディオ符号化装置、ステレオオーディオの復号化方法、ステレオオーディオ復号化装置及びコンピュータで読み取り可能な記録媒体 | |
KR101015497B1 (ko) | 디지털 데이터의 부호화/복호화 방법 및 장치 | |
CN100555413C (zh) | 可伸缩地编解码音频数据的方法和装置 | |
CN1901042B (zh) | 可伸缩地编解码音频数据的方法和装置 | |
CN1273955C (zh) | 采用带宽扩展技术编码和/或解码音频数据的方法和装置 | |
KR100923300B1 (ko) | 대역 확장 기법을 이용한 오디오 데이터의 부호화 방법,그 장치, 복호화 방법 및 그 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20091028 Termination date: 20140917 |
|
EXPY | Termination of patent right or utility model |