CN1510662A - 可缩放的立体声音频编码/解码方法及装置 - Google Patents
可缩放的立体声音频编码/解码方法及装置 Download PDFInfo
- Publication number
- CN1510662A CN1510662A CNA200310114740XA CN200310114740A CN1510662A CN 1510662 A CN1510662 A CN 1510662A CN A200310114740X A CNA200310114740X A CN A200310114740XA CN 200310114740 A CN200310114740 A CN 200310114740A CN 1510662 A CN1510662 A CN 1510662A
- Authority
- CN
- China
- Prior art keywords
- channel
- sampling
- layer
- information
- decoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000007704 transition Effects 0.000 claims abstract description 42
- 238000005070 sampling Methods 0.000 claims description 65
- 238000011002 quantification Methods 0.000 claims description 33
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 230000002441 reversible effect Effects 0.000 claims description 9
- 230000008859 change Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 2
- 238000005728 strengthening Methods 0.000 claims 2
- 230000001131 transforming effect Effects 0.000 abstract 1
- 239000010410 layer Substances 0.000 description 140
- 230000005236 sound signal Effects 0.000 description 19
- 238000005516 engineering process Methods 0.000 description 10
- 238000007493 shaping process Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000013139 quantization Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 230000033458 reproduction Effects 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 230000008447 perception Effects 0.000 description 3
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000002950 deficient Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 244000287680 Garcinia dulcis Species 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007850 degeneration Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000011229 interlayer Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000001343 mnemonic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012856 packing Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B20/00—Signal processing not specific to the method of recording or reproducing; Circuits therefor
- G11B20/10—Digital recording or reproducing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereophonic System (AREA)
Abstract
提供可缩放立体声音频编码和解码方法和装置。所述可缩放立体声音频编码方法包括:转换第一信道和第二信道音频取样;量化所述经转换的第一信道和第二信道音频取样;以及编码所述量化的第一信道音频取样直到预定的过渡层,然后通过从接续该过渡层的层增加层索引,交错编码所量化的第一和第二信道音频取样,直到完成预定的多个层的编码。
Description
技术领域
本发明涉及音频数据编码和解码,并且尤其涉及一种编码音频数据的方法和装置,以便其编码的立体声音频比特流具有可以缩放的比特率;以及一种解码经编码的立体声音频比特流的方法和装置。
背景技术
随着数字信号处理技术最近的发展,音频信号经常以数字数据形式存储和再现。数字音频存储/再现装置,通过取样和量化模拟音频信号将模拟音频信号转换为被称作脉冲编码调制(PCM)音频数据的数字信号,将所述脉冲编码调制音频数据存储在像CD或者DVD这样的信息存储介质上,并允许使用者在任何时间再现所述数据。与正在使用例如长时间(LP)记录或磁带的模拟存储/再现方法相比,这种数字存储/再现的方法显著地提高了音质以及大大地降低了由于长期存储的音质退化。然而,在由大量数字数据引起的存储和传送不能有效地执行方面,这种数字存储/再现的方法存在缺陷。
为了克服上述问题,已使用多种压缩数字音频信号的方法。由国际标准化组织(ISO)标准化的运动图片专家组(MPEG)/音频和由杜比公司开发的AC-2/AC-3技术,采用了利用人类心理声学模型来降低数据量的方法,这样可以不考虑信号的特性而有效地降低数据量。换句话说,MPEG/音频标准和AC-2/AC-3方法在64-384Kbps比特率提供了几乎与CD音质同样水平的音质,即,传统数字编码方法所用比特率的1/6-1/8。
然而,由于这些方法包括在为固定比特率选择了最佳状态之后执行量化和进行编码,当传输的带宽由于较差的网络状态而降低时,通过网络传输的数据可能被破坏;而且进一步地,可能在此之后不能向用户提供服务。另外,当数据被转换成较小的比特流以适应存储容量有限的移动装置时,则需要重新编码以降低数据量,这样就增加了计算量。
为了克服这个问题,本发明的申请人于1997年11月19日提交了名称为“使用比特-分片算法编码(BSAC)的可缩放的音频编码/解码方法和装置”编号NO.97-61298的韩国专利申请,于2000年4月17日在韩国知识产权局注册,注册号NO.261253。根据BSAC,经高比特率编码的比特流能被转换成比特率较低的比特流,并且只利用部分比特流就可再现数据。结果,甚至在网络过载、解码器处于较低性能状态、或者用户需要低的比特率时,仅使用部分的比特流便能给用户提供一定水平音质的服务,尽管性能可能与降低的比特率成比例地降低。然而,由于BSAC技术利用修正离散余弦变换(MDCT)进行音频信号的转换,低层的音质可能严重失真。
同时,在美国专利NO.6,351,730中公开了一种利用量化来调整比特率的技术。由于这种技术运用了心理声学模型,音质在低层是令人满意的,但在高层由于额外开销(overhead)而被降低了。其他的音频编码/解码技术在美国专利NO.6,182,031、6,370,507和6,029,126中被公开,这些技术应用低取样(down sampling)并在低层中提供满意的音质,但他们存在下述缺陷:在可缩放比特率之间的间隔巨大或者需要大量的计算。结果,他们很难用于细粒度可缩放性技术(fine grain sca1ability,FGS)。
这种可缩放的音频编码设备将绝大多数的音频数据编码成具有44.1或48KHz的取样率以提供CD音质的立体声信号,并采用当层增加时频带扩展的分层结构。用这样的分层结构,可以交替地为左声道和右声道编码立体声信号。在这种情况下,由于立体声信号的音质在低层被降低,那么在编码立体声信号时会比编码单声道信号时感知到更多的噪声。
发明内容
本发明提供一种立体声音频编码和解码的方法和装置,其在提供细粒度可缩放性(FGS)的同时在较低层中提高了音质。
根据本发明的一个方面,提供了一种可缩放的立体声音频编码方法,该方法转换第一和第二信道音频取样;量化转换后的第一和第二信道音频取样;编码经量化的第一信道音频取样直到预定的过渡层,然后通过从接续过渡层的层增加层索引,交错编码所量化的第一和第二信道音频取样,直到完成预定的多个层的编码。
根据本发明的另一个方面,提供了一种可缩放立体声音频编码设备,包括:心理声学单元,提供关于心理声学模型信息;变换单元,在心理声学模型信息的基础上转换第一和第二信道音频取样;量化器,量化转换后的第一和第二信道音频取样;比特打包单元,编码所述经量化的第一信道音频取样直到预定的过渡层,然后通过从接续该过渡层的层增加层索引,交错编码所量化的第一和第二信道音频取样,直到完成预定的多个层的编码。
还是根据本发明的另一个方面,提供了一种可缩放的立体声音频解码的方法,包括:解码第一信道音频取样直到预定的过渡层,然后通过从接续该过渡层的层增加层索引,交错解码第一和第二信道音频取样,直到完成预定的多个层的解码,并获得第一和第二信道的量化取样;将已量化的第一信道和第二信道的取样去量化;以及反向转换第一和第二信道的所述去量化取样,以获得第一和第二信道音频取样。
还是根据本发明的另一个方面,提供了一种可缩放的立体声音频解码设备,包括:比特解包单元,解码第一信道音频取样直到预定的过渡层,然后通过从接续该过渡层的层增加层索引,交错解码第一和第二信道音频取样,直到完成预定的多个层的解码,并获得第一和第二信道的量化取样;去量化器,将所述第一和第二信道的量化取样去量化;以及反向变换器,反向转换所述第一和第二信道的去量化取样,以获得第一和第二信道音频取样。
附图说明
通过结合下列附图对优选实施例的详细描述,本发明上述和其他的特点和优势变得更加明显。
图1是根据本发明实施例的音频编码设备的框图。
图2是根据本发明实施例的音频解码设备的框图。
图3是说明用于本发明的经编码的比特流中帧的层结构的图。
图4A和4B是说明根据本发明在如图1所示音频编码设备中编码立体声信号的顺序和编码结果的图。
图5是根据本发明一个实施例的音频编码方法的流程图。
图6是根据本发明一个实施例的音频解码方法的流程图。
图7A和7B示出了根据本发明其它实施例的音频解码的方法。
具体实施方式
下文将结合相关附图详细描述本发明的优选实施例。
图1是根据本发明一个实施例的音频编码设备的框图。音频编码设备包括:变换器11,心理声学单元12,量化器13,分层编码音频数据以便比特率能够被缩放的比特打包单元14。
如图1所示,变换器11在时间域中接收脉冲编码调制(PCM)音频数据,也就是说,从两个或更多信道获得左右声道的音频取样,并根据由心理声学单元12提供的心理声学模型信息将左声道音频取样和右声道音频取样转换成频率域中的信号。在时间域中人们感知的音频信号的特征差别不是很大。对于通过在频率域中的转化获得的音频信号,可被人们感知的音频信号特征大大区别于那些依据人类心理声学模型在每个频带中不能被感知的音频信号。从而,压缩效率能通过改变分配给每个频带的比特数得到提高。
心理声学单元12提供诸如冲击检测信息(attack detectioninformation)的心理声学信息给变换器11。此外,心理声学单元12将经变换器11转换后的音频信号划分为合适的子频带(sub-band)内的信号,通过使用子频带信号间的相互干扰所产生的屏蔽现象计算每个子频带的屏蔽阈值,并提供经计算后的屏蔽阈值给量化器13。在本项发明的一个实施例中,心理声学单元12使用立体声屏蔽电平下降(binaural masking leveldepression,BMLD)方式计算立体声分量(stereo component)的屏蔽阈值。
量化器13根据相应的比例因子信息分等级地量化每个子频带的音频信号,以使得在每个子频带中的量化噪声的量级都低于心理声学模型单元12所提供的屏蔽阈值,这样人们感知不到量化噪声,并输出量化的取样。换句话说,量化器13使用噪声屏蔽比(Noise-to-Ratio,NMR)进行量化,即,由心理声学模型单元12计算出来的屏蔽阈值与每个子频带中出现的噪声的比率,这样整个频带上的NMR不超过0分贝(dB)。当NMR不超过0分贝时,人们是听不到量化噪声。
比特打包单元14以与所述层相应的比特率,通过合并每层的附加信息和量化信息来编码由量化器13提供的量化取样。在这里,由于层的增加,立体声信号的单声道分量被编码到预定的过渡层(也就是下文中所提及的ENHANCE_CHANNAL(增强信道)),然后立体声信号的立体声分量从ENHANCE_CHANNAL之后的层被分层编码。经编码的比特流被分层打包。附加信息包括:量化频带信息,编码频带信息,比例因数信息,和关于每层的编码模型信息。量化频带信息用于根据音频信号的频率特征适当地量化音频信号。当频率范围被划分为多个频带,并且每个频带都被分配了适当的比例因数时,量化频带信息表示每层相应的量化频带。因此,至少一个量化频带属于每层。每一个量化频带都被分配了一个比例因数。编码频带信息也用于根据音频信号的频率特征适当地量化音频信号,当频率范围被划分为多个频带,并且每个频带都被分配了适当的编码模型时,编码频带信息表示每层相应的编码频带。通过试验适当地限定量化频带和编码频带,并且通过实验,他们的比例因数和编码模型也被适当的加以分配。量化频带信息和编码频带信息可能被作为首标信息打包然后发送给解码设备。可选择地,量化频带信息和编码频带信息也可以被作为每层的附加信息加以编码和打包,然后发送给解码设备。可选择地,由于解码设备预先存储了量化频带信息和编码频带信息,所以量化频带信息和编码频带信息可以不被发送给解码设备。
更为明显地,比特打包单元14编码包括比例因数信息和编码模型信息的附加信息,该附加信息对应于基础层,并在相应于基础层的编码模型信息的基础上,顺序地从最高有效位到最低有效位、并从较低的频率分量向较高频率分量编码音频信号。在基础层的编码完成后,将在基础层上的各层重复上述同样的操作。在立体声信号中,信道1中的单声道分量被编码为预定过渡点,而在过渡点(transition point)之后的立体声分量被在信道1和信道2中交错编码。根据例如在比特分片算法编码(BSAC)中使用的语法的预定语法,经上述操作编码的比特流被打包以具有层结构。这里,过渡点信息可以被表示为层索引(index),比例因数频带,或者是编码频带,并被包括在帧的首标信息里或者包含在每一层的附加信息中。
当比特打包单元使用BSAC时,可以利用表一所示的语法来编码比特流。
表一
Syntax | No.of bits | Mnemonic |
Bsac_spectral_data(start_g,end_g,thr_snf,cur_snf){iflayer_data_available())return;for(snf=maxsn;snf>thr_snf;snf--)for(g=start_g;g<end_g;g++)for(i=start_index[g];i<end_index[g];i++)for(ch=0;ch<nch;ch++){if(cur_snf[ch][g][i]<snf)continue; |
if(layer<ENHANCE_CHANNEL&&ch==1)continue;if(!sample[ch][g][i]‖sign_is_coded[ch][g][i])acod_sliced_bit[ch][g][i];if(sample[ch][g][i]&&!sign_is_coded[ch][g][i]){if(layer_data_available())return;acod_sign[ch][g][i];sign_is_coded[ch][g][i]=1;}cur_snf[ch][g][i]--;if(layer_data_available())return;}} | 0.61 | bslbfbslbf |
虽然没有示出,但是在量化器13之前可以进一步包括瞬时噪声整形(temporal noise shaping unit)单元和/或中间/侧面(M/S)立体声处理器。所述瞬间噪声整形单元用于控制在每个窗(window)内的量化噪声的瞬时整形,并可以通过过滤频率域中的数据实现瞬时噪声整形。所述M/S立体声处理器用于更有效地处理立体声信号。基于心理声学模型信息,M/S立体声处理器分别将中间信号(Mid signal)加上侧面信号(Side signal)和中间信号减去侧面信号分别转换成信道1信号和信道2信号,并且可以确定是否在比例因数频带的各单元中使用这些信道1和信道2信号。
图2是根据本发明实施例的音频解码设备的框图。该音频解码设备包括比特解包单元21,去量化器(dequantizer)22,以及反向变换器23,以通过把比特流解包到目标层来缩放比特率,所述目标层是根据下述条件来确定的:网络状态、音频解码设备的性能和用户选择。
比特解包单元21对比特流解包直到目标层,并实现每一层的解码。换句话说,比特解包单元21对包括相应于每一层的过渡点信息、比例因数信息和编码模型信息的附加信息进行解码,并根据所获得的编码模型信息对每一层的量化取样进行解码。在立体声信号中,单声道分量在信道1中被解码成预定过渡点,而在过渡点之后的立体声分量在信道1和信道2中被交错解码。同时,过渡点信息、量化频带信息和编码频带信息可以从比特流的首标信息中获得,或者通过解码每一层的附加信息获得。可选地,量化频带信息和编码频带信息可以预先存储在音频解码设备中。
去量化器22根据相应于每一层的比例因数信息反向量化每一层的解码量化取样,以还原取样。反向变换器23把还原的取样从频率域转换到时间域,并在时间域输出PCM音频数据。
虽然没有示出,可以在去量化器22之后进一步提供M/S立体声反向处理器和/或瞬时噪声整形单元。该M/S立体声反向处理器实现关于比例因数频带的处理,该比例因数频带已由音频编码设备进行了M/S立体声处理。所述瞬间噪声整形单元用于控制在每个窗内的量化噪声的瞬时整形,并可以执行相应于由音频编码设备的瞬时噪声整形单元执行的处理。
图3是说明根据本发明的比特流中的帧结构的图,其中所述比特流是分层编码的,以便可以缩放比特率。根据图3,比特流中的帧通过分层映射量化取样和附加信息被编码,以提供细粒度可缩放性(fine grain scalability(FGS))。换句话说,低层比特流被包括在高层比特流中。每层所需的附加信息在每层上被编码。
存储首标信息的首标区域被提供在比特流的前部。次于首标区域的,层0的信息被打包,然后层1至层N的信息按顺序被打包。层1至层N被称为增强层。从首标区域到层0信息的范围被称为基础层。从首标区域到层1信息的范围被称为层1,而从首标区域到层2信息的范围被称为层2。同样地,从首标区域到层N信息的范围被称为顶层(top layer)。就是说,顶层包括基础层到增强层N。层信息包括附加信息和编码音频数据。例如,层2信息包括附加信息2和编码量化取样2。
在本发明中,用单个比特流来表示多个层的比特率信息,以便用于每一层比特率的比特流可以根据用户需求或传输线路的状态被简单地重新构造。比如,如果基础层是16kbps,顶层是96kbps,并以8kbps的间隔来配置增强层,比特流由编码设备构造,使得每层(16,24,32,40,48,56,64,72,80,88和96kbps)的信息被存储在顶层的比特流中,即96kbps。如果用户请求顶层的数据,那么比特流不需要被处理就可以被传输。如果其它用户请求基础层的数据,那么只有比特流的前部被抽取出来并传输出去。
图4A和4B说明根据本发明,在如图1所示音频编码设备中编码立体声信号的顺序和编码结果。通常的,随着层索引的增加,信道1和信道2可轮流地被编码。然而,在本发明中,信道1被编码到ENHANCE_CHANNEL,比如,第5层,并且此后,信道1和信道2就从信道1中的第六层开始被交错地编码。换句话说,当用传统方法把信道1和2中的立体声分量编码到第3层时,在同一时期,在本发明中,信道1的单声道分量被编码直到第6层。
在上述结构的基础上,根据本发明实施例的立体声音频编码和解码方法将在下面进行描述。
图5是根据本发明实施例音频编码方法的流程图。所述音频编码方法包括在操作501和502中接收附加信息和量化取样,在操作503中定义ENHANCE_CHANNEL,在操作504到508中编码单声道分量,以及在操作505到512中编码立体声分量。在如图5所示的实施例中,层索引被设置为过渡点,而为了描述的清楚,所述过渡点被称为ENHANCE_CHANNEL。
参照图5,在操作501中,比特打包单元14接收来自量化器13的量化取样和附加信息,并在操作502中获得层信息。换句话说,比如每层的频率带宽、每一层中可以使用的比特数量、以及相应每一层的量化频带和编码频带的层信息,通过使用收到的音频取样的取样率、目标比特率、顶层截止频率、编码频带长度、量化频带单元、以及期望的层数来获得。
在操作503中,定义ENHANCE_CHANNEL信息。ENHANCE_CHANNEL信息表示层的索引,其中在信道1中从单声道分量编码到立体声分量编码进行过渡。比如,当提供16-64kbps比特率并将层间比特率间隔设置为1kbps时,可以产生层0到层47。在这种情况下,所述ENHANCE_CHANNEL信息可以用6或更少的比特来表示。根据音质稳定性和立体声特征中的哪一个将被增强而确定所述ENHANCE_CHANNEL信息的值。换句话说,当ENHANCE_CHANNEL的索引具有大值时,音质稳定性就比低层的立体声特征增强得更多。相反地,当ENHANCE_CHANNEL的索引具有小值时,立体声特征就比较低层的音质稳定性增强得更多。
在操作504中层索引被设置为“0”。在操作505中,相应于层0的附加信息关于立体声信道的信道1被编码。在操作506中,相应于层0的量化取样关于信道1被编码。
在操作507中,当前层索引与ENHANCE_CHANNEL信息进行比较。在当前层索引小于由ENHANCE_CHANNEL信息指示的层索引加1所获得的值时,在操作508,当前层索引增加1,而编码操作返回操作505。同时,在当前层索引等于或大于由ENHANCE_CHANNEL信息指示的层索引加1所获得的值时,编码操作转到操作509。
在操作509中,相应于层0的附加信息关于立体声信道中的信道2被编码。在操作510中,相应于层0的量化取样关于信道2被编码。
在操作511中,确定当前层索引是否是最后的层索引,即,目标层索引。在当前层索引不是最后的层索引时,在操作512中,当前层索引增加1,并且编码操作返回操作505。同时,在当前层索引是最后层索引时,编码操作结束。
图6是根据本发明实施例音频解码方法的流程图。音频解码方法包括在操作601和602接收比特流。在操作603中,获取ENHANCE_CHANNEL信息。在操作604到608中解码单声道分量,并在操作605到612中解码立体声分量。
如图6所示,比特解包单元21在操作601中接收比特流,并在操作602中获得层信息。层信息可以被以与如图5所示的操作502中所使用的相同方式获得。
在操作603中,从比特流的首标区域提取首标信息。并且从所述首标信息中获取ENHANCE_CHANNEL信息。
层索引在操作604中被设置成“0”。相应于层0的附加信息从在立体声信道间关于信道1的比特流中提取,而且在操作605中解码。相应于层0的量化取样从关于信道1的比特流中提取,并在操作606中被解码。
在操作607中比较当前层索引和ENHANCE_CHANNEL信息。在当前层索引小于由ENHANCE_CHANNEL信息指示的层索引加1所获得的值时,在操作608中,当前层索引增加1,而且解码操作返回操作605。同时,在当前层索引等于或大于由ENHANCE_CHANNEL信息指示的层索引加1所获得的值时,解码操作转到操作609。
在操作609中,相应于层0的附加信息从在立体声信道间关于信道2的比特流中提取,并且被解码。在操作610中,相应于层0的量化取样从关于信道2的比特流中提取,并被解码。
在操作611中,确定当前层索引是否是最后的层索引,即,目标层索引。在当前层索引不是最后的层索引时,在操作612中,当前层索引增加1,并且解码操作返回操作605。同时,在当前层索引是最后层索引时,解码操作结束。
图7A和7B说明根据本发明另一实施例的音频解码方法。
如图7A所示,当在某一层,比如信道1中间的第4层,中断解码时,那么尽管立体声信号正在被解码,在信道2中也不会有解码数据。在这种状况下,通过把已经在信道1的第1至第4层被解码的量化取样和附加信息复制到信道2的第1层至第4层来执行解码。
同时,如图7B所示,在完成直到信道1的ENHANCE_CHANNEL的解码之后,而当在信道2的较低层中解码被中断时,经过解码的左右声道的频谱宽度互不相同。为补偿这一点,通过把已经在信道1的第2至第4层被解码的量化取样和附加信息复制到信道2的第2层至第4层来进行解码。
在上述实施例中,典型BSAC技术的单声道音频编码可以被用于单声道分量直到过渡层,而BSAC技术的立体声音频编码可以从过渡层之后的层被用于立体声分量。
本发明可以用代码实现,所述代码记录在计算机可读记录介质中并可以由计算机读取。所述计算机可读记录介质可以是任意类型的介质,该介质可记录能被计算机系统读取的数据,比如,ROM,RAM,CD-ROM,磁带,软盘,或光学数据存储设备。本发明还可以用固件或者载波(比如,经由因特网传输)来实现。可选择地,计算机可读记录介质可以在通过网络连接的计算机系统间分发(distribute),以便可以用存于记录介质并可由计算机读取并执行的代码来实现本发明。本发明所属领域的变成人员可以很容易地推导出用于实施本发明的功能程序、代码和代码段。
根据本发明,当立体声音频信号被编码时,首先信道1的音频信号被编码,直到ENHANCE_CHANNEL,然后对信道1中的音频信号和信道2中的音频信号交错编码,由此在较低层提高音质,同时提供FGS。
在附图和说明书中,本发明的优选实施例已经使用特定术语得到描述,但是可以理解这样的术语仅被用于描述的意义,而且这样的术语不能被解释成作为本发明范围的限定。因此,本领域普通技术人员可以理解,可以对实施例做多种改变而不脱离本发明的精神和范围。因此,本发明的范围将由后附的权利要求作限定。
Claims (22)
1.可缩放立体声音频编码方法,包括:
转换第一信道和第二信道音频取样;
量化所述转换的第一信道和第二信道音频取样;以及
编码所量化的第一信道音频取样直到预定的过渡层,然后通过从接续过渡层的层增加层索引,交错编码所量化的第一和第二信道音频取样,直到完成预定的多个层的编码。
2.如权利要求1所述的可缩放立体声音频编码方法,进一步包括:在量化前,分别将所转换的第一信道和第二信道音频取样的中间信号和侧面信号转换到第一信道和第二信道音频取样。
3.如权利要求1所述的可缩放立体声音频编码方法,其中根据增强音质和立体声特征中的哪一个来确定过渡层。
4.如权利要求1所述的可缩放立体声音频编码方法,其中过渡层信息被表示为从由层索引、比例因数频带、和编码频带构成的组中选择的一个。
5.如权利要求3所述的可缩放立体声音频编码方法,其中过渡层信息被包括在分层比特流的首标信息或附加信息中。
6.一种可缩放立体声音频编码设备,包括:
心理声学单元,提供关于心理声学模型的信息;
变换单元,基于心理声学模型信息转换第一信道和第二信道音频取样;
量化器,量化所转换的第一信道和第二信道音频取样;以及
比特打包单元,编码所述经量化的第一信道音频取样直到预定的过渡层,然后通过从接续该过渡层的层增加层索引,交错编码所量化的第一和第二信道音频取样,直到完成预定的多个层的编码。
7.如权利要求6所述的可缩放立体声音频编码设备,进一步包括:M/S立体声处理器,分别将所转换的第一信道和第二信道音频取样的中间信号和侧面信号转换到第一信道和第二信道音频取样,然后将结果提供给量化器。
8.如权利要求6所述的可缩放立体声音频编码设备,其中根据增强音质和立体声特征中的哪一个来确定过渡层。
9.如权利要求6所述的可缩放立体声音频编码设备,其中过渡层的信息被表示为从包括层索引、比例因数频带、和编码频带的组中选择的一个。
10.如权利要求6所述的可缩放立体声音频编码设备,其中过渡点的信息被包括在分层比特流的首标信息或附加信息中。
11.一种可缩放立体声音频解码方法,包括:
解码第一信道音频取样直到预定的过渡层,然后通过从接续该过渡层的层增加层索引,交错解码第一和第二信道音频取样,直到完成预定的多个层的解码,并获得第一和第二信道的量化取样;
将已量化的第一信道和第二信道的取样去量化;以及
反向转换第一和第二信道的所述去量化的取样,以获得第一和第二信道音频取样。
12.如权利要求11所述的可缩放立体声音频解码方法,其中在交错解码第一和第二信道音频取样中,当从接续该预定过渡层的层中断解码时,将已在第一信道被解码的量化取样复制到第二信道的相应层,从而恢复该量化取样。
13.如权利要求11所述的可缩放立体声音频解码方法,其中在交错解码第一和第二信道音频取样中,当在第二信道中的某一层中断解码时,将已在第一信道的某一层被解码的量化取样复制到第二信道的相应层,从而恢复该量化取样。
14.如权利要求11所述的可缩放立体声音频解码方法,进一步包括:M/S立体声反向处理第一和第二信道的去量化取样。
15.如权利要求11所述的可缩放立体声音频解码方法,其中过渡层的信息被获得作为从包括层索引、比例因数频带、和编码频带的组中选择的一个。
16.如权利要求11所述的可缩放立体声音频解码方法,其中从具有分层结构的比特流的首标信息或附加信息中提取过渡层的信息。
17.一种可缩放立体声音频解码设备,包括:
比特解包单元,解码第一信道音频取样直到预定的过渡层,然后通过从接续该过渡层的层增加层索引,交错解码第一和第二信道音频取样,直到完成预定的多个层的解码,并获得第一和第二信道的量化取样;
去量化器,将所述第一和第二信道的量化取样去量化;以及
反向变换器,反向转换所述第一和第二信道的去量化取样,以获得第一和第二信道音频取样。
18.如权利要求17所述的可缩放立体声音频解码设备,其中当从接续该预定过渡层的层中断解码时,比特解包单元将已在第一信道被解码的量化取样复制到第二信道的相应层,从而恢复该量化取样。
19.如权利要求17所述的可缩放立体声音频解码设备,其中当在第二信道中的某一层中断解码时,比特解包单元将已在第一信道的某一层被解码的量化取样复制到第二信道的相应层,从而恢复该量化取样。
20.如权利要求17所述的可缩放立体声音频解码设备,进一步包括M/S立体声反向处理器,M/S立体声反向处理第一和第二信道的去向量化取样。
21.一种计算机可读记录介质,在其上记录执行如权利要求1所述的可缩放立体声音频编码方法的程序。
22.一种计算机可读记录介质,在其上记录执行如权利要求11所述的可缩放立体声音频解码方法的程序。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2002-0081074A KR100528325B1 (ko) | 2002-12-18 | 2002-12-18 | 비트율 조절이 가능한 스테레오 오디오 부호화 및복호화방법 및 그 장치 |
KR81074/02 | 2002-12-18 | ||
KR81074/2002 | 2002-12-18 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1510662A true CN1510662A (zh) | 2004-07-07 |
CN1252678C CN1252678C (zh) | 2006-04-19 |
Family
ID=36717125
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB200310114740XA Expired - Fee Related CN1252678C (zh) | 2002-12-18 | 2003-12-18 | 可缩放的立体声音频编码/解码方法及装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US7835915B2 (zh) |
JP (1) | JP3964860B2 (zh) |
KR (1) | KR100528325B1 (zh) |
CN (1) | CN1252678C (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101151660B (zh) * | 2005-03-30 | 2011-10-19 | 皇家飞利浦电子股份有限公司 | 多通道音频编码器、解码器以及相应方法 |
CN101406064B (zh) * | 2006-04-03 | 2011-10-26 | 三星电子株式会社 | 量化和反量化输入信号的方法和设备以及对输入信号编码和解码的方法和设备 |
CN102388417A (zh) * | 2009-03-17 | 2012-03-21 | 杜比国际公司 | 基于自适应地可选择的左/右或中央/侧边立体声编码和参数立体声编码的组合的高级立体声编码 |
CN102648495A (zh) * | 2009-10-21 | 2012-08-22 | 杜比Ab国际公司 | 用于利用适应性过取样产生高频音频信号的装置及方法 |
CN102708873B (zh) * | 2007-01-12 | 2015-08-05 | 三星电子株式会社 | 用于带宽扩展编码和解码的方法、设备和介质 |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7536302B2 (en) * | 2004-07-13 | 2009-05-19 | Industrial Technology Research Institute | Method, process and device for coding audio signals |
KR20070061847A (ko) * | 2004-09-30 | 2007-06-14 | 마츠시타 덴끼 산교 가부시키가이샤 | 스케일러블 부호화 장치, 스케일러블 복호 장치 및 이들의방법 |
EP1912206B1 (en) | 2005-08-31 | 2013-01-09 | Panasonic Corporation | Stereo encoding device, stereo decoding device, and stereo encoding method |
CN101288309B (zh) * | 2005-10-12 | 2011-09-21 | 三星电子株式会社 | 处理/发送以及接收/处理比特流的方法和设备 |
WO2007043642A1 (ja) * | 2005-10-14 | 2007-04-19 | Matsushita Electric Industrial Co., Ltd. | スケーラブル符号化装置、スケーラブル復号装置、およびこれらの方法 |
KR100793287B1 (ko) | 2006-01-26 | 2008-01-10 | 주식회사 코아로직 | 비트율 조절이 가능한 오디오 복호화 장치 및 그 방법 |
KR101322392B1 (ko) * | 2006-06-16 | 2013-10-29 | 삼성전자주식회사 | 스케일러블 코덱의 부호화 및 복호화 방법 및 장치 |
WO2009096898A1 (en) * | 2008-01-31 | 2009-08-06 | Agency For Science, Technology And Research | Method and device of bitrate distribution/truncation for scalable audio coding |
EP2707873B1 (en) * | 2011-05-09 | 2015-04-08 | Dolby International AB | Method and encoder for processing a digital stereo audio signal |
US9564136B2 (en) * | 2014-03-06 | 2017-02-07 | Dts, Inc. | Post-encoding bitrate reduction of multiple object audio |
WO2024034389A1 (ja) * | 2022-08-09 | 2024-02-15 | ソニーグループ株式会社 | 信号処理装置、信号処理方法、およびプログラム |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19706516C1 (de) * | 1997-02-19 | 1998-01-15 | Fraunhofer Ges Forschung | Verfahren und Vorricntungen zum Codieren von diskreten Signalen bzw. zum Decodieren von codierten diskreten Signalen |
KR100261253B1 (ko) * | 1997-04-02 | 2000-07-01 | 윤종용 | 비트율 조절이 가능한 오디오 부호화/복호화 방법및 장치 |
KR100251636B1 (ko) | 1997-04-10 | 2000-05-01 | 윤종용 | 소형컴퓨터시스템인터페이스방식접속을위한메모리장치 |
KR100335611B1 (ko) * | 1997-11-20 | 2002-10-09 | 삼성전자 주식회사 | 비트율 조절이 가능한 스테레오 오디오 부호화/복호화 방법 및 장치 |
KR100335609B1 (ko) * | 1997-11-20 | 2002-10-04 | 삼성전자 주식회사 | 비트율조절이가능한오디오부호화/복호화방법및장치 |
AU3372199A (en) * | 1998-03-30 | 1999-10-18 | Voxware, Inc. | Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment |
US6029126A (en) * | 1998-06-30 | 2000-02-22 | Microsoft Corporation | Scalable audio coder and decoder |
US6182031B1 (en) * | 1998-09-15 | 2001-01-30 | Intel Corp. | Scalable audio coding system |
-
2002
- 2002-12-18 KR KR10-2002-0081074A patent/KR100528325B1/ko not_active IP Right Cessation
-
2003
- 2003-12-18 CN CNB200310114740XA patent/CN1252678C/zh not_active Expired - Fee Related
- 2003-12-18 JP JP2003420732A patent/JP3964860B2/ja not_active Expired - Fee Related
- 2003-12-18 US US10/737,957 patent/US7835915B2/en not_active Expired - Fee Related
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101151660B (zh) * | 2005-03-30 | 2011-10-19 | 皇家飞利浦电子股份有限公司 | 多通道音频编码器、解码器以及相应方法 |
CN101406064B (zh) * | 2006-04-03 | 2011-10-26 | 三星电子株式会社 | 量化和反量化输入信号的方法和设备以及对输入信号编码和解码的方法和设备 |
CN102708873B (zh) * | 2007-01-12 | 2015-08-05 | 三星电子株式会社 | 用于带宽扩展编码和解码的方法、设备和介质 |
US11017785B2 (en) | 2009-03-17 | 2021-05-25 | Dolby International Ab | Advanced stereo coding based on a combination of adaptively selectable left/right or mid/side stereo coding and of parametric stereo coding |
US9082395B2 (en) | 2009-03-17 | 2015-07-14 | Dolby International Ab | Advanced stereo coding based on a combination of adaptively selectable left/right or mid/side stereo coding and of parametric stereo coding |
CN102388417B (zh) * | 2009-03-17 | 2015-10-21 | 杜比国际公司 | 基于自适应地可选择的左/右或中央/侧边立体声编码和参数立体声编码的组合的高级立体声编码 |
US9905230B2 (en) | 2009-03-17 | 2018-02-27 | Dolby International Ab | Advanced stereo coding based on a combination of adaptively selectable left/right or mid/side stereo coding and of parametric stereo coding |
US10297259B2 (en) | 2009-03-17 | 2019-05-21 | Dolby International Ab | Advanced stereo coding based on a combination of adaptively selectable left/right or mid/side stereo coding and of parametric stereo coding |
US10796703B2 (en) | 2009-03-17 | 2020-10-06 | Dolby International Ab | Audio encoder with selectable L/R or M/S coding |
CN102388417A (zh) * | 2009-03-17 | 2012-03-21 | 杜比国际公司 | 基于自适应地可选择的左/右或中央/侧边立体声编码和参数立体声编码的组合的高级立体声编码 |
US11133013B2 (en) | 2009-03-17 | 2021-09-28 | Dolby International Ab | Audio encoder with selectable L/R or M/S coding |
US11315576B2 (en) | 2009-03-17 | 2022-04-26 | Dolby International Ab | Selectable linear predictive or transform coding modes with advanced stereo coding |
US11322161B2 (en) | 2009-03-17 | 2022-05-03 | Dolby International Ab | Audio encoder with selectable L/R or M/S coding |
CN102648495B (zh) * | 2009-10-21 | 2014-05-28 | 杜比Ab国际公司 | 用于利用适应性过取样产生高频音频信号的装置及方法 |
CN102648495A (zh) * | 2009-10-21 | 2012-08-22 | 杜比Ab国际公司 | 用于利用适应性过取样产生高频音频信号的装置及方法 |
US9159337B2 (en) | 2009-10-21 | 2015-10-13 | Dolby International Ab | Apparatus and method for generating a high frequency audio signal using adaptive oversampling |
Also Published As
Publication number | Publication date |
---|---|
KR20040054235A (ko) | 2004-06-25 |
CN1252678C (zh) | 2006-04-19 |
US7835915B2 (en) | 2010-11-16 |
JP2004199075A (ja) | 2004-07-15 |
US20040181395A1 (en) | 2004-09-16 |
JP3964860B2 (ja) | 2007-08-22 |
KR100528325B1 (ko) | 2005-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1252678C (zh) | 可缩放的立体声音频编码/解码方法及装置 | |
US7974840B2 (en) | Method and apparatus for encoding/decoding MPEG-4 BSAC audio bitstream having ancillary information | |
CN1151705C (zh) | 多声道低比特率编码解码方法和设备 | |
CN1527306B (zh) | 使用带宽扩展技术编码和/或解码数字数据的方法和装置 | |
CN1756086B (zh) | 多通道音频数据编码/解码方法和设备 | |
CN1110145C (zh) | 可变规模语音编码/解码的方法和装置 | |
CN1702974B (zh) | 用于对数字信号编码/解码的方法和设备 | |
JP5048680B2 (ja) | オーディオ信号の符号化及び復号化方法、オーディオ信号の符号化及び復号化装置 | |
US20060004566A1 (en) | Low-bitrate encoding/decoding method and system | |
CN1961351A (zh) | 可缩放的无损音频编解码器和创作工具 | |
CN1357136A (zh) | 不损失译码器兼容性下低比特率音频编码系统的音质提高 | |
CN1758337A (zh) | 用于低比特率音频编码应用的高效可标度参数立体声编码 | |
CN1262990C (zh) | 利用谐波提取的音频编码方法和设备 | |
CN102365680A (zh) | 音频信号的编码和解码方法及其装置 | |
CN1885724A (zh) | 产生音频信号比特流方法和设备及音频编解码方法和设备 | |
KR101015497B1 (ko) | 디지털 데이터의 부호화/복호화 방법 및 장치 | |
CN1273955C (zh) | 采用带宽扩展技术编码和/或解码音频数据的方法和装置 | |
CN1290078C (zh) | 采用带宽扩展技术编码和/或解码音频数据的方法和装置 | |
US6463405B1 (en) | Audiophile encoding of digital audio data using 2-bit polarity/magnitude indicator and 8-bit scale factor for each subband | |
KR100754389B1 (ko) | 음성 및 오디오 신호 부호화 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20060419 Termination date: 20100118 |