CN1532809A - 采用带宽扩展技术编码和/或解码音频数据的方法和装置 - Google Patents

采用带宽扩展技术编码和/或解码音频数据的方法和装置 Download PDF

Info

Publication number
CN1532809A
CN1532809A CNA031650317A CN03165031A CN1532809A CN 1532809 A CN1532809 A CN 1532809A CN A031650317 A CNA031650317 A CN A031650317A CN 03165031 A CN03165031 A CN 03165031A CN 1532809 A CN1532809 A CN 1532809A
Authority
CN
China
Prior art keywords
coding
voice data
bandwidth
basic unit
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA031650317A
Other languages
English (en)
Other versions
CN1290078C (zh
Inventor
金重会
金尚煜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN1532809A publication Critical patent/CN1532809A/zh
Application granted granted Critical
Publication of CN1290078C publication Critical patent/CN1290078C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • G10L19/0216Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation using wavelet decomposition
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

提供一种采用带宽扩展技术编码和解码音频数据的方法和装置。该方法包括:带宽扩展编码音频数据,输出带宽受限的音频数据,和产生带宽扩展信息;把带宽受限的音频数据霍夫曼编码成多层结构,具有基层和至少一个提高层,以便控制比特率;和多路复用霍夫曼编码的带宽受限的音频数据以及带宽扩展信息。

Description

采用带宽扩展技术编码和/ 或解码音频数据的方法和装置
本申请要求于2003年3月22日提交韩国知识产权局的韩国专利申请No.2003-17977的优先权,在此结合参考其全部公开内容。
技术领域
本发明涉及音频数据的编码和解码,尤其涉及一种采用带宽扩展技术进行编码和解码音频数据的方法和装置。
背景技术
随着数字信号处理技术的发展,多数情况下音频信号通常以数字数据被存储成和播放。数字音频存储和/或播放设备采样和量化模拟音频信号,把模拟音频信号变换成脉冲编码调制(PCM)音频数据,也就是数字信号,在信息存储媒体中存储PCM音频数据,存储媒体比如光盘(CD)和数字多功能光盘(DVD)等等,以便用户当他/她期望听PCM音频数据时,能从信息存储媒体中播放数据。相对于使用慢转密纹(LP)唱片或磁带等的模拟音频信号存储和/或再现方法来说,数字音频信号存储和/或再现方法大大地提高了音频质量,并显著减少了由长的存储周期引起的声音劣化。然而,由于大量的数字数据,往往造成了一个存储和传输的问题。
为解决该问题,使用了减少数字音频数据量的各种压缩技术。在由国际标准化组织(IS0)拟定的活动图像专家组(MPEG)音频标准中,或者由Dolby开发的AC-2/AC-3技术中,采用一种使用心理声学模型减少数据量的方法,使得数据量能被有效地减少而不管信号的特性。换句话说,MPEG音频标准和AC-2/AC-3技术提供几乎与CD相同的音频质量,只采用64~384Kbps的比特率,也就是,现有数字编码方法比特率的1/6-1/8。
然而,所有这些技术遵循一种在固定的比特率上以最佳状态检测,量化,和编码数字数据的方法。因此,当数字数据经一个网络被发送,由于差的网络条件会减少传输带宽。此外,网络也可能被断开,使得该网络服务不可用。此外,当数字信号被变换成较小的位流以适用于具有有限存储容量的移动装置时,应该执行再编码处理以减少数据量,为此,需要相当大计算量。
为此,本申请人1997年11月19日向韩国知识产权局提交了韩国专利申请No.97-61298“使用位片算法编码(BSAC)技术能够控制比特率的音频编码和/或解码的方法和装置”,并于在2002年4月17日授权,韩国专利登记号No.261253。根据BSAC技术,已经以高比特率编码的位流可以转换为具有低比特率的位流。由于只用位流的部分能实现重构,即使网络过载,解码器的性能很差,或用户要求低比特率,适中的音频质量的服务能提供给用户,只使用位流的部分(尽管随着比特率的下降解码器的性能会同等恶化)。然而,在降低的比特率上,解码器的性能不可避免的会下降。
此外,由于BSAC技术采用算法编码,BSAC技术是复杂的。因此,当BSAC技术实际用于音频数据编码和解码装置时,由于复杂性增加而成本增加。而且,BSAC技术利用修改的离散余弦变换(MDCT)来变换音频信号,从低层产生的音频质量会严重劣化。
发明内容
本发明提供了一种音频数据编码和/或解码的方法和装置,能够控制音频数据的比特率,以便即使仅使用位流的一部分进行恢复,也能再现高质量的声音。
此外,本发明提供了一种音频数据编码和解码的方法和装置,能够控制比特率,通过它能减少编码和解码的复杂性。
本发明还提供了一种音频数据编码和解码的方法和装置,能够控制比特率,使得从低层可以产生高质量声音。
按照本发明的一个方面,提供了一种编码音频数据的方法。该方法包括:带宽扩展编码音频数据,输出带宽受限的的音频数据,和产生带宽扩展信息;把带宽受限的音频数据霍夫曼编码成多层结构,具有基层和至少一个提高层,以便控制比特率;和多路复用霍夫曼编码的带宽受限的音频数据以及带宽扩展信息。
霍夫曼编码包括:差分编码相应于基层的辅助信息;位片式编码相应于基层的多个量化样本;和对下一个提高层重复差分编码和位片式编码,直到多个预定的层编码完成。
霍夫曼编码包括:差分编码包含对应于基层的比例因子信息和编码模型信息的辅助信息;参考编码模型信息,位片式编码对应于基层的多个量化样本;和对下一个提高层重复差分编码和位片式编码,直到多个预定的层编码完成。
最好是通过伪子波变换音频数据获得量化样本。
以这样的顺序多路复用编码的带宽受限的音频数据和带宽扩展信息,即相应于基层的编码的带宽受限的音频数据的一部分被定位,带宽扩展信息被定位,和对应于剩余的提高层的编码的带宽受限的音频数据的各部分被定位。
可替换的,编码的带宽受限的音频数据和带宽扩展信息可以以这样的顺序被多路复用,即带宽扩展信息被定位,对应于基层的编码的带宽受限的音频数据的一部分被定位,和对应于剩余的提高层的编码的带宽受限的音频数据的各部分被定位。
按照本发明的另一个方面,提供了一种音频数据解码的方法。该方法包括:去复用输入的音频位流和采样带宽受限的音频数据以及带宽扩展信息,所述音频数据被编码成分层结构,具有基层和至少一个提高层;霍夫曼解码对应于基层的带宽受限的音频数据的至少一部分;和在没有被带宽受限的音频数据的解码部分所覆盖的至少一部分频段中产生音频数据,这基于带宽受限的音频数据的解码部分和参考带宽扩展信息,然后补入产生的音频数据到带宽受限的音频数据的解码部分。
产生在部分频段中的音频数据以便到达带宽受限的音频数据的解码部分的边界。产生部分频段中的音频数据以便到达用于伪子波变换的滤波器组的边界。如果音频数据没有到达用于伪子波变换的滤波器组的边界,带宽受限的音频数据的解码部分和产生的音频数据的重叠部分被内插。
以这样的顺序去复用输入的音频位流,即对应于基层的数据从输入的音频位流中被采样,带宽扩展信息从输入的音频位流中被采样,和对应于剩余提高层的数据从输入的音频位流中被采样。
可替换的,以这样的顺序去复用输入的音频位流,即带宽扩展信息从输入的音频位流中被采样,对应于基层的数据从输入的音频位流中被采样,和对应于剩余层的数据从输入的音频位流中被采样。
霍夫曼解码包括:差分解码对应于基层的辅助信息;位片式解码对应于基层的多个量化样本;和对下一个提高层重复差分解码和位片式解码,直到多个预定的层解码完成。
霍夫曼解码包括:差分解码包含对应于基层的比例因子信息和编码模型信息的辅助信息;参考编码模型信息,位片式解码对应于基层的多个量化样本;和对下一个提高层重复差分解码和位片式解码,直到多个预定的层解码完成。
按照本发明的另一个方面,提供了一种编码音频数据的装置。该装置包括:带宽扩展编码音频数据的带宽扩展编码器,输出带宽受限的音频数据,产生带宽扩展信息;细粒度可伸缩性编码器,霍夫曼编码带宽受限的音频数据为分层结构,具有基层和至少一个提高层,以便控制比特率;和多路复用器,多路复用编码的带宽受限的音频数据和带宽扩展信息。
细粒度可伸缩性编码器差分编码对应于基层的辅助信息,位片式编码对应于基层的多个量化样本,和位片式编码辅助信息和对应于下一个提高层的多个量化样本,直到多个预定的层编码完成。
细粒度可伸缩性编码器差分编码包含对应于基层的比例因子信息和编码模型信息的辅助信息,参考编码模型信息,位片式编码对应于基层的多个量化样本,编码包含对应于下一个提高层的比例因子信息和编码模型信息的辅助信息,直到多个预定的层被编码完成,和位片式编码对应于下一个提高层的多个量化样本。
细粒度可伸缩性编码器通过伪子波变换音频数据而获得量化样本。
多路复用器以这样的顺序多路复用编码的带宽受限的音频数据和带宽扩展信息,即对应于基层的编码的带宽受限的音频数据的一部分被定位,带宽扩展信息被定位,和对应于剩余提高层的编码的带宽受限的音频数据的各部分被定位。
按照本发明的另一个方面,提供了一种用于解码音频数据的装置。该装置包括:去复用器,去复用输入的音频位流和采样带宽受限的音频数据以及带宽扩展信息,所述音频数据被编码成分层结构,具有基层和至少一个提高层;细粒度可伸缩性霍夫曼解码器,解码对应于基层的至少一部分的带宽受限的音频数据;和带宽扩展解码器,在没有被带宽受限的音频数据的解码部分所覆盖的至少部分频段中产生音频数据,这基于带宽受限的音频数据的解码部分和参考带宽扩展信息,和接着补入产生的音频数据到带宽受限的音频数据的解码部分。
细粒度可伸缩性霍夫曼解码器差分解码对应于基层的辅助信息,位片式解码对应于基层的多个量化样本,和解码对应于下一个提高层的辅助信息,直到多个预定层解码完成,和位片式解码对应于下一个提高层的多个量化样本。
去复用器以这样的顺序去复用输入的音频位流,即对应于基层的数据从输入的音频位流中被采样,带宽扩展信息从输入的音频位流中被采样,和对应于剩余提高层的数据从输入的音频位流中被采样。可替换的,去复用器以这样的顺序去复用输入的音频位流,即带宽扩展信息从输入的音频位流中被采样,对应于基层的数据从输入的音频位流中被采样,和对应于剩余层的数据从输入的音频位流中被采样。
附图简述
本发明上述的和其它的特征和优点将通过结合参考附图详细描述优选实施例变得更加清楚,其中:
图1是根据本发明的编码装置的方框图;
图2是图1所示的编码装置的详细方框图;
图3是根据本发明的解码装置的方框图;
图4是图3所示的解码装置的详细方框图;
图5示例了从细粒度可伸缩性(FGS)编码器2输出的位流结构;
图6示例了图5所示的辅助信息的详细结构;
图7示例了从多路复用器3输出的或输入到去复用器7的位流的结构;
图8是一个用于解释按照本发明的编码和解码装置执行的霍夫曼编码和解码方法的图;
图9是一个用于详细解释带宽扩展(BWE)解码器9执行的带宽扩展解码的图;
图10是一个用于解释按照本发明的编码方法的流程图;和
图11是一个用于解释按照本发明的解码方法的流程图。
具体实施方式
此后,将参考附图来详细描述本发明的优选实施例。
图1是按照本发明的编码装置的方框图。参考图1,编码装置接收和编码PCM音频数据并输出PCM音频数据作为音频位流,包括带宽扩展(BWE)编码器1,细粒度可伸缩性(FGS)编码器2,和多路复用器3。
BWE编码器1 BWE编码PCM音频数据,输出带宽受限的音频数据,和产生BWE信息。BWE编码是指一种用于接收音频数据,切去高频段中部分音频数据,和产生用于恢复切去的部分音频数据所需的辅助信息的技术。这里,音频数据的剩余部分被称作“带宽受限的音频数据”,辅助信息被称作“BWE信息”。BWE技术的一个例子是由编码技术公司开发的频谱带复制(SBR)技术。SBR技术的详细内容被公开在“Convention Paper 5560”,于2002年5月10-13召开的第112届声频工程学会大会上提出。
FGS编码器2把带宽受限的音频数据编码成分层结构,具有基层和至少一个提高层,以便控制比特率。FGS编码包括用于把数据编码成具有多个层的结构以便控制比特率的技术,即提供FGS。公开在韩国专利申请No.97-61298的BSAC技术是FGS编码的一个例子。然而,在本说明书中,BSAC技术不应该只限制于算术编码。BSAC应该被解释成包括其它的无损耗编码技术,例如位片式编码,它仅用霍夫曼编码代替了算术编码,同时使用了其他的编码技术。
换句话说,FGS编码器2差分编码对应于基层的辅助信息,位片式编码对应于基层的多个量化样本,差分编码对应于下一个提高层的辅助信息直到多个预定层被完全编码,和位片式编码对应于下一个提高层的多个量化样本。这里,辅助信息包含比例因子信息和编码模型信息,和通过变换和量化输入的音频数据获得量化样本。后面将详细解释辅助信息和量化样本。
多路复用器3多路复用由FGS编码器2编码的带宽受限的PCM音频数据和由BWE编码器1产生的BWE信息。
图2是图1所示的编码装置的详细方框图。参考图2,编码装置包括BWE编码器1,FGS编码器2,和多路复用器3。执行图1所示的相同功能的方框由相同的的参考数字所表示,并因而省略重复描述。
特别的是,FGS编码器2包括伪子波变换(PWT)单元21,心理声学单元22,量化单元23,和FGS霍夫曼编码单元24。
PWT单元21接收是时域中音频信号的PCM音频数据和参考由心理声学单元22提供的心理声学模型信息伪子波变换PCM音频数据为频域中的音频信号。能被人感知的音频信号(此后称作感知音频信号)的特性在时域中没有太大差别。相反,频域中感知和未感知音频信号的特性考虑到心理声学模型差别很大。因此,通过分配不同的比特数到每个频段可以提高压缩效率。MDCT产生感知噪声,这是由于在低频段由高频分辨率引起的仅仅轻微的频率失真。相对于MDCT,PWT能提供稳定的声心理声学量,即使是从具有较低频段的低层,这是因为适中的时间/频率分辨率。
心理声学单元22提供有关心理声学模型的信息到PWT单元21,比如冲击检测信息等等,把PWT单元21变换的音频信号打包成成子带音频信号,计算用于每个子带的掩蔽阈值,其中使用子带信号间交互导致的掩蔽效应,和提供掩蔽阈值到量化单元23。掩蔽阈值表示由于音频信号间的交互作用人不能感知的音频信号的最大功率。在本实施例中,心理声学单元22使用双耳掩蔽电平压低(BMLD)计算用于立体声分量的掩蔽阈值等。
量化单元23基于相应比例因子信息标量量化每个子频段音频信号,以便使每个子频段中量化噪声功率小于心理声学单元22所提供的掩蔽阈值,接着输出量化样本,从而一个人能听见子频段音频信号但不会感知其中的噪声。换句话说,量化单元23以此方式量化子频段音频信号,使得表示每个子频段中产生的噪声与心理声学单元22计算的掩蔽阈值的比率的噪声-掩蔽比率(NMR)在全带宽中是0dB或更小。0dB或更小的NMR表示人不能听见量化噪声。
FGS霍夫曼编码单元24把量化样本和属于每层的辅助信息编码成分层结构。辅助信息包含比例段信息,编码段信息,比例因子信息,和对应于每层的编码模型信息。比例段信息和编码段信息可以被打包成构成音频位流的每帧中的标题信息,并发送到解码装置。可替换的,比例段信息和编码段信息可以被编码和打包成对应于每层的辅助信息,并被发送到解码装置。此外,由于比例段信息和编码段信息已经被存储在解码装置中,比例段信息和编码段信息可以不被发送到解码装置。
更为具体的,FGS霍夫曼编码单元24差分编码包含对应于第一层的比例因子信息和编码模型信息的辅助信息,同时参考编码模型信息位片式编码对应于第一层的量化样本。位片式编码表示用于上述BSAC中的编码和顺序无损耗编码最高有效位,下一个有效位,...,和最低有效位。第二层经受与第一层相同的处理。换句话说,多个预定的层一层一层地相继被编码。第一层称作基层和其余的层称作提高层。后面将提供分层结构的详细描述。
当频域被分成多个频段和每个频段被分配一个合适的比例因子时,比例段信息对于适当根据音频信号的频率特性执行量化是必需的,它通知每层与之相应的比例段。作为结果,每个层属于至少一个比例段。每个比例段被分配一个比例因子。当频域被分成多个频段和每个频段被分配一个适当的编码模型时,编码段信息是用于根据音频信号的频率特性适当实现编码所需的信息,它通知每层与之相应的编码段。比例段和编码段通过测试被适当地划分,并接着确定对应于它们的比例因子和编码模型。
多路复用器3以这样的顺序多路复用编码的带宽受限的音频数据和BWE信息,使得对应于基层的编码的量化样本的数据被定位,BWE信息被定位,和对应于其余提高层的编码的量化样本的数据被定位,或使得BWE信息被定位,相应于基层的编码的量化样本的数据被定位,和对应于其余提高层的编码的量化样本的数据被定位。
图3是按照本发明的解码装置的方框图。参考图3,解码装置接收和解码音频位流然后输出音频数据,包括去复用器7,FGS解码器8,和BWE解码器9。
去复用器7去复用输入的音频位流以从其中抽样带宽受限的音频数据和BWE信息,该音频数据已经被编码成分层结构,具有基层和至少一个提高层。这里,带宽受限的音频数据和BWE信息与参考图1所述的相同。FGS解码器8对相应于基层的带宽受限的音频数据的至少一部分解码。其上执行解码的层取决于网络的状态,用户的选择等等。
基于FGS解码器8解码的部分的带宽受限的音频数据和参考去复用器7所抽样的BWE信息,BWE解码器9产生在FGS解码器8解码的带宽受限的音频数据没有覆盖的至少部分频段中的音频数据,并把产生的音频数据插入到FGS解码器8解码的带宽受限的音频数据。
由于本发明采用PWT,BWE解码器9经受下列处理。当采用PWT执行解码时,通过在带宽受限的音频数据的确定过程中确定频域中的最后的节点选择截止频率。不同于MDCT,PWT不能按照确定的最后节点精密地限制带宽,因为在高频部分中频率分辨率是低的。在解码过程中,BWE解码器9把FGS解码器8产生的核心部分安排在频域,确认核心部分的频率带宽,和修改并解码BWE部分以适于该频率带宽。
例如,让我们假设当只有以比特率64kbps编码的位流的16层中的8层被重构,相应于第八层的频率是8.5kHz。在此情况下,BWE解码器9必须在频率范围8.5kHz-15kHz或更大范围内重构数据。BWE解码器9能在正交镜像滤波的信道带宽基础上调整频率带宽,因为正交镜像滤波器(QMF)的特性。当QMF的第n个频率带宽是8.3kHz时,频率带宽范围8.3-8.5kHz内的频率分量被包含在核心部分和BWE部分中。因此,核心部分和BWE部分必须被适当的处理。
处理核心部分和BWE部分的第一种方法是从核心部分中去除频率带宽范围8.3-8.5kHz内的频率分量。在该方法中,FGS解码器8考虑BWE部分的带宽信息执行解码。第二种方法是使用用于BWE解码器9中的QMF过滤核心部分的数据,通过插值生成QMF数据,和逆向的正交镜像滤波QMF数据以便重构核心部分的数据。
如上所述,即使FGS解码器8解码的音频数据只是基带音频数据,BWE解码器9生成遗漏频段音频数据和把遗漏频段音频数据补入到基带音频数据。作为结果,解码的音频数据的质量能被提高。
图4是图3所示的解码装置的详细方框图。参考图4,解码装置包括去复用器7,FGS解码器8,和BWE解码器9。完成与图3所示的相同的功能的方框被相同的参考数字所表示,并因此省略重复描述。
特别的,FGS解码器8执行解码直到目标层,目标层根据网络的状态、解码装置的性能、用户的选择等等确定,以便控制比特率。FGS解码器8包括FGS霍夫曼解码单元81,去量化单元82,和PWT反向变换单元83。FGS霍夫曼解码单元81执行解码直到音频位流的目标层。更具体的,FGS霍夫曼解码单元81霍夫曼解码相应于每层的编码量化样本,这基于通过解码辅助信息而获得的编码模型信息,该辅助信息包含对应于每层的比例因子信息和编码模型信息,以便获得量化样本。后面将详细描述获得量化样本的处理。
从音频位流的标题信息可以获得比例段信息和编码段信息或可以通过解码每层的辅助信息而获得。可替换的,解码装置可以提前存储比例段信息和编码段信息。
去量化单元82去量化和重构每层的量化样本,这基于对应于每层的比例因子信息。PWT反向变换单元83频率/时间映射重构的采样,反向伪子波变换映射的采样为时域PCM音频数据,和输出时域PCM音频数据。
BWE解码器9包括变换单元91,高频产生单元92,调整单元93,和合成单元94。变换单元91把从PWT反向变换单元83输出的时域PCM音频数据变换成频域数据。频域数据被称作低频部分。高频产生单元92生成频域数据没有覆盖的一个部分,也就是,通过参考BWE信息复制低频部分和接着把复制的低频部分插入到频域数据即原始的低频部分而生成的高频部分。调整单元93使用包含在BWE信息中的封装信息调整通过高频产生单元92产生的高频部分的电平。该封装信息,从编码节点被发送,表示对应于高频部分的音频数据的封装信息,在BWE编码过程中通过编码节点切片所述音频数据。合成单元94合成从变换单元91输出的低频部分和从调整单元93输出的高频部分,并接着输出PCM音频数据。
如上所述,尽管FGS解码器8只解码基带音频数据,BWE解码器9重构遗漏频段音频数据和接着补入遗漏频段音频数据到基带音频数据。作为结果,基带音频数据的质量能被提高。
图5示例了从FGS编码器2输出的位流的结构。参考图5,FGS编码器2通过把量化样本和辅助信息映射成用于细粒度可伸缩性(FGS)的分层结构编码位流的帧。换句话说,帧具有分层结构,其中低层的位流被包括在提高层的位流中。每层所需的辅助信息在逐层基础上被编码。
存储标题信息的标题区域被定位在位流的开始部分中,第零层的信息被打包,和作为提高层的第一到第N层的信息被顺序打包。基层范围从标题区域到第零层的信息,第一层范围从标题区域到第一层的信息,和第二层范围从标题区域到第二层的信息。以相同的方式,最高层范围从标题区域到第N层的信息,也就是,从基层到第N层。辅助信息和编码的数据被存储成每层的信息。例如,辅助信息2和编码的量化样本被存储成第二层的信息。这里,N是大于或等于“1”的一个整数。
图6示例了图5所示的辅助信息的详细结构。参考图6,辅助信息和编码的量化样本被存储成任意层的信息。在本实施例中,如果量化样本被霍夫曼编码,辅助信息包含霍夫曼编码模型信息,量化因子信息,通道辅助信息,和其他的辅助信息。霍夫曼编码模型信息是指霍夫曼编码模型的索引信息,该模型要被用于编码或解码包含在相应层中的量化样本。量化因子信息通知相应层量化步幅的大小,该步幅适于量化或去量化包含在相应层中的音频数据。通道辅助信息是指有关通道的信息,比如中间/侧边(M/S)立体声。其他的辅助信息是标志信息,表示是否使用了M/S立体声。
图7示例了从多路复用器3输出的或输入到去复用器7的位流的结构。参考图7,第零层,即FGS编码器2编码的基层,被定位在位流的开始部分中,BWE信息被定位在第零层之后,以及提高层,也就是,第一层,第二层,....和第N层,被定位在BWE信息之后。尽管解码节点只接收或解码基层,解码节点能生成遗漏层音频数据,这基于基层的解码的音频数据和参考BWE信息。
图8是一个用于解释按照本发明的编码和解码装置执行的霍夫曼编码和解码方法的参考图。参考图8,所有要被编码的量化样本被分类成三层。用点标记的矩形框表示由量化样本组成的频谱线,用粗线标记的部分表示比例段,和用细线标记的部分表示编码段。第零层包含比例段①、②、③、④和⑤,和编码段①、②、③、④和⑤。第一层包含比例段⑤和⑥,以及编码段⑥、⑦、⑧、⑨和⑩。第二层包含比例段⑥和⑦,和编码段、、、和。第零层是固定的以致于执行编码直到频段 第一层是固定的以致于执行编码直到频段
Figure A0316503100162
和第二层是固定的,以致于执行编码直到频段
Figure A0316503100163
相应于第零层的量化样本在100比特范围内被编码,使用设置在编码段①、②、③、④和⑤中的编码模型。属于第零层的比例段①、②、③、④和⑤以及编码段①、②、③、④和⑤被编码成第零层的辅助信息。比特数被计数,同时在逐个符号的基础上编码第零层的量化样本,如果比特数超过允许的比特范围,即100比特的范围,第零层编码停止,和第一层的编码开始。当第一和第二层的允许的比特范围具有额外的比特部分时,没有被编码的第零层的量化样本被编码。
第一层的量化样本被编码,其中使用第一层的编码段⑥、⑦、⑧、⑨和⑩中的编码段的编码模型,要被编码的量化样本属于第一层。包含在第一层中的比例段⑤和⑥以及编码段⑥、⑦、⑧、⑨和⑩被编码成辅助信息。当第一层的允许的比特范围具有额外比特部分时,即允许的比特范围没有到达100比特范围时,在第一层的所有的量化样本被编码之后,还没有被编码的第零层量化样本被编码,直到允许的比特范围到达100比特范围。计数比特数,同时在逐个符号的基础上编码第一层的量化样本,如果比特数超过允许的比特范围,即100比特范围,第一层的编码停止,并开始编码第二层。
第二层的量化样本被编码,其中使用第二层的编码段、、、和中的编码段的编码模型,要被编码的量化样本属于第二层。第二层的比例段⑥和⑦以及编码段、、、和被编码成它的辅助信息。当第二层的允许的比特范围具有额外比特部分时,即允许的比特范围没有到达100比特范围,在第二层的所有的量化样本被编码之后,还没有被编码的第零层的量化样本被编码,直到第二层的允许的比特范围到达100比特范围。
如果第零层或第一层的所有的量化样本被编码而不管它的允许的比特范围,即,如果第零或第一层的所有量化样本被编码,即使编码的比特数超过允许的比特范围,即100比特范围,下一层即第一或第二层的允许比特范围的一部分可以被使用。同样,属于第一或第二层的量化样本可以不被编码。这样,如果在比特可伸缩解码过程中执行解码仅仅到第一层的话,编码不被完成直到频段作为结果,解码的量化样本上升或降低到频段 之下,导致恶化声心理声学量的鸟效应。
当多个层(目标层)被确定时,考虑待编码的音频数据的幅度,多个层的每个被分配一个允许的比特范围。这样,因为待编码的比特范围太小而多个层不被编码的情况不会出现。
由于根据允许的比特范围解码处理计数比特数,同时执行相反于编码处理的处理过程,当第一层编码开始时的时间点能被检测。
图9是一个用于解释BWE解码器9执行的BWE解码的图。参考图9,条纹部分表示FGS解码器8解码的数据,而点部分表示BWE解码器9产生的数据。当采样频率Fs的四分之一部分内的所有数据属于基层时,图9(a)示例一种情况,其中通过解码节点只解码基带数据,和图9(b),(c)以及(d)示例了一种情况,其中对应于基层和至少一个提高层的数据通过FGS解码器8被解码。换句话说,FGS解码器8能够解码数据以便控制比特率,和BWE解码器9能够生成不被FGS解码器8解码的遗漏的频段数据。
基于上述的结构将描述按照本发明的优选实施例的编码和解码方法。
图10是流程图,用于解释根据本发明的编码方法。参考图10,在步骤1001,编码装置BWE编码音频数据,输出带宽受限的音频数据,和产生相应于基层的BWE信息。基层的BWE信息是使用解码节点基于属于基层的音频数据产生遗漏频段音频数据所需的,它包括封装信息。编码装置把带宽受限的音频数据编码成分层结构,具有基层和至少一个提高层以便控制比特率。更为具体的,在步骤1002,编码装置在逐层的基础上伪子波变换带宽受限的音频数据,在步骤1003,量化带宽受限的音频数据,和在步骤1004,霍夫曼编码带宽受限的音频数据并把带宽受限的音频数据打包成分层结构以便控制比特率。在步骤1005,编码装置多路复用带宽受限的音频数据和BWE信息,并接着输出音频位流。更为具体的,编码装置以这样的顺序多路复用编码的带宽受限的音频数据和BWE信息:对应于基层的编码的带宽受限的音频数据的部分被定位,BWE信息被定位,相应于其余提高层的带宽受限的音频数据的各部分被定位;或者BWE信息被定位,相应于基层的带宽受限的音频数据的部分被定位,和相应于其余提高层的带宽受限的音频数据的各部分被定位。
图11是流程图,用于解释按照本发明的解码方法。参考图11,在步骤1101,解码装置去复用输入的音频位流和采样带宽受限的音频数据,它已经被编码成分层结构,具有基层和至少一个提高层,和采样BWE信息。换句话说,解码装置以这样的顺序去复用输入的音频位流:它采样相应于基层的数据,BWE信息,和来自输入的音频位流的相应于其余提高层的数据;或采样BWE信息,相应于基层的数据,和来自输入的音频位流的相应于其余提高层的数据。接下来,解码装置解码对应于基层的带宽受限的音频数据的至少一部分以便控制比特率。更为具体的,在步骤1102,解码装置执行霍夫曼解码直到目标层,在步骤1103进行去量化,和在步骤1104伪子波反变换,以便获得PCM音频数据。在步骤1105,解码装置生成步骤1104中获得的PCM音频数据没有覆盖的至少部分频段中的PCM音频数据,这基于步骤1104中获得的PCM音频数据和参考BWE信息,并接着把生成的PCM音频数据补入到步骤1104中获得的PCM音频数据。
如上所述,本发明能提供比特可伸缩编码和解码方法和装置,由此通过只恢复部分的位流能提供高质量声音。
此外,编码和解码的方法和装置能提供低的复杂性和产生高质量声音,即使是从低层。比较于MPEG-4音频BSAC,使用霍夫曼编码的本发明的的编码和解码装置在比特打包/拆包过程中可以相当大地减少计算量。即使当执行按照本发明的比特打包来提供FGS时,开销是小的。因此,编码增益方面与没有提供可伸缩性时几乎相同。
而且当经网络发送音频位流时,取决于用户的意愿或网络条件能改变传输比特率。因此,能提供网络服务而不中断。此外,通过调整文件的大小,文件能被存储在具有有限的存储容量的信息存储媒体上。当比特率变低时,频率带宽被限制。这样,作为编解码器最复杂部分的滤波器的复杂性被大大降低。作为结果,与比特率成反比,编解码器装置的实际复杂性降低。
而且,通过使用PWT,按照本发明的编码的时间/频率域分辨率高于现有的基于MDCT的编码。因此,可以从低层产生高质量的声音。
尽管已经参考实施例具体说明和描述了本发明,但对本领域技术人员来说应该明白,在不脱离下面权利要求定义的本发明的精神和范围的情况下,可以作出形式上的和细节上各种改变。

Claims (23)

1、一种编码音频数据的方法,该方法包括:
带宽扩展编码音频数据,输出带宽受限的音频数据,并产生带宽扩展信息;
把带宽受限的音频数据霍夫曼编码成多层结构,该结构具有基层和至少一个提高层,以便控制比特率;和
多路复用霍夫曼编码的带宽受限的音频数据以及带宽扩展信息。
2、如权利要求1的方法,其中霍夫曼编码包括:
差分编码相应于基层的辅助信息;
位片式编码相应于基层的多个量化样本;和
对下一个提高层重复差分编码和位片式编码,直到多个预定的层编码完成。
3、如权利要求1的方法,其中霍夫曼编码包括:
差分编码包含对应于基层的比例因子信息和编码模型信息的辅助信息;
参考编码模型信息,位片式编码对应于基层的多个量化样本;和
对下一个提高层重复差分编码和位片式编码,直到多个预定的层编码完成。
4、如权利要求2或3的方法,其中通过伪子波变换音频数据获得量化样本。
5、如权利要求1的方法,其中以这样的顺序多路复用编码的带宽受限的音频数据和带宽扩展信息,即相应于基层的编码的带宽受限的音频数据的一部分被定位,带宽扩展信息被定位,和对应于剩余的提高层的编码的带宽受限的音频数据的各部分被定位。
6、如权利要求1的方法,其中编码的带宽受限的音频数据和带宽扩展信息以这样的顺序被多路复用,即带宽扩展信息被定位,对应于基层的编码的带宽受限的音频数据的一部分被定位,和对应于剩余的提高层的编码的带宽受限的音频数据的各部分被定位。
7、一种解码音频数据的方法,该方法包括:
去复用输入的音频位流和采样带宽受限的音频数据以及带宽扩展信息,所述带宽受限的音频数据被编码成分层结构,该结构具有基层和至少一个提高层;
霍夫曼解码对应于基层的带宽受限的音频数据的至少一部分;和
基于带宽受限的音频数据的已解码部分和参考带宽扩展信息,产生没有被带宽受限的音频数据的已解码部分所覆盖的至少一部分频段中的音频数据,然后将所产生的音频数据补入带宽受限的音频数据的已解码部分。
8、如权利要求7的方法,其中产生所述部分频段中的音频数据以便到达带宽受限的音频数据的解码部分的边界。
9、如权利要求8的方法,其中产生所述部分频段中的音频数据以便到达用于伪子波变换的滤波器组的边界。
10、如权利要求8的方法,其中如果音频数据没有到达用于伪子波变换的滤波器组的边界,带宽受限的音频数据的解码部分和产生的音频数据的重叠部分被内插。
11、如权利要求7的方法,其中以这样的顺序去复用输入的音频位流,即对应于基层的数据从输入的音频位流中被采样,带宽扩展信息从输入的音频位流中被采样,和对应于剩余提高层的数据从输入的音频位流中被采样。
12、如权利要求7的方法,其中以这样的顺序去复用输入的音频位流,即带宽扩展信息从输入的音频位流中被采样,对应于基层的数据从输入的音频位流中被采样,和对应于剩余层的数据从输入的音频位流中被采样。
13、如权利要求7的方法,其中霍夫曼解码包括:
差分解码对应于基层的辅助信息;
位片式解码对应于基层的多个量化样本;和
对下一个提高层重复差分解码和位片式解码,直到多个预定的层解码完成。
14、如权利要求7的方法,其中霍夫曼解码包括:
差分解码包含对应于基层的比例因子信息和编码模型信息的辅助信息;
参考编码模型信息,位片式解码对应于基层的多个量化样本;和
对下一个提高层重复差分解码和位片式解码,直到多个预定的层解码完成。
15、一种编码音频数据的装置,该装置包括:
带宽扩展编码器,用于带宽扩展编码音频数据,输出带宽受限的音频数据,和产生带宽扩展信息;
细粒度可伸缩性编码器,用于霍夫曼编码带宽受限的音频数据为分层结构,该结构具有基层和至少一个提高层,以便控制比特率;和
多路复用器,用于多路复用编码的带宽受限的音频数据和带宽扩展信息。
16、如权利要求15的装置,其中细粒度可伸缩性编码器差分编码对应于基层的辅助信息,位片式编码对应于基层的多个量化样本,和位片式编码对应于下一个提高层的辅助信息和多个量化样本,直到多个预定的层编码完成。
17、如权利要求15的装置,其中细粒度可伸缩性编码器差分编码包含对应于基层的比例因子信息和编码模型信息的辅助信息,参考编码模型信息来位片式编码对应于基层的多个量化样本,编码包含对应于下一个提高层的比例因子信息和编码模型信息的辅助信息,直到多个预定的层被编码完成,和位片式编码对应于所述下一个提高层的多个量化样本。
18、如权利要求15的装置,其中细粒度可伸缩性编码器通过伪子波变换音频数据而获得量化样本。
19、如权利要求15的装置,其中多路复用器以这样的顺序多路复用编码的带宽受限的音频数据和带宽扩展信息,即对应于基层的编码的带宽受限的音频数据的一部分被定位,带宽扩展信息被定位,和对应于剩余提高层的编码的带宽受限的音频数据的各部分被定位。
20、一种用于解码音频数据的装置,该装置包括:
去复用器,用于去复用输入的音频位流和采样带宽受限的音频数据以及带宽扩展信息,所述带宽受限的音频数据被编码成分层结构,该结构具有基层和至少一个提高层;
细粒度可伸缩性霍夫曼解码器,用于解码对应于基层的至少一部分的带宽受限的音频数据;和
带宽扩展解码器,基于带宽受限的音频数据的已解码部分和参考带宽扩展信息而产生没有被带宽受限的音频数据的已解码部分所覆盖的至少部分频段中的音频数据,然后将所产生的音频数据补入带宽受限的音频数据的已解码部分。
21、如权利要求20的装置,其中细粒度可伸缩性霍夫曼解码器差分解码对应于基层的辅助信息,位片式解码对应于基层的多个量化样本,解码对应于下一个提高层的辅助信息,直到多个预定层解码被完成,和位片式解码对应于所述下一个提高层的多个量化样本。
22、如权利要求20的装置,其中去复用器以这样的顺序去复用输入的音频位流,即对应于基层的数据从输入的音频位流中被采样,带宽扩展信息从输入的音频位流中被采样,和对应于剩余提高层的数据从输入的音频位流中被采样。
23、如权利要求20的装置,其中去复用器以这样的顺序去复用输入的音频位流,即带宽扩展信息从输入的音频位流中被采样,对应于基层的数据从输入的音频位流中被采样,和对应于剩余层的数据从输入的音频位流中被采样。
CNB031650317A 2003-03-22 2003-09-17 采用带宽扩展技术编码和/或解码音频数据的方法和装置 Expired - Fee Related CN1290078C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020030017977A KR100923300B1 (ko) 2003-03-22 2003-03-22 대역 확장 기법을 이용한 오디오 데이터의 부호화 방법,그 장치, 복호화 방법 및 그 장치
KR17977/2003 2003-03-22

Publications (2)

Publication Number Publication Date
CN1532809A true CN1532809A (zh) 2004-09-29
CN1290078C CN1290078C (zh) 2006-12-13

Family

ID=34309372

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB031650317A Expired - Fee Related CN1290078C (zh) 2003-03-22 2003-09-17 采用带宽扩展技术编码和/或解码音频数据的方法和装置

Country Status (2)

Country Link
KR (1) KR100923300B1 (zh)
CN (1) CN1290078C (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8055500B2 (en) 2005-10-12 2011-11-08 Samsung Electronics Co., Ltd. Method, medium, and apparatus encoding/decoding audio data with extension data
CN103165135A (zh) * 2013-03-04 2013-06-19 深圳广晟信源技术有限公司 一种数字音频粗分层编码方法和装置
CN111462767A (zh) * 2020-04-10 2020-07-28 全景声科技南京有限公司 音频信号的增量编码方法及装置
CN112104952A (zh) * 2020-11-19 2020-12-18 首望体验科技文化有限公司 应用于720度球幕全景影院的全景声音频系统
CN112669860A (zh) * 2020-12-29 2021-04-16 北京百瑞互联技术有限公司 一种增加lc3音频编解码有效带宽的方法及装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2947945A1 (fr) * 2009-07-07 2011-01-14 France Telecom Allocation de bits dans un codage/decodage d'amelioration d'un codage/decodage hierarchique de signaux audionumeriques

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5819215A (en) 1995-10-13 1998-10-06 Dobson; Kurt Method and apparatus for wavelet based data compression having adaptive bit rate control for compression of digital audio or other sensory data
KR100261253B1 (ko) * 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 부호화/복호화 방법및 장치
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8055500B2 (en) 2005-10-12 2011-11-08 Samsung Electronics Co., Ltd. Method, medium, and apparatus encoding/decoding audio data with extension data
CN101288117B (zh) * 2005-10-12 2014-07-16 三星电子株式会社 对音频数据和扩展数据进行编码/解码的方法和设备
CN103165135A (zh) * 2013-03-04 2013-06-19 深圳广晟信源技术有限公司 一种数字音频粗分层编码方法和装置
CN103165135B (zh) * 2013-03-04 2015-03-25 深圳广晟信源技术有限公司 一种数字音频粗分层编码方法和装置
CN111462767A (zh) * 2020-04-10 2020-07-28 全景声科技南京有限公司 音频信号的增量编码方法及装置
CN111462767B (zh) * 2020-04-10 2024-01-09 全景声科技南京有限公司 音频信号的增量编码方法及装置
CN112104952A (zh) * 2020-11-19 2020-12-18 首望体验科技文化有限公司 应用于720度球幕全景影院的全景声音频系统
CN112104952B (zh) * 2020-11-19 2021-05-11 首望体验科技文化有限公司 应用于720度球幕全景影院的全景声音频系统
CN112669860A (zh) * 2020-12-29 2021-04-16 北京百瑞互联技术有限公司 一种增加lc3音频编解码有效带宽的方法及装置
CN112669860B (zh) * 2020-12-29 2022-12-09 北京百瑞互联技术有限公司 一种增加lc3音频编解码有效带宽的方法及装置

Also Published As

Publication number Publication date
KR20040086878A (ko) 2004-10-13
KR100923300B1 (ko) 2009-10-23
CN1290078C (zh) 2006-12-13

Similar Documents

Publication Publication Date Title
CN1527306A (zh) 使用带宽扩展技术编码和/或解码数字数据的方法和装置
CN1154087C (zh) 提高低比特率音频编码系统音质的方法、编码器和译码器
CN1110145C (zh) 可变规模语音编码/解码的方法和装置
KR100571824B1 (ko) 부가정보 삽입된 mpeg-4 오디오 bsac부호화/복호화 방법 및 장치
US7774205B2 (en) Coding of sparse digital media spectral data
US20060004566A1 (en) Low-bitrate encoding/decoding method and system
JP2006031012A (ja) マルチチャンネルオーディオデータ符号化方法、マルチチャンネルオーディオデータ復号化方法、マルチチャンネルオーディオデータ符号化装置、マルチチャンネルオーディオデータ復号化装置、マルチチャンネルオーディオデータを符号化するためのプログラムを記録した媒体及びマルチチャンネルオーディオデータを復号化するためのプログラムを記録した記録媒体
CN1878001A (zh) 对音频数据编码及解码的设备及方法
KR100908117B1 (ko) 비트율 조절가능한 오디오 부호화 방법, 복호화 방법,부호화 장치 및 복호화 장치
CN101055720A (zh) 对音频信号编码和解码的方法和设备
CN1262990C (zh) 利用谐波提取的音频编码方法和设备
JPH11186911A (ja) ビット率の調節可能なオーディオ符号化/復号化方法及びその装置及びその方法を記録した記録媒体
CN1252678C (zh) 可缩放的立体声音频编码/解码方法及装置
CN1533036A (zh) 用于编码和/或解码数字数据的方法和装置
CN1290078C (zh) 采用带宽扩展技术编码和/或解码音频数据的方法和装置
WO2009096898A1 (en) Method and device of bitrate distribution/truncation for scalable audio coding
CN1273955C (zh) 采用带宽扩展技术编码和/或解码音频数据的方法和装置
CN1485849A (zh) 数字音频编码器及解码方法
CN1138254C (zh) 一种基于小波变换的音频信号压缩编/解码方法
CN1276406C (zh) 可伸缩地编解码音频数据的方法和装置
Arora et al. Audio Compression in MPEG Technology

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20061213

Termination date: 20140917

EXPY Termination of patent right or utility model