CN1249669C - 使用时间频率相关编码和/或解码数字音频的方法及装置 - Google Patents

使用时间频率相关编码和/或解码数字音频的方法及装置 Download PDF

Info

Publication number
CN1249669C
CN1249669C CNB2003101237162A CN200310123716A CN1249669C CN 1249669 C CN1249669 C CN 1249669C CN B2003101237162 A CNB2003101237162 A CN B2003101237162A CN 200310123716 A CN200310123716 A CN 200310123716A CN 1249669 C CN1249669 C CN 1249669C
Authority
CN
China
Prior art keywords
block
frequency band
adjacent block
information
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2003101237162A
Other languages
English (en)
Other versions
CN1510661A (zh
Inventor
马修·马努
张基锡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Samsung Electronics Co Ltd
Original Assignee
Samsung Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Samsung Electronics Co Ltd filed Critical Samsung Electronics Co Ltd
Publication of CN1510661A publication Critical patent/CN1510661A/zh
Application granted granted Critical
Publication of CN1249669C publication Critical patent/CN1249669C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明提供了一种先进数字音频编码和/或解码方法和装置。所述数字音频编码方法涉及:(a)根据输入音频信号来产生时频带表;(b)根据所产生的时频带表来搜索当前被编码的块的最接近相邻块,并且产生关于被搜索的最接近相邻块信息;(c)产生包含所产生的关于最接近相邻块信息的比特流。

Description

使用时间频率相关编码和/或解码数字音频的方法及装置
本中请要求2002年12月23日提交的韩国专利申请第02-82380号的优先权,其内容以引用方式整体在此被包含。
技术领域
本发明涉及一种数字音频编码和/或解码方法以及执行所述方法的装置,具体而言,本发明涉及用于通过使用音频信号的时频相关来改善现有技术的编码和解码装置的音频编码和/或解码方法及其装置。
背景技术
音频编码器和解码器、即音频编码解码器被广泛地使用,因为它们使得用户能够以较低的比特率通过因特网来发送音乐文件。在音频编码解码器中,用于通过因特网共享音乐文件和在便携音频播放器中播放音乐文件的MP3编码解码器已经变得标准。在因特网上可以获得的MP3音乐文件和共享MP3音乐文件的用户的数量以指数增长。
在音频编码领域中,已经进行了大量的研究和开发,以便实现可以以低比特率压缩音频信号并且同时保持原始的声音质量的音频编码解码器。这些音频编码解码器包括运动图像专家组(MPEG)-1层3、MPEG-2先进音频编码(AAC)、MPEG-4和窗口媒体音频(WMA)。
图1是现有技术的MPEG音频编码装置的方框图。在此,将作为示例来说明MPEG-1层3音频编码器、即MP3音频编码器。
MP3音频编码器包括滤波器组110、快速傅立叶变换(FFT)单元120、音质模型单元130、修改的离散余弦变换(MDCT)单元140和量化和霍夫曼编码单元150。
滤波器组110将输入的时间域音频信号划分为32个频域副带,以便去除音频信号的统计冗余。
FFT单元120将输入的音频信号转换为频域频谱,并且将所述频谱输出到音质模型单元130。
为了使用从FFT单元120输出的频谱去除由人的听觉的特性导致的知觉冗余(perceptual redundancy),音质模型单元130确定对于每个副带的掩蔽门限(masking threshold),它是人不能感知到的噪音水平,即信号对掩蔽的比(SMR)。在音质模型单元130中确定的SMR值被输入到量化和霍夫曼编码单元150。
而且,音质模型单元130通过计算感知能量(perceptual energy)来确定是否切换一个窗口,并且向MDCT单元140输出窗口转换信息。
为了提高频率分辨率,MDCT单元140使用从音质模型单元130输入的窗口切换信息将在滤波器组110中被划分的副带划分为更细的频带。
根据从MDCT单元140输入的SMR值,量化和霍夫曼编码单元150通过执行用于去除感知冗余的比特分配和用于音频信号编码的量化来处理在MDCT变换后从MDCT单元140输入的频域数据。
图1所示的使用音质模型的音频编码方法被公开在美国专利第6,092,041中。因为诸如图1所示的MP3编码器的音频编码解码器以低比特率来执行编码和解码,因此降低了输出音频质量。
发明内容
本发明提供了一种音频编码方法和装置,通过它改善现有技术编码装置的性能以便以较低的比特率来提供较好的声音质量。
本发明也提供了一种音频解码方法和装置,通过它改善现有技术解码装置的性能以便以较低的比特率来提供较好的声音质量。
按照本发明的一个方面,提供了一种数字音频信号编码方法,包括:(a)根据输入音频信号来产生时频带表;(b)根据所产生的时频带表来搜索当前被编码的块的最接近相邻块,并且产生关于所述最接近相邻块的信息;(c)产生包括所产生的关于最接近相邻块的信息的比特流。
按照本发明的另一个方面,提供了一种数字音频信号编码方法,包括:(a)根据输入音频信号来产生时频带表;(b)根据所产生的时频带表来搜索当前被编码的块的最接近相邻块;(c)根据被搜索的最接近相邻块来确定是否当前被编码的块是冗余块;(d)根据在步骤(c)确定的结果来产生输出比特流。
按照本发明的另一个方面,提供了一种数字音频信号编码装置,包括:时频带表产生单元,它根据输入音频信号来产生时频带表;最接近相邻块搜索和最接近相邻块信息产生单元,它根据所产生的时频带表来搜索当前被编码的块的最接近相邻块,并且产生关于所述最接近相邻块的信息;比特流封装单元,它产生包括所产生的关于最接近相邻块的信息的比特流。
按照本发明的另一个方面,提供了一种数字音频信号编码装置,包括:时频带表产生单元,它根据输入音频信号来产生时频带表;最接近相邻块搜索单元,它根据所产生的时频带表来搜索当前被编码的块的最接近相邻块;冗余块判定单元,它根据最接近相邻块来确定是否当前被编码的块是冗余块;比特流产生单元,它根据在在冗余块判定单元中确定的结果来产生输出比特流。
按照本发明的另一个方面,提供了一种解码方法,用于解码包含关于音频信号的预定区域的附加信息的音频信号,包括:(a)从输入的音频比特流解码不包括在预定区域中的块;(b)根据解码的块数据来产生与所述预定区域对应的时频带表;(c)根据关于音频信号的所述预定区域的附加信息、通过使用所产生的时频带表来重建在所述预定区域中包括的当前块。
按照本发明的另一个方面,提供了一种用于解码数字音频信号的解码方法,包括:(a)从输入的音频比特流提取最接近相邻块信息;(b)根据输入的音频比特流来产生时频带表;(c)根据所提取的最接近相邻块信息来确定是否当前被解码的块是冗余块;(d)如果当前被解码的块是冗余块,则根据所提取的最接近相邻块信息、通过使用所产生的时频带表来重建冗余块。
所述方法也可以包括使用重建的冗余块来重建与输入的音频比特流相对应的整个频谱。
按照本发明的一个方面,提供了一种解码装置,用于解码包含关于音频信号的预定区域的附加信息的音频信号,包括:解码单元,它从输入的音频比特流解码不包括在预定区域中的块;后处理单元,它根据解码的块数据来产生与所述预定区域对应的时频带表,并且根据关于音频信号的所述预定区域的附加信息、通过使用所产生的时频带表来重建在所述预定区域中包括的当前块。
按照本发明的另一个方面,提供了一种用于解码数字音频信号的解码装置,包括:最接近相邻块信息提取单元,它从输入的音频比特流提取最接近相邻块信息;时频带表产生单元,它根据输入的音频比特流来产生时频带表;冗余块重建单元,它根据所提取的最接近相邻块信息来确定是否当前被解码的块是冗余块,并且如果当前被解码的块是冗余块,则冗余块重建单元根据所提取的最接近相邻块信息、通过使用所产生的时频带表来重建冗余块。
附图说明
通过参照附图详细说明本发明的示范实施例,本发明的上述目的和优点将会变得更加清楚,其中:
图1是现有技术的MPEG音频编码装置的方框图;
图2是用于说明谱带复制方法的图;
图3是根据本发明的一个示范实施例的编码装置的图表;
图4是示出在本发明中使用的时频带表的图表;
图5是根据本发明的一个示范实施例的由编码方法执行的步骤的流程图;
图6是根据本发明的另一个示范实施例的编码装置的图表;
图7是根据本发明的另一个示范实施例的由编码方法执行的本发明的流程图;
图8是根据本发明的一个示范实施例的解码装置的图表;
图9是根据本发明的一个示范实施例的由解码方法执行的步骤的流程图;
图10是根据本发明的另一个示范实施例的解码装置的图表;
图11是根据本发明的另一个示范实施例的由解码方法执行的步骤的流程图。
具体实施方式
语音编码解码器和视频编码解码器使用在信号采样之间的时间相关以便压缩数据。语音编码解码器使用线性预测系数方法来执行压缩。同时,视频编码解码器使用运动测量来执行时间相关。
一般,使用时间相关来压缩数据不适合于音频编码解码器,因为音频信号的特性是动态的,并且具有较少的时间相关。但是,在频率变换域中,每个副带数据信号与在时间域中的那些相比较实质上是静态的。因此,在频率变换域中使用利用在帧之间的相关的线性预测方法。
例如,为了获得较好的压缩比,MPEG-2 AAC对于每个变换系数执行线性预测。而且,为了去除长期的周期性,MPEG-4 AAC使用与线性预测方法类似的长期预测器。
参见图2,现在说明利用频谱系数的类似性的谱带复制(SBR)方法。
SBR方法通过提高(increasing)在给定比特率的音频带或通过改善在给定的质量水平的编码效率来改善在地比特率的音频和语音编码解码器的性能。
按照图2所示的SBR方法,编码器不编码频谱的高频部分,而仅仅编码低频部分,然后发送信号,然后,当解码信号时,根据低频部分的频谱来重建未发送的高频部分。
例如,在现有技术的编码方法中,使用SBR方法的MP3编码器编码音乐信号的从0到8kHz部分。其中,仅仅编码从0到8kHz部分的MP3文件可以由现有技术解码器来解码。因此,SBR方法与现有技术的MP3兼容。在SBR方法中,为了重建高频部分,即从8kHz到16kHz的部分,使用频谱的谐波结构,并且使用从0到8kHz的解码的信号。
当使用SBR方法时,由使用现有技术感知编码方法的编码解码器以低比特率提供的窄音频带宽可以被扩展,以便可以提供模拟FM音频带宽或更大。而且,SBR方法改善窄带语音编码解码器的性能,并且例如有可能提供具有在多语言广播中使用的12kHz音频带宽的专用语音信道。
虽然在编码器中部分地处理用于指导解码处理的附加编码器信息,但是SBR方法的多数步骤在解码器中执行。
从技术的角度来看,SBR是用于在音频压缩算法中有效地编码高频信号的方法。采用SBR方法的编码装置仅仅发送频谱的低频部分。在SBR解码器中的解码处理中产生被省略的高频部分。取代发送高频部分,采用SBR方法的解码器分析由编码器发送的低频部分的频谱,并且重建高频部分。
为了保证高频部分的精确重建,一些指导信息作为以低数据率编码的比特流被发送。结果,SBR方法使得音频信号的整个频带能够以很低的数据率被编码,并且同时与现有技术的MP3编码器相比较提供了大大改善的压缩效率。
因此,LPC算法使用时间相关,而SBR算法使用信号的频率相关。
根据本发明的算法同时使用音频信号的时间和频率相关性。参见图3-11,现在说明根据本发明的示范实施例。
图3是本发明的一个示范实施例的图表。
参见图3和4,现在说明按照本发明的一个示范实施例的音频编码方法。
根据本发明的的编码装置包括编码单元310、时间帧带复制(TFBR)单元320和比特流封装单元330。
编码单元310执行与现有技术的音频编码器、即图1所示的音频编码器类似的功能。于是,省略对于编码单元310的功能的详细说明。虽然图1所示的音频编码器用于本实施例中,但是也可以使用其它的音频编码器。
TFBR单元320包括时频带表产生单元322和最接近相邻块搜索和最接近相邻块信息产生单元324。
时频带表产生单元322将在编码单元310中MDCT变换的数据信号划分为在每个帧中的N个频率块,以便产生图4所示的时频索引组合、即时频(TF)带表。
虽然在本实施例中MDCT变换被用作时频变换方法,但是也可以使用其它的时频变换方法。
在本实施例中,在编码单元310的MDCT单元将音频信号划分为多个频带之后,每个频带具有多个频谱系数。虽然在本实施例中使用具有相同宽度的频带,但是也可以使用具有不同宽度的频带。
在图4中,i是帧索引,并且j=0,1,2,...,j-1,j,j+1,...,N是帧的频率块索引。在此,i表示其中执行编码的一个当前帧,i-1和i+1分别表示前一个帧和下一个帧。同时,j表示其中执行编码的频带,i=0指示在一个帧中的第一频带,j也表示当前期望被编码的块的频带。而且,j-1指示前一个频带。
例如,图4的B(i,j)指示对应于在第i个帧中的第j个频带的块,并且在每个块B(i,j)中的频谱系数的数量是相同的。
现在更详细地说明图4所示的使用TF带表的TFBR方法。
根据本发明的TFBR方法使用在帧之间的时间相关和在频带之间的频谱类似性。而且,本发明使用这样的事实,即块B(i,j)具有与在先面的块中的一个块的值类似的值。这是基于下面的事实。
1.在一个信号中的高频部分的频谱和低频部分的频谱具有固有的类似性。
2.虽然每个帧的整个频谱是不同的,但是当前帧的频谱的部分与前一个帧的频谱的部分类似。
通过使用下面的方程1,最接近相邻块搜索和最接近相邻块信息产生单元324从在先的块中搜索一个与当前块的区别最少的块。在此,在先的块不仅包括在当前帧中的j个在先的块,而且包括预定数量的在先的帧的块。
D(i,j)={|B(i,j),Ck*B(m,n)|}            (1)
其中,B(m,n)表示第m个帧的第n个块。
在此,如果第m个帧是当前帧,则m=i,并且n=0,1,...,j-1。如果第m个帧是在先的帧,则m=i-1,i-2、i-M+1,并且n=0,1,...,N-1。Ck是一组加权系数,并且k=0,1,...,K-1。
最接近相邻块搜索和最接近相邻块信息产生单元324确定是否当前被编码的块B(i,j)被包括在高频带中。如果当前块B(i,j)被包括在高频带中,即如果j等于或大于预定的频率jTH,则获得最小化在B(i,j)和CkB(m,n)之间的差的m、n和k值。最小化D(i,j)的m、n和k值被分别指定为mmin、nmin和kmin。所确定的mmin、nmin被称为与当前块B(i,j)区别最少的块的索引。
在本实施例中根据是否当前块B(i,j)的频带等于或大于门限频率jTH、即是否在高频带中包括当前块B(i,j)来确定是否搜索最接近相邻块。但是,也可以根据是否在任意的频带和时间域中包括当前块来确定是否搜索最接近相邻块。
在方程1中使用的函数|x,y|是距离函数。在本实施例中,按照下面的方程2,所述函数表示欧几里得距离函数。但是,有可能选择性地使用使用加权的欧几里得距离函数的最近相邻分类方法。
| x , y | = Σ i = 1 n ( x i - y i ) 2 · · · ( 2 )
方程2考虑了n维特征空间,并且示出在两个点x=(x1,x2,x3,...,xn)和y=(y1,y2,y3,...,yn)之间的几何距离。
最接近相邻块搜索和最接近相邻块信息产生单元324使用下面的方程3来在先一个帧的块和当前帧的在先的块中搜索具有最小距离的块。由最接近相邻块信息产生单元324确定的最接近相邻块被称为Bmin(mmin,nmin)。
方程1的D(i,j)是在第i、j个块和最接近第i、j个块的块之间的欧几里得距离,即在B(i,j)和Bmin(mmin,nmin)之间的欧几里得距离。在下面的方程3中展示了在由方程1获得的D(i,j)值中具有最小值的Dmin(i,j)。
Dmin(i,j)=|B(i,j),Ckmin*B(mmin,nmin)|            (3)
比特流封装单元330向解码器输出包含最接近相邻块的索引信息mmin,nmin和kmin的比特流,即TFBR比特流,而非块B(i,j)的频谱信息。在此,仅仅与小于jTH的频带对应的音频信号的一部分被编码,并且被包括在输出的比特流中,并且等于或大于jTH的部分不包括在比特流中。
当在搜索最接近相邻块中不使用比例系数时,仅仅包括索引信息mmin和nmin
在本实施例中,在MPEG比特流中,最接近相邻块索引信息被包括在被称为辅助数据1的字段中。但是所述信息也可以选择性地被包括在除了比特流之外的字段中。
而且,虽然在本实施例中搜索最接近相邻块的目标是在先的块,也有可能选择性地对后面的块搜索最接近相邻块。
图5是根据本发明的一个示范实施例的音频编码方法的流程图。
在步骤510中,音频信号被输入,并且对于输入的时间域音频信号执行在现有技术的音频编码步骤中执行的MDCT。
在步骤520中,在步骤510中进行MDCT的数据信号被划分为在每个帧中的N个频率块,并且产生图4所示的时频索引组合,即时频带表。虽然在本实施例中MDCT变换被用作时频带变换方法,但是也可以选择性地使用其它时频变换方法。
在步骤530中,确定当前块B(i,j)的频率是否等于或大于门限频率jTH。门限频率jTH是用于从高频部分区分低频部分的门限频率值。如果当前块被包括在高频带,则执行步骤540,如果它包括在低频带中,则执行步骤550。
虽然在本实施例中确定当前块B(i,j)是否被包括在高频带中,也可以确定是否所述块被包括在任意的频带和时间域中。
在步骤540中,根据在步骤520中产生的时频带表,在当前块的在先块中搜索最接近当前块B(i,j)的块B(mmin,nmin),并且产生关于最接近相邻块B(mmin,nmin)的最接近相邻块信息。最接近相邻块信息包括B(mmin,nmin)的索引信息mmin,nmin。选择性地,当在搜索最接近的块中使用比例系数时,最接近相邻块信息包括比例系数kmin
在步骤550中,在低频带中包括的当前块被编码。
在步骤560中,一个比特流、即TFBR比特流被产生和输出,所述TFBR比特流包括最接近相邻块信息,即最接近相邻块的索引信息mmin、nmin和kmin,它被产生来取代在步骤540中的高频带数据和在步骤550中编码的当前块数据。
图6是根据本发明的一个示范实施例的音频编码装置的图表。
参见图6和4,现在说明按照本发明的一个示范实施例的音频编码装置。
根据本发明的音频编码装置包括编码单元610、TFBR单元620和比特流封装单元630。
TFBR单元620包括TF带表产生单元622、最接近相邻块搜索单元624和冗余块判定单元626。
因为编码单元610、TF带表产生单元622、最接近相邻块搜索单元624和比特流封装单元630执行与图3中的对应模块的那些相同的功能,因此将省略其详细的说明。
根据在最接近相邻块搜索单元624中发现的最接近相邻块B(mmin,nmin),冗余块判定单元626确定当前块B(i,j)是否是冗余块。
方程1的D(i,j)表示在当前块和最接近当前块的块之间的欧几里得距离,即在B(i,j)和Bmin(mmin,nmin)之间的欧几里得距离。
在下面的方程3中展示了具有由方程1获得的D(i,j)值中的最小值的Dmin(i,j)。
Dmin(i,j)=|B(i,j),Ckmin*B(mmin,nmin)|        (3)
如果Dmin(i,j)小于门限Tj,则冗余块判定单元626确定当前块B(i,j)是冗余块,并且向比特流封装单元630发送在最接近相邻块搜索单元624中确定的最接近相邻块的索引信息mmin,nmin和kmin。在此,门限Ti是在频带j中的门限,并且是实验确定的值。在本实施例中,在MPEG比特流中,在辅助数据1字段中包括最接近相邻块索引信息。但是,所述信息也可以选择性地被包括在除了所述比特流之外的字段中。
比特流封装单元630使用由冗余块判定单元626发送的最接近相邻块索引信息来向解码器输出包含最接近相邻块索引信息mmin、nmin和kmin的比特流、即TFBR比特流,以取代关于当前块B(i,j)的频谱信息。
图7是根据本发明的一个示范实施例的由音频编码方法执行的步骤的流程图。
在步骤710中,对于输入的时间域音频信号执行诸如在现有技术音频编码步骤中执行的MDCT的时频变换。
在步骤720中,在步骤710中被MDCT变换的数据信号被划分为在每个帧中的N个频率块,并且产生图4所示的时频索引组合、即时频带表。虽然在本实施例中MDCT变换被用作时频带变换方法,但是也可以选择性地使用其它的时频变换方法。
在步骤730中,根据在步骤720中产生的TF带表,搜索当前块的在先块,并且确定最接近当前块B(i,j)的块(mmin,nmin)。
在步骤740中,通过比较Dmin(i,j)和门限Tj,确定当前块是否是冗余块,其中,所述Dmin(i,j)是在当前块B(i,j)和最接近相邻块B(mmin,nmin)之间的、由方程3获得的距离。如果Dmin(i,j)小于门限Tj,则执行步骤750。如果Dmin(i,j)大于门限Tj,则执行步骤760。
在步骤750中,确定当前块是否是冗余块,并且产生最接近相邻块信息。而且,包含最接近相邻块的索引信息mmin和nmin的比特流、即TFBR比特流而不是当前块B(i,j)的频谱信息被产生和输出。选择性地,当在搜索最接近相邻块中使用比例系数时,最接近相邻块信息包括比例系数kmin
在步骤760中,确定当前块是正常块,并且其中插入当前块数据的比特流被产生和输出。
图8是根据本发明的一个示范实施例的音频解码装置的图表。
图8所示的音频解码装置800包括比特流去封装单元810和TFBR解码器820。TFBR解码器820包括解码单元822和冗余块重建单元824。
比特流去封装单元810从输入的TFBR比特流提取TFBR参数。被提取的TFBR参数被输入到冗余块重建单元824,并且剩余的数据被输入到解码单元822。
如果当前块B(i,j)是通常(normal)的块,则解码单元822执行通常的音频解码处理。因为形成解码单元822的模块执行与普通解码器的那些相同的功能,因此将省略其详细说明。
根据被解码的通常块数据和从冗余块重建单元824输入的冗余块数据,解码单元822产生如图4所示的TF带表。
利用从比特流去封装单元810输入的TFBR参数,即基于冗余块的最接近相邻块的索引mmin和nmin产生的TF带表,冗余块重建单元824大致地重建冗余块。如果当TFBR编码器单元产生TFBR参数时使用比例系数kmin,则当重建冗余块时根据比例系数kmin来调整最接近相邻块的比例。
如果所述冗余块的最接近相邻块、即期望被引用以便大致地重建所述冗余块的最接近相邻块是一个冗余块,则由最接近相邻块引用的块被用于重建所述冗余块。
在冗余块重建单元824中被大致重建的冗余块数据被输入到解码单元822。
利用从冗余块重建单元824输入的冗余块数据,解码单元822重建整个频谱,并且产生输出音频信号。利用输入的冗余块数据,解码单元822更新TF带表,并且当重建下一个冗余块数据时使用所述表。
图9是根据本发明的一个示范实施例的由解码方法执行的步骤的流程图。
在步骤910,从编码器发送的TFBR比特流被去封装,并且提取TFBR参数。
在步骤920,根据所提取的TFBR参数,确定当前期望被解码的块B(i,j)是否是一个冗余块。在本实施例中,如果与当前块B(i,j)对应的TFBR参数存在,则确定当前块B(i,j)是冗余块。如果确定当前块是冗余块,则执行步骤930,如果当前块不是冗余块,则执行步骤940。
在步骤930,根据TFBR参数,即冗余块的最接近相邻块的索引mmin和nmin,重建冗余块。而且,如果在TFBR参数中包括比例系数kmin,则根据比例系数kmin来调整最接近相邻块的比例。
在步骤940,确定当前块B(i,j)是通常的块并且执行解码。而且,在步骤940,根据在步骤930重建的冗余块数据和解码的块数据,产生图4所示的TF带表。
在步骤950,根据在步骤940解码的通常块数据和在步骤930重建的冗余块数据,重建频谱,并且根据所述频谱来产生输出音频信号。
图10是根据本发明的另一个示范实施例的解码装置的图表。
图10所示的音频解码装置1000包括比特流去封装单元1010、解码单元1020和后处理单元1030。
比特流去封装单元1010接收在图3的比特流封装单元330中产生的TFBR比特流,并且从所述比特流提取TFBR参数。被提取的TFBR参数被输入到后处理单元1030。
解码单元1020解码对应于由诸如MP3编码器的一般音频编码器发送的低频部分的比特流,并且将此发送到后处理单元1030。
根据从解码单元1020输入的解码的低频部分数据,后处理单元1030产生图4所示的TF带表,并且根据从比特流去封装单元1010输入的TFBR参数mmin和nmin,重建与高频部分对应的数据块。在此,如果在TFBR参数中包括比例系数kmin,则根据比例系数kmin来调整比例。
而且,根据重建的高频块数据,更新先前产生的TF带表。当重建下一个高频部分块时使用被更新的TF带表。
结果,因为TFBR参数mmin、nmin和kmin与原始块信息的尺寸相比较具有小得多的尺寸,因此使用很小数量附加比特。于是,在保持现有的发送比特率的同时,可以有效地改善声音质量。
在本实施例中,示出当不发送高频部分数据时,使用TFBR参数来恢复高颅部分数据。然而,本发明也可以被选择性地应用到任意的频带和不发送的桢上。
图11是根据本发明的另一个示范实施例的由解码方法执行的步骤的流程图。
在步骤1110,TFBR比特流被去封装,并且提取TFBR参数。
在步骤1120,输入的低频带块数据被解码,并且产生与低频部分对应的频谱。在本实施例中,假定输入的比特流仅仅包括低频带数据。但是,本发明也可以被选择性地应用于包含任何其它频带的数据的比特流上。
在步骤1130,根据在步骤1120中解码的低频部分数据,产生如图4所示的TF带表,并且根据在步骤1110中提取的TFBR参数mmin和nmin以及在步骤:120中解码的低频块,重建对应于高频部分的数据块。在此,如果在输入的TFBR参数中包括比例系数kmin,则根据比例系数kmin调整所述比例。
在步骤1140,通过使用在步骤1120中解码的低频部分的块和在步骤1130中重建的高频部分的块,重建整个频谱。而且,根据重建的高频部分块数据,更新TF带表。当重建下一个高频部分块时使用被更新的TF带表。
本发明不限于上述的示范实施例,显然本领域内的技术人员可以在本发明的精神和范围内进行改变和修改。具体上,本发明不仅可以被应用于MPEG-1层3,而且可以被应用于所有的音频编码装置和方法,诸如MPEG-2AAC、MPEG-4和WMA上。
本发明可以在计算机可读记录介质上以由计算机可以读取的代码来实现,。所述计算机可读记录介质包括所有种类的存储了计算机可读数据的记录装置。计算机可读记录媒体包括存储媒体,诸如磁存储媒体(例如ROM、软盘、硬盘等)、光可读媒体(例如CD-ROM、DVD等)和载波(例如通过因特网发送)。而且,计算机可读记录媒体可以被散布在通过网络连接的计算机系统上,并且可以以分布的方式来存储和执行计算机可读代码。
通过使用上述的根据本发明的先进编码和解码方法和装置,与现有技术的音频编码解码器相比较,可以降低传输比特率而不降低声音质量,并且可以改善声音质量而不提高传输比特率。

Claims (36)

1.一种数字音频信号编码方法,包括:
(a)根据输入音频信号来产生时频带表;
(b)根据所产生的时频带表来搜索当前被编码的块的最接近相邻块,并且产生关于所述最接近相邻块的信息;
(c)产生包括所产生的关于最接近相邻块的信息的比特流。
2.如权利要求1所述的方法,其中,在步骤(b)当前被编码的块的频率等于或大于门限频率,并且在步骤(c)中产生的比特流包括关于低于门限频率的频带中包括的块的块信息以及在等于或高于门限频率的频带中包括的块的最接近相邻块信息。
3.如权利要求1所述的方法,其中,所述最接近相邻块信息是在时频带表中被搜索的最接近相邻块的索引信息。
4.如权利要求1所述的方法,其中,在步骤(b)中最接近相邻块的搜索范围包括在当前被编码的块之前的块。
5.如权利要求1所述的方法,其中,在步骤(b)中,根据在当前块和目标块之间的欧几里得距离来确定最接近相邻块。
6.如权利要求1所述的方法,其中,最接近相邻块信息包括比例系数信息。
7.一种数字音频信号编码方法,包括:
(a)根据输入音频信号来产生时频带表;
(b)根据所产生的时频带表来搜索当前被编码的块的最接近相邻块;
(c)根据被搜索的最接近相邻块来确定当前被编码的块是否是冗余块;
(d)根据在步骤(c)确定的结果来产生输出比特流。
8.如权利要求7所述的方法,其中,如果在步骤(c)确定当前被编码的块是冗余块,则在步骤(d)中产生的比特流包括关于在步骤(b)中被搜索的最接近相邻块的最接近相邻块信息,而不是当前块信息。
9.如权利要求8所述的方法,其中,最接近相邻块信息是最接近相邻块的索引信息,它在时频带表中被搜索。
10.如权利要求7所述的方法,其中,如果在步骤(c)确定当前被编码的块不是冗余块,则在步骤(d)产生的比特流包括当前块信息。
11.如权利要求7所述的方法,其中,在步骤(b)中最接近相邻块的搜索范围包括在当前被编码的块之前的块。
12.如权利要求7所述的方法,其中,在步骤(b)中,根据在当前块和目标块之间的欧几里得距离来确定最接近相邻块。
13.如权利要求7所述的方法,其中,最接近相邻块信息包括比例系数信息。
14.一种数字音频信号编码装置,包括:
时频带表产生单元,它根据输入音频信号来产生时频带表;
最接近相邻块搜索和最接近相邻块信息产生单元,它根据所产生的时频带表来搜索当前被编码的块的最接近相邻块,并且产生关于所述最接近相邻块的信息;
比特流封装单元,它产生包含所产生的关于最接近相邻块的信息的比特流。
15.如权利要求14所述的装置,其中,当前被编码的块的频率等于或大于门限频率,并且比特流封装单元产生包括关于低于门限频率的频带中包括的块的块信息以及在等于或高于门限频率的频带中包括的块的最接近相邻块信息。
16.如权利要求14所述的装置,其中,最接近相邻块信息是最接近相邻块的索引信息,它在时频带表中被搜索。
17.一种数字音频信号编码装置,包括:
时频带表产生单元,它根据输入音频信号来产生时频带表;
最接近相邻块搜索单元,它根据所产生的时频带表来搜索当前被编码的块的最接近相邻块;
冗余块判定单元,它根据最接近相邻块来确定当前被编码的块是否是冗余块;
比特流产生单元,它根据在冗余块判定单元中确定的结果来产生输出比特流。
18.如权利要求17所述的装置,其中,如果冗余块判定单元确定当前被编码的块是冗余块,则比特流产生单元在输出比特流中包括关于在最接近相邻块搜索单元中被搜索的最接近相邻块的信息,而非当前块信息。
19.如权利要求17所述的装置,其中,如果冗余判定单元确定当前被编码的块不是冗余块,则比特流产生单元在输出比特流中包括当前块信息。
20.如权利要求18所述的装置,其中,最接近相邻块信息是最接近相邻块的索引信息,它在时频带表中被搜索。
21.一种解码方法,用于解码包含关于音频信号的预定区域的附加信息的音频信号,包括:
(a)从输入的音频比特流解码不包括在预定区域中的块;
(b)根据解码的块数据来产生与所述预定区域对应的时频带表;
(c)根据关于音频信号的所述预定区域的附加信息、通过使用所产生的时频带表来重建在所述预定区域中包括的当前块。
22.如权利要求21所述的方法,其中,附加信息包括关于在预定区域中的当前块的最接近相邻块的索引信息。
23.如权利要求21所述的方法,其中,预定区域是高频区域。
24.如权利要求21所述的方法,其中,在步骤(b)产生的时频带表被在步骤(c)中重建的当前块更新。
25.如权利要求21所述的方法,其中,附加信息包括比例系数信息。
26.一种用于解码数字音频信号的解码方法,包括:
(a)从输入的音频比特流提取最接近相邻块信息;
(b)根据输入的音频比特流来产生时频带表;
(c)根据所提取的最接近相邻块信息来确定当前被解码的块是否是冗余块;
(d)如果当前被解码的块是冗余块,则根据所提取的最接近相邻块信息、通过使用所产生的时频带表来重建冗余块。
27.如权利要求26所述的方法,还包括使用重建的冗余块来重建与输入的音频比特流对应的整个频谱。
28.如权利要求27所述的方法,其中,步骤(c)还包括:
根据重建的冗余块来更新时频带表。
29.如权利要求27所述的方法,其中,最接近相邻块信息包括比例系数信息。
30.一种解码装置,用于解码包含关于音频信号的预定区域的附加信息的音频信号,包括:
解码单元,它从输入的音频比特流解码不包括在预定区域中的块;
后处理单元,它根据解码的块数据来产生与所述预定区域对应的时频带表,并且根据关于音频信号的所述预定区域的附加信息、通过使用所产生的时频带表来重建在所述预定区域中包括的当前块。
31.如权利要求30所述的装置,其中,附加信息包括关于在预定区域中当前块的最接近相邻块的索引信息。
32.如权利要求30所述的装置,其中,预定区域是高频区域。
33.如权利要求30所述的装置,其中,所产生的时频带表被重建的当前块更新。
34.一种用于解码数字音频信号的解码装置,包括:
最接近相邻块信息提取单元,它从输入的音频比特流提取最接近相邻块信息;
时频带表产生单元,它根据输入的音频比特流来产生时频带表;
冗余块重建单元,它根据所提取的最接近相邻块信息来确定当前被解码的块是否是冗余块,并且如果当前被解码的块是冗余块,则冗余块重建单元根据所提取的最接近相邻块信息、通过使用所产生的时频带表来重建冗余块。
35.如权利要求34所述的装置,其中,冗余块重建单元使用重建的冗余块来重建与输入的音频比特流对应的整个频谱。
36.如权利要求35所述的装置,其中,时频带表产生单元根据重建冗余块来更新时频带表。
CNB2003101237162A 2002-12-23 2003-12-23 使用时间频率相关编码和/或解码数字音频的方法及装置 Expired - Fee Related CN1249669C (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR82380/2002 2002-12-23
KR10-2002-0082380A KR100524065B1 (ko) 2002-12-23 2002-12-23 시간-주파수 상관성을 이용한 개선된 오디오 부호화및/또는 복호화 방법과 그 장치
KR82380/02 2002-12-23

Publications (2)

Publication Number Publication Date
CN1510661A CN1510661A (zh) 2004-07-07
CN1249669C true CN1249669C (zh) 2006-04-05

Family

ID=36089201

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2003101237162A Expired - Fee Related CN1249669C (zh) 2002-12-23 2003-12-23 使用时间频率相关编码和/或解码数字音频的方法及装置

Country Status (7)

Country Link
US (1) US20040176961A1 (zh)
EP (1) EP1441330B1 (zh)
JP (1) JP3824607B2 (zh)
KR (1) KR100524065B1 (zh)
CN (1) CN1249669C (zh)
AT (1) ATE316679T1 (zh)
DE (1) DE60303346T2 (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100657916B1 (ko) 2004-12-01 2006-12-14 삼성전자주식회사 주파수 대역간의 유사도를 이용한 오디오 신호 처리 장치및 방법
KR100803205B1 (ko) 2005-07-15 2008-02-14 삼성전자주식회사 저비트율 오디오 신호 부호화/복호화 방법 및 장치
CN100424692C (zh) * 2005-08-31 2008-10-08 中国科学院自动化研究所 音频快速搜索方法
US8326638B2 (en) * 2005-11-04 2012-12-04 Nokia Corporation Audio compression
US8260609B2 (en) * 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
FR2911228A1 (fr) * 2007-01-05 2008-07-11 France Telecom Codage par transformee, utilisant des fenetres de ponderation et a faible retard.
KR101261524B1 (ko) * 2007-03-14 2013-05-06 삼성전자주식회사 노이즈를 포함하는 오디오 신호를 저비트율로부호화/복호화하는 방법 및 이를 위한 장치
US20100111181A1 (en) * 2008-11-06 2010-05-06 Mediatek Inc. Video processing apparatus and methods
EP2555191A1 (en) * 2009-03-31 2013-02-06 Huawei Technologies Co., Ltd. Method and device for audio signal denoising
CA2766727C (en) * 2009-06-24 2016-07-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio signal decoder, method for decoding an audio signal and computer program using cascaded audio object processing stages
WO2011000408A1 (en) * 2009-06-30 2011-01-06 Nokia Corporation Audio coding
AU2011226212B2 (en) 2010-03-09 2014-03-27 Dolby International Ab Apparatus and method for processing an input audio signal using cascaded filterbanks
RU2591012C2 (ru) * 2010-03-09 2016-07-10 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство и способ обработки переходных процессов для аудио сигналов с изменением скорости воспроизведения или высоты тона
BR112012022745B1 (pt) 2010-03-09 2020-11-10 Fraunhofer - Gesellschaft Zur Föerderung Der Angewandten Forschung E.V. dispositivo e método para resposta de magnitude aperfeiçoada e alinhamento temporal em um vocoder de fase com base no método de extenção da largura de banda para sinais de áudio
WO2011128399A1 (en) * 2010-04-16 2011-10-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E. V. Apparatus, method and computer program for generating a wideband signal using guided bandwidth extension and blind bandwidth extension
CA2792011C (en) 2010-07-19 2016-04-26 Dolby International Ab Processing of audio signals during high frequency reconstruction
JP6010539B2 (ja) 2011-09-09 2016-10-19 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 符号化装置、復号装置、符号化方法および復号方法
WO2023211443A1 (en) * 2022-04-28 2023-11-02 Innopeak Technology, Inc. Transformer-encoded speech extraction and enhancement

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CH589390A5 (zh) * 1975-08-19 1977-06-30 Patelhold Patentverwertung
US4748579A (en) * 1985-08-14 1988-05-31 Gte Laboratories Incorporated Method and circuit for performing discrete transforms
US5632005A (en) * 1991-01-08 1997-05-20 Ray Milton Dolby Encoder/decoder for multidimensional sound fields
CA2088082C (en) * 1992-02-07 1999-01-19 John Hartung Dynamic bit allocation for three-dimensional subband video coding
DE4209544A1 (de) * 1992-03-24 1993-09-30 Inst Rundfunktechnik Gmbh Verfahren zum Übertragen oder Speichern digitalisierter, mehrkanaliger Tonsignale
US5703999A (en) * 1992-05-25 1997-12-30 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Process for reducing data in the transmission and/or storage of digital signals from several interdependent channels
JP3277679B2 (ja) * 1994-04-15 2002-04-22 ソニー株式会社 高能率符号化方法と高能率符号化装置及び高能率復号化方法と高能率復号化装置
JP3237089B2 (ja) * 1994-07-28 2001-12-10 株式会社日立製作所 音響信号符号化復号方法
US5867819A (en) * 1995-09-29 1999-02-02 Nippon Steel Corporation Audio decoder
EP0798866A2 (en) * 1996-03-27 1997-10-01 Kabushiki Kaisha Toshiba Digital data processing system
TW432806B (en) * 1996-12-09 2001-05-01 Matsushita Electric Ind Co Ltd Audio decoding device
FI114248B (fi) * 1997-03-14 2004-09-15 Nokia Corp Menetelmä ja laite audiokoodaukseen ja audiodekoodaukseen
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
US5960401A (en) * 1997-11-14 1999-09-28 Crystal Semiconductor Corporation Method for exponent processing in an audio decoding system
EP1050113B1 (en) * 1997-12-27 2002-03-13 STMicroelectronics Asia Pacific Pte Ltd. Method and apparatus for estimation of coupling parameters in a transform coder for high quality audio
US6185525B1 (en) * 1998-10-13 2001-02-06 Motorola Method and apparatus for digital signal compression without decoding
JP2001094433A (ja) * 1999-09-17 2001-04-06 Matsushita Electric Ind Co Ltd サブバンド符号化・復号方法

Also Published As

Publication number Publication date
CN1510661A (zh) 2004-07-07
ATE316679T1 (de) 2006-02-15
KR100524065B1 (ko) 2005-10-26
US20040176961A1 (en) 2004-09-09
DE60303346T2 (de) 2006-11-02
JP3824607B2 (ja) 2006-09-20
JP2004206129A (ja) 2004-07-22
EP1441330B1 (en) 2006-01-25
EP1441330A2 (en) 2004-07-28
EP1441330A3 (en) 2005-04-27
DE60303346D1 (de) 2006-04-13
KR20040055916A (ko) 2004-06-30

Similar Documents

Publication Publication Date Title
CN1249669C (zh) 使用时间频率相关编码和/或解码数字音频的方法及装置
CN1154087C (zh) 提高低比特率音频编码系统音质的方法、编码器和译码器
CN101849258B (zh) 用于在可缩放音频编解码器中编码/解码的方法和装置
RU2455709C2 (ru) Способ и устройство для обработки аудиосигнала
CN1144179C (zh) 声音信号解码方法和装置、声音信号编码方法和装置
CN101044554A (zh) 可扩展性编码装置、可扩展性解码装置以及可扩展性编码方法
CN1708787A (zh) 用于使用高级心理声学模型来对数字音频编码的方法及其设备
CN1878001A (zh) 对音频数据编码及解码的设备及方法
CN1926609A (zh) 用于信号分析和合成的自适应混合变换
CN101055720A (zh) 对音频信号编码和解码的方法和设备
CN1681213A (zh) 无损音频编码/解码方法和装置
CN1369092A (zh) 高质量音频的可缩放编码方法
CN1623185A (zh) 可伸缩音频编码的有效改进
CN1571993A (zh) 用于改善高频重建的方法
CN1675683A (zh) 用于可扩缩编码的设备及方法和用于可扩缩解码的设备及方法
CN1795495A (zh) 音频编码设备、音频解码设备、音频编码方法和音频解码方法
CN1465137A (zh) 音频信号解码装置及音频信号编码装置
CA2717584A1 (en) Method and apparatus for processing an audio signal
CN1408146A (zh) 音频信号的参数编码
CN1822508A (zh) 对数字信号进行编码和解码的方法和设备
CN1525436A (zh) 可伸缩地编解码音频数据的方法和装置
CN1677490A (zh) 一种增强音频编解码装置及方法
CN1639769A (zh) 利用谐波提取的音频编码方法和设备
CN1677491A (zh) 一种增强音频编解码装置及方法
CN1266672C (zh) 用较少的计算量重构高频分量的声频解码方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20060405

Termination date: 20141223

EXPY Termination of patent right or utility model