CN1748443A - 多声道音频扩展支持 - Google Patents

多声道音频扩展支持 Download PDF

Info

Publication number
CN1748443A
CN1748443A CNA038260743A CN03826074A CN1748443A CN 1748443 A CN1748443 A CN 1748443A CN A038260743 A CNA038260743 A CN A038260743A CN 03826074 A CN03826074 A CN 03826074A CN 1748443 A CN1748443 A CN 1748443A
Authority
CN
China
Prior art keywords
sound channel
frequency spectrum
mdct
channel signal
frequency band
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA038260743A
Other languages
English (en)
Other versions
CN1748443B (zh
Inventor
J·奥彦佩拉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Inc
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Oyj filed Critical Nokia Oyj
Publication of CN1748443A publication Critical patent/CN1748443A/zh
Application granted granted Critical
Publication of CN1748443B publication Critical patent/CN1748443B/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及一种支持多声道音频扩展的方法和单元。为了获得有效的要求低计算复杂性的扩展,建议在编码端,对于从多声道音频信号中产生的单音频信号(M)来讲提供至少状态信息作为侧向信息。所述状态信息表示多个频段中的每一个频段指示怎样将预定的或等价提供的增益值在频域中应用到单声道音频信号(M),以获得重建多声道音频信号的第一和第二声道信号(L、R)。

Description

多声道音频扩展支持
技术领域
本发明涉及多声道音频编码和多声道音频编码中的多声道音频扩展。特别的是,本发明涉及一种在多声道音频编码系统的编码端支持多声道音频扩展的方法、一种在多声道音频编码系统的解码端支持多声道音频扩展的方法、一种多声道音频编码器和一种用于多声道音频编码器的多声道扩展编码器、一种多声道音频解码器和一种用于多声道音频解码器的多声道扩展解码器以及一种多声道音频编码系统。
背景技术
音频编码系统在本领域的范围内是众所周知的。它们特别用于发送或存储音频信号。
图1表示音频编码系统的基本结构,其用于音频信号的传输。所述音频编码系统包括发送端的编码器10和接收端的解码器11。将要发送的音频信号提供给编码器10。所述编码器负责将输入的音频数据率转换成不违反传输信道的带宽条件的比特率值。理想条件下,编码器10在该编码过程中只丢弃音频信号中不相关的信息。然后音频编码系统的发送端发送编码后的音频信号,并在该音频编码系统的接收端进行接收。接收端的解码器11将所述编码过程反向执行以获得具有很少或无音频损失的解码音频信号。
可替换的实施方案是,图1的音频编码系统可用于存档音频数据。在这种情况下,将编码器10提供的编码音频数据存储在一些存储单元中,解码器11对从该存储单元中检索出来的音频数据进行解码。在该可替换的实施方案中,目的是让编码器实现一个尽可能低的比特率,以节省存储空间。
要进行处理的原始音频信号可以是单声道音频信号或者是包含至少第一和第二声道信号的多声道音频信号。多声道音频信号的一个例子是立体声音频信号,其由左声道信号和右声道信号组成。
根据允许的比特率,可以对立体声音频信号使用不同的编码方案。例如可以对左声道和右声道信号分别进行独立编码。但是一般来说,左声道和右声道信号之间存在相关性,并且最先进的编码方案都利用这种相关性来达到进一步减小比特率的目的。
尤其适合减小比特率的是低比特率立体声扩展方法。在立体声扩展方法中,将立体声音频信号编码成高比特率单声道信号,其和一些为立体声扩展而预备的侧向信息一起由编码器提供。在解码器中,然后利用侧向信息在立体声扩展中从高比特率单声道信号中重建立体声音频信号。所述侧向信息通常只占整个比特率的几kbps。
如果一种立体声扩展方案旨在以低比特率进行操作,就不能在解码过程中获得原始立体声音频信号的精确复制。为了如此要求地接近原始立体声音频信号,就需要一种有效的编码模型。
最常用的立体声音频编码方案是中间(MS)立体声和强度立体声(IS)。
在MS立体声中,将左声道和右声道信号转换成和信号和差信号,例如在J.D.Johnston和A.J.Ferreira所著的“和-差分立体声转换编码(Sum-differencestereo transform coding)”,1992年的ICASSP-92会议记录,第569-572页中所述。为了获得最大的编码效率,以频率和时间相关方式进行这种变换。MS立体声特别有利于高质量、高比特率的立体声编码。
在实现低比特率的尝试中,已经将IS和所述MS编码结合使用,其中IS构成立体声扩展方案。在IS编码中,只将频谱的一部分编码成单声道模式,通过另外给左声道和右声道提供不同的比例系数来重建立体声音频信号,正如文件US5,539,829和US5,606,618中所述那样。
另外还提出了两种超低比特率立体声扩展方案,即双声道信号编码(Binaural Cue Coding,BCC)和带宽扩展(Bandwidth Extension,BWE)。在BCC中,如F Baumgarte和C.Faller所著的“为什么双声道信号编码比强度立体声编码好(Why Binaural Cue Coding is Better than Intensity Stereo Coding)”(AES第112次会议,2002年5月10日-13日,预印本5575)中所述,用IS来对整个频谱进行编码。在BWE编码中,如在ISO/IEC JTC1/SC29/WG11(MPEG-4)中的“ISO/IEC 14496-3:2001/FPDAM 1文本,带宽扩展”(N5203(第62次MPEG会议输出文件),2002年10月)中所述,带宽扩展用于将单声道信号扩展成立体声信号。
而且,文件US6,016,473提出一种对代表声场的多个音频流进行编码的低比特率空间编码系统。在编码器端,将所述音频流分成多个子带信号,分别代表相应的子频带。然后,产生一个表示这些子带信号组合的复合信号。另外,产生一个引导控制信号,其指示子带中声场的主要方向,例如以加权矢量的形式。在解码器端,根据所述复合信号和相关的引导控制信号在高达两个声道中生成音频流。
发明内容
本发明的一个目的是根据侧向信息以有效地方式来支持单声道音频信号到多声道音频信号的扩展。
对于多声道音频编码系统的编码端来说,提出用于支持多声道音频扩展的第一种方法,其包括:将多声道音频信号的第一声道信号转换到频域,产生频谱的第一声道信号;并且将该多声道音频信号的第二声道信号转换到频域,产生频谱的第二声道信号。上述提出的方法还包括:为多个相邻频带中的每一个频带确定是频谱第一声道信号、频谱第二声道信号还是没有频谱声道信号在相应的频带中占据支配地位,并为每一个频带提供相应的状态信息。
另外,提出一种多声道音频编码器和用于多声道音频编码器的一种扩展编码器,它们包括用于实现上述第一种方法的装置。
对于多声道音频编码系统的解码端来说,提出用于支持多声道音频扩展的第二方法,其包括:将接收到的单声道音频信号转换到频域,产生频谱的单声道音频信号。上述提出的第二方法还包括:通过在多个相邻频带中的每一个频带上为频谱第一声道信号和频谱第二声道信号中的每一个,根据至少一个增益值和接收到的状态信息对频谱单声道音频信号分别加权,从频谱单声道音频信号中产生频谱第一声道信号和频谱第二声道信号。所述状态信息为每个频带指示是否是频谱第一声道信号、频谱第二声道信号还是没有频谱声道信号在相应的频带中占据支配地位。
此外,提出一种多声道音频解码器和用于多声道音频解码器的一种扩展解码器,它们包括用于实现上述第二方法的装置。
最后,提出一种多声道音频编码系统,其包括上述的多声道音频编码器和多声道音频解码器。
本发明是根据基于频带的立体声扩展比较有效这一考虑而产生的。本发明还根据表示哪种声道信号在相应频带中占据支配地位的状态信息,如果有的话,该状态信息尤其适合用作将单声道音频信号扩展成多声道音频信号的侧向信息这一想法而产生。可以在接收端考虑表示用于重建原始立体声信号的声道信号的特定支配地位程度的增益信息,来估计所述状态信息。
本发明提供已知解决方案的替换方案。
本发明的优点在于它支持有效的多声道音频编码,同时其与已知的多声道扩展解决方案相比需要较低的计算复杂性。
同样与文件US6,016,473的解决方案相比,所述文件更多地针对环绕编码而不是立体声或其它多声道音频编码,这样可以期望具有更低的比特率和较少的计算量。
根据从属权利要求,本发明的优选实施例会更清楚。
在优选实施例中,如果确定出频谱第一声道信号和频谱第二声道信号中的一个在至少一个频带中占据支配地位,编码端就计算并提供至少一个表示该支配地位程度的增益值。或者,可以预定至少一个增益值并将其存储在接收端。
在将哪个状态信息分配给某个频带的决定中,一种双声道心理声学模型适合于提供有用的帮助。由于心理声学模型一般需要较高的计算资源,所以它们在计算资源不是非常限制的设备中非常有效。
在显示给用户之前,必须将解码端产生的频谱第一声道信号和频谱第二声道信号转换到时域。
在第一优选实施例中,在解码端将产生的频谱第一和第二声道信号直接转换到时域,产生重建多声道音频信号的第一声道信号和第二声道信号。
然而,这种实施例常以较低的比特率进行操作,例如低于4kbps,并且在可采用较高立体声扩展比特率的应用中,这种实施例不能标度质量。
采用第二优选实施例,可以得到一种适于标度质量和比特率的改进的立体声扩展。在第二优选实施例中,在编码端产生一附加加强信息,除了根据产生的频谱第一和第二声道信号来重建原始多声道音频信号外,在解码端还使用所述附加加强信息。
为了在编码端产生加强信息,不仅在解码端重建频谱第一声道信号和频谱第二声道信号,还在编码端根据状态信息来重建频谱第一声道信号和频谱第二声道信号。然后产生所述加强信息以便对于那些频带(状态信息表示声道信号中的其中之一处于支配地位)的每个频谱抽样,所述加强信息一方面反映重建频谱第一和第二声道信号之间的每个抽样间区别,另一方面反映原始频谱第一和第二声道信号之间的每个抽样间区别。要注意的是,对某些抽样反映的区别可能存在于由于该区别太微小而不会被考虑的暗示中。
第二优选实施例仅适当改善了第一实施例的附加复杂性,并提供了本发明的一种更宽的操作范围。第二优选实施例的特殊优点在于,它利用已经产生的立体声扩展信息来获取对原始立体声音频图像的更精确的近似,而不需要产生额外的侧向信息。第二优选实施例的特殊优点还在于它具有可量测性,即解码端能够依据自己的资源,例如依据其存储器或其处理能力来决定是否仅对基本立体声扩展比特流进行解码还是除了加强信息以外都进行解码。为了让编码端将附加加强信息的数量调整成有效的比特率,编码端优选提供关于立体声扩展信息所使用的比特率信息,即至少是状态信息和附加加强信息。
可以在编码端和解码端或者扩展编码端以及解码端中分别处理所述加强信息,也可以在专用附加元件中处理。
多声道音频信号具体的可以是具有左声道信号和右声道信号的立体声音频信号。在多声道的情况下,对成对的声道执行上述提出的编码。
最好在中频和高频执行本发明的多声道音频扩展方案,其中,空间听力主要依靠幅度值差。在低频上,最好另外实现细微调整。尤其是在该细微调整中可以限制幅度值修改增益的动态范围。
可以采用不同类型的变换方式来实现从时域到频域以及从频域到时域的变换,例如采用改进的离散余弦变换(MDCT)和反向MDCT(IMDCT),采用快速傅立叶变换(FFT)和反向FFT(IFFT)或者采用离散余弦变换(DCT)和反向DCT(IDCT)。
本发明可以采用各种编码方案,具体的,但不是穷举的,采用自适应多比率宽带扩展(AMR-WB+),其适于高音频质量。
本发明还可以用软件或专用硬件方案来实现,由于多声道音频扩展是编码系统的一部分,所以最好用与整个编码系统相同的方式来实现。
本发明可专用于存储和传输,如从移动终端到移动终端。
附图描述
通过下面结合附图对本发明的示意性实施例的详细描述,本发明的其它目的和特征将会变得更清楚。
图1是表示音频编码系统常用结构的框图;
图2是实现了本发明第一实施例的立体声音频编码系统的高级框图;
图3表示本发明第一实施例中如图2所示的立体声音频编码系统发送侧的处理过程;
图4表示本发明第一实施例中如图2所示的立体声音频编码系统接收侧的处理过程;
图5是本发明第一实施例的第一可能增补方案中采用的示意性霍夫曼(Huffman)表;
图6是表示本发明第一实施例的第二可能增补方案的流程图;
图7是实现了本发明第二实施例的立体声音频编码系统的高级框图;
图8表示图7所示的本发明第二实施例中的立体声音频编码系统发送侧的处理过程;
图9表示在图8所示的处理过程中使用的量化循环的流程图;
图10表示在图8所示的处理过程中使用的代码簿索引分配循环的流程图;
图11表示图7所示的本发明第二实施例中的立体声音频编码系统接收侧的处理过程。
具体实施例
上面已经对图1进行了说明。
现在将参照图2-6来描述本发明的第一实施例。
图2表示立体声音频编码系统的常用结构,其中可以实现本发明。该立体声音频编码系统可用于发送由左声道信号和右声道信号组成的立体声音频信号。
图2所示的立体声音频编码系统包括立体声编码器20和立体声解码器21。立体声编码器20对立体声音频信号进行编码并将其发送到立体声解码器21,立体声解码器21接收所述编码信号,对其进行解码并将其还原成立体声音频信号。
或者,也可以将立体声编码器20提供的编码后的立体声音频信号存储在存储单元中,立体声解码器21可以从所述存储单元中提取上述信号。
立体声编码器20包括相加点22,它经比例单元23连接到AMR-WB+单声道编码器元件24。所述AMR-WB+单声道编码器元件24又连接到AMR-WB+比特流多路复用器(MUX)25。另外,所述立体声编码器20包括立体声扩展编码器26,其同样连接到AMR-WB+比特流多路复用器25。
立体声解码器21包括AMR-WB+比特流多路分解器(DEMUX)27,其一方面与AMR-WB+单声道解码器元件28连接,另一方面与立体声扩展解码器29相连。所述AMR-WB+单声道解码器元件28还与立体声扩展解码器29相连。
当要发送立体声音频信号时,将立体声音频信号的左声道信号L和右声道信号R提供给立体声编码器20。假设左声道信号L和右声道信号R以帧的形式排列。
左声道和右声道信号L、R通过相加点22相加并在比例单元23中乘以系数0.5以形成单声道音频信号M。然后AMR-WB+单声道编码器元件24负责用公知的方式对所述单声道音频信号进行编码以获得单声道信号比特流。
另外还在立体声扩展编码器26中对提供给立体声编码器20的左声道和右声道信号L、R进行处理,以便获得包含用于立体声扩展的侧向信息的比特流。
由AMR-WB+单声道编码器元件24和立体声扩展编码器26提供的比特流被AMR-WB+比特流多路复用器(MUX)25进行多路复用以便传输。
立体声解码器21接收发送的多路复用的比特流并通过AMR-WB+比特流多路分解器(DEMUX)27将其再次多路分解成单声道信号比特流和侧向信息比特流。将单声道信号比特流传送到AMR-WB+单声道解码器元件28,将侧向信息比特流传送到立体声扩展解码器29。
然后在AMR-WB+单声道解码器元件28中用公知的方式对单声道信号比特流进行解码。将生成的单声道音频信号M提供给立体声扩展解码器29。立体声扩展解码器29对包含用于立体声扩展的侧向信息的比特流进行解码并根据获取的侧向信息将接收的单声道音频信号M扩展成左声道信号L和右声道信号R。然后通过立体声解码器21将左声道和右声道信号L、R作为重建的立体声音频信号进行输出。
下面将具体说明根据本发明的实施例来设计立体声扩展编码器26和立体声扩展解码器29。
图3中详细描述了立体声扩展编码器26中的处理过程。
立体声扩展编码器26中的处理过程包括三个阶段。在第一阶段中,即图3的左侧,按照每帧来处理信号。在第二阶段中,即图3的中间,按照每个频带来处理信号。在第三阶段,即图3的右侧,又按照每帧来处理信号。在每个阶段,表示出了各种处理部分30-38。
在第一阶段中,MDCT部分30利用基于帧的MDCT将接收到的左声道信号L转换到频域,生成频谱声道信号LMDCT。同时,MDCT部分31利用基于帧的MDCT将接收到的右声道信号R转换到频域,生成频谱声道信号RMDCT。有关MDCT的内容已经在一些文件中详细描述过,例如由J.P.Princen、A.B.Bradley编写的“基于时域失真消除的分析/合成滤波器组设计”(Analysis/synthesis filter bank design bansed on time domain aliasing cancellation)(IEEE传输语音、话音和信号处理,1986年10月第5期,第ASSP-34卷,1153-1161页)以及S.Shlien编写的“调制重叠转换,其时间变动形式和其在音频编码标准上的应用”(The modulated lapped transform,its time-varying forms,and its applications to audio coding standards)(IEEE传输语音、和音频处理,1997年7月第4期,第5卷,359-366页)。
在第二阶段中,在几个相邻频带的当前帧内处理频谱声道信号LMDCT和RMDCT。所述频带跟随着临界带的边界,正如E.Zwicker和H.Fastl编写的“心理声学,事实和模型”(Psychoacoustics,Facts and Models)(Springer-Verlag,1990年)中所述的那样。例如,对于抽样率为24kHz的750Hz到6kHz的中频编码来说,numTotalBands为27的频带总数的频带抽样中的宽度IS WidthLenBuf[]如下所述:
IS_WidthLenBuf[]={3,3,3,3,3,3,3,4,4,5,5,5,6,6,7,7,8,9,9,10,11,14,14,15,15,17,18}
首先,处理部分32为频谱声道信号LMDCT和RMDCT的每个频带计算声道加权,以便确定原始立体声音频信号的左声道和右声道信号L和R在每个频带的相应的影响。
根据下面的方程式计算每个频带的两个声道加权:
g L ( fband ) = E L E L + E R g R ( fband ) = E R E L + E R fband = 0 , . . . , numTotalBands - 1 - - - ( 1 )
其中
E L = Σ i = 0 IS _ WidthLenBuf [ fband ] - 1 L MDCT ( n + i ) 2
E R = Σ i = 0 IS _ WidthLenBuf [ fband ] - 1 R MDCT ( n + i ) 2
其中fband是与单独考虑的频带相关的数量,其中n是频谱抽样中到频段fband的开始位置的偏移量。也就是说,中间值EL和ER表示在相应频带和相应频谱声道信号中每个频谱抽样的平方和。
在后续的处理部分33中,将状态LEFT、RIGHT和CENTER中的一个分配给每个频带。LEFT状态表示在相应频带中左声道信号占支配地位,RIGHT状态表示在相应频带中右声道信号占支配地位,CENTER状态表示在相应频带中单声道音频信号占支配地位。通过为每个频带生成的相应状态标记IS_flag(fband)来表示所分配的状态。
具体来说根据下面的方程式来生成所述状态标记:
Figure A0382607400173
其中
A=gL(fband)>gR(fband)
B=gR(fband)>gL(fband)
gLratio=gL(fband)/gR(fband)
gRratio=gR(fband)/gL(fband)
方程式(2)中的门限值参数决定立体声图像重建的好坏。在当前实施例中,门限值参数的值设置为1.5。所以,如果其中一个频谱声道的加权值没有超过相应其它频谱声道加权值的50%,状态标记就表示为CENTER状态。
在状态标记表示为LEFT状态或RIGHT状态的情况下,还要另外在后续处理部分34中计算电平修改增益。所述电平修改增益允许在处理单声道音频信号M时在频带内重建立体声音频信号。
根据下面的方程式为每个频带计算电平修改增益gLR(fband):
Figure A0382607400181
在第三阶段中,进一步在帧的基础上对生成的电平修改增益gLR(fband)和生成的状态标记IS_flag(fband)进行处理以便发送。
可以为每个频带发送电平修改增益,或者每帧仅发送一次。如果仅仅给所有的频带都发送一个公共增益值,那么就在处理部分35中根据下面的方程式为每个帧计算公共电平修改增益gLR_average
g LR _ average = 1 N · Σ i = 0 numTotalBands - 1 g LR ( i ) - - - ( 4 )
其中
Figure A0382607400183
所以,公共电平修改增益gLR_average构成了与不等于0的电平修改增益gLR(fband)相关的所有频带的平均值。
然后处理部分36利用分级器或最好是矢量量化技术来对公共电平修改增益gLR_average或指定的电平修改增益gLR(fbana)进行量化。将量化后的增益或增益值编码成比特序列并将其作为侧向信息比特流的第一部分提供给图2所示的立体声编码器20的AMR-WB+比特流多路复用器25。在该实施例中,使用5比特对所述增益进行编码,但是这个值是可以根据要把增益大致量化成多大而改变的。
为了对状态标记进行编码以便发送,在处理部分37中为每个帧选择一种编码方案以便在取得最大效率的同时能将比特损耗降到最低。
具体来说,定义了三种可选的编码方案。所述编码方案表示在帧内出现最频繁的状态,并且根据下面的方程式来选择编码方案:
Figure A0382607400184
其中
codingScheme={CENTER,LEFT,RIGHT}
所以,在帧内CENTER状态出现最频繁的情况下选择CENTER编码方案,在帧内LEFT状态出现最频繁的情况下选择LEFT编码方案,在帧内RIGHT状态出现最频繁的情况下选择RIGHT编码方案。选定的编码方案本身用2比特来进行编码。
处理部分37根据在处理部分36中选定的编码方案来对状态标记进行编码。
在每个编码方案中,在相应第一比特对出现最频繁的状态进行编码,而在最后第二个比特上对其它两种状态进行编码。
在选定CENTER编码方案并且将CENTER状态分配给指定频带的情况下,将“1”提供给指定频带作为第一比特,否则将“0”提供给指定频带作为第一比特。在后一种情况下,如果是将LEFT状态分配给该指定频带,就提供“0”作为第二比特,如果是将RIGHT状态分配给该指定频带,就提供“1”作为第二比特。
在选定LEFT编码方案并且将LEFT状态分配给指定频带的情况下,将“1”分配给指定频带作为第一比特,否则提供“0”作为第一比特。在后一种情况下,如果是将RIGHT状态分配给该指定频带,就提供“0”作为第二比特,如果是将CENTER状态分配给该指定频带,就提供“1”作为第二比特。
最后,在选定RIGHT编码方案并且将RIGHT状态分配给指定频带的情况下,将“1”提供给该指定频带作为第一比特,否则提供“0”作为第一比特。在后一种情况下,如果是将CENTER状态分配给该指定频带,就提供“0”作为第二比特,如果是将LEFT状态分配给该指定频带,就提供“1”作为第二比特。
所有频带的编码方案和编码状态标记的2-比特指示作为侧向信息比特流的第二部分提供给图2所示的立体声编码器20的AMR-WB+比特流多路复用器25。
AMR-WB+比特流多路复用器25对接收到的侧向信息比特流与单声道信号比特流进行多路复用以便传输,正如上面参照图2所描述的那样。
通过图2的立体声解码器21接收发送的信号并通过AMR-WB+比特流多路分解器27和AMR-WB+单声道解码器元件28处理它,如上所述。
图4详细描述了图2所示的立体声解码器21的立体声扩展解码器29的处理过程。图4是立体声扩展解码器29的示意性框图。
立体声扩展解码器29包括延时部分40,其经MDCT部分41连接到加权部分42。立体声扩展解码器29还包括增益提取部分43和IS_flag提取部分44,它们的输出与加权部分42的输入相连接。加权部分42有两个输出,每个都与另一个IMDCT部分45、46的输入相连。对后面的两种连接没有进行明确的说明,但是用相应的箭头表示出来了。
首先将图2所示的立体声解码器21的AMR-WB+单声道解码器元件28输出的单声道音频信号M馈送到延时部分40,这是因为如果解码后的单声道音频信号并不是象编码器输入信号那样按时间顺序排列的话,就必须对单声道音频信号M进行延时。
然后,MDCT部分41利用基于帧的MDCT将单声道音频信号转换到频域。将生成的频谱单声道音频信号MMDCT馈送到加权部分42。
同时,图2和图4中所示的AMR-WB+比特流多路分解器27向增益提取部分43提供侧向信息比特流的第一部分,向IS_flag提取部分44提供侧向信息比特流的第二部分。
增益提取部分43为每个帧从侧向信息比特流的第一部分中提取公共电平修改增益或者指定的电平修改增益,并将提取的增益进行解码。将解码后的增益gLR_average或解码后的增益gLR(fband)提供被加权部分42。
IS_flag提取部分44从侧向信息比特流的第二部分中对每帧提取和解码编码方案和状态标记IS_flag(fband)的指示。
对状态标记执行解码处理以便对于每个频带来说都可以首先读取一个比特。在该比特等于“1”的情况下,将指示编码方案所表示的状态分配给相应的频带。在第一个比特等于“0”的情况下,读取第二个比特并且根据该第二个比特将正确的状态分配给相应频带。
如果指示的是CENTER编码方案,就根据最后一个读取的比特来设置状态标记:
IS _ flag ( fband ) = CENTER , BsGetBits ( 1 ) = 1 LEFT , BsGetBits ( 2 ) = 0 RIGHT , BsGetBits ( 2 ) = 1 - - - ( 6 )
如果指示的是LEFT编码方案,就根据最后一个读取的比特来设置状态标记:
IS _ flag ( fband ) = CENTER , BsGetBits ( 2 ) = 1 LEFT , BsGetBits ( 1 ) = 1 RIGHT , BsGetBits ( 2 ) = 0 - - - ( 7 )
最后,如果指示的是RIGHT编码方案,就根据最后一个读取的比特来设置状态标记:
IS _ flag ( fband ) = CENTER , BsGetBits ( 2 ) = 0 LEFT , BsGetBits ( 2 ) = 1 RIGHT , BsGetBits ( 1 ) = 1 - - - ( 8 )
在上述方程式(6)-(8)中,函数BsGetBits(x)从输入比特流缓冲器中读取x个比特。对每个频带来说,将生成的状态标记IS_flag(fband)提供给加权部分42。
根据接收到的电平修改增益和接收到的状态标记,在加权部分42中将频谱单声道音频信号MMDCT扩展成频谱左声道和右声道信号。
根据下面的方程式从频谱单声道音频信号MMDCT中获得频谱左声道和右声道信号:
方程式(9)和(10)是在频带基础上进行操作的。对于与fband数量相关的每个频带来说,相应状态标记IS_flag向加权部分42指示频带内的频谱单声道音频信号抽样MMDCT(n)主要是来源于原始左声道还是原始右声道信号。电平修改增益gLR(fband)表示原始立体声音频信号中的左声道或右声道信号的支配程度,并用于在每个频带内重建立体声图像。为此,将电平修改增益乘以频谱单声道音频信号抽样来获得处于支配地位的声道信号的抽样,并且将电平修改增益的倒数值乘以频谱单声道音频信号抽样来获得相应其它声道的抽样。要注意的是,所述倒数值也可以加权一个固定的或可变的值。方程式(9)和(10)中的倒数值可以用例如 1 / g LR ( fband ) * g LR ( fband ) 来替换。在没有一个声道的信号在指定频带内占支配地位的情况下,直接将该频带中的频谱单声道音频信号抽样作为该频带内的两个频谱声道信号的抽样来使用。
特定频带内的整个频谱左声道信号由用于该特定频带确定的所有抽样值LMDCT(n)组成。同样,特定频带内的整个频谱右声道信号由用于该特定频带所确定的所有抽样值RMDCT(n)组成。
在使用公共电平修改增益的情况下,方程式(9)和(10)中的增益gLR(fband)等于该所有频带的公共值gLR_average
如果在帧内使用多个电平修改增益,即如果给每个频带提供一个指定的电平修改增益的话,就在频带的边界执行增益平滑。根据下面两个方程式来执行帧的开始位置的平滑:
Figure A0382607400221
Figure A0382607400222
其中gs=(gLR(fband-1)+gLR(fband))/2
根据下面两个方程式来执行帧末端的平滑:
Figure A0382607400223
Figure A0382607400224
其中gend=[gLR(fband)+gLR(fband+1)]/2
只对频带开始和结束位置的几个抽样执行平滑。平滑域的宽度随着频率增加而增加。例如,在27频带中,在开始的16个频带中,可以对第一个和最后一个频谱抽样进行平滑。对于后面的5个频带,可以对第一个和最后两个频谱抽样进行平滑。对于剩下的频带,可以对第一个和最后4个频谱抽样进行平滑。
最后,IMDCT部分45利用基于帧的IMDCT将左声道信号LMDCT转换到时域,以便获取恢复后的左声道信号L,然后通过立体声解码器21输出。IMDCT部分46利用基于帧的IMDCT将右声道信号RMDCT转换到时域,以便获取恢复后的右声道信号R,该右声道信号R通过立体声解码器21同等地输出。
在一些特殊情况下,可以比上述内容更有效地将分配给频带的状态传送给解码器,下面就通过两个例子来进行说明。
在上面给出的示意性实施例中,保留两个比特以用于传送所使用的编码方案。但是,CENTER(′00′)、LEFT(′01′)和RIGHT(′10′)方案仅占用能用2个信令比特表示的四个可能值中的三个。所以剩下的一个值(′11′)就可以用于对高相关立体声音频帧进行编码。在这些帧中,前一个帧的CENTER、LEFT和RIGHT状态也可以用于当前帧。这样,只有必须给整个帧发送上述提到的两个指示编码方案的信令比特,也就是说没有多余的比特可以为当前帧的每个频带来传送状态标记。
而且,根据立体声图像的强度,在当前编码帧中偶尔会出现只有少数几个LEFT和/或RIGHT状态,也就是说,几乎给所有的频带都分配了CENTER状态。为了对所谓的极少出现的LEFT和/或RIGHT状态进行有效编码,采用一种CENTER、LEFT和RIGHT状态的熵编码会很有效。在熵编码中,将CENTER状态看成是零值频带,例如用霍夫曼(Huffman)代码字对其进行熵编码。霍夫曼代码字描述了零的运算,也就是说,连续CENTER状态的运行和每个霍夫曼代码字都跟随着一个比特,该一个比特表示是LEFT状态还是RIGHT状态跟随在连续CENTER状态运行之后。LEFT状态可以用一个比特的值‘1’来表示,RIGHT状态可以用一个比特的值‘0’来表示。只要编码器和解码器知道编码协定,所述信令反过来也可以使用。
图5表示可用来获取霍夫曼代码字的霍夫曼表的一个例子。
所述表包括表示连续0值的数量的第一栏、表示用于相应霍夫曼代码字的比特数量的第二栏、和表示要用于相应零值运算的实际霍夫曼代码字的第三栏。所述表从没有零到26个零来对零的数量分配霍夫曼代码字。最后一行与27个零的理论数量相关,用于帧内的剩余状态只是CENTER状态的情况。
下面将描述根据图5所示的霍夫曼表对极少出现的LEFT状态和/或RIGHT状态进行编码的第一实例。
Figure A0382607400231
在上面的序列中,C代表CENTER状态,L代表LEFT状态,R代表RIGHT状态。在所建议的熵编码中,首先,对三个CENTER状态进行霍夫曼编码,生成值为9的4-比特代码字,其后跟随着值为‘1’的表示LEFT状态的一个比特。接着,再对三个CENTER状态进行霍夫曼编码,生成值为9的4-比特代码字,其后跟随着值为‘0’的表示RIGHT状态的一个比特。最后,对一个CENTER状态进行霍夫曼编码,生成值为7的3-比特代码字,其后跟随着值为‘0’的再次表示RIGHT状态的一个比特。
下面描述极少出现的LEFT状态和/或RIGHT状态的第二实例。
在建议的熵编码中,对第一组的三个CENTER状态进行霍夫曼编码,生成值为9的4-比特代码字,其后跟随着值为‘1’的一个比特。接着,再对后面三个CENTER状态进行霍夫曼编码,生成值为9的4-比特代码字,其后跟随着值为‘0’的一个比特。最后,用一个特殊的霍夫曼字符来表示帧内剩下的状态是CENTER状态,在该例子中是两个CENTER状态。根据图5所示的霍夫曼表,这个特殊的字符是值为12的4-比特代码字。
在参照图2-4所述的立体声音频编码系统的最有效的实施例中,对所有给出编码方法的比特损耗都进行检查,并且选择一种比特损耗最小的方法来传送需要的状态。从立体声编码器20向立体声解码器21给每个帧发送一个额外的信令比特,以便将2-比特编码方案和熵编码方案区分开。例如,额外的信令比特是‘0’值表示会使用2-比特编码方案,额外的信令比特是‘1’值表示会使用熵编码方案。
下面,对上面参照图2-4描述的本发明的示意性实施例进行进一步可能的补充。
上面给出的本发明的实施例是基于每个帧的平均增益的传输,其中根据方程式(4)来确定平均增益。但是,平均增益仅代表帧内的空间强度,并且基本上没有考虑帧内各频带之间的差别。如果频带之间存在很大的空间差别,至少要单独考虑最重要的频带。为此,基本上任何时候都必须在帧内发送多个增益。
现在将给出一种编码方案,其不仅可以实现帧之间的增益自适应分配,而且同样实现帧内的频带之间的增益自适应分配。
在发送端,立体声编码器20的立体声扩展编码器26首先为相应帧确定并量化所述平均增益gLR_average,如上面参照方程式(4)和处理部分35和36所述的那样。同样也象上面所述的那样发送平均增益gLR_average。但是,除此之外,还要将平均增益gLR_average和为每个频带计算出来的增益gLR(fbana)进行比较,然后根据下面的方程式,为每个频带做出一个在相应频带中增益是否重要的决定:
其中                                                          (15)
Figure A0382607400251
gRatio ( fband ) = g LR ( fband ) Q [ g LR _ average ]
其中Q[]表示量化算子,并且0≤fband<numTotalBands。所以,标记gain_flag(fband)为每个频带指示出增益以及相关的频带是否重要。要注意的是,通常把分配给CENTER状态的频带的增益看成是不重要的。
现在,计数确定为重要的频带的数量。如果0个频带被确定为是重要的,那么就发送值为‘0’的一个比特来表示没有进一步的增益信息。如果存在确定为重要的频带,就发送具有值为‘1’的一个比特以表示还有进一步的增益信息。
图6是表示在找到至少一个重要频带的情况下,立体声扩展编码器26中进一步步骤的流程图。
如果准确地确定有一个频带是重要的,就选择第一编码方案。在该编码方案中,发送值为‘1’的第二个比特来表示将会有关于一个重要增益的信息。提供另外两个比特用来发送信号通知在gain_flags中表示哪里有重要增益的索引。当找到增益时,就排除CENTER状态以实现最有效的索引编码。在生成的索引值大于两个比特能表示的范围的情况下,使用三个比特的转义码。所以当索引值等于或大于3时就经常起动转义码。一般来说,索引的分布都小于3以便少使用转义码。然后通过矢量量化来对确定的增益进行量化,所述确定的增益与值gRatio相关,值gRatio与识别出的重要频带相关。根据量化结果提供5个比特来进行代码簿索引的发送。
如果确定有两个或多个频带是重要的,就发送值为‘0’的第二比特以表示将会有与两个或多个重要增益相关的信息。如果确定有两个频带是重要的,就选择第二编码方案。在第二编码方案中,发送值为‘1’的下一个比特来表示仅仅会有跟两个重要增益相关的信息。第一重要增益位于gain_ flags中,并与第一索引相关,其用2个比特进行编码。可以再使用3个比特来用于可能的转义码。第二重要增益也位于gain_flags中,并与第二索引相关,它用3个比特进行编码,同样可以再使用3个比特来用于可能的转义码。可以通过矢量量化对确定好的与值gRatio相关的增益进行量化,所述值gRatio与识别出的重要频带相关。根据量化结果分别提供5个比特来进行代码簿索引的发送。
如果确定有三个或更多的频带是重要的,就选择第三编码方案。在该第三编码方案中,发送值为‘0’的下一个比特来表示会有跟至少三个重要增益相关的信息。对于每个LEFT状态或RIGHT状态频带来说,发送一个比特来表示相应频带是否重要。用值为‘0’的比特来表示该频带是不重要的,用值为‘1’的比特来表示该频带是重要的。在所述频带是重要的情况下,通过产生5个比特的矢量量化来量化与值gRatio相关的增益,所述值gRatio与该频带相关。分别根据量化结果,在表示所述频带是重要的那个比特后,提供5个比特来进行代码簿索引的发送。
在实际发送根据三种编码方案中的一种而提供的比特之前,在只有一个或两个重要频带的情况下,首先要确定第三编码方案是否比第一或第二编码方案具有更低的比特损耗。可能在某些情况下,例如由于转义码,即使只有一个或两个重要频带存在,但第三方案也可以提供更有效的比特使用。为了实现最大的编码效率,可以选择产生低比特损耗的相应编码方案来为实际传输提供比特。
另外,还要确定要发送的比特数量是否小于可用比特的数量。如果情况不允许,就要丢弃最不重要的增益,然后象上面所描述的那样重新开始发送比特的决定。
根据下面的内容来确定最不重要的增益。首先,将gRatio值映射成相同的信号电平。如方程式(15)所示,gRatio(fband)可以小于或大于1。执行所述映射是为了如果gRatio(fband)的值小于1,就采用它的倒数值,否则就采用gRatio(fband)的值,如下面的方程式所示:
Figure A0382607400261
方程式(16)在0≤fband<numTotalBands时重复进行,但是只对那些标记为重要的频带进行。接着,按照重要性递减的顺序对gRatioNew进行排序,也就是说,gRatioNew中的第一项是最大的值,gRatioNew中第二项是第二个最大的值,以此类推。在排序的gRatioNew中,最不重要的增益是最小的值。与该值相对应的频带被标记为不重要的。
在接收端,具体说是在编码器21的增益提取部分43中,首先,如上所述读取平均增益值。然后,读取一个比特来检查是否存在任何重要增益。在第一个比特是‘0’的情况下,不存在重要的增益,否则存在至少一个重要的增益。
在存在至少一个重要增益的情况下,增益提取部分43接着读取第二个比特来检查是否只存在一个重要增益。
如果第二个比特的值是‘1’,增益提取部分43就知道只存在一个重要增益,并再读取2个比特来确定索引和重要增益的位置。如果索引的值是3,就读取3个转义码比特。通过排除CENTER状态,将所述索引反向映射成正确的频带索引。最后,再读取5个比特来获取与gRatio值相关的量化增益的代码簿索引。
如果读取的第二个比特的值是‘0’,增益提取部分43就知道存在两个或更多个重要增益,接着读取第三个比特。
如果读取的第三个比特的值是‘1’,增益提取部分43就知道只存在两个重要增益。在这种情况下,再读取2个比特来确定索引和第一个重要增益的位置。如果第一个索引的值是3,就读取3个转义码比特。接着,读取3个比特来对第二个索引和第二个重要增益的位置进行解码。如果第二个索引的值是7,就读取3个转义码比特。通过排除CENTER状态,将所述索引反向映射成正确的频带索引。最后,再读取5个比特来分别获取与gRatio值相关的第一和第二量化增益的代码簿索引。
如果读取的第三个比特的值是‘0’,增益提取部分43就知道存在三个或更多个重要增益。在这种情况下,为每个LEFT或RIGHT状态频带再读取一个比特。如果读取的相应比特的值是‘1’,解码器就知道该频带是重要的,并且在相应比特后立即再读取附加的5个比特,以便获得代码簿索引来对与频带关联的gRatio值相关的量化增益进行解码。如果读取的相应比特的值是‘0’,就不再为相应频带读取其它的比特。
最后根据下面的方程式来重建每个频带的增益:
Figure A0382607400271
其中Q[gLR_average]表示发送的平均增益。方程式(17)在0≤fband<numTotalBands时重复进行。
现在将参照图7-11来描述从上述第一实施例中推导出来的本发明的第二实施例。
图7表示立体声音频编码系统的常用结构,其中可以实现本发明的第二实施例。该立体声音频编码系统可用于发送由左声道信号和右声道信号组成的立体声音频信号。
图7所示的立体声音频编码系统包括立体声编码器70和立体声解码器71。立体声编码器70对立体声音频信号进行编码并将其发送给立体声解码器71,立体声解码器71接收所述编码的信号,对其进行解码并将其重建成立体声音频信号。或者,立体声编码器70也可以将经过编码的立体声音频信号存储在存储单元中,立体声解码器71可以从所述存储单元中再次提取信号。
立体声编码器70包括相加点702,经比例单元703连接到AMR-WB+单声道编码器元件704。所述AMR-WB+单声道编码器元件704又连接到AMR-WB+比特流多路复用器(MUX)705。另外,所述立体声编码器70包括立体声扩展编码器706,其同样连接到AMR-WB+比特流多路复用器705。除了这些在第一实施例的立体声编码器20里包括的元件之外,立体声编码器70还包括立体声加强层编码器707,其与AMR-WB+单声道编码器元件704、立体声扩展编码器706和AMR-WB+比特流多路复用器(MUX)705相连。
立体声解码器71包括AMR-WB+比特流多路分解器(DEMUX)715,其一方面与AMR-WB+单声道解码器元件714连接,另一方面与立体声扩展解码器716相连。AMR-WB+单声道解码器元件714还连接到立体声扩展解码器716。除了这些在第一实施例的立体声解码器21里包括的元件之外,立体声解码器71还包括立体声加强层解码器717,其与AMR-WB+比特流多路分解器715、AMR-WB+单声道解码器元件714和立体声扩展解码器716相连。
当要发送立体声音频信号时,将立体声音频信号的左声道信号L和右声道信号R提供给立体声编码器70。假设左声道信号L和右声道信号R以帧的形式排列。
在立体声编码器70中,首先利用相加点702和比例单元703在左声道信号L和右声道信号R的基础上生成单声道音频信号M=(L+R)/2,AMR-WB+单声道编码器元件704对其进行编码并将其提供给AMR-WB+比特流多路复用器705,与第一实施例中所述的一样。而且,在立体声扩展编码器706中根据左声道信号L和右声道信号R生成立体声扩展所用的侧向信息,并将其提供给AMR-WB+比特流多路复用器705,正如第一实施例中所述的一样。
但是,在第二实施例中,还将原始左声道信号L、原始右声道信号R、编码单声道音频信号
Figure A0382607400291
和生成的侧向信息传送给立体声加强层编码器707。所述立体声加强层编码器处理接收到的信号以便获取附加的加强信息,与第一实施例相比,其保证可以在解码端实现改进的立体声图像。同样也将该加强信息作为比特流提供给AMR-WB+比特流多路复用器705。
最后,AMR-WB+比特流多路复用器705将AMR-WB+单声道编码器元件704、立体声扩展编码器706和立体声加强层编码器707提供的比特流进行多路复用以便进行传输。
立体声解码器71接收发送过来的经过多路复用的比特流,并由AMR-WB+比特流多路分解器715将其多路分解成单声道信号比特流、侧向信息比特流和加强信息比特流。除了立体声扩展解码器716不需要执行任何IMDCT之外,就象第一实施例中相应元件那样,由AMR-WB+单声道解码器元件714和立体声扩展解码器716对单声道信号比特流和侧向信息比特流进行处理。为了表示这个轻微的区别,立体声扩展解码器716在图7中用立体声扩展解码器来表示。将在立体声扩展解码器716中获得的频谱左声道
Figure A0382607400292
和右声道 信号提供给立体声加强层解码器717,其输出一个具有改进立体声图像的新的重建左声道信号和右声道信号
Figure A0382607400294
Figure A0382607400295
要注意的是,对于第二实施例来说,与第一实施例中的立体声扩展解码器29中生成的频谱左声道LMDCT和右声道RMDCT信号相比,对立体声扩展解码器716中生成的频谱左声道
Figure A0382607400296
和右声道 信号使用不同的标记符号。这是因为在第一实施例中,忽略了立体声扩展编码器26和立体声扩展解码器29中生成的频谱左声道LMDCT和右声道RMDCT信号之间的区别。
下面将描述立体声加强层编码器707和立体声加强层解码器717的结构和操作。
图8详细描述了立体声加强层编码器707中的处理过程。图8是立体声加强层编码器707的示意性框图。在图8的上半部分,是以立体声加强层编码器707中一帧接一帧的处理过程来使用所示元件的,而在图8的下半部分,是基于立体声加强层编码器707的频带处理过程来使用所示元件的。要注意的是,为了清楚起见,没有给出不同元件之间的所有连接。
图8上半部分所示的立体声加强层编码器707的元件包括有立体声扩展解码器801,其与立体声扩展解码器716相对应。立体声扩展解码器801的两个输出经相加点802和比例单元803与第一处理部分804相连。立体声扩展解码器801的第三个输出除了与第二处理部分805和第三处理部分806相连外,同样也连接到第一处理部分804。第二处理部分805的输出同样也连接到第三处理部分806。
图8下半部分所示的立体声加强层编码器707的元件包括量化部分807、重要性检测部分808和代码簿索引分配部分809。
基于从AMR-WB+单声道编码器元件704接收的编码单声道音频信号
Figure A0382607400301
和从立体声扩展编码器706接收的侧向信息,首先由立体声扩展解码器801生成立体声扩展信号的精确复制,所述立体声扩展信号在接收端由立体声扩展解码器716生成。除了没有将生成的频域中的频谱左声道
Figure A0382607400302
和右声道
Figure A0382607400303
信号转换到时域之外,所以立体声扩展解码器801的处理过程与图2中立体声扩展编码器29执行的处理过程完全一样,这是因为立体声加强层编码器707也在频域进行操作。立体声扩展解码器801提供的频谱左声道
Figure A0382607400304
和右声道 信号与参照图4所提到的LMDCT和RMDCT信号相对应。此外,立体声扩展解码器801将所接收的侧向信息中包含的状态标记IS_flag进行传送。
要注意的是,在实际的实现过程中,不会从比特流这一级开始进行内部解码。一般来说,内部解码都嵌入在编码程序中,以便每个编码程序都会在处理了接收的输入信号后返回合成解码输出信号。为了进行说明,这里只给出单个内部立体声扩展解码器801。
然后,从重建的频谱左声道
Figure A0382607400306
和右声道
Figure A0382607400307
信号中确定差信号
Figure A0382607400308
S ~ f = ( L ~ f - R ~ f ) / 2 并将其提供给第一处理部分804。此外,原始频谱左声道和右声道信号用来计算相应的原始差信号Sf,也同样将Sf提供给第一处理部分804。原始频谱左声道和右声道信号与上面参照图3所述的LMDCT和RMDCT信号相对应。图8没有给出原始差信号Sf的生成过程。
第一处理部分804根据下面的方程式从接收的差信号
Figure A03826074003010
和原始差信号Sf中确定目标信号
S ~ fe = s ( j ) , 0 &le; j < numTotalBands
Figure A0382607400311
E f ( k ) = S f ( offset + n ) - S ~ f ( offset + n ) , 0 &le; n < IS _ WidthLenBuf [ k ] - - - ( 18 )
参数offset表示在频带k中到频谱抽样开始位置的抽样偏移。
因此,在要进行扩展的频域中的目标信号
Figure A0382607400313
表示由立体声扩展解码器716重建的信号与原始立体声声道信号是不一样的。在量化之后,该信号构成立体声音频编码器70另外要发送的加强信息。
方程式(18)从立体声图像出发,仅考虑了那些属于被立体声扩展编码器706确定为相关的频带的差信号的频谱抽样。所述相关信息被立体声扩展解码器801以状态标记IS_flag的形式传送给第一处理部分804。假设那些被分配了CENTER状态的频带从空间位置来看或多或少是不相关的,这是十分安全的。同样,第二实施例的目的不在于重建立体声图像的精确复制,而是一种具有相对低比特率的精密近似。
量化元件807将根据频带对目标信号
Figure A0382607400314
进行量化,为此,必须要知道被认为是相关的频带数量和频带边界。
为了能够确定频带数量和频带边界,首先必须要知道信号 中频谱抽样的数量。可以根据下面的方程式在接收的状态标记IS_flag的基础上在第二处理部分805中确定这个频谱抽样的数量:
然后,第三处理部分806会计算相关频带的数量numBands和频带边界offsetBuf[n],例如象下面的第一伪C-码一样:
numBands=0;

offsetBuf[0]=0;

if(N)

{

intl6loopLimit;

if(N<=50)
				
				<dp n="d23"/>
loopLimit=2;

else if(N<=85)

loopLimit=3;

else if(N<=120)

loopLimit=4;

else if(N<=180)

loopLimit=5;

else if(N<=frameLen)

loopLimit=6;

for (i=1;i<(loopLirnit+1);i++)

{

numBufs++;

bandLen=Minimum(qBandLen[i-1],N/2);

if(offset<qBandLen[i-1])

bandLen=N;

offsetBuf[i]=offsetBuf[i-1]+bandLen;

N=bandLen;

If(N<=)break;

    }

}
其中qBandLen描述的是每个频带的最大长度。在当前实施例中,通过qBandLen={22,25,32,38,44,49}来给出频带的最大长度。也通过上面的过程来确定每个频带的宽度BandLen。
现在量化部分807在频带的基础上在相应的量化回路中对目标信号 进行量化,如图9所示。可以将每个频带的频谱抽样具体量化到[-a,a]的范围。在该实施例中,目前是将范围设置在[-3,3]。
可以通过调整量化增益值来观察相应可选量化的范围。
为此,首先根据下面的方程式来确定量化增益的开始值:
g start ( n ) = 5.3 * log 2 ( Maximum ( S ~ fe ( i ) ) 0 . 75 256 ) - - - ( 20 )
offsetBuf[n]≤i<offsetBuf[n+1]
可以给每个相关频带也就是,对于0≤n<numBands确定一个开始值gstart(n)。
然后,根据下面一组方程式,以一个抽样接一个抽样为基础进行量化:
q ( i ) = ( | S ~ fe ( i ) | * 2 - 0.26 g start ( n ) ) 0.75 , offsetBuf [ n ] &le; i < offsetBuf [ n + 1 ]
(21)
q float ( i ) = q ( i ) * sign ( S ~ fe ( i ) )
Figure A0382607400335
同样,分别为每个相关频带,也就是对0≤n<numBands执行这些计算。
然后为每个频带确定最大绝对值qint(i)。在所述最大绝对值大于3的情况下,开始增益gstsrt会增加,并且根据方程式21对相应频带重复量化,直到最大绝对值qint(i)不大于3。与终值qint(i)相对应的值qfloat(i)构成相应频带的量化后的加强抽样。
量化部分807一方面给每个相关频带提供最后增益值以便传输。另一方面,量化部分807会向重要性检测部分808传送所述最后增益值、量化后的加强抽样qfloat(i)和各个相关频带的附加值qint(i)。
在重要性检测部分808中,在将量化后的加强抽样传送给矢量量化(VQ)索引分配程序之前,计算量化后频谱的第一重要性检测值。所述重要性检测值表示是否必须发送相应频带的量化后的加强抽样。在该实施例中,低于10的增益值和除了0值以外的其它值qint会触发重要性检测值以表示指定频带的相应量化加强抽样qfloat是不相关的,并且不需要发送。在另一实施例中,也可以包括频带之间的计算,以便可以定位感觉重要的立体声频带以便传输。
重要性检测部分808给每个频带提供一个相应的重要性标记位以便传输,具体来说如果频带的频谱量化加强抽样是不相关的,所述重要性标记位的值为‘0’,否则重要性标记位的值为‘1’。重要性检测部分808还向代码簿索引分配部分809传送那些频带(所述那些频带的量化加强抽样被认为是重要的)的量化加强抽样qfloat(i)和附加值qint(i)。
代码簿索引分配部分809对接收到量化加强抽样进行VQ索引分配计算。
代码簿索引分配部分809所用的VQ索引分配程序以组的形式处理接收到的量化值,所述组是由m个连续的量化频谱加强抽样组成。由于m不能被每个频带的宽度BandLen整除,所以可以在开始正式量化之前修改每个频带的边界offsetBuf[n],例如在下面第二伪C-码中所述的那样:
for(i=0;i<numBands;i++);

{

int16bandLen,offset;

offset=offsetBuf[i]

bandLen=offsetBuf[i+1]-offsetBuf[i];

if(bandLen%m)

{

bandLen-=bandLen%m;

offsetBuf[i+1]=offset+bandLen;

    }

}
如图10所示的VQ索引分配程序,首先在第二重要性检测值中给m个量化加强抽样组成的相应组确定该组是否是重要的。
如果该组内与量化加强抽样qfloat相对应的所有的附加值qint都是0值,那该组就被认为是重要的。在这种情况下,程序只提供值为‘0’的VQ标记位,并且立即到下一组的m个抽样(只要还剩下抽样的话)。否则,VQ索引分配程序会提供值为‘1’的VQ标记位,并给相应组分配一个代码簿索引。用于分配代码簿索引的VQ搜索是基于量化加强抽样qfloat而进行的,而不是基于附加值qint进行。原因是qfloat值更适合于VQ索引搜索,这是由于qint值非常接近整数,而在整数域中不适合使用矢量量化。在该实施例中,m的值设为3,并且用3个比特的矢量量化对m个连续抽样的每个组进行编码。只有这个时候,程序才会运行到下一个m个抽样的组(只要还剩下抽样的话)。
典型的,对大多数帧来说,会把VQ标记位设置成‘1’。在这种情况下,在频带内为每个频谱组传送该VQ标记位并不是很有效的。但是有时候,编码器会需要每个频谱组的VQ标记位的帧。为此,组织了VQ索引分配程序,以便在开始实际搜索最好的VQ索引之前,计数具有相关量化加强抽样的组的数量。具有相关量化加强抽样的组也叫做重要组。如果重要组的数量与当前频带内的组的数量相同,就会提供值为‘1’的单比特来进行传输,其表示所有的组都是重要的,所以也就不需要VQ标记位了。在重要组的数量与当前频带内的组的数量不一样的情况下,就提供值为‘0’的单比特来进行传输,其表示VQ标记位与每个m个量化频谱加强抽样的组都相关,表示VQ代码簿索引是否代表相应的组。
代码簿索引分配部分809给每个频带提供单比特,给所有重要组分配VQ代码簿索引,并且还可能另外分配表示哪个组是重要的VQ标记位。
为了实现有效的量化操作,还要考虑其它可用的比特率。根据可用的比特率,编码器会或多或少地以m个组的形式发送量化的频谱加强抽样qfloat。如果可用比特率为低,那么编码器可以只发送用于第一组两个频带的m个组中的量化频谱加强抽样qfloat,如果可用比特率为高,编码器可以发送用于第一组三个频带的m个组中的量化频谱加强抽样qfloat。同样根据可用的比特率,如果所用比特的数量超过了可用比特的数量,编码器可以停止发送当前频带内某个位置的频谱组。然后以立体声加强层比特流的形式来发送整个立体声扩展的比特率,包括立体声扩展编码和立体声加强层编码,所述立体声加强层比特流包括加强信息。
在当前实施例中,定义了6.7、8、9.6和12kbps的比特率,并且保留2个比特来传送所分别使用的比特率brMode。一般来说,第一实施例的平均比特率会比最大允许的比特率小,剩余的比特可以分配给第二实施例的加强层。这也是带内信令的一个优点,因为基本上立体声加强层编码器707可以使用所有可用的比特。当使用带内信令时,解码器可以只通过计算解码比特的数量并将其与最大允许比特数量相比来检测什么时候停止解码。如果解码器用和编码器同样的方式来监测比特损耗,就会在编码器停止发送的那个位置停止解码。
立体声加强层编码器707将比特率指示、量化增益值、重要性标记位、VQ代码簿索引和VQ标记位作为加强信息比特流提供给图7中立体声编码器70的AMR-WB+比特流多路复用器705。
可以构造加强信息比特流的比特流元素以用于传输,例如象下面的第三伪C-码所示的那样:
Enhancement_StereoData(numBands)

{

brMode=BsGetBits(2);

for(i=0;i<numBands;i++)

{

int16bandLen,offset;

offset=offsetBuf[i];

bandLen=offsetBuf[i+1]-offsetBuf[i];

if(bandLen%m)

{

bandLen-=bandLen%m;

offsetBuf[i+1]=offset+bandLen;

}

bandPresent=BsGetBits(1);

if(bandPresent==1)

{

int16vqFlagPresent;

gain[i]=BsGetBits(6)+10;

vqFlagPresent=BsGetBits(1);

for(j=0;j<bandLen;j++)

{

int16vqFlagGroup=TRUE;

if(vqFlagPresent==FALSE)

vqFlagGroup=BsGetBits(1);
				
				<dp n="d28"/>
if(vqFlagGroup)

codebookldx[i][j]=BsGetBits(3);

      }

    }

}
这里,brMode表示所使用的比特率,band Present构成相应频带的重要性标记位,gain[i]表示相应频带使用的量化增益,vqFlag Present表示VQ标记位是否与指定频带的频谱组相关,vqFlagGroup构成表示m个抽样的相应组是否重要的实际VQ标记位,,codebookIdx[i][j]表示相应重要组的代码簿索引。
AMR-WB+比特流多路复用器705将接收到的加强信息比特流和接收到的侧向信息比特流以及接收到的单声道信号比特流进行多路复用以便传输,如参照图7所述的那样。
图7中的立体声解码器71接收所发送的信号,并象上面所述的那样由AMR-WB+比特流多路分解器715、AMR-WB+单声道解码器元件714和立体声扩展解码器716对其进行处理。
图11具体描述了图7中的立体声解码器71的立体声加强层解码器717中的处理过程。图11是所述立体声加强层解码器717的示意性框图。在图11的上半部分,以按照一帧接一帧处理的方式来表示立体声加强层解码器717中的元件,而在图11的下半部分,以按照频带为基础的处理方式来表示立体声加强层解码器717中的元件。另外,在图11的上半部分再次给出了图7所示的立体声扩展解码器716。要注意的是,为了清楚起见,没有描述不同元件之间的所有连接。
图11上半部分所示的立体声加强层解码器717的元件包括有相加点901,其与提供重建频谱左声道
Figure A0382607400371
和右声道
Figure A0382607400372
信号的立体声扩展解码器716的两个输出端相连。所述相加点901经比例单元902连接到第一处理部分903。传送接收的状态标记IS_flag的立体声扩展解码器716的另一个输出端直接与立体声加强层解码器717的第一处理部分903、第二处理部分904和第三处理部分905相连。第一处理部分903还与反向MS矩阵元件906相连。提供单声道音频信号
Figure A0382607400373
的AMR-WB+单声道解码器元件714的输出端也经MDCT部分913连接到该反向MS矩阵元件906。反向MS矩阵元件906还与第一IMDCT部分907和第二IMDCT部分908相连。
图11下半部分所示的立体声加强层解码器717的元件包括重要性标记读取部分909,其经由增益读取部分910和VQ查询部分911连接到反量化部分912。
根据上面第三伪C-码中的比特流语法来分析由AMR-WB+比特流多路分解器715提供的加强信息比特流。
而且,第二处理部分904根据上面方程式(18)基于从立体声扩展解码器716接收到的状态标记IS_flag来确定加强比特流中的目标信号抽样的数量。然后,第三处理部分905用所述抽样数量来计算相关频带的数量numBands和频带边界offsetBuf,例如根据上面给出的第一伪C-码。
重要性标记读取部分909读取每个频带的重要性标记band Present并将该重要性标记传送到增益读取部分910。增益读取部分910读取相应频带的量化增益gain[i]并将用于每个重要频带的量化增益提供给VQ查询部分911。
VQ查询部分911进一步读取表示VQ标记位是否与频谱组相关的单比特vqFlag Present,如果所述单比特的值为‘0’,就读取每个频谱组的实际VQ标记位vqFlagGroup,如果所述单比特的值为‘1’,就读取接收到的每个频谱组的代码簿索引codebookIdx[i][j],或者在其它情况下就读取那些VQ标记位等于‘1’的每个频谱组。
VQ查询部分911还接收所用比特率的指示信息brMode,并且根据上面给出的第二伪C-码对第三处理部分5确定的频带边界offsetBuf进行修改。
然后VQ查询部分911根据解码后的代码簿索引来定位与m个抽样组内原始量化加强抽样qfloat相对应的量化加强抽样gfloat
然后将量化加强抽样gfloat提供给反量化部分912,它根据下面的方程式来执行反量化过程:
S ^ fe ( i ) = sign ( g float ( i ) ) &CenterDot; g float ( i ) 1.33 &CenterDot; 2 - 0.25 &CenterDot; gain ( n )
offsetBuf[n]≤i<offsetBuf[n+1]
  (22)
对每个相关的频带也就是说,对于0≤n<numBands都使用上面的方程式,offsetBuf和numBands的值由第三处理部分905提供。
接着,将反量化抽样
Figure A0382607400391
提供给第一处理部分903。
第一处理部分903还接收边侧信号
Figure A0382607400392
其由相加点901和比例单元902从立体声扩展解码器716中接收的频谱左声道
Figure A0382607400393
和右声道
Figure A0382607400394
信号中计算出来的,其值为 S ~ f = ( L ~ f - R ~ f ) / 2 .
第一处理部分903根据下面的方程式将接收到的反量化抽样
Figure A0382607400396
与接收到的边侧信号
Figure A0382607400397
相加:
S ^ f = s ( j ) , 0 &le; j < numTotalBands
Figure A0382607400399
(23)
E f ( k ) = S ~ f ( offset + n ) + S ^ fe ( offset + n ) , 0 &le; n < IS _ WidthLenBuf [ k ]
其中参数offset表示在频带k中到频谱抽样开始位置的抽样偏移。
将生成的抽样 提供给反向MS矩阵部分906。而且,MDCT部分913对AMR-WB+单声道解码器元件714输出的单声道音频信号
Figure A03826074003912
应用MDCT,并将生成的频谱单声道音频信号 同样提供给反向MS矩阵部分906。反向MS矩阵部分906对那些在加强层比特流中发送非0量化加强抽样的频谱抽样应用反向MS矩阵,也就是由反向MS矩阵元件906来计算这些频谱抽样
Figure A03826074003914
Figure A03826074003915
立体声扩展解码器716提供的频谱左声道
Figure A03826074003916
和右声道
Figure A03826074003917
信号的剩余抽样仍然保持不变。然后将所有频谱左声道信号
Figure A03826074003918
提供给第一IMDCT部分907,将所有频谱右声道信号
Figure A03826074003919
提供给第二IMDCT部分907。
最后,IMDCT部分907利用基于帧的IMDCT将频谱左声道信号 转换到时域,以便获得加强恢复左声道信号 然后将 通过立体声解码器71输出。同时,IMDCT部分908利用基于帧的IMDCT将频谱右声道信号 转换到时域,以便获得加强恢复右声道信号
Figure A03826074003924
同样将
Figure A03826074003925
通过立体声解码器71输出。
要注意的是,上述的实施例仅是本发明多种可能实施例中的一种。

Claims (41)

1、一种在多声道音频编码系统的编码端支持多声道音频扩展的方法,所述方法包括:
将多声道音频信号的第一声道信号(L)转换到频域,生成频谱第一声道信号(LMDCT);
将所述多声道音频信号的第二声道信号(R)转换到频域,生成频谱第二声道信号(RMDCT);
为多个相邻频带中的每一个确定在相应频带中占支配地位的是所述频谱第一声道信号(LMDCT)、还是所述频谱第二声道信号(RMDCT)或者没有一个所述频谱声道信号(LMDCT、RMDCT)占支配地位,并为所述每一个频带提供相应的状态信息。
2、如权利要求1所述的方法,还包括:
将所述第一声道信号(L)和所述第二声道信号(R)组合成单声道音频信号(M),并将所述单声道信号(M)编码成单声道信号比特流;以及
至少将所述单声道信号比特流和所述提供的状态信息多路复用成单比特流。
3、如权利要求1或2所述的方法,其中以帧的顺序来排列所述第一声道信号(L)和所述第二声道信号(R),其中为所述第一声道信号(L)和所述第二声道信号(R)的每个帧提供所述状态信息。
4、如上述任何一个权利要求所述的方法,进一步包括在确定了所述频谱第一声道信号(LMDCT)和所述频谱第二声道信号(RMDCT)的其中之一在至少一个所述频带中占支配地位的情况下,计算和提供至少一个表示所述支配程度的增益值。
5、如权利要求4所述的方法,包括:
将所述第一声道信号(L)和所述第二声道信号(R)组合成单声道音频信号(M),并将所述单声道信号(M)编码成单声道信号比特流;以及
将所述单声道信号比特流、所述提供的状态信息和所述提供的至少一个增益值多路复用成单比特流。
6、如权利要求4或5所述的方法,其中以帧的顺序来排列所述第一声道信号(L)和所述第二声道信号(R),其中为所述第一声道信号(L)和所述第二声道信号(R)的每个帧提供所述至少一个增益。
7、如权利要求4到6中任一个所述的方法,其中所述至少一个增益值包括为每一个所述频带指定的增益值,每个指定增益值表示所述频谱第一声道信号(LMDCT)和所述频谱第二声道信号(RMDCT)中相应占支配地位的那一个在相应频带中所确定的支配地位程度。
8、如权利要求7所述的方法,其中根据所述频谱声道信号(LMDCT、RMDCT)的频谱抽样值,分别为每个所述频带的所述频谱第一声道信号(LMDCT)和所述频谱第二声道信号(RMDCT)计算声道加权值,其中确定特殊频带的所述指定增益值以便相应于为所述特殊频带的所述频谱声道信号(LMDCT、RMDCT)中的一个计算的高加权值和为所述特殊频带的所述频谱声道信号(LMDCT、RMDCT)中的另一个计算的低加权值之间的比值。
9、如权利要求4到6中任一个所述的方法,其中所述至少一个增益值包括表示所述频谱第一声道信号(LMDCT)和所述频谱第二声道信号(RMDCT)在所有所述频带中的支配平均程度的公共增益值。
10、如权利要求9所述的方法,其中根据所述频谱声道信号(LMDCT、RMDCT)中的频谱抽样值,分别为每个所述频带的所述频谱第一声道信号(LMDCT)和所述频谱第二声道信号(RMDCT)计算声道加权值,其中确定每个频带的初步指定增益值以便相应于为相应频带的所述频谱声道信号(LMDCT、RMDCT)中的一个计算的高加权值和为所述相应频带的所述频谱声道信号(LMDCT、RMDCT)中的另一个计算的低加权值之间的比值,其中所述公共增益值被确定为所述初步指定增益值的平均值。
11、如权利要求4到10中任一个所述的方法,其中将所述至少一个增益值动态范围限定成至少是所述频带的较低一个的预定值。
12、如上述任何一个权利要求所述的方法,其中根据几个编码方案中的一个对所述状态信息进行编码,所选择的编码方案至少部分取决于所述频谱第一声道信号(LMDCT)和所述频谱第二声道信号(RMDCT)中的哪一个在所有所述频带中更经常占据支配地位。
13、如上述任何一个权利要求所述的方法,其中根据所述频谱声道信号(LMDCT、RMDCT)中的频谱抽样值,分别为每个所述频带的所述频谱第一声道信号(LMDCT)和所述频谱第二声道信号(RMDCT)计算声道加权值,其中在为所述频带生成的高声道加权值和为所述频带生成的低声道加权值之间的比值达到或超过预定门限值的情况下,假设在所述频带中的一个特定频带内存在支配性。
14、如上述任何一个权利要求所述的方法,进一步包括:
基于所述状态信息以及所述第一声道信号(L)和所述第二声道信号(R)的单声道型式来生成重建的频谱第一声道信号(
Figure A038260740004C1
)和重建的频谱第二声道信号(
Figure A038260740004C2
);以及
为那些所述状态信息表示其中一个所述声道信号(L、R)占据支配地位的频带产生和提供加强信息,所述加强信息在抽样的基础上一方面反映出所述重建频谱第一和第二声道信号( )之间的差值,另一方面反映出所述原始频谱第一和第二声道信号之间的差值。
15、如权利要求14所述的方法,其中生成所述加强信息包括:通过调整相应频带的量化增益,在频带基础上一个抽样接一个抽样的将所述差值量化到预定的范围,所述量化产生量化后的频谱加强抽样,其中相应频带使用的所述量化增益作为所述加强信息的一部分而被提供。
16、如权利要求15所述的方法,其中只对可获得具有非0值的量化后的频谱加强抽样的那些频带以及需要量化增益超过指定门限值的那些频带,才将所述量化频谱增强抽样提供给所述增强信息,为所述加强信息提供所述量化后的频谱加强抽样的那些频带的标识信息是作为所述加强信息的一部分而被提供。
17、如权利要15或16所述的方法,其中生成所述加强信息进一步包括:以预定数量抽样的组形式将所述量化后的频谱加强抽样分配给相应代码簿索引,所述代码簿索引是作为所述加强信息的一部分而被提供。
18、如权利要求17所述的方法,其中只把相应代码簿索引分配给那些具有量化后的频谱加强抽样的组,所述组包括至少一个具有不等于0值的量化后的频谱加强抽样。
19、如权利要求14-18中任一个所述的方法,进一步包括提供一种与提供至少所述状态信息和所述加强信息所使用的比特率有关的信息,与所述比特率有关的所述信息是作为所述加强信息的一部分而被提供。
20、如上述任何一个权利要求所述的方法,其中所述第一声道信号(L)是立体声音频信号的左声道信号,所述第二声道信号(R)是所述立体声音频信号的右声道信号。
21、一种在多声道音频编码系统的解码端支持多声道音频扩展的方法,所述方法包括:
将接收到的单声道音频信号(M)转换到频域,生成频谱单声道音频信号;以及
通过基于至少一个增益值并根据接收到的状态信息,对所述频谱第一声道信号(LMDCT
Figure A038260740005C1
)和所述频谱第二声道信号(RMDCT
Figure A038260740005C2
)中每个信号的多个相邻频带中每个频带的所述频谱单声道音频信号分别加权,从所述频谱单声道音频信号中生成频谱第一声道信号(LMDCT)和频谱第二声道信号(RMDCT
Figure A038260740005C4
),所述状态信息为每个所述频带指示出了在相应频带中占支配地位的是所述频谱第一声道信号(LMDCT)、还是所述频谱第二声道信号(RMDCT
Figure A038260740005C6
)或者没有一个所述频谱声道信号(LMDCTRMDCT)占支配地位。
22、如权利要求21中所述的方法,包括:
如果所述状态信息表示所述相应频带中所述第一声道信号(LMDCT)占支配地位,就通过将对于相应频带有效的所述至少一个增益值之一与所述相应频带内的所述频谱单声道音频信号的抽样相乘,在每个所述频带内生成所述频谱第一声道信号(LMDCT);如果所述状态信息表示所述相应频带中所述第二声道信号(RMDCT)占支配地位,就通过将所述增益值的倒数值与所述相应频带内的所述频谱单声道音频信号的抽样相乘,在每个所述频带内生成所述频谱第一声道信号(LMDCT);否则就通过在所述相应频带内接收所述频谱单声道音频信号,在每个所述频带内生成所述频谱第一声道信号(LMDCT);以及
如果所述状态信息表示所述相应频带中所述第二声道信号(RMDCT)占支配地位,就通过将对于相应频带有效的所述至少一个增益值之一与所述相应频带内的所述频谱单声道音频信号的抽样相乘,在每个所述频带内生成所述频谱第二声道信号(RMDCT);如果所述状态信息表示所述相应频带中所述第一声道信号(LMDCT)占支配地位,就通过将所述增益值的加权的或者未加权的倒数值与所述相应频带内的所述频谱单声道音频信号的抽样相乘,在每个所述频带内生成所述频谱第二声道信号(RMDCT);否则就通过在所述相应频带内接收所述频谱单声道音频信号,在每个所述频带内生成所述频谱第二声道信号(RMDCT)。
23、如权利要求21或22所述的方法,包括这样一个在先步骤,将接收到的比特流多路分解成至少一个单声道信号比特流和状态信息比特流,将所述单声道信号比特流解码成所述单声道音频信号(M),并将所述状态信息比特流解码成所述状态信息
24、如权利要求23所述的方法,其中将所述接收到的比特流多路分解成单声道信号比特流、状态信息比特流和增益比特流,所述方法还包括将所述增益比特流解码成所述至少一个增益值。
25、如权利要求21到24中任一个所述的方法,其中如果所述单声道音频信号(M)不是按要重建的原始多声道音频信号的时间顺序排列的,就在所述单声道音频信号(M)转换到时域之前对所述单声道音频信号(M)进行延迟。
26、如权利要求21到25中任一个所述的方法,其中所述至少一个增益值包括用于所述多个频带中每一个频带的指定的增益值。
27、如权利要求26所述的方法,其中所述单声道音频信号(M)以帧的形式排列,其中通过对相应频带的有效增益值和相应下一个较低频带的有效增益值取平均,在每个帧的开始位置平滑所述增益值,其中通过对相应频带的有效增益值和相应下一个较高频带的有效增益值取平均,在每个帧的末尾位置平滑所述增益值。
28、如权利要求21到27中任一个所述的方法,其中为了获取所述状态信息,对接收到的状态信息比特流进行解码,所述状态信息比特流除了所述状态信息之外还至少部分包括编码方案信息,所述编码方案信息表示了对所述状态信息进行编码所采用的编码方案,根据所述编码方案信息来对所述状态信息进行解码。
29、如权利要求21到28中任一个所述的方法,还包括将所述频谱第一和第二声道信号(LMDCT、RMDCT)转换到时域,生成重建多声道音频信号的第一声道信号(L)和第二声道信号(R)。
30、如权利要求21到28中任一个所述的方法,还包括:
接收加强信息,所述加强信息至少对那些所述状态信息表示所述声道信号(L、R)中的一个占据支配地位的那些频带的一些频谱抽样,在抽样的基础上一方面反映出所述生成的频谱第一和第二声道信号(
Figure A038260740007C2
)之间的差值,另一方面反映出原始频谱第一和第二声道信号之间的差值;
通过在一个抽样接一个抽样的基础上考虑所述加强信息所反映出的所述差值来生成加强频谱第一和第二声道信号;以及
将所述加强频谱第一和第二声道信号转换到时域,生成重建多声道音频信号的第一声道信号(
Figure A038260740007C3
)和第二声道信号( )。
31、如权利要求30所述的方法,其中通过对从所述接收的加强信息中获得的量化后的频谱加强抽样进行反量化来获得所述差值,所述反量化对可获得量化后频谱加强抽样的每个频带使用指定量化增益,其中所述加强信息中指示了所述量化增益。
32、如权利要求31所述的方法,其中所述接收到的加强信息从所有的频带中将那些所述状态信息表示所述声道信号(L、R)中占支配地位的一个信号的频带以及那些可获得量化后频谱加强抽样的频带标识出来,其中在生成所述加强频谱第一和第二声道信号的过程中考虑所述频带的标识信息。
33、如权利要求31或32所述的方法,其中通过将所述接收的加强信息中所包含的代码簿索引的反向代码映射成量化后的频谱加强抽样的相应预定数量组的值,从所述接收的加强信息中获得所述量化后的频谱加强抽样。
34、如权利要求33所述的方法,其中所述接收到的加强信息只包括用于所选择抽样组的代码簿索引,其中所述加强信息还包括包含有代码簿索引的所述组的标识信息,其中在生成所述加强频谱第一和第二声道信号的过程中考虑所述组的标识信息。
35、如权利要求30到34中任一个所述的方法,其中所述加强信息还包括提供至少所述状态信息和所述加强信息所用的比特率的指示信息,所述比特率指示信息用于确定接收的加强信息的数量。
36、如权利要求21到35中任一个所述的方法,其中所述第一声道信号(L)是立体声音频信号的左声道信号,所述第二声道信号(R)是所述立体声音频信号的右声道信号。
37、一种多声道音频编码器(20),包括用于实现权利要求1-20中任一个方法步骤的装置(22-26;30-38)。
38、一种用于多声道音频编码器(20)的多声道扩展编码器(26),所述多声道扩展编码器(26)包括用于实现权利要求1、3、4和6-20中任一个所述方法步骤的装置(30-38)。
39、一种多声道音频解码器(21),包括用于实现权利要求21-36中任一个所述方法步骤的装置(27-29;40-46)。
40、一种用于多声道音频解码器(20)的多声道扩展解码器(29),所述多声道扩展编码器(29)包括用于实现权利要求21、22和25-36中任一个所述方法步骤的装置(40-46)。
41、一种多声道音频编码系统,包括具有用于实现权利要求1-20中任一个方法步骤的装置(22-26;30-38)的编码器(20),和具有用于实现权利要求21-36中任一个所述方法步骤的装置(27-29;40-46)的解码器(21)。
CN038260743A 2003-03-04 2003-03-21 多声道音频扩展支持 Expired - Fee Related CN1748443B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
IB0300793 2003-03-04
IBPCT/IB03/00793 2003-03-04
WOPCT/IB03/00793 2003-03-04
PCT/IB2003/001662 WO2004080125A1 (en) 2003-03-04 2003-03-21 Support of a multichannel audio extension

Publications (2)

Publication Number Publication Date
CN1748443A true CN1748443A (zh) 2006-03-15
CN1748443B CN1748443B (zh) 2010-09-22

Family

ID=32948030

Family Applications (1)

Application Number Title Priority Date Filing Date
CN038260743A Expired - Fee Related CN1748443B (zh) 2003-03-04 2003-03-21 多声道音频扩展支持

Country Status (5)

Country Link
US (1) US7787632B2 (zh)
EP (2) EP1611772A1 (zh)
CN (1) CN1748443B (zh)
AU (1) AU2003219430A1 (zh)
WO (1) WO2004080125A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101521012B (zh) * 2009-04-08 2011-12-28 武汉大学 Mdct域信号能量与相位补偿方法及其装置
CN103680546A (zh) * 2013-12-31 2014-03-26 深圳市金立通信设备有限公司 一种音频播放方法、终端及系统
CN103999154A (zh) * 2011-12-12 2014-08-20 摩托罗拉移动有限责任公司 用于音频编码的装置和方法
CN106797523A (zh) * 2014-08-01 2017-05-31 史蒂文·杰伊·博尼 音频设备
CN108269585A (zh) * 2013-04-05 2018-07-10 杜比实验室特许公司 使用高级频谱延拓降低量化噪声的压扩装置和方法
CN113302687A (zh) * 2019-01-17 2021-08-24 日本电信电话株式会社 多点控制方法、装置及程序

Families Citing this family (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2992097C (en) * 2004-03-01 2018-09-11 Dolby Laboratories Licensing Corporation Reconstructing audio signals with multiple decorrelation techniques and differentially coded parameters
KR100773539B1 (ko) * 2004-07-14 2007-11-05 삼성전자주식회사 멀티채널 오디오 데이터 부호화/복호화 방법 및 장치
KR20070056081A (ko) * 2004-08-31 2007-05-31 마츠시타 덴끼 산교 가부시키가이샤 스테레오 신호 생성 장치 및 스테레오 신호 생성 방법
EP1806737A4 (en) * 2004-10-27 2010-08-04 Panasonic Corp TONE CODIER AND TONE CODING METHOD
US8170883B2 (en) 2005-05-26 2012-05-01 Lg Electronics Inc. Method and apparatus for embedding spatial information and reproducing embedded signal for an audio signal
EP1908057B1 (en) 2005-06-30 2012-06-20 LG Electronics Inc. Method and apparatus for decoding an audio signal
US8494667B2 (en) 2005-06-30 2013-07-23 Lg Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
CA2613731C (en) * 2005-06-30 2012-09-18 Lg Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
US7788107B2 (en) 2005-08-30 2010-08-31 Lg Electronics Inc. Method for decoding an audio signal
JP4568363B2 (ja) 2005-08-30 2010-10-27 エルジー エレクトロニクス インコーポレイティド オーディオ信号デコーディング方法及びその装置
RU2473062C2 (ru) * 2005-08-30 2013-01-20 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ кодирования и декодирования аудиосигнала и устройство для его осуществления
ATE455348T1 (de) 2005-08-30 2010-01-15 Lg Electronics Inc Vorrichtung und verfahren zur dekodierung eines audiosignals
JP4859925B2 (ja) 2005-08-30 2012-01-25 エルジー エレクトロニクス インコーポレイティド オーディオ信号デコーディング方法及びその装置
KR100878833B1 (ko) 2005-10-05 2009-01-14 엘지전자 주식회사 신호 처리 방법 및 이의 장치, 그리고 인코딩 및 디코딩방법 및 이의 장치
US7646319B2 (en) 2005-10-05 2010-01-12 Lg Electronics Inc. Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor
CN101283249B (zh) 2005-10-05 2013-12-04 Lg电子株式会社 信号处理的方法和装置以及编码和解码方法及其装置
US7696907B2 (en) 2005-10-05 2010-04-13 Lg Electronics Inc. Method and apparatus for signal processing and encoding and decoding method, and apparatus therefor
US7672379B2 (en) 2005-10-05 2010-03-02 Lg Electronics Inc. Audio signal processing, encoding, and decoding
US7751485B2 (en) 2005-10-05 2010-07-06 Lg Electronics Inc. Signal processing using pilot based coding
KR100866885B1 (ko) 2005-10-20 2008-11-04 엘지전자 주식회사 멀티채널 오디오 신호의 부호화 및 복호화 방법과 그 장치
US7653533B2 (en) 2005-10-24 2010-01-26 Lg Electronics Inc. Removing time delays in signal paths
US7752053B2 (en) 2006-01-13 2010-07-06 Lg Electronics Inc. Audio signal processing using pilot based coding
WO2007089129A1 (en) * 2006-02-03 2007-08-09 Electronics And Telecommunications Research Institute Apparatus and method for visualization of multichannel audio signals
KR100904437B1 (ko) 2006-02-23 2009-06-24 엘지전자 주식회사 오디오 신호의 처리 방법 및 장치
EP2092516A4 (en) * 2006-11-15 2010-01-13 Lg Electronics Inc METHOD AND APPARATUS FOR AUDIO SIGNAL DECODING
KR101434198B1 (ko) * 2006-11-17 2014-08-26 삼성전자주식회사 신호 복호화 방법
US8265941B2 (en) 2006-12-07 2012-09-11 Lg Electronics Inc. Method and an apparatus for decoding an audio signal
KR20090115200A (ko) * 2007-02-13 2009-11-04 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
US20100121470A1 (en) * 2007-02-13 2010-05-13 Lg Electronics Inc. Method and an apparatus for processing an audio signal
JP5254983B2 (ja) 2007-02-14 2013-08-07 エルジー エレクトロニクス インコーポレイティド オブジェクトベースオーディオ信号の符号化及び復号化方法並びにその装置
KR20080082917A (ko) * 2007-03-09 2008-09-12 엘지전자 주식회사 오디오 신호 처리 방법 및 이의 장치
JP5541928B2 (ja) * 2007-03-09 2014-07-09 エルジー エレクトロニクス インコーポレイティド オーディオ信号の処理方法及び装置
WO2009031870A1 (en) * 2007-09-06 2009-03-12 Lg Electronics Inc. A method and an apparatus of decoding an audio signal
US8548815B2 (en) 2007-09-19 2013-10-01 Qualcomm Incorporated Efficient design of MDCT / IMDCT filterbanks for speech and audio coding applications
EP2215628A1 (en) * 2007-11-27 2010-08-11 Nokia Corporation Mutichannel audio encoder, decoder, and method thereof
EP2215627B1 (en) * 2007-11-27 2012-09-19 Nokia Corporation An encoder
WO2009116280A1 (ja) * 2008-03-19 2009-09-24 パナソニック株式会社 ステレオ信号符号化装置、ステレオ信号復号装置およびこれらの方法
WO2010032992A2 (ko) * 2008-09-18 2010-03-25 한국전자통신연구원 Mdct기반의 코너와 이종의 코더간 변환에서의 인코딩 장치 및 디코딩 장치
JP5754899B2 (ja) 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
JP5609737B2 (ja) 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
US9112591B2 (en) 2010-04-16 2015-08-18 Samsung Electronics Co., Ltd. Apparatus for encoding/decoding multichannel signal and method thereof
JP6075743B2 (ja) 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
DK3067888T3 (en) 2011-04-15 2017-07-10 ERICSSON TELEFON AB L M (publ) DECODES FOR DIMAGE OF SIGNAL AREAS RECONSTRUCTED WITH LOW ACCURACY
US9111542B1 (en) * 2012-03-26 2015-08-18 Amazon Technologies, Inc. Audio signal transmission techniques
RU2725416C1 (ru) * 2012-03-29 2020-07-02 Телефонактиеболагет Лм Эрикссон (Пабл) Расширение полосы частот гармонического аудиосигнала
CN103971692A (zh) * 2013-01-28 2014-08-06 北京三星通信技术研究有限公司 音频处理方法、装置及系统
US9659569B2 (en) 2013-04-26 2017-05-23 Nokia Technologies Oy Audio signal encoder
CN103413553B (zh) * 2013-08-20 2016-03-09 腾讯科技(深圳)有限公司 音频编码方法、音频解码方法、编码端、解码端和系统
TWI634547B (zh) * 2013-09-12 2018-09-01 瑞典商杜比國際公司 在包含至少四音訊聲道的多聲道音訊系統中之解碼方法、解碼裝置、編碼方法以及編碼裝置以及包含電腦可讀取的媒體之電腦程式產品
EP3291233B1 (en) 2013-09-12 2019-10-16 Dolby International AB Time-alignment of qmf based processing data
US9875746B2 (en) 2013-09-19 2018-01-23 Sony Corporation Encoding device and method, decoding device and method, and program
AU2014371411A1 (en) 2013-12-27 2016-06-23 Sony Corporation Decoding device, method, and program
KR101841380B1 (ko) 2014-01-13 2018-03-22 노키아 테크놀로지스 오와이 다중-채널 오디오 신호 분류기
EP2980789A1 (en) * 2014-07-30 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhancing an audio signal, sound enhancing system
US10362423B2 (en) 2016-10-13 2019-07-23 Qualcomm Incorporated Parametric audio decoding
JPWO2022009505A1 (zh) * 2020-07-07 2022-01-13

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5539829A (en) 1989-06-02 1996-07-23 U.S. Philips Corporation Subband coded digital transmission system using some composite signals
NL9000338A (nl) * 1989-06-02 1991-01-02 Koninkl Philips Electronics Nv Digitaal transmissiesysteem, zender en ontvanger te gebruiken in het transmissiesysteem en registratiedrager verkregen met de zender in de vorm van een optekeninrichting.
US5649029A (en) * 1991-03-15 1997-07-15 Galbi; David E. MPEG audio/video decoder
DE4136825C1 (zh) * 1991-11-08 1993-03-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung Ev, 8000 Muenchen, De
DE4331376C1 (de) * 1993-09-15 1994-11-10 Fraunhofer Ges Forschung Verfahren zum Bestimmen der zu wählenden Codierungsart für die Codierung von wenigstens zwei Signalen
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
US5890125A (en) 1997-07-16 1999-03-30 Dolby Laboratories Licensing Corporation Method and apparatus for encoding and decoding multiple audio channels at low bit rates using adaptive selection of encoding method
KR100335611B1 (ko) * 1997-11-20 2002-10-09 삼성전자 주식회사 비트율 조절이 가능한 스테레오 오디오 부호화/복호화 방법 및 장치
US6016473A (en) 1998-04-07 2000-01-18 Dolby; Ray M. Low bit-rate spatial coding method and system
US6757659B1 (en) * 1998-11-16 2004-06-29 Victor Company Of Japan, Ltd. Audio signal processing apparatus
AU2002314444A1 (en) 2001-07-09 2003-01-29 Rosemary Ann Ainslie Power supply for electrical resistance operated installations and appliances
SE0202159D0 (sv) * 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101521012B (zh) * 2009-04-08 2011-12-28 武汉大学 Mdct域信号能量与相位补偿方法及其装置
CN103999154B (zh) * 2011-12-12 2015-07-15 摩托罗拉移动有限责任公司 用于音频编码的装置和方法
CN103999154A (zh) * 2011-12-12 2014-08-20 摩托罗拉移动有限责任公司 用于音频编码的装置和方法
CN108269586A (zh) * 2013-04-05 2018-07-10 杜比实验室特许公司 使用高级频谱延拓降低量化噪声的压扩装置和方法
CN108269585A (zh) * 2013-04-05 2018-07-10 杜比实验室特许公司 使用高级频谱延拓降低量化噪声的压扩装置和方法
CN108269585B (zh) * 2013-04-05 2022-03-25 杜比实验室特许公司 使用高级频谱延拓降低量化噪声的压扩装置和方法
CN108269586B (zh) * 2013-04-05 2022-04-05 杜比实验室特许公司 使用高级频谱延拓降低量化噪声的压扩装置和方法
US11423923B2 (en) 2013-04-05 2022-08-23 Dolby Laboratories Licensing Corporation Companding system and method to reduce quantization noise using advanced spectral extension
CN103680546A (zh) * 2013-12-31 2014-03-26 深圳市金立通信设备有限公司 一种音频播放方法、终端及系统
CN106797523A (zh) * 2014-08-01 2017-05-31 史蒂文·杰伊·博尼 音频设备
US10362422B2 (en) 2014-08-01 2019-07-23 Steven Jay Borne Audio device
CN106797523B (zh) * 2014-08-01 2020-06-19 史蒂文·杰伊·博尼 音频设备
US11330385B2 (en) 2014-08-01 2022-05-10 Steven Jay Borne Audio device
CN113302687A (zh) * 2019-01-17 2021-08-24 日本电信电话株式会社 多点控制方法、装置及程序

Also Published As

Publication number Publication date
AU2003219430A1 (en) 2004-09-28
EP2665294A2 (en) 2013-11-20
US7787632B2 (en) 2010-08-31
CN1748443B (zh) 2010-09-22
EP1611772A1 (en) 2006-01-04
WO2004080125A1 (en) 2004-09-16
US20070165869A1 (en) 2007-07-19

Similar Documents

Publication Publication Date Title
CN1748443A (zh) 多声道音频扩展支持
CN1126265C (zh) 可伸缩的立体声音频编码/解码方法和装置
CN1131598C (zh) 可缩放的音频编码/解码方法和装置
CN1288622C (zh) 编码设备和解码设备
CN1096148C (zh) 信号编码方法和装置
CN1132151C (zh) 多通道声解码器
CN1288625C (zh) 音频编码与解码设备及其方法
CN1910655A (zh) 构造多通道输出信号或生成下混信号的设备和方法
CN1233163C (zh) 多声道数字音频信号的压缩编码和解码设备及其方法
CN1969317A (zh) 基于多个参数化的多声道重构
CN1765072A (zh) 多声道音频扩展支持
CN1689069A (zh) 声音编码设备和声音编码方法
CN1161751C (zh) 语音分析方法和语音编码方法及其装置
CN1890711A (zh) 将数字信号编码成可扩缩比特流的方法和对可扩缩比特流解码的方法
CN101055719A (zh) 多声道数字音频编码设备及其方法
CN1156872A (zh) 语音编码的方法和装置
CN101036183A (zh) 立体声兼容的多声道音频编码
CN1871501A (zh) 频谱编码装置、频谱解码装置、音响信号发送装置、音响信号接收装置及其使用方法
CN1338104A (zh) 自适应块长编码系统的数据分帧
CN101048649A (zh) 可扩展解码装置及可扩展编码装置
CN1930608A (zh) 生成等级参数的设备和方法及生成多通道表示的设备和方法
CN1391689A (zh) 宽带语音和音频信号解码器中的增益平滑
CN1457425A (zh) 用于语音编码的码本结构与搜索
CN1910657A (zh) 声频信号编码方法、声频信号解码方法、发送器、接收器和无线传声系统
CN1922660A (zh) 通信装置和信号编码/解码方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: NOKIA 2011 PATENT TRUST CO.

Free format text: FORMER OWNER: NOKIA OYJ

Effective date: 20120220

C41 Transfer of patent application or patent right or utility model
C56 Change in the name or address of the patentee

Owner name: 2011 INTELLECTUAL PROPERTY ASSET TRUST CO.

Free format text: FORMER NAME: NOKIA 2011 PATENT TRUST CO.

CP01 Change in the name or title of a patent holder

Address after: Delaware

Patentee after: 2011 Intellectual Property Asset Trust

Address before: Delaware

Patentee before: NOKIA 2011 patent trust

TR01 Transfer of patent right

Effective date of registration: 20120220

Address after: Delaware

Patentee after: NOKIA 2011 patent trust

Address before: Espoo, Finland

Patentee before: NOKIA Corp.

ASS Succession or assignment of patent right

Owner name: CORE WIRELESS LICENSING S.A.R.L.

Free format text: FORMER OWNER: 2011 INTELLECTUAL PROPERTY ASSET TRUST CO.

Effective date: 20120417

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20120417

Address after: Luxemburg Luxemburg

Patentee after: NOKIA Inc.

Address before: Delaware

Patentee before: 2011 Intellectual Property Asset Trust

CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100922

Termination date: 20160321

CF01 Termination of patent right due to non-payment of annual fee