CN101484936B - 音频解码 - Google Patents

音频解码 Download PDF

Info

Publication number
CN101484936B
CN101484936B CN2007800122717A CN200780012271A CN101484936B CN 101484936 B CN101484936 B CN 101484936B CN 2007800122717 A CN2007800122717 A CN 2007800122717A CN 200780012271 A CN200780012271 A CN 200780012271A CN 101484936 B CN101484936 B CN 101484936B
Authority
CN
China
Prior art keywords
band
matrix
signal
sub
sound channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2007800122717A
Other languages
English (en)
Other versions
CN101484936A (zh
Inventor
L·F·威尔莫斯
E·G·P·舒杰斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Dolby International AB
Original Assignee
Koninklijke Philips Electronics NV
Dolby Sweden AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips Electronics NV, Dolby Sweden AB filed Critical Koninklijke Philips Electronics NV
Publication of CN101484936A publication Critical patent/CN101484936A/zh
Application granted granted Critical
Publication of CN101484936B publication Critical patent/CN101484936B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Abstract

一种音频解码器,包括:用于接收输入数据的接收机(801),其中该输入数据包括与M声道信号的下混合信号相对应的N声道信号,并且M>N,由此具有在频率子波段中应用的复数值子波段编码矩阵以及参数化多声道数据。子波段滤波器组(805)为N声道信号产生实数值频率子波段。矩阵处理器(809)响应于参数化多声道数据来确定用于补偿编码矩阵应用的实数值子波段解码矩阵。补偿处理器(807)则对实数值子波段解码矩阵和至少某些实数值频率子波段中的N声道信号数据执行矩阵乘法,以便产生与下混合信号相对应的下混合数据。下混合数据可以用于重新产生下混合信号以及M声道音频信号。解码器可以使用实数值频率子波段来补偿在编码器上执行的MPEG矩阵环绕兼容性操作。

Description

音频解码
本发明涉及音频解码,尤其涉及但不局限于MPEG环绕信号解码。
在最近十年,随着数字信号表示和通信越来越多地取代模拟表示和通信,各种源信号的数字编码也变得日益重要。例如,诸如视频和音乐之类的媒体内容的分发越来越多地以数字内容编码为基础。
此外,最近十年呈现了发展多声道音频、尤其是超越常规立体声信号的空间音频的趋势。例如,传统的立体声录音只包括两个声道,而现代的先进音频系统则通常使用了五或六个声道,就好像流行的5.1环绕声系统那样。这样做提供了更复杂的聆听体验,其中用户可以被声源所环绕。
目前还开发了各种技术和标准,以便传递此类多声道信号。例如,代表5.1环绕系统的六个离散声道可以依照诸如先进音频编码(ACC)或Dolby数字标准之类的标准来传送。
但是,众所周知,为了提供后向兼容性,数量较多的声道会被下混合成数量较少的声道,特别地,经常采用的用法是将5.1环绕声信号下混合成立体声信号,以便允许传统(立体声)解码器再现立体声信号,以及允许环绕声解码器再现5.1信号。
这其中的一个实例是MPEG2后向兼容编码方法。多声道信号下混合成立体声信号。在辅助数据部分中,附加信号将被编码为多声道数据,由此允许MPEG2多声道解码器产生多声道信号表示。MPEG1解码器则会丢弃辅助数据,并且由此仅仅解码立体声下混合信号。这种应用在MPEG2中的编码方法的主要缺点是附加信号所需要的附加数据速率与立体声信号所需要的数据速率处于相同的数量级。由此,用于将立体声扩展成多声道音频的附加比特率将会很大。
其他那些用于在没有附加多声道信息的情况下后向兼容多声道传输的现有方法通常可以表征为矩阵式环绕方法。关于矩阵环绕方法的实例包括Dolby Prologic II和Logic-7之类的方法。这些方法的共同原理是其对输入信号的多个声道与适当矩阵执行矩阵乘法,由此产生声道数量较少的输出信号。特别地,在将环绕声道与前置声道和中置声道混合之前,矩阵编码器通常会对环绕声道施加相移处理。
执行声道变换的另一个原因是编码效率。举个例子,人们已经发现,环绕声音频信号可以编码成与描述音频信号空间属性的参数比特流相混合的立体声音频信号。而解码器则可以以非常令人满意的精确度来再现立体声音频信号。这样做可以极大节约比特率。
我们可以采用若干个参数来描述音频信号的空间属性。这其中的一个参数是声道间互相关,例如立体声信号的左声道和右声道之间的互相关。另一个参数是声道功率比。在所谓的(参数化)空间音频编码器、例如MPEG环绕编码器中,这些和其他参数是从原始音频信号中提取的,由此将会产生声道数量减少、例如只具有单个声道的音频信号,以及一组描述原始音频信号空间属性的参数。在所谓的(参数化)空间音频解码器中则会恢复由所传送的空间参数描述的空间属性。
优选地,这种空间音频编码使用了包含编码器和解码器中的标准单元的级联或基于树形的分层结构。在编码器中,这些标准单元可以是将声道下混合成数量减少的声道的下混合器,例如2-1、3-1、3-2等等下混合器,而在解码器中,相应的标准单元可以是将声道分离成数量更多的声道的上混合器,例如1-2、2-3上混合器。
图1描述了一个依照当前由MPEG制定标准并且名为MPEG环绕的方法来对多声道音频信号进行编码的编码器的实例。MPEG环绕系统将多声道信号编码成一个伴有一组参数的单声道或立体声下混合信号。这个下混合信号可以由传统的音频编码器、例如MP3或AAC编码器来进行编码。这些参数则代表了多声道音频信号的空间图像,并且可以采用与传统音频流后向兼容的方式而被编码和嵌入。
在解码器端,首先解码的是核心比特流,其结果是产生了单声道或立体声下混合信号。对传统解码器、也就是不使用MPEG环绕解码的解码器来说,这些解码器仍旧可以解码这个下混合信号。但是,如果MPEG环绕解码器可用,那么空间参数将被恢复,由此将会产生一个在知觉上与原始的多声道输入信号接近的多声道表示。在图2中描述了MPEG环绕解码器的一个实例。
与图1和图2所示的基本空间编码/解码处理不同,MPEG环绕系统提供了允许在大量应用领域中实行的丰富特征集合。这其中的一个最为突出的特征被称为矩阵兼容性或矩阵式环绕兼容性。
传统矩阵环绕系统的实例是Dolby ProLogic I和II以及CircleSurround(圆形环绕)。这些系统是依照图3所示方式工作的。多声道PCM输入信号变换成所谓的矩阵式下混合信号,其中所述变换通常是使用5(.1)-2矩阵来进行的。矩阵环绕系统所依据的思想在于:在立体声下混合信号中,前置和环绕(后置)声道分别是同相和异相混合的。在某种程度上,这样做允许在解码器端执行倒置,由此实现多声道重建。
在矩阵环绕系统中,立体声信号可以用专供立体声传输使用的传统声道来传送。因此,与MPEG环绕系统相似,矩阵环绕系统同样提供了一种后向兼容性。但是,由于立体声下混合信号具有因为矩阵混合编码而产生的特定相位属性,因此,在将这些信号作为立体声信号而从扬声器或耳机收听时,这些信号通常是不具有很高的声音质量的。
在矩阵环绕解码器中,通过应用M-N(其中举例来说,M=2并且N=5(.1))矩阵,来产生多声道PCM输出信号。但是一般来说,N-M矩阵(N>M)是不可逆的,由此,矩阵环绕系统通常不能精确重建那些往往具有很明显的赝象(artefact)的原始多声道PCM输出信号。
与这种传统的矩阵环绕系统相比,MPEG环绕中的矩阵环绕兼容性是通过在MPEG环绕编码之后将2×2矩阵应用于MPEG环绕编码器的频率子波段中的复数采样值来实现的。在图4中描述了这种编码器的一个实例。通常,2×2矩阵是一个复数值矩阵,并且该矩阵的系数取决于空间参数。该系统中的空间参数是时变和频变的,由此,这个2×2矩阵同样是时变和频变的。相应地,复数矩阵操作通常被应用于时间-频率矩阵块(tile)。
通过在MPEG环绕编码器中应用矩阵环绕兼容性,可以允许最终得到的立体声信号与常规矩阵环绕编码器、例如Dolby Pro-LogicTM产生的信号相兼容。这样做将会允许传统解码器解码环绕信号。此外,在兼容的MPEG环绕解码器中可以反转矩阵环绕兼容性的操作,由此允许产生高质量的多声道信号。
矩阵兼容性编码矩阵可以描述如下:
L MTX R MTX = H L R = h 11 h 12 h 21 h 22 L R
其中L,R是常规的MPEG立体声下混合信号,LMTX、RMTX是经过矩阵环绕编码的下混合信号,并且其中hxy是响应于多声道参数而被确定的复数系数。
通过借助2×2矩阵来提供矩阵兼容的立体声信号的主要优点在于:这些矩阵都是可逆的。由此,无论在编码器上是否使用矩阵兼容的立体声下混合信号,MPEG环绕解码器都可以实现相同的输出音频质量。在图5中描述了兼容的MPEG环绕解码器的一个实例。
由此,在常规的MPEG环绕解码器中,解码器端的逆过程可以如下确定:
L R = H - 1 L MTX R MTX = h 11 , D h 12 , D h 21 , D h 22 , D L MTX R MTX
这样一来,由于H可逆,因此矩阵兼容性编码器的操作也是可逆的。
在MPEG环绕系统中,包括矩阵兼容性操作在内的处理是在频域中进行的。更具体地说,所谓的复指数调制正交镜像滤波器(QMF)组将被使用,以便将频率轴分为多个波段。
在不同方面,这种QMF组可以等同于重叠相加的离散傅里叶变换(DFT)组,或是等同于作为其有效对应物的快速傅里叶变换(FFT)。QMF组以及DFT组共同拥有用于信号处理的下列预期属性:
-频域表示是过采样的。由于该属性,我们可以在不引入混淆失真的情况下应用诸如均衡(单个波段扩缩)之类的处理。对临界采样表示、例如在AAC中使用的公知的改良离散余弦逆变换(MDCT)来说,这些表示并不遵守这个属性。因此,在合成处理之前实施的MDCT系数的时变和频变修改将会招致混淆,而这转而会在输出信号中导致听觉赝象。
-频域表示的值是复数的。与实数值表示相比,复数值表示允许对信号相位进行简单的修改。
虽然在信号处理方面有很多超越临界采样实数值表示的优点,但是与这种表示相比,一个非常显著的缺点是计算复杂度。对MPEG环绕解码器来说,其复杂度的一个主要部分归因于QMF分析和合成滤波器组,以及针对复数值信号所进行的相应处理。
相应地,目前还提出了在实数值域中为所谓的低功率(LP)解码器执行一部分处理。为此目的,复数调制的滤波器组将会被实数值余弦调制滤波器组所取代,其后跟随的是用于较低频率波段且针对复数值域的局部扩展。在图6中描述了这样一个滤波器组。
在常规的操作模式中,MPEG环绕解码器将实数值处理应用于复数值的子波段域采样,对LP来说,该解码器会将这些处理应用于实数值的子波段域采样。但是,在解码器中,矩阵兼容性特性包含了相位旋转,以便在频域中恢复原始的立体声下混合信号。这些相位旋转是借助复数值处理来完成的。换句话说,矩阵兼容性解码矩阵H-1本身是复数值的,由此可以引入所需要的相位旋转。相应地,在该系统中,矩阵环绕兼容操作在LP频域表示的实数值部分是不可逆的,由此将会导致解码质量下降。
因此,较为有利的是具有一种改进的音频解码处理。
相应地,本发明试图较合适地减轻、缓解或者消除如上所述的一个或多个单独缺陷或是其组合。
根据本发明的第一个方面,在这里提供了一种音频解码器,包括:用于接收输入数据的装置,其中该输入数据包括与M声道音频信号的下混合信号相对应的N声道信号,M>N,由此具有在频率子波段中应用的复数值子波段编码矩阵,以及与下混合信号相关联的参数化多声道数据;用于为N声道信号产生频率子波段的装置,其中至少某些频率子波段是实数值频率子波段;用于确定实数值子波段解码矩阵,以便响应于参数化多声道数据来补偿编码矩阵应用的确定装置;通过对实数值子波段解码矩阵和至少某些实数值频率子波段中的N声道信号的数据执行矩阵乘法来产生与下混合信号相对应的下混合数据的装置。
本发明可以提供改进和/或便利的解码处理。特别地,本发明可以极大降低复杂度,同时实现很高的音频质量。举个例子,本发明允许使用实数值频率子波段而在解码器上至少部分翻转复数值子波段矩阵复数值子波段矩阵乘法的效果。
作为一个特定实例,举例来说,本发明可以允许在MPEG环绕解码器中使用实数值频率子波段来部分翻转MPEG矩阵兼容的编码处理。
解码器可以包括响应于下混合数据来产生下混合信号的装置,并且还可以包括响应于下混合数据和参数化多声道数据来产生M声道音频信号的装置。在此类实施例中,本发明可以至少部分基于实数值频率子波段来产生精确的多声道音频信号。
在这里可以为每一个频率子波段确定一个不同的解码矩阵。
根据本发明的一个可选特征,确定装置被调整成确定编码矩阵的复数值子波段逆矩阵,以及响应于所述逆矩阵来确定解码矩阵。
这样做可以提供特别有效的实施方式和/或改进的解码质量。
根据本发明的一个可选特征,确定装置被调整成响应于逆矩阵的相应矩阵系数的绝对值来确定解码矩阵的每一个实数值矩阵系数。
这样做可以提供特别有效的实施方式和/或改进的解码质量。解码矩阵的每一个实数值矩阵系数都可以仅仅响应于逆矩阵中的相应矩阵系数的绝对值来确定,而不用考虑其他任何矩阵系数。相应的矩阵系数可以是用于相同频率子波段的逆矩阵中的相同位置的矩阵系数。
根据本发明的一个可选特征,确定装置被调整成将每一个实数值矩阵系数实际确定成是逆矩阵中相应矩阵系数的绝对值。
这样做可以提供特别有效的实施方式和/或改进的解码质量。
根据本发明的一个可选特征,确定装置被调整成响应于子波段变换矩阵来确定解码矩阵,其中所述子波段变换矩阵是相应解码矩阵与编码矩阵的乘积。
这样做可以提供特别有效的实施方式和/或改进的解码质量。相应的解码和编码矩阵可以是用于相同频率子波段的编码和解码矩阵。特别地,确定装置可以被调整成选择解码矩阵的系数值,以使变换矩阵具有预期特性。
根据本发明的一个可选特征,确定装置被调整成仅仅响应于变换矩阵的幅度量度来确定解码矩阵。
这样做可以提供特别有效的实施方式和/或改进的解码质量。特别地,确定装置可以被调整成在确定解码矩阵时忽略相位量度。这样做可以降低复杂度,同时保持很低的可知觉音频质量降级。
根据本发明的一个可选特征,每一个子波段的变换矩阵是如下给出的:
P = p 11 p 12 p 21 p 22 = G · H = g 11 g 12 g 21 g 22 · h 11 h 12 h 21 h 22
其中G是子波段解码矩阵,H是子波段编码矩阵,并且确定装置被调整成选择矩阵系数
g 11 g 12 g 21 g 22
以使p12和p21的功率量度满足一个判据。
这样做可以提供特别有效的实施方式和/或改进的解码质量。通过选择解码矩阵,可以产生低于某个阈值(该阈值可以响应于约束条件或其他参数而被确定)的功率量度,或者举例来说,该解码矩阵也可以被选作是产生最小功率量度的解码矩阵。
根据本发明的一个可选特征,幅度量度是响应于
Figure G2007800122717D00071
来确定的。
这样做可以提供特别有效的实施方式和/或改进的解码质量。
根据本发明的一个可选特征,确定装置还被调整成在基本等于1的p11和p22的幅度的约束下选择矩阵系数。
这样做可以提供特别有效的实施方式和/或改进的解码质量。
根据本发明的一个可选特征,下混合信号和参数化多声道数据依照的是MPEG环绕标准。
本发明可以为MPEG环绕兼容信号提供特别有效、复杂度低和/或音频质量改进的解码处理。
根据本发明的一个可选特征,编码矩阵是一个MPEG矩阵环绕兼容性编码矩阵,并且第一个N声道信号是一个MPEG矩阵环绕兼容性信号。
本发明可以提供特别有效、复杂度低和/或改进的音频质量,尤其可以提供低复杂度的解码处理,以便补偿在编码器上执行的MPEG矩阵环绕兼容性操作。
根据本发明的另一个方面,在这里提供了一种音频解码方法,该方法包括:接收输入数据,其中该输入数据包括与M声道音频信号的下混合信号相对应的N声道信号,M>N,由此具有应用于频率子波段的复数值子波段编码矩阵以及与下混合信号相关联的参数化多声道数据;为N声道信号产生频率子波段,其中至少某些频率子波段是实数值频率子波段;响应于参数化多声道数据来确定用于补偿编码矩阵应用的实数值子波段解码矩阵;以及通过对实数值子波段解码矩阵和至少某些实数值频率子波段中的N声道信号数据执行矩阵乘法来产生与下混合信号相对应的下混合数据。
根据本发明的另一个方面,在这里提供了一种用于接收N声道信号的接收机,该接收机包括:用于接收输入数据的装置,其中该输入数据包括与M声道音频信号的下混合信号相对应的N声道信号,M>N,由此具有在频率子波段中应用的复数值子波段编码矩阵,以及与下混合信号相关联的参数化多声道数据;用于为N声道信号产生频率子波段的装置,其中至少某些频率子波段是实数值频率子波段;用于确定实数值子波段解码矩阵,以便响应于参数化多声道数据来补偿编码矩阵应用的确定装置;通过对实数值子波段解码矩阵和至少某些实数值频率子波段中的N声道信号数据执行矩阵乘法来产生与下混合信号相对应的下混合数据的装置。
根据本发明的另一个方面,在这里提供了一种用于传送音频信号的传输系统,该传输系统包括:发射机,其中该发射机包括:用于产生M声道音频信号的N声道下混合信号的装置,其中M>N,用于产生与下混合信号相关联的参数化多声道数据的装置,通过将复数值子波段编码矩阵应用于频率子波段中的N声道下混合信号来产生第一个N声道信号的装置,用于产生第二个N声道信号的装置,其中所述第二个N声道信号包括第一个N声道信号和参数化多声道数据,以及用于将第二个N声道信号传送到接收机的装置;以及接收机,其中该接收机包括:用于接收第二个N声道信号的装置,用于为第一个N声道信号产生频率子波段的装置,其中至少某些频率子波段是实数值频率子波段,响应于参数化多声道数据来确定用于补偿编码矩阵应用的实数值子波段解码矩阵的确定装置,以及通过对  实数值子波段解码矩阵和至少某些实数值频率子波段中的N声道信号数据执行矩阵乘法来产生与N声道下混合信号相对应的下混合数据的装置。
第二个N声道信号可以具有附加的相关声道,其中该声道包括参数化多声道数据。
根据本发明的另一个方面,在这里提供了一种用于从可伸缩比特流中接收音频信号的方法,该方法包括:接收输入数据,其中该输入数据包括与M声道音频信号的下混合信号相对应的N声道信号,并且M>N,由此具有在频率子波段中应用的复数值子波段编码矩阵,以及与下混合信号相关联的参数化多声道数据;为N声道信号产生频率子波段,其中至少某些频率子波段是实数值频率子波段;响应于参数化多声道数据来确定用于补偿编码矩阵应用的实数值子波段解码矩阵;以及通过对实数值子波段解码矩阵和至少某些实数值频率子波段中的N声道信号数据执行矩阵乘法来产生与下混合信号相对应的下混合数据。
根据本发明的另一个方面,在这里提供了一种用于传送和接收音频信号的方法,该方法包括:在发射机上执行下列步骤:产生M声道音频信号的N声道下混合信号,其中M>N,产生与下混合信号相关联的参数化多声道数据,通过将复数值子波段编码矩阵应用于频率子波段中的N声道下混合信号来产生第一个N声道信号,产生包含了第一个N声道信号和参数化多声道数据的第二个N声道信号,以及将第二个N声道信号传送到接收机;以及在接收机上执行下列步骤:接收第二个N声道信号;为N声道信号产生频率子波段,其中至少某些频率子波段是实数值频率子波段;响应于参数化多声道数据来确定用于补偿编码矩阵应用的实数值子波段解码矩阵;以及通过对实数值子波段解码矩阵和至少某些实数值频率子波段中的N声道信号数据执行矩阵乘法来产生与下混合信号相对应的下混合数据。
从下文描述的一个或多个实施例中可以清楚了解本发明的这些和其他方面、特征和优点,并且本发明的这些和其他方面、特征和优点是通过参考这些实施例来进行说明的。
现在将参考附图来举例描述本发明的实施例,其中:
图1描述的是依照现有技术来编码多声道音频信号的编码器的实例;
图2描述的是依照现有技术来解码多声道音频信号的解码器的实例;
图3描述的是依照现有技术的矩阵环绕编码/解码系统的实例;
图4描述的是依照现有技术来编码多声道音频信号的编码器的实例;
图5描述的是依照现有技术来解码多声道音频信号的解码器的实例;
图6描述的是用于产生复数和实数值频率子波段的滤波器组的实例;
图7描述的是依照本发明某些实施例来传递音频信号的传输系统;
图8描述的是依照本发明某些实施例的解码器;
图9-14描述的是依照本发明某些实施例的解码器的性能特性;以及
图15描述的是依照本发明某些实施例的解码方法。
以下描述专注的是适用于对包括矩阵环绕兼容性编码在内的MPEG环绕编码信号进行解码的解码器的本发明的实施例。但是应该了解,本发明并不局限于这种应用,而是可以应用于众多其他的编码标准。
图7描述了一个依照本发明某些实施例来传递音频信号的传输系统700。该传输系统700包括一个通过网络705而与接收机703耦合的发射机701,特别地,该网络可以是因特网。
在具体实例中,发射机701是信号记录设备,而接收机703是信号播放器设备,但是应该了解,在其他实施例中,发射机和接收机也可以在其他应用中使用,并且可以用于其他用途。
在支持信号记录功能的具体实施例中,发射机701包括一个接收模拟多声道信号的数字化器707,该信号则通过采样和模数转换而被转换成数字PCM(脉冲编码调制)多声道信号。
发射机701与图1的编码器709相耦合,其中该编码器依照MPEG环绕编码算法来编码PCM信号,并且该算法包含了用于矩阵环绕兼容性编码的功能。举例来说,编码器709可以是图4中的现有技术的解码器。特别地,在本实例中,编码器709产生的是立体声MPEG矩阵环绕兼容的立体声下混合信号。
由此,编码器709将会产生如下给出的信号
L MTX R MTX = H L R = h 11 h 12 h 21 h 22 L R
其中L,R是常规的MPEG立体声下混合信号,LMTX、RMTX是编码器709输出的经过矩阵环绕兼容编码的下混合信号。此外,编码器709产生的信号包括MPEG环绕编码处理产生的多声道参数化数据。另外,hxy是响应于多声道参数而被确定的复数系数。正如本领域技术人员很容易了解的那样,编码器709执行的处理是在复数值子波段中使用复数操作来执行的。
编码器709与网络发射机711相耦合,其中该发射机接收编码信号,并且与网络705相对接。该网络发射机711可以通过网络705来向接收机703传送编码信号。
接收机703包括网络接口713,其中该网络接口与网络705相对接,并且被调整成接收来自发射机701的编码信号。
网络接口713与解码器715相耦合。该解码器715接收编码信号,并且依照解码算法来解码该信号。在本实例中,解码器715重新产生原始的多声道信号。特别地,解码器715首先产生与在执行MPEG矩阵环绕兼容操作之前由MPEG环绕编码产生的下混合信号相对应的已补偿的立体声下混合信号。然后,经过解码的多声道信号将会从这个下混合信号以及接收到的多声道参数化数据中产生。
在支持信号播放功能的具体实例中,接收机703还包括接收来自编码器715的已解码多声道音频信号并且将其显示给用户的信号播放器717。特别地,该信号播放器717可以包括输出解码音频信号所需要的数模转换器、放大器以及扬声器。
图8更详细地描述了解码器715。
解码器715包括用于接收编码器709所产生的信号的接收机801。如先前所述,该信号是一个与下混合信号相对应的立体声信号,其中所述下混合信号是由那些与复数值编码矩阵H相乘的复数值频率表子波段中的复数采样值来处理的。此外,接收信号还包括与下混合信号相对应的多声道参数化数据。特别地,接收信号是一个具有矩阵环绕兼容性处理的MPEG环绕编码信号。
接收机801还提供了关于接收信号的核心解码处理,以便产生下混合PCM信号。
接收机801与参数化数据处理器803相耦合,该处理器则从接收到的信号中提取多声道参数化数据。
接收机801还与子波段滤波器组805相耦合,其中所述子波段滤波器组将接收到的立体声信号变换到频域。特别地,子波段滤波器组805产生多个频率子波段。这其中的至少某些频率子波段是实数值频率子波段。特别地,该子波段滤波器组805可以对应于图6所示的功能。由此,子波段滤波器组805可以产生K个复数值子波段以及M-K个实数值子波段。实数值子波段通常是较高频率子波段,例如高于2kHz的子波段。通过使用实数值子波段,可以极大便利子波段生成处理以及在这些子波段中的采样上执行的操作。由此,在解码器715中,M-K个子波段是作为实数值数据和操作而不是复数值数据和操作来处理的,由此将会极大地降低复杂性和成本。
子波段滤波器组805与补偿处理器807相耦合,其中该处理器产生的是与下混合信号相对应的下混合数据。特别地,补偿处理器807是通过尝试反转编码器709的频率子波段中的编码矩阵H的乘积来补偿矩阵环绕兼容性操作的。这种补偿是通过将子波段的数据值与子波段解码矩阵G相乘来执行的。但是,与编码器709上的处理相比,解码器715的实数值子波段中的矩阵乘法仅仅是在实域中执行的。由此,不但采样值是实数值采样,而且解码矩阵G的矩阵系数同样也是实数值系数。
补偿处理器807与矩阵处理器809相耦合,其中该矩阵处理器确定的是在子波段中应用的解码矩阵。对M个复数值子波段来说,解码矩阵G可以简单地作为相同子波段中的编码矩阵H的逆矩阵来确定。但是,对实数值子波段来说,矩阵处理器809将会确定实数值矩阵系数,并且该系数可以为编码矩阵操作提供有效补偿。
由此,补偿处理器807的输出对应的是MPEG环绕编码下混合信号的子波段表示。相应地,矩阵环绕兼容性操作的效果可以极大降低或消除。
补偿处理器807与合成子波段滤波器组811相耦合,其中所述合成子波段滤波器组从子波段表示中产生时域PCM MPEG环绕解码器下混合信号。由此,在具体实例中,合成子波段滤波器组811会在将信号反向转换到时域的过程中形成子波段滤波器组805的对应物。
合成子波段滤波器组811被馈送到多声道解码器813,其中所述解码器还与参数化数据处理器803相耦合。所述多声道解码器813接收时域PCM下混合信号和多声道参数化数据,并且产生原始的多声道信号。
在本实例中,合成子波段滤波器组811将执行了矩阵操作的子波段信号变换到时域。由此,多声道解码器813接收一个MPEG环绕编码信号,该信号可以与在解码器上未应用矩阵环绕兼容操作时接收的信号相比较。这样一来,相同的MPEG多声道解码算法可以用于矩阵环绕兼容信号以及非矩阵环绕兼容信号。但是,在其他实施例中,多声道解码器813可以直接作用于子波段采样,随后利用补偿处理器807执行补偿。在这种情况下,合成子波段滤波器组811可以被忽略,或者合成子波段滤波器组811的某些功能可以与多声道解码器813整合。
由此,为了降低复杂度,较为优选的通常是在向多声道解码器813提供已补偿信号的时候停留在子波段域。由此,在这里可以避免合成子波段滤波器组811和分析滤波器组的复杂度,其中该分析滤波器组是多声道解码器813的一部分。
实际上,如果可能的话,通常较为优选的是不在频域与时域之间往返移动,因为这样做的计算成本将会很高。由此,在依照本发明某些实施例的解码器中,在将信号转换到子波段(频率)域时(这转而是通过解码核心比特流以及将滤波器组应用于所得到的PCM信号来确定的),在补偿处理器807中将会应用矩阵环绕反转处理(如果适合的话,也就是说,如果在比特流中用信号通告的话),然后,得到的子波段域信号被直接用于重建多声道(子波段域)信号。最后,合成滤波器组将被应用,以便获取时域多声道信号。
由此,在图7的系统中,编码器709可以产生矩阵环绕兼容信号,并且该信号可以由Dolby Pro Lo gicTM解码器之类的传统矩阵环绕解码器来解码。虽然这样做需要通过矩阵环绕兼容性操作来使原始MPEG环绕编码下混合信号失真,但在MPEG多声道解码器中可以有效移除这种操作,由此允许使用参数化数据来精确表示那些将要产生的原始多声道。
此外,解码器715允许补偿那些将要在实数值频率子波段中执行的矩阵环绕兼容性操作,而不需要复数值频率子波段,由此极大降低了解码器715的复杂度,同时还实现了很高的音频质量。
在下文中将会描述用于为解码矩阵确定适当矩阵系数的实例。
编码器709通过在每个子波段中应用以下复数值编码矩阵来执行矩阵环绕兼容性操作(可以理解的是,每一个子波段都具有不同的编码矩阵):
L MTX R MTX = H L R = h 11 h 12 h 21 h 22 L R
其中L、R是常规的立体声下混合信号,并且LMTX、RMTX是矩阵环绕编码下混合信号。而编码器矩阵H则是如下给出的:
h 11 = 1 - w 1 + jw 1 1 - 2 w 1 + 2 w 1 2 ,
h 22 = 1 - w 2 - jw 2 1 - 2 w 2 + 2 w 2 2 ,
h 12 = jw 2 3 ( 1 - 2 w 2 + 2 w 2 2 ) ,
h 21 = - jw 1 3 ( 1 - 2 w 1 + 2 w 1 2 ) ,
其中w1和w2取决于MPEG环绕编码处理产生的空间参数。特别地:
w 1 = w 1 , t 1 - 2 w 1 , t + 2 w 1 , t 2 ,
w 2 = w 2 , t 1 - 2 w 2 , t + 2 w 2 , t 2 ,
其中w1,t和w2,t是非归一化加权,并且它们是如下定义的:
w 1 , t = c 1 , MTX · 10 - CLD l 20 1 + 10 - CLD l 20 ,
w 2 , t = c 2 , MTX · 10 - CLD r 20 1 + 10 - CLD r 20
其中CLDl和CLDr分别代表的是左前、左环绕和右前、右环绕声道配对的声道等级差值(以dB为单位)。c1,MTX和c2,MTX是作为预测系数c1和c2的函数的矩阵系数,并且所述预测系数c1和c2被用于在解码器中以如下方式从左LDMX和右RDMX下混合信号中推导中间的左L、中C和右R信号:
L R C = c 1 + 2 c 2 - 1 c 1 - 1 c 2 + 2 1 - c 1 1 - c 2 L DMX R DMX
c1,MTX和c2,MTX分别是如下确定的:
c x , MTX = - 1 - 2 c x if - 1 &le; c x < - 0.5 1 / 3 + 2 c x / 3 if - 0.5 &le; c x < 1 , 1 elsewhere
其中x={0,1}。
作为替换,MPEG环绕解码器支持这样一种模式,在该模式中,系数c1和c2分别代表的是左与左中以及右与右中的功率比。这种情况下将会为c1,MTX和c2,MTX应用不同的函数。
由此,对每一个时间/频率矩阵块来说,复数值编码矩阵H被应用于复数采样值。如果前置信号在原始的多声道输入信号占据统治地位,那么加权w1和w2将会接近于零。这样一来,矩阵环绕下混合信号将会接近于输入的立体声下混合信号。如果环绕(后置)信号在原始的多声道输入信号中占据统治地位,那么加权w1和w2将会接近于1。由此,矩阵环绕下混合信号将会包含由MPEG环绕编码器提供的原始立体声下混合信号的高度异相版本。
借助2×2矩阵来提供矩阵兼容立体声信号的主要优点在于:这些矩阵是可逆的。由此,无论编码器是否使用矩阵兼容的立体声下混合信号,MPEG环绕解码器都可以实现相同的输出音频质量。
由此,在所有频率子波段都是复数值子波段的MPEG环绕解码器中(例如使用复数调制的QMF组),解码器端的逆处理是如下给出的:
L R = H - 1 L MTX R MTX = h 11 , D h 12 , D h 21 , D h 22 , D L MTX R MTX ,
其中
h 11 , D = h 22 N ,
h 22 , D = h 11 N ,
h 12 , D = - h 12 N ,
h 21 , D = - h 21 N ;
并且其中
N=h11h22-h12h21
但是,这种逆操作需要使用复数值,由此将无法在图7的解码器715中使用,这是因为该解码器(至少部分)使用了实数值子波段。相应地,矩阵处理器809产生一个实数值解码矩阵,并且该矩阵可以用于显著减小编码矩阵的影响。
在每一个子波段中,编码和解码矩阵的整体影响可以用如下给出的变换矩阵P来表示:
P = p 11 p 12 p 21 p 22 = G &CenterDot; H = g 11 g 12 g 21 g 22 &CenterDot; h 11 h 12 h 21 h 22 ,
其中H代表的是编码器矩阵,并且G代表的是解码器矩阵。
理论上,G=H-1,由此:P=H-1·H=I,即单位矩阵。由于编码器矩阵H的加权hxy全都是复数值,因此,在解码器中不能为实数值子波段反转该矩阵。
通常,实数值子波段处于较高的频率,例如2kHz以上的子波段。在这些频率上,相位关系在知觉方面的重要性是很小的,由此,矩阵处理器809将会确定具有适当幅度(功率)特性的解码矩阵系数,而不会考虑相位特性。特别地,矩阵处理器809可以确定实数值系数,在假设或者限定|p11|≈1和|p22|≈1的情况下,该系数将会产生低幅度或低功率值的串扰项p12和p21
在某些实施例中,矩阵处理器809可以确定编码矩阵的复数值子波段逆矩阵H-1,然后则可以从这个矩阵的矩阵系数中确定实数值解码矩阵G。特别地,G的每一个系数都可以从处于相同位置的H-1的系数中确定。例如,实数值系数可以从H-1的相应系数的幅度值中确定。实际上,在某些实施例中,矩阵处理器可以确定H-1的系数,由此可以确定G的系数,以此作为逆矩阵H-1中的相应矩阵系数的绝对值。
由此,矩阵处理器809可以将
G = g 11 g 12 g 21 g 22
确定为:
g 11 = h 11 , D = 1 | N | ,
g 12 = h 12 , D = w 2 | N | 3 ( 1 - 2 w 2 + 2 w 2 2 ) ,
g 21 = h 21 , D = w 1 | N | 3 ( 1 - 2 w 1 + 2 w 1 2 ) ,
g 22 = h 22 , D = 1 | N | ,
其中
N=h11h22-h12h21
如所示,在w1=w2=0和w1=w2=1的特殊情形中,这种解决方案完美满足了上述约束条件((|p11|=|p22|=1和|p12|=|p21|=0)。
图9描述了用于该解决方案的变换矩阵主项(101og10|p11|2)的幅度。图10描述了图11的p11与串扰项(101og10|p21|2)相位角。
特别地,图9以dB为单位显示了作为w1和w2的函数的主矩阵项p11相对于理想值|p11|=1的幅度偏差。可以观察到的是,与理想情况的最大偏差小于1dB。图10显示了作为w1和w2的函数的p11的角度。可以从与理想复数值情形相对的差值中预期,相位差值高达90度。图11显示了作为加权w1和w2的函数并且以dB为单位测量的串扰矩阵项P21的幅度。应该指出的是,通过互换w1和w2,也可以获取其他变换矩阵元素。
在某些实施例中,矩阵处理器809可以响应于子波段变换矩阵P=G·H来为子波段确定解码矩阵G。特别地,矩阵处理器可以选择G的系数值,以便为P实现指定特性。
同样,由于用于实数值子波段的相位值往往具有很低的感知加权,因此,例示解码器715仅仅考虑了P的幅度特性。高质量性能可以由矩阵处理器809来实现,其中该处理器选择解码矩阵系数,以使p12和p21的功率量度满足某个判据——例如最小化功率量度或者功率量度低于指定判据。举个例子,矩阵处理器809可以搜索一定范围的可能实数值系数,并且选择那些为p12和p21产生最低功率量度的系数。此外,这种评估还有可能遭遇到其他约束条件,例如p11和p12基本等于1(例如介于0.9与1.1之间)
在某些实施例中,矩阵处理器809可以执行某种数学算法,以便为解码方法确定合适的实数系数值。这其中的一个具体实例是在下文中描述的,其中该算法试图在|p11|2=1和|p22|2=1的约束下最小化总体串扰:|p12|2+|p21|2
这个问题可以通过一种标准的多元数学分析工具来解决。特别地,较为适合的是使用拉格朗日乘数方法,其中对G的每一个行矢量v来说,该方法会变换成一种形式为vA=λvB的矩阵本征值问题,其具有由二次形式q给出的归一化需求q(v)=1。矩阵A和B以及二次形式q取决于复数矩阵H的条目。
在下文中给出了关于v=[g11g12]的解决方案。在以下的解决方案中,通过互换变量w1和w2来求解v=[g21g22]的处理是没有意义的。拉格朗日矩阵A和B是如下定义的:
A = q 2 3 - q 2 3 - q 2 3 1 ,
B = 1 - q 1 3 - q 1 3 q 1 3 ,
其中q1和q2被定义为:
q 1 = w 1 2 1 - 2 w 1 + 2 w 1 2 ,
q 2 = w 2 2 1 - 2 w 2 + 2 w 2 2 .
本征值则是如下发现的:
det(A-λB)=0,
由此将会产生二次多项式的根
&lambda; 1 = - b + b 2 - 4 ac 2 a ,
&lambda; 2 = - b - b 2 - 4 ac 2 a
其中
a = q 1 - q 1 2 3 ,
b = 5 9 q 1 &CenterDot; q 2 - 1 ,
c = q 2 - q 2 2 3 .
现在可以确定两个候选解:
(A-λ1,2B)v1,2=O
最终解是通过v=ci·vi确定的,其中i是1或2,由此|p11|2=1并且具有最小串扰。首先,ci是如下计算的:
c i = 1 / ( 1 - q 1 ) v i , 1 2 + q 1 &CenterDot; ( v i , 1 - v i , 2 3 ) 2
然后,这两个解的串扰|p12|2是如下计算的:
| p 12 | 2 = q 2 c i 2 &CenterDot; ( v i , 1 3 - v i , 2 ) 2 + ( 1 - q 2 ) ( c i &CenterDot; v i , 2 ) 2
产生最小串扰的索引i将会给出:v=ci·vi。在没有进一步论证的情况下可以声明,索引i始终等于2,而与变量w1和w2无关。
出于完整性考虑,在下文中给出了依照分析等式且关于G的完整解。在这里定义了以下变量:
q 1 = w 1 2 1 - 2 w 1 + 2 w 1 2 ,
q 2 = w 2 2 1 - 2 w 2 + 2 w 2 2 ,
s=q1+q2
p = q 1 q 2 9 .
然后,变量b是如下计算的:
b = 1 - 5 p - - 11 p 2 + ( 4 s - 14 ) p + 1 .
用于矩阵G中的两个行的两个根rα和rβ是如下计算的:
r &alpha; = 3 b 2 ( q 1 - q 1 2 ) , if 0 < q 1 < 1 ; q 2 - q 2 2 3 ( 1 - 5 p ) , if q 1 &Element; { 0,1 } .
r &beta; = 3 b 2 ( q 2 - q 2 2 ) , if 0 < q 2 < 1 ; q 1 - q 1 2 3 ( 1 - 5 p ) , if q 2 &Element; { 0,1 } .
然后,非伸缩解vtemp,1和vtemp,2可以被确定成是:
v temp , 1,1 = 1 - q 1 r &alpha; 3 ,
v temp , 1,2 = q 2 - q 1 r &alpha; 3 ,
v temp , 2,2 = 1 - q 2 r &beta; 3 ,
v temp , 2,1 = q 1 - q 2 r &beta; 3 .
归一化常数c是如下计算的:
c 1 = 1 / ( 1 - q 1 ) v temp , 1,1 2 + q 1 &CenterDot; ( 1 - q 2 3 ) 2 ,
c 2 = 1 / ( 1 - q 2 ) v temp , 2,2 2 + q 2 &CenterDot; ( 1 - q 1 3 ) 2 .
最后,矩阵G是如下给出的:
G = c 1 &CenterDot; v temp , 1 c 2 &CenterDot; v temp , 2 .
图12、13和14描述的是关于该解决方案的性能。图12以dB为单位显示了作为w1和w2的函数,主矩阵项p11相对于理想值|p11|=1的偏差。可以观察到的是,由于为该解决方案设置了约束条件,因此,该幅度始终等于理想值|p11|=1。
图13显示了作为w1和w2的函数的p11的角度。应该指出的是,由于所有实际解决方案都会提出约束条件,因此,这里的相位差将会高达90度。
图14显示了作为加权w1和w2的函数并且以dB为单位测得的串扰矩阵项p21的幅度。
如图所示,这种将解码矩阵系数设置为逆编码矩阵系数绝对值的解决方案在主项增益和串扰抑制方面与更复杂的串扰最小化方法仅仅相差+/-1dB。
图15描述的是一种根据本发明某些实施例的音频解码方法。
在步骤1501,解码器接收输入数据,其中该输入信号包括与M声道音频信号的下混合信号相对应的N声道信号,M>N,由此具有应用于频率子波段的复数值子波段编码矩阵以及与下混合信号相关联的参数化多声道数据。
在步骤1501之后跟随的是步骤1503,在该步骤中,将会为N声道信号产生频率子波段。其中至少某些频率子波段是实数值频率子波段。
在步骤1503之后跟随的是步骤1505,在该步骤中,将会响应于参数化多声道数据来确定用于补偿编码矩阵应用的实数值子波段解码矩阵。
在步骤1505之后跟随的是步骤1507,在该步骤中,将会通过对实数值子波段解码矩阵和至少某些实数值频率子波段中的N声道信号数据执行矩阵乘法来产生与下混合信号相对应的下混合数据。
应该了解的是,为了清楚起见,在以上描述中是通过参考不同的功能单元和处理器来描述本发明的实施例的。然而非常明显的是,在不同功能单元或处理器之间可以使用任何适当的功能分布方式,而不会有损于本发明。例如,被描述成由独立处理器或控制器执行的功能可以由同一个处理器或控制器来执行。因此,针对特定功能单元所做的参考仅仅被视为是对用于提供所描述的功能的适当装置的参考,而并未表示严格的逻辑或物理结构或组织。
本发明可以采用包括硬件、软件、固件或其任何组合在内的任何适当形式来实施。作为选择,本发明至少部分可以作为在一个或多个数据处理器和/或数字信号处理器上运行的计算机软件来实施。本发明实施例的部件和组件可以在物理、功能和逻辑上以任何适当的方式实施。实际上,该功能既可以在单个单元中实施,也可以在多个单元中实施,还可以作为其他功能单元的一部分来实施。同样,本发明既可以在单个单元中实施,也可以在物理和功能上被分布于不同的单元和处理器之间。
虽然在这里结合某些实施例而对本发明进行了描述,但是本发明并不局限于这里阐述的具体形式。相反,本发明的范围仅仅受附带的权利要求的限制。此外,虽然某个特征可以显现成是结合特定实施例来描述的,但是本领域技术人员将会认识到,所描述的实施例的各种特征可以依照本发明来组合。在权利要求中,术语“包括”并未排除其他部件或步骤的存在。
此外,虽然单独列举了多个装置、部件或方法步骤,但是这些装置、部件或方法步骤是可以由单个单元或处理器来实现的。此外,虽然在不同实施例中可以包含单个特征,但是这些特征有可能是以很有利的方式组合在一起的,如果是包含在不同权利要求中的,那么这并不意味着特征无法组合和/或特征组合无益。此外,如果将某个特征包含在一类权利要求中,那么这并不意味着针对这个类别的限制,相反,这表明该特征同样可以酌情应用于其他权利要求类别。此外,这些特征在权利要求中的顺序并未暗指这些特征工作时所要依照的任何具体顺序,特别地,单个步骤在方法权利要求中的顺序并不暗指这些步骤必须依照该顺序执行。相反,这些步骤可以按照任何适当的顺序来执行。此外,单数标引并未排除复数。由此,标引“一”、“一个”、“第一”、“第二”等等并不排除复数个数。权利要求中的参考符号仅仅是作为澄清实例提供的,并且这些参考符号不应该被解释成是对权利要求的范围进行限制。

Claims (17)

1.一种音频解码器(715),包括:
用于接收输入数据的装置(801),其中该输入数据包括与M声道音频信号的下混合信号相对应的N声道信号,并且M>N,由此具有在频率子波段中应用的复数值子波段编码矩阵,以及与下混合信号相关联的参数化多声道数据;
用于为N声道信号产生频率子波段的装置(805),其中至少某些频率子波段是实数值频率子波段;
响应于参数化多声道数据来确定实数值子波段解码矩阵以补偿编码矩阵应用的确定装置(809);以及
通过对实数值子波段解码矩阵和至少某些实数值频率子波段中的N声道信号数据执行矩阵乘法来产生与下混合信号相对应的下混合数据的装置(807)。
2.根据权利要求1所述的音频解码器(715),其中确定装置(809)被调整成确定编码矩阵的复数值子波段逆矩阵,以及响应于所述逆矩阵来确定解码矩阵。
3.根据权利要求2所述的音频解码器(715),其中确定装置(809)被调整成响应于逆矩阵的相应矩阵系数绝对值来确定解码矩阵的每一个实数值矩阵系数。
4.根据权利要求3所述的音频解码器(715),其中确定装置(809)被调整成将每一个实数值矩阵系数实际确定成是逆矩阵中相应矩阵系数的绝对值。
5.根据权利要求1所述的音频解码器(715),其中确定装置(809)被调整成响应于子波段变换矩阵来确定解码矩阵,其中所述子波段变换矩阵是相应解码矩阵与编码矩阵的乘积。
6.根据权利要求5所述的音频解码器(715),其中确定装置(809)被调整成仅仅响应于变换矩阵的幅度量度来确定解码矩阵。
7.根据权利要求6所述的音频解码器(715),其中每一个子波段的变换矩阵是如下给出的:
P = p 11 p 12 p 21 p 22 = G &CenterDot; H = g 11 g 12 g 21 g 22 &CenterDot; h 11 h 12 h 21 h 22
其中G是子波段解码矩阵,H是子波段编码矩阵,并且确定装置被调整成选择矩阵系数
g 11 g 12 g 21 g 22
以使p12和p21的功率量度满足判据。
8.根据权利要求7所述的音频解码器(715),其中幅度量度是响应于
Figure FSB00000609813400022
来确定的。
9.根据权利要求7所述的音频解码器(715),其中确定装置(809)还被调整成在p11和p22的幅度基本等于1的约束下选择矩阵系数。
10.根据权利要求1所述的音频解码器,其中下混合信号和参数化多声道数据依照的是MPEG环绕标准。
11.根据权利要求1所述的音频解码器(715),其中编码矩阵是一个MPEG矩阵环绕兼容性编码矩阵,并且第一个N声道信号是一个MPEG矩阵环绕兼容信号。
12.一种音频解码方法,该方法包括:
接收(1501)输入数据,其中该输入数据包括与M声道音频信号的下混合信号相对应的N声道信号,M>N,由此具有应用于频率子波段的复数值子波段编码矩阵以及与下混合信号相关联的参数化多声道数据;
为N声道信号产生(1503)频率子波段,其中至少某些频率子波段是实数值频率子波段;
响应于参数化多声道数据来确定(1505)用于补偿编码矩阵应用的实数值子波段解码矩阵;以及
通过对实数值子波段解码矩阵和至少某些实数值频率子波段中的N声道信号数据执行矩阵乘法来产生(1507)与下混合信号相对应的下混合数据。
13.一种用于接收N声道信号的接收机(703),该接收机(703)包括:
用于接收输入数据的装置(801),其中该输入数据包括与M声道音频信号的下混合信号相对应的N声道信号,M>N,由此具有在频率子波段中应用的复数值子波段编码矩阵以及与下混合信号相关联的参数化多声道数据;
用于为N声道信号产生频率子波段的装置(805),其中至少某些频率子波段是实数值频率子波段;
用于响应于参数化多声道数据来确定实数值子波段解码矩阵以补偿编码矩阵应用的确定装置(809);以及
通过对实数值子波段解码矩阵和至少某些实数值频率子波段中的N声道信号数据执行矩阵乘法来产生与下混合信号相对应的下混合数据的装置(807)。
14.一种用于传送音频信号的传输系统(700),该传输系统包括:
发射机(701),该发射机包括:
用于产生M声道音频信号的N声道下混合信号的装置(709),其中M>N,
用于产生与下混合信号相关联的参数化多声道数据的装置(709),
通过将复数值子波段编码矩阵应用于频率子波段中的N声道下混合信号来产生第一个N声道信号的装置(709),
用于产生第二个N声道信号的装置(709),所述第二个N声道信号包括第一个N声道信号和参数化多声道数据,以及
用于将第二个N声道信号传送到接收机的装置(711);
以及
接收机(703),该接收机包括:
用于接收第二个N声道信号的装置(801),
用于为第一个N声道信号产生频率子波段的装置(805),至少某些频率子波段是实数值频率子波段,
响应于参数化多声道数据来确定用于补偿编码矩阵应用的实数值子波段解码矩阵的确定装置(809),以及
通过对实数值子波段解码矩阵和至少某些实数值频率子波段中的N声道信号数据执行矩阵乘法来产生与下混合信号相对应的下混合数据的装置(807)。
15.一种用于接收音频信号的方法,该方法包括:
接收(1501)输入数据,该输入数据包括与M声道音频信号的下混合信号相对应的N声道信号,并且M>N,由此具有在频率子波段中应用的复数值子波段编码矩阵以及与下混合信号相关联的参数化多声道数据;
为N声道信号产生(1503)频率子波段,其中至少某些频率子波段是实数值频率子波段;
响应于参数化多声道数据来确定(1505)用于补偿编码矩阵应用的实数值子波段解码矩阵;以及
通过对实数值子波段解码矩阵和至少某些实数值频率子波段中的N声道信号数据执行矩阵乘法来产生(1507)与下混合信号相对应的下混合数据。
16.一种用于传送和接收音频信号的方法,该方法包括:
在发射机(701)上执行下列步骤:
产生M声道音频信号的N声道下混合信号,其中M>N,
产生与下混合信号相关联的参数化多声道数据,
通过将复数值子波段编码矩阵应用于频率子波段中的N声道下混合信号来产生第一个N声道信号,
产生包含了第一个N声道信号和参数化多声道数据的第二个N声道信号,以及
将第二个N声道信号传送到接收机(703);
以及
在接收机(703)上执行下列步骤:
接收(1501)第二个N声道信号;
为第一个N声道信号产生(1503)频率子波段,其中至少某些频率子波段是实数值频率子波段;
响应于参数化多声道数据来确定(1505)用于补偿编码矩阵应用的实数值子波段解码矩阵;以及
通过对实数值子波段解码矩阵和至少某些实数值频率子波段中的N声道信号数据执行矩阵乘法来产生(1507)与N声道下混合信号相对应的下混合数据。
17.一种音频播放设备(703),包括根据权利要求1所述的解码器(715)。
CN2007800122717A 2006-03-29 2007-03-23 音频解码 Active CN101484936B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP06111916 2006-03-29
EP06111916.0 2006-03-29
PCT/IB2007/051024 WO2007110823A1 (en) 2006-03-29 2007-03-23 Audio decoding

Publications (2)

Publication Number Publication Date
CN101484936A CN101484936A (zh) 2009-07-15
CN101484936B true CN101484936B (zh) 2012-02-15

Family

ID=38318626

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007800122717A Active CN101484936B (zh) 2006-03-29 2007-03-23 音频解码

Country Status (13)

Country Link
US (1) US8433583B2 (zh)
EP (1) EP1999747B1 (zh)
JP (1) JP5154538B2 (zh)
KR (1) KR101015037B1 (zh)
CN (1) CN101484936B (zh)
BR (1) BRPI0709235B8 (zh)
ES (1) ES2609449T3 (zh)
HK (1) HK1135791A1 (zh)
MX (1) MX2008012217A (zh)
PL (1) PL1999747T3 (zh)
RU (1) RU2420814C2 (zh)
TW (1) TWI413108B (zh)
WO (1) WO2007110823A1 (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8959016B2 (en) 2002-09-27 2015-02-17 The Nielsen Company (Us), Llc Activating functions in processing devices using start codes embedded in audio
US9711153B2 (en) 2002-09-27 2017-07-18 The Nielsen Company (Us), Llc Activating functions in processing devices using encoded audio and detecting audio signatures
US8121830B2 (en) * 2008-10-24 2012-02-21 The Nielsen Company (Us), Llc Methods and apparatus to extract data encoded in media content
US8359205B2 (en) 2008-10-24 2013-01-22 The Nielsen Company (Us), Llc Methods and apparatus to perform audio watermarking and watermark detection and extraction
US9667365B2 (en) 2008-10-24 2017-05-30 The Nielsen Company (Us), Llc Methods and apparatus to perform audio watermarking and watermark detection and extraction
US8508357B2 (en) 2008-11-26 2013-08-13 The Nielsen Company (Us), Llc Methods and apparatus to encode and decode audio for shopper location and advertisement presentation tracking
AU2010242814B2 (en) 2009-05-01 2014-07-31 The Nielsen Company (Us), Llc Methods, apparatus and articles of manufacture to provide secondary content in association with primary broadcast media content
BR112012014856B1 (pt) 2009-12-16 2022-10-18 Dolby International Ab Método para fundir conjuntos de fonte de parâmetros de sbr a conjuntos-alvo de parâmetros de sbr, meio de armazenamento não transitório e unidade de fusão de parâmetros de sbr
TR201901336T4 (tr) * 2010-04-09 2019-02-21 Dolby Int Ab Mdct-tabanlı karmaşık tahmin stereo kodlama.
TWI759223B (zh) * 2010-12-03 2022-03-21 美商杜比實驗室特許公司 音頻解碼裝置、音頻解碼方法及音頻編碼方法
JP2013050663A (ja) * 2011-08-31 2013-03-14 Nippon Hoso Kyokai <Nhk> 多チャネル音響符号化装置およびそのプログラム
US8442591B1 (en) * 2011-09-29 2013-05-14 Rockwell Collins, Inc. Blind source separation of co-channel communication signals
EP2717262A1 (en) 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for signal-dependent zoom-transform in spatial audio object coding
MY178342A (en) * 2013-05-24 2020-10-08 Dolby Int Ab Coding of audio scenes
CN109712630B (zh) 2013-05-24 2023-05-30 杜比国际公司 包括音频对象的音频场景的高效编码
KR101760248B1 (ko) 2013-05-24 2017-07-21 돌비 인터네셔널 에이비 오디오 오브젝트들을 포함한 오디오 장면들의 효율적 코딩
KR102486365B1 (ko) 2013-10-21 2023-01-09 돌비 인터네셔널 에이비 오디오 신호들의 파라메트릭 재구성
EP3127109B1 (en) 2014-04-01 2018-03-14 Dolby International AB Efficient coding of audio scenes comprising audio objects
FI126923B (fi) * 2014-09-26 2017-08-15 Genelec Oy Menetelmä ja laitteisto digitaalisen audiosignaalin tunnistamiseksi
WO2016108655A1 (ko) * 2014-12-31 2016-07-07 한국전자통신연구원 다채널 오디오 신호의 인코딩 방법 및 상기 인코딩 방법을 수행하는 인코딩 장치, 그리고, 다채널 오디오 신호의 디코딩 방법 및 상기 디코딩 방법을 수행하는 디코딩 장치
KR20160081844A (ko) 2014-12-31 2016-07-08 한국전자통신연구원 다채널 오디오 신호의 인코딩 방법 및 상기 인코딩 방법을 수행하는 인코딩 장치, 그리고, 다채널 오디오 신호의 디코딩 방법 및 상기 디코딩 방법을 수행하는 디코딩 장치

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1545697A (zh) * 2001-08-21 2004-11-10 �ʼҷ����ֵ��ӹɷ����޹�˾ 利用非一致滤波器库的音频编码

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4236989C2 (de) * 1992-11-02 1994-11-17 Fraunhofer Ges Forschung Verfahren zur Übertragung und/oder Speicherung digitaler Signale mehrerer Kanäle
US7292901B2 (en) 2002-06-24 2007-11-06 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
US7644003B2 (en) * 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
US7451006B2 (en) * 2001-05-07 2008-11-11 Harman International Industries, Incorporated Sound processing system using distortion limiting techniques
CN1860526B (zh) 2003-09-29 2010-06-16 皇家飞利浦电子股份有限公司 音频信号编码
WO2005043511A1 (en) 2003-10-30 2005-05-12 Koninklijke Philips Electronics N.V. Audio signal encoding or decoding
US8923785B2 (en) * 2004-05-07 2014-12-30 Qualcomm Incorporated Continuous beamforming for a MIMO-OFDM system
WO2007010451A1 (en) * 2005-07-19 2007-01-25 Koninklijke Philips Electronics N.V. Generation of multi-channel audio signals

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1545697A (zh) * 2001-08-21 2004-11-10 �ʼҷ����ֵ��ӹɷ����޹�˾ 利用非一致滤波器库的音频编码

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
BREEBART J ET AL.MPEG Spatial Audio Coding / MPEG surround: Overview and Current Status.《AUDIO ENGINEERING SOCIETY 119th CONVENTION PAPER》.2005,1-17. *
FALLER C.Coding of spatial audio compatible with different playback formats.《AUDIO ENGINEERING SOCIETY 117th CONVENTION PAPER》.2004,1-12. *
TEN KATE W R TH.COMPATIBILITY MATRIXING OF MULTICHANNEL BIT-RATE-REDUCED AUDIO SIGNALS.《JOURNAL OF THE AUDIO ENGINEERING SOCIETY》.1996,第44卷(第12期),1104-1119. *

Also Published As

Publication number Publication date
KR20080105135A (ko) 2008-12-03
RU2008142752A (ru) 2010-05-10
BRPI0709235A2 (pt) 2011-06-28
TWI413108B (zh) 2013-10-21
RU2420814C2 (ru) 2011-06-10
PL1999747T3 (pl) 2017-05-31
KR101015037B1 (ko) 2011-02-16
JP5154538B2 (ja) 2013-02-27
EP1999747A1 (en) 2008-12-10
BRPI0709235B8 (pt) 2019-10-29
TW200746046A (en) 2007-12-16
CN101484936A (zh) 2009-07-15
ES2609449T3 (es) 2017-04-20
JP2009536360A (ja) 2009-10-08
EP1999747B1 (en) 2016-10-12
HK1135791A1 (en) 2010-06-11
US8433583B2 (en) 2013-04-30
MX2008012217A (es) 2008-11-12
BRPI0709235B1 (pt) 2019-10-15
US20090240505A1 (en) 2009-09-24
WO2007110823A1 (en) 2007-10-04

Similar Documents

Publication Publication Date Title
CN101484936B (zh) 音频解码
RU2327304C2 (ru) Совместимое многоканальное кодирование/декодирование
CN1910655B (zh) 构造多通道输出信号或生成下混信号的设备和方法
CN101401151B (zh) 根据主分量分析的可分级多通道音频编码的设备和方法
CN102158198B (zh) 滤波器产生器、滤波器系统和提供中间滤波器定义信号的方法
KR101271069B1 (ko) 다중채널 오디오 인코더 및 디코더와, 인코딩 및 디코딩 방법
RU2396608C2 (ru) Способ, устройство, кодирующее устройство, декодирующее устройство и аудиосистема
US8798276B2 (en) Method and apparatus for encoding multi-channel audio signal and method and apparatus for decoding multi-channel audio signal
CN103400583B (zh) 多声道下混对象编码的增强编码和参数表示
CN102301420B (zh) 将降混音频信号升混的装置与方法
CN101410890A (zh) 减小数目的声道解码
CN101263742A (zh) 音频编码
CN101553868A (zh) 用于处理音频信号的方法和装置
JP2022509440A (ja) 空間オーディオパラメータの符号化及び対応する復号の決定
JP5333257B2 (ja) 符号化装置、符号化システムおよび符号化方法
AU2004306509B2 (en) Compatible multi-channel coding/decoding
WO2020201619A1 (en) Spatial audio representation and associated rendering
Dubey et al. A Novel Very Low Bit Rate Multi-Channel Audio Coding Scheme Using Accurate Temporal Envelope Coding and Signal Synthesis Tools
Quackenbush MPEG Audio Compression Advances

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1135791

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
C56 Change in the name or address of the patentee
CP01 Change in the name or title of a patent holder

Address after: Holland Ian Deho Finn

Co-patentee after: Dolby International AB

Patentee after: Koninklijke Philips Electronics N.V.

Address before: Holland Ian Deho Finn

Co-patentee before: Dolby Sweden AB

Patentee before: Koninklijke Philips Electronics N.V.

REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1135791

Country of ref document: HK