CN101031959B - 带有压缩侧面信息的多声道分级音频编码 - Google Patents
带有压缩侧面信息的多声道分级音频编码 Download PDFInfo
- Publication number
- CN101031959B CN101031959B CN2006800004171A CN200680000417A CN101031959B CN 101031959 B CN101031959 B CN 101031959B CN 2006800004171 A CN2006800004171 A CN 2006800004171A CN 200680000417 A CN200680000417 A CN 200680000417A CN 101031959 B CN101031959 B CN 101031959B
- Authority
- CN
- China
- Prior art keywords
- sound channel
- channel
- sound
- information
- original
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 claims abstract description 115
- 238000000034 method Methods 0.000 claims abstract description 80
- 230000001427 coherent effect Effects 0.000 claims description 70
- 238000005259 measurement Methods 0.000 claims description 70
- 230000005540 biological transmission Effects 0.000 claims description 54
- 238000009795 derivation Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 abstract description 19
- 239000000203 mixture Substances 0.000 description 26
- 238000012545 processing Methods 0.000 description 17
- 238000005516 engineering process Methods 0.000 description 11
- 230000014509 gene expression Effects 0.000 description 11
- 230000006835 compression Effects 0.000 description 10
- 238000007906 compression Methods 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 230000002349 favourable effect Effects 0.000 description 7
- 230000009466 transformation Effects 0.000 description 7
- 238000012986 modification Methods 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 230000000875 corresponding effect Effects 0.000 description 5
- 230000000153 supplemental effect Effects 0.000 description 5
- 208000024875 Infantile dystonia-parkinsonism Diseases 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 208000001543 infantile parkinsonism-dystonia Diseases 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000001276 controlling effect Effects 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 230000001195 anabolic effect Effects 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000002045 lasting effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000010363 phase shift Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03M—CODING; DECODING; CODE CONVERSION IN GENERAL
- H03M7/00—Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
- H03M7/30—Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Stereophonic System (AREA)
Abstract
当在分级编码过程中,仅针对包括只含有相对于收听位置左侧的信息的第一声道和只含有来自相对于收听位置右侧的信息的第二声道的声道对导出描述第一和第二声道间相干性的相干信息时,多声道音频信号的参数表示使用压缩侧面信息很好地描述了音频信号的空间特性。当在分级过程中原始音频信号的多个音频声道优选地被迭代缩混到一单声道时,可以从只涉及某种声道对的编码步骤选择相关的参数,这种声道对具有描述多声道音频信号空间特性所需的信息。
Description
技术领域
本发明涉及多声道音频处理,具体地涉及压缩参数化侧面信息的产生和使用,来描述多声道音频信号的空间特性。
背景技术
近来,多声道音频再现技术变得越来越重要。这可能是因为事实上,音频压缩/编码技术例如著名的mp3技术使得通过因特网或其它带宽有限的传输信道来传送音频记录成为可能。mp3编码技术已经非常有名,因为事实上它提供了将所有的记录以立体声格式,即以音频记录的数字表示(包括第一或左立体声声道和第二或右立体声声道)进行传送的可能。
然而,传统的双声道声音系统有根本的缺点。所以发展了环绕技术。一种推荐的多声道环绕表示格式除了两个立体声声道L和R之外,还包括,另外的中声道C和两个环绕声道Ls和Rs。这个参考声音格式也被称作三/二立体声,表示三个前置声道和两个环绕声道。在回放环境中,需要分布在五个合适位置的至少五个扬声器来获得距五个合适放置的扬声器适当距离的最适宜、令人满足的地点。
最近的多声道音频信号的参数化编码(参数化立体声(PS),“空间音频编码”,“双声道提示编码”(BCC)等)的方法通过缩混信号(可以是单声道或由若干个声道组成)和参数化侧面信息(“空间提示”)来表示多声道音频信号,描述所感觉的空间声音舞台(sound stage)。在下面的段落中将简要回顾这些不同的方法和技术。
对一种相关的技术,即大家所知的参数化立体声,在J.Breebaart,S.van de Par,A.Kohlrausch,E.Schuijers,″High-Quality ParametricSpatial Audio Coding at Low Bitrates″,AES 116th Convention,Berlin,Preprint 6072,May 2004,以及E.Schuijers,J.Breebaart,H.Purnhagen,J.Engdegard,″Low Complexity Parametric Stereo Coding″,AES 116thConvention,Berlin,Preprint 6073,May 2004中进行了描述。
在本技术领域有若干知名的技术来减少传输多声道音频信号所需的数据量。为此,参考了图11,该图显示了联合立体声设备60。该设备可以是实现强度立体声(IS)或双声道提示编码(BCC)的设备。这样的设备一般接收至少两个声道(CH1,CH2,…CHn)作为输入,并输出单载波声道和参数数据。对参数数据定义,使得能够在解码器中计算出原始声道(CH1,CH2,…CHn)的近似。
通常,载波声道包括子带样本、频谱系数、时域样本等,这些将给出底层信号比较精确的表示,而参数数据不包括频谱系数的这些样本,但包括了用于控制特定重建算法如乘法加权、时移、频移、相移等的控制参数。因此,参数数据只包括信号或者相关声道比较粗糙的表示。从数字的角度讲,在MPEG编码方案中载波声道所需的数据量在60-70kbit/s的范围,而在5.1声道信号中参数化侧面信息所需的数据量在10kbit/s左右的范围。参数数据的一个例子就是著名的缩放因子,强度立体声信息或双声道提示参数,将在下文中对它们进行描述。
例如BCC技术在AES会议文章5574″Binaural Cue Coding appliedto Stereo and Multi-Channel Audio Compression″,C.Faller,F.Baumgarte,May 2002,Munich,在IEEE WASPAA文章″Efficientrepresentation of spatial audio using perceptual parametrization″,October 2001,Mohonk,NY,和2篇由C.Faller和F.Baumgarte撰写的ICASSP文章″Estimation of auditory spatial cues for binaural cuecoding″,以及″Binaural cue coding:a novel and efficient representationof spatial audio″,Orlando,FL,May 2002中都有描述。
在BCC编码中,使用基于DFT(离散傅立叶变换)的变换和重叠窗口,将许多音频输入声道转换成频谱表示。得到的频谱被分割成不重叠的分段。每个分段的带宽和等效矩形带宽(ERB)成比例。对每个分段估算声道间幅度差(ICLD)和声道间时间差(ICTD)。对每个声道通常给出关于参考声道的声道间幅度差ICLD和声道间时间差ICTD,并对它们进行量化。最终根据指定的公式(编码)计算出传输参数,该公式依赖于待处理信号的特定分段。
在解码器一侧,解码器接收单声道信号和BCC比特流。单声道信号被变换到频域,并被输入到空间合成块中,空间合成块还接收解码的ICLD和ICTD值。在空间合成块中,使用BCC参数(ICLD和ICTD)值执行单声道信号的加权操作,来合成多声道信号。多声道信号在进行了频率/时间转换后,表示了原始多声道音频信号的重建。
在BCC的例子中,联合立体声模块60可操作来输出声道侧面信息,使得参数声道数据被量化和编码,产生ICLD或ICTD参数,其中原始声道之一在进行声道侧面信息编码时,被用作参考声道。
通常,载波声道由参与的原始声道的和来形成。
所以,上述技术另外还为回放设备提供了合适的单声道表示,其中该回放设备只能处理载波声道,而不能处理参数数据来产生多于一个输入声道的一个或多个近似。
在美国专利申请公开US 2003,0219130 A1,2003/0026441 A1和2003/0035553 A1中,对作为双声道提示编码(BCC)而知名的音频编码技术也进行了充分的描述。另外还可以参考“Binaural Cue Coding.Part II:Schemes and Applications”,C.Faller & F.Baumgarte,IEEETrans.on Audio and Speech Proc.,Vol.11,No.6,Nov.2003和“Binaural cue coding applied to audio compression with flexiblerendering”,C.Faller & F.Baumgarte,AES 113th Convention,LosAngeles,October 2002。引用的由Faller和Baumgarte作为作者的与BCC技术相关的美国专利申请公开和两篇技术出版物在此通过引用全面并入本申请。
尽管ICLD和ICTD参数表示了最重要的音源定位参数,但是运用这些参数的空间表示限制了可以达到的最高质量。为了克服这一限制,进而能够实现高质量的参数编码,参数立体声(在J.Breebaart,S.van de Par,A.Kohlrausch,E.Schuijers(2005)“Parametric coding ofstereo audio”,Eurasip J.Applied Signal Proc.9,1305-1322中有描述)应用了三种类型的空间参数,它们被称作声道间强度差(IIDs)、声道间相位差(IPDs)、声道间相干度(IC)。扩展的空间参数集和相干参数使得声音舞台中感觉的空间“扩散”或空间“压缩”的参数化,成为可能。
下面,对一个用于多声道音频编码的典型的普通BCC方案,参考图12-14进行了详细的阐述。图9显示了用于多声道音频信号编码/传输的普通双声道提示编码方案。BCC编码器112的输入110处的多声道音频输入信号在缩混块114中被缩混。在当前的例子中,输入110处的原始多声道信号是5声道环绕信号,有前置左声道、前置右声道、左环绕声道、右环绕声道和中声道。在本发明的优选实施例中,缩混块114通过这5个声道简单加和成一个单声道信号,而产生加和信号。在本技术领域已知的其它缩混方案,使用多声道输入信号,可以获得含有单声道的缩混信号。这个单声道在加和信号线115输出。由BCC分析块116获得的侧面信息在侧面信息线117输出。在BCC分析块中,声道间幅度差(ICLD)和声道间时间差(ICTD)按上文已概述的方式计算。BCC分析块116形成也用来计算声道间相关度值(ICC值)。加和信号和侧面信息优选地以量化和编码的形式传输到BCC解码器120。BCC解码器将传输的加和信号分解到多个子带上,并应用缩放、延时和其它处理来产生输出多声道音频信号的子带。执行该处理使得输出121处的重建多声道信号的ICLD、ICTD和ICC参数(提示)和BCC编码器112的输入110处各自的原始多声道信号的提示相似。为此,BCC解码器120包括BCC合成块122和侧面信息处理块123。
下面,参考图13解释BCC合成块122的内部结构。将线115上的加和信号输入到时间/频率转换单元或者滤波器组FB 125。在块125的输出端,呈现N个子带信号,或者,在极端的例子中,当音频滤波器组125执行1∶1的变换也就是从N个时域样本(关键子采样)中产生N个频谱系数时,呈现一组频谱系数。
BCC合成块122还包括延时级126、幅度修正级127、相关度处理级128和反滤波器组级IFB 129。在级129的输出,含有例如在5声道环绕系统中的5个声道的重建多声道音频信号,如图12所图示,被输出到一组扬声器124。
如图13所示,输入信号s(n)通过部件125被转换到频域或滤波器组域。对部件125输出的信号做乘法,以获得同一信号的若干版本,如分支节点130所图示。原始信号的版本数量和待重建的输出信号的输出声道数量相等。一般说来,节点130的原始信号的每个版本受到特定延时d1,d2,...,di,...,dN。延时参数由图12中的侧面信息处理块123计算出,并从声道间时间差中导出,其中声道间时间差由BCC分析块116确定。
乘法参数a1,a2,...,ai,...,aN也是同样的,它们基于声道间幅度差,由侧面信息处理模块123计算出,其中声道间幅度差由BCC分析块116计算出。
由BCC分析块116计算出的ICC参数用来控制块128的功能,以使得块128的输出端获得延时信号和幅度处理后的信号之间的某种相关性。这里还需要注意的是,级126、127、128的排序可能和图13中所示的情况不同。
需要认识到,在音频信号的按帧处理中,BCC分析也是按帧执行,也就是,随时间变化,且也按频率进行。这表示,对每个频带,BCC参数都是单独获得的。这还表示,如果音频滤波器组125将输入信号分解成例如32个带通信号,BCC分析块将针对32个频带中的每个频带获得一组BCC参数。自然的,图12中的BCC合成块122基于例子中的32个频带,执行重建。其中,图13详细图示了BCC合成块122。
下面,参考图14,显示了确定特定BCC参数的设置。通常,在任意的声道对之间都可以定义ICLD、ICTD和ICC参数。这里将概述的一种方法,由参考声道和每一个其它声道之间的ICLD和ICTD参数组成。这在图14A中图示。
ICC参数可以用不同的方法定义。最通常的是,在编码器中估计所有可能的声道对之间的ICC参数,如图14B所示。在这种情况下,解码器将合成ICC,使得在所有可能的声道对之间,它和原始多声道信号中的参数大致相同。但是,建议每次仅估算最强的两个声道之间的ICC参数。该方案在图14C中图示,其中显示了一个例子,在一个时刻,估算声道1和2之间的ICC参数,而在另一时刻,计算声道1和5之间的ICC参数。然后解码器在解码器中将最强声道之间的声道间相关度合成,并对剩下的声道对的声道间相关度的计算和合成,应用一些启发式规则。
关于例如基于传输ICLD参数的乘法参数a1,...,aN的计算,参考上文引用的AES会议文章5574。ICLD参数表示原始多声道信号的能量分布。不失一般性,图14A中显示有四个ICLD参数,该参数显示了前置左声道和所有其它声道之间的能量差。在侧面信息处理块123中,乘法系数a1,...,aN从ICLD参数中导出,使得所有重建输出声道的总能量和传输的加和信号的能量相同(或成比例)。确定这些参数的简单方法是一个2级过程,其中,在第一级中,左前声道的乘法因子设置为1,而图14A中的其它声道的乘法因子从传输的ICLD值中确定。然后,在第二级,计算出所有五个声道的能量,并和传输的加和信号的能量比较。然后,用一个比例缩小因子来比例缩小所有声道,该比例缩小因子对所有声道是相同的,其中比例缩小因子的选择使得比例缩小后的所有重建输出声道的总能量和传输的加和信号的能量相等。
自然也有其它计算乘法因子的方法,它们不依靠2级过程,而只需要一1级过程。
关于延时参数,要注意的是,当左前声道的延时参数d1被设为0时,可以直接使用从BCC编码器传输过来的延时参数ICTD。这里不需要重新缩放比例,因为延时不改变信号的能量。
正如上文关于图14的概述,可以对五个声道的每一个声道,计算和传输参数侧面信息,也就是声道间幅度差(ICLD)、声道间时间差(ICTD)或声道间相关度参数(ICC)。这表示,一般对五声道信号传输四组声道间幅度差。对声道间时间差来说也是一样的。关于声道间相关度参数,只传输例如两组参数就足够了。
正如上文关于图13的概述,对信号的一帧或一个时间段部分,没有单一的幅度差参数、时间差参数或相关度参数。而是,为若干不同的频带确定这些参数,使得获得了频率相关的参数。因为优选地使用例如32个频率声道,也就是为BCC分析和BCC合成使用含有32个频带的滤波器组,所以参数可以拥有相当多的数据。尽管相比于其它多声道传输,该参数表示导致相当低的数据率,但是对于进一步降低用来表示含有多于两个声道的信号例如多声道环绕信号所必需的数据率,存在一种持续的需求。
使用若干现有的模块,可以方便的实现多声道音频信号的编码,其中这些模块执行到单个单声道的参数立体声编码。国际专利申请WO2004008805 A1讲授了参数立体声编码器是如何在分级结构中排序的,使得给定数目的输入音频声道随后被缩混到单个单声道。描述缩混单声道空间特性的参数侧面信息,最终由在随后的迭代缩混过程中产生的所有参数信息组成。这表示,例如如果在建立最后的单声道信号中涉及到三个立体声到单声道缩混过程,那么建立多声道音频信号参数表示的最终参数集包括三组在每个立体声到单声道缩混过程中导出的参数。
在图15中显示了分级缩混编码器,来更具体的解释现有技术的方法。图15显示了六个原始音频声道200a到200f,它们被变换成单一的单声道音频声道202和参数侧面信息。因此,这六个原始音频声道200a到200f必须从时域变换到频域,这通过变换单元204来执行,将音频声道200a到200f变换到频域中相应的声道206a到206f。按照分级的方法,声道206a到206f以成对的方式被缩混到三个单声道L,R和C中(分别是208a,208b和208c)。在对这三对声道缩混的过程中,为每个声道对导出一个参数集,来描述原始立体声声道信号的空间特性,其中每个声道对被缩混成一单声道信号。所以,在这第一缩混步骤中,产生了三个参数集210a到210c来保留信号206a到206f的空间信息。
在下一步的分级缩混中,将声道208a到208b缩混到声道212(LR),产生参数集210d(参数集4)。为了最终得到仅有的单一单声道,对声道208c和212的缩混是必需的,从而产生声道214(M)。这产生第五参数集210e(参数集5)。最后,将缩混单声道音频信号214逆变换到时域,来导出能被标准设备播放的音频信号202。
如上所述,根据现有技术的一种缩混音频信号202的参数表示,由所有的参数集210a到210e组成,这表示如果想从单声道音频信号202中重建原始多声道音频信号(声道200a到200f),需要所有的参数集210a到210e,来作为单声道缩混信号202的侧面信息。
美国专利申请11/032,689(从这里只称作为“现有技术提示组合”)描述了这样一种方法,用于将若干提示值组合为单个传输值来在非分级编码方案中保存侧面信息。为此,首先将所有的声道缩混,然后组合提示码来形成传输提示值(可能是一单一值),该组合依赖于预定义的数学方程,在方程中,从输入信号直接导出的空间参数,被作为变量代入。
用于对两(“立体声”)或多(“多声道”)音频输入声道进行参数编码的现有技术,从输入信号中直接导出空间参数。这些参数的例子有声道间幅度差(ICLD)或声道间强度差(IID)、声道间时间延时(ICTD)或声道间相位差(IPD)、以及声道间相关/相干度(ICC),对它们中的每一个都以频率选择性的方式传输,也就是以每个频带传输。在现有技术提示组合的申请中,讲授了可以将若干提示值组合成单一值,从编码器一侧传输到解码器一侧。解码过程使用传输的单一值而不是原始单独传输的提示值,来重建多声道输出信号。在优选的实施例中,该方案被应用到ICC参数上。已经表明,该方案在保留信号主体的空间质量的同时,相当程度的减少了提示侧面信息的大小。但是,不清楚它如何使用到分级编码方案中。
关于现有技术提示组合的专利申请通过基于两个传输缩混声道的系统的例子,详述了发明的原理。在提出的方法中,参考图15,Lf/Lr和Rf/Rr声道对的ICC值被组合成单一的传输ICC参数。在将前置左声道Lf和后置左声道Lr缩混到声道L以及将前置右声道Rf和后置右声道Rr缩混到声道R的过程中,得到了两个组合的ICC值。因此,这两个组合的ICC值最后被组合成单一的传输ICC参数,都载有关于原始声道前/后相关度的信息,并且这两个ICC值的组合通常将保留这些信息的大部分。如果必须将L和R声道进一步缩混到单一单声道,就得到第三个ICC值,载有关于缩混声道L和R的左/右相关度的信息。根据现有技术的提示组合,必须通过应用给定的函数将三个ICC值变换成一个传输ICC参数,从而将三个ICC值组合。
问题是前/后信息和左/右混在一起,这对原始多声道音频信号的再现是不利的。在美国申请11/032,689中,通过传输两个缩混声道,即L声道和R声道,以及另外传输一个单一ICC值来避免这个问题,其中L和R声道拥有左/右信息,单一ICC值拥有前/后信息。这样以增加了相当的数据率为代价,保留了原始声道的空间特性。数据率的增加是由于要传输额外的全部缩混声道。
发明内容
本发明的目的是提供一种改进的思想,在分级编码方案的背景下来产生和使用带有压缩侧面信息的多声道音频信号参数表示
根据本发明的第一个方面,该目的是通过产生音频信号参数表示的编码器来实现的,其中该音频信号至少在相对于收听位置的左侧有两个原始左声道,在相对于收听位置的右侧有两个原始右声道。编码器包括:发生器,用于产生参数信息,所述发生器可操作来分别处理若干声道对,以导出所处理声道对的幅度信息,并且导出包括只含有来自左侧的信息的第一声道和只含有来自右侧的信息的第二声道的声道对的相干信息;和供给器,通过选择声道对的幅度信息以及使用相干信息确定左/右相干量度,来提供参数表示。
根据本发明的第二个方面,该目的是通过处理原始音频信号参数表示的解码器来实现的,原始音频信号至少在相对于收听位置的左侧有两个原始左声道,在相对于收听位置的右侧有两个原始右声道,解码器包括:接收器,用于提供音频信号的参数表示,所述接收器可操作来提供声道对的幅度信息,并提供含有左声道和右声道的声道对的左/右相干量度,左/右相干量度表示包括只含有来自左侧的信息的第一声道和只含有来自右侧的信息的第二声道的至少一个声道对之间的相干信息;以及处理器,用于为声道对提供参数信息,所述处理器可操作来从参数表示中选择幅度信息,以及使用左/右相干量度导出至少一个声道对的相干信息,其中所述至少一个声道对包括只含有来自左侧的信息的第一声道和只含有来自右侧的信息的第二声道。
根据本发明的第三个方面,该目的是通过用来产生音频信号参数表示的方法来实现的。
根据本发明的第四个方面,该目的是通过在计算机上运行时实现上述方法的计算机程序来实现的。
根据本发明的第五个方面,该目的是通过处理原始音频信号参数表示的方法来实现的。
根据本发明的第六个方面,该目的是通过在计算机上运行时实现上述方法的计算机程序来实现的。
根据本发明的第七个方面,该目的是通过由建立音频信号的参数表示而产生的编码音频数据来实现的,该音频信号至少在相对于收听位置的左侧有至少两个原始左声道,在相对于收听位置的右侧有两个原始右声道,其中参数表示包括声道对的幅度差以及从包括只含有来自左侧的信息的第一声道和只含有来自右侧的信息的第二声道的声道对的相干信息中导出的左/右相干量度。
本发明基于这样的发现,即当在分级编码过程中,仅针对包括只含有相对于收听位置左侧的信息的第一声道和只含有来自相对于收听位置右侧的信息的第二声道的声道对导出描述第一和第二声道间相干性的相干信息时,多声道音频信号的参数表示使用压缩侧面信息很好地描述了音频信号的空间特性。当在分级过程中原始音频信号的多个音频声道优选地被迭代缩混到一单声道时,就获得了在编码过程中只涉及某种声道对的步骤选择相关的侧面信息参数的机会,这种声道对具有尽可能好的描述原始音频信号空间特性所需的希望信息。这允许根据这些选出的参数或这些参数的组合来建立原始音频信号的参数表示,来使侧面信息大小的显著减少成为可能,其中这些选出的参数或参数的组合拥有缩混信号的空间信息。
提出的思想使得组合提示值来减小缩混音频信号的侧面信息率成为可能,甚至是在只有单一(单声道)传输声道可用的情况下。发明的思想甚至使编码器的不同分级拓扑成为可能。这里清楚地阐明了合适的单一ICC值是如何导出的,它可以用在使用分级编码/解码方法来忠实重现原始声音图像的空间音频解码器中。
本发明的一实施例实现了分级编码结构,该结构将5.1声道音频信号的左前和左后音频声道组合成左主声道,同时将右前和右后音频声道组合成右主声道。分别组合左边的声道和右边的声道,重要的左/右相干信息大体上被保留下来,并且根据发明在第二编码步骤中导出,其中左主声道和右主声道被缩混到立体声主声道。在该缩混过程中,为整个系统导出了ICC参数,因为该ICC参数将是和左/右相干最精确类似的ICC参数。在本发明的这个实施例中,通过合适的方式简易安排分级编码步骤,获得描述六个音频声道中最重要的左/右相干度的ICC参数,而不是通过应用一些人工函数到描述任意声道对的一组ICC参数上(如在现有技术中的情况那样)。
在所描述的本发明实施例的修改中,将5.1音频信号的中声道和低频声道缩混到中主声道,该声道拥有主要的关于中声道的信息,因为低频声道只含有如此低频的信号,使得人们几乎无法定位信号的原本。另外通过描述中主声道的参数控制如上文所述导出的ICC值是有利的。这可以通过例如用能量信息对ICC值加权来完成,其中能量信息描述了相对于立体声主声道有多少能量是通过中主声道传输的。
在本发明的另一实施例中,执行分级编码过程,使得在第一步骤中将5.1音频信号的左前和右前声道缩混到前置主声道,而将左后和右后声道缩混到后置主声道。因此,在每个缩混过程中,有ICC值产生,包含关于左/右相干的重要信息。然后组合和传输的ICC参数从两个单独的ICC值的组合中导出,一种导出传输ICC参数的有利方法是使用声道的幅度参数作为权值,建立ICC值的加权和。
在本发明的一个修改中,将中声道和低频声道缩混到中主声道,然后将中主声道和前主声道缩混到立体声主声道。在后一个缩混过程中,收到了中声道和立体声声道之间的相关度,于是就把中声道对前置音频信号的贡献考虑进来了,其中中声道和立体声声道之间的相关度被用来控制或修正传输的ICC参数。先前描述的系统的主要优点是,能够建立相干信息使得主要由对音频信号做出最多贡献的声道来定义传输的ICC值。通常这些声道是前置声道,但是在例如音乐会的多声道表示中,鼓掌听众的信号主要通过使用后置声道的ICC值来强调。
另一个优点是前置和后置声道之间的加权可以动态变化,这依赖于多声道音频信号的空间特性。
在本发明的一个实施例中,本发明的分级解码器可操作来接收比现有解码步骤数所需要的少的ICC参数。解码器可操作来从接收的ICC参数中导出每个解码步骤所需的ICC参数。
使用基于接收的ICC参数和接收的ICLD值的导出值或者是使用预先定义的数值来代替,导出另外的ICC参数,从而可以实现上述方法。
但是,在优选的实施例中,解码器可操作来为每个单独的解码步骤使用单一的传输ICC参数。这是很有利的,因为在发明的思想中,最重要的相关,即左/右相关在传输的ICC参数中得到保留。这种情形,听众将感受到和原始信号有非常好的类似的信号再现。要记住ICC参数定义了重建信号的感知广度。如果解码器要修改传输后的传输ICC参数,则对于分级再现中的左/右和前/后相关度,描述重建信号感知广度的ICC参数将会变得相当不同。这将是最不利的,因为听众移动或转动他的头部,就会感受到感知度变得更宽或更窄的信号,这当然是最令人烦恼的。通过将单一的接收ICC参数分配到分级解码器的解码单元中来避免这个问题。
在另一个优选的实施例中,本发明的解码器可操作来接收一组完全ICC值或者作为选择的单一ICC值,其中解码器通过接收比特流中的策略标志来识别要应用的解码策略。这个后向兼容的解码器在现有技术环境中也是有效的,它对传输一组完全ICC数据的现有技术信号进行解码。
附图说明
随后参考附图描述本发明优选的实施例,其中:
图1显示了本发明的分级音频编码器实施例的方框图;
图2显示了本发明的音频编码器的实施例;
图2a显示了本发明的音频解码器的ICC参数的可能控制方案;
图3a,b显示了侧声道信息的图形表示;
图4显示了本发明的音频编码器的第二实施例;
图5显示了本发明的音频解码器的优选实施例的方框图;
图6显示了本发明的音频解码器的实施例;
图7显示了本发明的音频解码器的另一实施例;
图8显示了本发明的发射器或音频记录器;
图9显示了本发明的接收器或音频播放器;
图10显示了本发明的传输系统;
图11显示了现有技术的联合立体声编码器;
图12显示了现有技术BCC编码器/解码器链的方框图表示;
图13显示了BCC合成块现有技术实现的方框图;
图14显示了确定BCC参数的方案的表示;以及
图15显示了现有技术分级编码器。
具体实施方式
图1显示了本发明的用于产生音频信号的参数表示的编码器的方框图。图1显示了用于相继将音频声道组合,并产生描述组合成单一声道的声道对空间特性的空间参数的发生器220。图1还显示了供给器222,通过选择声道对之间的幅度差信息和使用发生器220产生的相干信息确定左/右相干量度,提供多声道音频信号的参数表示。
为了演示分级多声道音频编码的发明思想的原理,图1显示的情形中,四个原始音频声道224a到224d被迭代组合,形成单一声道226。原始音频声道224a和224b分别表示原始四声道音频信号的左前和左后声道,声道224c和224d分别表示右前和右后声道。不失一般性,各种空间参数中只有两个参数在图1中显示(ICLD和ICC)。根据该发明,发生器220将音频声道224a到224d以这样的方式组合,使得在组合过程中导出载有重要的左/右相干信息的ICC参数。
在第一步骤中,只含有左侧信息的声道224a和224b被组合成左主声道228a(L),而只含有右侧信息的两个声道224c和224d被组合成右主声道228b(R)。在组合的过程中,发生器产生两个ICLD参数230a和230b,两者都是含有关于组合到单一声道的两个原始声道的幅度差信息的空间参数。发生器还产生两个ICC参数232a和232b,描述组合到单一声道的两个声道之间的相关度。ICLD和ICC参数230a、230b、232a和232b被传递到供给器222。
在分级产生过程的下一个步骤中,左主声道228a和右主声道228b组合到作为结果的音频声道226,其中发生器提供ICLD参数234和ICC参数236,它们都被传输到供给器222。重要的是要注意到,在这个组合步骤中产生的ICC参数236主要表示由音频声道224a到224d表示的原始四声道音频信号的重要左/右相干信息。
因此,供给器222从可获得的空间参数230a、b,232a、b,234和236中建立了参数表示238,参数表示由参数230a、230b、234和236组成。
图2显示了本发明的音频编码器的优选实施例,该编码器将5.1多声道信号编码到单一单声道信号。
图2显示了变换单元240a到240c,五个2到1缩混器242a到242e,参数组合单元244和逆变换单元246。原始5.1声道音频信号由左前声道248a、左后声道248b、右前声道248c、右后声道248d、中声道248e以及低频声道248f给出。重要的是要注意到,原始声道以这种方式分组使得只含有左侧信息的声道248a和248b形成一个声道对,只含有右侧信息的声道248c和248d形成另一个声道对,而中声道248e和248f形成第三声道对。
变换单元240a到240c将声道248a到248f从时域转换到频率子带域上它们的频谱表示250a到250f。在第一分级编码步骤252中,将左声道250a和250b编码到左主声道254a,将右声道250c和250d编码到右主声道254b,并将中声道250e和低频声道250f编码到中主声道256。在该第一分级编码步骤252中,三个涉及的2到1编码器242a到242c产生缩混声道254a、254b和256,另外还有重要空间参数集260a、260b和260c,其中参数集260a(参数集1)描述声道250a和250b之间的空间信息,参数集260b(参数集2)描述声道250c和250d之间的空间关系,而参数集260c(参数集3)描述声道250e和250f之间的空间关系。
在第二分级步骤262中,将左主声道254a和右主声道254b缩混到立体声主声道264,产生空间参数集266(参数集4),其中该参数集266的ICC参数包含重要左/右相关信息。为了从参数集266中建立组合的ICC值,可以通过数据连接268将参数集266传递到参数组合单元244。在分第三级编码步骤272中,将立体声主声道264和中主声道256组合来形成单声道结果声道274。可以通过数据连接278将该缩混过程中导出的参数集276传递到参数组合单元244。最后,通过逆变换单元246将结果声道274变换到时域,来建立单声道缩混音频信号280,该信号是由音频声道248a到248f表示的原始5.1声道信号的最终单声道表示。
为了从单声道缩混音频声道280中重建原始5.1声道音频信号,另外需要5.1声道音频信号的参数表示。对于图2中所示的树状结构,可以看到,左前和左后声道被组合成L信号254a。类似的,右前和右后声道被组合成R信号254b。随后完成L和R信号的组合,这将递送参数集4(266)。在这个分级结构的情况下,导出组合ICC值的简单方法是选择参数集4的ICC值,并将其作为组合ICC值,然后它被参数组合单元244合并到5.1声道信号的参数表示中。更复杂的方法还可以考虑中声道的影响(例如通过使用来自参数集5的参数),如图2a所示。
作为一个示例,从参数集5中,含在LR(264)声道和C声道(256)中的能量的能量比E(LR)/E(C)可以用来控制ICC值。如果大部分能量来自LR通道,传输的ICC值会变得和参数集4中的ICC值ICC(LR)接近。如果大部分能量来自C通道256,传输的ICC值会随着变得接近1,如图2a所示。该图显示了两种可能的方法来实现ICC参数的控制,或者通过当能量比与给定阈值286相交时在两个极值之间转换(控制函数288a),或者通过两个极值之间的平滑过渡(控制函数288b)。
图3a和3b显示了从使用现有技术(图3a)的分级编码器结构和使用了本发明的音频编码思想(图3b)的分级编码器结构中递送的5.1音频声道可能的参数表示的对比。
图3a显示了单一时间帧以及离散的频率区间的参数表示,正如现有技术所提供的那样。图2中每个2到1编码器242a到242e递送一对ICLD和ICC参数,参数对的起源在图3a中显示。按照现有技术的方法,由2到1解码器242a到242e提供的所有的参数集必须和缩混单声道音频信号280一起作为侧面信息传输来重建5.1声道音频信号。
图3b显示了按照本发明的思想导出的参数。每个2到1编码器242a到242e只直接贡献一个参数,即ICLD参数。单一的传输ICC参数ICCC由参数组合单元244导出,而不是直接由2到1编码器242a到242e提供。正如图3a和3b中清晰可见,相比于现有技术,本发明的分级编码器思想能大大减少侧面信息的数据量。
图4显示了当前发明的另一个优选实施例,允许在分级编码过程中将5.1声道音频信号编码成单声道音频信号,并提供压缩的侧面信息。因为原理硬件结构和图2中描述的一样,两图中相同的项目被标上相同的数字。不同是由于输入声道248a到248f的不同分组,并因此顺序,即单一声道被缩混到单声道274的顺序和图2中的缩混顺序不同。因此,只有与图2中描述不同的方面,对理解图4中所示当前发明的实施例至关重要,在下文中将对其进行描述。
左前声道248a和右前声道248c合成一组来形成一个声道对,中声道248e和低频声道248f形成另一个输入声道对,而5.1音频信号的第三输入声道对通过左后声道248b和右后声道248d形成。
在第一分级编码步骤252中,将左前声道250a和右前声道250c缩混到前置主声道290(F),将中声道250e和低频声道250f缩混到中主声道292(C),并将左后声道250b和右后声道250d缩混到后置主声道294(S)。参数集300a(参数集1)描述前置主声道290,参数集300b(参数集2)描述中主声道292,且参数集300c(参数集3)描述后置主声道294。
重要的是要注意到,参数集300a和参数集300c拥有描述原始声道248a到248f之间的重要左/右相关度的信息。因此,对于参数组合单元244来说,通过数据链接302a和302b,参数集300a和参数集300c是可获得的。
在第二编码步骤262中,将前置主声道290和中主声道292缩混到纯前置声道304,产生参数集300d(参数集4)。对于参数组合单元244来说,通过数据链接306,参数集300d也是可获得的。
在第三分级编码步骤272中,将纯前置声道304和后置主声道294一起缩混到结果声道274(M),然后它由逆变换单元246变换到时域,来形成最终的单声道缩混音频声道280。参数集300e(参数集5)来源于纯前置声道304和后置主声道294的缩混,对于参数组合单元244来说,通过数据链接310,参数集300e也是可获得的。
图4中的树状结构首先分别对前和后执行左声道和右声道的组合。于是,在参数集1和3(300a,300c)中存在基本的左/右相关/相干度。组合的ICC值可由参数组合单元244通过在参数集1和3的ICC值之间建立加权平均来建立。这表示,将更重的权重赋给更强的声道对(Lf/Rf对Lr/Rr)。可以通过导出组合的ICC值ICCC来达到相同目标,其中ICCC建立如下的加权和:
ICCC=(A*ICC1+B*ICC2)/(A+B)
其中A表示和ICC1对应的声道对中的能量,而B表示和ICC2对应的声道对中的能量。
在另一可供选择的实施例中,更复杂的方法还考虑中声道的影响(例如通过考虑参数集4的参数)。
图5显示了本发明的解码器,用于处理接收到的作为原始四声道音频信号参数表示的压缩侧面信息。图5包括用来提供四声道音频信号的压缩参数表示的接收器310和用来处理压缩参数表示从而提供四声道音频信号完全参数表示的处理器312,使得从接收的单声道音频信号中重建四声道音频信号成为可能。
接收器310接收空间参数ICLD(B)314,ICLD(F)316,ICLD(R)318和ICC320。提供的参数表示,由参数314到320组成,描述了原始音频声道324a到324d的空间特性。
作为第一上混步骤,处理器312提供描述第一声道对326a的空间参数和描述第二声道对326b的空间参数,其中第一声道对326a是两个声道324a和324b(Rf和Lf)的组合,第二声道对326b是两个声道324c和324d(Rr和Lr)的组合。为了实现以上目标,需要声道对的幅度差314。因为声道对326a和326b都含有一个左声道和一个右声道,声道对之间的差异主要描述了前/后相关度。因此,接收的ICC参数320载有关于左/右相干度的主要信息,由处理器312提供该ICC参数320,使得左/右相干度信息被优选地用于为声道对326a和326b提供单独的ICC参数。
在下一个步骤中,处理器312提供合适的空间参数,以能够从声道326a中重建单一音频声道324a和324b,从声道326b中重建声道324c和324d。为了实现以上目标,处理器312提供幅度差316和318,并且处理器312必须为两个声道对提供合适的ICC值,因为声道对326a和326b中的每个声道对含有重要的左/右相干信息。
在一示例中,处理器312可以简单提供组合的接收ICC值320,来上混声道对326a和326b。作为选择,接收的组合ICC值320可被加权来为两个声道对导出单独的ICC值,例如权重基于两个声道对的幅度差314。
在本发明的优选实施例中,处理器为每个单一上混步骤提供接收的ICC参数320,来避免在重现声道324a到324d的过程中额外的人工合成音的引入。
图6显示了并入了根据目前发明的分级解码程序的解码器的优选实施例,用于使用原始5.1音频信号的压缩参数表示,来将单声道音频信号解码到5.1多声道音频信号。
图6显示了变换单元350、参数处理单元352、五个1到2解码器354a到354e、以及三个逆变换单元356a到356c。
需要注意的是,根据图6,本发明的解码器的实施例是图2中描述的编码器的相对物,并被设计成接收单声道缩混音频声道358,该声道最终将上混到由音频声道360a(lf)、360b(lr)、360c(rf)、360d(rr)、360e(co)和360a(lfe)组成的5.1音频信号。通过使用变换单元350,将缩混声道358(m)接收并将其从时域变换到频域而成为它的频率表示362。参数处理单元352与缩混声道358并行接收组合且压缩的空间参数集364。
在分级解码过程的第一步骤363中,将单声道缩混声道362上混到立体声主声道364(LR)和中主声道366(C)。
在分级解码过程的第二步骤368中,将立体声主声道364上混到左主声道370(L)和右主声道372(R)。
在解码过程的第三步骤中,将左主声道370上混到左前声道374a和左后声道374b,将右主声道372上混到右前声道374c和右后声道374d,并且将中主声道366上混到中声道374e和低频声道374f。
最后,通过逆变换单元356a到356c,将六个单一音频声道374a到374f变换到它们在时域上的表示,于是建立重建的5.1音频信号,该信号含有六个音频声道360a到360f。为了保留5.1音频信号的原始空间特性,参数处理单元352,特别是参数处理单元提供单独的参数集380a到380e的方式,是至关重要的。
接收的组合ICC参数描述了原始六声道音频信号的重要左/右相干度。因此,参数处理单元352建立参数集4(380d)的ICC值,使得它和原始接收并在参数集364中传输的空间数值的左/右相关信息类似。在最简单的可能实现中,参数处理单元352简单使用接收的组合ICC参数。
根据当前发明的解码器的另一个优选实施例在图7中显示,图7中的解码器是图4中编码器的相对物。
由于图7中的编码器包括与图6中解码器相同的功能块,下文的讨论限制在分级解码过程和图6中过程不同的步骤上。这主要是由于事实上,单声道信号362以不同的顺序和不同的声道组合被上混,因为原始5.1音频信号已进行的缩混和图6中接收的缩混信号不同。
在分级解码过程的第一步骤363中,将单声道信号362上混到后置主声道400(S)和纯前置声道402(CF)。
在第二步骤368中,将纯前置声道402上混到前置主声道404和中主声道406。
在第三解码步骤372中,将前置主声道上混到左前声道374a和右前声道374c,将中主声道406上混到中声道374e和低频声道374f,并且将后置主声道400上混到左后声道374b和右后声道374d。最后,将六个音频声道374a到374f从频域变换到它们的时域表示360a到360f,建立重建的5.1音频信号。
为了保留原始5.1信号的空间特性(已经由编码器编码成为侧面信息),参数处理单元352为1到2解码器354a到354e提供参数集410a到410e。因为在第三个上混过程372中需要重要的左/右相关信息来建立Lf、Rf、Lr和Rr声道,在简单通过传输的ICC参数来建立参数集410a和410c的最简单的实现中,参数处理单元352可提供参数集410a和410c中合适的ICC值。在一个可能的选择中,可通过应用合适的加权函数到接收的ICC参数上,将接收的ICC参数变换成参数集410a和410c的单独的参数,其中它们的权重例如依赖于前置主声道404和后置主声道400中传输的能量。在一个更复杂的实现中,参数处理单元352也可以考虑中声道信息,来为参数集5和参数集4(410a,410b)提供单独的ICC值。
图8显示了本发明的音频发射器或者记录器500,其具备编码器220、输入接口502和输出接口504。
可以在发射器/记录器550的输入接口502提供音频信号。使用本发明的编码器220在发射器/记录器中对该音频信号编码,并且在发射器/记录器500的输出接口504输出编码表示。然后该编码表示可能被传输或者存储在存储介质中。
图9显示了本发明的接收器或音频播放器520,其具备本发明的解码器312、比特流输入522以及音频输出524。
可以在本发明的接收器/音频播放器520的输入522处输入比特流。然后使用解码器312对比特流解码,并在本发明的接收器/音频播放器520的输出524处输出或播放解码信号。
图10显示了由本发明的发射器500和本发明的接收器520组成的传输系统。
对发射器500的输入接口502处输入的音频信号编码,并将其从发射器500的输出504传送到接收器520的输入522。接收器将音频信号解码,并在输出524回放或输出该音频信号。
所讨论的本发明的编码器示例将多声道音频信号缩混到单声道音频信号。当然另一可供选择的可能是将多声道信号缩混到立体声信号,它对于图2和4中讨论的实施例而言,意味着分级编码过程中的一个步骤可以忽略。所有其它数目的结果声道也是可能的。
提出的用来分级对多声道音频信息进行编码或解码的方法主要通过将多个ICC值组合成一单一的传输ICC值从而减小侧面信息来描述,其中多声道音频信息提供/使用音频信号空间特性的压缩参数表示。这里要注意的是,描述的发明决不局限于只使用一个组合的ICC值。相反,可以产生例如两个组合的数值,一个描述重要的左/右相关度,另一个描述前/后相关度。
在例如图2中所示的当前发明的实施例中,这可以很方便的实现,其中一方面左前声道250a和左后声道250b被组合成左主声道254a,而右前声道250c和右后声道250d被组合成后主声道254b。因此这两个编码步骤产生出关于原始音频信号前后相关度的信息,能够被很容易的处理来提供拥有前/后相关信息的额外ICC值。
此外,在当前发明的优选修改中,使编码/解码过程能够使用现有技术单独传输的参数以及依赖于从编码器发送到解码器的侧面信息而使用组合的传输参数是有利的。这样的系统能够有利的实现更高的表示精确度(使用现有技术单独传输的参数)以及作为选择的低侧面信息比特率(使用组合的参数)。
典型说来,设置的选择是由使用者依赖应用要求而做出的,例如能够被使用的传输系统容纳的侧面信息量。这允许使用相同的统一编码器/解码器体系结构,同时能够在一个宽的侧面信息比特率/精度平衡范围内运行。这是一项重要的性能,来覆盖一宽范围的具有不同要求和传输能力的可能应用。
在这个有利的实施例的另一个修改中,运行模式的选择也可由编码器自动做出,编码器分析例如使用组合传输模式的情况下解码值同理想结果的偏差。如果没有发现重大偏差,就使用组合参数传输。解码器甚至能够根据对所提供的侧面信息的分析,自己确定哪个模式适合使用。例如,如果只提供了一个空间参数,解码器将自动切换到使用组合传输参数的解码模式。
在当前发明的另一个有利的修改中,编码器/解码器自动从使用组合传输参数的模式切换到使用单独传输参数的模式,以保证音频重现质量和想得到的低侧面信息比特率之间可能的最好折衷。
正如能从图2、4、6和7中描述的编码器/解码器优选的实施例中所看到的,这些单元使用相同的功能块。因此,另一个优选实施例在一个框架中建立了使用相同硬件的编码器和解码器。
在当前发明的另一可供选择的实施例中,通过将不同声道分组到一起成为声道对,在不同编码方案之间动态切换是可能的,使得动态使用为给定的多声道音频信号提供最好可能音质的编码方案成为可能。
不需要将单声道缩混声道和多声道音频信号的参数表示一起传输。只传输参数表示也是可能的,使得已经拥有多声道音频信号的单声道缩混作为例如记录的听众,能使用现有的多声道设备和参数侧面信息重现多声道信号。
作为总结,本发明允许从已知的现有技术参数中有利的确定这些组合参数。在分级编码器/解码器结构中应用组合参数的发明思想,能将多声道音频信号缩混到基于单声道的参数表示,获得低侧面信息速率(比特率削减)下的原始信号的精确参数化。
本发明的目的之一是编码器以减少必须传输的参数数目为目的,组合特定的参数。然后,解码器从已经传输的参数中导出丢失的参数,而不是使用默认参数值,使用默认参数正是在例如图15中所示的现有技术的系统中的情形。
再次回顾使用现有技术的分级参数多声道音频编码器的实施例,如图15中的示例,此优点变得很明显。那里,将输入信号(Lf、Rf、Lr、Rr、C和LFE,分别对应左前、右前、左后、右后、中和低频加强声道)分割并变换到频域来获得需要的时间/频率片。随后将得到的信号以成对的方式组合。例如,组合信号Lf和Lr形成信号“L”。生成对应的空间参数集(1)来模拟信号Lf和Lr之间的空间特性(即由IID、ICC、IPD中的一个或多个组成)。在根据图15中所示现有技术的实施例中,重复该过程直到获得了单一输出声道(M),该输出声道还伴随有五个参数集。现有技术分级编码技术的应用将意味着所有参数集的传输。
但是需要注意的是,不是所有参数集都必须含有针对所有可能空间参数的数值。例如,图15中参数集1由IID和ICC参数组成,而参数集3可能只由IDD参数组成。如果没有为特定的集传输特定的参数,现有技术分级解码器将对这些参数应用默认值(例如ICC=+1,IPD=0,等等)。所以,每个参数集只表示特定的信号组合而不描述剩下的声道对的空间特性。
关于信号空间特性的知识的丢失,即没有传输参数,使用本发明的思想可以避免以上问题,其中编码器组合特定的参数,使得原始信号最重要的空间特性得到保留。
例如当把ICC参数组合成单一值时,在解码器中可使用组合的参数作为所有单独参数的替代参数(或者可以从传输的参数中导出解码器中使用的单独参数)。一个重要特征就是,编码器参数组合过程的执行使得原始多声道信号的声音图像在解码器重建后得到尽可能接近的保留。传输ICC参数,这表示原始音场的宽度(解相关)必须得到保持。
这里还要注意的是,最重要的ICC值在左/右轴线之间,因为通常听众向前面对收听装置。将此考虑进来将有利于建立分级编码结构,使得在迭代编码过程中获得音频信号合适的参数表示,其中得到的组合ICC值主要表示左/右解相关。在讨论当前发明的优选实施例时将对其进行更具体的解释。
本发明的编码/解码方案依靠下面两个措施使用空间音频系统的分级结构,允许减少从编码器传输到解码器的参数数目:
·组合单独编码器参数来形成组合参数,将其传输到解码器来代替单独的参数。执行参数组合使得信号的声音图像(包括L/R相关度/相干度)尽可能得到保留。
·在解码器中使用传输的组合参数来代替若干传输的单独参数(或者从组合参数中导出实际使用的参数)。
依据发明方法的特定实现要求,该发明方法可以在软件或者硬件中实现。实现方式可以是使用数字存储介质,特别是其上存储了可被电方式读出的控制信号的磁盘、DVD或者CD,存储介质与可编程计算机系统协作,使得本发明的方法得以执行。一般来说,本发明也可以是计算机程序产品,具有存储于机器可读的载体上的程序代码,当计算机程序产品在计算机上运行时,程序代码可执行本发明的方法。换句话说,本发明的方法是计算机程序,该程序含有在计算机上运行时来执行至少1种本发明的方法的程序代码。
虽然上述内容通过参考其具体实施例,已得到具体的展示和描述,但是本领域技术人员将认识到,在不背离本发明的精神和范围的前提下,可以在形式和细节上做出各种其它的修改。将认识到,在不背离这里公开的和所附权利要求包括的比较概括的思想的前提下,可以做出适应不同实施例的各种修改。
Claims (32)
1.一种编码器,用于产生至少在相对于收听位置的左侧有两个原始左声道、在相对于收听位置的右侧有两个原始右声道的音频信号的参数表示,所述编码器包括:
发生器,用于产生参数信息,所述发生器可操作来分别处理若干声道对,以导出所处理声道对的幅度信息,并且导出包括只含有来自左侧的信息的第一声道和只含有来自右侧的信息的第二声道的声道对的相干信息;和
供给器,通过选择声道对的幅度信息以及使用相干信息确定左/右相干量度,来提供参数表示,其中将所述左/右相干量度引入到输出数据流中作为参数表示内音频信号的唯一相干信息。
2.根据权利要求1所述的编码器,其中,发生器可操作来
处理左前声道lf和左后声道lr以导出lf/lr幅度信息,其中左前声道lf和左后声道lr的组合形成左主声道LM,处理右前声道rf和右后声道rr以导出rf/rr幅度信息,其中右前声道rf和右后声道rr的组合形成右主声道RM;以及
处理左主声道LM和右主声道RM以导出lm/rm幅度信息并导出相干信息,其中左主声道LM和右主声道RM的组合形成立体声主声道SM。
3.根据权利要求2所述的编码器,其中,发生器可操作来处理中声道ce和低频声道lo以导出ce/lo幅度信息,其中中声道ce和低频声道lo的组合形成中主声道CM。
4.根据权利要求3所述的编码器,其中,
发生器可操作来处理立体声主声道SM和中主声道CM以导出sm/cm幅度信息,其中立体声主声道SM和中主声道CM的组合形成缩混声道;并且
供给器可操作来使用相干信息和sm/cm幅度信息以确定左/右相干量度。
5.根据权利要求4所述的编码器,其中,供给器可操作来依靠sm/cm幅度信息,计算左/右相干量度,使得相比于sm/cm幅度信息指示能量更多地处于中主声道CM中的情况,在sm/cm幅度信息指示立体声主声道SM中的能量比中主声道CM中的能量多的情况中,左/右相干量度更接近相干信息,其中在能量更多地处于中主声道CM中的情况下,左/右相干量度更接近1。
6.根据权利要求4所述的编码器,其中,供给器可操作来依靠sm/cm幅度信息,计算左/右相干量度,使得在sm/cm幅度信息指示立体声主声道SM中能量和中主声道CM中能量的比值超过预定值时,左/右相干量度被设为相干信息,而在立体声主声道SM中能量和中主声道CM中能量的比值小于或等于所述预定值时,左/右相干量度设成1。
7.根据权利要求1所述的编码器,其中,
发生器可操作来处理左前声道lf和右前声道rf以导出lf/rf幅度信息和第一相干信息,其中左前声道lf和右前声道rf的组合形成前置主声道FM,并处理左后声道lr和右后声道rr以导出lr/rr幅度信息和第二相干信息,其中左后声道lr和右后声道rr的组合形成后置主声道RM;以及
供给器可操作来确定组合第一相干信息和第二相干信息的左/右相干量度。
8.根据权利要求7所述的编码器,其中,供给器可操作来基于第一和第二相干信息的加权和,确定左/右相干量度,其中使用前置主声道FM的幅度信息和后置主声道RM的幅度信息作为权重。
9.根据权利要求7所述的编码器,其中,发生器可操作来处理中声道ce和低频声道lo以导出ce/lo幅度信息,其中中声道ce和低频声道lo的组合形成中主声道CM。
10.根据权利要求9所述的编码器,其中,
发生器可操作来处理前置主声道FM和中主声道CM以导出fm/cm幅度信息,其中前置主声道FM和中主声道CM的组合形成纯前置声道PF;并且
供给器可操作来另外使用fm/cm幅度信息,组合第一和第二相干信息,确定左/右相干量度。
11.根据权利要求10所述的编码器,其中,发生器可操作来处理纯前置声道PF和后置主声道RM以导出pf/rm幅度信息,其中纯前置声道PF和后置主声道RM的组合形成缩混声道。
12.根据权利要求1所述的编码器,其中,发生器可操作来处理给定长度的离散时间帧中的声道对。
13.根据权利要求1所述的编码器,其中,发生器可操作来处理给定带宽的离散频率区间中的声道对。
14.一种解码器,用于处理原始音频信号的参数表示,所述原始音频信号在相对于收听位置的左侧至少有两个原始左声道,在相对于收听位置的右侧至少有两个原始右声道,所述解码器包括:
接收器,用于提供音频信号的参数表示,所述接收器可操作来提供声道对的幅度信息,并提供含有左声道和右声道的声道对的左/右相干量度作为参数表示内原始音频信号的唯一相干信息,左/右相干量度表示包括只含有来自左侧的信息的第一声道和只含有来自右侧的信息的第二声道的至少一个声道对之间的相干信息;以及
处理器,用于为声道对提供参数信息,所述处理器可操作来从参数表示中选择幅度信息,以及使用左/右相干量度导出至少一个声道对的相干信息,其中所述至少一个声道对包括只含有来自左侧的信息的第一声道和只含有来自右侧的信息的第二声道。
15.根据权利要求14所述的解码器,其中,
接收器可操作来
提供原始左前声道lf和原始左后声道lr组成的声道对的lf/lr幅度信息,其中原始左前声道lf和原始左后声道lr的组合形成左主声道LM;
提供原始右前声道rf和原始右后声道rr组成的声道对的rf/rr幅度信息,其中原始右前声道rf和原始右后声道rr的组合形成右主声道RM;
提供左主声道LM和右主声道RM组成的声道对的lm/rm幅度信息,其中左主声道LM和右主声道RM的组合形成立体声主声道SM;并且
处理器可操作来使用左/右相干量度,提供左主声道LM和右主声道RM的相干信息;
解码器还包括上混器,所述上混器具有:
第一1到2上混器,用于通过使用lm/rm幅度信息和左/右相干量度,从立体声主声道SM中产生左主声道LM和右主声道RM;
第二1到2上混器,用于通过使用lf/lr幅度信息和等于左/右相干量度或者使用加权函数根据左/右相干量度导出的另一相干信息,从左主声道LM中产生原始左前声道lf和原始左后声道lr;以及
第三1到2上混器,用于通过使用rf/rr幅度信息和等于左/右相干量度或者使用加权函数根据左/右相干量度导出的另一相干信息,从右主声道RM中产生原始右前声道rf和原始右后声道rr。
16.根据权利要求15所述的解码器,其中,
接收器可操作来提供原始中声道ce和原始低频声道lo组成的声道对的ce/lo幅度信息,其中原始中声道ce和原始低频声道lo的组合形成中主声道CM;以及
上混器还包括第四1到2上混器,用于通过使用ce/lo幅度信息和等于左/右相干量度或者使用加权函数根据左/右相干量度导出的另一相干信息,从中主声道CM中产生原始中声道ce和原始低频声道lo。
17.根据权利要求16所述的解码器,其中,
接收器可操作来提供立体声主声道SM和中主声道CM组成的声道对的sm/cm幅度信息,其中立体声主声道SM和中主声道CM的组合形成缩混声道;以及
上混器还包括第五1到2上混器,用于通过使用sm/cm幅度信息和等于左/右相干量度或者使用加权函数根据左/右相干量度导出的另一相干信息,从缩混声道中产生立体声主声道SM和中主声道CM。
18.根据权利要求14所述的解码器,其中,接收器可操作来提供原始左前声道lf和原始右前声道rf组成的声道对的lf/rf幅度信息,其中原始左前声道lf和原始右前声道rf的组合形成前置主声道FM;
提供原始左后声道lr和原始右后声道rr组成的声道对的lr/rr幅度信息,其中原始左后声道lr和原始右后声道rr的组合形成后置主声道RM;并且
处理器可操作来使用左/右相干量度,提供原始左前声道lf和原始右前声道rf的第一相干信息,并提供原始左后声道lr和原始右后声道rr的第二相干信息;
解码器还包括一个上混器,所述上混器具有:
第一1到2上混器,用于通过使用lf/rf幅度信息和左/右相干量度,从前置主声道FM中产生原始左前声道lf和原始右前声道rf;
第二1到2上混器,用于通过使用lr/rr幅度信息和左/右相干量度,从后置主声道RM中产生原始左后声道lr和原始右后声道rr。
19.根据权利要求18所述的解码器,其中,
接收器可操作来提供原始中声道ce和原始低频声道lo组成的声道对的ce/lo幅度信息,其中原始中声道ce和原始低频声道lo的组合形成中主声道CM;并且
上混器还包括第三1到2上混器,用于通过使用ce/lo幅度信息和等于左/右相干量度或者使用加权函数根据左/右相干量度导出的另一相干信息,从中主声道CM中产生原始中声道ce和原始低频声道lo。
20.根据权利要求19所述的解码器,其中,
接收器可操作来提供前置主声道FM和中主声道CM组成的声道对的fm/cm幅度信息,其中前置主声道FM和中主声道CM的组合形成纯前置声道PF;并且
上混器还包括第四1到2上混器,用于通过使用fm/cm幅度信息和等于左/右相干量度或者使用加权函数根据左/右相干量度导出的另一相干信息,从纯前置声道PF中产生前置主声道FM和中主声道CM。
21.根据权利要求20所述的解码器,其中,
接收器可操作来提供纯前置声道PF和后置主声道RM组成的声道对的pf/rm幅度信息,其中纯前置声道PF和后置主声道RM的组合形成缩混声道;并且
上混器还包括第五1到2上混器,用于通过使用pf/rm幅度信息和等于左/右相干量度或者使用加权函数根据左/右相干量度导出的另一相干信息,从缩混声道中产生纯前置声道PF和后置主声道RM。
22.根据权利要求14所述的解码器,其中,处理器可操作来通过分配接收的左/右相干度作为相干量度,导出所有声道对的相干量度。
23.根据权利要求14所述的解码器,其中,接收器可操作来在第一模式下运行,提供声道对的幅度信息,并提供含有左声道和右声道的声道对的左/右相干量度作为参数表示内音频信号的唯一相干信息,所述左/右相干量度表示包括只含有来自相对于收听位置左侧的信息的第一声道和只含有来自相对于收听位置右侧的信息的第二声道的至少一个声道对之间的相干信息;或者在第二模式下运行,提供声道对的幅度信息,并提供相同声道对的相干信息;并且
处理器可操作来为声道对提供参数信息,
在第一模式下,处理器可操作来从参数表示中选择幅度信息,并使用左/右相干量度导出至少一个声道对的相干信息,所述至少一个声道对包括只含有来自左侧的信息的第一声道和只含有来自右侧的信息的第二声道;或者
在第二模式下,处理器可操作来从参数表示中选择幅度信息,并从参数表示中选择相干信息。
24.根据权利要求23所述的解码器,其中,接收器还包括模式接收器,用于使用接收的模式信息来选择运行模式,所述模式信息表示要使用的第一或第二模式。
25.一种用于产生相对于收听位置有至少两个原始左声道、相对于收听位置有至少两个原始右声道的音频信号的参数表示的方法,该方法包括:
通过分别处理若干声道对以导出所处理声道对的幅度信息,以及通过导出包括只含有来自左侧的信息的第一声道和只含有来自右侧的信息的第二声道的声道对的相干信息,来产生参数信息,以及
通过选择声道对的幅度信息以及使用相干信息确定左/右相干量度并将左/右相干量度引入到输出数据流中作为参数表示内音频信号的唯一相干信息,来提供参数表示。
26.一种用于处理原始音频信号的参数表示的方法,所述原始音频信号在相对于收听位置的左侧至少有两个原始左声道,在相对于收听位置的右侧至少有两个原始右声道,该方法包括:
通过提供声道对的幅度信息以及通过提供含有左声道和右声道的声道对的左/右相干量度作为参数表示内原始音频信号的唯一相干信息,来提供音频信号的参数表示,左/右相干量度表示包括只含有来自左侧的信息的第一声道和只含有来自右侧的信息的第二声道的至少一个声道对之间的相干信息;以及
通过从参数表示中选择幅度信息以及通过使用左/右相干量度导出至少一个声道对的相干信息,来提供声道对的参数信息,所述至少一个声道对包括只含有来自左侧的信息的第一声道和只含有来自右侧的信息的第二声道。
27.一种带有解码器的接收器或音频播放器,所述解码器用于处理原始音频信号的参数表示,原始音频信号在相对于收听位置的左侧至少有两个原始左声道,在相对于收听位置的右侧至少有两个原始右声道,包括:
接收器,用于提供音频信号的参数表示,所述接收器可操作来提供声道对的幅度信息,并提供含有左声道和右声道的声道对的左/右相干量度作为参数表示内原始音频信号的唯一相干信息,左/右相干量度表示包括只含有来自左侧的信息的第一声道和只含有来自右侧的信息的第二声道的至少一个声道对之间的相干信息;以及
处理器,用于为声道对提供参数信息,所述处理器可操作来从参数表示中选择幅度信息,以及使用左/右相干量度导出至少一个声道对的相干信息,其中所述至少一个声道对包括只含有来自左侧的信息的第一声道和只含有来自右侧的信息的第二声道。
28.一种带有编码器的发射器或音频记录器,所述编码器用于产生至少在相对于收听位置的左侧有两个原始左声道、在相对于收听位置的右侧有两个原始右声道的音频信号的参数表示,包括:
发生器,用于产生参数信息,所述发生器可操作来分别处理若干声道对,以导出所处理声道对的幅度信息,并且导出包括只含有来自左侧的信息的第一声道和只含有来自右侧的信息的第二声道的声道对的相干信息;以及
供给器,通过选择声道对的幅度信息以及使用相干信息确定左/右相干量度,来提供参数表示,其中将所述左/右相干量度引入到输出数据流中作为参数表示内音频信号的唯一相干信息。
29.一种接收或音频播放的方法,该方法具有用于处理原始音频信号的参数表示的方法,所述原始音频信号在相对于收听位置的左侧至少有两个原始左声道,在相对于收听位置的右侧至少有两个原始右声道,该方法包括:
通过提供声道对的幅度信息以及通过提供含有左声道和右声道的声道对的左/右相干量度作为参数表示内原始音频信号的唯一相干信息,来提供音频信号的参数表示,左/右相干量度表示包括只含有来自左侧的信息的第一声道和只含有来自右侧的信息的第二声道的至少一个声道对之间的相干信息;以及
通过从参数表示中选择幅度信息以及通过使用左/右相干量度导出至少一个声道对的相干信息,来提供声道对的参数信息,所述至少一个声道对包括只含有来自左侧的信息的第一声道和只含有来自右侧的信息的第二声道。
30.一种发送或音频记录的方法,该方法具有用于产生相对于收听位置有至少两个原始左声道、相对于收听位置有至少两个原始右声道的音频信号的参数表示的方法,该方法包括:
通过分别处理若干声道对以导出所处理声道对的幅度信息,以及通过导出包括只含有来自左侧的信息的第一声道和只含有来自右侧的信息的第二声道的声道对的相干信息,来产生参数信息,以及
通过选择声道对的幅度信息以及使用相干信息确定左/右相干量度并将左/右相干量度引入到输出数据流中作为参数表示内原始音频信号的唯一相干信息,来提供参数表示。
31.一种带有发射器和接收器的传输系统,所述发射器具有编码器,用于产生至少在相对于收听位置的左侧有两个原始左声道、在相对于收听位置的右侧有两个原始右声道的音频信号的参数表示,包括:
发生器,用于产生参数信息,所述发生器可操作来分别处理若干声道对,以导出所处理声道对的幅度信息,并且导出包括只含有来自左侧的信息的第一声道和只含有来自右侧的信息的第二声道的声道对的相干信息;以及
供给器,通过选择声道对的幅度信息以及使用相干信息确定左/右相干量度,来提供参数表示,其中将所述左/右相干量度引入到输出数据流中作为参数表示内原始音频信号的唯一相干信息;以及
所述接收器具有解码器,该解码器用于处理原始音频信号的参数表示,原始音频信号在相对于收听位置的左侧至少有两个原始左声道,在相对于收听位置的右侧至少有两个原始右声道,包括:
接收器,用于提供音频信号的参数表示,所述接收器可操作来提供声道对的幅度信息,并提供含有左声道和右声道的声道对的左/右相干量度作为参数表示内原始音频信号的唯一相干信息,左/右相干量度表示包括只含有来自左侧的信息的第一声道和只含有来自右侧的信息的第二声道的至少一个声道对之间的相干信息;以及
处理器,用于为声道对提供参数信息,所述处理器可操作来从参数表示中选择幅度信息,以及使用左/右相干量度导出至少一个声道对的相干信息,其中所述至少一个声道对包括只含有来自左侧的信息的第一声道和只含有来自右侧的信息的第二声道。
32.一种发送和接收的方法,发射的方法中有一种方法用于产生相对于收听位置有至少两个原始左声道、相对于收听位置有至少两个原始右声道的音频信号的参数表示,该方法包括:
通过分别处理若干声道对以导出所处理声道对的幅度信息,以及通过导出包括只含有来自左侧的信息的第一声道和只含有来自右侧的信息的第二声道的声道对的相干信息,来产生参数信息,以及
通过选择声道对的幅度信息以及使用相干信息确定左/右相干量度并将左/右相干量度引入到输出数据流中作为参数表示内原始音频信号的唯一相干信息,来提供参数表示;
以及接收的方法中有一种方法用于处理原始音频信号的参数表示,所述原始音频信号在相对于收听位置的左侧至少有两个原始左声道,在相对于收听位置的右侧至少有两个原始右声道,该方法包括:
通过提供声道对的幅度信息以及通过提供含有左声道和右声道的声道对的左/右相干量度作为参数表示内原始音频信号的唯一相干信息,来提供音频信号的参数表示,左/右相干量度表示包括只含有来自左侧的信息的第一声道和只含有来自右侧的信息的第二声道的至少一个声道对之间的相干信息;以及
通过从参数表示中选择幅度信息以及通过使用左/右相干量度导出至少一个声道对的相干信息,来提供声道对的参数信息,所述至少一个声道对包括只含有来自左侧的信息的第一声道和只含有来自右侧的信息的第二声道。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US67154405P | 2005-04-15 | 2005-04-15 | |
US60/671,544 | 2005-04-15 | ||
US11/314,711 US7961890B2 (en) | 2005-04-15 | 2005-12-21 | Multi-channel hierarchical audio coding with compact side information |
US11/314,711 | 2005-12-21 | ||
PCT/EP2006/000875 WO2006108462A1 (en) | 2005-04-15 | 2006-02-01 | Multi-channel hierarchical audio coding with compact side-information |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101031959A CN101031959A (zh) | 2007-09-05 |
CN101031959B true CN101031959B (zh) | 2011-06-22 |
Family
ID=36190759
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2006800004171A Active CN101031959B (zh) | 2005-04-15 | 2006-02-01 | 带有压缩侧面信息的多声道分级音频编码 |
Country Status (12)
Country | Link |
---|---|
US (1) | US7961890B2 (zh) |
EP (1) | EP1869667B1 (zh) |
JP (1) | JP4519919B2 (zh) |
KR (1) | KR100878367B1 (zh) |
CN (1) | CN101031959B (zh) |
BR (1) | BRPI0605865B1 (zh) |
ES (1) | ES2740104T3 (zh) |
MY (1) | MY147652A (zh) |
PL (1) | PL1869667T3 (zh) |
RU (1) | RU2367033C2 (zh) |
TW (1) | TWI314840B (zh) |
WO (1) | WO2006108462A1 (zh) |
Families Citing this family (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
SE0400998D0 (sv) * | 2004-04-16 | 2004-04-16 | Cooding Technologies Sweden Ab | Method for representing multi-channel audio signals |
EP1905002B1 (en) * | 2005-05-26 | 2013-05-22 | LG Electronics Inc. | Method and apparatus for decoding audio signal |
JP4988716B2 (ja) | 2005-05-26 | 2012-08-01 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号のデコーディング方法及び装置 |
EP1946295B1 (en) | 2005-09-14 | 2013-11-06 | LG Electronics Inc. | Method and apparatus for decoding an audio signal |
CN101297353B (zh) * | 2005-10-26 | 2013-03-13 | Lg电子株式会社 | 编码和解码多声道音频信号的方法及其装置 |
EP1974347B1 (en) * | 2006-01-19 | 2014-08-06 | LG Electronics Inc. | Method and apparatus for processing a media signal |
WO2007091850A1 (en) * | 2006-02-07 | 2007-08-16 | Lg Electronics Inc. | Apparatus and method for encoding/decoding signal |
CN101390443B (zh) | 2006-02-21 | 2010-12-01 | 皇家飞利浦电子股份有限公司 | 音频编码和解码 |
KR100773562B1 (ko) * | 2006-03-06 | 2007-11-07 | 삼성전자주식회사 | 스테레오 신호 생성 방법 및 장치 |
WO2008046530A2 (en) * | 2006-10-16 | 2008-04-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for multi -channel parameter transformation |
EP2054875B1 (en) * | 2006-10-16 | 2011-03-23 | Dolby Sweden AB | Enhanced coding and parameter representation of multichannel downmixed object coding |
US8571875B2 (en) * | 2006-10-18 | 2013-10-29 | Samsung Electronics Co., Ltd. | Method, medium, and apparatus encoding and/or decoding multichannel audio signals |
JP5941610B2 (ja) * | 2006-12-27 | 2016-06-29 | エレクトロニクス アンド テレコミュニケーションズ リサーチ インスチチュートElectronics And Telecommunications Research Institute | トランスコーディング装置 |
JP5291096B2 (ja) * | 2007-06-08 | 2013-09-18 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号処理方法及び装置 |
EP2128856A4 (en) * | 2007-10-16 | 2011-11-02 | Panasonic Corp | DEVICE FOR PRODUCING A STREAM AND DECODING DEVICE AND CORRESPONDING METHOD |
JP5520300B2 (ja) * | 2008-09-11 | 2014-06-11 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | マイクロホン信号に基づいて一組の空間手がかりを供給する装置、方法およびコンピュータ・プログラムと2チャンネルのオーディオ信号および一組の空間手がかりを供給する装置 |
US8023660B2 (en) | 2008-09-11 | 2011-09-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus, method and computer program for providing a set of spatial cues on the basis of a microphone signal and apparatus for providing a two-channel audio signal and a set of spatial cues |
WO2010036059A2 (en) * | 2008-09-25 | 2010-04-01 | Lg Electronics Inc. | A method and an apparatus for processing a signal |
EP2169664A3 (en) * | 2008-09-25 | 2010-04-07 | LG Electronics Inc. | A method and an apparatus for processing a signal |
EP2169665B1 (en) * | 2008-09-25 | 2018-05-02 | LG Electronics Inc. | A method and an apparatus for processing a signal |
KR101600352B1 (ko) * | 2008-10-30 | 2016-03-07 | 삼성전자주식회사 | 멀티 채널 신호의 부호화/복호화 장치 및 방법 |
BR122019023924B1 (pt) | 2009-03-17 | 2021-06-01 | Dolby International Ab | Sistema codificador, sistema decodificador, método para codificar um sinal estéreo para um sinal de fluxo de bits e método para decodificar um sinal de fluxo de bits para um sinal estéreo |
WO2010105695A1 (en) * | 2009-03-20 | 2010-09-23 | Nokia Corporation | Multi channel audio coding |
KR20110022252A (ko) * | 2009-08-27 | 2011-03-07 | 삼성전자주식회사 | 스테레오 오디오의 부호화, 복호화 방법 및 장치 |
EP2491551B1 (en) * | 2009-10-20 | 2015-01-07 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus for providing an upmix signal representation on the basis of a downmix signal representation, apparatus for providing a bitstream representing a multichannel audio signal, methods, computer program and bitstream using a distortion control signaling |
EP2323130A1 (en) * | 2009-11-12 | 2011-05-18 | Koninklijke Philips Electronics N.V. | Parametric encoding and decoding |
EP2369861B1 (en) * | 2010-03-25 | 2016-07-27 | Nxp B.V. | Multi-channel audio signal processing |
KR101641685B1 (ko) * | 2010-03-29 | 2016-07-22 | 삼성전자주식회사 | 멀티채널 오디오의 다운믹스 방법 및 장치 |
EP2375409A1 (en) * | 2010-04-09 | 2011-10-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, audio decoder and related methods for processing multi-channel audio signals using complex prediction |
RU2683175C2 (ru) | 2010-04-09 | 2019-03-26 | Долби Интернешнл Аб | Стереофоническое кодирование на основе mdct с комплексным предсказанием |
CN102222505B (zh) * | 2010-04-13 | 2012-12-19 | 中兴通讯股份有限公司 | 可分层音频编解码方法系统及瞬态信号可分层编解码方法 |
JP5533502B2 (ja) * | 2010-09-28 | 2014-06-25 | 富士通株式会社 | オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム |
EP2464145A1 (en) * | 2010-12-10 | 2012-06-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for decomposing an input signal using a downmixer |
JP5762620B2 (ja) | 2011-03-28 | 2015-08-12 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 低周波数エフェクトチャネルのための複雑さが低減された変換 |
TWI618051B (zh) | 2013-02-14 | 2018-03-11 | 杜比實驗室特許公司 | 用於利用估計之空間參數的音頻訊號增強的音頻訊號處理方法及裝置 |
TWI618050B (zh) | 2013-02-14 | 2018-03-11 | 杜比實驗室特許公司 | 用於音訊處理系統中之訊號去相關的方法及設備 |
IN2015MN01952A (zh) | 2013-02-14 | 2015-08-28 | Dolby Lab Licensing Corp | |
WO2014126688A1 (en) | 2013-02-14 | 2014-08-21 | Dolby Laboratories Licensing Corporation | Methods for audio signal transient detection and decorrelation control |
WO2014161996A2 (en) | 2013-04-05 | 2014-10-09 | Dolby International Ab | Audio processing system |
KR101777994B1 (ko) * | 2014-07-28 | 2017-09-13 | 텔레폰악티에볼라겟엘엠에릭슨(펍) | 피라미드 벡터 양자화기의 형상 검색 |
EP2980789A1 (en) * | 2014-07-30 | 2016-02-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for enhancing an audio signal, sound enhancing system |
EP3067885A1 (en) * | 2015-03-09 | 2016-09-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding or decoding a multi-channel signal |
EP3424048A1 (en) * | 2016-03-03 | 2019-01-09 | Nokia Technologies OY | Audio signal encoder, audio signal decoder, method for encoding and method for decoding |
EP3301673A1 (en) * | 2016-09-30 | 2018-04-04 | Nxp B.V. | Audio communication method and apparatus |
GB2574239A (en) * | 2018-05-31 | 2019-12-04 | Nokia Technologies Oy | Signalling of spatial audio parameters |
GB2576769A (en) * | 2018-08-31 | 2020-03-04 | Nokia Technologies Oy | Spatial parameter signalling |
CN110070878B (zh) * | 2019-03-26 | 2021-05-04 | 苏州科达科技股份有限公司 | 音频码流的解码方法及电子设备 |
WO2024073401A2 (en) * | 2022-09-30 | 2024-04-04 | Sonos, Inc. | Home theatre audio playback with multichannel satellite playback devices |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE3943881B4 (de) | 1989-04-17 | 2008-07-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Digitales Codierverfahren |
JPH05502539A (ja) | 1990-09-19 | 1993-04-28 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 主データファイル及び制御ファイルが記録された記録担体、その記録方法及び装置、及びその読取装置 |
JP3509861B2 (ja) | 1993-05-05 | 2004-03-22 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴイ | 少なくとも1個のコーダを有する伝送システム |
DE4409368A1 (de) * | 1994-03-18 | 1995-09-21 | Fraunhofer Ges Forschung | Verfahren zum Codieren mehrerer Audiosignale |
US5890125A (en) | 1997-07-16 | 1999-03-30 | Dolby Laboratories Licensing Corporation | Method and apparatus for encoding and decoding multiple audio channels at low bit rates using adaptive selection of encoding method |
US6539357B1 (en) | 1999-04-29 | 2003-03-25 | Agere Systems Inc. | Technique for parametric coding of a signal containing information |
US7006636B2 (en) * | 2002-05-24 | 2006-02-28 | Agere Systems Inc. | Coherence-based audio coding and synthesis |
TWI235004B (en) | 2002-05-22 | 2005-06-21 | Hitachi Ltd | Data output apparatus and data output method |
WO2004008806A1 (en) | 2002-07-16 | 2004-01-22 | Koninklijke Philips Electronics N.V. | Audio coding |
US7447317B2 (en) * | 2003-10-02 | 2008-11-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V | Compatible multi-channel coding/decoding by weighting the downmix channel |
SE0400998D0 (sv) | 2004-04-16 | 2004-04-16 | Cooding Technologies Sweden Ab | Method for representing multi-channel audio signals |
US7903824B2 (en) * | 2005-01-10 | 2011-03-08 | Agere Systems Inc. | Compact side information for parametric coding of spatial audio |
-
2005
- 2005-12-21 US US11/314,711 patent/US7961890B2/en active Active
-
2006
- 2006-02-01 ES ES06706552T patent/ES2740104T3/es active Active
- 2006-02-01 BR BRPI0605865A patent/BRPI0605865B1/pt active IP Right Grant
- 2006-02-01 EP EP06706552.4A patent/EP1869667B1/en active Active
- 2006-02-01 JP JP2007535185A patent/JP4519919B2/ja active Active
- 2006-02-01 WO PCT/EP2006/000875 patent/WO2006108462A1/en not_active Application Discontinuation
- 2006-02-01 RU RU2007104337/09A patent/RU2367033C2/ru active
- 2006-02-01 KR KR1020077002055A patent/KR100878367B1/ko active IP Right Grant
- 2006-02-01 CN CN2006800004171A patent/CN101031959B/zh active Active
- 2006-02-01 PL PL06706552T patent/PL1869667T3/pl unknown
- 2006-02-08 MY MYPI20060542A patent/MY147652A/en unknown
- 2006-04-13 TW TW095113155A patent/TWI314840B/zh active
Also Published As
Publication number | Publication date |
---|---|
EP1869667B1 (en) | 2019-05-08 |
JP2008516275A (ja) | 2008-05-15 |
ES2740104T3 (es) | 2020-02-05 |
KR100878367B1 (ko) | 2009-01-15 |
US7961890B2 (en) | 2011-06-14 |
RU2007104337A (ru) | 2008-08-10 |
BRPI0605865A (pt) | 2007-12-18 |
RU2367033C2 (ru) | 2009-09-10 |
TW200701822A (en) | 2007-01-01 |
KR20070088461A (ko) | 2007-08-29 |
EP1869667A1 (en) | 2007-12-26 |
MY147652A (en) | 2012-12-31 |
BRPI0605865B1 (pt) | 2019-09-03 |
US20060233380A1 (en) | 2006-10-19 |
JP4519919B2 (ja) | 2010-08-04 |
TWI314840B (en) | 2009-09-11 |
PL1869667T3 (pl) | 2019-11-29 |
WO2006108462A1 (en) | 2006-10-19 |
CN101031959A (zh) | 2007-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101031959B (zh) | 带有压缩侧面信息的多声道分级音频编码 | |
CN102157155B (zh) | 多声道音频信号表示方法 | |
CN101816040B (zh) | 生成多声道合成器控制信号的设备和方法及多声道合成的设备和方法 | |
RU2417458C2 (ru) | Генерирование многоканальных звуковых сигналов | |
JP4943418B2 (ja) | スケーラブルマルチチャネル音声符号化方法 | |
CN101484935B (zh) | 用于编码和解码基于对象的音频信号的方法和装置 | |
JP4794448B2 (ja) | オーディオエンコーダ | |
RU2007120634A (ru) | Стереофонически совместимое кодирование многоканального звука | |
CN1930914B (zh) | 对多声道音频信号进行编码和合成的方法和装置 | |
TW200818122A (en) | Concept for combining multiple parametrically coded audio sources | |
CN101406073A (zh) | 用于多声道音频重构中的信号成形的增强的方法 | |
Hilpert et al. | The MPEG Surround audio coding standard [Standards in a nutshell] | |
Quackenbush et al. | MPEG surround | |
Rödén et al. | A study of the MPEG Surround quality versus bit-rate curve | |
CN1934640B (zh) | 用于写入到音频cd的设备和方法以及音频cd | |
US8838460B2 (en) | Apparatus for playing and producing realistic object audio | |
RU2395854C2 (ru) | Способ и устройство для обработки медиасигнала | |
PNS | Sascha Disch1, Jürgen Herre1 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C56 | Change in the name or address of the patentee | ||
CP01 | Change in the name or title of a patent holder |
Address after: Munich, Germany Co-patentee after: Dolby International AB Patentee after: Fraunhofer Application and Research Promotion Association Co-patentee after: Royal Philips Electronics Co., Ltd. Address before: Munich, Germany Co-patentee before: Coding Technologies AB Patentee before: Fraunhofer Application and Research Promotion Association Co-patentee before: Koninklijke Philips Electronics N.V. |