CN105247612B - 相对于球面谐波系数执行空间掩蔽 - Google Patents
相对于球面谐波系数执行空间掩蔽 Download PDFInfo
- Publication number
- CN105247612B CN105247612B CN201480030439.7A CN201480030439A CN105247612B CN 105247612 B CN105247612 B CN 105247612B CN 201480030439 A CN201480030439 A CN 201480030439A CN 105247612 B CN105247612 B CN 105247612B
- Authority
- CN
- China
- Prior art keywords
- audio
- loudspeaker
- threshold value
- multichannel audb
- sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
Abstract
一般来说,本发明描述借此相对于球面谐波系数执行空间掩蔽的技术。作为一个实例,一种包括处理器的音频编码装置可执行所述技术的各个方面。所述处理器可经配置以基于描述三维声场的所述球面谐波系数来执行空间分析,以识别空间掩蔽阈值。所述处理器可进一步经配置以从所述多个球面谐波系数渲染多声道音频数据,并基于所述所识别的空间掩蔽阈值来压缩所述多声道音频数据,以产生位流。
Description
本申请案主张2013年5月28日申请的第61/828,132号美国临时申请案的权益。
技术领域
所述技术涉及音频数据,并且更具体来说涉及音频数据的编码。
背景技术
高阶立体混响(HOA)信号(常由多个球面谐波系数(SHC)或其它层级要素表示)是声场的三维表示。此HOA或SHC表示可以独立于用以重放从此SHC信号渲染的多声道音频信号的局部扬声器几何结构的方式表示此声场。此SHC信号还可促进向后相容性,因为可将此SHC信号渲染为众所周知的且被广泛采用的多通道格式(例如,5.1音频声道格式或7.1音频声道格式)。SHC表示因此可实现对声场的更好表示,其也适应向后兼容性。
发明内容
一般来说描述相对于球面谐波系数(其也可被称作高价态立体混响(HOA)系数)执行空间掩蔽的技术。空间掩蔽可利用当相对较响的声音在空间上接近较安静的声音的位置处发生时,人听觉系统无法检测所述较安静的声音的事实。本发明中描述的技术可使音频译码装置能够评估球面谐波系数所表达的声场,以识别可能被相对较响(或能量较大)声音掩蔽的这些较安静(或能量较小)声音。所述音频译码装置可接着为译码较安静声音指派较多的位,同时为译码较响声音指派较多的位(或维持若干位)。在这方面中,本发明中描述的技术可促进球面谐波系数的译码。
在一个方面中,一种方法包括:解码位流来产生具有对应于布置成限定扬声器几何结构的扬声器的多个声道的第一多声道音频数据;;相对于所产生的多声道音频数据执行逆渲染过程,以产生多个球面谐波系数;以及基于所述多个球面谐波系数来渲染具有对应于布置成局部扬声器几何结构的扬声器的多个声道的第二多声道音频数据。
在另一方面,一种音频解码装置包括一或多个处理器,其经配置以:解码位流以产生具有对应于布置成第一扬声器几何结构的扬声器的多个声道的以产生多声道音频数据;相对于所产生的多声道音频数据执行逆渲染过程,以产生多个球面谐波系数;以及基于所述多个球面谐波系数渲染具有对应于布置成局部扬声器几何结构的扬声器的多个声道的第二多声道音频数据。
在另一方面,一种音频解码装置包括:用于解码位流以产生的装置具有对应于布置成第一扬声器几何结构的扬声器的多个声道的第一多声道音频数据;用于相对于所产生的多声道音频数据执行逆渲染过程以产生多个球面谐波系数的装置;以及用于基于所述多个球面谐波系数渲染具有对应于布置成局部扬声器几何结构的扬声器的多个声道的第二多声道音频数据的装置。
在另一方面,一种非暂时性计算机可读存储媒体上面存储有指令,所述指令当经执行时,致使音频解码装置的一或多个处理器:解码位流以产生具有对应于布置成第一扬声器几何结构的扬声器的多个声道的第一多声道音频数据;相对于所产生的多声道音频数据执行逆渲染过程以产生多个球面谐波系数;且基于所述多个球面谐波系数渲染具有对应于布置成局部扬声器几何结构的扬声器的多个声道的第二多声道音频数据。
在另一方面,一种压缩音频数据的方法包括:基于描述三维声场的多个球面谐波系数执行空间分析以识别空间掩蔽阈值;以及基于所识别的空间掩蔽阈值来压缩所述音频数据以产生位流。
在另一方面,一种装置包括一或多个处理器,其经配置以基于描述三维声场的多个球面谐波系数执行空间分析以识别空间掩蔽阈值,且基于所识别的空间掩蔽阈值来压缩所述音频数据以产生位流。
在另一方面,一种装置包括:用于基于描述三维声场的多个球面谐波系数执行空间分析以识别空间掩蔽阈值的装置;以及用于基于所识别的空间掩蔽阈值来压缩所述音频数据以产生位流的装置。
在另一方面,一种非暂时性计算机可读存储媒体上面存储有指令,所述指令当经执行时,致使一或多个处理器基于描述三维声场的多个球面谐波系数执行空间分析以识别空间掩蔽阈值,且基于所识别的空间掩蔽阈值来压缩所述音频数据以产生位流。
在另一方面,一种压缩音频的方法包括:渲染以三维形式描述音频的声场的多个球面谐波系数以产生多声道音频数据;相对于所述多声道音频数据执行空间分析以识别空间掩蔽阈值;以及基于所识别的空间掩蔽阈值来压缩所述多声道音频数据以产生位流。
在另一方面,一种装置包括一或多个处理器,其经配置来渲染以三维形式描述音频的声场的多个球面谐波系数以产生多声道音频数据;相对于所述多声道音频数据执行空间分析以识别空间掩蔽阈值;且基于所述所识别的空间掩蔽阈值来压缩所述多声道音频数据以产生位流。
在另一方面,一种装置包括:用于渲染以三维形式描述音频的声场的多个球面谐波系数以产生多声道音频数据的装置;相对于所述多声道音频数据执行空间分析以识别空间掩蔽阈值的装置;以及基于所识别的空间掩蔽阈值来压缩所述多声道音频数据以产生位流的装置。
在另一方面,一种非暂时性计算机可读存储媒体上面存储有指令,所述指令当经执行时,致使一或多个处理器:渲染以三维形式描述音频的声场的多个球面谐波系数以产生多声道音频数据;相对于所述多声道音频数据执行空间分析以识别空间掩蔽阈值;且基于所述所识别的空间掩蔽阈值来压缩多声道音频数据以产生位流。
在另一方面,一种压缩音频数据的方法包括:为表示经压缩音频数据的位流确定目标位速率;基于以三维形式描述音频数据的声场的多个球面谐波系数来执行空间分析以识别空间掩蔽阈值;以及基于所述目标位速率,执行i)参数声道间音频编码以及所述空间掩蔽阈值的空间掩蔽,或ii)使用空间掩蔽阈值的空间掩蔽。而不执行参数声道间音频编码,以产生表示经压缩音频数据的位流。
在另一方面,一种装置包括一或多个处理器,其经配置以:为表示经压缩音频数据的位流确定目标位速率;基于以三维形式描述音频数据的声场的多个球面谐波系数执行空间分析,以识别空间掩蔽阈值;以及基于所述目标位速率,执行i)参数声道间音频编码和使用空间掩蔽阈值的空间掩蔽;或ii)使用空间掩蔽阈值的空间掩蔽,而不执行参数声道间音频编码,以产生表示经压缩音频数据的位流。
在另一方面,一种装置包括:用于为表示经压缩音频数据的位流确定目标位速率的装置;用于基于以三维形式描述音频数据的声场的多个球面谐波系数来执行空间分析以识别空间掩蔽阈值的装置;以及用于基于所述目标位速率,执行i)参数声道间音频编码和使用空间掩蔽阈值的空间掩蔽或ii)使用空间掩蔽阈值的空间掩蔽而不执行参数声道间音频编码以产生表示经压缩音频数据的位流的装置。
在另一方面,一种非暂时性计算机可读存储媒体上面存储有指令,所述指令当经执行时,致使一或多个处理器:为表示经压缩音频数据的位流确定目标位速率,基于以三维形式描述音频数据的声场的多个球面谐波系数执行空间分析,以识别空间掩蔽阈值,基于所述目标位速率,执行i)参数声道间音频编码和使用空间掩蔽阈值的空间掩蔽,或ii)使用空间掩蔽阈值的空间掩蔽,而不执行参数声道间音频编码,以产生表示经压缩音频数据的位流。
在另一方面,一种压缩多声道音频数据的方法,所述方法包括:基于以三维形式描述多声道音频数据的声场的多个球面谐波系数来执行空间分析,以识别空间掩蔽阈值;渲染所述球面谐波系数,以产生多声道音频数据;使用所述空间掩蔽阈值,相对于所述多声道音频数据的一或多个基础声道执行空间掩蔽;相对于所述多声道音频数据(包含所述多声道音频数据的经空间掩蔽的一或多个基础声道)执行参数声道间音频编码,以产生位流。
在另一方面,一种装置包括一或多个处理器以:基于以三维形式描述多声道音频数据的声场的多个球面谐波系数来执行空间分析,以识别空间掩蔽阈值;渲染所述球面谐波系数,以产生多声道音频数据;使用所述空间掩蔽阈值,相对于所述多声道音频数据的一或多个基础声道,执行空间掩蔽;且相对于所述多声道音频数据(包含所述多声道音频数据的经空间掩蔽的一或多个基础声道)执行参数声道间音频编码,以产生位流。
在另一方面,一种装置包括:用于基于以三维形式描述多声道音频数据的声场的多个球面谐波系数来执行空间分析以识别空间掩蔽阈值的装置;用于渲染所述球面谐波系数以产生多声道音频数据的装置;用于使用所述空间掩蔽阈值相对于所述多声道音频数据的一或多个基础声道执行空间掩蔽的装置;用于相对于所述多声道音频数据(包含所述多声道音频数据的经空间掩蔽的一或多个基础声道)执行参数声道间音频编码以产生位流的装置。
在另一方面,一种非暂时性计算机可读存储媒体上面存储有指令,所述指令当经执行时,致使一或多个处理器:基于以三维形式描述多声道音频数据的声场的多个球面谐波系数来执行空间分析以识别空间掩蔽阈值;渲染所述球面谐波系数以产生多声道音频数据;使用所述空间掩蔽阈值,相对于所述多声道音频数据的一或多个基础声道来执行空间掩蔽;且相对于所述多声道音频数据(包含所述多声道音频数据的经空间掩蔽的一或多个基础声道)执行参数声道间音频编码,以产生位流。
在另一方面,一种压缩音频数据的方法,所述方法包括:基于以三维形式描述音频数据的声场的多个球面谐波系数来执行空间分析,以识别空间掩蔽阈值;使用所述空间掩蔽阈值,相对于所述多个球面谐波系数执行空间掩蔽;以及产生包含所述多个经空间掩蔽的球面谐波系数的位流。
在另一方面,一种装置包括一或多个处理器,其用以:基于以三维形式描述音频数据的声场的多个球面谐波系数来执行空间分析,以识别空间掩蔽阈值;使用所述空间掩蔽阈值,相对于所述多个球面谐波系数执行空间掩蔽;以及产生包含所述多个经空间掩蔽的球面谐波系数的位流。
在另一方面,一种装置包括:用于基于以三维形式描述音频数据的声场的多个球面谐波系数来执行空间分析以识别空间掩蔽阈值的装置;用于使用所述空间掩蔽阈值,相对于所述多个球面谐波系数执行空间掩蔽的装置;以及用于产生包含所述多个经空间掩蔽的球面谐波系数的位流的装置。
在另一方面,一种非暂时性计算机可读存储媒体上面存储有指令,所述指令当经执行时,致使一或多个处理器:基于以三维形式描述音频数据的声场的多个球面谐波系数来执行空间分析,以识别空间掩蔽阈值;使用所述空间掩蔽阈值,相对于所述多个球面谐波系数执行空间掩蔽;且产生包含所述多个经空间掩蔽的球面谐波系数的位流。
在附图和以下描述中陈述所述技术的一或多个方面的细节。这些技术的其它特征、目标和优点将从所述描述和图式以及所附权利要求书中显而易见。
附图说明
图1到3是说明具有各种阶和子阶的球面谐波基底函数的图。
图4A和4B各自为说明可执行本发明中描述的技术的各个方面以译码描述二维或三维声场的球面谐波系数的实例音频编码装置的框图。
图5是说明可执行本发明中描述的技术的各个方面以解码描述二维或三维声场的球面谐波系数的实例音频解码装置的框图。
图6A到6C是更详细地说明图4A的实例中所示的音频编码单元的实例变化的框图。
图7是更详细地说明图2的音频解码单元的实例的框图。
图8是更详细地说明图5的实例中所示的音频渲染单元的框图。
图9是说明音频编码装置在执行本发明中描述的技术的各种方面中的示范性操作的流程图。
图10是说明音频解码装置在执行本发明中描述的技术的各种方面中的示范性操作的流程图。
图11是说明本发明中描述的空间掩蔽技术的各个方面的图。
图12是说明其中可根据本发明中描述的技术的各个方面执行产生位流的不同形式的图4A的实例中所示的音频编码装置的变化的框图。
图13是说明可执行本发明中描述的技术的各种方面的示范性音频编码装置的框图。
具体实施方式
环绕声的演进现今已使得许多输出格式可用于娱乐。此类环绕声格式的实例包含流行的5.1格式(其包含以下六个声道:左前(FL)、右前(FR)、中央或前方中央、左后或环绕左、右后或环绕右以及低频效果(LFE)),发展的7.1格式和即将到来的22.2格式(例如,用于与超高清电视标准一起使用)。进一步的实例包含用于球面谐波阵列的格式。
到将来MPEG编码器的输入任选地是三种可能格式中的一者:(i)传统的基于声道的音频,其意图经由预先指定的位置处的扩音器进行播放;(ii)基于对象的音频,其涉及具有含有其位置坐标(以及其它信息)的相关联元数据的用于单个音频对象的离散脉码调制(PCM)数据;和(iii)基于场景的音频,其涉及使用球面谐波基底函数的系数(也称为“球面谐波系数”或SHC)来表示声场。
市场中存在各种‘环绕声’格式。它们的范围(例如)是从5.1家庭影院系统(其在使起居室享有立体声方面已获得最大成功)到NHK(日本广播协会或日本广播公司)所开发的22.2系统。内容创建者(例如,好莱坞工作室)将希望产生电影的音轨一次,而不花费精力来针对每一扬声器配置对其进行重混(remix)。最近,标准委员会已经考虑将编码提供到标准化位流中及在再现器的位置处的扬声器几何结构及声学条件可调适及不可知的后续解码的方式。
为向内容创建者提供此种灵活性,可使用分层要素集合来表示声场。所述分层要素集合可指其中元素经排序以使得较低阶元素的基础集合提供模型化声音场的完整表示的一组元素。当所述组扩展到包含较高阶要素时,所述表示变得更详细。
分层要素集合的一个实例是SHC集合。以下表达式示范使用SHC对声场的描述或表示:
此表达式显示,声场的任一点处的压力pi可由SHC唯一地表示。此处,c为音速(~343m/s),为参考点(或观察点),jn(·)为阶n的球贝塞尔函数,且为阶n和子阶m的球面谐波基础函数。可认识到,方括号中的术语是信号的频域表示(即,),其可通过各种时频变换来近似表示,例如离散傅立叶变换(DFT)、离散余弦变换(DCT),或小波变换。分层组的其它实例包含数组小波变换系数和其它数组多分辨率基函数系数。
图1是说明零阶球面谐波基底函数(第一行)一阶球面谐波基底函数(第二行)和二阶球面谐波基底函数(第三行)的图。阶(n)由表格的行识别,其中第一行指代零阶,第二行指代第一阶,且第三行指代第二阶。子阶(m)由表格的列识别,其在图3中更详细地示出。对应于零阶球面谐波基底函数的SHC可被认为是指定声场的能量,而对应于其余高阶球面谐波基底函数的SHC可指定能量的方向。
图2为说明从零阶(n=0)到第四阶(n=4)的球面谐波基底函数的图。如可看出,对于每一阶,存在子阶m的扩展,出于易于说明的目的,在图2的实例中展示所述子阶但未明确注释。
图3为说明从零阶(n=0)到第四阶(n=4)的球面谐波基底函数的另一图。在图3中,在三维坐标空间中展示了球面谐波基底函数,其中展示了阶与子阶两者。
在任何情况下,SHC可由各种麦克风阵列配置以物理方式获取(例如,记录),或者其可从声场的基于声道或基于对象的描述导出。前者表示到编码器的基于场景的音频输入。举例来说,可使用涉及1+24个(25,且因此为第四阶)系数的四阶表示。
为说明可如何从基于对象的描述导出这些SHC,考虑以下等式。对应于个别音频对象的声场的系数可表达为
其中i为为阶n的球汉克函数(第二类),且为对象的位置。已知源能量g(ω)为频率的函数(例如,使用时频分析技术,例如对PCM流执行快速傅立叶变换)允许我们将每一PCM对象及其位置转换成SHC另外,可显示(由于上文是线性且正交分解)每一对象的系数是加性的。以此方式,大量PCM对象可由系数表示(例如,表示为个别对象的系数向量的总和)。基本上,这些系数含有关于声场的信息(压力作为3D坐标的函数),且以上表示从个别对象到观察点附近的整个声场的表示的变换。下文在基于对象和基于SHC的音频译码的上下文中描述其余各图。
图4A和4B各自为说明可执行本发明中描述的技术的各个方面以译码描述二维或三维声场的球面谐波系数的实例音频编码装置10的框图。在图4A的实例中,音频编码装置10通常表示能够编码音频数据的任何装置,例如桌上型计算机、膝上型电脑、工作站、平板或板状计算机、专用音频记录装置、蜂窝式电话(包含所谓的“智能电话”)、个人媒体播放器装置、个人游戏装置,或能够编码音频数据的任何其它类型的装置。
当示出为单个装置时,即图4A的实例中的装置10,下文称为包含在装置10内的各种组件或单元可实际上形成在装置10外部的单独裝置。换句话说,虽然本发明中描述为由单个装置(即,在图4A的实例中的装置10)执行,但所述技术可由包括多个装置的系统实施或另外执行,其中这些装置中的每一者可各自包含以下更详细地描述的各种组件或单元中的一或多者。因此,所述技术不应限于图4A的实例。
如图4A的实例中示出,音频编码装置10包括时频分析单元12、音频渲染单元14、音频编码单元16和空间分析单元18。时频分析单元12可表示经配置以执行球面谐波系数(SHC)20A的时频分析以便将SHC 20A从时域变换到频域的单元。时频分析单元12可输出端SHC 20B,其可将SHC 20A表示为在频域中表达。尽管相对于时频分析单元12来描述,但所述技术可相对于留在时域中的SHC 20A来执行,而不是相对于如变换到频域的SHC 20B执行。
SHC 20A可指与一或多个球面谐波相关联的系数。这些球面谐波可类似于傅立叶级数的三角基底函数。也就是说,球面谐波可表示麦克风周围的球面的基本振动模式,类似于傅立叶级数的三角函数可如何表示链带的基本振动模式。这些系数可通过解涉及这些球面谐波的使用的球面坐标中的波动方程来导出。在此意义上SHC 20A可将麦克风周围的3D声场表示为具有表示对应球面谐波的体积乘数的系数的一系列球面谐波。
低阶立体混响(其也可被称作一阶立体混响)可将声音信息编码到表示为W、X、Y和Z的四个声道中。此编码格式常称作“B格式”。W声道指代对应于全向麦克风的输出的所捕获的声音信号的非定向单声道分量。X、Y和Z声道是三个维度中的定向分量。X、Y和Z声道通常分别对应于三个八字麦克风的输出,所述麦克风中的一者面向前,其中的另一者面向左,且其中的第三者面向上。这些B格式信号通常是基于声场的球面谐波分解,且对应于空间中的点处的压力(W)和三个分量压力梯度(X、Y和Z)。这四个B格式信号(即,W、X、Y和Z)一起近似表示麦克风周围的声场。形式上这些B格式信号可表达多极扩展的一阶截断。
高阶立体混响是指与原始一阶B格式相比,表示使用较多声道的声场,表示较精细的模态分量的形式。因此,高阶立体混响可捕获显著较多的空间信息。术语“高阶立体混响”中的“高阶”是指球面上关于球面谐波的函数的多模态扩展的进一步术语。借助于高阶立体混响来增加空间信息可将所捕获的声音较好地表达为球面上的压力。使用高阶立体混响来产生SHC 20A可实现存在于音频解码器处的扬声器对所捕获的声音的较好再现。
音频渲染单元14表示经配置以将SHC 20B渲染到一或多个声道22A到22N(“声道22”,其也可被称作“扬声器馈送22A到22N”)的单元。或者,当不将SHC 20A变换到SHC 20B时,音频渲染单元14可表示经配置以从SHC 20A渲染一或多个声道22A到22N的单元。在一些情况下,音频渲染单元14可将SHC 20B渲染到对应于布置成密集T设计几何结构的32个扬声器的32个声道(在图4的实例中示出为声道22)。音频渲染单元14可将SHC 20B渲染到对应于布置成密集T设计的32个扬声器的32个声道,以促进SHC 20B在解码器处的恢复。就是说,将SHC 20B渲染到对应于布置成此密集T设计的32个扬声器的这32个声道涉及到的数学包含矩阵,其为可逆的,使得此矩阵(其可由变量R表示)乘以倒置矩阵(其可表示为R-1)等于单位矩阵(表示为I,其中整个数学表达式为RR-1=I)。上述数学表达式暗示当在音频解码器处恢复SHC 32B时,不存在损失(或换句话说,引入极少到无错误)。
音频编码单元16可表示经配置以执行某一形式的音频编码以将声道22压缩到位流24中的单元。在一些实例中,音频编码单元16可包含符合已知空间音频编码标准的音频编码器的经修改版本,所述标准例如为国际标准化组织(ISO)/国际电工委员会(IEC)23003-1或MPEG-D部分1(其也可被称作“空间音频译码”或“SAC”)中所定义的移动图片专家组(MPEG)环绕声,或MPEG-2标准的部分7(其也被称作ISO/IEC 13818-7:1997)和MPEG-4标准的部分3中的子部分4(其也被称作ISO/IEC 14496-3:1999)两者中所定义的MPEG高级音频编码(AAC)。
空间分析单元18可表示经配置以执行SHC 20A的空间分析的单元。空间分析单元18可执行此空间分析,以识别声场中相对较高和较低压力密度(常表达为方位角、角度、仰角和半径(或等效的笛卡尔坐标)中的一或多者的函数)的区域,从而分析SHC 20A以识别空间特性26。这些空间特性26可指定SHC 20A的具有某些特性的各种部分的方位角、角度、仰角和半径中的一或多者。空间分析单元18可识别空间特性26,以促进音频编码单元16的音频编码。就是说,空间分析单元18可将空间特性26提供给音频编码单元16,其可经修改以利用心理声学空间或位置掩蔽以及由SHC 20A表示的声场的其它空间特性。
空间掩蔽可利用人类听觉系统的趋势来在声场中存在高能声波能量时,掩蔽声场的邻近空间部分(或3D片段)。就是说,声场的高能部分可淹没人类听觉系统,使得能量的若干部分(通常,低能的邻近区域)不能够被人类听觉系统检测到(或辨别)。因此,音频编码单元18可允许降低位数(或等效地较高量化噪声)来表示空间的这些所谓的“掩蔽”片段中的声场,其中当在SHC 20A所定义的声场的邻近区域中检测到高能部分时,人类听觉系统可能不能够检测(或辨别)声音。这类似于以较低精确度(意味着可能较高噪声)来表示那些“掩蔽”空间区中的声场。
在操作中,音频编码装置10可通过首先调用空间分析单元18来相对于描述三维声场的SHC 20A执行空间分析,以识别所述声场的空间特性26,来实施本发明中描述的技术的各个方面。音频编码装置10可接着调用音频渲染单元14来从SHC 20A(当如上所述不执行时频分析时)或SHC 20B(当执行时频分析时)渲染声道22(其也可被称作“多声道音频数据22”)。在渲染此多声道音频数据22之后或与之同时,音频编码装置10可调用音频编码单元16来基于所识别的空间特性26编码多声道音频数据22,以产生位流24。如上所述音频编码单元16可以各种方式执行已经修改的音频编码的标准顺应形式,以利用空间特性26(例如,以执行上述空间掩蔽)。
以此方式,技术可有效地编码SHC 20A,使得如下文更详细地描述,音频解码装置,例如图5的实例中所示的音频解码装置30,可恢复SHC 20A。通过选择将SHC 20A或SHC 20B(取决于是否执行时频分析)渲染到布置成密集T设计的32个扬声器,数学表达式是可逆的,这意味着存在极少到无归因于所述渲染的准确性损失。通过选择包含比通常存在于解码器处的扬声器多的扬声器的密集扬声器几何结构,所述技术提供所述声场的良好再合成。换句话说,通过在假定密集扬声器几何结构的情况下渲染多声道音频数据,所述多声道音频数据包含足够量的描述所述声场的数据,使得在音频解码装置30处重构SHC 20A后,音频解码装置30可即刻使用配置成次理想扬声器几何结构的解码器局部扬声器来再合成具有充分保真度的声场。短语“理想扬声器几何结构”可指那些由标准指定的结构,例如那些由各种风行环绕声标准定义的结构,和/或粘附到某些几何结构的扬声器几何结构,例如密集T设计几何结构或理想的实心几何结构。
在一些情况下,可结合其它类型的掩蔽,例如同时掩蔽,来执行此空间掩蔽。同时掩蔽,很像空间掩蔽,涉及人类听觉系统的现象,其中与其它声音同时(且常常至少部分地同步)产生的声音掩蔽所述其它声音。通常,以比其它声音高的音量产生掩蔽声音。所述掩蔽声音也可类似于在频率上接近于被掩蔽的声音。因此,虽然在本发明中描述为独立执行,但可结合其它形式的掩蔽(例如上文所述的同时掩蔽)或与其它形式的掩蔽同时执行空间掩蔽技术。
图4B是说明图4A的实例中所示的音频编码装置10的变化的框图。在图4B的实例中,将音频编码装置10的所述变化表示为“音频编码装置11”。音频编码装置11可类似于音频编码装置10,因为音频编码装置11也包含时频分析单元12、音频渲染单元14、音频编码单元16和空间分析单元18。然而,不同于对SHC 20A操作,音频编码装置11的空间分析单元18可处理声道22,以识别空间参数26(其可包含空间掩蔽阈值)。在这方面中,音频编码装置11的空间分析单元18可在声道域而不是空间域中执行空间分析。
以此方式所述技术可使音频编码装置11能够渲染以三维形式描述音频的声场的多个球面谐波系数20B,以产生多声道音频数据(其在图4B的实例中示出为声道22)。音频编码装置11可接着相对于所述多声道音频数据执行空间分析,以识别空间掩蔽阈值,且基于所述所识别的空间掩蔽阈值来压缩所述多声道音频数据,以产生位流。
在一些情况下,当压缩音频数据时,音频编码装置11可基于空间掩蔽阈值,为多声道音频数据的基于时间的表示或多声道音频数据的基于频率的表示分配位流中的位。
在一些情况下,当压缩音频数据时,音频编码装置11可基于空间掩蔽阈值和时间掩蔽阈值,为多声道音频数据的基于时间的表示或多声道音频数据的基于频率的表示分配位流中的位。
在一些情况下,当压缩音频数据时,音频编码装置11可相对于多声道音频数据执行参数声道间音频编码(例如MPEG环绕音频编码),以产生位流。
在一些情况下,当压缩音频数据时,音频编码装置11可基于空间掩蔽阈值分配用于表示多声道音频数据的位,以产生位流。
在一些情况下,音频编码装置11可将多声道音频数据从空间域变换到时域。当压缩音频数据时,音频编码装置11可接着基于空间掩蔽阈值来分配用于表示经变换的多声道音频数据的各种频段的位,以产生位流。
图5是说明可执行本发明中描述的技术的各个方面以解码描述二维或三维声场的球面谐波系数的实例音频解码装置10的框图。音频解码装置30通常表示能够解码音频数据的任何装置,例如桌上型计算机、膝上型计算机、工作站、平板或板状计算机、专用音频记录装置、蜂窝式电话(包含所谓的“智能电话”)、个人媒体播放机装置、个人游戏装置或能够解码音频数据的任何其它类型的装置。
一般来说,音频解码装置30执行与音频编码装置10所执行的编码过程互反的音频解码过程,执行空间分析除外,空间分析通常由音频编码装置10用来促进外来不相关数据(例如话将被掩蔽或不能被人类听觉系统察觉的数据)的移除。换句话说,音频编码装置10可能降低音频数据表示的精确度,因为典型的人类听觉系统可能不能够辨别这些区域(例如“掩蔽”区域,在时间上且如上所述在空间上)中缺乏精确度。在假定此音频数据不相关的情况下,音频解码装置30无需执行空间分析来重新插入此类外来音频数据。
虽然示出为单个装置,即图5的实例中的装置30,但下文参考为包含在装置30内的各种组件或单元可形成在装置30外部的单独裝置。换句话说,虽然本发明中描述为由单个装置(即,在图5的实例中的装置30)执行,但所述技术可由包括多个装置的系统实施或另外执行,其中这些装置中的每一者可各自包含下文更详细地描述的各种组件或单元中的一或多者。因此,所述技术不应限于图5的实例。
如图5的实例中示出,音频解码装置30包括音频解码单元32、逆音频渲染单元34、逆时频分析单元36和音频渲染单元38。音频解码单元16可表示经配置以执行某一形式的音频解码以解压缩位流24来恢复声道22的单元。在一些实例中,音频解码单元32可包含符合已知空间音频编码标准(例如MPEG SAC或MPEG ACC)的音频解码器的经修改版本。
逆音频渲染单元34可表示经配置以执行与音频编码装置10的音频渲染单元14所执行的渲染过程相反的渲染过程,以恢复SHC 20B。逆音频渲染单元34可应用上文所述的逆变换矩阵R-1。或者,当SHC 20A未经变换以产生SHC 20B时,逆音频渲染单元34可表示经配置以通过逆矩阵R-1的应用来从声道22渲染SHC 20A的单元。处于上述原因,在一些情况下,逆音频渲染单元34可从对应于布置成密集T设计的32个扬声器的32个声道渲染SHC 20B。
逆时频分析单元36可表示经配置以执行球面谐波系数(SHC)20B的逆时频分析以便将SHC 20B从频域变换到时域的单元。逆时频分析单元36可输出SHC 20A,其可表示如在时域中表达的SHC 20B。尽管相对于逆时频分析单元36来描述,但可相对于时域中的SHC20A来执行而不是相对于频域中的SHC 20B来执行所述技术。
音频渲染单元38表示经配置以渲染声道40A到40N(“声道40”,其还可通常被称作“多声道音频数据40”或“扩音器馈送40”)的单元。音频渲染单元38可将变换(常以矩阵的形式来表达)应用于SHC 20A。因为SHC 20A以三维形式描述声场,所以SHC 20A以能够适应大多数解码器局部扬声器几何结构(其可指将重放多声道音频数据40的扬声器的几何结构)的方式来表示促进多声道音频数据40的渲染的音频格式。此外,通过将SHC 20A渲染到用于音频编码装置10处布置成密集T设计的32个扬声器的声道,所述技术在解码器处提供充分的音频信息(呈SHC 20A的形式),以使音频渲染单元38能够使用解码器局部扬声器几何结构,以充分的保真度和准确性来再现所捕获的音频数据。下文相对于图8描述关于多声道音频数据40的渲染的更多信息。
在操作中,音频解码装置30可调用音频解码单元32来解码位流24,以产生具有对应于布置成第一扬声器几何结构的扬声器的多个声道的第一多声道音频数据22。此第一扬声器几何结构可包括上文所述的密集T设计,其中作为一个实例,扬声器的数目可为32。虽然在本发明中描述为包含32个扬声器,蛋密集T设计扬声器几何结构可包含64个或128个扬声器,以提供几个替代实例。音频解码装置30可接着调用逆音频渲染单元34来相对于所产生的第一多声道音频数据22执行逆渲染过程,以产生SHC 20B(当执行时频变换时)或SHC20A(当不执行时频分析时)。当音频编码装置10执行时频分析时,音频解码装置30还可调用逆时频分析单元36来将SHC 20B从频域变换回到时域,从而产生SHC 20A。在任何情况下音频解码装置30可接着基于经编码-解码的SHC 20A来调用音频渲染单元38,以渲染具有对应于布置成局部扬声器几何结构的扬声器的多个声道的第二多声道音频数据40。
图6A到6C各自是更详细地说明图4A的实例中所示的音频编码单元16的不同实例变化的框图。在图4A的实例中,音频编码单元16包含环绕声编码器50A到50N(“环绕声编码器50”)和音频编码器52A道52N(“音频编码器52”)。环绕声编码器50中的每一者可表示经配置以执行某一形式的音频环绕声编码来编码多声道音频数据以便产生多声道音频数据的环绕声音经编码版本(其可被称为环绕声音音频经编码多声道音频数据)的单元。音频编码器52中的每一者可表示经配置以对环绕声音音频经编码多声道音频数据进行音频编码以产生位流24A(其可指图4A的实例中所示的位流24的一部分)的单元。
环绕声编码器50中的每一者可执行上文所参考的MPEG环绕声的经修改版本,以编码多声道音频数据。此经修改版本可表示基于空间分析模块18(图1的实例中所示)所确定的空间特性26来编码多声道音频数据22的MPEG环绕声的版本。环绕声编码器50中的每一者可包含空间参数估计单元54A到54N(“空间参数估计单元54”)中的对应一者。音频编码器52中的对应一者可详细编码声道22的对应子集中的一个声道。然而,在详细编码声道22的对应子集中的此一个声道之前,相应的空间参数估计单元54中的每一者可相对于声道22的对应子集中的所述一个声道来编码声道22的对应子集中的其余声道。就是说,空间参数估计单元54中的每一者可确定或,在一些情况下,估计反映声道22的对应子集中的一个声道与声道22的对应子集中的其余声道之间的差异的空间参数。这些空间参数可包含声道间层级、声道间时间和声道间相关,提供几个实例。空间参数估计单元54可各自输出这些空间参数作为位流24B(其再次可表示图4A的实例中所示的位流24的一部分)。
在一些情况下,空间参数估计单元54可各自经修改以至少部分地基于空间分析单元18所确定的空间特性26,来确定这些空间参数。为了说明,空间参数估计单元54中的每一者可计算声道之间的增量或差异,且从而基于空间特性26来确定空间参数(其可包含声道间层级、声道间时间和声道间相关)。举例来说,基于空间特性26,空间参数估计单元54可确定用以指定空间参数的准确性(或换句话说,当不存在大量能量时,如何粗略地量化参数)。
在任何情况下环绕声编码器50中的每一者将声道22的对应子集中的一个声道输出到音频编码器52中的对应一者,其将声道22的对应子集中的此一个声道编码为单声道音频信号。就是说,音频编码器52中的每一者表示单声道听觉音频编码器52。音频编码器52可包含熵编码器56A到56N(“熵编码器56”)中的对应一者。熵编码器56中的每一者可执行一种形式的无损统计译码(其通常由误称“熵编码”指代),例如霍夫曼译码,以编码声道22的对应子集中的一个声道。在一些情况下,熵编码器56可各自基于空间特性26来执行此熵译码。熵编码器56中的每一者可输出多声道音频数据的经编码版本,其可与多声道音频数据的其它经编码版本以及空间参数24B多路复用,以形成位流24。
在图6B的实例中,并非音频编码器52中的每一者包含单独的熵编码器56,而是音频编码单元16包含单个熵编码器56,其对音频编码器52的输出中的每一者进行熵编码(其也可被称作“统计无损译码”)。在几乎所有其它方面,图6B的实例中所示的音频编码单元16可类似于图6C的实例中所示的音频编码单元16。虽然图6B的实例中未图示,但音频编码单元16可包含混频器或混频单元,以合并或以其它方式组合音频编码器52中的每一者的输出,以形成单个位流,熵编码器56可对其执行统计无损译码,以压缩此位流,且形成位流24A。
在图6C的实例中,音频编码单元16包含音频编码器52A到52N,其不包含熵编码器56。图6C的实例中所示的音频编码单元16不包含用于编码音频数据的任何形式的熵编码。实情为,此音频编码单元16可执行本发明中描述的空间掩蔽技术。在一些情况下,图6C的音频编码装置16仅执行掩蔽(在时间上或空间上,或在时间和空间两者上,如下文更详细地描述),而不执行任何形式的熵编码。
图7是更详细地说明图5的音频解码单元32的实例的框图。首先参看图7的实例,音频解码单元32的第一变化包含音频解码器70A到70N(“音频解码器70”)以及环绕声解码器72A到72N(“环绕声解码器72”)。音频解码器70中的每一者可执行与上文相对于图6A的实例所述的音频编码器50所执行的过程互反的单声道听觉音频解码过程。尽管图7的实例中为了便于说明的目的而未图示,但音频解码器70中的每一者可包含熵解码器,或不类似于熵编码单元16的上文相对于图6A到6C所述的变化。音频解码器70中的每一者可接收位流24的相应部分,在图7的实例中表示为部分24A,妾解码部分24A中的相应一者,以输出声道22的对应子集中的一个声道。可使用多路分用器来对位流24的部分24A和位流24的部分24B进行多路分用,为了便于说明的目的,所述多路分用器在图7的实例中未示出。
环绕声解码器72A可表示经配置以基于表示为位流部分24B的空间参数来重新和成声道22的对应子集中的其余声道的单元。环绕声解码器72可各自包含声音合成单元76A到76N(“声音合成单元76”)中的对应一者,其接收声道22的对应子集中的经解码声道,以及这些空间参数。基于所述空间参数,声音合成单元76中的每一者可重新合成声道22的对应子集中的其余声道。以此方式,音频解码单元32可解码位流24,以产生多声道音频数据22。
图8是更详细地说明图5的实例中所示的音频解码单元32的音频渲染单元38的框图。一般来说,图8说明从SHC 20A到与解码器局部扬声器几何结构兼容的多声道音频数据40的转换。对于一些局部扬声器几何结构(其可再次指代在解码器处的扬声器几何结构),确保可逆性的一些变换可导致不太合乎需要的音频图像质量。就是说,当正所捕获的音频相比较时,声音再现可并不总是导致声音的正确定位。为了对此不大合意的图像质量进行校正,可进一步扩充技术以引入可被称作“虚拟扬声器”的概念。可修改以上框架以包含某一形式的平移,例如向量基础振幅平移(VBAP)、基于距离的振幅平移或其它形式的平移,而不是需要将一或多个扩音器再定位或定位于具有由例如上述的ITU-R BS.775-1等标准指定的特定角度公差的空间的特定或所定义的区中。出于说明的目的而聚焦于VBAP上,VBAP可有效地引入可被表征为“虚拟扬声器”的东西。VBAP可通常修改去往一或多个扩音器的馈送,使得这些一或多个扩音器有效地输出看起来源自虚拟扬声器的声音,所述虚拟扬声器处于不同于支持所述虚拟扬声器的一或多个扩音器的位置和/或角度中的至少一者的位置和角度中的一或多者处。
为进行说明,用于根据SHC确定扩音器馈送的以上等式可如下修改:
在以上等式中,VBAP矩阵具有M行×N列的大小,其中M表示扬声器的数目(且在以上等式中将等于五),且N表示虚拟扬声器的数目。可依据从收听者的经定义位置到扬声器的位置中的每一者的向量以及从收听者的经定义位置到虚拟扬声器的位置中的每一者的向量来计算VBAP矩阵。以上等式中的D矩阵可具有N行×(阶数+1)2列的大小,其中阶数可指代SH函数的阶数。D矩阵可表示以下矩阵:
g矩阵(或在仅存在单个列的条件下,向量)可表示布置成解码器局部几何结构的扬声器的扬声器馈送的增益。在等式中,g矩阵具有大小M。A矩阵(或在仅存在单个列的条件下,向量)可表示SHC 520,且具有大小(阶数+1)(阶数+1),其也可表示为(阶数+1)2。
实际上,VBAP矩阵为M×N矩阵,其提供可被称作“增益调整”的调整,所述调整将扬声器的位置和虚拟扬声器的位置考虑在内。以此方式引入平移可导致多通道音频的较好再现,这导致在由局部扬声器几何结构再现时的较好质量图像。此外,通过将VBAP并入到此等式中,技术可克服与各种标准中所指定的几何结构不一致的不佳扬声器几何结构。
实际上,可反转和使用所述等式以将SHC变换回到用于扩音器的特定几何结构或配置的多声道馈送,所述特定几何结构或配置在本发明中可再次被称作解码器局部几何结构。就是说,可反转等式来求解g矩阵。经反转的等式可如下:
g矩阵可表示在此实例中用于5.1扬声器配置中的五个扩音器中的每一者的扬声器增益。此配置中所使用的虚拟扬声器位置可对应于5.1多声道格式规格或标准中所定义的位置。可使用任何数目的已知音频定位技术来确定可支持这些虚拟扬声器中的每一者的扩音器的位置,所述技术中的许多技术涉及播放具有特定频率的音调,以确定每一扩音器相对于头端单元(例如音频/视频接收器(A/V接收器)、电视机、游戏系统、数字视频光盘系统或其它类型的头端系统)的位置。或者,头端单元的用户可手动地指定扩音器中的每一者的位置。在任何情况下,在给定这些已知位置和可能角度的情况下,假定虚拟扩音器的通过VBAP的理想配置,头端单元可求解增益。
在这方面中,所述技术可使装置或设备能够对多个虚拟声道执行向量基础振幅平移或其它形式的平移,以产生多个声道,其驱动解码器局部几何结构中的扬声器发出声音,所述声音看起来源自配置成不同局部几何结构的虚拟扬声器。所述技术可因此使音频解码单元32能够对多个球面谐波系数(例如SHC 20A)执行变换,以产生多个声道。所述多个声道中的每一者可与空间的对应不同区相关联。此外,所述多个声道中的每一者可包括多个虚拟声道,其中所述多个虚拟通道可与空间的对应不同区相关联。在一些情况下,所述技术可使装置能够对虚拟声道执行向量基础振幅平移,以产生多声道音频数据40的多个声道。
图9是说明音频编码装置(例如图4的实例中所示的音频编码装置10)在执行本发明中描述的技术的各个方面中的示范性操作的流程图。在操作中,音频编码装置10可通过首先调用空间分析单元18来相对于描述三维声场的SHC 20A执行空间分析,以识别所述声场的空间特性26,来实施本发明中描述的技术的各个方面(90)。音频编码装置10可接着调用音频渲染单元14来从SHC 20A(当如上所述不执行时频分析时)或SHC 20B(当执行时频分析时)渲染多声道音频数据22(其也可被称作“多声道音频数据22”)(92)。在渲染此多声道音频数据22之后或与之同时,音频编码装置10可调用音频编码单元16来基于所识别的空间特性26编码多声道音频数据22,以产生位流24(94)。如上所述音频编码单元16可以各种方式执行已经修改的音频编码的标准顺应形式,以利用空间特性26(例如,以执行上述空间掩蔽)。
图10是说明音频解码装置(例如图5的实例中所示的音频解码装置30)在执行本发明中描述的技术的各个方面中的示范性操作的流程图。在操作中,音频解码装置30可调用音频解码单元32来解码位流24,以产生具有对应于布置成第一扬声器几何结构的扬声器的多个声道的第一多声道音频数据22(100)。此第一扬声器几何结构可包括上文所述的密集T设计,其中作为一个实例,扬声器的数目可为32。一般来说,第一扬声器几何结构中的扬声器的数目应超过解码器局部扬声器几何结构中的扬声器的数目,以在解码器局部扬声器几何结构对音频数据的重放期间,提供高保真度。
音频解码装置30可接着调用逆音频渲染单元34来相对于所产生的第一多声道音频数据22执行逆渲染过程,以产生SHC 20B(当执行时频变换时)或SHC 20A(当不执行时频分析时)(102)。当音频编码装置10执行时频分析时,音频解码装置30还可调用逆时频分析单元36来将SHC 20B从频域变换回到时域,从而产生SHC 20A。在任何情况下,音频解码装置10可接着调用音频渲染单元38来基于SHC 20A而渲染具有对应于布置成局部扬声器几何结构的扬声器的多个声道的第二多声道音频数据40(104)。
以此方式,所述技术可使用现有的音频译码器(并修改其各个方面,以适应来自SHC的空间信息)。为了这样做,所述技术可取SH系数,并(使用渲染器R1)将其渲染到任意但密集的一组扩音器。这些扩音器的几何结构可使得逆渲染器(R1_inv)可重新产生SH信号。在一些实例中,渲染器可为仅单个矩阵(与频率无关),且其中的一者具有逆配对矩阵,使得R1x R1_inv=单位矩阵。这些渲染器针对T设计或柏拉图多面体(Platonic Solids)所描述的几何结构而存在。可使用将由从SHC搜集/分析的空间信息修改的“现成”音频译码器来译码渲染器(R1)所产生的扩音器馈送。在一些情况下,所述技术可采取常见的音频译码方法,借此维持扬声器馈送之间的声道间层级/时间/相关中的一或多者。使用压缩来讲较多声道打包到为单个声道等分配的位中。
在解码器处,所述技术可使解码器能够恢复扬声器馈送,并使其通过逆渲染器(R1_inv),以检索原始SHC。可将这些SHC馈送到另一渲染器(R2)中,意在迎合局部扬声器几何结构。通常,所述技术规定R1的输出处所产生的扬声器馈送的数目相对于渲染器R2的输出处可能存在的扬声器的数目来说较密集。换句话说,当渲染第一多声道音频数据时,假定扬声器的数目比R2渲染器的输出处可能存在的扬声器的实际数目高得多。
应认识到,取决于实例,本文中所描述的技术中的任一者的某些动作或事件可用不同序列来执行,可添加、合并或全部省略所述动作或事件(例如,实践所述技术未必需要所有所描述动作或事件)。此外,在某些实例中,可(例如)经由多线程处理、中断处理或多个处理器同时而非循序地执行动作或事件。
图11是说明本发明中描述的空间掩蔽技术的各个方面的图。在图11的实例中,曲线110包含x轴,其表示表达为SHC的声场内的三维空间中的点。曲线110的y轴指示单位为分贝的增益。曲线110描绘如何在某一给定频率(例如频率f1)下为点二(P2)计算空间掩蔽阈值。可将空间掩蔽阈值计算为每一其它点(从P2的角度)的能量的总和。就是说,短划线表示从P2的角度来说点一(P1)和点三(P3)的掩蔽能量。能量的总量可表达空间掩蔽阈值。除非P2具有大于空间掩蔽阈值的能量,否则不必发送或以其它方式编码P2的SHC。数学上,可根据以下等式来计算空间掩蔽(SMth)阈值:
其中表示点Pi处的能量。可从所述点的角度针对每一点且针对每一频率(或可表示频带的频段)来计算空间掩蔽阈值。
作为一个实例,图4A的实例中所示的空间分析单元18可根据以上等式来计算空间掩蔽阈值,以便潜在地减小所得位流的大小。在一些情况下,经执行以计算空间掩蔽阈值的此空间分析可结合声道22上的单独掩蔽块以及到音频编码单元16中的反馈来执行。虽然曲线110描绘dB域,但所述技术也可在空间域中执行。
在一些实例中,空间掩蔽阈值可与时间(或换句话说,同时)掩蔽阈值一起使用。通常,可将空间掩蔽阈值添加到时间掩蔽阈值,以产生整体掩蔽阈值。在一些情况下,当产生整体掩蔽阈值时,将权重应用于空间和时间掩蔽阈值。这些阈值可表达为比率(例如信噪比(SNR))的函数。当将位分配给每一频段时,位分配器可使用整体阈值。图4A的音频编码单元16可表示一种形式的位分配器,其使用空间掩蔽阈值、时间掩蔽阈值或整体掩蔽阈值中的一或多者将位分配给频段。
图12是说明其中可根据本发明中描述的技术的各个方面执行产生位流24的不同形式的图4A的实例中所示的音频编码装置的变化的框图。如图12的实例中示出,音频编码装置10的所述变化表示为音频编码装置10'。音频编码装置10'类似于图4A的音频编码装置10,因为音频编码装置10'包含相似单元,即图12的实例中的时频分析单元12、音频渲染单元14、音频编码单元16和空间分析单元18。
然而,音频编码装置10'还包含模式选择器单元150,其表示确定是在编码声道22之前渲染SHC 20B还是将SHC 20B直接发射到音频编码单元16而不首先将SHC 20B渲染到声道22的单元。模式选择器单元150可接收目标位速率152作为来自用户、另一装置或经由可输入目标位速率152的任何其它方式的输入。目标位速率152可表示定义位流24的位速率或压缩等级的数据。
在一个实例中,对于位速率152所指定的较高位速率,模式选择器单元150可确定音频编码单元16将使用本发明中描述的技术的空间掩蔽方面来直接对SHC 20B进行音频编码。较高位速率的一个实例可为等于或高于256千位每秒(Kbps)的位速率。因此,对于例如256Kbps、512Kbps和/或1.2兆位每秒(Mbps)(其中在此实例中,256Kbps可表示用以从较低位速率确定较高位速率的阈值位速率)的位速率,音频编码单元16可直接对SHC 20B操作,且音频渲染单元14不再将SHC 20B渲染到声道22。
对于位速率152所指定的较低位速率,模式选择器单元150可确定音频渲染单元14将首先渲染SHC 20B以产生声道22,且接着随后音频编码单元16对SHC 20B进行编码。在此实例中音频编码单元16可相对于第一声道执行空间掩蔽技术,而其余声道经历参数编码,例如根据MPEG环绕声和其它参数声道间编码方案来执行的编码。
音频编码单元16可在位流中指定(以经编码或未经编码形式)模式选择器单元150所选择的模式,使得解码装置可确定当产生位流24时,是否执行参数声道间编码。虽然未详细展示,但音频解码装置30可以与音频编码装置10'的修改方式类似的方式修改(其中此音频解码装置30可被称为音频解码装置30')。此音频解码装置30'可同样地包含类似于模式选择器单元150的模式选择器单元,其确定是将声道22输出到逆音频渲染单元34还是将SHC20B输出到逆时频分析单元36。在一些情况下,可从位流24所对应于的目标位速率152(其中此目标位速率152可在位流24中指定,且在音频解码装置30'可从目标位速率152推断此模式的条件下,有效地表示所述模式)推断此模式。
在这方面中,本发明中描述的技术可使音频编码装置10'能够执行压缩音频数据的方法。在执行此方法时,音频编码装置10'可确定表示经压缩音频数据的位流的目标位速率,且基于以三维形式描述音频数据的声场的多个球面谐波系数来执行空间分析,以识别空间掩蔽阈值。基于目标位速率,音频编码装置10'可执行i)参数声道间音频编码和使用空间掩蔽阈值的空间掩蔽,或ii)使用空间掩蔽阈值的空间掩蔽,而不执行参数声道间音频编码,以产生表示经压缩音频数据的位流。
在一些情况下,当执行i)参数声道间音频编码和使用空间掩蔽阈值的空间掩蔽,或ii)使用空间掩蔽阈值的空间掩蔽,而不执行参数声道间音频编码时,音频编码装置10'可确定目标位速率低于阈值位速率,且响应于确定目标位速率低于阈值位速率,执行参数声道间音频编码和使用空间掩蔽阈值的空间掩蔽,以产生位流。阈值位速率可例如等于256千位每秒(Kbps)。
在一些情况下,当执行i)参数声道间音频编码和使用空间掩蔽阈值的空间掩蔽,或ii)使用空间掩蔽阈值的空间掩蔽而不执行参数声道间音频编码时,音频编码装置10'可确定目标位速率等于或超过阈值位速率,且响应于确定目标位速率等于或超过阈值位速率,执行使用空间掩蔽阈值的空间掩蔽,而不执行参数声道间音频编码,以产生位流。
在一些情况下,音频编码装置10'可进一步将多个球面谐波系数渲染到多声道音频数据。当执行i)参数声道间音频编码和使用空间掩蔽阈值的空间掩蔽,或ii)使用空间掩蔽阈值的空间掩蔽而不执行参数声道间音频编码时,音频编码装置10'可确定目标位速率低于阈值位速率,且响应于确定目标位速率低于阈值位速率,相对于多声道音频数据的一或多个基础声道,执行使用空间掩蔽阈值的空间掩蔽,且相对于所述多声道音频数据执行参数声道间音频编码,以产生位流。并且,阈值位速率可等于256千位每秒(Kbps)。
在一些情况下,音频编码装置10'还可基于空间掩蔽阈值,为基于音频数据的时间的表示或音频数据的基于频率的表示分配位流中的位。
在一些情况下,参数声道间音频编码包括移动图片专家组(MPEG)环绕声。
此外,本发明中描述的技术可使音频编码装置10'能够执行压缩多声道音频数据的方法。在执行此方法时,音频编码装置10'可基于以三维形式描述多声道音频数据的声场的多个球面谐波系数来执行空间分析,以识别空间掩蔽阈值,且渲染球面谐波系数以产生多声道音频数据。音频编码装置10'还可使用空间掩蔽阈值,相对于多声道音频数据的一或多个基础声道执行空间掩蔽,且相对于所述多声道音频数据(包含所述多声道音频数据的经空间掩蔽的一或多个基础声道)执行参数声道间音频编码,以产生位流。
在一些情况下,音频编码装置10'可确定将多声道音频数据编码为位流的目标位速率。在此背景下当执行空间掩蔽和参数声道间音频编码时,在目标位速率小于阈值位速率时,音频编码装置10'相对于多声道音频数据的一或多个基础声道执行空间掩蔽,且相对于所述多声道音频数据(包含所述多声道音频数据的经空间掩蔽的一或多个基础声道)执行参数声道间音频编码,以产生位流。
在一些情况下,阈值位速率等于256千位每秒(Kbps)。在一些情况下,此阈值位速率由用户或应用程序指定。就是说,此阈值位速率可为可配置的,或可静态设定。在一些情况下,目标位速率等于128千位每秒(Kbps)。在一些情况下,参数声道间音频编码包括移动图片专家组(MPEG)环绕声。
在一些情况下,音频编码装置10'还使用时间掩蔽阈值,相对于多声道音频数据执行时间掩蔽。
另外,所述技术的各个方面可进一步(或替代地)使音频编码装置10'能够执行压缩音频数据的方法。执行此方法时,音频编码装置10'可基于以三维形式描述音频数据的声场的多个球面谐波系数来执行空间分析,以识别空间掩蔽阈值;使用所述空间掩蔽阈值,相对于所述多个球面谐波系数执行空间掩蔽;以及产生包含所述多个经空间掩蔽的球面谐波系数的位流。
在一些情况下,音频编码装置10'可确定将多声道音频数据编码为位流的目标位速率。当执行空间掩蔽时,在目标位速率等于或大于阈值位速率时,音频编码装置10'可相对于所述多个球面谐波系数执行空间掩蔽。在一些情况下,阈值位速率等于256千位每秒(Kbps)。在这些情况下,目标位速率等于或大于256千位每秒(Kbps)。
在一些情况下,音频编码装置10'可进一步使用时间掩蔽阈值,相对于多个球面谐波系数执行时间掩蔽。
虽然上文描述为相对于球面谐波系数执行空间掩蔽分析,但上文相对于图12的实例所描述的技术也可在所谓的“声道域”中执行,类似于图4B的音频编码装置11如何在声道域中执行空间分析。因此,所述技术在这方面不应限于图12的实例。
图13是说明可执行本发明中描述的技术的各种方面的示范性音频编码装置160的框图。如图13的实例中示出,音频编码装置160可包含时频分析单元162、同时掩蔽单元164、空间掩蔽单元166和位分配单元168。时频单元162可类似于或大体类似于图4A的实例中所示的音频编码装置10的时频分析单元12。时频单元162可接收SHC 170A,将SHC 170A从时域变换到频域(其中SHC 170A的频域版本表示为“SHC 170B”)。
同时掩蔽单元164表示执行SHC 170B的同时分析(其也可被称作“时间分析”)以确定一或多个同时掩蔽阈值172的单元。同时掩蔽单元164可评估SHC 170B所描述的声场,以识别(作为一个实例)同时但分开的声音。当两个同时声音之间的增益存在较大差异时,通常仅需要准确地表示最响的声音(其可表示具有最大能量的声音),而可较不准确地表示相比之下较安静的声音(这通常通过将较小的位分配给相比之下安静的声音来进行)。在任何情况下,同时掩蔽单元164可输出一或多个同时掩蔽阈值172(常常在逐频段基础上指定)。
空间掩蔽单元166可表示相对于SHC 170B且根据上述技术的各个方面执行空间分析以确定一或多个空间掩蔽阈值174(其同样地可在逐频段基础上指定)的单元。空间掩蔽单元166可输出空间掩蔽阈值174,其由组合器176与时间掩蔽阈值172组合以形成总掩蔽阈值178。组合器176可添加或执行任何其它形式的数学运算,来组合时间掩蔽阈值172与空间掩蔽阈值174,以产生总掩蔽阈值178。
位分配单元168表示能够基于阈值(例如总掩蔽阈值178)分配表示音频数据的位流180中的位的任何单元。位分配单元168可使用各种阈值178来分配位,以识别何时分配较多或较少的位。通常,位分配单元168在多个所谓的“遍次”中操作,其中位分配单元168在第一初始位配置遍次期间,分配用于表示位流180中的SHC 170B的位。位分配单元168可在此第一遍次期间保守地分配位,使得不超过位预算(其可对应于目标位速率)。在第二和可能后续位配置遍次期间,位分配单元168可分配位预算(其可对应于目标位速率)中剩余的任何位,以进一步细化如何在位流180中表示SHC 170B的各种频段。虽然描述为基于总掩蔽阈值178来分配位,但位分配单元168可基于空间掩蔽阈值174、时间掩蔽阈值172和总掩蔽阈值178中的任何一或多者来分配位。
图14是说明音频解码装置(例如图13的实例中所示的音频编码装置160)在执行本发明中描述的技术的各个方面中的示范性操作的流程图。在操作中,音频解码的时频单元162可接收SHC 170A(200),将SHC 170A从时域变换到频域(其中SHC 170A的频域版本表示为“SHC 170B”)(202)。
音频编码装置160的同时掩蔽单元164可接着执行SHC 170B的同时分析(其也可被称作“时间分析”),以确定一或多个同时掩蔽阈值172(204)。同时掩蔽单元164可输出一或多个同时掩蔽阈值172(常常在逐频段基础上指定)。
音频编码装置160的空间掩蔽单元166可相对于SHC 170B且根据上述技术的各个方面执行空间分析,以确定一或多个空间掩蔽阈值174(其同样地可在逐频段基础上指定)(206)。空间掩蔽单元166可输出空间掩蔽阈值174,其由组合器176与同时掩蔽阈值172(其也可被称作“时间掩蔽阈值172”)组合,以形成总掩蔽阈值178(208)。组合器176可添加或执行任何其它形式的数学运算,来组合时间掩蔽阈值172与空间掩蔽阈值174,以产生总掩蔽阈值178。
位分配单元168表示能够基于阈值(例如总掩蔽阈值178)分配表示音频数据的位流180中的位的任何单元。位分配单元168可使用各种阈值178以上文所描述的方式来分配位,以识别何时分配较多或较少的位(210)。并且,虽然描述为基于总掩蔽阈值178来分配位,但位分配单元168可基于空间掩蔽阈值174、时间掩蔽阈值172和总掩蔽阈值178中的任何一或多者来分配位。
在一或多个实例中,所描述的功能可在硬件、软件、固件或其任何组合中实施。如果在软件中实施,那么所述功能可作为一或多个指令或代码在计算机可读媒体上存储或传输,且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体,其对应于有形媒体,例如数据存储媒体,或包含任何促进将计算机程序从一处传送到另一处的媒体(例如,根据一种通信协议)的通信媒体。以此方式,计算机可读媒体总体上可对应于(1)非暂时性的有形计算机可读存储媒体,或(2)通信媒体,例如信号或载波。数据存储媒体可为可由一个或一个以上计算机或一个或一个以上处理器存取以检索用于实施本发明中描述的技术的指令、代码和/或数据结构的任何可用媒体。计算机程序产品可包含计算机可读媒体。
借助于实例而非限制,此类计算机可读存储媒体可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器或可以用来存储指令或数据结构的形式的期望程序代码并且可以由计算机存取的任何其它媒体。而且,可恰当地将任何连接称作计算机可读媒体。举例来说,如果使用同轴电缆、光纤缆线、双绞线、数字订户线(DSL)或例如红外线、无线电及微波等无线技术从网站、服务器或其它远程源发射指令,那么同轴电缆、光纤缆线、双绞线、DSL或例如红外线、无线电及微波等无线技术包含在媒体的定义中。然而,应理解,所述计算机可读存储媒体和数据存储媒体并不包含连接、载波、信号或其它暂时性媒体,而是实际上针对非暂时性的有形存储媒体。如本文所使用,磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘和蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘用激光以光学方式再现数据。上述各项的组合也应该包含在计算机可读媒体的范围内。
指令可由一或多个处理器执行,所述一或多个处理器例如是一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA),或其它等效的集成或离散逻辑电路。因此,如本文中所使用的术语“处理器”可指代上述结构或适合于实施本文中所描述的技术的任何其它结构中的任一者。另外,在一些方面中,本文所描述的功能性可以提供于经配置用于编码及解码的专用硬件和/或软件模块内,或者并入于组合式编码解码器中。并且,所述技术可完全实施于一或多个电路或逻辑元件中。
本发明的技术可在各种各样的.装置或设备中实施,包含无线手持机、集成电路(IC)或一组IC(例如,芯片组)。本发明中描述各种组件、模块或单元以强调经配置以执行所揭示的技术的装置的功能方面,但未必需要由不同硬件单元实现。实际上,如上文所描述,各种单元可结合合适的软件及/或固件组合在编解码器硬件单元中,或者通过互操作硬件单元的集合来提供,所述硬件单元包括如上文所描述的一或多个处理器。
已描述所述技术的各种实施例。所述技术的这些和其它方面在所附权利要求书的范围内。
Claims (48)
1.一种压缩多声道音频数据的方法,其包括:
基于描述三维声场的多个球面谐波系数来执行空间分析,以识别空间掩蔽阈值;
从所述多个球面谐波系数渲染所述多声道音频数据,其中为密集扬声器几何结构渲染所述多声道音频数据,使得所述多声道音频数据具有比供经由一或多个扬声器重放的声道的数目大的声道数目;以及
基于所述所识别的空间掩蔽阈值来压缩所述多声道音频数据,以产生位流。
2.根据权利要求1所述的方法,其进一步包括为所述位流确定目标位速率,
其中压缩所述多声道音频数据包括基于所述目标位速率,执行i)参数声道间音频编码和使用所述空间掩蔽阈值的空间掩蔽,或ii)使用所述空间掩蔽阈值的所述空间掩蔽,而不执行所述参数声道间音频编码,以产生表示所述经压缩音频数据的位流。
3.根据权利要求2所述的方法,其中执行i)所述参数声道间音频编码和使用所述空间掩蔽阈值的所述空间掩蔽,或ii)使用所述空间掩蔽阈值的所述空间掩蔽,而不执行所述参数声道间音频编码包括:
确定所述目标位速率低于阈值位速率;以及
响应于确定所述目标位速率低于所述阈值位速率,执行所述参数声道间音频编码和使用所述空间掩蔽阈值的所述空间掩蔽,以产生所述位流。
4.根据权利要求2所述的方法,其中执行i)所述参数声道间音频编码和使用所述空间掩蔽阈值的所述空间掩蔽,或ii)使用所述空间掩蔽阈值的所述空间掩蔽,而不执行所述参数声道间音频编码包括:
确定所述目标位速率低于阈值位速率;以及
响应于确定所述目标位速率低于所述阈值位速率,相对于所述多声道音频数据的一或多个基础声道执行使用所述空间掩蔽阈值的所述空间掩蔽,且相对于所述多声道音频数据执行所述参数声道间音频编码,以产生所述位流。
5.根据权利要求1所述的方法,其中从所述球面谐波系数渲染所述多声道音频数据包括从所述球面谐波系数渲染所述多声道音频数据的针对所述密集扬声器几何结构中的32个扬声器的32个声道。
6.根据权利要求1所述的方法,
其中所述密集扬声器几何结构包括密集T设计扬声器几何结构,且
其中从所述球面谐波系数渲染所述多声道音频数据包括从所述球面谐波系数渲染所述多声道音频数据的对应于布置成所述密集T设计扬声器几何结构的32个扬声器的32个声道。
7.根据权利要求1所述的方法,其中压缩所述多声道音频数据包括基于所述空间掩蔽阈值,为所述多声道音频数据的基于时间的表示或所述多声道音频数据的基于频率的表示分配所述位流中的位。
8.根据权利要求1所述的方法,其中压缩所述多声道音频数据包括基于所述空间掩蔽阈值和时间掩蔽阈值,为所述多声道音频数据的基于时间的表示或所述多声道音频数据的基于频率的表示分配所述位流中的位。
9.根据权利要求1所述的方法,其中压缩所述多声道音频数据包括基于所述所识别的空间掩蔽阈值来执行熵编码。
10.根据权利要求1所述的方法,其进一步包括将所述多个球面谐波系数从时域变换到频域,以便产生经变换的多个球面谐波系数,
其中渲染所述多声道音频数据包括从所述经变换的多个球面谐波系数渲染所述多声道音频数据。
11.一种音频编码装置,其包括:
一或多个处理器,其经配置以基于描述三维声场的多个球面谐波系数来执行空间分析以识别空间掩蔽阈值,从所述多个球面谐波系数渲染多声道音频数据,其中为密集扬声器几何结构渲染所述多声道音频数据,使得所述多声道音频数据具有比供经由一或多个扬声器重放的声道的数目大的声道数目,且基于所述所识别的空间掩蔽阈值来压缩所述多声道音频数据,以产生位流。
12.根据权利要求11所述的音频编码装置,
其中所述一个或一个以上处理器进一步经配置以为所述位流确定目标位速率,且
其中所述一或多个处理器经配置以基于所述目标位速率来执行i)参数声道间音频编码和使用所述空间掩蔽阈值的空间掩蔽,或ii)使用所述空间掩蔽阈值的所述空间掩蔽,而不执行所述参数声道间音频编码,以产生表示所述经压缩音频数据的位流。
13.根据权利要求12所述的音频编码装置,其中所述一或多个处理器经配置以确定所述目标位速率低于阈值位速率,且响应于确定所述目标位速率低于所述阈值位速率,执行所述参数声道间音频编码和使用所述空间掩蔽阈值的所述空间掩蔽,以产生所述位流。
14.根据权利要求12所述的音频编码装置,其中所述一或多个处理器经配置以确定所述目标位速率低于阈值位速率,且响应于确定所述目标位速率低于所述阈值位速率,相对于所述多声道音频数据的一或多个基础声道执行使用所述空间掩蔽阈值的所述空间掩蔽,且相对于所述多声道音频数据执行所述参数声道间音频编码,以产生所述位流。
15.根据权利要求11所述的音频编码装置,其中所述一或多个处理器进一步经配置以从所述球面谐波系数渲染所述多声道音频数据的针对布置成所述密集扬声器几何结构的32个扬声器的32个声道。
16.根据权利要求11所述的音频编码装置,
其中所述密集扬声器几何结构包括密集T设计扬声器几何结构,且
其中所述一或多个处理器进一步经配置以从所述球面谐波系数渲染所述多声道音频数据的对应于布置成所述密集T设计的32个扬声器的32个声道。
17.根据权利要求11所述的音频编码装置,其中所述一或多个处理器进一步经配置以基于所述空间掩蔽阈值,为所述多声道音频数据的基于时间的表示或所述多声道音频数据的基于频率的表示分配所述位流中的位。
18.根据权利要求11所述的音频编码装置,其中所述一或多个处理器进一步经配置以基于所述空间掩蔽阈值和时间掩蔽阈值,为所述多声道音频数据的基于时间的表示或所述多声道音频数据的基于频率的表示分配所述位流中的位。
19.根据权利要求11所述的音频编码装置,其中所述一或多个处理器进一步经配置以基于所述所识别的空间掩蔽阈值执行熵编码。
20.根据权利要求11所述的音频编码装置,其中所述一或多个处理器进一步经配置以将所述多个球面谐波系数从时域变换到频域,以便产生经变换的多个球面谐波系数,且当渲染所述多声道音频数据时,从所述经变换的多个球面谐波系数渲染所述多声道音频数据。
21.一种音频编码装置,其包括:
用于基于描述三维声场的多个球面谐波系数来执行空间分析,以识别空间掩蔽阈值的装置;
用于从所述多个球面谐波系数渲染多声道音频数据的装置,其中为密集扬声器几何结构渲染所述多声道音频数据,使得所述多声道音频数据具有比供经由一或多个扬声器重放的声道的数目大的声道数目;以及
用于基于所述所识别的空间掩蔽阈值来压缩所述多声道音频数据以产生位流的装置。
22.一种上面存储有指令的非暂时性计算机可读存储媒体,所述指令在被执行时,致使音频编码装置的一或多个处理器:
基于描述三维声场的多个球面谐波系数来执行空间分析,以识别空间掩蔽阈值;
从所述多个球面谐波系数渲染多声道音频数据,其中为密集扬声器几何结构渲染所述多声道音频数据,使得所述多声道音频数据具有比供经由一或多个扬声器重放的声道的数目大的声道数目;以及
基于所述所识别的空间掩蔽阈值来压缩所述多声道音频数据,以产生位流。
23.一种音频解码方法,其包括:
解码位流以产生具有对应于布置成限定扬声器几何结构的扬声器的多个声道的第一多声道音频数据;
相对于所述所产生的多声道音频数据执行逆渲染过程,以产生多个球面谐波系数;以及
基于所述多个球面谐波系数,渲染具有对应于布置成局部扬声器几何结构的扬声器的多个声道的第二多声道音频数据,其中对应于布置成所述限定扬声器几何结构的所述扬声器的所述多个声道具有比对应于布置成所述局部扬声器几何结构的所述扬声器的所述多个声道的声道数目大的声道数目。
24.根据权利要求23所述的音频解码方法,其进一步包括为所述位流确定目标位速率,其中解码所述位流包括基于所述目标位速率,相对于所述位流执行参数声道间音频解码,以产生所述第一多声道音频数据。
25.根据权利要求24所述的音频解码方法,其中执行所述参数声道间音频解码包括:
确定所述目标位速率低于阈值位速率;以及
响应于确定所述目标位速率低于所述阈值位速率,相对于所述位流执行所述参数声道间音频解码,以产生所述第一多声道音频数据。
26.根据权利要求25所述的音频解码方法,其中所述阈值位速率等于256千位每秒Kbps。
27.根据权利要求23所述的音频解码方法,其中执行所述逆渲染过程包括相对于对应于布置成所述限定扬声器几何结构的32个扬声器的所述第一多声道音频数据的32个声道执行所述逆渲染过程,以产生所述多个球面谐波系数。
28.根据权利要求23所述的音频解码方法,
其中所述限定扬声器几何结构包括密集T设计扬声器几何结构,且
其中执行所述逆渲染过程包括相对于所述第一多声道音频数据的对应于布置成所述密集T设计的32个扬声器的32个声道执行所述逆渲染过程,以产生所述多个球面谐波系数。
29.根据权利要求23所述的音频解码方法,其进一步包括将所述多个球面谐波系数从频域变换到时域,以便产生经变换的多个球面谐波系数,
其中渲染所述第二多声道音频数据包括基于所述经变换的多个球面谐波系数,渲染具有对应于布置成所述局部扬声器几何结构的所述扬声器的所述多个声道的所述第二多声道音频数据。
30.根据权利要求23所述的音频解码方法,其中渲染所述第二多声道音频数据包括基于所述多个球面谐波系数对所述多个球面谐波系数执行变换,以产生具有对应于布置成所述局部扬声器几何结构的所述扬声器的所述多个声道的所述第二多声道音频数据。
31.根据权利要求30所述的音频解码方法,
其中所述第二多声道音频数据的所述多个声道包括对应于布置成不同于所述局部扬声器几何结构的几何结构的虚拟扬声器的多个虚拟声道,且
其中渲染所述第二多声道音频数据进一步包括对多个虚拟扩音器声道执行平移,以产生所述第二多声道音频数据的对应于布置成所述局部扬声器几何结构的所述扬声器的所述多个声道。
32.根据权利要求31所述的音频解码方法,其中执行平移包括对所述多个虚拟声道执行向量基础振幅平移,以产生所述第二多声道音频数据的所述多个声道。
33.根据权利要求32所述的音频解码方法,其中所述多个虚拟声道中的每一者与空间的对应不同界定区相关联。
34.根据权利要求33所述的音频解码方法,其中以音频格式规范和音频格式标准中的一或多者来界定空间的所述不同界定区。
35.一种音频解码装置,其包括:
一或多个处理器,其经配置以解码位流以产生具有对应于布置成第一扬声器几何结构的扬声器的多个声道的第一多声道音频数据,相对于所述所产生的多声道音频数据执行逆渲染过程,以产生多个球面谐波系数,且基于所述多个球面谐波系数来渲染具有对应于布置成局部扬声器几何结构的扬声器的多个声道的第二多声道音频数据,其中对应于布置成所述第一扬声器几何结构的所述扬声器的所述多个声道具有比对应于布置成所述局部扬声器几何结构的所述扬声器的所述多个声道的声道数目大的声道数目。
36.根据权利要求35所述的音频解码装置,其中所述一或多个处理器进一步经配置以为所述位流确定目标位速率,
其中所述一或多个处理器经配置以基于所述目标位速率,相对于所述位流执行参数声道间音频解码,以产生所述第一多声道音频数据。
37.根据权利要求36所述的音频解码装置,其中所述一或多个处理器经配置以确定所述目标位速率低于阈值位速率,且响应于确定所述目标位速率低于所述阈值位速率,相对于所述位流执行所述参数声道间音频解码,以产生所述第一多声道音频数据。
38.根据权利要求37所述的音频解码装置,其中所述阈值位速率等于256千位每秒Kbps。
39.根据权利要求35所述的音频解码装置,其中所述一或多个处理器经配置以在执行所述逆渲染过程时,相对于所述第一多声道音频数据的对应于布置成所述第一扬声器几何结构的32个扬声器的32个声道执行所述逆渲染过程,以产生所述多个球面谐波系数。
40.根据权利要求35所述的音频解码装置,
其中所述第一扬声器几何结构包括密集T设计扬声器几何结构,且
其中所述一或多个处理器经配置以在执行所述逆渲染过程时,相对于所述第一多声道音频数据的对应于布置成所述密集T设计的32个扬声器的32个声道执行所述逆渲染过程,以产生所述多个球面谐波系数。
41.根据权利要求35所述的音频解码装置,其中所述一或多个处理器经配置以将所述多个球面谐波系数从频域变换到时域,以便产生经变换的多个球面谐波系数,
其中所述一或多个处理器经配置以在渲染所述第二多声道音频数据时,基于所述经变换的多个球面谐波系数,渲染具有对应于布置成所述局部扬声器几何结构的所述扬声器的所述多个声道的所述第二多声道音频数据。
42.根据权利要求35所述的音频解码装置,其中所述一或多个处理器经配置以在渲染所述第二多声道音频数据时,对所述多个球面谐波系数执行变换,以基于所述多个球面谐波系数,产生具有对应于布置成所述局部扬声器几何结构的所述扬声器的所述多个声道的所述第二多声道音频数据。
43.根据权利要求42所述的音频解码装置,
其中所述第二多声道音频数据的所述多个声道包括对应于布置成不同于所述局部扬声器几何结构的几何结构的虚拟扬声器的多个虚拟声道,
其中所述一或多个处理器经配置以在渲染所述第二多声道音频数据时,对多个虚拟扩音器声道执行平移,以产生所述第二多声道音频数据的对应于布置成所述局部扬声器几何结构的所述扬声器的所述多个声道。
44.根据权利要求43所述的音频解码装置,其中所述一或多个处理器经配置以在执行平移时,对所述多个虚拟声道执行向量基础振幅平移,以产生所述第二多声道音频数据的所述多个声道。
45.根据权利要求44所述的音频解码装置,其中所述多个虚拟声道中的每一者与空间的对应不同界定区相关联。
46.根据权利要求45所述的音频解码装置,其中以音频格式规范和音频格式标准中的一或多者来界定空间的所述不同界定区。
47.一种音频解码装置,其包括:
用于解码位流以产生具有对应于布置成第一扬声器几何结构的扬声器的多个声道的第一多声道音频数据的装置;
用于相对于所述所产生的多声道音频数据执行逆渲染过程以产生多个球面谐波系数的装置;以及
用于基于所述多个球面谐波系数,渲染具有对应于布置成局部扬声器几何结构的扬声器的多个声道的第二多声道音频数据的装置,其中对应于布置成所述第一扬声器几何结构的所述扬声器的所述多个声道具有比对应于布置成所述局部扬声器几何结构的所述扬声器的所述多个声道的声道数目大的声道数目。
48.一种上面存储有指令的非暂时性计算机可读存储媒体,所述指令在被执行时,致使音频解码装置的一或多个处理器:
解码位流以产生具有对应于布置成第一扬声器几何结构的扬声器的多个声道的第一多声道音频数据;
相对于所述所产生的多声道音频数据执行逆渲染过程,以产生多个球面谐波系数;以及
基于所述多个球面谐波系数,渲染具有对应于布置成局部扬声器几何结构的扬声器的多个声道的第二多声道音频数据,其中对应于布置成所述第一扬声器几何结构的所述扬声器的所述多个声道具有比对应于布置成所述局部扬声器几何结构的所述扬声器的所述多个声道的声道数目大的声道数目。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361828132P | 2013-05-28 | 2013-05-28 | |
US61/828,132 | 2013-05-28 | ||
US14/288,219 US9412385B2 (en) | 2013-05-28 | 2014-05-27 | Performing spatial masking with respect to spherical harmonic coefficients |
US14/288,219 | 2014-05-27 | ||
PCT/US2014/039860 WO2014194001A1 (en) | 2013-05-28 | 2014-05-28 | Performing spatial masking with respect to spherical harmonic coefficients |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105247612A CN105247612A (zh) | 2016-01-13 |
CN105247612B true CN105247612B (zh) | 2018-12-18 |
Family
ID=51985122
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480030439.7A Expired - Fee Related CN105247612B (zh) | 2013-05-28 | 2014-05-28 | 相对于球面谐波系数执行空间掩蔽 |
Country Status (6)
Country | Link |
---|---|
US (1) | US9412385B2 (zh) |
EP (1) | EP3005357B1 (zh) |
JP (1) | JP2016524726A (zh) |
KR (1) | KR20160012215A (zh) |
CN (1) | CN105247612B (zh) |
WO (1) | WO2014194001A1 (zh) |
Families Citing this family (80)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9202509B2 (en) | 2006-09-12 | 2015-12-01 | Sonos, Inc. | Controlling and grouping in a multi-zone media system |
US8483853B1 (en) | 2006-09-12 | 2013-07-09 | Sonos, Inc. | Controlling and manipulating groupings in a multi-zone media system |
US8788080B1 (en) | 2006-09-12 | 2014-07-22 | Sonos, Inc. | Multi-channel pairing in a media system |
US8923997B2 (en) | 2010-10-13 | 2014-12-30 | Sonos, Inc | Method and apparatus for adjusting a speaker system |
US11429343B2 (en) | 2011-01-25 | 2022-08-30 | Sonos, Inc. | Stereo playback configuration and control |
US11265652B2 (en) | 2011-01-25 | 2022-03-01 | Sonos, Inc. | Playback device pairing |
US8938312B2 (en) | 2011-04-18 | 2015-01-20 | Sonos, Inc. | Smart line-in processing |
US9042556B2 (en) | 2011-07-19 | 2015-05-26 | Sonos, Inc | Shaping sound responsive to speaker orientation |
US8811630B2 (en) | 2011-12-21 | 2014-08-19 | Sonos, Inc. | Systems, methods, and apparatus to filter audio |
US9084058B2 (en) | 2011-12-29 | 2015-07-14 | Sonos, Inc. | Sound field calibration using listener localization |
US9729115B2 (en) | 2012-04-27 | 2017-08-08 | Sonos, Inc. | Intelligently increasing the sound level of player |
US9524098B2 (en) | 2012-05-08 | 2016-12-20 | Sonos, Inc. | Methods and systems for subwoofer calibration |
USD721352S1 (en) | 2012-06-19 | 2015-01-20 | Sonos, Inc. | Playback device |
US9219460B2 (en) | 2014-03-17 | 2015-12-22 | Sonos, Inc. | Audio settings based on environment |
US9106192B2 (en) | 2012-06-28 | 2015-08-11 | Sonos, Inc. | System and method for device playback calibration |
US9690271B2 (en) | 2012-06-28 | 2017-06-27 | Sonos, Inc. | Speaker calibration |
US9706323B2 (en) | 2014-09-09 | 2017-07-11 | Sonos, Inc. | Playback device calibration |
US9690539B2 (en) | 2012-06-28 | 2017-06-27 | Sonos, Inc. | Speaker calibration user interface |
US9668049B2 (en) | 2012-06-28 | 2017-05-30 | Sonos, Inc. | Playback device calibration user interfaces |
US9288603B2 (en) | 2012-07-15 | 2016-03-15 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for backward-compatible audio coding |
US9473870B2 (en) * | 2012-07-16 | 2016-10-18 | Qualcomm Incorporated | Loudspeaker position compensation with 3D-audio hierarchical coding |
US8930005B2 (en) | 2012-08-07 | 2015-01-06 | Sonos, Inc. | Acoustic signatures in a playback system |
US8965033B2 (en) | 2012-08-31 | 2015-02-24 | Sonos, Inc. | Acoustic optimization |
US9008330B2 (en) | 2012-09-28 | 2015-04-14 | Sonos, Inc. | Crossover frequency adjustments for audio speakers |
USD721061S1 (en) | 2013-02-25 | 2015-01-13 | Sonos, Inc. | Playback device |
US9226087B2 (en) | 2014-02-06 | 2015-12-29 | Sonos, Inc. | Audio output balancing during synchronized playback |
US9226073B2 (en) | 2014-02-06 | 2015-12-29 | Sonos, Inc. | Audio output balancing during synchronized playback |
US9264839B2 (en) | 2014-03-17 | 2016-02-16 | Sonos, Inc. | Playback device configuration based on proximity detection |
CN106409300B (zh) * | 2014-03-19 | 2019-12-24 | 华为技术有限公司 | 用于信号处理的方法和装置 |
US9367283B2 (en) | 2014-07-22 | 2016-06-14 | Sonos, Inc. | Audio settings |
USD883956S1 (en) | 2014-08-13 | 2020-05-12 | Sonos, Inc. | Playback device |
US9910634B2 (en) | 2014-09-09 | 2018-03-06 | Sonos, Inc. | Microphone calibration |
US9952825B2 (en) | 2014-09-09 | 2018-04-24 | Sonos, Inc. | Audio processing algorithms |
US10127006B2 (en) | 2014-09-09 | 2018-11-13 | Sonos, Inc. | Facilitating calibration of an audio playback device |
US9891881B2 (en) | 2014-09-09 | 2018-02-13 | Sonos, Inc. | Audio processing algorithm database |
US9973851B2 (en) | 2014-12-01 | 2018-05-15 | Sonos, Inc. | Multi-channel playback of audio content |
US10664224B2 (en) | 2015-04-24 | 2020-05-26 | Sonos, Inc. | Speaker calibration user interface |
WO2016172593A1 (en) | 2015-04-24 | 2016-10-27 | Sonos, Inc. | Playback device calibration user interfaces |
USD920278S1 (en) | 2017-03-13 | 2021-05-25 | Sonos, Inc. | Media playback device with lights |
USD768602S1 (en) | 2015-04-25 | 2016-10-11 | Sonos, Inc. | Playback device |
USD886765S1 (en) | 2017-03-13 | 2020-06-09 | Sonos, Inc. | Media playback device |
US20170085972A1 (en) | 2015-09-17 | 2017-03-23 | Sonos, Inc. | Media Player and Media Player Design |
USD906278S1 (en) | 2015-04-25 | 2020-12-29 | Sonos, Inc. | Media player device |
US10248376B2 (en) | 2015-06-11 | 2019-04-02 | Sonos, Inc. | Multiple groupings in a playback system |
US10091506B2 (en) * | 2015-06-11 | 2018-10-02 | Sony Corporation | Data-charge phase data compression architecture |
US9729118B2 (en) | 2015-07-24 | 2017-08-08 | Sonos, Inc. | Loudness matching |
US9538305B2 (en) | 2015-07-28 | 2017-01-03 | Sonos, Inc. | Calibration error conditions |
US9736610B2 (en) | 2015-08-21 | 2017-08-15 | Sonos, Inc. | Manipulation of playback device response using signal processing |
US9712912B2 (en) | 2015-08-21 | 2017-07-18 | Sonos, Inc. | Manipulation of playback device response using an acoustic filter |
US9693165B2 (en) | 2015-09-17 | 2017-06-27 | Sonos, Inc. | Validation of audio calibration using multi-dimensional motion check |
WO2017049169A1 (en) | 2015-09-17 | 2017-03-23 | Sonos, Inc. | Facilitating calibration of an audio playback device |
US9743207B1 (en) | 2016-01-18 | 2017-08-22 | Sonos, Inc. | Calibration using multiple recording devices |
US11106423B2 (en) | 2016-01-25 | 2021-08-31 | Sonos, Inc. | Evaluating calibration of a playback device |
US10003899B2 (en) | 2016-01-25 | 2018-06-19 | Sonos, Inc. | Calibration with particular locations |
US9886234B2 (en) | 2016-01-28 | 2018-02-06 | Sonos, Inc. | Systems and methods of distributing audio to one or more playback devices |
US9860662B2 (en) | 2016-04-01 | 2018-01-02 | Sonos, Inc. | Updating playback device configuration information based on calibration data |
US9864574B2 (en) | 2016-04-01 | 2018-01-09 | Sonos, Inc. | Playback device calibration based on representation spectral characteristics |
US9763018B1 (en) | 2016-04-12 | 2017-09-12 | Sonos, Inc. | Calibration of audio playback devices |
WO2017207465A1 (en) * | 2016-06-01 | 2017-12-07 | Dolby International Ab | A method converting multichannel audio content into object-based audio content and a method for processing audio content having a spatial position |
US9860670B1 (en) | 2016-07-15 | 2018-01-02 | Sonos, Inc. | Spectral correction using spatial calibration |
US9794710B1 (en) | 2016-07-15 | 2017-10-17 | Sonos, Inc. | Spatial audio correction |
US10372406B2 (en) | 2016-07-22 | 2019-08-06 | Sonos, Inc. | Calibration interface |
US10459684B2 (en) | 2016-08-05 | 2019-10-29 | Sonos, Inc. | Calibration of a playback device based on an estimated frequency response |
CN107731238B (zh) * | 2016-08-10 | 2021-07-16 | 华为技术有限公司 | 多声道信号的编码方法和编码器 |
USD851057S1 (en) | 2016-09-30 | 2019-06-11 | Sonos, Inc. | Speaker grill with graduated hole sizing over a transition area for a media device |
US10412473B2 (en) | 2016-09-30 | 2019-09-10 | Sonos, Inc. | Speaker grill with graduated hole sizing over a transition area for a media device |
USD827671S1 (en) | 2016-09-30 | 2018-09-04 | Sonos, Inc. | Media playback device |
US10712997B2 (en) | 2016-10-17 | 2020-07-14 | Sonos, Inc. | Room association based on name |
CN115334444A (zh) | 2018-04-11 | 2022-11-11 | 杜比国际公司 | 用于音频渲染的预渲染信号的方法、设备和系统 |
KR20200141981A (ko) * | 2018-04-16 | 2020-12-21 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 방향성 사운드 소스의 인코딩 및 디코딩을 위한 방법, 장치 및 시스템 |
US11133891B2 (en) | 2018-06-29 | 2021-09-28 | Khalifa University of Science and Technology | Systems and methods for self-synchronized communications |
US10951596B2 (en) * | 2018-07-27 | 2021-03-16 | Khalifa University of Science and Technology | Method for secure device-to-device communication using multilayered cyphers |
US11206484B2 (en) | 2018-08-28 | 2021-12-21 | Sonos, Inc. | Passive speaker authentication |
US10299061B1 (en) | 2018-08-28 | 2019-05-21 | Sonos, Inc. | Playback device calibration |
JP7232546B2 (ja) * | 2019-02-19 | 2023-03-03 | 公立大学法人秋田県立大学 | 音響信号符号化方法、音響信号復号化方法、プログラム、符号化装置、音響システム、及び復号化装置 |
US11968268B2 (en) | 2019-07-30 | 2024-04-23 | Dolby Laboratories Licensing Corporation | Coordination of audio devices |
US10734965B1 (en) | 2019-08-12 | 2020-08-04 | Sonos, Inc. | Audio calibration of a portable playback device |
CN113593585A (zh) * | 2020-04-30 | 2021-11-02 | 华为技术有限公司 | 音频信号的比特分配方法和装置 |
US11521623B2 (en) | 2021-01-11 | 2022-12-06 | Bank Of America Corporation | System and method for single-speaker identification in a multi-speaker environment on a low-frequency audio recording |
CN115038027B (zh) * | 2021-03-05 | 2023-07-07 | 华为技术有限公司 | Hoa系数的获取方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1707955A (zh) * | 2004-06-04 | 2005-12-14 | 三星电子株式会社 | 编码/解码音频信号的设备和方法 |
CN101133680A (zh) * | 2005-03-04 | 2008-02-27 | 弗劳恩霍夫应用研究促进协会 | 用于产生音频片段或音频数据流的已编码立体声信号的装置及方法 |
WO2009067741A1 (en) * | 2007-11-27 | 2009-06-04 | Acouity Pty Ltd | Bandwidth compression of parametric soundfield representations for transmission and storage |
CN102547549A (zh) * | 2010-12-21 | 2012-07-04 | 汤姆森特许公司 | 编码解码2或3维声场环绕声表示的连续帧的方法和装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7110941B2 (en) * | 2002-03-28 | 2006-09-19 | Microsoft Corporation | System and method for embedded audio coding with implicit auditory masking |
JP2005352396A (ja) * | 2004-06-14 | 2005-12-22 | Matsushita Electric Ind Co Ltd | 音響信号符号化装置および音響信号復号装置 |
US8219409B2 (en) * | 2008-03-31 | 2012-07-10 | Ecole Polytechnique Federale De Lausanne | Audio wave field encoding |
EP2450880A1 (en) * | 2010-11-05 | 2012-05-09 | Thomson Licensing | Data structure for Higher Order Ambisonics audio data |
TWI505262B (zh) * | 2012-05-15 | 2015-10-21 | Dolby Int Ab | 具多重子流之多通道音頻信號的有效編碼與解碼 |
WO2014072260A2 (en) * | 2012-11-07 | 2014-05-15 | Dolby International Ab | Reduced complexity converter snr calculation |
US9913064B2 (en) * | 2013-02-07 | 2018-03-06 | Qualcomm Incorporated | Mapping virtual speakers to physical speakers |
US9959875B2 (en) * | 2013-03-01 | 2018-05-01 | Qualcomm Incorporated | Specifying spherical harmonic and/or higher order ambisonics coefficients in bitstreams |
EP2800401A1 (en) * | 2013-04-29 | 2014-11-05 | Thomson Licensing | Method and Apparatus for compressing and decompressing a Higher Order Ambisonics representation |
-
2014
- 2014-05-27 US US14/288,219 patent/US9412385B2/en active Active
- 2014-05-28 EP EP14733456.9A patent/EP3005357B1/en active Active
- 2014-05-28 CN CN201480030439.7A patent/CN105247612B/zh not_active Expired - Fee Related
- 2014-05-28 KR KR1020157036513A patent/KR20160012215A/ko not_active Application Discontinuation
- 2014-05-28 WO PCT/US2014/039860 patent/WO2014194001A1/en active Application Filing
- 2014-05-28 JP JP2016516797A patent/JP2016524726A/ja not_active Ceased
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1707955A (zh) * | 2004-06-04 | 2005-12-14 | 三星电子株式会社 | 编码/解码音频信号的设备和方法 |
CN101133680A (zh) * | 2005-03-04 | 2008-02-27 | 弗劳恩霍夫应用研究促进协会 | 用于产生音频片段或音频数据流的已编码立体声信号的装置及方法 |
WO2009067741A1 (en) * | 2007-11-27 | 2009-06-04 | Acouity Pty Ltd | Bandwidth compression of parametric soundfield representations for transmission and storage |
CN102547549A (zh) * | 2010-12-21 | 2012-07-04 | 汤姆森特许公司 | 编码解码2或3维声场环绕声表示的连续帧的方法和装置 |
Non-Patent Citations (2)
Title |
---|
"Perceptual Characteristic and Compression Research in 3D Audio Technology";HU RUIMIN等;《LECTURE NOTES IN COMPUTER SCIENCE(LNCS)》;20120619;全文 * |
"Spatial Auditory Blurring and Applications to Multichannel Audio Coding";Adrien Daniel等;《http://tel.archives-ouvertes.fr/tel-00623670/en/》;20110623;全文 * |
Also Published As
Publication number | Publication date |
---|---|
US9412385B2 (en) | 2016-08-09 |
US20140355768A1 (en) | 2014-12-04 |
KR20160012215A (ko) | 2016-02-02 |
EP3005357A1 (en) | 2016-04-13 |
WO2014194001A1 (en) | 2014-12-04 |
JP2016524726A (ja) | 2016-08-18 |
EP3005357B1 (en) | 2019-10-23 |
CN105247612A (zh) | 2016-01-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105247612B (zh) | 相对于球面谐波系数执行空间掩蔽 | |
RU2661775C2 (ru) | Передача сигнальной информации рендеринга аудио в битовом потоке | |
TWI645723B (zh) | 用於解壓縮經壓縮之音訊資料之方法及器件及其非暫時性電腦可讀儲存媒體 | |
KR101962000B1 (ko) | 고차 앰비소닉 (hoa) 백그라운드 채널들 간의 상관의 감소 | |
CN106104680B (zh) | 将音频信道插入到声场的描述中 | |
US10075802B1 (en) | Bitrate allocation for higher order ambisonic audio data | |
CN106575506A (zh) | 高阶立体混响音频数据的中间压缩 | |
US11538489B2 (en) | Correlating scene-based audio data for psychoacoustic audio coding | |
US20220262373A1 (en) | Layered coding of audio with discrete objects | |
EP3987515B1 (en) | Performing psychoacoustic audio coding based on operating conditions | |
EP3987516B1 (en) | Coding scaled spatial components | |
US9466302B2 (en) | Coding of spherical harmonic coefficients | |
US11062713B2 (en) | Spatially formatted enhanced audio data for backward compatible audio bitstreams | |
CN114008706A (zh) | 全景声音频数据的心理声学音频译码 | |
US20200402522A1 (en) | Quantizing spatial components based on bit allocations determined for psychoacoustic audio coding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20181218 Termination date: 20210528 |