CN110827839B - 用于渲染高阶立体混响系数的装置和方法 - Google Patents
用于渲染高阶立体混响系数的装置和方法 Download PDFInfo
- Publication number
- CN110827839B CN110827839B CN201910995684.6A CN201910995684A CN110827839B CN 110827839 B CN110827839 B CN 110827839B CN 201910995684 A CN201910995684 A CN 201910995684A CN 110827839 B CN110827839 B CN 110827839B
- Authority
- CN
- China
- Prior art keywords
- audio
- matrix
- information
- bitstream
- rendering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000009877 rendering Methods 0.000 title claims abstract description 236
- 238000000034 method Methods 0.000 title claims abstract description 109
- 239000011159 matrix material Substances 0.000 claims abstract description 226
- 239000013598 vector Substances 0.000 description 178
- 230000006835 compression Effects 0.000 description 49
- 238000007906 compression Methods 0.000 description 49
- 238000000605 extraction Methods 0.000 description 44
- 238000013139 quantization Methods 0.000 description 40
- 238000004422 calculation algorithm Methods 0.000 description 37
- 230000006870 function Effects 0.000 description 31
- 238000004458 analytical method Methods 0.000 description 26
- 238000000354 decomposition reaction Methods 0.000 description 26
- 238000012937 correction Methods 0.000 description 23
- 230000011664 signaling Effects 0.000 description 20
- 238000010586 diagram Methods 0.000 description 19
- 238000003860 storage Methods 0.000 description 18
- 230000009467 reduction Effects 0.000 description 15
- 230000015572 biosynthetic process Effects 0.000 description 13
- 238000003786 synthesis reaction Methods 0.000 description 13
- 230000007704 transition Effects 0.000 description 13
- 230000005540 biological transmission Effects 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 9
- 230000008859 change Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000009472 formulation Methods 0.000 description 7
- 239000000203 mixture Substances 0.000 description 7
- 238000005457 optimization Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000002360 preparation method Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000001788 irregular Effects 0.000 description 5
- 238000013500 data storage Methods 0.000 description 4
- 238000010612 desalination reaction Methods 0.000 description 4
- 230000007613 environmental effect Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000002441 reversible effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000003032 molecular docking Methods 0.000 description 3
- 238000004091 panning Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000007667 floating Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 239000011800 void material Substances 0.000 description 2
- 241001522296 Erithacus rubecula Species 0.000 description 1
- 238000012356 Product development Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 235000009508 confectionery Nutrition 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/03—Application of parametric coding in stereophonic audio systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本申请涉及用于渲染高阶立体混响系数的装置和方法。大体来说,本发明描述用于获得位流中的音频渲染信息的技术。一种经配置以渲染高阶立体混响系数的装置可执行所述技术,所述装置包括处理器及存储器。所述处理器可经配置以获得指示矩阵的稀疏性的稀疏性信息,所述矩阵用于将所述高阶立体混响系数渲染到多个扬声器馈送。所述存储器可经配置以存储所述稀疏性信息。
Description
分案申请的相关信息
本案是分案申请。该分案的母案是申请日为2015年5月29日、申请号为201580028070.0、发明名称为“用于渲染高阶立体混响系数的装置和方法”的发明专利申请案。
本申请案主张2014年7月11日申请的标题为“位流中的音频渲染信息传信(SIGNALING AUDIO RENDERING INFORMATION IN A BITSTREAM)”的美国临时申请案第62/023,662号,及2014年5月30日申请的标题为“位流中的音频渲染信息传信”的美国临时申请案第62/005,829号的权益,前述美国临时申请案中的每一者的全部内容据此以引用的方式并入本文中,如同其相应全文阐述于本文中一般。
技术领域
本发明涉及渲染信息,且更具体来说,涉及用于高阶立体混响(HOA)音频数据的渲染信息。
背景技术
在音频内容的产生期间,声音工程师可使用特定渲染器渲染音频内容以试图针对用于再现音频内容的扬声器的目标配置而定制所述音频内容。换句话说,声音工程师可渲染所述音频内容并使用布置在目标配置中的扬声器重放经渲染音频内容。声音工程师可接着再混合音频内容的各种方面,渲染经再混合音频内容,并使用布置在目标配置中的扬声器再次重放经渲染经再混合的音频内容。声音工程师可以此方式重复直至音频内容提供特定艺术意图为止。以此方式,声音工程师可产生提供特定艺术意图或以其它方式提供重放期间的特定声场的音频内容(例如,以伴随连同音频内容一起播放的视频内容)。
发明内容
大体来说,描述用于指定表示音频数据的位流中的音频渲染信息的技术。换句话说,所述技术可提供一种用以向重放装置传信音频内容产生期间使用的音频渲染信息的方式,所述重放装置可接着使用音频渲染信息来渲染音频内容。以此方式提供渲染信息使得重放装置能够以声音工程师所意图的方式渲染音频内容,且借此潜在地确保适当重放音频内容以使得艺术意图潜在地为收听者所理解。换句话说,根据本发明中描述的技术提供渲染期间由声音工程师使用的渲染信息,使得音频重放装置可利用所述渲染信息以声音工程师所意图的方式渲染音频内容,借此确保与并不提供此音频渲染信息的系统相比在音频内容的产生及重放两者期间的较一致体验。
在一个方面中,一种经配置以渲染高阶立体混响系数的装置包括:经配置以获得指示矩阵的稀疏性的稀疏性信息的一或多个处理器,所述矩阵用于将所述高阶立体混响系数渲染到多个扬声器馈送;及经配置以存储所述稀疏性信息的存储器。
在另一方面中,一种渲染高阶立体混响系数的方法包括:获得指示矩阵的稀疏性的稀疏性信息,所述矩阵用于渲染所述高阶立体混响系数以产生多个扬声器馈送。
在另一方面中,一种经配置以产生位流的装置包括:经配置以存储矩阵的存储器;及经配置以获得指示所述矩阵的稀疏性的稀疏性信息的一或多个处理器,所述矩阵用于渲染高阶立体混响系数以产生多个扬声器馈送。
在另一方面中,一种产生位流的方法包括:获得指示矩阵的稀疏性的稀疏性信息,所述矩阵用于渲染高阶立体混响系数以产生多个扬声器馈送。
在另一方面中,一种经配置以渲染高阶立体混响系数的装置包括:经配置以获得指示矩阵的正负号对称性的正负号对称性信息的一或多个处理器,所述矩阵用于渲染所述高阶立体混响系数以产生多个扬声器馈送;及经配置以存储所述稀疏性信息的存储器。
在另一方面中,一种渲染高阶立体混响系数的方法包括:获得指示矩阵的正负号对称性的正负号对称性信息,所述矩阵用于渲染所述高阶立体混响系数以产生多个扬声器馈送。
在另一方面中,一种经配置以产生位流的装置包括:经配置以存储矩阵的存储器,所述矩阵用于渲染高阶立体混响系数以产生多个扬声器馈送;及经配置以获得指示所述矩阵的正负号对称性的正负号对称性信息的一或多个处理器。
在另一方面中,一种产生位流的方法包括:获得指示矩阵的稀疏性的稀疏性信息,所述矩阵用于渲染高阶立体混响系数以产生多个扬声器馈送。
在附图及以下描述中阐述所述技术的一或多个方面的细节。所述技术的其它特征、目标及优势将从描述及图式及权利要求书显而易见。
附图说明
图1为说明具有各种阶数及子阶数的球面谐波基底函数的图。
图2为说明可执行本发明中描述的技术的各种方面的系统的图。
图3为较详细说明可执行本发明中描述的技术的各种方面的图2的实例中所展示的音频编码装置的一个实例的框图。
图4为较详细说明图2的音频解码装置的框图。
图5为说明音频编码装置执行本发明中描述的基于向量的合成技术的各种方面的示范性操作的流程图。
图6为说明音频解码装置执行本发明中描述的技术的各种方面的示范性操作的流程图。
图7为说明例如图2的实例中所展示的系统中的一者的系统执行本发明中描述的技术的各种方面的实例操作的流程图。
图8A到8D为说明根据本发明中描述的技术形成的位流的图。
图8E到8G为较详细说明可指定经压缩空间分量的位流或旁侧信道信息的部分的图。
图9为说明高阶立体混响(HOA)渲染矩阵内的HOA阶数相依性最小及最大增益的实例的图。
图10为说明用于22个扩音器的部分稀疏6阶HOA渲染矩阵的图。
图11为说明具有对称性性质的传信的流程图。
具体实施方式
环绕声的演进现今已使得许多输出格式可用于娱乐。此类消费型环绕声格式的实例大部分为“信道”式的,这是因为其以某些几何坐标隐含地指定到扩音器的馈送。消费型环绕声格式包含普遍的5.1格式(其包含以下六个信道:左前(FL)、右前(FR)、中心或前中心、左后或左环绕、右后或右环绕,及低频效应(LFE))、发展中的7.1格式、包含高度扬声器的各种格式,例如7.1.4格式及22.2格式(例如,用于与超高清电视标准一起使用)。非消费型格式可涵括任何数目个扬声器(成对称及非对称几何布置),其常常称为“环绕阵列”。此阵列的一个实例包含定位在截角二十面体的拐角上的坐标处的32个扩音器。
到未来MPEG编码器的输入任选地为三种可能格式中的一者:(i)传统的基于信道的音频(如上文所论述),其意图通过处于预先指定位置处的扩音器播放;(ii)基于对象的音频,其涉及用于单个音频对象的具有含有其位置坐标(以及其它信息)的相关联元数据的离散脉码调制(PCM)数据;及(iii)基于场景的音频,其涉及使用球面谐波基底函数的系数(也称为“球面谐波系数”或SHC、“高阶立体混响”或HOA及“HOA系数”)来表示声场。所述未来MPEG编码器可较详细地描述于国际标准化组织/国际电工委员会(ISO)/(IEC)JTC1/SC29/WG11/N13411的标题为“要求对于3D音频的提议(Call for Proposals for 3D Audio)”的文献中,所述文献于2013年1月在瑞士日内瓦发布,且可在http://mpeg.chiariglione.org/sites/default/files/files/standards/parts/docs/w13411.zip获得。
在市场中存在各种‘环绕声’基于信道的格式。它们的范围(例如)是从5.1家庭影院系统(其在使起居室享有立体声方面已获得最大成功)到NHK(日本广播协会或日本广播公司)所开发的22.2系统。内容创建者(例如,好莱坞工作室)将希望一次产生电影的声迹,而不花费精力来针对每一扬声器配置对其进行再混合。近来,标准开发组织(StandardsDeveloping Organizations)一直在考虑如下方式:提供到标准化位流中的编码,及后续解码,其可调适且不知晓重放位置(涉及渲染器)处的扬声器几何布置(及数目)及声学条件。
为向内容创建者提供此灵活性,可使用阶层式元素集合来表示声场。所述阶层式元素集合可指其中元素经排序以使得较低阶元素的基础集合提供模型化声场的完整表示的元素集合。在所述集合扩展以包含高阶元素时,所述表示变得较详细,从而增加分辨率。
阶层式元素集合的一个实例为球面谐波系数(SHC)的集合。以下表达式示范使用SHC对声场的描述或表示:
表达式展示在时间t处在声场的任一点处的压力pi可由/>唯一地表示。此处,/>c为声音的速度(~343m/s),/>为参考点(或观测点),jn(·)为阶n的球面贝塞尔函数,且/>为阶n及子阶m的球面谐波基底函数。可认识到,方括号中的术语为信号(即,/>)的频域表示,其可由各种时频变换近似表示,例如离散傅里叶变换(DFT)、离散余弦变换(DCT)或小波变换。阶层式集合的其它实例包含小波变换系数的集合及多分辨率基底函数的系数的其它集合。
图1为说明从零阶(n=0)到四阶(n=4)的球面谐波基底函数的图。如可看出,对于每一阶,存在子阶m的扩展,出于易于说明的目的,在图1的实例中展示所述子阶但未明确提到。
可通过各种麦克风阵列配置物理地获取(例如,记录)SHC或替代地,其可从声场的基于信道或基于对象的描述导出。SHC表示基于场景的音频,其中SHC可输入到音频编码器以获得经编码SHC,所述经编码SHC可促进较有效的发射或存储。举例来说,可使用涉及(1+4)2个(25,且因此为四阶)系数的四阶表示。
如上文所提到,可使用麦克风阵列从麦克风记录导出SHC。可如何从麦克风阵列导出SHC的各种实例描述于波莱蒂·M(Poletti,M.)的“基于球面谐波的三维环绕声系统(Three-Dimensional Surround Sound Systems Based on Spherical Harmonics)”(听觉工程学协会会刊(J.Audio Eng.Soc.),第53卷,第11期,2005年11月,第1004到1025页)中。
为说明可如何从基于对象的描述导出SHC,考虑以下等式。可将对应于个别音频对象的声场的系数表达为:
其中i是为阶n的球面汉克尔函数(第二种类),且/>为对象的位置。已知随频率变化的对象源能量g(ω)(例如,使用时频分析技术,例如,对PCM流执行快速傅立叶变换)允许将每一PCM对象及对应位置转换成SHC,/>另外,可展示(由于上式为线性及正交分解)每一对象的/>系数具相加性。以此方式,众多PCM对象可由/>系数(例如,作为个别对象的系数向量的总和)来表示。基本上,所述系数含有关于声场的信息(随3D坐标而变的压力),且上述情形表示在观测点/>附近从个别对象到整个声场的表示的变换。下文在基于对象及基于SHC的音频译码的上下文中描述其余各图。
图2为说明可执行本发明中描述的技术的各种方面的系统10的图。如图2的实例中所展示,系统10包含内容创建者装置12及内容消费者装置14。虽然在内容创建者装置12及内容消费者装置14的上下文中描述,但可在声场的SHC(其也可称为HOA系数)或任何其它阶层式表示经编码以形成表示音频数据的位流的任何上下文中实施所述技术。此外,内容创建者装置12可表示能够实施本发明中描述的技术的任何形式的计算装置,包含手持机(或蜂窝式电话)、平板计算机、智能电话或台式计算机(提供几个实例)。同样地,内容消费者装置14可表示能够实施本发明中描述的技术的任何形式的计算装置,包含手持机(或蜂窝式电话)、平板计算机、智能电话、机顶盒,或台式计算机(提供几个实例)。
内容创建者装置12可由电影工作室或可产生多信道音频内容以供内容消费者装置(例如,内容消费者装置14)的操作员消耗的其它实体来操作。在一些实例中,内容创建者装置12可由将希望压缩HOA系数11的个别用户操作。内容创建者常常结合视频内容产生音频内容。内容消费者装置14可由个人操作。内容消费者装置14可包含音频重放系统16,其可指能够渲染SHC以用于作为多信道音频内容重放的任何形式的音频重放系统。
内容创建者装置12包含音频编辑系统18。内容创建者装置12获得各种格式(包含直接作为HOA系数)的实况记录7及音频对象9,内容创建者装置12可使用音频编辑系统18对其进行编辑。麦克风5可俘获实况记录7。内容创建者可在编辑过程期间渲染来自音频对象9的HOA系数11,从而收听经渲染的扬声器馈送以试图识别要求进一步编辑的声场的各种方面。内容创建者装置12可接着编辑HOA系数11(可能通过操纵可以上文所描述的方式从中导出源HOA系数的音频对象9中的不同者而间接地编辑)。内容创建者装置12可利用音频编辑系统18来产生HOA系数11。音频编辑系统18表示能够编辑音频数据,并将所述音频数据输出为一或多个源球面谐波系数的任何系统。
当编辑过程完成时,内容创建者装置12可基于HOA系数11产生位流21。也就是说,内容创建者装置12包含音频编码装置20,所述音频编码装置表示经配置以根据本发明中描述的技术的各种方面编码或以其它方式压缩HOA系数11以产生位流21的装置。音频编码装置20可产生位流21以用于跨越发射信道(其可为有线或无线信道、数据存储装置或其类似者)发射(作为一个实例)。位流21可表示HOA系数11的经编码版本,且可包含主要位流及另一旁侧位流(其可称为旁侧信道信息)。
虽然在图2中展示为直接发射到内容消费者装置14,但内容创建者装置12可将位流21输出到定位于内容创建者装置12与内容消费者装置14之间的中间装置。中间装置可存储位流21以用于稍后递送到可请求所述位流的内容消费者装置14。中间装置可包括文件服务器、网络服务器、台式计算机、膝上型计算机、平板计算机、移动电话、智能电话,或能够存储位流21以用于稍后由音频解码器检索的任何其它装置。中间装置可驻留在能够将位流21(且可能结合发射对应视频数据位流)串流到请求位流21的订户(例如,内容消费者装置14)的内容递送网络中。
替代性地,内容创建者装置12可将位流21存储到存储媒体,例如压缩光盘、数字视频光盘、高清视频光盘或其它存储媒体,其中大多数能够由计算机读取且因此可称为计算机可读存储媒体或非暂时性计算机可读存储媒体。在此上下文中,发射信道可指借以发射存储到媒体的内容的信道(且可包含零售商店及其它基于商店的递送机制)。在任何情况下,本发明的技术因此就此来说不应限于图2的实例。
如图2的实例中进一步展示,内容消费者装置14包含音频重放系统16。音频重放系统16可表示能够重放多信道音频数据的任何音频重放系统。音频重放系统16可包含数个不同渲染器22。渲染器22可各自提供用于不同形式的渲染,其中不同形式的渲染可包含执行向量基振幅平移(VBAP)的各种方式中的一或多者及/或执行声场合成的各种方式中的一或多者。如本文所使用,“A及/或B”意味着“A或B”,或“A及B”两者。
音频重放系统16可进一步包含音频解码装置24。音频解码装置24可表示经配置以解码来自位流21的HOA系数11'的装置,其中HOA系数11'可类似于HOA系数11,但归因于有损操作(例如,量化)及/或经由发射信道的发射而不同。音频重放系统16可在解码位流21之后获得HOA系数11'并渲染HOA系数11'以输出扩音器馈送25。扩音器馈送25可驱动一或多个扩音器(其为便于说明的目的在图2的实例中未展示)。
为了选择适当渲染器或在一些情况下产生适当渲染器,音频重放系统16可获得指示扩音器的数目及/或扩音器的空间几何布置的扩音器信息13。在一些情况下,音频重放系统16可使用参考麦克风获得扩音器信息13且以动态地确定扩音器信息13的方式驱动扩音器。在其它情况下或结合扩音器信息13的动态确定,音频重放系统16可提示用户与音频重放系统16介接并输入扩音器信息13。
音频重放系统16可接着基于扩音器信息13选择音频渲染器22中的一者。在一些情况下,在音频渲染器22中无一者处于到扩音器信息13中所指定的扩音器几何布置的某一阈值相似性量度(就扩音器几何布置来说)内时,音频重放系统16可基于扩音器信息13产生音频渲染器22中的一者。音频重放系统16可在一些情况下基于扩音器信息13产生音频渲染器22中的一者,而无需首先试图选择音频渲染器22中的现有一者。一或多个扬声器3接着可重放经渲染扩音器馈送25。
在一些情况下,音频重放系统16可选择音频渲染器22中的任何一者,且可经配置以取决于从中接收位流21的源(例如DVD播放器、蓝光播放器、智能电话、平板计算机、游戏系统及电视(提供几个实例))选择音频渲染器22中的一或多者。虽然可选择音频渲染器22中的任一者,但归因于由内容创建者12使用音频渲染器中的此一者(即,在图3的实例中为音频渲染器5)创建内容的事实,当创建内容时使用音频渲染器常常提供较好(且可能最佳)的渲染形式。选择相同或至少接近(就渲染形式来说)的音频渲染器22中的一者可提供声场的较好表示,且可为内容消费者14带来较好的环绕声体验。
根据本发明中描述的技术,音频编码装置20可产生用以包含音频渲染信息2(“渲染信息2”)的位流21。音频渲染信息2可包含识别当产生多信道音频内容时使用的音频渲染器(即,在图3的实例中为音频渲染器1)的信号值。在一些情况下,信号值包含用于将球面谐波系数渲染到多个扬声器馈送的矩阵。
在一些情况下,信号值包含定义一索引的两个或多于两个位,所述索引指示位流包含用于将球面谐波系数渲染到多个扬声器馈送的矩阵。在一些情况下,当使用索引时,信号值进一步包含定义包含于位流中的矩阵的行的数目的两个或多于两个位,及定义包含于位流中的矩阵的列的数目的两个或多于两个位。使用此信息且在二维矩阵的每一系数通常由32位浮点数定义的条件下,矩阵就位来说的大小可计算为行的数目、列的数目及定义矩阵的每一系数的浮点数的大小(即,在此实例中为32位)的函数。
在一些情况下,信号值指定用于将球面谐波系数渲染到多个扬声器馈送的渲染算法。渲染算法可包含音频编码装置20及解码装置24两者都已知的矩阵。也就是说,渲染算法可包含矩阵的应用以及其它渲染步骤,例如平移(例如,VBAP、DBAP或简单平移)或NFC滤波。在一些情况下,信号值包含定义一索引的两个或多于两个位,所述索引与用于将球面谐波系数渲染到多个扬声器馈送的多个矩阵中的一者相关联。再次,音频编码装置20及解码装置24两者可经配置有指示多个矩阵及多个矩阵的阶数的信息,使得索引可唯一地识别多个矩阵中的特定一者。替代性地,音频编码装置20可在位流21中指定定义多个矩阵及/或多个矩阵的阶数的数据,使得索引可唯一地识别多个矩阵中的特定一者。
在一些情况下,信号值包含定义一索引的两个或多于两个位,所述索引与用于将球面谐波系数渲染到多个扬声器馈送的多个渲染算法中的一者相关联。再次,音频编码装置20及解码装置24两者可经配置有指示多个渲染算法及多个渲染算法的阶数的信息,使得索引可唯一地识别多个矩阵中的特定一者。替代性地,音频编码装置20可在位流21中指定定义多个矩阵及/或多个矩阵的阶数的数据,使得索引可唯一地识别多个矩阵中的特定一者。
在一些情况下,音频编码装置20在位流中基于每音频帧指定音频渲染信息2。在其它情况下,音频编码装置20在位流中单次指定音频渲染信息2。
解码装置24接着可确定位流中指定的音频渲染信息2。基于包含于音频渲染信息2中的信号值,音频重放系统16可基于音频渲染信息2渲染多个扬声器馈送25。如上文所提到,信号值可在一些情况下包含用于将球面谐波系数渲染到多个扬声器馈送的矩阵。在此情况下,音频重放系统16可用所述矩阵配置音频渲染器22中的一者,从而使用音频渲染器22中的此一者基于矩阵渲染扬声器馈送25。
在一些情况下,信号值包含定义一索引的两个或多于两个位,所述索引指示位流包含用于将HOA系数11'渲染到扬声器馈送25的矩阵。解码装置24可响应于索引从位流解析矩阵,于是音频重放系统16可用经解析矩阵配置音频渲染器22中的一者,并调用渲染器22中的此一者来渲染扬声器馈送25。当信号值包含定义包含于位流中的矩阵的行的数目的两个或多于两个位及定义包含于位流中的矩阵的列的数目的两个或多于两个位时,解码装置24可响应于索引且基于定义行的数目的两个或多于两个位及定义列的数目的两个或多于两个位,以上文所描述的方式解析来自位流的矩阵。
在一些情况下,信号值指定用于将HOA系数11'渲染到扬声器馈送25的渲染算法。在这些情况下,音频渲染器22中的一些或全部可执行这些渲染算法。音频重放装置16接着可利用指定渲染算法(例如,音频渲染器22中的一者)以从HOA系数11'渲染扬声器馈送25。
当信号值包含定义一索引的两个或多于两个位时,音频渲染器22中的一些或全部可表示此多个矩阵,所述索引与用于将HOA系数11'渲染到扬声器馈送25的多个矩阵中的一者相关联。因此,音频重放系统16可使用与索引相关联的音频渲染器22中的一者从HOA系数11'渲染扬声器馈送25。
当信号值包含定义一索引的两个或多于两个位时,音频渲染器34中的一些或全部可表示这些渲染算法,所述索引与用于将HOA系数11'渲染到扬声器馈送25的多个渲染算法中的一者相关联。因此,音频重放系统16可使用与索引相关联的音频渲染器22中的一者从球面谐波系数11'渲染扬声器馈送25。
取决于借以在位流中指定此音频渲染信息的频率,解码装置24可基于每音频帧或单次确定音频渲染信息2。
通过以此方式指定音频渲染信息3,所述技术可潜在地产生多信道音频内容的较好再现且根据内容创建者12意图再现多信道音频内容的方式。因此,所述技术可提供较沉浸式环绕声或多信道音频体验。
换句话说且如上文所提到,高阶立体混响(HOA)可表示借以基于空间傅里叶变换描述声场的方向信息的方式。通常,立体混响阶数N越高,空间分辨率就越高,球面谐波(SH)系数的数目(N+1)^2越大,且用于发射及存储数据所要求的带宽就越大。
此描述的一潜在优势为可能在几乎任何扩音器设置(例如,5.1、7.1 22.2等)上再现此声场。从声场描述到M个扩音器信号的转换可经由具有(N+1)2个输入及M个输出的静态渲染矩阵来进行。因此,每一扩音器设置可要求专用渲染矩阵。可存在用于计算针对所要扩音器设置的渲染矩阵的若干算法,所述所要扩音器设置可针对例如Gerzon准则的特定客观或主观量度而优化。对于不规律扩音器设置,算法可归因于例如凸面优化的迭代数值优化程序而变复杂。为在无等待时间的情况下计算针对不规律扩音器布局的渲染矩阵,具有足够的计算资源可用可能是有益的。不规律扩音器设置可归因于架构约束及美学偏好在国内客厅环境中是常见的。因此,对于最佳声场再现,针对此类情形优化的渲染矩阵可能是优选的,因为其可实现更准确地再现声场。
因为音频解码器通常并不要求许多计算资源,所以所述装置可能不能够以消费者友好时间计算不规律渲染矩阵。本发明中描述的技术的各种方面可提供基于云的计算方法的使用,如下:
1.音频解码器可经由因特网连接将扩音器坐标(且在一些情况下,还有利用校准麦克风获得的SPL测量值)发送到服务器;
2.基于云的服务器可计算渲染矩阵(及可能若干不同版本,使得消费者可稍后从这些不同版本选择);及
3.服务器可接着将渲染矩阵(或不同版本)经由因特网连接发送回到音频解码器。
此方法可允许制造商保持音频解码器的制造成本较低(因为可不需要强大的处理器来计算这些不规律渲染矩阵),同时还促进与通常经设计用于常规扬声器配置或几何布置的渲染矩阵相比更好的音频再现。用于计算渲染矩阵的算法还可在音频解码器已运送之后经优化,从而潜在地减少用于硬件修改或甚至召回的成本。在一些情况下,所述技术还可收集关于可有益于未来产品发展的消费品的不同扩音器设置的许多信息。
在一些情况下,图3中所展示的系统可并不如上文所描述地在位流21中传信音频渲染信息2,而是替代地将此音频渲染信息2传信为分离于位流21的元数据。替代性地或结合上文所描述内容,图3中所展示的系统可如上文所描述地在位流21中传信音频渲染信息2的一部分,并将此音频渲染信息3的一部分传信为分离于位流21的元数据。在一些实例中,音频编码装置20可输出此元数据,其接着可上传到服务器或其它装置。音频解码装置24接着可下载或以其它方式检索此元数据,其接着用于增强由音频解码装置24从位流21中提取的音频渲染信息。下文关于图8A到8D的实例描述根据所述技术的渲染信息方面形成的位流21。
图3为较详细说明可执行本发明中描述的技术的各种方面的图2的实例中所展示的音频编码装置20的一个实例的框图。音频编码装置20包含内容分析单元26、基于向量的分解单元27及基于方向的分解单元28。尽管下文简单描述,但关于音频编码装置20及压缩或以其它方式编码HOA系数的各种方面的较多信息可在2014年5月29日申请的标题为“用于声场的经分解表示的内插(INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF ASOUND FIELD)”的第WO 2014/194099号国际专利申请公开案中获得。
内容分析单元26表示经配置以分析HOA系数11的内容以识别HOA系数11表示从实况记录产生的内容还是从音频对象产生的内容的单元。内容分析单元26可确定HOA系数11是从实际声场的记录产生还是从人工音频对象产生。在一些情况下,当帧式HOA系数11是从记录产生时,内容分析单元26将HOA系数11传递到基于向量的分解单元27。在一些情况下,当帧式HOA系数11是从合成音频对象产生时,内容分析单元26将HOA系数11传递到基于方向的合成单元28。基于方向的合成单元28可表示经配置以执行HOA系数11的基于方向的合成以产生基于方向的位流21的单元。
如在图3的实例中所展示,基于向量的分解单元27可包含线性可逆变换(LIT)单元30、参数计算单元32、重排序单元34、前景选择单元36、能量补偿单元38、音质音频译码器单元40、位流产生单元42、声场分析单元44、系数减少单元46、背景(BG)选择单元48、时空内插单元50及量化单元52。
线性可逆变换(LIT)单元30接收呈HOA信道形式的HOA系数11,每一信道表示与球面基底函数的给定阶数、子阶数相关联的系数的块或帧(其可表示为HOA[k],其中k可表示样本的当前帧或块)。HOA系数11的矩阵可具有维度D:M×(N+1)2。
LIT单元30可表示经配置以执行被称作奇异值分解的分析形式的单元。虽然相对于SVD加以描述,但可相对于提供线性不相关的能量密集输出集合的任何类似变换或分解执行本发明中描述的技术。而且,本发明中对“集合”的参考一般意图指非零集合(除非特定地相反陈述),且并不意图指包含所谓的“空集合”的集合的经典数学定义。替代变换可包括常常被称作“PCA”的主分量分析。取决于上下文,PCA可由数个不同名称指代,例如离散卡亨南-洛维变换、霍特林变换、适当正交分解(POD)及本征值分解(EVD),仅举几例。有利于压缩音频数据的基本目标的此类操作的性质为多信道音频数据的“能量压缩”及“去相关”。
在任何情况下,出于实例的目的,假定LIT单元30执行奇异值分解(其又可被称作“SVD”),LIT单元30可将HOA系数11变换成两个或多于两个经变换HOA系数的集合。经变换HOA系数的“集合”可包含经变换HOA系数的向量。在图3的实例中,LIT单元30可相对于HOA系数11执行SVD以产生所谓的V矩阵、S矩阵及U矩阵。在线性代数中,SVD可按如下形式表示y乘z实数或复数矩阵X(其中X可表示多信道音频数据,例如HOA系数11)的因子分解:
X=USV*
U可表示y乘y实数或复数单式矩阵,其中U的y列被称为多信道音频数据的左奇异向量。S可表示在对角线上具有非负实数的y乘z矩形对角线矩阵,其中S的对角线值被称为多信道音频数据的奇异值。V*(其可表示V的共轭转置)可表示z乘z实数或复数单式矩阵,其中V*的z列被称为多信道音频数据的右奇异向量。
在一些实例中,上文参考的SVD数学表达式中的V*矩阵表示为V矩阵的共轭转置以反映SVD可应用于包括复数的矩阵。当应用于仅包括实数的矩阵时,V矩阵的复数共轭(或换句话说,V*矩阵)可被视为V矩阵的转置。下文中为容易说明的目的,假定HOA系数11包括实数,结果是通过SVD而非V*矩阵输出V矩阵。此外,虽然在本发明中表示为V矩阵,但对V矩阵的参考应理解为在适当情况下涉及V矩阵的转置。虽然假定为V矩阵,但所述技术可以类似方式应用于具有复数系数的HOA系数11,其中SVD的输出为V*矩阵。因此,就此来说,所述技术不应限于仅提供应用SVD以产生V矩阵,而是可包含将SVD应用于具有复数分量的HOA系数11以产生V*矩阵。
以此方式,LIT单元30可相对于HOA系数11执行SVD以输出具有维度D:M x(N+1)2的US[k]向量33(其可表示S向量及U向量的组合版本)及具有维度D:(N+1)2×(N+1)2的V[k]向量35。US[k]矩阵中的个别向量元素也可被称为XPS(k),而V[k]矩阵中的个别向量也可被称为v(k)。
U、S及V矩阵的分析可显示,所述矩阵携载或表示上文由X表示的基本声场的空间及时间特性。U(长度为M个样本)中的N个向量中的每一者可表示随时间而变(对于由M个样本表示的时间周期)的经正规化分离音频信号,其彼此正交且已与任何空间特性(其也可被称作方向信息)解耦。表示空间形状及位置的空间特征可替代地由V矩阵中的个别第i向量v(i)(k)(每一者具有长度(N+1)2)表示。v(i)(k)向量中的每一者的个别元素可表示HOA系数,其描述相关联音频对象的声场的形状(包含宽度)及位置。U矩阵及V矩阵两者中的向量均经正规化以使得其均方根能量等于单位。U中的音频信号的能量因此由S中的对角线元素表示。将U与S相乘以形成US[k](具有个别向量元素XPS(k)),因而表示具有能量的音频信号。SVD分解使音频时间信号(U中)、其能量(S中)与其空间特性(V中)解耦的能力可支持本发明中描述的技术的各种方面。另外,通过US[k]与V[k]的向量乘法合成基本HOA[k]系数X的模型给出贯穿此文献使用的术语“基于向量的分解”。
尽管描述为直接相对于HOA系数11执行,但LIT单元30可将线性可逆变换应用到HOA系数11的导出项。举例来说,LIT单元30可相对于从HOA系数11导出的功率谱密度矩阵应用SVD。通过相对于HOA系数的功率谱密度(PSD)而非系数本身执行SVD,LIT单元30可在处理器循环及存储空间中的一或多者方面潜在地减少执行SVD的计算复杂性,同时实现相同的源音频编码效率,如同SVD是直接应用于HOA系数一般。
参数计算单元32表示经配置以计算各种参数的单元,所述参数例如相关性参数(R)、方向性质参数及能量性质(e)。用于当前帧的参数中的每一者可表示为R[k]、θ[k]、/>r[k]及e[k]。参数计算单元32可相对于US[k]向量33执行能量分析及/或相关(或所谓的交叉相关)以识别参数。参数计算单元32还可确定先前帧的参数,其中先前帧参数可基于具有US[k-1]向量及V[k-1]向量的先前帧表示为R[k-1]、θ[k-1]、/>r[k-1]及e[k-1]。参数计算单元32可将当前参数37及先前参数39输出到重排序单元34。
由参数计算单元32计算的参数可由重排序单元34用以将音频对象重排序以表示其自然评估或随时间推移的连续性。重排序单元34可将来自转向方向的第一US[k]向量33的参数37中的每一者与第二US[k-1]向量33的参数39中的每一者相比较。重排序单元34可基于当前参数37及先前参数39对US[k]矩阵33及V[k]矩阵35内的各种向量重排序(作为一个实例,使用匈牙利算法)以输出经重排序的US[k]矩阵33'(其可在数学上表示为及经重排序的V[k]矩阵35'(其可在数学上表示为/>到前景声音(或主要声音-PS)选择单元36(“前景选择单元36”)及能量补偿单元38。
声场分析单元44可表示经配置以相对于HOA系数11执行声场分析以便潜在地实现目标位速率41的单元。声场分析单元44可基于所述分析及/或基于所接收目标位速率41,确定音质译码器例子的总数目(其可为环境或背景信道的总数目(BGTOT)的函数)及前景信道(或换句话说,主要信道)的数目。音质译码器例子的总数目可表示为numHOATransportChannels。
再次为了潜在地实现目标位速率41,声场分析单元44还可确定前景信道的总数目(nFG)45、背景(或换句话说,环境)声场的最小阶数(NBG或替代性地,MinAmbHOAorder)、表示背景声场的最小阶数的实际信道的对应数目(nBGa=(MinAmbHOAorder+1)2),及要发送的额外BG HOA信道的索引(i)(其在图3的实例中可共同地表示为背景信道信息43)。背景信道信息42也可被称作环境信道信息43。保持来自numHOATransportChannels-nBGa的信道中的每一者可为“额外背景/环境信道”、“作用中基于向量的主要信道”、“作用中基于方向的主要信号”或“完全非作用中”。在一个方面中,可由两个位将信道类型指示为(如“ChannelType”)语法元素(例如,00:基于方向的信号;01:基于向量的主要信号;10:额外环境信号;11:非作用中信号)。可由(MinAmbHOAorder+1)2+出现为用于所述帧的位流中的信道类型的索引10(在上文实例中)的次数给出背景或环境信号的总数目nBGa。
声场分析单元44可基于目标位速率41选择背景(或换句话说,环境)信道的数目及前景(或换句话说,主要)信道的数目,从而在目标位速率41相对较高时(例如,在目标位速率41等于或大于512Kbps时)选择较多背景及/或前景信道。在一个方面中,在位流的标头部分中,numHOATransportChannels可设定为8,而MinAmbHOAorder可设定为1。在此情形下,在每一帧处,四个信道可专用于表示声场的背景或环境部分,而其它4个信道可逐帧地在信道类型上变化--例如,用作额外背景/环境信道或前景/主要信道。前景/主要信号可为基于向量或基于方向的信号中的一者,如上文所描述。
在一些情况下,用于帧的基于向量的主要信号的总数目可由ChannelType索引在所述帧的位流中为01的次数给出。在上文方面中,对于每一额外背景/环境信道(例如,对应于ChannelType 10),可在所述信道中表示可能HOA系数中的一者的对应信息(超出前四)。对于四阶HOA内容,所述信息可为指示HOA系数5到25的索引。可在minAmbHOAorder设定为1时始终发送前四个环境HOA系数1到4,因此,音频编码装置可能仅需要指示额外环境HOA系数中具有索引5到25中的一者。因此可使用5位语法元素(对于四阶内容)发送所述信息,其可表示为“CodedAmbCoeffIdx”。在任何情况下,声场分析单元44将背景信道信息43及HOA系数11输出到背景(BG)选择单元36,将背景信道信息43输出到系数减少单元46及位流产生单元42,且将nFG 45输出到前景选择单元36。
背景选择单元48可表示经配置以基于背景信道信息(例如,背景声场(NBG)及待发送的额外BG HOA信道的数目(nBGa)及索引(i))确定背景或环境HOA系数47的单元。举例来说,当NBG等于一时,背景选择单元48可选择具有等于或小于一的阶数的音频帧的每一样本的HOA系数11。在此实例中,背景选择单元48可接着选择具有由索引(i)中的一者识别的索引的HOA系数11作为额外BG HOA系数,其中将待于位流21中指定的nBGa提供到位流产生单元42以便使得音频解码装置(例如,图2及4的实例中所展示的音频解码装置24)能够从位流21解析背景HOA系数47。背景选择单元48接着可将环境HOA系数47输出到能量补偿单元38。环境HOA系数47可具有维度D:M×[(NBG+1)2+nBGa]。环境HOA系数47也可被称作“环境HOA系数47”,其中环境HOA系数47中的每一者对应于待由音质音频译码器单元40编码的单独环境HOA信道47。
前景选择单元36可表示经配置以基于nFG 45(其可表示识别前景向量的一或多个索引)选择表示声场的前景或不同分量的经重排序US[k]矩阵33'及经重排序V[k]矩阵35'的单元。前景选择单元36可将nFG信号49(其可表示为经重排序US[k]1,…,nFG 49、FG1,…,nfG[k]49,或输出到音质音频译码器单元40,其中nFG信号49可具有维度D:M×nFG,且每一者表示单声道音频对象。前景选择单元36还可将对应于声场的前景分量的经重排序V[k]矩阵35'(或(1..nFG)(k)35')输出到时空内插单元50,其中经重排序V[k]矩阵35'中对应于前景分量的子集可表示为具有维度D:(N+1)2×nFG)的前景V[k]矩阵51k(其可在数学上表示为/>)。
能量补偿单元38可表示经配置以相对于环境HOA系数47执行能量补偿以补偿归因于由背景选择单元48移除HOA信道中的各者而产生的能量损失的单元。能量补偿单元38可相对于经重排序US[k]矩阵33'、经重排序V[k]矩阵35'、nFG信号49、前景V[k]向量51k及环境HOA系数47中的一或多者执行能量分析,且接着基于能量分析来执行能量补偿以产生经能量补偿的环境HOA系数47'。能量补偿单元38可将经能量补偿的环境HOA系数47'输出到音质音频译码器单元40。
时空内插单元50可表示经配置以接收第k帧的前景V[k]向量51k及先前帧(因此为k-1记法)的前景V[k-1]向量51k-1且执行时空内插以产生经内插的前景V[k]向量的单元。时空内插单元50可将nFG信号49与前景V[k]向量51k重新组合以恢复经重排序的前景HOA系数。时空内插单元50可接着将经重排序的前景HOA系数除以经内插V[k]向量以产生经内插的nFG信号49'。时空内插单元50还可输出前景V[k]向量51k的用于产生经内插的前景V[k]向量的那些向量,使得例如音频解码装置24的音频解码装置可产生经内插的前景V[k]向量且借此恢复前景V[k]向量51k。将用于产生经内插的前景V[k]向量的前景V[k]向量51k表示为剩余前景V[k]向量53。为了确保在编码器及解码器处使用相同的V[k]及V[k-1](以创建经内插的向量V[k]),可在编码器及解码器处使用向量的经量化/经解量化版本。时空内插单元50可将经内插的nFG信号49'输出到音质音频译码器单元46且将经内插的前景V[k]向量51k输出到系数减少单元46。
系数减少单元46可表示经配置以基于背景信道信息43相对于剩余前景V[k]向量53执行系数减少以将经减少的前景V[k]向量55输出到量化单元52的单元。经减少的前景V[k]向量55可具有维度D:[(N+1)2-(NBG+1)2-BGTOT]×nFG。系数减少单元46可在这方面中表示经配置以减少剩余前景V[k]向量53中的系数数目的单元。换句话说,系数减少单元46可表示经配置以消除(形成剩余前景V[k]向量53的)前景V[k]向量中具有极少方向信息到不具有方向信息的系数的单元。在一些实例中,相异或(换句话说)前景V[k]向量的对应于一阶及零阶基底函数的系数(其可表示为NBG)提供极少方向信息,且因此可从前景V向量移除(通过可被称作“系数减少”的过程)。在此实例中,可提供较大灵活性以不仅从集合[(NBG+1)2+1,(N+1)2]识别对应于NBG的系数而且识别额外HOA通道(其可由变量TotalOfAddAmbHOAChan表示)。
量化单元52可表示经配置以执行任何形式的量化以压缩经减少的前景V[k]向量55来产生经译码前景V[k]向量57,从而将经译码前景V[k]向量57输出到位流产生单元42的单元。在操作中,量化单元52可表示经配置以压缩声场的空间分量(即,在此实例中为经减少的前景V[k]向量55中的一或多者)的单元。量化单元52可执行如由表示为“NbitsQ”的量化模式语法元素指示的以下12种量化模式中的任一者:
NbitsQ值 量化模式的类型
0-3: 保留
4: 向量量化
5: 无霍夫曼译码的标量量化
6: 具有霍夫曼译码的6位标量量化
7: 具有霍夫曼译码的7位标量量化
8: 具有霍夫曼译码的8位标量量化
… …
16: 具有霍夫曼译码的16位标量量化
量化单元52还可执行前述类型的量化模式中的任一者的预测版本,其中确定先前帧的V向量的元素(或执行向量量化时的权数)与当前帧的V向量的元素(或执行向量量化时的权数)之间的差。量化单元52可接着将当前帧与先前帧的元素或权数之间的差而非当前帧本身的V向量的元素的值量化。
量化单元52可相对于经减少的前景V[k]向量55中的每一者执行多种形式的量化,以获得经减少的前景V[k]向量55的多个经译码版本。量化单元52可选择经减少的前景V[k]向量55的经译码版本中的一者作为经译码前景V[k]向量57。换句话说,量化单元52可基于本发明中论述的准则的任何组合来选择未经预测的经向量量化的V向量、经预测的经向量量化的V向量、未经霍夫曼译码的经标量量化的V向量及经霍夫曼译码的经标量量化的V向量中的一者,以用作输出经变换量化的V向量。在一些实例中,量化单元52可从包含向量量化模式及一或多个标量量化模式的量化模式集合中选择量化模式,且基于(或根据)选定模式量化输入V向量。量化单元52可接着将以下各者中的选定者提供到位流产生单元52以用作经译码前景V[k]向量57:未经预测的经向量量化的V向量(例如,就权数值或指示权数值的位来说)、经预测的经向量量化的V向量(例如,就误差值或指示误差值的位来说)、未经霍夫曼译码的经标量量化的V向量及经霍夫曼译码的经标量量化的V向量。量化单元52还可提供指示量化模式的语法元素(例如,NbitsQ语法元素)及用于将V向量解量化或以其它方式重建构V向量的任何其它语法元素。
音频编码装置20内包含的音质音频译码器单元40可表示音质音频译码器的多个例子,其中的每一者用于编码经能量补偿环境HOA系数47'及经内插nFG信号49'中的每一者的不同音频对象或HOA信道以产生经编码环境HOA系数59及经编码nFG信号61。音质音频译码器单元40可将经编码环境HOA系数59及经编码nFG信号61输出到位流产生单元42。
包含于音频编码装置20内的位流产生单元42表示将数据格式化以符合已知格式(其可指代由解码装置已知的格式),借此产生基于向量的位流21的单元。换句话说,位流21可表示以上文所描述的方式编码的经编码音频数据。位流产生单元42在一些实例中可表示多路复用器,其可接收经译码前景V[k]向量57、经编码环境HOA系数59、经编码nFG信号61及背景信道信息43。位流产生单元42可接着基于经译码前景V[k]向量57、经编码环境HOA系数59、经编码nFG信号61及背景信道信息43产生位流21。以此方式,位流产生单元42可借此在位流21中指定向量57以获得位流21。位流21可包含主要或主位流及一或多个旁侧信道位流。
如上文所描述,所述技术的各种方面还可使得位流产生单元46能够在位流21中指定音频渲染信息2。虽然即将到来的3D音频压缩工作草案的当前版本提供在位流21内传信特定降混矩阵,但工作草案并不提供在位流21中指定用于渲染HOA系数11的渲染器。对于HOA内容,此降混矩阵的等效物为将HOA表示转换成所要扩音器馈送的渲染矩阵。本发明中描述的技术的各种方面提出通过允许位流产生单元46在位流内传信HOA渲染矩阵(作为(例如)音频渲染信息2)进一步协调信道内容及HOA的特征集合。
下文呈现基于降混矩阵的译码方案且针对HOA优化的一个示范性传信解决方案。类似于降混矩阵的发射,HOA渲染矩阵可在mpegh3daConfigExtension()内传信。所述技术可提供如下表中阐述的新扩展类型ID_CONFIG_EXT_HOA_MATRIX(其中斜体字及粗体字指示与现有表的改变)。
表-mpegh3daConfigExtension()的语法(CD中的表13)
表-usacConfigExtType的值(CD中的表1)
usacConfigExtType | 值 |
ID_CONFIG_EXT_FILL | 0 |
ID_CONFIG_EXT_DMX_MATRIX | 1 |
ID_CONFIG_EXT_LOUDNESS_INFO | 2 |
ID_CONFIG_EXT_HOA_MATRIX | 3 |
/*保留用于ISO使用*/ | 4-127 |
/*保留用于在ISO范围外使用*/ | 128及更高 |
相比于DownmixMatrixSet(),位字段HOARenderingMatrixSet()可在结构及功能性上等效。代替inputCount(audioChannelLayout),HOARenderingMatrixSet()可使用HOAConfig中计算的“等效”NumOfHoaCoeffs值。另外,因为HOA系数在HOA解码器内的排序可固定(例如,参见CD中的附录G),所以HOARenderingMatrixSet无需inputConfig(audioChannelLayout)的任何等效物。
表2-HOARenderingMatrixSet()的语法(采用于CD中的表15)
所述技术的各种方面还可使得位流产生单元46能够在使用第一压缩方案(例如由基于向量的分解单元27表示的分解压缩方案)压缩HOA音频数据(例如,在图4的实例中为HOA系数11)时指定位流21,使得对应于第二压缩方案(例如,由基于方向的分解单元28表示的基于方向的压缩方案或基于方向性的压缩方案)的位不包含于位流21中。举例来说,位流产生单元42可产生位流21,以免包含可保留用于指定基于方向的压缩方案的方向信号之间的预测信息的HOAPredictionInfo语法元素或字段。图8E及8F的实例中展示根据本发明中描述的技术的各种方面产生的位流21的实例。
换句话说,方向信号的预测可为由基于方向的分解单元28利用的主要声音合成的部分,且取决于ChannelType 0(其可指示基于方向的信号)的存在。当帧内不存在基于方向的信号时,可不执行方向信号的预测。然而,可独立于基于方向的信号的存在将相关联边带信息HOAPredictionInfo()(即使未使用)写入每一帧。当帧内不存在方向信号时,本发明中描述的技术可使得位流产生单元42能够通过如下表中阐述般并不在边带中传信HOAPredictionInfo而减少边带的大小(其中加下划线的斜体字表示添加):
表:HOAFrame的语法
/>
在这方面中,所述技术可使得例如音频编码装置20的装置能够在使用第一压缩方案压缩高阶立体混响音频数据时,经配置以指定并不包含对应于也用于压缩高阶立体混响音频数据的第二压缩方案的位的表示高阶立体混响音频数据的经压缩版本的位流。
在一些情况下,第一压缩方案包括基于向量的分解压缩方案。在这些及其它情况下,基于向量的分解压缩方案包括涉及将奇异值分解(或本发明中较详细描述的其等效物)应用到高阶立体混响音频数据的压缩方案。
在这些及其它情况下,音频编码装置20可经配置以指定并不包含对应于用于执行第二类型的压缩方案的至少一个语法元素的位的位流。如上文所提到,第二压缩方案可包括基于方向性的压缩方案。
音频编码装置20还可经配置以指定位流21,使得位流21并不包含对应于第二压缩方案的HOAPredictionInfo语法元素的位。
当第二压缩方案包括基于方向性的压缩方案时,音频编码装置20可经配置以指定位流21,使得位流21并不包含对应于基于方向性的压缩方案的HOAPredictionInfo语法元素的位。换句话说,音频编码装置20可经配置以指定位流21,使得位流21并不包含对应于用于执行第二类型的压缩方案的至少一个语法元素的位,所述至少一个语法元素指示两个或多于两个基于方向的信号之间的预测。再次重述,当第二压缩方案包括基于方向性的压缩方案时,音频编码装置20可经配置以指定位流21,使得位流21并不包含对应于基于方向性的压缩方案的HOAPredictionInfo语法元素的位,其中HOAPredictionInfo语法元素指示两个或多于两个基于方向的信号之间的预测。
所述技术的各种方面可进一步使得位流产生单元46能够在某些情况下指定位流21,使得位流21并不包含增益校正数据。当增益校正被抑制时,位流产生单元46可指定位流21,使得位流21并不包含增益校正数据。如上文所提到,图8E及8F的实例中展示根据所述技术的各种方面产生的位流21的实例。
在一些情况下,鉴于某些类型的音质编码相比于其它类型的音质编码具有相对较小动态范围,当执行这些某些类型的音质编码时应用增益校正。举例来说,AAC具有相比统一语音及音频译码(USAC)相对较小的动态范围。当压缩方案(例如基于向量的合成压缩方案或基于方向的压缩方案)涉及USAC时,位流产生单元46可在位流21中传信增益校正已被抑制(例如,通过在位流21中用值0指定HOAConfig中的语法元素MaxGainCorrAmpExp)且接着指定位流21,以免包含增益校正数据(在HOAGainCorrectionData()字段中)。
换句话说,作为HOAConfig的部分的位字段MaxGainCorrAmpExp(参见CD中的表71)可控制自动增益控制模块在USAC核心译码之前影响输送信道信号的程度。在一些情况下,此模块经开发用于RM0以改进可用AAC编码器实施方案的非理想动态范围。在集成阶段期间从AAC改变到USAC核心译码器情况下,核心编码器的动态范围可改进,且因此此增益控制模块可不如前所述般重要。
在一些情况下,如果MaxGainCorrAmpExp设定成0,则增益控制功能性可被抑制。在这些情况下,依据说明“HOAFrame的语法”的上表,可不将相关联边带信息HOAGainCorrectionData()写入到每一HOA帧。对于MaxGainCorrAmpExp设定成0的配置,本发明中描述的技术可并不传信HOAGainCorrectionData。另外,在此情形中,可甚至旁路逆增益控制模块,从而在不具有任何负面的副作用情况下每输送信道约0.05MOPS地减少解码器复杂性。
在这方面中,所述技术可配置音频编码装置20以在高阶立体混响音频数据的压缩期间抑制增益校正时,指定表示高阶立体混响音频数据的经压缩版本的位流21,使得位流21并不包含增益校正数据。
在这些及其它情况下,音频编码装置20可经配置以根据基于向量的分解压缩方案压缩高阶立体混响音频数据,以产生高阶立体混响音频数据的经压缩版本。分解压缩方案的实例可涉及将奇异值分解(或上文较详细描述的其等效物)应用于高阶立体混响音频数据,以产生高阶立体混响音频数据的经压缩版本。
在这些及其它情况下,音频编码装置20可经配置以将位流21中的MaxGainCorrAmbExp语法元素指定为零,以指示增益校正被抑制。在一些情况下,当增益校正被抑制时,音频编码装置20可经配置以指定位流21,使得位流21并不包含存储增益校正数据的HOAGainCorrection数据字段。换句话说,音频编码装置20可经配置以将位流21中的MaxGainCorrAmbExp语法元素指定为零,以指示增益校正被抑制且位流中不包含存储增益校正数据的HOAGainCorrection数据字段。
在这些及其它情况下,音频编码装置20可经配置以在高阶立体混响音频数据的压缩包含将统一音频语音及语音音频译码(USAC)应用于高阶立体混响音频数据时抑制增益校正。
可以下文进一步详细描述的方式调适或以其它方式更新前述对位流21中的各种信息的传信的潜在优化。所述更新可结合下文论述的其它更新应用或用于仅更新上文所论述优化的各种方面。因而,考虑对上文所描述优化的更新的每一潜在组合,包含应用对上文所描述优化的下文所描述单一更新,或应用对上文所描述优化的下文所描述更新的任何特定组合。
为在位流中指定矩阵,位流产生单元42可(例如)在位流21的mpegh3daConfigExtension()中指定ID_CONFIG_EXT_HOA_MATRIX,如下文展示为下表中的加粗及突出显示字。下表表示用于指定位流21的mpegh3daConfigExtension()部分的语法:
表-mpegh3daConfigExtension()的语法
前述表中的ID_CONFIG_EXT_HOA_MATRIX提供用以指定渲染矩阵的容器,所述容器表示为“HoaRenderingMatrixSet()”。
可根据下表中阐述的语法定义HoaRenderingMatrixSet()容器的内容:
表-HoaRenderingMatrixSet()的语法
如正上方表中所展示,HoaRenderingMatrixSet()包含数个不同语法元素,包含numHoaRenderingMatrices、HoaRendereringMatrixId、CICPspeakerLayoutIdx、HoaMatrixLenBits及HoARenderingMatrix。
numHoaRenderingMatrices语法元素可指定位流元素中存在的HoaRendereringMatrixId定义的数目。HoaRenderingMatrixId语法元素可表示唯一地定义可用于解码器侧上的默认HOA渲染矩阵或经发射HOA渲染矩阵的Id的字段。在这方面中,HoaRenderingMatrixId可表示包含定义一索引的两个或多于两个位的信号值的实例,所述索引指示位流包含用于将球面谐波系数渲染到多个扬声器馈送的矩阵;或表示包含定义一索引的两个或多于两个位的信号值的实例,所述索引与用于将球面谐波系数渲染到多个扬声器馈送的多个矩阵中的一者相关联。CICPspeakerLayoutIdx语法元素可表示描述针对给定HOA渲染矩阵的输出扩音器布局的值,且可对应于ISO/IEC 23000 1-8中定义的ChannelConfiguration元素。HoaMatrixLenBits(其也可表示为“HoaRenderingMatrixLenBits”)语法元素可以位为单位指定以下位流元素(例如,HoaRenderingMatrix()容器)的长度。
HoaRenderingMatrix()容器包含NumOfHoaCoeffs,其后接着outputConfig()容器及outputCount()容器。outputConfig()容器可包含指定关于每一扩音器的信息的信道配置向量。位流产生单元42可假定此扩音器信息从输出布局的信道配置已知。每一项outputConfig[i]可表示具有以下成分的数据结构:
AzimuthAngle(其可表示扬声器方位角的绝对值);
AzimuthDirection(其可表示(作为一个实例)将0用于左侧及1用于右侧的方位方向);
Elevation Angle(其可表示扬声器仰角的绝对值);
ElevationDirection(其可表示(作为一个实例)将0用于向上及1用于向下的垂直方向);及
isLFE(其可指示扬声器是否为低频效应(LFE)扬声器)。
位流产生单元42可在一些情况下调用表示为“findSymmetricSpeakers”的辅助函数,以下可进一步指定所述函数:
pairType(其可存储SYMMETRIC(意味着某一实例中的两个对称扬声器对)、CENTER或ASYMMETRIC的值);及
symmetricPair->originalPosition(其可表示群组中的第二(例如,右侧)扬声器的原始信道配置中的位置,仅用于SYMMETRIC群组)。
outputCount()容器可指定针对其定义HOA渲染矩阵的扩音器数目。
位流产生单元42可根据下表中阐述的语法指定HoaRenderingMatrix()容器:
表-HoaRenderingMatrix()的语法
/>
如正上方表中所展示,numPairs语法元素设定成从调用使用outputCount及outputConfig及hasLfeRendering作为输入的findSymmetricSpeakers辅助函数输出的值。numPairs可因此表示可考虑用于高效对称性译码的输出扩音器设置中识别的对称扩音器对的数目。上表中的precisionLevel语法元素可表示用于根据下表均匀量化增益的精度:
表-随precisionLevel而变的hoaGain的均匀量化步长大小
precisionLevel | 最小量化步长大小[dB] |
0 | 1.0 |
1 | 0.5 |
2 | 0.25 |
3 | 0.125 |
上表中所展示的阐述HoaRenderingMatrix()的语法的gainLimitPerHoaOrder语法元素可表示指示maxGain及minGain是针对每一阶数还是针对整个HOA渲染矩阵个别地指定的旗标。maxGain[i]语法元素可指定矩阵中对于以HOA阶数i表达的系数的最大实际增益,作为一个实例,以分贝(dB)为单位。minGain[i]语法元素可指定矩阵中对于以HOA阶数i表达的系数的最小实际增益,同样作为一个实例,以dB为单位。isFullMatrix语法元素可表示指示HOA渲染矩阵是稀疏还是充满的旗标。在HOA渲染矩阵依据isFullMatrix语法元素指定为稀疏情况下,firstSparseOrder语法元素可指定经稀疏译码的第一HOA阶数。isHoaCoefSparse语法元素可表示从firstSparseOrder语法元素导出的位掩码向量。lfeExists语法元素可表示指示一或多个LFE是否存在于outputConfig中的旗标。hasLfeRendering语法元素指示渲染矩阵是否含有用于一或多个LFE信道的非零元素。zerothOrderAlwaysPositive语法元素可表示指示第0HOA阶数是否仅具有正值的旗标。
isAllValueSymmetric语法元素可表示指示所有对称扩音器对在HOA渲染矩阵中是否具有相等绝对值的旗标。isAnyValueSymmetric语法元素表示当(例如)为假时指示对称扩音器对中的一些是否在HOA渲染矩阵中具有相等绝对值的旗标。valueSymmetricPairs语法元素可表示指示具有值对称性的扩音器对的numPairs的长度位掩码。isValueSymmetric语法元素可表示以表3中所展示的方式从valueSymmetricPairs语法元素导出的位掩码。isAllSignSymmetric语法元素可表示当矩阵中并不存在值对称性时,所有对称扩音器对是否具有至少数字正负号对称性。isAnySignSymmetric语法元素可表示指示是否存在具有数字正负号对称性的至少一些对称扩音器对的旗标。signSymmetricPairs语法元素可表示指示具有正负号对称性的扩音器对的numPairs的长度位掩码。isSignSymmetric变量可表示以上文阐述HoaRenderingMatrix()的语法的表中展示的方式从signSymmetricPairs语法元素导出的位掩码。hasVerticalCoef语法元素可表示指示矩阵是否为仅水平HOA渲染矩阵的旗标。bootVal语法元素可表示用于解码回路的变量。
换句话说,位流产生单元42可分析音频渲染器1以产生上文值对称性信息中的任何一或多者(例如,isAllValueSymmetric语法元素、isAnyValueSymmetric语法元素、valueSymmetricPairs语法元素、isValueSymmetric语法元素及valueSymmetricPairs语法元素中的一或多者的任何组合)或以其它方式获得值对称性信息。位流产生单元42可以上文所展示方式在位流21中指定音频渲染器信息2,使得音频渲染器信息2包含值正负号对称性信息。
此外,位流产生单元42还可分析音频渲染器1以产生上文正负号对称性信息中的任何一或多者(例如,isAllSignSymmetric语法元素、isAnySignSymmetric语法元素、signSymmetricPairs语法元素、isSignSymmetric语法元素及signSymmetricPairs语法元素中的一或多者的任何组合)或以其它方式获得正负号对称性信息。位流产生单元42可以上文所展示方式在位流21中指定音频渲染器信息2,使得音频渲染器信息2包含音频正负号对称性信息。
当确定值对称性信息及正负号对称性信息时,位流产生单元42可分析可指定为矩阵的音频渲染器1的各种值。渲染矩阵可制订为矩阵R的伪倒数。换句话说,为将(N+1)2个HOA信道(下文表示为Z)渲染到L个扩音器信号(由L个扩音器信号的列向量p表示),可给出以下等式:
Z=R*p。
为到达输出L个扩音器信号的渲染矩阵,如以下等式中所展示地将R矩阵的倒数乘以Z个HOA信道:
p=R-1*Z。
除非扩音器信道的数目L相同于Z个HOA信道的数目(N+1)2,否则矩阵R将并非正方形且不可确定完整倒数。结果,可替代地使用伪倒数,其定义为如下:
pinv(R)=RT(R*RT)-1,
其中RT表示R矩阵的转置。替换上文等式中的R-1,由列向量p表示的L个扩音器信号的求解可在数学上如下表示:
p=pinv(R)*Z=RT(R*RT)-1*Z。
R矩阵的项为扩音器位置的球面谐波值,其中(N+1)2行为不同球面谐波且L列为扬声器。位流产生单元42可基于扬声器的值确定扩音器对。分析扩音器位置的球面谐波值,位流产生单元42可基于所述值确定哪些扩音器位置成对(例如,由于对可具有类似、几乎相同或相同值但具有相对正负号)。
在识别所述对之后,位流产生单元42可针对每一对确定所述对是否具有相同值或几乎相同值。当所有对具有相同值时,位流产生单元42可将isAllValueSymmetric语法元素设定为一。当所有对并不具有相同值时,位流产生单元42可将isAllValueSymmetric语法元素设定为零。当一或多对而非所有对具有相同值时,位流产生单元42可将isAnyValueSymmetric语法元素设定为一。当所述对中无一者具有相同值时,位流产生单元42可将isAnyValueSymmetric语法元素设定为零。对于具有对称值的对,位流产生单元42可仅针对所述扬声器对指定一个值而非两个单独值,借此减少位流21中用于表示音频渲染信息2(例如,在此实例中为矩阵)的位数目。
当所述对当中并不存在值对称性时,位流产生单元42还可针对每一对确定扬声器对是否具有正负号对称性(意味着一个扬声器具有负值而另一扬声器具有正值)。当所有对具有正负号对称性时,位流产生单元42可将isAllSignSymmetric语法元素设定为一。当所有对并不具有正负号对称性时,位流产生单元42可将isAllSignSymmetric语法元素设定为零。当一或多对而非所有对具有正负号对称性时,位流产生单元42可将isAnySignSymmetric语法元素设定为一。当所述对中无一者具有正负号对称性时,位流产生单元42可将isAnySignSymmetric语法元素设定为零。对于具有对称正负号的对,位流产生单元42可仅针对所述扬声器对指定一个正负号或并不指定正负号而非两个单独正负号,借此减少位流21中用于表示音频渲染信息2(例如,在此实例中为矩阵)的位数目。
位流产生单元42可根据下表中所展示的语法指定阐述HoaRenderingMatrix()的语法的表中所展示的DecodeHoaMatrixData()容器:
表-DecodeHoaMatrixData的语法
/>
阐述DecodeHoaMatrixData的语法的前述表中的hasValue语法元素可表示指示矩阵元素是否经稀疏译码的旗标。signMatrix语法元素可表示HOA渲染矩阵的正负号值(作为一个实例)呈经线性化向量形式的矩阵。hoaMatrix语法元素可表示(作为一个实例)呈经线性化向量形式的HOA渲染矩阵值。位流产生单元42可根据下表中所展示的语法指定阐述DecodeHoaMatrixData的语法的表中所展示的DecodeHoaGainValue()容器:
表-DecodeHoaGainValue的语法
/>
位流产生单元42可根据下表中指定的语法指定阐述DecodeHoaGainValue的语法的表中所展示的readRange()容器:
表7-ReadRange的语法
尽管在图3的实例中未展示,但音频编码装置20还可包含位流输出单元,所述位流输出单元基于当前帧将使用基于方向的合成还是基于向量的合成编码而切换从音频编码装置20输出的位流(例如,在基于方向的位流21与基于向量的位流21之间切换)。位流输出单元可基于由内容分析单元26输出的指示执行基于方向的合成(作为检测到HOA系数11是从合成音频对象产生的结果)还是执行基于向量的合成(作为检测到HOA系数经记录的结果)的语法元素执行所述切换。位流输出单元可指定正确的标头语法以指示用于当前帧以及位流21中的相应一者的所述切换或当前编码。
此外,如上文所提到,声场分析单元44可识别BGTOT环境HOA系数47,所述系数可逐帧改变(但有时BGTOT可跨越两个或多于两个邻近(在时间上)帧保持恒定或相同)。BGTOT的改变可导致在经减少前景V[k]向量55中表达的系数的改变。BGTOT的改变可带来背景HOA系数(其也可被称作“环境HOA系数”),所述背景HOA系数逐帧改变(但同样,BGTOT有时可跨越两个或多于两个邻近(在时间上)帧保持恒定或相同)。所述改变常常导致声场的各方面的能量改变,所述声场通过额外环境HOA系数的添加或移除及系数从经减少前景V[k]向量55的对应移除或系数到所述经减少前景V[k]向量的添加表示。
结果,声场分析单元44可进一步确定环境HOA系数何时从帧到帧改变,且产生指示环境HOA系数的改变的旗标或其它语法元素(就用于表示声场的环境分量来说)(其中所述改变也可被称作环境HOA系数的“转变”或环境HOA系数的“转变”)。具体来说,系数减少单元46可产生旗标(其可表示为AmbCoeffTransition旗标或AmbCoeffIdxTransition旗标),从而将所述旗标提供到位流产生单元42,使得可将所述旗标包含在位流21中(可能作为旁侧信道信息的部分)。
除指定环境系数转变旗标之外,系数减少单元46也可修改产生经减少前景V[k]向量55的方式。在一个实例中,在确定环境HOA环境系数中的一者在当前帧期间处于转变中之后,系数减少单元46可指定用于经减少前景V[k]向量55的V向量中的每一者的向量系数(其也可被称作“向量元素”或“元素”),所述向量系数对应于处于转变中的环境HOA系数。同样,处于转变中的环境HOA系数可添加到背景系数的BGTOT总数目或从背景系数的BGTOT总数目移除。因此,背景系数的总数目的所得改变影响环境HOA系数是否包含于位流中,及在上文所描述的第二及第三配置模式中是否针对位流中所指定的V向量包含V向量的对应元素。关于系数减少单元46可如何指定经减少前景V[k]向量55以克服能量改变的较多信息提供于2015年1月12日申请的标题为“环境高阶立体混响系数的转变(TRANSITIONING OF AMBIENTHIGHER_ORDER AMBISONIC COEFFICIENTS)”的第14/594,533号美国申请案中。
图4为较详细说明图2的音频解码装置24的框图。如图4的实例中所展示,音频解码装置24可包含提取单元72、渲染器重建构单元81、基于方向性的重建构单元90及基于向量的重建构单元92。尽管下文进行描述,但关于音频解码装置24及解压缩或以其它方式解码HOA系数的各种方面的较多信息可在2014年5月29日申请的标题为“用于声场的经分解表示的内插(NTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD)”的第WO2014/194099号国际专利申请公开案中获得。
提取单元72可表示经配置以接收位流21并提取音频渲染信息2及HOA系数11的各种经编码版本(例如,基于方向的经编码版本或基于向量的经编码版本)的单元。换句话说,高阶立体混响(HOA)渲染矩阵可由音频编码装置20发射以使得能够在音频重放系统16处控制HOA渲染过程。发射可借助于上文展示的类型ID_CONFIG_EXT_HOA_MATRIX的mpegh3daConfigExtension促进。mpegh3daConfigExtension可含有用于不同扩音器再现配置的若干HOA渲染矩阵。当发射HOA渲染矩阵时,音频编码装置20针对每一HOA渲染矩阵信号,传信连同HoaOrder确定渲染矩阵的尺寸的相关联目标扩音器布局。
唯一HoaRenderingMatrixId的发射允许参考音频重放系统16处可用的默认HOA渲染矩阵,或参考来自音频位流21外部的所发射HOA渲染矩阵。在一些情况下,假定每一HOA渲染矩阵正规化为N3D且遵循如位流21中定义的HOA系数排序。
如上文所提到,函数findSymmetricSpeakers可指示所提供扩音器设置内的所有扩音器对的数目及位置,作为一个实例,所述扩音器对相对于所谓的“最有效点”处的收听者的正中面对称。此辅助函数可定义为如下:
int findSymmetricSpeakers(int outputCount,SpeakerInformation*outputConfig,int hasLfeRendering);
提取单元72可调用函数createSymSigns以计算具有1.0及-1.0的值的向量,其接着可用于产生与对称扩音器相关联的矩阵元素。此createSymSigns函数可定义为如下:
void createSymSigns(int*symSigns,int hoaOrder)
{
int n,m,k=0;
for(n=0;n<=hoaOrder;++n){
for(m=-n;m<=n;++m)
symSigns[k++]=((m>=0)*2)-1;
}
}
提取单元72可调用函数create2dBitmask来产生用以识别仅用于水平面的HOA系数的位掩码。create2dBitmask函数可定义为如下:
void create2dBitmask(int*bitmask,int hoaOrder)
{
int n,m,k=0;
bitmask[k++]=0;
for(n=1;n<=hoaOrder;++n){
for(m=-n;m<=n;++m)
bitmask[k++]=abs(m)!=n;
}
}
为解码HOA渲染矩阵系数,提取单元72可首先提取语法元素HoaRenderingMatrixSet(),其如上文所提到可含有可经应用以实现对所要扩音器布局的HOA渲染的一或多个HOA渲染矩阵。在一些情况下,给定位流可不含有HoaRenderingMatrixSet()的多于一个例子。语法元素HoaRenderingMatrix()含有HOA渲染矩阵信息(其在图4的实例中可表示为渲染器信息2)。提取单元72可首先在可引导解码过程的配置信息中读取。然后,提取单元72相应地读取矩阵元素。
在一些情况下,提取单元72在开始处读取字段precisionLevel及gainLimitPerOrder。当设定旗标gainLimitPerOrder时,提取单元72针对每一HOA阶数单独地读取并解码maxGain及minGain字段。当旗标gainLimitPerOrder未设定时,提取单元72在解码过程期间一次读取并解码字段maxGain及minGain并将这些字段应用于所有HOA阶数。在一些情况下,minGain的值必须在0db与-69dB之间。在一些情况下,maxGain的值必须在1dB与111dB之间低于minGain的值。图9为说明HOA渲染矩阵内的HOA阶数相依性最小及最大增益的实例的图。
提取单元72可接下来读取旗标isFullMatrix,其可传信矩阵是定义为充满还是部分稀疏。当矩阵定义为部分稀疏时,提取单元72读取下一字段(例如,firstSparseOrder语法元素),其指定HOA渲染矩阵从其经稀疏译码的HOA阶数。取决于扩音器再现设置,HOA渲染矩阵可常常对于低阶密集且在高阶中变得稀疏。图10为说明用于22个扩音器的部分稀疏6阶HOA渲染矩阵的图。图10中所展示的矩阵的稀疏性在第26个HOA系数(HOA阶数5)处开始。
取决于一或多个低频效应(LFE)信道是否存在于扩音器再现设置内(由lfeExists语法元素指示),提取单元72可读取字段hasLfeRendering。当hasLfeRendering未设定时,提取单元72经配置以假定相关于LFE信道的矩阵元素为数字零。由提取单元72读取的下一字段为旗标zerothOrderAlwaysPositive,其传信与第0阶的系数相关联的矩阵元素是否为正。在zerothOrderAlwaysPositive指示第零阶HOA系数为正的此情况下,提取单元72确定未译码对应于第零阶HOA系数的渲染矩阵系数的数字正负号。
在下文中,可针对关于正中面对称的扩音器对传信HOA渲染矩阵的性质。在一些情况下,存在相关于a)值对称性及b)正负号对称性的两个对称性性质。在值对称性情况下,并不译码对称扩音器对的左侧扩音器的矩阵元素,而是提取单元72通过利用辅助函数createSymSigns从右侧扩音器的经解码矩阵元素导出那些元素,所述函数如下执行:
pairIdx=outputConfig[j].symmetricPair->originalPosition;
hoaMatrix[i*outputCount+j]=hoaMatrix[i*outputCount+pairIdx];及
signMatrix[i*outputCount+j]=symSigns[i]*signMatrix[i*outputCount+pairIdx]。
当扩音器对并非值对称时,则矩阵元素可能关于其数字正负号对称。当扩音器对是正负号对称时,并不译码对称扩音器对的左侧扩音器的矩阵元素的数字正负号,且提取单元72通过利用辅助函数createSymSigns从与右侧扩音器相关联的矩阵元素的数字正负号导出这些数字正负号,所述函数如下执行:
pairIdx=outputConfig[j].symmetricPair->originalPosition;
signMatrix[i*outputCount+j]=symSigns[i]*signMatrix[i*outputCount+pairIdx];
图11为说明对称性性质的传信的图。扩音器对无法同时定义为是值对称及正负号对称的。最后解码旗标hasVerticalCoef指定是否仅译码与循环(即,2D)HOA系数相关联的矩阵元素。如果hasVerticalCoef未设定,则将用辅助函数create2dBitmask定义的与HOA系数相关联的矩阵元素设定成数字零。
也就是说,提取单元72可根据图11中阐述的过程提取音频渲染信息2。提取单元72可首先从位流21读取isAllValueSymmetric语法元素(300)。当isAllValueSymmetric语法元素设定成一(或换句话说,布尔真)时,提取单元72可循环访问numPairs语法元素的值,从而将valueSymmetricPairs阵列语法元素设定成一的值(有效地指示所有扬声器对是值对称的)(302)。
当isAllValueSymmetric语法元素设定成零(或换句话说,布尔假)时,提取单元72可接下来读取isAnyValueSymmetric语法元素(304)。当isAnyValueSymmetric语法元素设定成一(或换句话说,布尔真)时,提取单元72可循环访问numPairs语法元素的值,从而将valueSymmetricPairs阵列语法元素设定成从位流21依序读取的位(306)。提取单元72还可获得针对具有设定成零的valueSymmetricPairs语法元素的所述对中的任一者的isAnySignSymmetric语法元素(308)。提取单元72接着可再次循环访问所述对的数目,且当valueSymmetricPairs等于零时,将signSymmetricPairs位设定成从位流21读取的值(310)。
当isAnyValueSymmetric语法元素设定成零(或换句话说,布尔假)时,提取单元72可从位流21读取isAllSignSymmetric语法元素(312)。当isAllSignSymmetric语法元素设定成一(或换句话说,布尔真)时,提取单元72可循环访问numPairs语法元素的值,从而将signSymmetricPairs阵列语法元素设定成一的值(有效地指示所有扬声器对是正负号对称的)(316)。
当isAllSignSymmetric语法元素设定成零(或换句话说,布尔假)时,提取单元72可从位流21读取isAnySignSymmetric语法元素(316)。提取单元72可循环访问numPairs语法元素的值,从而将signSymmetricPairs阵列语法元素设定成从位流21依序读取的位(318)。位流产生单元42可执行上文相对于提取单元72所描述过程的可逆过程以指定值对称性信息、正负号对称性信息或值与正负号对称性信息两者的组合。
渲染器重建构单元81可表示经配置以基于音频渲染信息2重建构渲染器的单元。也就是说,使用上文所提到的性质,渲染器重建构单元81可读取一系列矩阵元素增益值。为读取绝对增益值,渲染器重建构单元81可调用函数DecodeGainValue()。渲染器重建构单元81可调用字母索引的函数ReadRange()以均匀地解码增益值。当经解码增益值并非数字零时,渲染器重建构单元81可另外读取数字正负号(依据下文表a)。当矩阵元素与传信为稀疏(经由isHoaCoefSparse)的HOA系数相关联时,hasValue旗标先于gainValueIndex(参见表b)。当hasValue旗标为零时,此元素设定成数字零且并不传信gainValueIndex及正负号。
表a及b-用以解码矩阵元素的位流语法的实例
取决于扩音器对的指定对称性性质,渲染器重建构单元81可从右侧扩音器导出与左侧扩音器相关联的矩阵元素。在此情况下,减少或因此可能完全省略位流21中用以解码用于左侧扩音器的矩阵元素的音频渲染信息2。
以此方式,音频解码装置24可确定对称性信息以减少待指定的音频渲染信息的大小。在一些情况下,音频解码装置24可确定对称性信息以减少待指定的音频渲染信息的大小,并基于对称性信息导出音频渲染器的至少一部分。
在这些及其它情况下,音频解码装置24可确定值对称性信息以减少待指定的音频渲染信息的大小。在这些及其它情况下,音频解码装置24可基于值对称性信息导出音频渲染器的至少一部分。
在这些及其它情况下,音频解码装置24可确定正负号对称性信息以减少待指定的音频渲染信息的大小。在这些及其它情况下,音频解码装置24可基于正负号对称性信息导出音频渲染器的至少一部分。
在这些及其它情况下,音频解码装置24可确定指示用于将球面谐波系数渲染到多个扬声器馈送的矩阵的稀疏性的稀疏性信息。
在这些及其它情况下,音频解码装置24可确定将使用矩阵将球面谐波系数渲染到多个扬声器馈送的扬声器布局。
在这方面中,音频解码装置24可接着确定位流中指定的音频渲染信息2。基于包含于音频渲染信息2中的信号值,音频重放系统16可使用音频渲染器22中的一者渲染多个扬声器馈送25。扬声器馈送可驱动扬声器3。如上文所提到,信号值可在一些情况下包含用于将球面谐波系数渲染到多个扬声器馈送的矩阵(其经解码及提供为音频渲染器22中的一者)。在此情况下,音频重放系统16可用所述矩阵配置音频渲染器22中的一者,从而使用音频渲染器22中的此一者基于矩阵渲染扬声器馈送25。
为提取且接着解码HOA系数11的各种经编码版本从而使得HOA系数11可用以使用所获得音频渲染器22渲染,提取单元72可从指示HOA系数11是经由各种基于方向的还是基于向量的版本经编码的上文所提到语法元素进行确定。当执行基于方向的编码时,提取单元72可提取HOA系数11的基于方向的版本及与所述经编码版本相关联的语法元素(其在图4的实例中表示为基于方向的信息91),从而将基于方向的信息91传递到基于方向的重建构单元90。基于方向的重建构单元90可表示经配置以基于所述基于方向的信息91重建构呈HOA系数11'形式的HOA系数的单元。
当语法元素指示HOA系数11是使用基于向量的分解经编码时,提取单元72可提取经译码前景V[k]向量57(其可包含经译码权数57及/或索引63或经标量量化V向量)、经编码环境HOA系数59及对应音频对象61(其也可被称作经编码nFG信号61)。音频对象61各自对应于向量57中的一者。提取单元72可将经译码前景V[k]向量57传递至V向量重建构单元74,且将经编码环境HOA系数59连同经编码nFG信号61提供到音质解码单元80。
V向量重建构单元74可表示经配置以从经编码前景V[k]向量57重建构V向量的单元。V向量重建构单元74可以与量化单元52互逆的方式操作。
音质解码单元80可以与图3的实例中所展示的音质音频译码器单元40互逆的方式操作,以便解码经编码环境HOA系数59及经编码nFG信号61且借此产生经能量补偿的环境HOA系数47'及经内插的nFG信号49'(其也可被称作经内插的nFG音频对象49')。音质解码单元80可将经能量补偿的环境HOA系数47'传递到淡化单元770且将nFG信号49'传递到前景制订单元78。
时空内插单元76可以类似于上文相对于时空内插单元50所描述的方式操作。时空内插单元76可接收经减少的前景V[k]向量55k且相对于前景V[k]向量55k及经减少的前景V[k-1]向量55k-1执行时空内插以产生经内插的前景V[k]向量55k”。时空内插单元76可将经内插的前景V[k]向量55k”转递到淡化单元770。
提取单元72还可将指示环境HOA系数中的一者何时处于转变中的信号757输出到淡化单元770,所述淡化单元可接着确定SHCBG 47'(其中SHCBG 47'还可表示为“环境HOA信道47'”或“环境HOA系数47'”)及经内插的前景V[k]向量55k”的元素中的哪一者将淡入或淡出。在一些实例中,淡化单元770可相对于环境HOA系数47'及经内插的前景V[k]向量55k”的元素中的每一者相反地操作。也就是说,淡化单元770可相对于环境HOA系数47'中的对应一者执行淡入或淡出或执行淡入或淡出两者,同时相对于经内插的前景V[k]向量55k”的元素中的对应一者执行淡入或淡出或执行淡入与淡出两者。淡化单元770可将经调整的环境HOA系数47”输出到HOA系数制订单元82且将经调整的前景V[k]向量55k”'输出到前景制订单元78。在这方面中,淡化单元770表示经配置以相对于HOA系数或其导出项(例如,呈环境HOA系数47'的形式)及经内插的前景V[k]向量55k”的元素的各种方面执行淡化操作的单元。
前景制订单元78可表示经配置以相对于经调整的前景V[k]向量55k”'及经内插的nFG信号49'执行矩阵乘法以产生前景HOA系数65的单元。在这方面中,前景制订单元78可组合音频对象49'(其为借以表示经内插的nFG信号49'的另一种方式)与向量55k”'以重建构HOA系数11'的前景(或换句话说,主要方面)。前景制订单元78可执行经内插的nFG信号49'乘以经调整的前景V[k]向量55k”'的矩阵乘法。
HOA系数制订单元82可表示经配置以将前景HOA系数65组合到经调整的环境HOA系数47”以便获得HOA系数11'的单元。撇号记法反映HOA系数11'可类似于而非相同于HOA系数11。HOA系数11与11'之间的差可起因于由于有损发射媒体上的发射、量化或其它有损操作而产生的损失。
另外,提取单元72及音频解码装置24更大体来说还可经配置以根据本发明中描述的技术的各种方面操作,以获得可能以上文所描述的关于在某些情况下不包含各种语法元素或数据字段的方式而优化的位流21。
在一些情况下,音频解码装置24可经配置以在解压缩使用第一压缩方案压缩的高阶立体混响音频数据时,获得并不包含对应于也用于压缩高阶立体混响音频数据的第二压缩方案的位的表示高阶立体混响音频数据的经压缩版本的位流21。第一压缩方案可包括基于向量的压缩方案,所得向量定义于球面谐波域中且经由位流21发送。在一些实例中,基于向量的分解压缩方案可包括涉及将奇异值分解(或如相对于图3的实例更详细描述的其等效物)应用于高阶立体混响音频数据的压缩方案。
音频解码装置24可经配置以获得并不包含对应于用于执行第二类型的压缩方案的至少一个语法元素的位的位流21。如上文所提到,第二压缩方案包括基于方向性的压缩方案。更具体来说,音频解码装置24可经配置以获得并不包含对应于第二压缩方案的HOAPredictionInfo语法元素的位的位流21。换句话说,当第二压缩方案包括基于方向性的压缩方案时,音频解码装置24可经配置以获得并不包含对应于基于方向性的压缩方案的HOAPredictionInfo语法元素的位的位流21。如上文所提到,HOAPredictionInfo语法元素可指示两个或多于两个基于方向的信号之间的预测。
在一些情况下,作为前述实例的替代方案或结合前述实例,音频解码装置24可经配置以在于高阶立体混响音频数据的压缩期间抑制增益校正时,获得并不包含增益校正数据的表示高阶立体混响音频数据的经压缩版本的位流21。在这些情况下,音频解码装置24可经配置以根据基于向量的合成解压缩方案解压缩高阶立体混响音频数据。通过将奇异值分解(或上文相对于图3的实例较详细描述的其等效物)应用于高阶立体混响音频数据产生高阶立体混响数据的经压缩版本。当将SVD或其等效物应用于HOA音频数据时,音频编码装置20在位流21中指定所得向量或指示其的位中的至少一者,其中向量描述对应前景音频对象的空间特性(例如对应前景音频对象的宽度、位置及音量)。
更具体来说,音频解码装置24可经配置以从位流21获得具有设定为零以指示增益校正被抑制的值的MaxGainCorrAmbExp语法元素。也就是说,当增益校正被抑制时,音频解码装置24可经配置以获得位流,使得位流并不包含存储增益校正数据的HOAGainCorrection数据字段。位流21可包含具有零的值以指示增益校正被抑制的MaxGainCorrAmbExp语法元素,且并不包含存储增益校正数据的HOAGainCorrection数据字段。当高阶立体混响音频数据的压缩包含将统一语音及音频及语音译码(USAC)应用于高阶立体混响音频数据时可发生对增益校正的抑制。
图5为说明音频编码装置(例如图3的实例中所展示的音频编码装置20)执行本发明中描述的基于向量的合成技术的各种方面的示范性操作的流程图。最初,音频编码装置20接收HOA系数11(106)。音频编码装置20可调用LIT单元30,其可相对于HOA系数应用LIT以输出经变换HOA系数(例如,在SVD的情况下,经变换HOA系数可包括US[k]向量33及V[k]向量35)(107)。
音频编码装置20接下来可调用参数计算单元32,以按上文所描述的方式相对于US[k]向量33、US[k-1]向量33、V[k]及/或V[k-1]向量35的任何组合执行上文所描述的分析来识别各种参数。也就是说,参数计算单元32可基于经变换HOA系数33/35的分析确定至少一个参数(108)。
音频编码装置20可接着调用重排序单元34,其可基于参数将经变换HOA系数(同样在SVD的上下文中,其可指US[k]向量33及V[k]向量35)重排序以产生经重排序的经变换HOA系数33'/35'(或换句话说,US[k]向量33'及V[k]向量35'),如上文所描述(109)。音频编码装置20可在前述操作或后续操作中的任一者期间还调用声场分析单元44。如上文所描述,声场分析单元44可相对于HOA系数11及/或经变换HOA系数33/35执行声场分析,以确定前景信道(nFG)45的总数目、背景声场(NBG)的阶数以及待发送的额外BG HOA信道的数目(nBGa)及索引(i)(其可在图3的实例中共同表示为背景信道信息43)(109)。
音频编码装置20还可调用背景选择单元48。背景选择单元48可基于背景信道信息43确定背景或环境HOA系数47(110)。音频编码装置20可进一步调用前景选择单元36,其可基于nFG 45(其可表示识别前景向量的一或多个索引)选择表示声场的前景或相异分量的经重排序的US[k]向量33'及经重排序的V[k]向量35'(112)。
音频编码装置20可调用能量补偿单元38。能量补偿单元38可相对于环境HOA系数47执行能量补偿,以补偿归因于由背景选择单元48移除HOA系数中的各者而导致的能量损失(114),且借此产生经能量补偿的环境HOA系数47'。
音频编码装置20还可调用时空内插单元50。时空内插单元50可相对于经重排序的经变换HOA系数33'/35'执行时空内插,以获得经内插前景信号49'(其也可被称作“经内插的nFG信号49'”)及剩余前景方向信息53(其也可被称作“V[k]向量53”)(116)。音频编码装置20可接着调用系数减少单元46。系数减少单元46可基于背景信道信息43相对于剩余前景V[k]向量53执行系数减少,以获得经减少前景方向信息55(其也可被称作经减少前景V[k]向量55)(118)。
音频编码装置20可接着调用量化单元52以按上文所描述的方式压缩经减少前景V[k]向量55且产生经译码前景V[k]向量57(120)。
音频编码装置20还可调用音质音频译码器单元40。音质音频译码器单元40可对经能量补偿的环境HOA系数47'及经内插nFG信号49'的每一向量进行音质译码以产生经编码环境HOA系数59及经编码nFG信号61。音频编码装置接着可调用位流产生单元42。位流产生单元42可基于经译码前景方向信息57、经译码环境HOA系数59、经译码nFG信号61及背景信道信息43来产生位流21。
图6为说明音频解码装置(例如图4的实例中所展示的音频解码装置24)执行本发明中描述的技术的各种方面的示范性操作的流程图。最初,音频解码装置24可接收位流21(130)。在接收到位流之后,音频解码装置24可调用提取单元72。出于论述的目的假定位流21指示将执行基于向量的重建构,提取单元72可解析位流以检索上文所提到的信息,从而将所述信息传递到基于向量的重建构单元92。
换句话说,提取单元72可按上文所描述的方式从位流21提取经译码前景方向信息57(同样,其也可被称作经译码前景V[k]向量57)、经译码环境HOA系数59及经译码前景信号(其也可被称作经译码前景nFG信号59或经译码前景音频对象59)(132)。
音频解码装置24可进一步调用解量化单元74。解量化单元74可对经译码前景方向信息57进行熵解码及解量化以获得经减少的前景方向信息55k(136)。音频解码装置24还可调用音质解码单元80。音质音频解码单元80可解码经编码环境HOA系数59及经编码前景信号61以获得经能量补偿的环境HOA系数47'及经内插的前景信号49'(138)。音质解码单元80可将经能量补偿的环境HOA系数47'传递到淡化单元770且将nFG信号49'传递到前景制订单元78。
音频解码装置24接下来可调用时空内插单元76。时空内插单元76可接收经重排序的前景方向信息55k'且相对于经减少的前景方向信息55k/55k-1执行时空内插以产生经内插的前景方向信息55k”(140)。时空内插单元76可将经内插的前景V[k]向量55k”转递到淡化单元770。
音频解码装置24可调用淡化单元770。淡化单元770可(例如,从提取单元72)接收或以其它方式获得指示经能量补偿的环境HOA系数47'何时在转变中的语法元素(例如,AmbCoeffTransition语法元素)。淡化单元770可基于转变语法元素及所维持的转变状态信息而淡入或淡出经能量补偿的环境HOA系数47',从而将经调整环境HOA系数47”输出到HOA系数制订单元82。淡化单元770还可基于语法元素及所维持的转变状态信息而淡出或淡入经内插的前景V[k]向量55k”的对应一或多个元素,从而将经调整前景V[k]向量55k”'输出到前景制订单元78(142)。
音频解码装置24可调用前景制订单元78。前景制订单元78可执行nFG信号49'与经调整前景方向信息55k”'的矩阵乘法以获得前景HOA系数65(144)。音频解码装置24还可调用HOA系数制订单元82。HOA系数制订单元82可将前景HOA系数65与经调整环境HOA系数47”相加以便获得HOA系数11'(146)。
图7为说明例如图2的实例中所展示的系统10的系统执行本发明中描述的技术的各种方面的实例操作的流程图。如上文所论述,内容创建者装置12可利用音频编辑系统18来创建或编辑所捕获或产生音频内容(其在图2的实例中展示为HOA系数11)。内容创建者装置12接着可使用音频渲染器1将HOA系数11渲染到所产生多信道扬声器馈送,如上文较详细所论述(200)。内容创建者装置12接着可使用音频重放系统播放这些扬声器馈送,并确定是否要求进一步调整或编辑以捕获(作为一个实例)所要艺术意图(202)。当希望进一步调整(202的“是”)时,内容创建者装置12可再混合HOA系数11(204)、渲染HOA系数11(200)并确定进一步调整是否为必要的(202)。当不希望进一步调整(202的“否”)时,音频编码装置20可以上文相对于图5的实例所描述的方式编码音频内容来产生位流21(206)。音频编码装置20还可在位流21中产生并指定音频渲染信息2,如上文较详细描述(208)。
内容消费者装置14接着可从位流21获得音频渲染信息2(210)。解码装置24接着可以上文相对于图6的实例所描述的方式解码位流21以获得音频内容(其在图2的实例中展示为HOA系数11')(211)。音频重放系统16接着可以上文所描述的方式基于音频渲染信息2渲染HOA系数11'(212)并经由扩音器3播放经渲染音频内容(214)。
本发明中描述的技术可因此实现(作为第一实例)产生表示多信道音频内容的位流以指定音频渲染信息的装置。所述装置可在此第一实例中包含用于指定音频渲染信息的装置,所述音频渲染信息包含识别当产生多信道音频内容时使用的音频渲染器的信号值。
如第一实例的装置,其中信号值包含用于将球面谐波系数渲染到多个扬声器馈送的矩阵。
在第二实例中,如第一实例的装置,其中信号值包含定义一索引的两个或多于两个位,所述索引指示位流包含用于将球面谐波系数渲染到多个扬声器馈送的矩阵。
如第二实例的装置,其中音频渲染信息进一步包含定义包含于位流中的矩阵的行的数目的两个或多于两个位,及定义包含于位流中的矩阵的列的数目的两个或多于两个位。
如第一实例的装置,其中信号值指定用于将音频对象渲染到多个扬声器馈送的渲染算法。
如第一实例的装置,其中信号值指定用于将球面谐波系数渲染到多个扬声器馈送的渲染算法。
如第一实例的装置,其中信号值包含定义一索引的两个或多于两个位,所述索引与用于将球面谐波系数渲染到多个扬声器馈送的多个矩阵中的一者相关联。
如第一实例的装置,其中信号值包含定义一索引的两个或多于两个位,所述索引与用于将音频对象渲染到多个扬声器馈送的多个渲染算法中的一者相关联。
如第一实例的装置,其中信号值包含定义一索引的两个或多于两个位,所述索引与用于将球面谐波系数渲染到多个扬声器馈送的多个渲染算法中的一者相关联。
如第一实例的装置,其中所述用于指定音频渲染信息的装置包括用于在位流中基于每音频帧指定音频渲染信息的装置。
如第一实例的装置,其中所述用于指定音频渲染信息的装置包括用于在位流中单次指定音频渲染信息的装置。
在第三实例中,一种其上存储有指令的非暂时性计算机可读存储媒体,所述指令在执行时致使一或多个处理器指定位流中的音频渲染信息,其中所述音频渲染信息识别当产生多信道音频内容时使用的音频渲染器。
在第四实例中,一种用于渲染来自位流的多信道音频内容的装置,所述装置包括:用于确定音频渲染信息的装置,所述音频渲染信息包含识别当产生多信道音频内容时使用的音频渲染器的信号值;及用于基于位流中所指定的音频渲染信息渲染多个扬声器馈送的装置。
如第四实例的装置,其中所述信号值包含用于将球面谐波系数渲染到多个扬声器馈送的矩阵,且其中所述用于渲染多个扬声器馈送的装置包括用于基于所述矩阵渲染多个扬声器馈送的装置。
在第五实例中,如第四实例的装置,其中所述信号值包含定义一索引的两个或多于两个位,所述索引指示位流包含用于将球面谐波系数渲染到多个扬声器馈送的矩阵,其中所述装置进一步包括用于响应于所述索引解析来自位流的矩阵的装置,且其中所述用于渲染多个扬声器馈送的装置包括用于基于经解析矩阵渲染多个扬声器馈送的装置。
如第五实例的装置,其中所述信号值进一步包含定义包含于位流中的矩阵的行的数目的两个或多于两个位,及定义包含于位流中的矩阵的列的数目的两个或多于两个位,且其中所述用于解析来自位流的矩阵的装置包括用于响应于所述索引,且基于定义行的数目的所述两个或多于两个位及定义列的数目的所述两个或多于两个位解析来自位流的矩阵的装置。
如第四实例的装置,其中所述信号值指定用于将音频对象渲染到多个扬声器馈送的渲染算法,且其中所述用于渲染多个扬声器馈送的装置包括用于使用所指定渲染算法从音频对象渲染多个扬声器馈送的装置。
如第四实例的装置,其中所述信号值指定用于将球面谐波系数渲染到多个扬声器馈送的渲染算法,且其中所述用于渲染多个扬声器馈送的装置包括用于使用所指定渲染算法从球面谐波系数渲染多个扬声器馈送的装置。
如第四实例的装置,其中所述信号值包含定义一索引的两个或多于两个位,所述索引与用于将球面谐波系数渲染到多个扬声器馈送的多个矩阵中的一者相关联,且其中所述用于渲染多个扬声器馈送的装置包括用于使用与所述索引相关联的多个矩阵中的一者从球面谐波系数渲染多个扬声器馈送的装置。
如第四实例的装置,其中所述信号值包含定义一索引的两个或多于两个位,所述索引与用于将音频对象渲染到多个扬声器馈送的多个渲染算法中的一者相关联,且其中所述用于渲染多个扬声器馈送的装置包括用于使用与所述索引相关联的多个渲染算法中的一者从音频对象渲染多个扬声器馈送的装置。
如第四实例的装置,其中所述信号值包含定义一索引的两个或多于两个位,所述索引与用于将球面谐波系数渲染到多个扬声器馈送的多个渲染算法中的一者相关联,且其中所述用于渲染多个扬声器馈送的装置包括用于使用与所述索引相关联的多个渲染算法中的一者从球面谐波系数渲染多个扬声器馈送的装置。
如第四实例的装置,其中所述用于确定音频渲染信息的装置包含用于从位流基于每音频帧确定音频渲染信息的装置。
如第四实例的装置,其中所述用于确定音频渲染信息的装置包含用于从位流单次确定音频渲染信息的装置。
在第六实例中,一种其上存储有指令的非暂时性计算机可读存储媒体,所述指令在执行时致使一或多个处理器:确定音频渲染信息,所述音频渲染信息包含识别当产生多信道音频内容时使用的音频渲染器的信号值;及基于位流中指定的音频渲染信息渲染多个扬声器馈送。
图8A到8D为说明根据本发明中描述的技术形成的位流21A到21D的图。在图8A的实例中,位流21A可表示上文图2到4中所展示的位流21的一个实例。位流21A包含音频渲染信息2A,其包含定义信号值554的一或多个位。此信号值554可表示下文所描述信息类型的任何组合。位流21A还包含音频内容558,其可表示音频内容7/9的一个实例。
在图8B的实例中,位流21B可类似于位流21A,其中音频渲染信息2B的信号值554包括索引554A、定义传信矩阵的行大小554B的一或多个位、定义传信矩阵的列大小554C的一或多个位,及矩阵系数554D。索引554A可使用两个到五个位定义,而行大小554B及列大小554C中的每一者可使用两个到十六个位定义。
提取单元72可提取索引554A并确定所述索引是否传信矩阵包含于位流21B中(其中例如0000或1111的某些索引值可传信矩阵明确地指定于位流21B中)。在图8B的实例中,位流21B包含传信矩阵明确地指定于位流21B中的索引554A。结果,提取单元72可提取行大小554B及列大小554C。提取单元72可经配置以计算位数目来解析随行大小554B、列大小554C及每一矩阵系数的所传信(图8A中未展示)或暗示位大小而变的表示矩阵系数。使用所确定位数目,提取单元72可提取矩阵系数554D,音频重放系统16可使用所述矩阵系数来配置如上文所描述的音频渲染器22中的一者。虽然展示为在位流21B中单次传信音频渲染信息2B,但音频渲染信息2B可在位流21B中多次传信或至少部分或完全在单独带外信道中多次传信(在一些情况下作为任选数据)。
在图8C的实例中,位流21C可表示上文图2到4中所展示的位流21的一个实例。位流21C包含音频渲染信息2C,其包含在此实例中指定算法索引554E的信号值554。位流21C还包含音频内容558。算法索引554E可使用两个到五个位定义,如上文所提到,其中此算法索引554E可识别当渲染音频内容558时使用的渲染算法。
提取单元72可提取算法索引550E并确定算法索引554E是否传信矩阵包含于位流21C中(其中例如0000或1111的某些索引值可传信矩阵明确地指定于位流21C中)。在图8C的实例中,位流21C包含传信矩阵并未明确地指定于位流21C中的算法索引554E。结果,提取单元72将算法索引554E转递到音频重放系统16,所述音频重放系统选择对应一个(如果可用)渲染算法(其在图2到4的实例中表示为渲染器22)。虽然展示为在位流21C中单次传信音频渲染信息2C,但在图8C的实例中,音频渲染信息2C可在位流21C中多次传信或至少部分或完全在单独带外信道中多次传信(在一些情况下作为任选数据)。
在图8D的实例中,位流21D可表示上文图2到4中所展示的位流21的一个实例。位流21D包含音频渲染信息2D,其包含在此实例中指定矩阵索引554F的信号值554。位流21D还包含音频内容558。矩阵索引554F可使用两个到五个位定义,如上文所提到,其中此矩阵索引554F可识别当渲染音频内容558时使用的渲染算法。
提取单元72可提取矩阵索引550F并确定矩阵索引554F是否传信矩阵包含于位流21D中(其中例如0000或1111的某些索引值可传信矩阵明确地指定于位流21C中)。在图8D的实例中,位流21D包含传信矩阵并未明确地指定于位流21D中的矩阵索引554F。结果,提取单元72将矩阵索引554F转递到音频重放装置,所述音频重放装置选择渲染器22中的对应一者(如果可用)。虽然展示为在位流21D中单次传信音频渲染信息2D,但在图8D的实例中,音频渲染信息2D可在位流21D中多次传信或至少部分或完全在单独带外信道中多次传信(在一些情况下作为任选数据)。
图8E到8G为较详细说明可指定经压缩空间分量的位流或旁侧信道信息的部分的图。图8E说明位流21的帧249A'的第一实例。在图8E的实例中,帧249A'包含ChannelSideInfoData(CSID)字段154A到154C、HOAGainCorrectionData(HOAGCD)字段,及VVectorData字段156A及156B。CSID字段154A包含unitC 267、bb 266及ba 265连同ChannelType 269,其中的每一者设定成图8E的实例中所展示的对应值01、1、0及01。CSID字段154B包含unitC 267、bb 266及ba 265连同ChannelType 269,其中的每一者设定成图8E的实例中所展示的对应值01、1、0及01。CSID字段154C包含具有3的值的ChannelType字段269。CSID字段154A到154C中的每一者对应于输送信道1、2及3中的相应一者。实际上,每一CSID字段154A到154C指示对应有效负载156A及156B是基于方向的信号(当对应ChannelType等于零时)、基于向量的信号(当对应ChannelType等于一时)、额外环境HOA系数(当对应ChannelType等于二时)还是空信号(当ChannelType等于三时)。
在图8E的实例中,帧249A包含两个基于向量的信号(在ChannelType 269在CSID字段154A及154B中等于1的条件下)及空信号(在ChannelType 269在CSID字段154C中等于3的条件下)。基于前述HOAconfig部分(为易于说明目的未展示),音频解码装置24可确定所有16个V向量元素经编码。因此,VVectorData 156A及156B各自包含所有16个向量元素,其中的每一者用8个位均匀量化。
如图8E的实例中所进一步展示,帧249A'并不包含HOAPredictionInfo字段。HOAPredictionInfo字段可表示对应于第二基于方向的压缩方案的字段,当基于向量的压缩方案用于压缩HOA音频数据时,可根据本发明中描述的技术移除所述第二基于方向的压缩方案。
图8F为说明除了已从存储到帧249A”的每一输送信道移除HOAGainCorrectionData之外实质上类似于帧249A的帧249A”的图。当根据上文所描述技术的各种方面抑制增益校正时,可从帧249A”移除HOAGainCorrectionData字段。
图8G为说明除了移除HOAPredictionInfo字段之外可类似于帧249A”的帧249A”'的图。帧249A”'表示可结合应用所述技术的两方面以移除在某些情形中可不必要的各种字段的一个实例。
可相对于任何数目个不同上下文及音频生态系统执行前述技术。下文描述数个实例上下文,但所述技术不应限于所述实例上下文。一个实例音频生态系统可包含音频内容、电影工作室、音乐工作室、游戏音频工作室、基于信道的音频内容、译码引擎、游戏音频原声、游戏音频译码/渲染引擎,及递送系统。
电影工作室、音乐工作室及游戏音频工作室可接收音频内容。在一些实例中,音频内容可表示获取的输出。电影工作室可例如通过使用数字音频工作站(DAW)输出基于信道的音频内容(例如,呈2.0、5.1及7.1)。音乐工作室可例如通过使用DAW输出基于信道的音频内容(例如,呈2.0及5.1)。在任一情况下,译码引擎可基于一或多个编解码器(例如,AAC、AC3、杜比高清HD、杜比数字增强版及DTS主体音频)接收并编码基于信道的音频内容以用于由递送系统输出。游戏音频工作室可例如通过使用DAW输出一或多个游戏音频原声。游戏音频译码/渲染引擎可译码音频原声及或将音频原声渲染成基于信道的音频内容以用于由递送系统输出。可执行所述技术的另一实例上下文包括音频生态系统,其可包含广播记录音频对象、专业音频系统、消费型装置上捕获、HOA音频格式、装置上渲染、消费型音频、TV及附件及汽车音频系统。
广播记录音频对象、专业音频系统及消费型装置上捕获都可使用HOA音频格式对其输出进行译码。以此方式,可使用HOA音频格式将音频内容译码成单一表示,可使用装置上渲染、消费型音频、TV及附件及汽车音频系统重放所述单一表示。换句话说,可在通用音频重放系统(即,与要求例如5.1、7.1等的特定配置相反)(例如,音频重放系统16)处重放音频内容的单一表示。
可执行所述技术的上下文的其它实例包含可包含获取元件及重放元件的音频生态系统。获取元件可包含有线及/或无线获取装置(例如,本征麦克风)、装置上环绕声捕获及移动装置(例如,智能电话及平板计算机)。在一些实例中,有线及/或无线获取装置可经由有线及/或无线通信信道耦合到移动装置。
根据本发明的一或多种技术,移动装置可用于获取声场。举例来说,移动装置可经由有线及/或无线获取装置及/或装置上环绕声捕获(例如,集成到移动装置中的多个麦克风)获取声场。移动装置可接着将所获取声场译码成HOA系数以用于由重放元件中的一或多者重放。举例来说,移动装置的用户可记录实况事件(例如,集会、会议、比赛、音乐会等)(获取实况事件的声场),且将记录译码成HOA系数。
移动装置还可利用重放元件中的一或多者来重放经HOA译码声场。举例来说,移动装置可解码经HOA译码的声场,且将致使重放元件中的一或多者重新创建声场的信号输出到重放元件中的一或多者。作为一个实例,移动装置可利用无线及/或无线通信信道将信号输出到一或多个扬声器(例如,扬声器阵列、声棒等)。作为另一实例,移动装置可利用对接解决方案将信号输出到一或多个对接站及/或一或多个对接扬声器(例如,智能汽车及/或家庭中的声音系统)。作为另一实例,移动装置可利用头戴式耳机渲染将信号输出到一组头戴式耳机(例如)以创建真实的立体声声音。
在一些实例中,特定移动装置可获取3D声场且在稍后时间重放同一3D声场。在一些实例中,移动装置可获取3D声场,将3D声场编码为HOA且将经编码3D声场发射到一或多个其它装置(例如,其它移动装置及/或其它非移动装置)以用于重放。
可执行所述技术的又一上下文包含音频生态系统,其可包含音频内容、游戏工作室、经译码音频内容、渲染引擎及递送系统。在一些实例中,游戏工作室可包含可支持HOA信号的编辑的一或多个DAW。举例来说,一或多个DAW可包含可经配置以与一或多个游戏音频系统一起操作(例如,工作)的HOA插件及/或工具。在一些实例中,游戏工作室可输出支持HOA的新原声格式。在任何情况下,游戏工作室可将经译码音频内容输出到渲染引擎,所述渲染引擎可渲染声场以用于由递送系统重放。
也可相对于示范性音频获取装置执行所述技术。举例来说,可相对于可包含共同地经配置以记录3D声场的多个麦克风的本征麦克风执行所述技术。在一些实例中,本征麦克风的多个麦克风可位于具有大约4cm的半径的实质上球形球的表面上。在一些实例中,音频编码装置20可集成到本征麦克风中以便直接从麦克风输出位流21。
另一示范性音频获取上下文可包含可经配置以从一或多个麦克风(例如,一或多个本征麦克风)接收信号的制作车。制作车还可包含音频编码器,例如图3的音频编码器20。
在一些情况下,移动装置还可包含共同地经配置以记录3D声场的多个麦克风。换句话说,多个麦克风可具有X、Y、Z分集。在一些实例中,移动装置可包含可旋转以相对于移动装置的一或多个其它麦克风提供X、Y、Z分集的麦克风。移动装置还可包含音频编码器,例如图3的音频编码器20。
加固型视频捕获装置可进一步经配置以记录3D声场。在一些实例中,加固型视频捕获装置可附接到参与活动的用户的头盔。举例来说,加固型视频捕获装置可在用户泛舟时附接到用户的头盔。以此方式,加固型视频捕获装置可捕获表示用户周围的动作(例如,水在用户身后的撞击、另一泛舟者在用户前方说话等)的3D声场。
还可相对于可经配置以记录3D声场的附件增强型移动装置执行所述技术。在一些实例中,移动装置可类似于上文所论述的移动装置,其中添加一或多个附件。举例来说,本征麦克风可附接到上文所提到的移动装置以形成附件增强型移动装置。以此方式,附件增强型移动装置可捕获3D声场的较高质量版本,而不是仅使用与附件增强型移动装置成一体式的声音捕获组件。
下文进一步论述可执行本发明中描述的技术的各种方面的实例音频重放装置。根据本发明的一或多种技术,扬声器及/或声棒在重放3D声场时可布置于任何任意配置中。此外,在一些实例中,头戴式耳机重放装置可经由有线或无线连接耦合到解码器24。根据本发明的一或多种技术,可利用声场的单一通用表示来在扬声器、声棒及头戴式耳机重放装置的任何组合上渲染声场。
数个不同实例音频重放环境也可适于执行本发明中描述的技术的各种方面。举例来说,以下环境可为用于执行本发明中描述的技术的各种方面的合适环境:5.1扬声器重放环境、2.0(例如,立体声)扬声器重放环境、具有全高前扩音器的9.1扬声器重放环境、22.2扬声器重放环境、16.0扬声器重放环境、汽车扬声器重放环境,及具有耳机重放环境的移动装置。
根据本发明的一或多种技术,可利用声场的单一通用表示来在前述重放环境中的任一者上渲染声场。另外,本发明的技术使得渲染器能够从通用表示渲染声场以用于在除上文所描述的环境之外的重放环境上重放。举例来说,如果设计考虑禁止扬声器根据7.1扬声器重放环境的恰当放置(例如,如果不可能放置右环绕扬声器),则本发明的技术使得渲染器能够以其它6个扬声器进行补偿,使得可在6.1扬声器重放环境上实现重放。
此外,用户可在佩戴头戴式耳机时观看运动比赛。根据本发明的一或多种技术,可获取运动比赛的3D声场(例如,可将一或多个本征麦克风放置于棒球场中及/或周围),可获得对应于3D声场的HOA系数且将所述HOA系数发射到解码器,所述解码器可基于HOA系数重建构3D声场且将经重建构3D声场输出到渲染器,且所述渲染器可获得关于重放环境的类型(例如,头戴式耳机)的指示,且将经重建构3D声场渲染成致使头戴式耳机输出运动比赛的3D声场的表示的信号。
在上文所描述各种情况中的每一者中,应理解,音频编码装置20可执行方法,或另外包括用于执行音频编码装置20经配置以执行的方法的每一步骤的装置。在一些情况下,所述装置可包括一或多个处理器。在一些情况下,一或多个处理器可表示借助于存储到非暂时性计算机可读存储媒体的指令配置的专用处理器。换句话说,编码实例的集合中的每一者中的技术的各种方面可提供其上存储有指令的非暂时性计算机可读存储媒体,所述指令在执行时致使一或多个处理器执行音频编码装置20已经配置以执行的方法。
在一或多个实例中,所描述功能可用硬件、软件、固件或其任何组合实施。如果以软件实施,则所述功能可作为一或多个指令或代码在计算机可读媒体上存储或发射,且由基于硬件的处理单元来执行。计算机可读媒体可包含计算机可读存储媒体,其对应于例如数据存储媒体的有形媒体。数据存储媒体可为可由一或多个计算机或一或多个处理器存取以检索用于实施本发明中描述的技术的指令、代码及/或数据结构的任何可用媒体。计算机程序产品可包含计算机可读媒体。
同样地,在上文所描述的各种情况中的每一者中,应理解,音频解码装置24可执行方法或另外包括用于执行音频解码装置24经配置以执行的方法的每一步骤的装置。在一些情况下,所述装置可包括一或多个处理器。在一些情况下,一或多个处理器可表示借助于存储到非暂时性计算机可读存储媒体的指令配置的专用处理器。换句话说,编码实例的集合中的每一者中的技术的各种方面可提供其上存储有指令的非暂时性计算机可读存储媒体,所述指令在执行时致使一或多个处理器执行音频解码装置24已经配置以执行的方法。
借助于实例而非限制,此类计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器或可用来存储呈指令或数据结构形式的所要程序代码且可由计算机存取的任何其它媒体。然而,应理解,所述计算机可读存储媒体及数据存储媒体并不包含连接、载波、信号或其它暂时性媒体,而是实际上针对非暂时性的有形存储媒体。如本文中所使用,磁盘及光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘及蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘利用激光以光学方式再现数据。上文各项的组合也应包含在计算机可读媒体的范围内。
可由例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路的一或多个处理器执行指令。因此,如本文中所使用的术语“处理器”可指前述结构或适于实施本文中所描述的技术的任一其它结构中的任一者。另外,在一些方面中,本文中所描述的功能性可在经配置用于编码及解码的专用硬件及/或软件模块内提供,或并入在组合编解码器中。而且,所述技术可完全实施于一或多个电路或逻辑元件中。
本发明的技术可在广泛多种装置或设备中实施,包括无线手持机、集成电路(IC)或一组IC(例如,芯片组)。本发明中描述各种组件、模块或单元是为了强调经配置以执行所公开的技术的装置的功能方面,但未必要求由不同硬件单元实现。实际上,如上文所描述,各种单元可结合合适的软件及/或固件组合在编解码器硬件单元中,或通过互操作硬件单元的集合来提供,所述硬件单元包含如上文所描述的一或多个处理器。
已经描述了所述技术的各种方面。所述技术的这些及其它方面在所附权利要求书的范围内。
Claims (20)
1.一种经配置以重建构用于渲染多个扬声器馈送的矩阵的装置,所述装置包括:
一或多个处理器,其经配置以:
从包含高阶立体混响系数的经编码版本的位流获得指示用于渲染所述多个扬声器馈送的所述矩阵的稀疏性的稀疏性信息以及指示所述矩阵的值对称性的值对称性信息;
从所述位流获得用于表示所述矩阵的位数目的指示;
基于所述稀疏性信息、所述值对称性信息及所述位数目的所述指示,重建构所述矩阵;及
输出经重建构矩阵以及所述多个扬声器馈送;以及
存储器,其耦合到所述一或多个处理器,且经配置以存储所述稀疏性信息。
2.根据权利要求1所述的装置,其中所述一或多个处理器进一步经配置以确定将使用所述矩阵从所述高阶立体混响系数渲染所述多个扬声器馈送的扬声器布局。
3.根据权利要求1所述的装置,其进一步包括经配置以基于所述多个扬声器馈送再现由所述高阶立体混响系数表示的声场的扬声器。
4.根据权利要求1所述的装置,其中所述一或多个处理器进一步经配置以获得指示识别当产生多信道音频内容时使用的音频渲染器的信号值的音频渲染信息,并基于所述音频渲染信息渲染所述多个扬声器馈送。
5.根据权利要求4所述的装置,
其中所述信号值包含用于将所述高阶立体混响系数渲染到多信道音频数据的所述矩阵,且
其中所述一或多个处理器经配置以基于包含于所述信号值中的所述矩阵渲染所述多个扬声器馈送。
6.根据权利要求1所述的装置,其进一步包括一或多个扬声器,其耦合到所述一或多个处理器,且经配置以基于所述多个扬声器馈送再现声场。
7.一种重建构用于渲染多个扬声器馈送的矩阵的方法,所述方法包括:
通过音频解码装置从包含高阶立体混响系数的经编码版本的位流获得指示用于渲染所述多个扬声器馈送的所述矩阵的稀疏性的稀疏性信息以及指示所述矩阵的值对称性的值对称性信息;
通过所述音频解码装置且基于所述值对称性信息及所述稀疏性信息,从所述位流获得用于表示所述矩阵的位数目的指示;
通过所述音频解码装置且基于所述值对称性信息、所述稀疏性信息以及所述位数目的所述指示,重建构所述矩阵;及
通过所述音频解码装置输出经重建构矩阵以及所述多个扬声器馈送。
8.根据权利要求7所述的方法,其进一步包括确定将使用所述矩阵从所述高阶立体混响系数渲染所述多个扬声器馈送的扬声器布局。
9.根据权利要求7所述的方法,其进一步包括基于所述多个扬声器馈送再现由所述高阶立体混响系数表示的声场。
10.根据权利要求7所述的方法,其进一步包括获得指示识别当产生所述多个扬声器馈送时使用的音频渲染器的信号值的音频渲染信息;及
基于所述音频渲染信息渲染所述多个扬声器馈送。
11.根据权利要求10所述的方法,
其中所述信号值包含用于将所述高阶立体混响系数渲染到所述多个扬声器馈送的所述矩阵,且
其中所述方法进一步包括基于包含于所述信号值中的所述矩阵渲染所述多个扬声器馈送。
12.根据权利要求7所述的方法,其进一步包括通过耦合到所述音频解码装置的一或多个扬声器,基于所述多个扬声器馈送再现声场。
13.一种经配置以产生位流的装置,所述装置包括:
存储器,其经配置以存储用于渲染多个扬声器馈送的矩阵;及
一或多个处理器,其耦合到所述存储器且经配置以:
获得指示用于渲染所述多个扬声器馈送的所述矩阵的稀疏性的稀疏性信息;
获得指示所述矩阵的值对称性的值对称性信息;
基于所述稀疏性信息及所述值对称性信息,压缩所述矩阵;
获得用于表示经压缩矩阵的位数目的指示;及
在所述位流中,指定所述稀疏性信息、所述值对称性信息、位数目的所述指示及高阶立体混响系数的经编码版本。
14.根据权利要求13所述的装置,其中所述一或多个处理器进一步经配置以确定将使用所述矩阵从所述高阶立体混响系数渲染所述多个扬声器馈送的扬声器布局。
15.根据权利要求13所述的装置,其进一步包括经配置以捕获由所述高阶立体混响系数表示的声场的麦克风。
16.根据权利要求13所述的装置,
其中所述一或多个处理器进一步经配置以确定指示所述矩阵的正负号对称性的正负号对称性信息;且
其中所述一或多个处理器经配置以基于所述正负号对称性信息、所述值对称性信息以及所述稀疏性信息,压缩所述矩阵。
17.一种产生位流的方法,所述方法包括:
通过音频编码装置获得指示用于渲染多个扬声器馈送的矩阵的稀疏性的稀疏性信息;
通过所述音频编码装置获得指示所述矩阵的值对称性的值对称性信息;
通过所述音频编码装置,基于所述稀疏性信息以及所述值对称性信息,压缩所述矩阵;
通过所述音频编码装置获得用于表示经压缩矩阵的位数目的指示;及
通过所述音频编码装置在所述位流中指定所述稀疏性信息、所述值对称性信息、位数目的所述指示及高阶立体混响系数的经编码版本。
18.根据权利要求17所述的方法,其进一步包括确定指示所述矩阵的正负号对称性的正负号对称性信息;且
其中压缩所述矩阵包括基于所述正负号对称性信息、所述值对称性信息以及所述稀疏性信息,压缩所述矩阵。
19.根据权利要求17所述的方法,其进一步包括确定将使用所述矩阵从所述高阶立体混响系数渲染所述多个扬声器馈送的扬声器布局。
20.根据权利要求17所述的方法,其进一步包括捕获由所述高阶立体混响系数表示的声场。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910995684.6A CN110827839B (zh) | 2014-05-30 | 2015-05-29 | 用于渲染高阶立体混响系数的装置和方法 |
Applications Claiming Priority (9)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201462005829P | 2014-05-30 | 2014-05-30 | |
US62/005,829 | 2014-05-30 | ||
US201462023662P | 2014-07-11 | 2014-07-11 | |
US62/023,662 | 2014-07-11 | ||
US14/724,560 US9609452B2 (en) | 2013-02-08 | 2015-05-28 | Obtaining sparseness information for higher order ambisonic audio renderers |
US14/724,560 | 2015-05-28 | ||
CN201910995684.6A CN110827839B (zh) | 2014-05-30 | 2015-05-29 | 用于渲染高阶立体混响系数的装置和方法 |
PCT/US2015/033262 WO2015184307A1 (en) | 2014-05-30 | 2015-05-29 | Obtaining sparseness information for higher order ambisonic audio renderers |
CN201580028070.0A CN106415712B (zh) | 2014-05-30 | 2015-05-29 | 用于渲染高阶立体混响系数的装置和方法 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580028070.0A Division CN106415712B (zh) | 2014-05-30 | 2015-05-29 | 用于渲染高阶立体混响系数的装置和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110827839A CN110827839A (zh) | 2020-02-21 |
CN110827839B true CN110827839B (zh) | 2023-09-19 |
Family
ID=53366340
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580028070.0A Active CN106415712B (zh) | 2014-05-30 | 2015-05-29 | 用于渲染高阶立体混响系数的装置和方法 |
CN201910995684.6A Active CN110827839B (zh) | 2014-05-30 | 2015-05-29 | 用于渲染高阶立体混响系数的装置和方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580028070.0A Active CN106415712B (zh) | 2014-05-30 | 2015-05-29 | 用于渲染高阶立体混响系数的装置和方法 |
Country Status (9)
Country | Link |
---|---|
EP (1) | EP3149971B1 (zh) |
JP (1) | JP6297721B2 (zh) |
KR (1) | KR101818877B1 (zh) |
CN (2) | CN106415712B (zh) |
BR (1) | BR112016028215B1 (zh) |
CA (1) | CA2949108C (zh) |
ES (1) | ES2699657T3 (zh) |
HU (1) | HUE042058T2 (zh) |
WO (1) | WO2015184307A1 (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
BR112019021241A2 (pt) | 2017-04-18 | 2020-05-12 | Omnio Sound Limited | Método para reprodução de som, e, dispositivo. |
GB2572419A (en) * | 2018-03-29 | 2019-10-02 | Nokia Technologies Oy | Spatial sound rendering |
EP3782152A2 (en) * | 2018-04-16 | 2021-02-24 | Dolby Laboratories Licensing Corporation | Methods, apparatus and systems for encoding and decoding of directional sound sources |
US10999693B2 (en) * | 2018-06-25 | 2021-05-04 | Qualcomm Incorporated | Rendering different portions of audio data using different renderers |
US11798569B2 (en) | 2018-10-02 | 2023-10-24 | Qualcomm Incorporated | Flexible rendering of audio data |
CN110764696B (zh) * | 2019-09-26 | 2020-10-16 | 开放智能机器(上海)有限公司 | 向量信息存储及更新的方法、装置、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101379553A (zh) * | 2006-02-07 | 2009-03-04 | Lg电子株式会社 | 用于编码/解码信号的装置和方法 |
WO2014012945A1 (en) * | 2012-07-16 | 2014-01-23 | Thomson Licensing | Method and device for rendering an audio soundfield representation for audio playback |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101342425B1 (ko) * | 2008-12-19 | 2013-12-17 | 돌비 인터네셔널 에이비 | 다중-채널의 다운믹싱된 오디오 입력 신호에 리버브를 적용하기 위한 방법 및 다중-채널의 다운믹싱된 오디오 입력 신호에 리버브를 적용하도록 구성된 리버브레이터 |
AU2010305313B2 (en) * | 2009-10-07 | 2015-05-28 | The University Of Sydney | Reconstruction of a recorded sound field |
US9042560B2 (en) * | 2009-12-23 | 2015-05-26 | Nokia Corporation | Sparse audio |
EP2450880A1 (en) * | 2010-11-05 | 2012-05-09 | Thomson Licensing | Data structure for Higher Order Ambisonics audio data |
RU2617553C2 (ru) * | 2011-07-01 | 2017-04-25 | Долби Лабораторис Лайсэнзин Корпорейшн | Система и способ для генерирования, кодирования и представления данных адаптивного звукового сигнала |
EP2637427A1 (en) * | 2012-03-06 | 2013-09-11 | Thomson Licensing | Method and apparatus for playback of a higher-order ambisonics audio signal |
-
2015
- 2015-05-29 WO PCT/US2015/033262 patent/WO2015184307A1/en active Application Filing
- 2015-05-29 ES ES15727842T patent/ES2699657T3/es active Active
- 2015-05-29 JP JP2016569942A patent/JP6297721B2/ja active Active
- 2015-05-29 CN CN201580028070.0A patent/CN106415712B/zh active Active
- 2015-05-29 HU HUE15727842A patent/HUE042058T2/hu unknown
- 2015-05-29 CA CA2949108A patent/CA2949108C/en active Active
- 2015-05-29 EP EP15727842.5A patent/EP3149971B1/en active Active
- 2015-05-29 BR BR112016028215-9A patent/BR112016028215B1/pt active IP Right Grant
- 2015-05-29 CN CN201910995684.6A patent/CN110827839B/zh active Active
- 2015-05-29 KR KR1020167033117A patent/KR101818877B1/ko active IP Right Grant
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101379553A (zh) * | 2006-02-07 | 2009-03-04 | Lg电子株式会社 | 用于编码/解码信号的装置和方法 |
WO2014012945A1 (en) * | 2012-07-16 | 2014-01-23 | Thomson Licensing | Method and device for rendering an audio soundfield representation for audio playback |
Also Published As
Publication number | Publication date |
---|---|
EP3149971A1 (en) | 2017-04-05 |
BR112016028215A2 (pt) | 2017-08-22 |
KR20170015897A (ko) | 2017-02-10 |
EP3149971B1 (en) | 2018-08-29 |
CA2949108A1 (en) | 2015-12-03 |
CN106415712A (zh) | 2017-02-15 |
BR112016028215B1 (pt) | 2022-08-23 |
JP6297721B2 (ja) | 2018-03-20 |
WO2015184307A1 (en) | 2015-12-03 |
CN110827839A (zh) | 2020-02-21 |
HUE042058T2 (hu) | 2019-06-28 |
CA2949108C (en) | 2019-02-26 |
KR101818877B1 (ko) | 2018-01-15 |
JP2017520177A (ja) | 2017-07-20 |
CN106415712B (zh) | 2019-11-15 |
ES2699657T3 (es) | 2019-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9870778B2 (en) | Obtaining sparseness information for higher order ambisonic audio renderers | |
US9883310B2 (en) | Obtaining symmetry information for higher order ambisonic audio renderers | |
US10412522B2 (en) | Inserting audio channels into descriptions of soundfields | |
US9847088B2 (en) | Intermediate compression for higher order ambisonic audio data | |
CN110827839B (zh) | 用于渲染高阶立体混响系数的装置和方法 | |
EP3143617B1 (en) | Crossfading between higher order ambisonic signals | |
EP3143618B1 (en) | Closed loop quantization of higher order ambisonic coefficients | |
EP3363213B1 (en) | Coding higher-order ambisonic coefficients during multiple transitions | |
CA2950014C (en) | Obtaining symmetry information for higher order ambisonic audio renderers | |
TW202029185A (zh) | 音訊資料之靈活渲染 | |
TW202429445A (zh) | 音訊資料之靈活渲染 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |