CN106463121B - 较高阶立体混响信号压缩 - Google Patents
较高阶立体混响信号压缩 Download PDFInfo
- Publication number
- CN106463121B CN106463121B CN201580025867.5A CN201580025867A CN106463121B CN 106463121 B CN106463121 B CN 106463121B CN 201580025867 A CN201580025867 A CN 201580025867A CN 106463121 B CN106463121 B CN 106463121B
- Authority
- CN
- China
- Prior art keywords
- hoa coefficient
- audio
- vector
- unit
- environment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000006835 compression Effects 0.000 title claims abstract description 51
- 238000007906 compression Methods 0.000 title claims abstract description 51
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 47
- 238000003860 storage Methods 0.000 claims abstract description 31
- 239000011159 matrix material Substances 0.000 claims description 208
- 238000004458 analytical method Methods 0.000 claims description 139
- 238000000034 method Methods 0.000 claims description 86
- 238000009826 distribution Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 8
- 230000002708 enhancing effect Effects 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 97
- 239000013598 vector Substances 0.000 description 523
- 239000011229 interlayer Substances 0.000 description 103
- 230000000875 corresponding effect Effects 0.000 description 50
- 238000013139 quantization Methods 0.000 description 36
- 230000015572 biosynthetic process Effects 0.000 description 31
- 230000006870 function Effects 0.000 description 31
- 238000003786 synthesis reaction Methods 0.000 description 31
- 230000009467 reduction Effects 0.000 description 25
- 238000006243 chemical reaction Methods 0.000 description 24
- 238000010612 desalination reaction Methods 0.000 description 24
- 238000004364 calculation method Methods 0.000 description 23
- 230000033458 reproduction Effects 0.000 description 23
- 238000000605 extraction Methods 0.000 description 22
- 230000008859 change Effects 0.000 description 19
- 230000011664 signaling Effects 0.000 description 19
- 230000009466 transformation Effects 0.000 description 18
- 230000008901 benefit Effects 0.000 description 14
- 239000007787 solid Substances 0.000 description 14
- 230000008569 process Effects 0.000 description 11
- 239000000758 substrate Substances 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 230000017105 transposition Effects 0.000 description 10
- 230000005236 sound signal Effects 0.000 description 9
- 230000005540 biological transmission Effects 0.000 description 8
- 238000012544 monitoring process Methods 0.000 description 8
- 239000002131 composite material Substances 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 241001269238 Data Species 0.000 description 6
- 238000005259 measurement Methods 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 230000006837 decompression Effects 0.000 description 5
- 230000007613 environmental effect Effects 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 5
- 239000012141 concentrate Substances 0.000 description 4
- 238000003780 insertion Methods 0.000 description 4
- 230000037431 insertion Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 230000002787 reinforcement Effects 0.000 description 4
- 230000010415 tropism Effects 0.000 description 4
- 230000000386 athletic effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 238000007667 floating Methods 0.000 description 3
- 230000033001 locomotion Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 238000003032 molecular docking Methods 0.000 description 3
- 238000010189 synthetic method Methods 0.000 description 3
- 241000208340 Araliaceae Species 0.000 description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 2
- 230000000712 assembly Effects 0.000 description 2
- 238000000429 assembly Methods 0.000 description 2
- 238000009792 diffusion process Methods 0.000 description 2
- 235000008434 ginseng Nutrition 0.000 description 2
- 239000010410 layer Substances 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000000513 principal component analysis Methods 0.000 description 2
- 230000008707 rearrangement Effects 0.000 description 2
- VEMKTZHHVJILDY-UHFFFAOYSA-N resmethrin Chemical compound CC1(C)C(C=C(C)C)C1C(=O)OCC1=COC(CC=2C=CC=CC=2)=C1 VEMKTZHHVJILDY-UHFFFAOYSA-N 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 2
- 108091064702 1 family Proteins 0.000 description 1
- AZUYLZMQTIKGSC-UHFFFAOYSA-N 1-[6-[4-(5-chloro-6-methyl-1H-indazol-4-yl)-5-methyl-3-(1-methylindazol-5-yl)pyrazol-1-yl]-2-azaspiro[3.3]heptan-2-yl]prop-2-en-1-one Chemical compound ClC=1C(=C2C=NNC2=CC=1C)C=1C(=NN(C=1C)C1CC2(CN(C2)C(C=C)=O)C1)C=1C=C2C=NN(C2=CC=1)C AZUYLZMQTIKGSC-UHFFFAOYSA-N 0.000 description 1
- VBRBNWWNRIMAII-WYMLVPIESA-N 3-[(e)-5-(4-ethylphenoxy)-3-methylpent-3-enyl]-2,2-dimethyloxirane Chemical compound C1=CC(CC)=CC=C1OC\C=C(/C)CCC1C(C)(C)O1 VBRBNWWNRIMAII-WYMLVPIESA-N 0.000 description 1
- ZAKOWWREFLAJOT-CEFNRUSXSA-N D-alpha-tocopherylacetate Chemical compound CC(=O)OC1=C(C)C(C)=C2O[C@@](CCC[C@H](C)CCC[C@H](C)CCCC(C)C)(C)CCC2=C1C ZAKOWWREFLAJOT-CEFNRUSXSA-N 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000005284 basis set Methods 0.000 description 1
- 210000000481 breast Anatomy 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000035939 shock Effects 0.000 description 1
- GOLXNESZZPUPJE-UHFFFAOYSA-N spiromesifen Chemical compound CC1=CC(C)=CC(C)=C1C(C(O1)=O)=C(OC(=O)CC(C)(C)C)C11CCCC1 GOLXNESZZPUPJE-UHFFFAOYSA-N 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/002—Dynamic bit allocation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
Abstract
本发明大体上揭示用于音频数据的压缩和解码的系统和技术。用于压缩表示声场的较高阶立体混响HOA系数的实例装置包含:存储器,其经配置以存储音频数据;以及一或多个处理器,其经配置以:基于一或多个奇异值确定何时使用所述HOA系数中的环境HOA系数来增强通过所述HOA系数的分解获得的一或多个前景音频对象,所述一或多个奇异值也是通过所述HOA系数的所述分解获得,所述环境HOA系数表示所述声场的环境分量。
Description
本申请案主张以下各者的权益:
2014年5月16日申请的第61/994,800号美国临时申请案;以及
2014年5月28日申请的第62/004,145号美国临时申请案,以上申请案中的每一者的整个内容以引用的方式并入本文中。
技术领域
本发明涉及音频数据,并且更具体来说涉及音频数据的压缩。
背景技术
较高阶立体混响(HOA)信号(常由多个球谐系数(SHC)或其它阶层元素表示)是声场的三维表示。HOA或SHC表示可以独立于用以重放从SHC信号再现的多信道音频信号的局部扬声器几何布置的方式来表示声场。SHC信号还可促进向后兼容性,因为可将SHC信号再现为众所周知的且被广泛采用的多信道格式(例如,5.1音频信道格式或7.1音频信道格式)。SHC表示因此可实现对声场的更好表示,其也适应向后兼容性。
发明内容
一般来说,描述用于较高阶立体混响(HOA)压缩的技术。在各种实例中,所述技术是基于与音频对象相关联的能量(或能量值)中的一或多者以及位分配机制。
在一个方面中,一种压缩表示声场的较高阶立体混响(HOA)系数的方法包含:基于一或多个奇异值确定何时使用所述HOA系数中的环境HOA系数来增强通过所述HOA系数的分解获得的一或多个前景音频对象,所述一或多个奇异值也是通过所述HOA系数的所述分解获得,所述环境HOA系数表示所述声场的环境分量。
在另一方面,用于对表示声场的经编码较高阶立体混响(HOA)系数进行解码的方法包含基于与所述声场的音频对象相关联的能量而对所述音频对象分配位,所述音频对象是通过所述经编码HOA系数的分解而获得。
在另一方面,用于压缩表示声场的较高阶立体混响(HOA)系数的装置包含:存储器,其经配置以存储音频数据;以及一或多个处理器,其经配置以:基于一或多个奇异值确定何时使用所述HOA系数中的环境HOA系数来增强通过所述HOA系数的分解获得的一或多个前景音频对象,所述一或多个奇异值也是通过所述HOA系数的所述分解获得,所述环境HOA系数表示所述声场的环境分量。
在另一方面,用于压缩表示声场的较高阶立体混响(HOA)系数的装置包含:用于基于一或多个奇异值确定何时使用所述HOA系数中的环境HOA系数来增强通过所述HOA系数的分解获得的一或多个前景音频对象的装置,所述一或多个奇异值也是通过所述HOA系数的所述分解获得,所述环境HOA系数表示所述声场的环境分量。
在附图和以下描述中陈述所述技术的一或多个方面的细节。所述技术的其它特征、目标及优点将从所述描述及图式以及权利要求书中显而易见。
附图说明
图1是说明具有各种阶数及子阶数的球谐基底函数的图。
图2是说明可执行本发明中所描述的技术的各种方面的系统的图。
图3是更详细说明可执行本发明中描述的技术的各种方面的图2的实例中所示的音频编码装置的一个实例的框图。
图4是更详细说明图2的音频解码装置的框图。
图5A是说明音频编码装置执行本发明中所描述的分解技术的各种方面的示范性操作的流程图。
图5B是说明音频编码装置执行本发明中所描述的译码技术的各种方面的示范性操作的流程图。
图6是说明音频解码装置在执行本发明中描述的技术的各种方面中的示范性操作的流程图。
图7是说明用于各种音频对象的奇异值的线图集合的概念图。
图8是说明根据本文所描述的技术的音频对象信令方案的概念图。
图9A到9D是说明可执行本发明中描述的技术的各种方面的系统以及图9A的广播网络中心的概念图。
图10是更详细说明可执行本发明中描述的技术的各种方面的图9A的实例中所示的空间音频编码装置的一个实例的框图。
图11是更详细说明图9A的音频解码装置的框图。
具体实施方式
环绕声的演进现今已使得许多输出格式可用于娱乐。此等消费型环绕声格式的实例大部分为“信道”式的,这是因为其以某些几何坐标隐含地指定到扩音器的馈入。消费型环绕声格式包含普遍的5.1格式(其包含以下六个信道:左前(FL)、右前(FR)、中心或前中心、左后或左环绕、右后或右环绕,及低频效应(LFE))、发展中的7.1格式、包含高度扬声器的各种格式,例如7.1.4格式及22.2格式(例如,用于供超高清晰电视标准使用)。非消费型格式可涵括任何数目的扬声器(成对称和非对称几何形状),其常常称为“环绕阵列”。此种阵列的一个实例包含定位在截角二十面体的拐角上的坐标处的32个扩音器。
到未来MPEG编码器的输入任选地为三个可能格式中的一者:(i)传统的基于信道的音频(如上文所论述),其意图由处于预先指定的位置处的扩音器重放;(ii)基于对象的音频,其涉及用于单个音频对象的具有含有其位置坐标(以及其它信息)的相关联元数据的离散脉码调制(PCM)数据;及(iii)基于场景的音频,其涉及使用球谐基底函数的系数(也称为“球谐系数”或SHC、“较高阶立体混响”或HOA及“HOA系数”)来表示声场。此未来MPEG编码器可更详细地描述于国际标准化组织/国际电工委员会(ISO)/(IEC)JTC1/SC29/WG11/N13411的标题为“要求对于3D音频的提议(Call for Proposals for 3D Audio)”的文献中,该文献于2013年1月在瑞士日内瓦发布,且可在http://mpeg.chiariglione.org/sites/default/files/files/standards/parts/docs/w13411.zip获得。
在市场中存在各种“环绕声”基于信道的格式。它们的范围(例如)是从5.1家庭影院系统(其在使起居室享有立体声方面已获得最大成功)到NHK(日本广播协会或日本广播公司)所开发的22.2系统。内容创建者(例如,好莱坞工作室)将希望产生电影的声迹一次,而不花费精力来针对每一扬声器配置对其进行重混。近来,标准开发组织(StandardsDeveloping Organizations)一直在考虑如下方式:提供到标准化位流中的编码,以及后续解码,其可调适且不知晓重放位置(涉及再现器)处的扬声器几何形状(和数目)以及声学条件。
为向内容创建者提供此种灵活性,可使用阶层元素集合来表示声场。所述阶层元素集合可指其中元素经排序以使得较低阶元素的基础集合提供模型化声场的完整表示的一组元素。在所述集合扩展以包含高阶元素时,所述表示变得更详细,从而增加分辨率。
阶层元素集合的一个实例为球谐系数(SHC)的集合。以下表达式示范使用SHC对声场的描述或表示:
所述表达式展示了在时间t处在声场的任一点处的压力pi可以通过SHC,唯一地表示。此处,c是声速(~343m/s),是参考点(或观察点),jn(·)是阶数n的球面贝塞尔函数,且是阶数n且子阶数m的球谐基底函数。可以认识到,在方括号中的项是信号的频域表示(即,),其可由各种时频变换近似表示,例如离散傅里叶变换(DFT)、离散余弦变换(DCT)或小波变换。基层集合的其它实例包含小波变换系数的集合和多分辨率基底函数的系数的其它集合。
图1是说明从零阶(n=0)到四阶(n=4)的球谐基底函数的图。如可看出,对于每一阶,存在子阶m的扩展,出于易于说明的目的,在图1的实例中展示所述子阶但未明确注释。
SHC可由各种麦克风阵列配置物理获取(例如,记录),或者,其可从声场的基于信道或基于对象的描述导出。SHC表示基于场景的音频,其中SHC可输入到音频编码器以获得经编码SHC,所述经编码SHC可促成更有效的发射或存储。举例来说,可使用涉及(1+4)2个(25,且因此为第四阶)系数的四阶表示。
如上文所指出,可使用麦克风阵列从麦克风记录导出SHC。可如何从麦克风阵列导出SHC的各种实例描述于波莱蒂·M(Poletti,M)的“基于球谐的三维环绕声系统(Three-Dimensional Surround Sound Systems Based on Spherical Harmonics)”(听觉工程学协会会刊(J.Audio Eng.Soc.),第53卷,第11期,2005年11月,第1004-1025页)中。
为说明可如何从基于对象的描述导出SHC,考虑以下等式。用于对应于个别音频对象的声场的系数可以表达为:
其中i是 是阶数n的球面汉克尔函数(第二种),且是对象的位置。知道对象源能量g(ω)为频率的函数(例如,使用时频分析技术,例如对PCM流执行快速傅立叶变换)允许我们将每一PCM对象和对应位置转换为SHC此外可展示(因为以上是线性且正交分解)用于每一对象的系数是加性的。以此方式,大量PCM对象可以由系数表示(例如,作为用于个别对象的系数向量的总和)。基本上,所述系数含有关于声场的信息(随着3D坐标而变的压力),且以上表示在观测点附近从个别对象到总体声场的表示的变换。下文在基于对象和基于SHC的音频译码的上下文中描述其余各图。
图2是说明可执行本发明中所描述的技术的各种方面的系统10的图。如图2的实例中所示,系统10包含内容创建者装置12和内容消费者装置14。尽管在内容创建者装置12和内容消费者装置14的上下文中描述,但可在其中声场的SHC(其也可称为HOA系数)或任何其它阶层表示经编码以形成表示音频数据的位流的任何上下文中实施所述技术。此外,内容创建者装置12可表示能够实施本发明中所描述的技术的任何形式的计算装置,包含手机(或蜂窝电话)、平板计算机、智能电话或台式计算机(提供几个实例)。同样,内容消费者装置14可表示能够实施本发明中所描述的技术的任何形式的计算装置,包含手持机(或蜂窝式电话)、平板计算机、智能电话、机顶盒,或台式计算机(提供几个实例)。
内容创建者装置12可由电影工作室或可产生多信道音频内容以供内容消费者装置(例如,内容消费者装置14)的操作者消耗的其它实体来操作。在一些实例中,内容创建者装置12可由将希望压缩HOA系数11的个别用户操作。内容创建者通常产生音频内容与视频内容。内容消费者装置14可由个人操作。内容消费者装置14可包含音频重放系统16,其可指能够再现SHC以供作为多信道音频内容重放的任何形式的音频重放系统。
内容创建者装置12包含音频编辑系统18。内容创建者装置12获得各种格式(包含直接作为HOA系数)的实况记录7和音频对象9,内容创建者装置12可使用音频编辑系统18对其进行编辑。麦克风5可俘获实况记录7。内容创建者可在编辑过程期间再现来自音频对象9的HOA系数11,从而收听所再现的扬声器馈送以试图识别需要进一步编辑的声场的各个方面。内容创建者装置12可接着编辑HOA系数11(可能经由操纵可以上文所描述的方式从中导出源HOA系数的音频对象9中的不同者而间接地编辑)。内容创建者装置12可采用音频编辑系统18来产生HOA系数11。音频编辑系统18表示能够编辑音频数据且输出所述音频数据作为一或多个源球谐系数的任何系统。在一些实例中,麦克风5可包含三维(3D)麦克风,可为三维麦克风或者是三维麦克风的部分。
当编辑过程完成时,内容创建者装置12可基于HOA系数11产生位流21。也就是说,内容创建者装置12包含音频编码装置20,其表示经配置以根据本发明中描述的技术的各个方面编码或以其它方式压缩HOA系数11以产生位流21的装置。音频编码装置20可产生位流21以供(作为一个实例)跨越发射信道发射,所述发射信道可为有线或无线信道、数据存储装置等。位流21可表示HOA系数11的经编码版本,且可包含主要位流和另一旁侧位流(其可称为旁侧信道信息)。
虽然在图2中展示为直接发射到内容消费者装置14,但内容创建者装置12可将位流21输出到位于内容创建者装置12与内容消费者装置14之间的中间装置。中间装置可存储位流21以供稍后传递到可请求所述位流的内容消费者装置14。所述中间装置可包括文件服务器、网络服务器、台式计算机、膝上型计算机、平板计算机、移动电话、智能电话,或能够存储位流21以供音频解码器稍后检索的任何其它装置。中间装置可驻留在能够将位流21(且可能结合发射对应视频数据位流)串流到请求位流21的订户(例如,内容消费者装置14)的内容传递网络中。
或者,内容创建者装置12可将位流21存储到存储媒体,例如压缩光盘、数字视频光盘、高清视频光盘或其它存储媒体,其中大多数能够由计算机读取且因此可称为计算机可读存储媒体或非暂时性计算机可读存储媒体。在此上下文中,发射信道可指代借以发射存储到媒体的内容的信道(且可包含零售商店及其它基于商店的传递机构)。在任何情况下,本发明的技术因此就此而言不应限于图2的实例。
如图2的实例中进一步所示,内容消费者装置14包含音频重放系统16。音频重放系统16可表示能够重放多信道音频数据的任何音频重放系统。音频重放系统16可包含若干不同再现器22。再现器22可各自提供不同形式的再现,其中所述不同形式的再现可包含执行基于向量的振幅平移(VBAP)的各种方式中的一或多者,和/或执行声场合成的各种方式中的一或多者。如本文所使用,“A和/或B”意味着“A或B”,或“A和B”两者。
音频重放系统16可进一步包含音频解码装置24。音频解码装置24可表示经配置以解码来自位流21的HOA系数11'的装置,其中HOA系数11'可类似于HOA系数11但归因于有损操作(例如,量化)和/或经由发射信道的发射而不同。音频重放系统16可随后解码位流21以获得HOA系数11'且再现HOA系数11'以输出扩音器馈送25。扩音器馈送25可驱动一或多个扩音器(其为便于说明的目的在图2的实例中未图示)。
为了选择适当再现器或在一些情况下产生适当再现器,音频重放系统16可获得指示扩音器的数目和/或扩音器的空间几何布置的扩音器信息13。在一些情况下,音频重放系统16可使用参考麦克风获得扩音器信息13且以动态地确定扩音器信息13的方式驱动所述扩音器。在其它情况下或结合动态确定扩音器信息13,音频重放系统16可提示用户与音频重放系统16介接并输入扩音器信息13。
音频重放系统16可随后基于扩音器信息13选择音频再现器22中的一者。在一些情况下,在音频再现器22中无一者处于至扩音器信息13中所指定的扩音器几何结构的某一阈值相似性量度(就扩音器几何结构而言)内时,音频重放系统16可基于扩音器信息13产生音频再现器22中的一者。音频重放系统16可在一些情况下基于扩音器信息13产生音频再现器22中的一者,而不首先尝试选择音频再现器22中的现有一者。一或多个扬声器3接着可重放经再现的扩音器馈送25。
图3为更详细说明可执行本发明中描述的技术的各种方面的图2的实例中所示的音频编码装置20的一个实例的框图。音频编码装置20包含内容分析单元26、基于向量的分解单元27和基于方向的分解单元28。尽管下文简要描述,但关于音频编码装置20及压缩或以其它方式编码HOA系数的各种方面的更多信息可在2014年5月29日申请的标题为“用于声场的经分解表示的内插(INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUNDFIELD)”的第WO 2014/194099号国际专利申请公开案中获得。
内容分析单元26表示经配置以分析HOA系数11的内容以识别HOA系数11表示从实况记录产生的内容还是从音频对象产生的内容的单元。内容分析单元26可确定HOA系数11是从实际声场的记录产生还是从人工音频对象产生。在一些情况下,当帧式HOA系数11是从记录产生时,内容分析单元26将HOA系数11传递到基于向量的分解单元27。在一些情况下,当帧式HOA系数11是从合成音频对象产生时,内容分析单元26将HOA系数11传递到基于方向的合成单元28。基于方向的合成单元28可表示经配置以执行HOA系数11的基于方向的合成以产生基于方向的位流21的单元。
如在图3的实例中所展示,基于向量的分解单元27可包含线性可逆变换(LIT)单元30、参数计算单元32、重排序单元34、前景选择单元36、能量补偿单元38、心理声学音频译码器单元40(任选)、位流产生单元42、声场分析单元44、系数减少单元46、背景(BG)选择单元48、空间-时间内插单元50以及量化单元52。心理声学音频译码器单元40在图3中以短划线边界展示,以说明心理声学音频译码器单元40相对于音频编码装置20的不同实施方案的任选的性质。
线性可逆变换(LIT)单元30接收呈HOA信道形式的HOA系数11,每一信道表示与球面基底函数的给定阶数、子阶数相关联的系数的块或帧(其可表示为HOA[k],其中k可表示样本的当前帧或块)。HOA系数11的矩阵可具有维度D:M×(N+1)2。
LIT单元30可表示经配置以执行被称作奇异值分解的分析形式的单元。虽然相对于SVD加以描述,但可相对于提供数组线性不相关的能量密集输出的任何类似变换或分解执行本发明中所描述的技术。此外,在本发明中对“集合”的参考一般希望指代“非零”集合(除非特定地相反陈述),且并不希望指代包含所谓的“空集合”的集合的经典数学定义。替代变换可包括常常被称作“PCA”的主分量分析。取决于上下文,PCA可由若干不同名称指代,例如离散卡亨南-洛维变换、霍特林变换、恰当正交分解(POD)和本征值分解(EVD),仅举几例。有利于压缩音频数据的基本目标的此种操作的特性为多信道音频数据的“能量压缩”和“去相关”。
在任何情况下,出于实例的目的,假定LIT单元30执行奇异值分解(其再次可被称作“SVD”),LIT单元30可将HOA系数11变换成两个或更多个经变换HOA系数的集合。经变换HOA系数的“集合”可包含经变换HOA系数的向量。在图3的实例中,LIT单元30可相对于HOA系数11执行SVD以产生所谓的V矩阵、S矩阵及U矩阵。在线性代数中,SVD可按如下形式表示y乘z实数或复数矩阵X(其中X可表示多信道音频数据,例如HOA系数11)的因子分解:
X=USV*
U可表示y乘y实数或复数单位矩阵,其中U的y列被称为多信道音频数据的左奇异向量。S可表示在对角线上具有非负实数的y乘z矩形对角线矩阵,其中S的对角线值被称为多信道音频数据的奇异值。V*(其可表示V的共轭转置)可表示z乘z实数或复数单位矩阵,其中V*的z列被称为多信道音频数据的右奇异向量。
在一些实例中,以上提及的SVD数学表达式中的V*矩阵表示为V矩阵的共轭转置以反映SVD可应用于包括复数的矩阵。当应用于仅包括实数的矩阵时,V矩阵的复数共轭(或换句话说,V*矩阵)可被视为V矩阵的转置。下文中为容易说明的目的,假定HOA系数11包括实数,结果是经由SVD而非V*矩阵输出V矩阵。此外,尽管在本发明中表示为V矩阵,但对V矩阵的提及应理解为在适当的情况下涉及V矩阵的转置。尽管假定为V矩阵,但所述技术可以类似方式应用于具有复数系数的HOA系数11,其中SVD的输出为V*矩阵。因此,就此而言,所述技术不应限于仅提供应用SVD以产生V矩阵,而是可包含将SVD应用于具有复数分量的HOA系数11以产生V*矩阵。
以此方式,LIT单元30可相对于HOA系数11执行SVD以输出具有维度D:M x(N+1)2的US[k]向量33(其可表示S向量及U向量的组合版本)及具有维度D:(N+1)2×(N+1)2的V[k]向量35。US[k]矩阵中的个别向量元素也可以被称为XPS(k),而V[k]矩阵的个别向量也可以被称为v(k)。
U、S及V矩阵的分析可显示,这些矩阵携载或表示上文由X表示的基本声场的空间及时间特征。U(长度为M个样本)中的N个向量中的每一者可表示依据时间(对于由M个样本表示的时间周期)的经正规化的分离音频信号,其彼此正交且已与任何空间特性(其也可被称作方向信息)解耦。表示空间形状和位置的空间特性可实际上由V矩阵(长度(N+1)2的每一者)中的个别第i向量v(i)(k)表示。v(i)(k)向量中的每一者的个别元素可表示描述相关联音频对象的声场的形状(包含宽度)和位置的HOA系数。U矩阵和V矩阵中的向量均经正规化而使得其均方根能量等于单位。U中的音频信号的能量因而由S中的对角线元素表示。将U与S相乘以形成US[k](具有个别向量元素XPS(k)),因此表示具有能量的音频信号。SVD分解使音频时间信号(U中)、其能量(S中)与其空间特性(V中)解耦的能力可支持本发明中所描述的技术的各个方面。另外,通过US[k]与V[k]的向量乘法合成基本HOA[k]系数X的模型给出贯穿此文献使用的术语“基于向量的分解”。
尽管描述为直接相对于HOA系数11执行,但LIT单元30可将线性可逆变换应用到HOA系数11的导出项。举例来说,LIT单元30可相对于从HOA系数11导出的功率谱密度矩阵应用SVD。通过相对于HOA系数的功率谱密度(PSD)而非系数本身执行SVD,LIT单元30可在处理器循环及存储空间的一或多者方面可能地降低执行SVD的计算复杂性,同时实现相同的源音频编码效率,如同SVD是直接应用于HOA系数一般。
参数计算单元32表示经配置以计算各种参数的单元,所述参数例如相关性参数(R)、方向性质参数及能量性质(e)。用于当前帧的参数中的每一者可表示为R[k]、θ[k]、r[k]及e[k]。参数计算单元32可相对于US[k]向量33执行能量分析和/或相关(或所谓的交叉相关)以识别这些参数。参数计算单元32还可确定先前帧的参数,其中先前帧参数可基于具有US[k-1]向量及V[k-1]向量的先前帧表示为R[k-1]、θ[k-1]、r[k-1]及e[k-1]。参数计算单元32可将当前参数37和先前参数39输出到重排序单元34。
由参数计算单元32计算的参数可供重排序单元34用以将音频对象重排序以表示其自然评估或随时间推移的连续性。重排序单元34可逐轮地将来自第一US[k]向量33的参数37中的每一者与第二US[k-1]向量33的参数39中的每一者相比较。重排序单元34可基于当前参数37及先前参数39对US[k]矩阵33及V[k]矩阵35内的各种向量重排序(作为一个实例,使用匈牙利算法)以输出经重排序的US[k]矩阵33'(其可数学表示为及经重排序的V[k]矩阵35'(其可数学表示为)至前景声音(或优势的声音-PS)选择单元36(“前景选择单元36”)及能量补偿单元38。
声场分析单元44可表示经配置以相对于HOA系数11执行声场分析以便有可能实现目标位速率41的单元。声场分析单元44可基于所述分析和/或基于所接收目标位速率41,确定心理声学译码器示例的总数目(其可为环境或背景信道的总数目(BGTOT)的函数)和前景信道(或换句话说,占优势信道)的数目。心理声学译码器执行个体的总数可表示为numHOATransportChannels。
再次为了潜在地实现目标位速率41,声场分析单元44还可确定前景信道的总数(nFG)45、背景(或换句话说,环境)声场的最小阶数(NBG或替代地,MinAmbHoaOrder)、表示背景声场的最小阶数的实际信道的对应数目(nBGa=(MinAmbHoaOrder+1)2),及要发送的额外BG HOA信道的索引(i)(其在图3的实例中可共同地表示为背景信道信息43)。背景信道信息42也可被称作环境信道信息43。保持来自numHOATransportChannels-nBGa的信道中的每一者可为“额外背景/环境信道”、“作用中的基于向量的占优势信道”、“作用中的基于方向的占优势信号”或“完全非作用”。在一个方面中,可通过两个位将信道类型指示为(如“ChannelType”)语法元素(例如,00:基于方向的信号;01:基于向量的占优势信号;10:额外环境信号;11:非作用信号)。可由(MinAmbHoaOrder+1)2+索引10(在以上实例中)在用于所述帧的位流中作为信道类型出现的次数给出背景或环境信号的总数目nBGa。
声场分析单元44可基于目标位速率41选择背景(或换句话说,环境)信道的数目及前景(或换句话说,占优势)信道的数目,从而在目标位速率41相对较高时(例如,在目标位速率41等于或大于512Kbps时)选择更多背景及/或前景信道。在一个方面中,在位流的标头部分中,numHOATransportChannels可设定为8,而MinAmbHOAorder可设定为1。在此情境下,在每个帧处,四个信道可专用于表示声场的背景或环境部分,而其它4个信道可逐帧地在信道类型上变化--例如,用作额外背景/环境信道或前景/占优势信道。前景/占优势信号可为基于向量或基于方向的信号中的一者,如上文所描述。
在一些情况下,用于帧的基于向量的占优势信号的总数目可通过ChannelType索引在所述帧的位流中是01的次数给出。在上述方面中,对于每个额外背景/环境信道(例如,对应于ChannelType 10),可在所述信道中表示可能的HOA系数中的哪一者的对应信息(超出前四)。对于四阶HOA内容,所述信息可为指示HOA系数5至25的索引。可在minAmbHOAorder设定为1时始终发送前四个环境HOA系数1至4,因此,音频编码装置可能仅需要指示额外环境HOA系数中具有索引5至25中的一者。因而可使用5位语法元素(对于四阶内容)发送所述信息,其可表示为“CodedAmbCoeffIdx”。在任何情况下,声场分析单元44将背景信道信息43及HOA系数11输出到背景(BG)选择单元36,将背景信道信息43输出到系数减少单元46及位流产生单元42,且将nFG 45输出到前景选择单元36。
根据本发明的一或多个方面,声场分析单元44可经配置以执行音频数据的基于奇异值的压缩。根据本文所描述的技术中的一些技术,声场分析单元44可通过分析与US[k]向量33和V[k]向量35或由此衍生的向量相关联的一或多个奇异值而选择(例如,“描述”)HOA系数11。在一些实例中,声场分析单元可分析与S[k]向量33”相关联的奇异值。举例来说,S[k]向量33”可表示不与对应‘U’矩阵相乘或尚未与其相乘的‘S’矩阵。仅为了便于论述,US[k]向量33、S[k]向量33”、V[k]向量35、由此衍生的任何向量和其任何组合在本文统称为“所接收的向量”、“所接收的HOA信号”或“所接收的音频数据”。
根据本文所描述的一或多个技术,声场分析单元44可分析与所接收的音频数据相关联的奇异值,以确定使用HOA系数11和/或背景信道信息43来描述所接收的音频数据的方式。在本文所描述的技术的一个实例中,声场分析单元44可确定是否仅使用前景音频对象或替代地使用前景和背景音频对象两者来表示所接收的音频数据。
在一些情况下,声场分析单元44可基于与所接收的音频数据的背景音频对象相关联的奇异值而确定所接收的HOA信号可使用几个(例如,四个或五个)奇异值来表示,所述奇异值全部与所接收的音频数据的前景音频对象相关联。如果声场分析单元44确定所接收的HOA信号可仅使用前景音频对象来表示,那么声场分析单元44可不用信号表示所接收的音频对象的任何背景音频对象。实际上,在此情境下,声场分析单元44可仅用信号表示前景音频对象作为HOA系数11的部分以表示所接收的HOA信号。
为了确定是否用信号表示所接收的音频数据的任何背景音频对象,声场分析单元44可分析与所接收的音频数据的背景音频对象相关联的奇异值,例如由S[k]向量33”指定的奇异值。举例来说,声场分析单元44可确定由与背景技术音频对象相关联的S[k]向量33”(或其属性,例如振幅)指定的奇异值是否足够低而使得可仅使用前景音频对象来表示或另外描述所接收的音频数据。在此实例中,如果声场分析单元44确定如由S[k]向量33”指定的背景音频对象的奇异值足够低(例如,充分接近于零),那么声场分析单元44可不对所接收的音频数据的任何背景信息进行译码。
通过在此情形中不对背景信息进行译码,声场分析单元44可仅使用前景信息对所接收的音频数据的敏感项目进行译码。换句话说,声场分析单元44可基于与所接收的音频数据相关联的奇异值对所接收的音频数据的敏感项目进行译码。以此方式,声场分析单元44可基于与背景信息相关联的奇异值实施本发明的技术以通过消除背景信息的译码和/或信令而节省计算资源和通信带宽。
在其中声场分析单元44确定不基于由S[k]向量33”指定的奇异值对任何背景音频对象进行译码和/或用信号表示的一个实例中,声场分析单元44可对所接收的音频数据的总共六个前景音频对象进行译码。相比之下,根据常规技术,声场分析单元44可在产生HOA系数11和背景信道信息43时对两个前景音频对象和四个背景对象进行译码。以此方式,在其中前景音频对象潜在地更重要和/或敏感的情形中,声场分析单元44可实施本发明的技术以利用可用位速率和带宽来对潜在地更多前景音频对象进行译码和用信号表示,同时不考虑背景音频对象。举例来说,敏感音频对象可指示显著影响将在位流中指定的总体音频内容的音频数据或者另外与其相关联。
虽然上文相对于声场分析单元44进行描述,但将理解音频编码装置20的各种其它组件可实施上述技术。举例来说,位流产生单元42可在其中背景音频对象与足够低奇异值相关联的情形中将所有可用位分配给前景音频对象。相反,如果背景音频对象与显著足以保证背景音频对象的信令的奇异值相关联,那么位流产生单元42可将一些可用位分配给背景音频对象的位流指定(和例如信令)(例如,除了将剩余可用位分配给前景音频对象的信令外)。以此方式,上述技术也可以经由位分配机构实施,例如由位流产生单元42实施的位分配机构。
如上文所描述,在一些情况下,声场分析单元44可使用本发明的基于奇异值的技术确定不基于由S[k]向量33”指定的奇异值对任何背景音频对象进行译码和/或用信号表示。其中声场分析单元44确定不对任何背景音频对象进行译码的情形在本文中被称作“仅前景模式”。以下表1说明当根据仅前景模式对音频对象进行译码时声场分析单元44可使用的语法。
表1
为了使用仅前景模式,声场分析单元44将背景音频对象的数目设定为等于零。因此,根据上方表1中说明的语法,声场分析单元可将MinNumOfCoeffsForAmbHOA语法元素设定为零的值。
以下表2说明在其中声场分析单元44确定对声场的前景和背景音频对象两者进行译码的情形中声场分析单元44可使用的语法。更具体来说,声场分析单元44可使用表2中说明的语法来设置前景音频对象的数目和背景音频对象的数目,可使用下表。
表2
背景选择单元48可表示经配置以基于背景信道信息(例如,背景声场(NBG)以及待发送的额外BG HOA信道的数目(nBGa)及索引(i))确定背景或环境HOA系数47的单元。举例来说,当NBG等于一时,背景选择单元48可选择具有等于或小于一的阶数的音频帧的每一样本的HOA系数11。在此实例中,背景选择单元48可接着选择具有由索引(i)中的一者识别的索引的HOA系数11作为额外BG HOA系数,其中将待于位流21中指定的nBGa提供到位产生单元42以便使得音频解码装置(例如,图2及4的实例中所展示的音频解码装置24)能够从位流21解析背景HOA系数47。背景选择单元48可接着将环境HOA系数47输出到能量补偿单元38。环境HOA系数47可具有维度D:M×[(NBG+1)2+nBGa]。环境HOA系数47也可被称作“环境HOA系数47”,其中环境HOA系数47中的每一者对应于待由心理声学音频译码器单元40编码的单独环境HOA信道47。
前景选择单元36可表示经配置以基于nFG 45(其可表示识别前景向量的一或多个索引)选择表示声场的前景或不同分量的经重排序的US[k]矩阵33'及经重排序的V[k]矩阵35'的单元。前景选择单元36可将nFG信号49(其可表示为经重排序的US[k]1,…,nFG 49、FG1,…,nfG[k]49或49)输出到心理声学音频译码器单元40,其中nFG信号49可具有维度D:M x nFG且各自表示单音频对象。前景选择单元36还可将对应于声场的前景分量的经重排序的V[k]矩阵35'(或v(1..nFG)(k)35')输出到空间-时间内插单元50,其中经重排序的V[k]矩阵35'中的对应于前景分量的子集可表示为具有维度D:(N+1)2×nFG的前景V[k]矩阵51k(其可在数学上表示为)。
能量补偿单元38可表示经配置以相对于环境HOA系数47执行能量补偿以补偿归因于由背景选择单元48移除HOA信道中的各者而产生的能量损失的单元。能量补偿单元38可相对于经重排序的US[k]矩阵33'、经重排序的V[k]矩阵35'、nFG信号49、前景V[k]向量51k及环境HOA系数47中的一或多者执行能量分析,且接着基于所述能量分析执行能量补偿以产生经能量补偿的环境HOA系数47'。能量补偿单元38可将经能量补偿的环境HOA系数47'输出到心理声学音频译码器单元40。
空间-时间内插单元50可表示经配置以接收第k帧的前景V[k]向量51k及先前帧(因此为k-1记法)的前景V[k-1]向量51k-1且执行空间-时间内插以产生经内插的前景V[k]向量的单元。空间-时间内插单元50可将nFG信号49与前景V[k]向量51k重新组合以恢复经重排序的前景HOA系数。空间-时间内插单元50可接着将经重排序的前景HOA系数除以经内插的V[k]向量以产生经内插的nFG信号49'。空间-时间内插单元50还可输出用于产生经内插前景V[k]向量的前景V[k]向量51k使得例如音频解码装置24等音频解码装置可产生经内插前景V[k]向量且借此恢复前景V[k]向量51k。将用于产生经内插的前景V[k]向量的前景V[k]向量51k表示为其余前景V[k]向量53。为了确保在编码器及解码器处使用相同的V[k]及V[k-1](以创建经内插的向量V[k]),可在编码器及解码器处使用向量的经量化/经解量化版本。空间-时间内插单元50可将经内插的nFG信号49'输出到心理声学音频译码器单元46且将经内插的前景V[k]向量51k输出到系数减少单元46。
系数减少单元46可表示经配置以基于背景信道信息43相对于剩余前景V[k]向量53执行系数减少以将经减少的前景V[k]向量55输出到量化单元52的单元。经减少的前景V[k]向量55可具有维度D:[(N+1)2-(NBG+1)2-BGTOT]×nFG。系数减少单元46可在这方面中表示经配置以减少其余前景V[k]向量53中的系数数目的单元。换句话说,系数减少单元46可表示经配置以消除(形成其余前景V[k]向量53的)前景V[k]向量中的具有极少至不具有方向信息的系数的单元。在一些实例中,相异或(换句话说)前景V[k]向量的对应于一阶及零阶基底函数的系数(其可表示为NBG)提供极少方向信息,且因此可从前景V向量移除(经由可被称作“系数减少”的过程)。在此实例中,可提供较大灵活性以不仅从集合[(NBG+1)2+1,(N+1)2]识别对应于NBG的系数而且识别额外HOA信道(其可由变量TotalOfAddAmbHOAChan表示)。
量化单元52可表示经配置以执行任何形式的量化以压缩减少的前景V[k]向量55以产生经译码前景V[k]向量57,从而将经译码前景V[k]向量57输出到位流产生单元42的单元。在操作中,量化单元52可表示经配置以压缩声场的空间分量的单元,即在此实例中经减少前景V[k]向量55中的一或多者。量化单元52可执行如通过表示为“NbitsQ”的量化模式语法元素指示的以下12种量化模式中的任一者:
量化单元52还可执行前述类型的量化模式中的任一者的预测版本,其中确定先前帧的V向量的元素(或执行向量量化时的权数)与当前帧的V向量的元素(或执行向量量化时的权数)之间的差。量化单元52可接着将当前帧与先前帧的元素或权数之间的差而非当前帧本身的V向量的元素的值量化。
量化单元52可相对于减少的前景V[k]向量55中的每一者执行多种形式的量化,以获得减少的前景V[k]向量55的多个经译码版本。量化单元52可选择减少的前景V[k]向量55的经译码版本中的一者作为经译码前景V[k]向量57。换句话说,量化单元52可基于本发明中论述的标准的任何组合选择未经预测的经向量量化的V向量、经预测的经向量量化的V向量、未经霍夫曼译码的经标量量化的V向量及经霍夫曼译码的经标量量化的V向量中的一者,以用作经输出切换量化的V向量。在一些实例中,量化单元52可从包含向量量化模式及一或多个标量量化模式的一组量化模式中选择量化模式,且基于(或根据)所述选定模式量化输入V向量。量化单元52可接着将以下各者中的选定者提供到位流产生单元52以用作经译码前景V[k]向量57:未经预测的经向量量化的V向量(例如,就权数值或指示权数值的位而言)、经预测的经向量量化的V向量(例如,就误差值或指示误差值的位而言)、未经霍夫曼译码的经标量量化的V向量及经霍夫曼译码的经标量量化的V向量。量化单元52还可提供指示量化模式的语法元素(例如,NbitsQ语法元素)及用于将V向量解量化或以其它方式重构V向量的任何其它语法元素。
音频编码装置20内包含的心理声学音频译码器单元40可表示心理声学音频译码器的多个例子,其每一者用于编码经能量补偿环境HOA系数47'和经内插nFG信号49'中的每一者的不同音频对象或HOA信道以产生经编码环境HOA系数59和经编码nFG信号61。心理声学音频译码器单元40可将经编码环境HOA系数59和经编码nFG信号61输出到位流产生单元42。
包括于音频编码装置20内的位流产生单元42表示将数据格式化以符合已知格式(其可指代解码装置已知的格式)借此产生基于向量的位流21的单元。换句话说,位流21可表示以上文所描述的方式编码的经编码音频数据。位流产生单元42在一些实例中可表示多路复用器,其可接收经译码前景V[k]向量57、经编码环境HOA系数59、经编码nFG信号61,和背景信道信息43。位流产生单元42可接着基于经译码前景V[k]向量57、经编码环境HOA系数59、经编码nFG信号61和背景信道信息43产生位流21。以此方式,位流产生单元42可由此在位流21中指定向量57以获得如下文关于图7的实例更详细描述的位流21。位流21可包含主要或主位流和一或多个旁侧信道位流。
根据本发明的一或多个方面,位流产生单元42可基于与音频对象相关联的一或多个奇异值对音频对象分配位。举例来说,在其中背景音频对象的奇异值足够低(例如,在振幅方面)而使得经译码前景V[k]向量57和经编码nFG信号61充分表示或另外描述用信号表示的音频数据的情况下,位流产生单元42可将所有可用位分配给经译码前景V[k]向量57。举例来说,音频对象的奇异值对应于所述音频对象的能量(例如,通过表达能量的平方根)。在用于背景音频对象的V[k]和/或US[k]向量中的大值的小量化误差的情况下,所述量化误差可为可闻的。相反,在用于背景音频对象的V[k]和/或US[k]向量中的小值的小量化误差的情况下,所述量化误差不会为可闻的。
位流产生单元42又可利用量化误差可闻性的这些方面以与和音频对象相关联的奇异值的强度(例如,振幅)成正比的方式对音频对象分配位。举例来说,当音频对象与较小振幅(例如,低于阈值振幅)的奇异值相关联时,位流产生单元42可对此音频对象的信令分配较少数目的可用位(或甚至不分配位)。另一方面,当音频对象与较大振幅(例如,满足或超出阈值振幅)的奇异值相关联时,位流产生单元42可对此音频对象的信令分配较大数目的可用位。
在各种实例中,所接收的音频数据(例如,经译码前景V[k]向量57、经编码环境HOA系数59和经编码nFG信号61)可包含具有较小振幅奇异值的背景音频对象和具有较大振幅奇异值的前景音频对象。在一个此类实例中,位流产生单元42可将所有可用位分配给前景音频对象(例如,如基于向量的位流21中将指定和/或用于信令),且不对背景音频对象分配位(例如,如位流21中将指定和/或用于信令)。在另一此类实例中,位流产生单元42可以与每一相应奇异值的奇异值振幅成比例的方式对前景和背景音频对象中的每一者分配可用位的部分。以此方式,位流产生单元42可以能量的递减次序(例如,重要性)分配位。如所描述,奇异值的振幅描述相关联音频对象的能量的平方根(和/或“本征值”)。
根据本文所描述的一些技术,位流产生单元42可相对于位流21中所指定对可分配给单个音频对象的位数目设定上限(或“封顶”或“最大值”)。通过使可分配给单个音频对象的位数目封顶,位流产生单元42可减轻或消除由将所有位分配给少量音频对象的信令产生的潜在不准确性,所述不准确性又可造成来自基于向量的位流21的其它(潜在地重要/显著)音频对象的表示不存在。
在一些实例中,位流产生单元42可通过应用基于每一音频对象的奇异值的振幅的公式而对音频对象分配位。在一个此类实例中,位流产生单元42可基于音频对象的奇异值的振幅根据音频对象来分配可用位的某一百分比。举例来说,如果第一前景对象具有具0.6的振幅的奇异值,那么位流产生单元42可对第一前景对象分配可用位的60%。另外,如果第二前景对象具有具0.3的振幅的奇异值,那么位流产生单元42可对第二前景对象分配可用位的30%。在此实例中,如果剩余10%也分配给其它前景音频对象,那么位流产生单元不会对任何背景音频对象分配任何位。在此实例中,位流产生单元42可将用于单个音频对象的位的上限设定于60%或更高,从而使60%位分配适应于第一前景对象。
在一些实例中,位流产生单元42可向解码装置用信号表示用于声场的特定位分配方案。举例来说,位流产生单元42可与表示声场的音频对象的位流分开地或“带外”用信号表示位分配方案。在其中位流产生单元42用信号表示用于特定声场的位分配方案的实例中,位分配方案数据可视为相对于声场的描述性信息或所谓的“元数据”。在一些情况下,位流产生单元42还可用信号表示对可分配给单个音频对象的位数目的上限(“封顶”或“最大值”)作为元数据的部分。
尽管在图3的实例中未展示,但音频编码装置20还可包含位流输出单元,所述位流输出单元基于当前帧将使用基于方向的合成还是基于向量的合成或分解进行编码而切换从音频编码装置20输出的位流(例如,在基于方向的位流21与基于向量的位流21之间切换)。位流输出单元可基于由内容分析单元26输出的语法元素执行切换,所述语法元素指示执行了基于方向的合成(由于检测到HOA系数11是从合成音频对象产生)还是执行了基于向量的合成或分解(由于检测到HOA系数是记录的)。位流输出单元可指定正确的标头语法以指示用于当前帧以及位流21中的相应一者的切换或当前编码。
此外,如上文所提及,声场分析单元44可识别BGTOT环境HOA系数47,所述BGTOT环境HOA系数可逐帧改变(但时常BGTOT可跨越两个或更多个邻近(在时间上)帧保持恒定或相同)。BGTOT的改变可导致在减少的前景V[k]向量55中表达的系数的改变。BGTOT的改变可导致背景HOA系数(其也可被称作“环境HOA系数”),所述背景HOA系数逐帧改变(但再次,时常BGTOT可跨越两个或更多个邻近(在时间上)帧保持恒定或相同)。所述改变常常导致声场的各方面的能量改变,所述声场通过额外环境HOA系数的添加或移除及系数从减少的前景V[k]向量55的对应移除或系数至减少的前景V[k]向量55的添加表示。
因此,声场分析单元44可进一步确定环境HOA系数何时从帧至帧改变且产生指示环境HOA系数的改变的旗标或其它语法元素(就用于表示声场的环境分量而言)(其中所述改变也可被称作环境HOA系数的“转变”或环境HOA系数的“转变”)。具体而言,系数减少单元46可产生旗标(其可表示为AmbCoeffTransition旗标或AmbCoeffIdxTransition旗标),从而将所述旗标提供到位流产生单元42,使得可将所述旗标包含在位流21中(有可能作为旁侧信道信息的一部分)。
除指定环境系数转变旗标之外,系数减少单元46也可修改产生减少的前景V[k]向量55的方式。在一个实例中,在确定环境HOA环境系数中的一者在当前帧期间处于转变中时,系数减少单元46可指定用于减少的前景V[k]向量55的V向量中的每一者的向量系数(其也可被称作“向量元素”或“元素”),其对应于处于转变中的环境HOA系数。同样,处于转变中的环境HOA系数可添加至背景系数的BGTOT总数目或从背景系数的BGTOT总数目中移除。因此,背景系数的总数目的所得改变影响环境HOA系数是否包含于位流中,及在上文所描述的第二及第三配置模式中是否针对位流中所指定的V向量包含V向量的对应元素。关于系数减少单元46可如何指定减少的前景V[k]向量55以克服能量的改变的更多信息提供于2015年1月12日申请的标题为“环境较高阶立体混响系数的转变(TRANSITIONING OF AMBIENTHIGHER_ORDER AMBISONIC COEFFICIENTS)”的第14/594,533号美国申请案中。
图4为更详细说明图2的音频解码装置24的框图。如在图4的实例中所展示,音频解码装置24可包含提取单元72、基于方向性的重构单元90及基于向量的重构单元92。尽管下文进行描述,但关于音频解码装置24及解压缩或以其它方式解码HOA系数的各种方面的更多信息可在2014年5月29日申请的标题为“用于声场的经分解表示的内插(INTERPOLATIONFOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD)”的第WO 2014/194099号国际专利申请公开案中获得。
提取单元72可表示经配置以接收位流21和提取HOA系数11的各种经编码版本(例如,基于方向的经编码版本或基于向量的经编码版本)的单元。提取单元72可根据以上所述确定指示HOA系数11是否经由各种基于方向的或基于向量的版本而经编码的语法元素。当执行基于方向的编码时,提取单元72可提取HOA系数11的基于方向的版本及与所述经编码版本相关联的语法元素(其在图4的实例中表示为基于方向的信息91),从而将所述基于方向的信息91传递到基于方向的重构单元90。基于方向的重构单元90可表示经配置以基于所述基于方向的信息91重构呈HOA系数11'的形式的HOA系数的单元。在本发明的其它部分更详细描述位流和位流内的语法元素的布置。
当语法元素指示HOA系数11使用基于向量的合成或分解进行编码时,提取单元72可提取经译码前景V[k]向量57(其可包含经译码权数57及/或索引63或经标量量化的V向量)、经编码环境HOA系数59及对应音频对象61(其也可被称作经编码nFG信号61)。音频对象61各自对应于向量57中的一者。提取单元72可将经译码前景V[k]向量57传递至V向量重构单元74,且将经编码环境HOA系数59以及经编码nFG信号61提供到(任选的)心理声学解码单元80。心理声学解码单元80在图4中以短划线边界展示,以说明心理声学解码单元80相对于音频解码装置24的不同实施方案的任选的性质。
在一些实例中,提取单元72可接收由位流21表示的用于声场的特定位分配方案。举例来说,提取单元72可与表示声场的音频对象的位流分开地或“带外”接收位分配方案。在其中提取单元72接收用于特定声场的位分配方案的实例中,音频解码装置24可使用位分配方案数据作为相对于声场的描述性信息或所谓的“元数据”。
举例来说,音频解码装置24的一或多个组件可使用位分配元数据来对每一用信号表示的音频对象指派特定位数目(其可表达为总位数目的比例)。在仅前景情形中,音频解码装置24可应用所接收的元数据以对声场的前景对象指派声场的所有位。根据上文相对于图3描述的特定仅前景情形,基于由特定前景音频对象显示的个别能量,音频解码装置24可对声场的第一前景音频对象指派声场的总位的60%,对声场的第二前景音频对象指派30%,且可对声场的剩余前景音频对象分布位的剩余10%。
在一些实例中,所接收的元数据还可包含对可分配给单个音频对象的位数目的上限(“封顶”或“最大值”)作为元数据的部分。在这些情况下,音频解码装置24可确定对应声场的个别音频对象不可被分配比所接收的上限更多的位。通过使可分配给单个音频对象的位数目封顶,音频解码装置可减轻或消除由将所有位分配给少量音频对象的再现产生的潜在不准确性,所述不准确性又可造成来自经再现声场的其它(潜在地重要/显著)音频对象的表示不存在。
V向量重构单元74可表示经配置以从经编码前景V[k]向量57重构V向量的单元。V向量重构单元74可以与量化单元52互逆的方式操作。
心理声学解码单元80可以与图3的实例中所展示的心理声学音频译码器单元40互逆的方式操作以便对经编码环境HOA系数59及经编码nFG信号61进行解码且由此产生经能量补偿的环境HOA系数47'及经内插的nFG信号49'(其也可被称作经内插的nFG音频对象49')。心理声学解码单元80可将能量补偿环境HOA系数47'传递到淡化单元770且将nFG信号49'传递到前景制订单元78。
空间-时间内插单元76可以类似于上文相对于空间-时间内插单元50所描述方式的方式操作。空间-时间内插单元76可接收减少的前景V[k]向量55k且相对于前景V[k]向量55k及减少的前景V[k-1]向量55k-1执行空间-时间内插以产生经内插的前景V[k]向量55k”。空间-时间内插单元76可将经内插的前景V[k]向量55k”转发到淡化单元770。
提取单元72还可将指示环境HOA系数中的一者何时处于转变中的信号757输出到淡化单元770,所述淡化单元可接着确定SHCBG 47'(其中SHCBG 47'还可表示为“环境HOA信道47'”或“环境HOA系数47'”)及经内插的前景V[k]向量55k”的元素中的哪一者将淡入或淡出。在一些实例中,淡化单元770可相对于环境HOA系数47'及经内插的前景V[k]向量55k”的元素中的每一者相反地操作。也就是说,淡化单元770可相对于环境HOA系数47'中的对应环境HOA系数执行淡入或淡出或执行淡入或淡出两者,同时相对于经内插的前景V[k]向量55k”的元素中的对应一个元素执行淡入或淡出或执行淡入与淡出两者。淡化单元770可将经调整的环境HOA系数47”输出到HOA系数制订单元82且将经调整的前景V[k]向量55k”'输出到前景制订单元78。在这方面中,淡化单元770表示经配置以相对于HOA系数或其衍生物(例如,呈环境HOA系数47'和经内插前景V[k]向量55k”的元素的形式)的各种方面执行淡化操作的单元。
前景制订单元78可表示经配置以相对于经调整的前景V[k]向量55k”'及经内插的nFG信号49'执行矩阵乘法以产生前景HOA系数65的单元。在这方面中,前景制订单元78可组合音频对象49'(其为借以表示经内插的nFG信号49'的另一种方式)与向量55k”'以重构HOA系数11'的前景(或换句话说,优势)方面。前景制订单元78可执行经内插的nFG信号49'乘以经调整的前景V[k]向量55k”'的矩阵乘法。
HOA系数制订单元82可表示经配置以将前景HOA系数65组合到经调整的环境HOA系数47”以便获得HOA系数11'的单元。撇号记法反映HOA系数11'可类似于HOA系数11但与HOA系数11不相同。HOA系数11与11'之间的差可起因于由于有损发射媒体上的发射、量化或其它有损操作而产生的损失。
图5A为说明音频编码装置(例如图3的实例中所示的音频编码装置20)执行本发明中所描述的分解技术的各个方面的示范性操作的流程图。最初,音频编码装置20接收HOA系数11(106)。音频编码装置20可调用LIT单元30,其可相对于HOA系数应用LIT以输出经变换HOA系数(例如,在SVD的情况下,经变换HOA系数可包括US[k]向量33和V[k]向量35)(107)。
音频编码装置20接下来可调用参数计算单元32以按上文所描述的方式相对于US[k]向量33、US[k-1]向量33、V[k]和/或V[k-1]向量35的任何组合执行上文所描述的分析以识别各种参数。也就是说,参数计算单元32可基于经变换的HOA系数33/35的分析确定至少一个参数(108)。
音频编码装置20可接着调用重排序单元34,重排序单元34基于参数将经变换的HOA系数(再次在SVD的上下文中,其可指US[k]向量33及V[k]向量35)重排序以产生经重排序的经变换的HOA系数33'/35'(或,换句话说,US[k]向量33'及V[k]向量35'),如上文所描述(109)。音频编码装置20可在以上操作或后续操作中的任一者期间还调用声场分析单元44。声场分析单元44可如上文所描述相对于HOA系数11和/或经变换HOA系数33/35执行声场分析以确定前景信道(nFG)45的总数、背景声场(NBG)的次序以及待发送的额外BG HOA信道的数目(nBGa)和指数(i)(其可在图3的实例中统一表示为背景信道信息43)(109)。
音频编码装置20还可调用背景选择单元48。背景选择单元48可基于背景信道信息43确定背景或环境HOA系数47(110)。音频编码装置20可进一步调用前景选择单元36,前景选择单元36可基于nFG 45(其可表示识别前景向量的一或多个索引)选择表示声场的前景或相异分量的经重排序的US[k]向量33'及经重排序的V[k]向量35'(112)。
音频编码装置20可调用能量补偿单元38。能量补偿单元38可相对于环境HOA系数47执行能量补偿以补偿归因于由背景选择单元48移除HOA系数的各者而导致的能量损失(114),且借此产生经能量补偿的环境HOA系数47'。
音频编码装置20也可调用空间-时间内插单元50。空间-时间内插单元50可相对于经重排序的经变换HOA系数33'/35'执行空间-时间内插以获得经内插前景信号49'(其也可被称作“经内插nFG信号49'”)及剩余前景方向信息53(其也可被称作“V[k]向量53”)(116)。音频编码装置20可接着调用系数减少单元46。系数减少单元46可基于背景信道信息43执行相对于剩余前景V[k]向量53的系数减少,以获得减少的前景方向信息55(其也可被称作减少的前景V[k]向量55)(118)。
音频编码装置20可接着调用量化单元52以按上文所描述的方式压缩经减少前景V[k]向量55且产生经译码前景V[k]向量57(120)。
音频编码装置20还可调用心理声学音频译码器单元40。心理声学音频译码器单元40可对经能量补偿的环境HOA系数47'和经内插nFG信号49'的每一向量进行心理声学译码以产生经编码环境HOA系数59和经编码nFG信号61。音频编码装置接着可调用位流产生单元42。位流产生单元42可基于经译码前景方向信息57、经译码环境HOA系数59、经译码nFG信号61和背景信道信息43而产生位流21。
图5B为说明音频编码装置执行本发明中所描述的译码技术的示范性操作的流程图。在图5B的实例中,音频编码装置(例如,图1和2的音频编码装置20)可获得与声场的音频对象相关联的一或多个奇异值(150)。如上文所论述,声场的音频对象可包含前景音频对象和背景音频对象。另外,音频编码装置20可确定从声场的HOA系数获得的奇异值是否集中于声场的几个音频对象当中(152)。举例来说,音频编码装置20可通过计算对应本征值的平方根而获得每一背景音频对象的奇异值。另外,音频编码装置20可将阈值振幅设定为对应于预定最小能量值。
如果音频编码装置20确定音频对象的奇异值集中于声场的仅几个音频对象当中(152的‘是’分支),那么音频编码装置20可仅对声场的前景音频对象进行译码(154)。相反,如果音频编码装置20确定奇异值跨越声场的音频对象相对较多地分布(152的‘否’分支),那么音频编码装置20可对声场的前景和背景音频对象两者进行译码(156)。
另外,在步骤154或视具体情况在154对相应音频对象进行译码之后,音频编码装置20可即刻确定声场的用于经译码音频对象的位分配(158)。在其中音频编码装置20仅对前景音频对象进行译码(154)的实例中,音频编码装置可仅在前景音频对象当中分配位(以各种比例)。在其中音频编码装置20对前景和背景音频对象两者进行译码(156)的实例中,音频编码装置20可在对所有前景音频对象分配必备的位之后在背景音频对象当中分配剩余位。
图6是说明音频解码装置(例如图4的实例中所示的音频解码装置24)在执行本发明中描述的技术的各个方面中的示范性操作的流程图。最初,音频解码装置24可接收位流21(130)。在接收到位流后,音频解码装置24可即刻调用提取单元72。出于论述的目的假定位流21指示将执行基于向量的重构,提取单元72可剖析位流以检索上文所提及的信息,将此信息传递到基于向量的重构单元92。
换句话说,提取单元72可按上文所描述的方式从位流21中提取经译码前景方向信息57(再次,其也可被称作经译码前景V[k]向量57)、经译码环境HOA系数59和经译码前景信号(其也可被称作经译码前景nFG信号59或经译码前景音频对象59)(132)。
音频解码装置24可进一步调用解量化单元74。解量化单元74可对经译码前景方向信息57进行熵解码及解量化以获得经减少的前景方向信息55k(136)。音频解码装置24还可调用心理声学解码单元80。心理声学音频译码单元80可解码经编码环境HOA系数59及经编码前景信号61以获得经能量补偿的环境HOA系数47'及经内插的前景信号49'(138)。心理声学解码单元80可将能量补偿环境HOA系数47'传递到淡化单元770且将nFG信号49'传递到前景制订单元78。
音频解码装置24接下来可调用空间-时间内插单元76。空间-时间内插单元76可接收经重排序的前景方向信息55k'且相对于经减少的前景方向信息55k/55k-1执行空间-时间内插以产生经内插的前景方向信息55k”(140)。空间-时间内插单元76可将经内插的前景V[k]向量55k”转发到淡化单元770。
音频解码装置24可调用淡化单元770。淡化单元770可(例如,从提取单元72)接收或另外获得指示能量补偿环境HOA系数47'何时在转变中的语法元素(例如,AmbCoeffTransition语法元素)。淡化单元770可基于转变语法元素和维持的转变状态信息而淡入或淡出能量补偿环境HOA系数47',从而将经调整环境HOA系数47”输出到HOA系数制订单元82。淡化单元770还可基于语法元素和维持的转变状态信息而淡出或淡入经内插前景V[k]向量55k”的对应一或多个元素,从而将经调整前景V[k]向量55k”'输出到前景制订单元78(142)。
音频解码装置24可调用前景制订单元78。前景制订单元78可执行nFG信号49'与经调整前景方向信息55k”'的矩阵乘法以获得前景HOA系数65(144)。音频解码装置24还可调用HOA系数制订单元82。HOA系数制订单元82可将前景HOA系数65与经调整环境HOA系数47”相加以便获得HOA系数11'(146)。
可相对于任何数目个不同情形及音频生态系统执行前述技术。下文描述多个实例情形,但所述技术不应限于所述实例情形。一个实例音频生态系统可包含音频内容、电影工作室、音乐工作室、游戏音频工作室、基于信道的音频内容、译码引擎、游戏音频原声、游戏音频译码/再现引擎,以及递送系统。
电影工作室、音乐工作室及游戏音频工作室可接收音频内容。在一些实例中,音频内容可表示获取的输出。电影工作室可例如通过使用数字音频工作站(DAW)输出基于信道的音频内容(例如,呈2.0、5.1及7.1)。音乐工作室可例如通过使用DAW输出基于信道的音频内容(例如,呈2.0及5.1)。在任一情况下,译码引擎可基于一或多个编解码器(例如,AAC、AC3、Dolby True HD、Dolby Digital Plus及DTS Master Audio)接收并编码基于信道的音频内容以供传递系统输出。游戏音频工作室可例如通过使用DAW输出一或多个游戏音频原声。游戏音频译码/再现引擎可译码音频原声及或将音频原声再现成基于信道的音频内容以供传递系统输出。可执行所述技术的另一实例情形包括音频生态系统,其可包含广播记录音频对象、专业音频系统、消费型装置上捕获、HOA音频格式、装置上再现、消费型音频、TV及附件及汽车音频系统。
广播记录音频对象、专业音频系统及消费型装置上捕获都可使用HOA音频格式对其输出进行译码。以此方式,可使用HOA音频格式将音频内容译码成单一表示,可使用装置上再现、消费型音频、TV及附件及汽车音频系统重放所述单一表示。换句话说,可在通用音频重放系统(即,与需要例如5.1、7.1等的特定配置相比)(例如,音频重放系统16)处重放音频内容的单一表示。
可执行所述技术的情形的其它实例包含可包含获取元件及重放元件的音频生态系统。获取元件可包含有线及/或无线获取装置(例如,本征麦克风)、装置上环绕声捕获及移动装置(例如,智能电话及平板计算机)。在一些实例中,有线及/或无线获取装置可经由有线及/或无线通信信道耦合到移动装置。
根据本发明的一或多个技术,移动装置可用于获取声场。举例来说,移动装置可经由有线及/或无线获取装置及/或装置上环绕声捕获(例如,集成到移动装置中的多个麦克风)获取声场。移动装置可接着将所获取声场译码成HOA系数以用于由重放元件中的一或多者重放。举例来说,移动装置的用户可记录实况事件(例如,集会、会议、比赛、音乐会等)(获取实况事件的声场),且将记录译码至HOA系数中。
移动装置还可利用重放元件中的一或多者来重放经HOA译码声场。举例来说,移动装置可对经HOA译码的声场进行解码,且将致使重放元件中的一或多者重新产生声场的信号输出到重放元件中的一或多者。作为一个实例,移动装置可利用无线及/或无线通信信道将信号输出到一或多个扬声器(例如,扬声器阵列、声棒等)。作为另一实例,移动装置可利用对接解决方案将信号输出到一或多个对接站及/或一或多个对接扬声器(例如,智能汽车及/或家庭中的声音系统)。作为另一实例,移动装置可利用头戴受话器再现将信号输出到一组头戴受话器(例如)以产生实际的立体声声音。
在一些实例中,特定移动装置可获取3D声场并且在稍后时间重放同一3D声场。在一些实例中,移动装置可获取3D声场,将3D声场编码为HOA且将经编码3D声场发射到一或多个其它装置(例如,其它移动装置及/或其它非移动装置)以用于重放。
可执行所述技术的又一情形包含音频生态系统,其可包含音频内容、游戏工作室、经译码音频内容、再现引擎及传递系统。在一些实例中,游戏工作室可包含可支持HOA信号的编辑的一或多个DAW。举例来说,所述一或多个DAW可包含可经配置以与一或多个游戏音频系统一起操作(例如,工作)的HOA插件及/或工具。在一些实例中,游戏工作室可输出支持HOA的新原声格式。在任何情况下,游戏工作室可将经译码音频内容输出到再现引擎,所述再现引擎可再现声场以供传递系统重放。
也可相对于示范性音频获取装置执行所述技术。举例来说,可相对于可包含共同地经配置以记录3D声场的多个麦克风的本征麦克风执行所述技术。在一些实例中,本征麦克风的所述多个麦克风可位于具有大约4cm的半径的实质上球面球的表面上。在一些实例中,音频编码装置20可集成到本征麦克风中以便直接从麦克风输出位流21。
另一示范性音频获取情形可包含可经配置以从一或多个麦克风(例如,一或多个本征麦克风)接收信号的制作车。制作车还可包含音频编码器,例如图3的音频编码器20。
在一些情况下,移动装置还可包含共同地经配置以记录3D声场的多个麦克风。换句话说,所述多个麦克风可具有X、Y、Z分集。在一些实例中,移动装置可包含可旋转以相对于移动装置的一或多个其它麦克风提供X、Y、Z分集的麦克风。移动装置还可包含音频编码器,例如图3的音频编码器20。
加固型视频捕获装置可进一步经配置以记录3D声场。在一些实例中,加固型视频捕获装置可附接到参与活动的用户的头盔。举例来说,加固型视频捕获装置可在用户泛舟时附接到用户的头盔。以此方式,加固型视频捕获装置可捕获表示用户周围的动作(例如,水在用户身后的撞击、另一泛舟者在用户前方说话等)的3D声场。
还可相对于可经配置以记录3D声场的附件增强型移动装置执行所述技术。在一些实例中,移动装置可类似于上文所论述的移动装置,其中添加一或多个附件。举例来说,本征麦克风可附接到上文所提及的移动装置以形成附件增强型移动装置。以此方式,附件增强型移动装置可捕获3D声场的较高质量版本,而不是仅使用与附件增强型移动装置成一体式的声音捕获组件。
下文进一步论述可执行本发明中所描述的技术的各种方面的实例音频重放装置。根据本发明的一或多个技术,扬声器及/或声棒在重放3D声场时可布置于任何任意配置中。此外,在一些实例中,头戴受话器重放装置可经由有线或无线连接耦合到解码器24。根据本发明的一或多个技术,可利用声场的单一通用表示来在扬声器、声棒及头戴受话器重放装置的任何组合上再现声场。
多个不同实例音频重放环境还可适合于执行本发明中所描述的技术的各种方面。举例来说,以下环境可为用于执行本发明中所描述的技术的各种方面的合适环境:5.1扬声器重放环境、2.0(例如,立体声)扬声器重放环境、具有全高前扩音器的9.1扬声器重放环境、22.2扬声器重放环境、16.0扬声器重放环境、汽车扬声器重放环境,及具有耳机重放环境的移动装置。
根据本发明的一或多个技术,可利用声场的单一通用表示来在前述重放环境中的任一者上再现声场。另外,本发明的技术使得再现器能够从通用表示再现声场以供在除上文所描述的环境之外的重放环境上重放。举例来说,如果设计考虑禁止扬声器根据7.1扬声器重放环境的恰当置放(例如,如果不可能置放右环绕扬声器),那么本发明的技术使得再现器能够以其它6个扬声器进行补偿,使得可在6.1扬声器重放环境上实现重放。
此外,用户可在佩戴头戴受话器时观看运动比赛。根据本发明的一或多个技术,可获取运动比赛的3D声场(例如,可将一或多个本征麦克风放置于棒球场中及/或周围),可获得对应于3D声场的HOA系数且将所述HOA系数发射到解码器,所述解码器可基于HOA系数重构3D声场且将经重构3D声场输出到再现器,并且所述再现器可获得关于重放环境的类型(例如,头戴式耳机)的指示,且将经重构3D声场再现成致使头戴式耳机输出运动比赛的3D声场的表示的信号。
在上述各种实例中的每一者中,应理解,音频编码装置20可执行方法,或另外包括执行音频编码装置20经配置以执行的方法的每一步骤的装置。在一些情况下,所述装置可包括一或多个处理器。在一些情况下,所述一或多个处理器可表示借助于存储到非暂时性计算机可读存储媒体的指令配置的专用处理器。换句话说,编码实例的集合中的每一者中的技术的各种方面可提供其上存储有指令的非暂时性计算机可读存储媒体,所述指令在执行时致使所述一或多个处理器执行音频编码装置20已经配置以执行的方法。
图7是说明一组线图180的概念图。所述组线图180表示各种所捕获声场的奇异值分布。所述组线图180中的每一线图描绘各种声场的音频对象的奇异值。作为具体实例,线图182描绘“噪音器”声场的奇异值,线图184描绘“鼓”声场的奇异值,线图186描绘“调制解调器”声场的奇异值,且线图188描绘“现代电子音乐”声场的奇异值。图7的其它线图与表示“体育场”、“水”、“直升机”、“发声”、“音乐会的开始”、“管弦乐”、“喊叫的观众”和“无线电”设定的声场相关联。如图7中所示,线图182(噪音器)、186(调制解调器)和188(现代电子音乐)中的每一者包含具有等于或近似等于零的振幅的背景音频对象的奇异值。更具体来说,在线图182、184、186和188中的每一者中定位于相应垂直线右边的绘图点大体上处于相应x轴上。
在一些实例中,声场分析单元44可不基于具有低振幅的这些背景音频对象的奇异值对与线图182、186和188中描绘的声音相关联的背景音频对象进行译码。在一些实例中,位流产生单元42可基于具有低振幅的这些背景音频对象的奇异值对与线图182、186和188中描绘的声音相关联的背景音频对象的信令分配较少(或不分配)位。在这些实例中,声场分析单元44和位流产生单元42中的一者或两者仍可分别对前景音频对象进行译码和/或分配位。
相比之下,线图184(鼓)说明与具有大于(或甚至显著大于)零的振幅的奇异值相关联的背景音频对象。在此实例中,声场分析单元44和/或位流产生单元42可基于具有较高振幅的这些背景音频对象的奇异值分别对鼓声音的背景音频对象进行译码和/或分配位。以此方式,音频编码装置20可实施本发明的技术以实施音频对象的基于奇异值的译码和/或信令。
图8是说明根据本文所描述的技术的音频对象信令方案的概念图。在图8的右边描绘的音频信令方案6014说明在其中与背景音频对象相关联的奇异值足够低而使得无需用信号表示背景音频对象的情形中音频编码装置20根据本发明的一或多个方面可实施的信令方案。在音频对象信令方案6014的实例中,音频编码装置20可将前景音频对象(“VL”)和背景音频对象(“VH”)布置在邻近列中。在一个实例中,音频对象信令方案6014的左边列可包含总共六个前景音频对象。如果音频编码装置20确定用于背景音频对象的奇异值接近于零(例如,低于阈值),那么音频编码装置20可仅对布置于左边列中的六个前景音频对象进行译码和/或用信号表示。
在图8的左边描绘的传统的音频对象信令方案212说明与音频对象信令方案214的基于奇异值的技术进行对比的信令方案。如图8中所示,根据传统的音频对象信令方案212,音频编码装置20可用信号表示两个前景音频对象(以列形式布置)和四个背景音频对象(以行形式布置)。
根据用于能量集中帧的基于奇异值的译码方案214,音频编码装置20可量化顶部6个(变化)US信号和对应于所述顶部6个变化US信号的V向量。以此方式,音频编码装置20可为较高奇异值组件的AAC分配更多位。
以此方式,音频编码装置20(及其一或多个组件,例如声场分析单元44)可根据本发明的技术执行压缩表示声场的较高阶立体混响(HOA)系数的方法,所述方法包括:确定何时使用所述HOA系数中的环境HOA系数来基于也通过所述HOA系数的基于向量的合成或分解获得的一或多个奇异值而增强通过所述HOA系数的基于向量的合成或分解获得的一或多个前景音频对象,所述环境HOA系数表示所述声场的环境分量。在一些实例中,所述HOA系数还可包含表示所述声场的所述一或多个前景音频对象的一或多个前景HOA系数。在一些实例中,确定何时使用所述环境HOA系数来增强所述一或多个前景音频对象包括分析(例如,由声场分析单元44)通过所述HOA系数的所述基于向量的合成或分解获得的所述一或多个奇异值。
在一些实例中,确定何时使用所述环境HOA系数来增强所述一或多个前景音频对象包括确定(例如,由声场分析单元44)所述一或多个奇异值中的一或多个环境奇异值是否小于阈值,其中所述环境奇异值与所述声场的所述环境分量相关联,且当与所述环境分量相关联的所述一或多个环境奇异值小于所述阈值时,确定(例如,由声场分析单元44)不使用所述环境HOA系数来增强所述前景音频对象。在一些实例中,确定何时使用所述环境HOA系数来增强所述一或多个前景音频对象包括当所述一或多个环境奇异值等于或大于所述阈值时确定(例如,由所述声场分析单元44)使用所述环境HOA系数来增强所述前景音频对象。
在一些实例中,所述一或多个奇异值中的每一者表示对应能量值的平方根。在一些实例中,所述一或多个奇异值中的每一者表示对应本征值的平方根。在一些实例中,由音频编码装置20执行的所述方法可进一步包含进一步包括对包含所述一或多个奇异值的一或多个S矩阵进行译码。在一些实例中,由音频编码装置20执行的所述方法包含对包含所述一或多个奇异值的一或多个S矩阵进行译码(例如,由位流产生单元42)。在一些实例中,确定(例如,由声场分析单元44)何时使用所述环境HOA系数来增强所述一或多个前景音频对象是基于对应于所述一或多个奇异值中的一或多个环境奇异值的一或多个振幅,所述环境奇异值与所述声场的所述环境分量相关联。在一些实例中,确定何时使用所述环境HOA系数来增强所述一或多个前景音频对象包括确定(例如,由声场分析单元44)使用所述环境HOA系数来增强所述前景音频对象,且确定(例如,由位流产生单元42)将指派给所述环境分量的位的数目。
以此方式,音频解码装置24(和/或其各种组件,例如提取单元72)可根据本发明的各方面可操作以执行对表示声场的经编码较高阶立体混响(HOA)系数进行解码的方法,所述方法包括确定是否从位流(例如,基于向量的位流21)提取一或多个环境HOA系数。在一个此类实例中,所述一或多个环境HOA系数表示所述声场的环境分量。
以此方式,根据本发明的技术,音频编码装置20(及其一或多个组件,例如位流产生单元42)可执行压缩表示声场的较高阶立体混响(HOA)系数的方法,所述方法包括基于与音频对象相关联的能量(或能量值)对所述声场的音频对象分配位,其中所述音频对象是通过所述HOA系数的基于向量的合成或分解而获得。在一些实例中,所述分配位(例如,由位流产生单元42分配)的数目与和所述音频对象相关联的能量(或能量值)成比例。在一个此类实例中,所述分配位(例如,由位流产生单元42分配)的数目与和所述音频对象相关联的能量(或能量值)成正比。
在可由位流产生单元42执行的方法的一些实例中,所述音频对象包含在所述声场的多个音频对象中,所述分配位是选自位集合,且对所述音频对象分配所述位包括以能量的递减次序对所述多个音频对象分配所述位集合。在位流产生单元42可执行的所述方法的一个此类实例中,所述多个音频对象中的每一音频对象与对应奇异值相关联,且每一对应奇异值表示对应能级的平方根。
在位流产生单元42可执行的所述方法的一些实例中,所述多个音频对象包含一或多个前景音频对象和一或多个背景音频对象。在一个此类实例中,分配位集合包括对所述一或多个前景音频对象分配(例如,由位流产生单元42)所述位集合的所有位。在另一此类实例中,分配所述位集合包括对所述一或多个前景音频对象分配(例如,由位流产生单元42)所述位集合的第一部分且对所述一或多个背景音频对象中的至少一个背景音频对象分配所述位集合的第二部分。
在一些实例中,由位流产生单元42执行的所述方法进一步包括确定可分配给所述多个音频对象中的单个音频对象的位的最大数目。在一个此类实例中,分配所述位集合包括分配(例如,由位流产生单元42)所述位集合以使得所述多个音频对象中没有音频对象被分配超过所述最大数目的位的数目。在一些实例中,分配所述位集合包括根据所述多个音频对象中的每一音频对象的对应奇异值的振幅而分配(例如,由位流产生单元42)所述位集合。
在一些此类实例中,根据每一对应奇异值的所述振幅分配所述位集合包括对具有较大振幅的第一音频对象分配(例如,由位流产生单元42)所述位集合的较大比例,且对具有较小振幅的第二音频对象分配所述位集合的较小比例。在一个此类实例中,位流产生单元42可执行的所述方法进一步包含进一步包括基于所述第一音频对象的所述较大振幅和所述第二音频对象的所述较小振幅将所述较大比例和所述较小比例计算为相应百分比值。
根据本发明的各种方面,音频编码装置20(和/或其一或多个组件)可经配置以执行压缩表示声场的较高阶立体混响(HOA)系数的方法,所述方法包括设定(例如,由位流产生单元42)对可分配给表示所述声场的多个音频对象中的单个音频对象的位的数目的上限。
以此方式,音频解码装置24(和/或其各种组件,例如提取单元72)可根据本发明的各方面可操作以执行对表示声场的经编码较高阶立体混响(HOA)系数进行解码的方法,所述方法包含对表示声场的经编码较高阶立体混响(HOA)系数进行解码,所述方法包括基于与音频对象相关联的能量对所述声场的音频对象分配位,所述音频对象是通过所述经编码HOA系数的基于向量的合成而获得。在一些实例中,由音频编码装置24执行的所述方法可进一步包含接收用于所述声场的位分配方案作为经编码位流(例如,位流21)的部分。
在一些实例中,所述位分配方案可包含在与所述声场相关联的元数据中。在一些情况下,与所述声场相关联的所述元数据可进一步包含对可分配给表示所述声场的多个音频对象中的单个音频对象的位的数目的上限。在音频解码装置24执行的所述方法的一些实例中,分配所述位可包含分配所述位以使得没有所述声场的音频对象被分配超过所述最大数目的位的数目。
实例1。在各种实例中,矩阵US和V包括列向量的集合:{US_i,V_i}。因为第i向量(US_i,V_i)和第j向量(US_j,V_j)具有不同重要性,所以揭示对每一向量的动态位分配。第i向量(US_i,V_i)具有对应奇异值S_i_i,其中S_i_i>=0。较高奇异值对应于所述信号的较多能量浓度。因此,根据奇异值的比率将总共位分配给第i向量(US_i,V_i):S_i_i:allocatedRate=TOTALRATE*S_i_i/sum(S_i_i),其中sum(S_i_i)是整个奇异值的总和。
实例1a。是用于(US_i,V_i)的所分配速率的上限。首先,根据对应奇异值以递减次序分拣(US_i,V_i)。当计算的allocatedRate大于预定义上限时,分配位的上限量。剩余位用于剩余(US_i,V_i)。
实例1b。因为S_i_i^2对应于能量,所以S_i_i^2可代替S_i_i使用。
实例2。如果大多数能量集中于几个奇异值,那么可仅对前景信号(=US和V矩阵的前几列)进行译码和发射。在此情况下,不发射背景信号(=US和V矩阵的前几行)。对于某一测试项目,99%的能量集中于顶部6个奇异值。在此情况下,仅6个前景信号经译码且发射到解码器。其提供比其中2个前景且4个背景信号经译码且发射的常规系统潜在更好的质量。
实例2a。是否使用所提议的系统(仅前景译码)或常规系统(前景+背景译码)的决策可基于奇异值而做出。如果预定义数目的奇异值(例如6个)含有大多数能量(例如99%),那么可使用所提议的系统而不是常规系统。
实例2b。可基于以上实例1中描述的技术执行位分配。
图9A到9D是说明可执行本发明中描述的技术的各种方面的系统以及图9A的广播网络中心的概念图。图9A是说明可执行本发明中所描述的技术的各个方面的系统10的图。如图9的实例中所示,系统10包含广播网络398和内容消费者装置14。尽管在广播网络398和内容消费者装置14的上下文中描述,但可在其中声场的SHC(其也可称为HOA系数)或任何其它阶层表示经编码以形成表示音频数据的位流的任何上下文中实施所述技术。此外,广播网络398可表示包括能够实施本发明中描述的技术的任何形式的计算装置中的一或多者的系统,包含手持机(或蜂窝式电话)、平板计算机、智能电话、桌上型计算机或专用硬件(提供几个实例)。同样,内容消费者装置14可表示能够实施本发明中所描述的技术的任何形式的计算装置,包含手持机(或蜂窝式电话)、平板计算机、智能电话、机顶盒,或桌上型计算机(提供几个实例)。
广播网络398可表示可产生多信道音频内容且可能视频内容用于由内容消费者(例如内容消费者装置14)消耗的任何实体。广播网络398可在例如体育事件等事件时捕获实况音频数据,同时也在实况音频内容中插入各种其它类型的额外音频数据,例如解说音频数据、商业音频数据、引入或退出音频数据及类似物。内容消费者装置14表示拥有或能够接入音频重放系统的个体,音频重放系统可指代能够再现较高阶立体混响音频数据(其包含也可被称作球谐系数的较高阶音频系数)用于作为多信道音频内容重放的任何形式的音频重放系统。在图9A的实例中,内容消费者装置14包含音频重放系统16。
广播网络398包含麦克风5,其记录或另外获得呈各种格式(包含直接作为HOA系数)的实况记录和音频对象。当麦克风5获得直接作为HOA系数的实况音频时,麦克风5可包含HOA转码器,例如图9A的实例中所示的HOA转码器400。换句话说,虽然展示为与麦克风5分离,但HOA转码器400的单独实例可包含在麦克风5中的每一者内以便将捕获的馈送自然地转码为HOA系数11。然而,当不包含在麦克风5内时,HOA转码器400可将从麦克风5输出的实况馈送转码为HOA系数11。在这方面中,HOA转码器400可表示经配置以将麦克风馈送和/或音频对象转码为HOA系数11的单元。广播网络398因此包含与麦克风5集成的HOA转码器400,如与麦克风5分开的HOA转码器或其某一组合。
广播网络398还可包含空间音频编码装置20、广播网络中心402和心理声学音频编码装置406。空间音频编码装置20可表示能够相对于HOA系数11执行本发明中描述的夹层压缩技术以获得夹层格式化音频数据15的装置。空间音频编码装置20可表示图1和2的音频编码装置20的一个实施方案,且因此在本发明中类似地编号。虽然下文更详细描述,但空间音频编码装置20可经配置以通过将基于向量的合成应用于HOA系数11而相对于HOA系数11执行此夹层压缩。
空间音频编码装置20可经配置以使用涉及线性可逆变换(LI)的应用的基于向量的合成方法对HOA系数11进行编码。线性可逆变换的一个实例被称作“奇异值分解”(或“SVD”)。在此实例中,空间音频编码装置20可将SVD应用于HOA系数11以确定HOA系数11的经分解版本。空间音频编码装置20可接着分析HOA系数11的经分解版本以识别可促进进行HOA系数11的经分解版本的重排序的各种参数。空间音频编码装置20可接着基于所识别的参数将HOA系数11的经分解版本重新排序,其中如下文进一步详细描述,在给定以下情形的情况下,此重新排序可改进译码效率:变换可将HOA系数跨越HOA系数的帧重新排序(其中一帧通常包含HOA系数11的M个样本且在一些实例中,M经设定为1024)。在重排序HOA系数11的经分解版本之后,空间音频编码装置20可选择HOA系数11的经分解版本中表示声场的前景(或换句话说,相异、优势或突出)分量的那些经分解版本。空间音频编码装置20可将HOA系数11的表示前景分量的经分解版本指定为音频对象和相关联方向信息。
空间音频编码装置20还可至少部分地按次序相对于HOA系数11执行声场分析以识别HOA系数11中表示声场的一或多个背景(或换句话说,环境)分量的那些系数。假定在一些实例中,背景分量可仅包含HOA系数11的任何给定样本的子集(例如,例如对应于零阶和一阶球面基底函数的那些样本而非对应于二阶或更高阶球面基底函数的那些样本,那么空间音频编码装置20可对于背景分量执行能量补偿。当执行阶数减少时,换句话说,空间音频编码装置20可增强(例如,添加能量到/从其减去能量)HOA系数11中的剩余背景HOA系数以补偿由执行所述阶数减少产生的总体能量改变。
空间音频编码装置20可相对于前景方向信息执行一种形式的内插,且接着关于经内插前景方向信息执行降阶以产生经降阶的前景方向信息。在一些实例中,空间音频编码装置20可进一步关于经降阶的前景方向信息执行量化,从而输出经译码前景方向信息。在一些情况下,此量化可包括标量/熵量化。空间音频编码装置20接着可输出夹层格式化音频数据15作为背景分量、前景音频对象和经量化方向信息。背景分量和前景音频对象在一些实例中可包括脉码调制(PCM)输送信道。空间音频编码装置20接着可将夹层格式化音频数据15发射或另外输出到广播网络中心402。虽然在图9A的实例中未图示,但可执行夹层格式化音频数据15的进一步处理以适应从空间音频编码装置20到广播网络中心402的发射(例如加密、卫星压缩方案、光纤压缩方案等)。
夹层格式化音频数据15可表示符合所谓的夹层格式的音频数据,其通常是音频数据的轻度压缩(相对于通过对音频数据应用心理声学音频编码而提供的最终用户压缩,例如MPEG环绕、MPEG-AAC、MPEG-USAC或其它已知形式的心理声学编码)版本。假定广播公司偏好于提供低等待时间混合、编辑和其它音频和/或视频功能的专用设备,广播公司由于此些专用设备的成本而不想升级所述设备。为了适应视频和/或音频的增加位速率且提供与可能不适于高清晰度视频内容或3D音频内容的工作的较旧或换句话说传统设备的互操作性,广播公司已经采用一般称为“夹层压缩”的此中间压缩方案来减少文件大小且进而促进传送时间(例如经由网络或在装置之间)和改进的处理(特别对于较旧传统设备)。换句话说,此夹层压缩可提供可用以促进编辑时间、减少等待时间且改善总体广播过程的内容的更轻型版本。
广播网络中心402因此可表示负责使用中间压缩方案编辑和另外处理音频和/或视频内容以在等待时间方面改善工作流的系统。在处理音频数据的上下文中,广播网络中心402可在一些实例中将额外音频数据插入到由夹层格式化音频数据15表示的实况音频内容中。此额外音频数据可包括表示商业音频内容的商业音频数据、表示电视工作室音频内容的电视工作室节目音频数据、表示引入音频内容的引入音频数据、表示退出音频内容的退出音频数据、表示紧急情况音频内容(例如,天气警告、国内紧急情况、本地紧急情况等)的紧急情况音频数据,或可插入到夹层格式化音频数据15中的任何其它类型的音频数据。
在一些实例中,广播网络中心402包含能够处理高达16个音频信道的传统音频设备。在依赖于例如HOA系数11等HOA系数的3D音频数据的上下文中,HOA系数11可具有超过16个音频信道(例如,3D声场的4阶表示将每样本需要(4+1)2或25个HOA系数,其等效于25个音频信道)。传统广播设备中的此限制可防止采用基于3D HOA的音频格式,例如2014年7月25日ISO/IEC JTC 1/SC 29/WG 11的标题为“信息技术-异构环境中的高效率译码和媒体递送-部分3:3D音频(Information technology-High efficiency coding and mediadelivery in heterogeneous environments-Part 3:3D audio)”的ISO/IEC DIS 23008-3文献中所阐述。因此,本发明中描述的技术可促成一种形式的夹层压缩,其允许以克服传统音频设备的此限制的方式从HOA系数11获得夹层格式化音频数据15。即,空间音频编码装置20可经配置以执行本发明中描述的技术以获得具有16或更少音频信道(且在传统音频设备可在一些实例中允许处理5.1音频内容的条件下可能少到6个音频信道,其中‘.1’表示第六音频信道)的夹层音频数据15。
在任何情况下,广播网络中心402可输出经增强夹层格式化音频数据17。经增强夹层格式化音频数据17可包含夹层格式化音频数据15和由广播网络中心404插入到夹层格式化音频数据15中的任何额外音频数据。在分布之前,广播网络398可进一步压缩经增强夹层格式化音频数据17。如图9A的实例中所示,心理声学音频编码装置406可相对于经增强夹层格式化音频数据17执行心理声学音频编码(例如上述实例中的任一者)以产生位流21。广播网络398接着可经由发射信道将位流21发射到内容消费者装置14。
在一些实例中,心理声学音频编码装置406可表示心理声学音频译码器的多个实例,其中的每一者用以对经增强夹层格式化音频数据17中的每一者的不同音频对象或HOA信道进行编码。在一些情况下,此心理声学音频编码装置406可表示高级音频译码(AAC)编码单元的一或多个实例。心理声学音频译码器单元40常常可调用AAC编码单元的实例用于经增强夹层格式化音频数据17的每一信道。关于可如何使用AAC编码单元对背景球谐系数进行编码的更多信息可见于埃里克·赫卢德(Eric Hellerud)等人的标题为“以AAC编码较高阶立体混响(Encoding Higher Order Ambisonics with AAC)”的大会论文中,其在第124次大会(2008年5月17日至20日)上提交且可在下处获得:http://ro.uow.edu.au/cgi/viewcontent.cgi?article=8025&context=engpapers。在一些情况下,心理声学音频编码装置406可使用比用以对经增强夹层格式化音频数据17的其它信道(例如,前景信道)进行编码的位速率低的目标位速率对经增强夹层格式化音频数据17的各种信道(例如,背景信道)进行编码。
虽然图9A中所示为直接发射到内容消费者装置14,但广播网络398可将位流21输出到定位在广播网络398与内容消费者装置14之间的中间装置。此中间装置可存储位流21以供稍后递送到可请求此位流的内容消费者装置14。所述中间装置可包括文件服务器、网络服务器、台式计算机、膝上型计算机、平板计算机、移动电话、智能电话,或能够存储位流21以供音频解码器稍后检索的任何其它装置。此中间装置可驻留在能够将位流21(且可能结合发射对应视频数据位流)串流到请求位流21的订户(例如内容消费者装置14)的内容递送网络中。
替代地,广播网络398可将位流21存储到存储媒体,例如压缩光盘、数字视频光盘、高清晰度视频光盘或其它存储媒体,其中大多数能够由计算机读取并且因此可被称为计算机可读存储媒体或非暂时性计算机可读存储媒体。在此上下文中,传输信道可指代借以发射存储到这些媒体的内容的那些信道(且可包含零售商店和其它基于商店的递送机制)。在任何情况下,本发明的技术因此就此而言不应限于图9A的实例。
如图9A的实例中进一步所示,内容消费者装置14包含音频重放系统16。音频重放系统16可表示能够重放多信道音频数据的任何音频重放系统。音频重放系统16可包含多个不同再现器22。再现器22可各自提供用于不同形式的再现,其中不同形式的再现可包含执行向量基振幅移动(VBAP)的各种方式中的一或多者及/或执行声场合成的各种方式中的一或多者。如本文所使用,“A和/或B”意味着“A或B”,或“A和B”两者。
音频重放系统16可进一步包含音频解码装置24。音频解码装置24可表示经配置以解码来自位流21的HOA系数11'的装置,其中HOA系数11'可类似于HOA系数11但归因于有损操作(例如,量化)和/或经由发射信道的发射而不同。也就是说,音频解码装置24可对位流21中指定的前景方向信息进行解量化,同时还对于位流21中指定的前景音频对象和表示背景分量的经编码HOA系数执行心理声学解码。音频解码装置24可进一步相对于经解码前景方向信息执行内插,且接着基于经解码前景音频对象和经内插前景方向信息确定表示前景分量的HOA系数。音频解码装置24可接着基于表示前景分量的所确定的HOA系数和表示背景分量的经解码HOA系数来确定HOA系数11'。
音频重放系统16可随后解码位流21以获得HOA系数11'且再现HOA系数11'以输出扩音器馈送25。扩音器馈送25可驱动一或多个扩音器(其为便于说明的目的在图9A的实例中未图示)。
为了选择适当再现器或在一些情况下产生适当再现器,音频重放系统16可获得指示扩音器的数目和/或扩音器的空间几何布置的扩音器信息13。在一些情况下,音频重放系统16可使用参考麦克风获得扬声器信息13且以动态地确定扬声器信息13的方式驱动所述扩音器。在其它情况下或结合动态确定扬声器信息13,音频重放系统16可提示用户与音频重放系统16介接并输入扬声器信息16。
音频重放系统16可随后基于扩音器信息13选择音频再现器22中的一者。在一些情况下,音频重放系统16可在无音频再现器22在与扩音器信息13中指定的音频再现器的某一阈值相似性量度(按扩音器几何布置)时,音频重放系统16可基于扩音器信息13产生音频再现器22中的所述一者。音频重放系统16可在一些情况下基于扩音器信息13产生音频再现器22中的一者,而不首先尝试选择音频再现器22中的现有一者。
图9B到9D是更详细说明图9A的广播网络中心402的三个不同实例的图。在图9B的实例中,表示为广播网络中心402A的广播网络中心402的第一实例包含空间音频解码装置410、HOA转换装置412、切换装置414、监视装置416、逆HOA转换装置418、空间音频编码装置420以及插入装置422。
在本发明的其它部分更详细描述的空间音频解码装置410表示经配置以执行与相对于空间音频编码装置20描述的那些操作大体上互逆的操作的装置或单元。空间音频解码装置410可换句话说获得夹层格式化音频数据15且相对于夹层格式化音频数据15执行夹层解压缩以获得HOA系数11。空间音频解码装置410可将HOA系数11输出到HOA转换装置412。HOA转换装置412表示经配置以将HOA系数11从球谐域转换到空间域(例如,通过将HOA系数11再现到指定空间声音格式,例如5.1环绕声格式)的装置或单元。HOA转换装置412可执行此转换以适应传统音频设备,例如切换装置414和监视装置416(其中的两者或一者可经配置以相对于某一数目的信道而操作,例如5.1环绕声格式的6个信道)。HOA转换装置412可将空间格式化音频数据413输出到切换装置414。
切换装置414可表示经配置以在各种不同音频数据(包含空间格式化音频数据413)之间进行切换的装置或单元。切换装置414可在额外音频数据415A到415N(“额外音频数据415”,其也可被称作“音频数据415”,如图9B的实例中所示)与空间格式化音频数据413之间切换。切换装置414可如由输入417指示而在音频数据415与空间格式化音频数据415之间切换,所述输入可由操作者、音频编辑者或其它广播公司人员输入。输入417可配置切换装置414以将音频数据415或空间格式化音频数据413中的一者输出到监视装置416。操作者、音频编辑者或其它广播人员可监听音频数据415或空间格式化音频数据413中的选定一者,且产生指定何时应当将额外音频数据415中的一者插入到夹层格式化音频数据15中的额外输入417。
在接收此额外输入417之后,切换装置414可即刻通过额外音频数据415中的选定一者(例如,额外音频数据415A)切换到逆HOA转换装置418。此额外音频数据415A可表示以上论述类型的额外音频内容中的任一者,例如商业音频内容、电视工作室音频内容、退出音频内容、引入音频内容(其中引入和退出音频内容可被称为“缓冲音频内容”)、紧急情况音频内容及类似物。在任何情况下,此额外音频数据415A(且一般额外音频内容415)不在夹层格式所述球谐域中指定。实际上,此额外音频数据415通常在空间域中指定,常常在5.1环绕声格式中。为了将此额外音频数据415A插入到夹层格式化空间音频数据15中,广播网络中心402A可将额外音频数据415A传递到逆HOA转换装置418。
逆HOA转换装置418可与HOA转换装置412互逆地操作以将额外音频数据415A从空间域转换到球谐域。逆HOA转换装置418接着可将经转换额外音频数据415A作为经转换额外音频数据419输出到空间音频解码装置420。空间音频编码装置420可以与上文相对于空间音频编码装置20所描述方式大体类似且可能相同的方式操作。空间音频编码装置420可将夹层格式化额外音频数据421输出到插入装置422。插入装置422可表示经配置以将夹层格式化额外音频数据421插入到夹层格式化音频数据15中的装置或单元。在一些实例中,插入装置422将夹层格式化额外音频数据421插入到原始夹层格式化音频数据15中,其中此原始夹层格式化音频数据15尚未经历空间音频解码(或换句话说,夹层解压缩)、HOA转换、空间音频重新编码和逆HOA转换,以便避免将音频假象潜在注入到经增强夹层格式化音频数据17中。插入装置422可至少部分地通过将夹层格式化音频数据421交叉淡化为夹层格式化音频数据15而将此夹层格式化音频数据421插入到夹层格式化音频数据15中。
图9C是更详细说明图9A的广播网络中心402的第二实例的框图。在图9C的实例中,表示为广播网络中心402B的广播网络中心402的第二实例可与广播网络中心402A大体上相同,不同的是图9C的实例中所示的额外音频数据421A到421N已经在夹层格式(MF)中指定。因此,在图9C的实例中额外音频数据421A到421N表示为夹层格式化(MF)音频数据421A到421N(“MF音频数据425”)。MF音频数据421可各自与上文相对于图9B的实例描述的夹层格式化额外音频数据421大体上类似。在任何情况下,在MF音频数据425是根据夹层格式指定的条件下,广播网络中心402B可不包含上文相对于广播网络中心402A描述的逆HOA转换装置418和空间音频编码装置420。因为输入到切换装置414中的所有音频数据421和15是以相同格式(例如,夹层格式)指定,所以在切换装置417的处理所需的可不需要空间音频解码和转换。
为了监视MF额外音频数据421和MV音频数据15,广播网络中心402B可包含空间音频解码装置410和HOA转换装置412以相对于切换装置414的输出执行空间音频解码和HOA转换。空间音频解码和HOA转换可导致空间域中指定的音频数据(例如,5.1音频数据),其随后输入到监视装置416以允许操作者、编辑者或其它广播人员监视对切换装置414的输入中的选定一个(如由输入数据417指定)。
图9D是更详细说明图9A的广播网络中心402的第三实例的框图。在图9D的实例中,表示为广播网络中心402C的广播网络中心402的第三实例,可与广播网络中心402B大体上相同,不同的是图9D的实例中所示的额外音频数据425A到425N是在HOA格式中指定(或换句话说,在球谐域中)。因此,在图9D的实例中额外音频数据425A到425N表示为HOA音频数据425A到425N(“HOA音频数据425”)。在HOA音频数据425是根据HOA格式指定的条件下,广播网络中心402B可不包含逆HOA转换装置418。然而,广播网络中心402B可包含上文相对于广播网络中心402A描述的空间音频编码装置420以便相对于HOA音频数据425执行夹层压缩以获得MF额外音频数据421。因为音频数据425是在HOA域中指定(或换句话说,球谐域),所以空间音频解码装置410相对于夹层格式化音频数据15执行空间音频解码以获得HOA系数11,进而将输入格式调谐到切换装置414中。
为了监视HOA音频数据421和11,广播网络中心402B可包含HOA转换装置412以相对于切换装置414的输出执行HOA转换。HOA转换可导致在空间域中指定的音频数据(例如,5.1音频数据),其随后输入到监视装置416以允许操作者、编辑者或其它广播人员监视对切换装置414的输入中的选定一个(如由输入数据417指定)。
以此方式,所述技术可使得广播网络中心402能够经配置以存储由于相对于较高阶立体混响音频数据执行夹层压缩而产生的夹层格式化音频数据,且处理所述夹层格式化音频数据。
在这些和其它实例中,所述夹层格式化音频数据是由于执行不涉及心理声学音频编码对所述较高阶立体混响音频数据的任何应用的夹层压缩而产生。
在这些和其它实例中,所述夹层格式化音频数据是由于相对于所述较高阶立体混响音频数据执行空间音频编码而产生。
在这些和其它实例中,所述夹层格式化音频数据是由于相对于所述较高阶立体混响音频数据执行基于向量的合成而产生。
在这些和其它实例中,所述夹层格式化音频数据是由于相对于所述较高阶立体混响音频数据执行奇异值分解而产生。
在这些和其它实例中,所述夹层格式化音频数据包含由所述较高阶立体混响音频数据表示的声场的一或多个背景分量。
在这些和其它实例中,所述背景分量包含对应于具有小于二的阶的球面基底函数的所述较高阶立体混响音频数据的较高阶立体混响系数。
在这些和其它实例中,所述背景分量仅包含对应于具有小于二的阶的球面基底函数的所述较高阶立体混响音频数据的较高阶立体混响系数。
在这些和其它实例中,所述夹层格式化音频数据包含由所述较高阶立体混响音频数据表示的声场的一或多个前景分量。
在这些和其它实例中,所述夹层格式化音频数据是由于相对于所述较高阶立体混响音频数据执行基于向量的合成而产生。在这些实例中,所述前景分量包含通过相对于所述较高阶立体混响音频数据执行所述基于向量的合成而从所述较高阶音频对象分解的前景音频对象。
在这些和其它实例中,所述夹层格式化音频数据包含由所述较高阶立体混响音频数据表示的声场的一或多个背景分量和一或多个前景分量。
在这些和其它实例中,所述夹层格式化音频数据包含一或多个脉码调制(PCM)输送信道和边带信息。
在这些和其它实例中,所述夹层格式化音频数据是由于相对于所述较高阶立体混响音频数据执行基于向量的合成以获得所述夹层格式化音频数据而产生。在这些实例中,所述边带信息包含由于相对于所述较高阶立体混响音频数据执行所述基于向量的合成而输出的方向信息。
在这些和其它实例中,所述夹层格式化音频数据是由于相对于所述较高阶立体混响音频数据执行奇异值分解以获得所述夹层格式化音频数据而产生。在这些实例中,所述边带信息包含由于相对于所述较高阶立体混响音频数据执行所述基于向量的合成而输出的一或多个V向量。
在这些和其它实例中,所述广播网络中心402可经配置以将额外音频数据插入到所述夹层格式化音频数据中。
在这些和其它实例中,所述广播网络中心402可经配置以将商业音频数据插入到所述夹层格式化音频数据中。
在这些和其它实例中,所述广播网络中心402可经配置以将电视工作室节目插入到所述夹层格式化音频数据中。
在这些和其它实例中,所述广播网络中心402可经配置以将额外音频数据交叉淡化到所述夹层格式化音频数据中。
在这些和其它实例中,所述广播网络中心402可经配置以处理所述夹层格式化音频数据而无需相对于所述夹层格式化音频数据执行夹层解压缩或较高阶立体混响转换中的任一者。
在这些和其它实例中,所述广播网络中心402可经配置以获得空间域中指定的额外音频数据,将所述额外音频数据从所述空间域转换到球谐域以使得由所述额外音频数据描述的声场表示为额外较高阶立体混响音频数据,且相对于所述额外较高阶立体混响音频数据执行夹层压缩以产生夹层格式化额外音频数据。在这些实例中,所述广播网络中心402可经配置以将夹层格式化额外音频数据插入到所述夹层格式化音频数据中。
在这些和其它实例中,所述广播网络中心402可经配置以获得球谐域中指定的夹层格式化额外音频数据。在这些实例中,所述广播网络中心402可经配置以将夹层格式化额外音频数据插入到所述夹层格式化音频数据中。
在这些和其它实例中,所述广播网络中心402可经配置以获得球谐域中指定的额外较高阶立体混响音频数据,且相对于所述额外较高阶立体混响音频数据执行夹层压缩以产生夹层格式化额外音频数据。在这些实例中,所述广播网络中心402可经配置以将夹层格式化额外音频数据插入到所述夹层格式化音频数据中。
在这些和其它实例中,所述广播网络中心402可经配置以相对于所述夹层格式化音频数据执行心理声学音频编码以产生经压缩音频数据。
图10是更详细说明可执行本发明中描述的技术的各种方面的图9A的实例中所示的空间音频编码装置20的一个实例的框图。空间音频编码装置20基于向量的合成方法单元27。
如图10的实例中所示,基于向量的合成单元27可包含线性可逆变换(LIT)单元30、参数计算单元32、重排序单元34、前景选择单元36、能量补偿单元38、位流产生单元42、声场分析单元44、系数减少单元46、背景(BG)选择单元48、空间-时间内插单元50和量化单元52。
线性可逆变换(LIT)单元30接收呈HOA信道形式的HOA 11,每一信道表示与球面基底函数的给定阶数、子阶数相关联的系数的块或帧(其可表示为HOA[k],其中k可表示样本的当前帧或块)。HOA系数11的矩阵可具有维度D:M×(N+1)2。
即,LIT单元30可表示经配置以执行被称作奇异值分解的形式的分析的单元。虽然相对于SVD加以描述,但可相对于提供数组线性不相关的能量密集输出的任何类似变换或分解执行本发明中所描述的技术。此外,在本发明中对“集合”的参考一般希望指代“非零”集合(除非特定地相反陈述),且并不希望指代包含所谓的“空集合”的集合的经典数学定义。
替代变换可包括常常被称作“PCA”的主分量分析。PCA指代使用正交变换将一组可能相关变量的观测结果变换成被称作主分量的一组线性不相关变量的数学程序。线性不相关变量表示彼此并不具有线性统计关系(或相依性)的变量。可将这些主分量描述为彼此具有小程度的统计相关性。在任何情况下,所谓的主分量的数目小于或等于原始变量的数目。在一些实例中,以如下方式定义变换:第一主分量具有最大可能方差(或,换句话说,尽可能多地解释数据中的可变性),且每一随后分量又具有可能的最高方差(在以下约束下:此连续分量正交于(可重新表述为不相关于)前述分量)。PCA可执行某一形式的阶数减少,其依据HOA系数11可产生HOA系数11的压缩。取决于上下文,PCA可由若干不同名称指代,例如离散卡亨南-洛维变换、霍特林变换、恰当正交分解(POD)和本征值分解(EVD),仅举几例。有利于压缩音频数据的基本目标的此种操作的性质为多信道音频数据的“能量压缩”和“去相关”。
在任何情况下,LIT单元30执行奇异值分解(其再次可称为“SVD”)以将HOA系数11变换为经变换HOA系数的两个或两个以上集合。经变换HOA系数的此等“集合”可包含经变换HOA系数的向量。在图10的实例中,LIT单元30可相对于HOA系数11执行SVD以产生所谓的V矩阵、S矩阵及U矩阵。在线性代数中,SVD可按如下形式表示y乘z实数或复数矩阵X(其中X可表示多信道音频数据,例如HOA系数11)的因子分解:
X=USV*
U可表示y乘y实数或复数单位矩阵,其中U的y列通常被称为多信道音频数据的左奇异向量。S可表示在对角线上具有非负实数的y乘z矩形对角线矩阵,其中S的对角线值通常被称为多信道音频数据的奇异值。V*(其可表示V的共轭转置)可表示z乘z实数或复数单位矩阵,其中V*的z列通常被称为多信道音频数据的右奇异向量。
尽管本发明中描述为应用于包括HOA系数11的多信道音频数据,但所述技术可应用于任何形式的多信道音频数据。以此方式,空间音频编码装置20可相对于表示声场的至少一部分的多信道音频数据执行奇异值分解,以产生表示多信道音频数据的左奇异向量的U矩阵、表示多信道音频数据的奇异值的S矩阵和表示多信道音频数据的右奇异向量的V矩阵,且将多信道音频数据表示为U矩阵、S矩阵和V矩阵中的一或多者的至少一部分的函数。
在一些实例中,以上提及的SVD数学表达式中的V*矩阵表示为V矩阵的共轭转置以反映SVD可应用于包括复数的矩阵。当应用于仅包括实数的矩阵时,V矩阵的复数共轭(或换句话说,V*矩阵)可被视为V矩阵的转置。下文中为容易说明的目的,假定HOA系数11包括实数,结果是经由SVD而非V*矩阵输出V矩阵。此外,尽管在本发明中表示为V矩阵,但对V矩阵的提及应理解为在适当的情况下涉及V矩阵的转置。尽管假定为V矩阵,但所述技术可以类似方式应用于具有复数系数的HOA系数11,其中SVD的输出为V*矩阵。因此,就此而言,所述技术不应限于仅提供应用SVD以产生V矩阵,而是可包含将SVD应用于具有复数分量的HOA系数11以产生V*矩阵。
在任何情况下,LIT单元30可相对于较高阶立体混响(HOA)音频数据(其中此立体混响音频数据包含HOA系数11或任何其它形式的多信道音频数据的块或样本)的每一块(其可称作帧)执行逐块形式的SVD。如上文所注释,变量M可用以表示音频帧的长度(以样本数计)。举例来说,当音频帧包含1024个音频样本时,M等于1024。尽管相对于M的此典型值加以描述,但本发明的技术不应限于M的此典型值。LIT单元30可因此相对于具有M乘(N+1)2个HOA系数的HOA系数11的块执行逐块SVD,其中N再次表示HOA音频数据的阶数。LIT单元30可经由执行此SVD而产生V矩阵、S矩阵和U矩阵,其中矩阵中的每一者可表示上文所描述的相应V、S和U矩阵。以此方式,线性可逆变换单元30可相对于HOA系数11执行SVD以输出具有维度D:Mx(N+1)2的US[k]向量33(其可表示S向量及U向量的组合版本)及具有维度D:(N+1)2×(N+1)2的V[k]向量35。US[k]矩阵中的个别向量元素也可称为XPS(k),而V[k]矩阵的个别向量也可称为v(k)。
U、S和V矩阵的分析可显示,这些矩阵携载或表示上文由X表示的基本声场的空间和时间特性。U(长度为M个样本)中的N个向量中的每一者可表示依据时间(对于由M个样本表示的时间周期)的正规化的分离音频信号,其彼此正交且已与任何空间特征(其也可被称作方向信息)解耦。表示空间形状和位置宽度的空间特性可实际上由V矩阵(长度(N+1)2的每一者)中的个别第i向量v(i)(k)表示。U矩阵和V矩阵中的向量均经正规化而使得其均方根能量等于单位。U中的音频信号的能量因而由S中的对角线元素表示。将U与S相乘以形成US[k](具有个别向量元素XPS(k)),因此表示具有真实能量的音频信号。SVD分解使音频时间信号(U中)、其能量(S中)与其空间特性(V中)解耦的能力可支持本发明中所描述的技术的各个方面。另外,通过US[k]与V[k]的向量乘法合成基本HOA[k]系数X的此模型给出贯穿此文献使用的术语术语“基于向量的合成方法”。
尽管描述为直接相对于HOA系数11执行,但LIT单元30可将线性可逆变换应用到HOA系数11的导出项。举例来说,LIT单元30可相对于从HOA系数11导出的功率谱密度矩阵应用SVD。功率谱密度矩阵可表示为PSD且经由hoaFrame到hoaFrame的转置的矩阵乘法而获得,如下文的伪码中概述。hoaFrame记法是指HOA系数11的帧。
LIT单元30可在将SVD(svd)应用于PSD之后可获得S[k]2矩阵(S_squared)和V[k]矩阵。S[k]2矩阵可表示S[k]矩阵的平方,因此LIT单元30可将平方根运算应用于S[k]2矩阵以获得S[k]矩阵。在一些情况下,LIT单元30可相对于V[k]矩阵执行量化以获得经量化V[k]矩阵(其可表示为V[k]'矩阵)。LIT单元30可通过首先将S[k]矩阵乘以经量化V[k]'矩阵以获得SV[k]'矩阵而获得U[k]矩阵。LIT单元30接下来可获得SV[k]'矩阵的伪逆(pinv)且接着将HOA系数11乘以SV[k]'矩阵的伪逆以获得U[k]矩阵。可由以下伪码表示前述情况:
PSD=hoaFrame'*hoaFrame;
[V,S_squared]=svd(PSD,'econ');
S=sqrt(S_squared);
U=hoaFrame*pinv(S*V');
通过相对于HOA系数的功率谱密度(PSD)而非系数自身执行SVD,LIT单元30可在处理器循环和存储空间的一或多者方面可能地降低执行SVD的计算复杂性,同时实现相同的源音频编码效率,如同SVD是直接应用于HOA系数一般。即,上述PSD型SVD可潜在地需求较少计算,因为SVD是在F*F矩阵(其中F为HOA系数的数目)上完成。与M*F矩阵相比,其中M为帧长度,即1024或更多个样本。经由应用于PSD而非HOA系数11,与应用于HOA系数11时的O(M*L^2)相比较,SVD的复杂性现可为约O(L^3)(其中O(*)表示计算机科学技术中常见的计算复杂性的大O记法)。
参数计算单元32表示经配置以计算各种参数的单元,所述参数例如相关性参数(R)、方向性质参数及能量性质(e)。用于当前帧的参数中的每一者可表示为R[k]、θ[k]、r[k]及e[k]。参数计算单元32可相对于US[k]向量33执行能量分析和/或相关(或所谓的交叉相关)以识别这些参数。参数计算单元32还可确定先前帧的这些参数,其中先前帧参数可基于具有US[k-1]向量及V[k-1]向量的先前帧表示为R[k-1]、θ[k-1]、r[k-1]及e[k-1]。参数计算单元32可将当前参数37和先前参数39输出到重排序单元34。
即,参数计算单元32可相对于对应于第一时间的L个第一US[k]向量33中的每一者和对应于第二时间的第二US[k-1]向量33中的每一者执行能量分析,从而计算第一音频帧的至少一部分(但常常为整个)及第二音频帧的一部分(但常常为整个)的均方根能量且借此产生2L能量,一个用于第一音频帧的L个第一US[k]向量33中的每一者,且一个用于第二音频帧的第二US[k-1]向量33中的每一者。
在其它实例中,参数计算单元32可执行第一US[k]向量33中的每一者的与第二US[k-1]向量33中的每一者的样本集合的某一部分(如果非整个)之间的交叉相关。交叉相关可指代如信号处理技术中理解的交叉相关。换句话说,交叉相关可涉及测量两个波形(在此情况下,其被定义为M个样本的离散集合)之间的相似度,其随应用于其中的一者的时间滞后而变。在一些实例中,为执行交叉相关,参数计算单元32逐轮比较每一第一US[k]向量27的最后L个样本与第二US[k-1]向量33中的剩余者中的每一者的前L个样本以确定相关参数。如本文所使用,“逐轮”运算是指相对于第一元素集合和第二元素集合进行的逐元素运算,其中所述运算根据集合的排序而“依次”从第一和第二元素集合中的每一者取出一个元素。
参数计算单元32还可分析V[k]和/或V[k-1]向量35以确定方向特性参数。这些方向特性参数可提供由对应US[k]和/或US[k-l]向量33表示的音频对象的移动和位置的指示。参数计算单元32可将以上当前参数37的任何组合(相对于US[k]向量33和/或V[k]向量35确定)和先前参数39的任何组合(相对于US[k-1]向量33和/或V[k-1]向量35确定)提供到重排序单元34。
SVD分解不保证由US[k-1]向量33中的第p向量(其可表示为US[k-1][p]向量(或替代地表示为XPS (p)(k-1))表示的音频信号/对象将与由US[k]向量33中的第p向量(其也可表示为US[k][p]向量33(或替代地表示为XPS (p)(k))表示的音频信号/对象(随时间而进展)相同。由参数计算单元32计算的参数可供重排序单元34用以将音频对象重排序以表示其自然评估或随时间推移的连续性。
也就是说,重排序单元34可接着逐轮地将来自第一US[k]向量33的参数37中的每一者与第二US[k-1]向量33的参数39中的每一者相比较。重排序单元34可基于当前参数37及先前参数39对US[k]矩阵33及V[k]矩阵35内的各种向量重排序(作为一个实例,使用匈牙利算法)以输出经重排序的US[k]矩阵33'(其可数学表示为US[k])及经重排序的V[k]矩阵35'(其可数学表示为V[k])至前景声音(或优势的声音-PS)选择单元36(“前景选择单元36”)及能量补偿单元38。
换句话说,重排序单元34可表示经配置以对US[k]矩阵33内的向量重排序以产生经重排序的US[k]矩阵33'的单元。重排序单元34可重排序US[k]矩阵33,因为US[k]向量33的阶数(其中,再次可替代地表示为XPS (p)(k)的US[k]向量33中的每一向量再次可表示声场中存在的一或多个相异(或换句话说,优势)单音频对象)可在音频数据的若干部分之间变化。也就是说,在一些实例中,假定音频编码装置12对音频数据的通常称为音频帧的这些部分操作,那么对应于这些独特的单音频对象的向量的位置(如在所导出的US[k]矩阵33中所表示)可归因于将SVD应用于帧和帧间每一音频对象形式的不同突出性而在音频帧间不同。
将US[k]矩阵33内的向量直接传递到夹层格式单元40而不逐音频帧地对US[k]矩阵33内的向量重排序可能减小一些压缩方案(例如传统压缩方案,其在单音频对象跨越音频帧为连续(逐信道的,其在此实例中由US[k]矩阵33内的向量相对于彼此的位置次序而定义)时性能更好)可实现的压缩程度。此外,当不重排序时,US[k]矩阵33内的向量的编码可能在解码时降低音频数据的质量。举例来说,与当直接逐帧地对US[k]矩阵33内的向量进行编码时实现的压缩相比,AAC编码器可更高效地逐帧地压缩US[k]矩阵33'内的经重排序一或多个向量。尽管上文相对于AAC编码器予以描述,但可相对于跨越处于特定阶数或位置的帧指定单音频对象(逐信道地)时提供更好压缩的任何编码器执行所述技术。
以此方式,所述技术的各个方面可使得音频编码装置12能够对一或多个向量重排序(例如,US[k]矩阵33内的向量,以产生经重排序US[k]矩阵33'内的经重排序的一或多个向量且借此促进传统音频编码器(例如心理声学音频译码器)对US[k]矩阵33内的向量的压缩)。
举例来说,重排序单元34可基于当前参数37和先前参数39对来自第一音频帧的US[k]矩阵33内的一或多个向量重排序,所述第一音频帧在时间上在US[k-1]矩阵33内的一或多个第二向量对应于的第二帧之后。尽管于在时间上在第二音频帧之后的第一音频帧的上下文中予以描述,但第一音频帧可在时间上先于第二音频帧。因此,所述技术不应限于本发明中描述的实例。
为进行说明,考虑下表3,其中US[k]矩阵33内的p个向量中的每一者表示为US[k][p],其中k表示对应向量是来自第k帧还是先前第(k-1)帧,且p表示所述向量相对于同一音频帧的向量(其中US[k]矩阵具有(N+1)2个此种向量)的行。如上文所指出,假定N确定为1,那么p可表示向量一(1)到(4)。
表3
所考虑的能量 | 与以下各者相比 |
US[k-1][1] | US[k][1],US[k][2],US[k][3],US[k][4] |
US[k-1][2] | US[k][1],US[k][2],US[k][3],US[k][4] |
US[k-1][3] | US[k][1],US[k][2],US[k][3],US[k][4] |
US[k-1][4] | US[k][1],US[k][2],US[k][3],US[k][4] |
在以上表3中,重排序单元34将针对US[k-l][1]计算的能量与针对US[k][1]、US[k][2]、US[k][3]、US[k][4]中的每一者计算的能量比较,将针对US[k-1][2]计算的能量与针对US[k][1]、US[k][2]、US[k][3]、US[k][4]中的每一者计算的能量比较,等等。重排序单元34可随后丢弃先前第二音频帧(依据时间)的第二US[k-1]向量33中的一或多者。为进行说明,考虑展示剩余第二US[k-1]向量33的下表4:
表4
所考虑的向量 | 所考虑的剩余向量 |
US[k-1][1] | US[k][1],US[k][2] |
US[k-1][2] | US[k][1],US[k][2] |
US[k-1][3] | US[k][3],US[k][4] |
US[k-1][4] | US[k][3],US[k][4] |
在以上表4中,重排序单元34可基于能量比较确定针对US[k-1][1]计算的能量类似于针对US[k][1]和US[k][2]中的每一者计算的能量,针对US[k-1][2]计算的能量类似于针对US[k][1]和US[k][2]中的每一者计算的能量,针对US[k-1][3]计算的能量类似于针对US[k][3]和US[k][4]中的每一者计算的能量,且针对US[k-1][4]计算的能量类似于针对US[k][3]和US[k][4]中的每一者计算的能量。在一些实例中,重排序单元34可执行进一步能量分析以识别US[k]矩阵33的第一向量中的每一者与US[k-1]矩阵33的第二向量中的每一者之间的相似度。
在其它实例中,重排序单元32可基于与交叉相关有关的当前参数37和先前参数39对向量重排序。在这些实例中,返回参考以上表4,重排序单元34可基于这些交叉相关参数确定表5中表达的以下示范性相关:
表5
所考虑的向量 | 与以下各者相关 |
US[k-1][1] | US[k][2] |
US[k-1][2] | US[k][1] |
US[k-1][3] | US[k][3] |
US[k-1][4] | US[k][4] |
从以上表5,作为一个实例,重排序单元34确定US[k-1][1]向量与位置不同的US[k][2]向量相关,US[k-1][2]向量与位置不同的US[k][1]向量相关,US[k-1][3]向量与位置类似的US[k][3]向量相关,且US[k-1][4]向量与位置类似的US[k][4]向量相关。换句话说,重排序单元34确定描述以下情况的重排序信息:如何重排序US[k]矩阵33的第一向量使得US[k][2]向量再定位在US[k]矩阵33的第一向量的第一行中且US[k][1]向量再定位在第一US[k]向量33的第二行中。重排序单元34可随后基于此重排序信息对US[k]矩阵33的第一向量重排序以产生经重排序的US[k]矩阵33'。
此外,尽管未在图10的实例中展示,但重排序单元34可将此重排序信息提供至位流产生装置42,位流产生装置42可产生位流21以包含此重排序信息,以使得音频解码装置(例如图4和11的实例中所示的音频解码装置24)可确定如何对US[k]矩阵33'的经重排序向量重排序以便恢复US[k]矩阵33的向量。
虽然上文描述为执行涉及基于分析的首先能量特定参数和随后交叉相关参数的两步法,但重排序单元32可仅相对于能量参数仅执行此分析以确定重排序信息,仅相对于交叉相关参数执行此分析以确定重排序信息,或相对于能量参数和交叉相关参数两者执行所述分析(以上文所描述的方式)。此外,所述技术可使用并不涉及执行能量比较和/或交叉相关中的一或两者的其它类型的过程用于用于确定相关。因此,就此而言,所述技术不应限于以上阐述的实例。此外,从参数计算单元32获得的其它参数(例如从V向量导出的空间位置参数或V[k]和V[k-1]中的向量的相关性)也可与从US[k]和US[k-1]获得的能量和交叉相关参数一起使用(同时/联合地或连续地)以确定US中的向量的正确排序。
作为使用V矩阵中的向量的相关性的一个实例,参数计算单元34可确定V[k]矩阵35的向量为相关的,如在以下表6中所指定:
表6
所考虑的向量 | 与以下各者相关 |
V[k-1][1] | V[k][2] |
V[k-1][2] | V[k][1] |
V[k-1][3] | V[k][3] |
V[k-1][4] | V[k][4] |
从以上表6,作为一个实例,重排序单元34确定V[k-1][1]向量与位置不同的V[k][2]向量相关,V[k-1][2]向量与位置不同的V[k][1]向量相关,V[k-1][3]向量与位置类似的V[k][3]向量相关,且V[k-1][4]向量与位置类似的V[k][4]向量相关。重排序单元34可输出V[k]矩阵35的向量的经重排序版本作为经重排序的V[k]矩阵35'。
在一些实例中,应用于US矩阵中的向量的相同的重排序也适用于V矩阵中的向量。换句话说,用于对V向量重排序的任何分析可与用以对US向量重排序的任何分析结合使用。为了说明其中重排序信息并不仅仅相对于US[k]向量35相对于能量参数和/或交叉相关参数确定的实例,重排序单元34还可以类似于上文相对于V[k]向量35描述的方式基于交叉相关参数和能量参数相对于V[k]向量35执行此分析。此外,虽然US[k]向量33并不具有任何方向特性,但V[k]向量35可提供关于对应US[k]向量33的方向性的信息。在此意义上,重排序单元34可基于对应方向特性参数的分析识别V[k]向量35与V[k-1]向量35之间的相关。也就是说,在一些实例中,音频对象在移动时以连续方式在声场内移动或保持处于相对稳定的位置。由此,重排序单元34可将V[k]矩阵35和V[k-1]矩阵35的展现一些已知实体实际运动或在声场内保持固定的那些向量识别为相关的,从而基于此方向特性相关而对US[k]向量33和V[k]向量35重排序。在任何情况下,重排序单元34可将经重排序的US[k]向量33'和经重排序的V[k]向量35'输出到前景选择单元36。
此外,所述技术可使用并不涉及执行能量比较和/或交叉相关中的一或两者的其它类型的过程用于确定正确次序。因此,就此而言,所述技术不应限于以上阐述的实例。
尽管上文描述为对V矩阵的向量重排序以镜射US矩阵的向量的重排序,但在某些情况下,V向量可以不同于US向量的方式重排序,其中可产生单独语法元素以指示US向量的重排序和V向量的重排序。在一些情况下,假定V向量可不进行心理声学编码,则可不对V向量重排序而可仅对US向量重排序。
其中V矩阵的向量与US矩阵的向量的重排序不同的实施例为当意图调换空间中的音频对象时--即,将其移开原始记录位置(当基本声场为自然记录时)或艺术意图位置(当基本声场为对象的人工混合时)。作为一实例,假设存在两个音频源A和B,A可为出自声场“左”部分的猫的声音“喵喵”,且B可为出自声场“右”部分的狗的声音“汪汪”。当V与US的重排序不同时,调换两个声源的位置。在调换之后,A(“喵喵”)出自于声场的右部分,且B(“汪汪”)出自于声场的左部分。
声场分析单元44可表示经配置以相对于HOA系数11执行声场分析以便有可能实现目标位速率41的单元。声场分析单元44可基于此分析和/或基于所接收目标位速率41,确定心理声学译码器示例的总数目(其可为环境或背景信道的总数目(BGTOT)的函数)和前景信道(或换句话说,占优势信道)的数目。心理声学译码器示例的总数可表示为numHOATransportChannels。再次为了潜在地实现目标位速率41,声场分析单元44还可确定前景信道的总数(nFG)45、背景(或换句话说,环境)声场的最小阶数(NBG或替代地,MinAmbHoaOrder)、表示背景声场的最小阶数的实际信道的对应数目(nBGa=(MinAmbHoaOrder+1)2),和要发送的额外BG HOA信道的索引(i)(其在图10的实例中可共同地表示为背景信道信息43)。背景信道信息42也可被称作环境信道信息43。保持来自numHOATransportChannels-nBGa的信道中的每一者可为“额外背景/环境信道”、“作用中基于向量的占优势信道”、“作用中基于方向的占优势信号”或“完全非作用”。在一个实施例中,这些信道类型可为由两个位指示(为“ChannelType”)的语法元素(例如,00:额外背景信道;01:基于向量的优势信号;10:非作用信号;11:基于方向的信号)。可由(MinAmbHoaOrder+1)2+索引00(在以上实例中)在用于所述帧的位流中作为信道类型出现的次数给出背景或环境信号的总数nBGa。
在任何情况下,声场分析单元44可基于目标位速率41选择背景(或换句话说,环境)信道的数目和前景(或换句话说,占优势)信道的数目,从而在目标位速率41相对较高时(例如,在目标位速率41等于或大于512Kbps时)选择更多背景和/或前景信道。在一个实施例中,在位流的标头区段中,numHOATransportChannels可设定为8,而MinAmbHoaOrder可设定为1(其相对于图10到10O(ii)更详细地描述)。在此情境下,在每个帧处,四个信道可专用于表示声场的背景或环境部分,而其它4个信道可逐帧地在信道类型上变化--例如,用作额外背景/环境信道或前景/占优势信道。前景/优势信号可为基于向量或基于方向的信号中的一者,如上文所描述。
在一些情况下,可通过在一帧的位流中的ChannelType索引为01(在以上实例中)的次数给出用于所述帧的基于向量的优势信号的总数。在以上实施例中,对于每一额外背景/环境信道(例如,对应于ChannelType 00),其可能HOA系数(超出前四个)的对应信息可表示于所述信道中。用于四阶HOA内容的此信息可为指示于5到25之间的索引(在minAmbHoaOrder设定为1时,可始终发送前四个1到4,因此仅需要指示5到25之间的一者)。因而可使用5位语法元素(对于四阶内容)发送此信息,其可表示为“CodedAmbCoeffIdx”。
在第二实施例中,所有前景/优势信号为基于向量的信号。在此第二实施例中,可由nFG=numHOATransportChannels-[(MinAmbHoaOrder+1)2+索引00的次数]给出前景/优势信号的总数。
声场分析单元44将背景信道信息43和HOA系数11输出到背景(BG)选择单元46,将背景信道信息43输出到系数减少单元46和位流产生单元42,且将nFG 45输出到前景选择单元36。
在一些实例中,声场分析单元44可基于US[k]矩阵33和目标位速率41的向量的分析选择具有最大值的这些分量的可变nFG数目。换句话说,声场分析单元44可通过分析由S[k]矩阵33的向量的递减对角线值产生的曲线的斜率而确定分隔两个子空间的变数A(其可类似或实质上类似于NBG)的值,其中大奇异值表示前景或独特的声音,且低奇异值表示声场的背景分量。也就是说,变量A可将总体声场分段成前景子空间和背景子空间。
在一些实例中,声场分析单元44可使用奇异值曲线的一阶和二阶导数。声场分析单元44还可将变量A的值限制在一与五之间。作为另一实例,声场分析单元44可将变量A的值限制在一与(N+l)2之间。或者,声场分析单元44可将变量A的值预先界定为例如值四。在任何情况下,基于A的值,声场分析单元44确定前景信道的总数(nFG)45、背景声场的阶数(NBG)和要发送的额外BG HOA信道的数目(nBGa)及索引(i)。
此外,声场分析单元44可每向量地确定V[k]矩阵35中的向量的能量。声场分析单元44可确定V[k]矩阵35中的向量中的每一者的能量,且将具有高能量的那些向量识别为前景分量。
此外,声场分析单元44可对于HOA系数11执行各种其它分析,包括空间能量分析、空间掩蔽分析、扩散分析或其它形式的听觉分析。声场分析单元44可经由将HOA系数11变换到空间域来执行空间能量分析,且识别表示应保存的声场的方向分量的高能量区域。声场分析单元44可以类似于空间能量分析的方式执行感知空间掩蔽分析,只是声场分析单元44可识别由空间上接近的较高能量声音掩蔽的空间区域。在一些情况下,声场分析单元44可接着基于感知掩蔽区域识别较少前景分量。声场分析单元44可进一步对于HOA系数11执行扩散分析以识别可表示声场的背景分量的扩散能量区域。
声场分析单元44还可表示经配置以使用与音频数据相关联的基于方向性的信息确定表示声场的音频数据的突出性、独特性或优势性的单元。虽然基于能量的确定可改善由SVD分解的声场的再现以识别声场的相异音频分量,但在背景音频分量展现高能级的情况下,基于能量的确定也可使装置错误地将背景音频分量识别为相异音频分量。即,相异和背景音频分量的基于仅能量的分离可不稳健,因为高能(例如,较大声)背景音频分量可能经不正确地识别为相异音频分量。为了更稳健地在声场的独特的背景音频分量之间区分,本发明中所描述的技术的各个方面可使声场分析单元44能够执行HOA系数11的基于方向性的分析以将前景和环境音频分量与HOA系数11的经分解版本分离。
在这方面中,声场分析单元44可表示经配置或以其它方式可操作以识别来自US[k]矩阵33中的向量和V[k]矩阵35中的向量中的一或多者中包含的背景元素的相异(或前景)元素的单元。根据一些基于SVD的技术,最高能量分量(例如,US[k]矩阵33和V[k]矩阵35中的一或多者的前面几个向量或自其导出的向量)可处理为相异分量。然而,US[k]矩阵33中的向量和V[k]矩阵35中的向量中的一或多者的能量最高的分量(其由向量表示)并非在所有情形中均可表示最具指导性的分量/信号。
声场分析单元44可实施本文中所描述的技术的一或多个方面以基于US[k]矩阵33中的向量和V[k]矩阵35中的向量或自其导出的向量中的一或多者的向量的方向性而识别前景/直接/优势元素。在一些实例中,声场分析单元44可基于能量的向量的方向性两者识别或选择一或多个向量作为独特的音频分量(其中所述分量也可被称作“对象”)。举例来说,声场分析单元44可将US[k]矩阵33中的向量和V[k]矩阵35中的向量(或自其导出的向量)中的一或多者中的显示高能量和高方向性(例如,表示为方向性商)两者的那些向量识别为独特的音频分量。结果,如果声场分析单元44确定特定向量与US[k]矩阵33中的向量和V[k]矩阵35中的向量(或自其导出的向量)中的一或多者中的其它向量相比具有相对较少的方向性,那么不管与所述特定向量相关联的能量级如何,声场分析单元44可确定所述特定向量表示由HOA系数11表示的声场的背景(或环境)音频分量。
在一些实例中,声场分析单元44可通过执行以下操作基于方向性识别独特的音频对象(如上文所指出,其也可称为“分量”)。声场分析单元44可将S[k]矩阵(其可从US[k]向量33导出或(但在图10的实例中未图示)由LIT单元30单独地输出)中的向量乘以(例如,使用一或多个矩阵乘法过程)V[k]矩阵35中的向量。通过使V[k]矩阵35与S[k]向量相乘,声场分析单元44可获得VS[k]矩阵。此外,声场分析单元44可对VS[k]矩阵中的向量中的每一者的条目中的至少一些求平方(即,幂次为二的取幂)。在一些情况下,声场分析单元44可对每一向量的与大于1的阶数相关联的那些经求平方的条目进行求和。
作为一个实例,如果VS[k]矩阵的每一向量包含25个条目,那么声场分析单元44可相对于每一向量对在第五条目处开始且在第二十五条目处结束的每一向量的条目求平方,对经求平方的条目求和以确定方向性商(或方向性指示符)。每一求和运算可导致对应的向量的方向性商。在此实例中,声场分析单元44可确定每一行的与小于或等于1的阶数相关联的那些条目(即,第一到第四条目),更通常是针对能量的量,且较少针对那些条目的方向性。即,与零或一的阶数相关联的较低阶立体混响对应于球面基底函数,如在图1及图2中所说明,就压力波的方向而言球面基底函数并不提供许多,而是提供某个体积(其表示能量)。
以上实例中描述的操作也可以根据以下伪码而表达。以下伪码包含标注,呈包含在字符串“/*”和“*/”(无引号)的连续实例内的注释语句的形式。
[U,S,V]=svd(audioframe,'ecom');
VS=V*S;
/*下一排是针对独立地分析每一行,且将从第五条目到第二十五条目的第一(作为一个实例)行中的值求和以确定一对应的向量的商或方向性量度。在求和前将所述条目自乘。每一行中与大于1的阶相关联的条目与较高阶立体混响相关联,且因此更有可能为方向性的。*/
sumVS=sum(VS(5:end,:).^2,1);
/*下一排是针对将产生的VS矩阵的平方的总和排序,且选择最大值的集合(例如,最大值中的三个或四个)*/
[~,idxVS]=sort(sumVS,'descend');
U=U(:,idxVS);
V=V(:,idxVS);
S=S(idxVS,idxVS);
换句话说,根据以上伪码,声场分析单元44可选择从HOA系数11中的对应于具有大于一的阶数的球面基底函数的那些HOA系数分解的VS[k]矩阵的每一向量的条目。声场分析单44可接着将VS[k]矩阵的每一向量的这些条目自乘,将经平方条目求和以识别、计算或以其它方式确定VS[k]矩阵的每一向量的方向性量度或商。接下来,声场分析单元44可基于向量中的每一者的相应方向性量度将VS[k]矩阵的向量分类。声场分析单元44可将这些向量以方向性量度的降序排序,使得具有最高对应方向性的那些向量是最先的,且具有最低对应方向性的那些向量是最后的。声场分析单元44可随后选择向量的具有最高相对方向性量度的非零子集。
声场分析单元44可执行先前分析的任何组合以确定心理声学译码器执行个体的总数(其可为环境或背景信道的总数(BGTOT)和前景信道的数目的函数。声场分析单元44可基于先前分析的任何组合确定前景信道的总数(nFG)45、背景声场的阶数(NBG)和要发送的额外BG HOA信道的数目(nBGa)及索引(i)(其在图10的实例中可共同地表示为背景信道信息43)。
在一些实例中,声场分析单元44可每M个样本(其可重新表述为逐帧地)执行此分析。在这方面中,A的值可在帧间不同。其中每M个样本进行决策的位流的例子展示于图10到10O(ii)中。在其它实例中,声场分析单元44可每帧执行此分析一次以上,从而分析帧的两个或两个以上部分。因此,所述技术在这方面不应限于本发明中描述的实例。
背景选择单元48可表示经配置以基于背景信道信息(例如,背景声场(NBG)以及待发送的额外BG HOA信道的数目(nBGa)及索引(i))确定背景或环境HOA系数47的单元。举例来说,当NBG等于一时,背景选择单元48可选择具有等于或小于一的阶数的音频帧的每一样本的HOA系数11。在此实例中,背景选择单元48可接着选择具有由索引(i)中的一者识别的索引的HOA系数11作为额外BG HOA系数,其中将待于位流21中指定的nBGa提供到位产生单元42以便使得音频解码装置(例如,图9A的实例中所展示的音频解码装置24)能够从位流21剖析BG HOA系数47。背景选择单元48可接着将环境HOA系数47输出到能量补偿单元38。环境HOA系数47可具有维度D:M×[(NBG+1)2+nBGa]。
前景选择单元36可表示经配置以基于nFG 45(其可表示识别这些前景向量的一或多个索引)选择经重排序的US[k]矩阵33'和经重排序的V[k]矩阵35'中的表示声场的前景或相异分量的那些的单元。前景选择单元36可将nFG信号49(其可表示为经重排序的US[k]1,…,nFG 49、FG1,…,nfG[k]49或49)输出到夹层格式单元40,其中nFG信号49可具有维度D:M x nFG且各自表示单音频对象。前景选择单元36还可将对应于声场的前景分量的经重排序的V[k]矩阵35'(或v(1..nFG)(k)35')输出到空间-时间内插单元50,其中经重排序的V[k]矩阵35'中的对应于前景分量的那些可表示为具有维度D:(N+1)2×nFG的前景V[k]矩阵51k(其可在数学上表示为)。
能量补偿单元38可表示经配置以相对于环境HOA系数47执行能量补偿以补偿归因于由背景选择单元48移除HOA信道中的各者而产生的能量损失的单元。能量补偿单元38可相对于经重新排序的US[k]矩阵33'、经重新排序的V[k]矩阵35'、nFG信号49、前景V[k]向量51k和环境HOA系数47中的一或多者执行能量分析,且接着基于此能量分析执行能量补偿以产生经能量补偿的环境HOA系数47'。能量补偿单元38可将经能量补偿的环境HOA系数47'输出到夹层格式单元40。
有效地,能量补偿单元38可用于补偿由于减小HOA系数11描述的声场的环境分量的阶数以产生降阶的环境HOA系数47(其在一些实例中具有小于N的阶数,依据对应于具有以下阶数/子阶数的球面基底函数的唯一包含系数:[(NBG+1)2+nBGa])所导致的声场的背景声音分量的总体能量的可能降低。在一些实例中,能量补偿单元38通过以下操作补偿此能量损耗:确定适用于环境HOA系数47的[(NBG+1)2+nBGa]列中的每一者的呈放大值的形式的补偿增益以便将环境HOA系数47能量的均方根(RMS)增加到等于或至少更接近地近似HOA系数11的RMS(如经由经重排序的US[k]矩阵33'、经重排序的V[k]矩阵35'、nFG信号49、前景V[k]向量51k和降阶的环境HOA系数47中的一或多者的总计能量分析而确定),随后将环境HOA系数47输出到夹层格式单元40。
在一些情况下,能量补偿单元38可识别经重排序的US[k]矩阵33'和经重排序的V[k]矩阵35'中的一或多者上的每一行和/或列的RMS。能量补偿单元38还可识别选定前景信道中的一或多者(其可包含nFG信号49和前景V[k]向量51k,以及降阶的环境HOA系数47)的每一行和/或列的RMS。经重排序的US[k]矩阵33'和经重排序的V[k]矩阵35'中的所述一或多者的每一行和/或列的RMS可存储为表示为RMSFULL的向量,而nFG信号49、前景V[k]向量51k和降阶的环境HOA系数47中的一或多者的每一行和/或列的RMS可存储为表示为RMSREDUCED的向量。能量补偿单元38接着可根据以下等式计算放大值向量Z:Z=RMSFULL/RMSREDUCED。能量补偿单元38可随后将此放大值向量Z或其各部分应用到nFG信号49、前景V[k]向量51k和降阶的环境HOA系数47中的一或多者。在一些情况下,按照以下等式将放大值向量Z仅应用于经降阶的环境HOA系数47:HOABG-RED′=HOABG-REDZT,其中HOABG-RED表示经降阶的环境HOA系数47,HOABG-RED'表示经能量补偿的经减少环境HOA系数47',且ZT表示Z向量的转置。
在一些实例中,为确定经重排序的US[k]矩阵33'、经重排序的V[k]矩阵35'、nFG信号49、前景V[k]向量51k和降阶的环境HOA系数47中的一或多者的相应行和/或列的每一RMS,能量补偿单元38可首先将参考球谐系数(SHC)再现器应用到所述列。由能量补偿单元38应用参考SHC再现器允许确定SHC域中的RMS以确定经重排序的US[k]矩阵33'、经重排序的V[k]矩阵35'、nFG信号49、前景V[k]向量51k和降阶的环境HOA系数47中的一或多者的行和/或列表示的帧的每一行和/或列所描述的总体声场的能量,如下文更详细地描述。
空间-时间内插单元50可表示经配置以接收第k帧的前景V[k]向量51k和前一帧(因此为k-1记法)的前景V[k-1]向量51k-1且执行空间-时间内插以产生经内插前景V[k]向量的单元。空间-时间内插单元50可将nFG信号49与前景V[k]向量51k重新组合以恢复经重排序的前景HOA系数。空间-时间内插单元50可接着将经重排序的前景HOA系数除以经内插的V[k]向量以产生经内插的nFG信号49'。空间-时间内插单元50还可输出前景V[k]向量51k的用于产生经内插前景V[k]向量的那些向量使得例如音频解码装置24等音频解码装置可产生经内插前景V[k]向量且借此恢复前景V[k]向量51k。将前景V[k]向量51k的用以产生经内插的前景V[k]向量的那些前景V[k]向量51k表示为剩余前景V[k]向量53。为了确保在编码器和解码器处使用相同的V[k]和V[k-1](以创建经内插的向量V[k]),可在编码器和解码器处使用这些的经量化/经解量化的版本。
就此而言,空间-时间内插单元50可表示从第一音频帧的一些其它部分和第二时间上在后或在前的音频帧内插第一音频帧的第一部分的单元。在一些实例中,所述部分可表示为子帧,其中下文关于图45到46E更详细地描述如相对于子帧执行的内插。在其它实例中,空间-时间内插单元50可相对于前一帧的某一最后数目的样本和后续帧的某一第一数目的样本而操作。空间-时间内插单元50可在执行此内插时减小位流21中需要指定的前景V[k]向量51k的样本的数目,因为前景V[k]向量51k的仅那些用于产生经内插V[k]向量的前景V[k]向量51k表示前景V[k]向量51k的子集。也就是说,为了潜在地使HOA系数11的压缩更有效(通过减小在位流21中指定的前景V[k]向量51k的数目),本发明中所描述的技术的各个方面可提供第一音频帧的一或多个部分的内插,其中所述部分中的每一者可表示HOA系数11的经分解版本。
空间-时间内插可导致数个益处。首先,归因于执行SVD或其它LIT的逐块性质,nFG信号49可不从帧到帧为连续的。换句话说,在LIT单元30逐帧应用SVD的条件下,所产生的经变换HOA系数中可存在特定不连续性,如例如US[k]矩阵33和V[k]矩阵35的无序性质所证明。通过执行此内插,在内插可具有潜在地减少归因于帧边界(或换句话说,HOA系数11分段为帧)而引入的任何假象的平滑效果的条件下可减小不连续。使用前景V[k]向量51k执行此内插且接着基于经内插前景V[k]向量51k从所恢复的经重排序HOA系数产生经内插nFG信号49'可使归因于逐帧运算以及归因于对nFG信号49重排序的至少一些效果平滑化。
在操作中,空间-时间内插单元50可内插来自包含于第一帧中的第一多个HOA系数11的一部分的第一分解(例如,前景V[k]向量51k)和包含于第二帧中的第二多个HOA系数11的一部分的第二分解(例如,前景V[k]向量51k-1)的第一音频帧的一或多个子帧以产生用于所述一或多个子帧的经分解的经内插球谐系数。
在一些实例中,第一分解包括表示HOA系数11的所述部分的右奇异向量的第一前景V[k]向量51k。同样,在一些实例中,第二分解包括表示HOA系数11的所述部分的右奇异向量的第二前景V[k]向量51k。
换句话说,就球面上的正交基底函数而言,基于球谐的3D音频可为3D压力场的参数表示。所述表示的阶数N越高,空间分辨率潜在地越高,且常常球谐(SH)系数的数目越大(总共(N+1)2个系数)。对于许多应用,可能需要系数的带宽压缩能够有效地发射且存储所述系数。在本发明中所针对的此技术可提供使用奇异值分解(SVD)的基于帧的维度减少过程。SVD分析可将系数的每一帧分解成三个矩阵U、S及V。在一些实例中,所述技术可将US[k]矩阵中的向量中的一些作为基础声场的方向分量处置。然而,当以此方式处置时,这些向量(在U S[k]矩阵中)在帧间是不连续的--即使其表示同一相异音频分量。当通过变换音频译码器馈入所述分量时,这些不连续性可导致显著假象。
本发明中所描述的技术可解决此不连续性。即,所述技术可基于以下观测结果:V矩阵可经解译为球谐域中的正交空间轴。U[k]矩阵可表示球谐(HOA)数据根据那些基底函数的投影,其中不连续性可归因于正交的空间轴(V[k]),所述空间轴线每帧改变且因此自身为不连续的。这不同于例如傅立叶变换的类似分解,其中基底函数在一些实例中在帧间将为常数。在这些术语中,SVD可认为是匹配追求算法。本发明中所描述的技术可使内插单元50能够通过在其间进行内插而在帧间维持基底函数(V[k])之间的连续性。
如上文所指出,可相对于样本执行内插。当子帧包括样本的单个集合时,此情况在以上描述中得以一般化。在经由样本和经由子帧的内插的两个情况中,内插运算可呈以下等式的形式:
在此上述等式中,内插可以相对于单个V向量v(k)从单个V向量v(k-1)执行,所述V向量在一个实施例中可表示来自邻近帧k和k-1的V向量。在上述等式中,l表示执行内插所针对的分辨率,其中l可指示整数样本且l=1,…,T(其中T为样本的长度,在所述长度内执行内插且在所述长度内需要输出的经内插的向量且所述长度还指示此过程的输出产生这些向量的l)。替代地,l可指示由多个样本组成的子帧。当(例如)将帧划分成四个子帧时,l可包括用于所述子帧中的每一者的值1、2、3和4。可经由位流将l的值作为被称为“CodedSpatialInterpolationTime”的字段用信号表示,使得可在解码器中重复内插运算。w(l)可包括内插权数的值。当内插为线性的时,w(l)可随着l而变在0与1之间线性地且单调地变化。在其它实例中,w(l)可随着l而变以非线性但单调方式(例如,升余弦的四分之一周期)在0与1之间变化。函数w(l)可在几个不同的函数可能性之间标引且在位流中用信号表示为被称为“SpatialInterpolationMethod”的字段以使得解码器可重复相同的内插运算。当w(l)是接近于0的值时,输出可由v(k-1)较高地加权或影响。而当w(l)是接近于1的值时,其确保输出由v(k-1)较高地加权或影响。
系数减少单元46可表示经配置以基于背景信道信息43相对于剩余前景V[k]向量53执行系数减少以将经减少的前景V[k]向量55输出到量化单元52的单元。经减少的前景V[k]向量55可具有维度D:[(N+1)2-(NBG+1)2-nBGa]×nFG。
系数减少单元46可在这方面中表示经配置以减少剩余前景V[k]向量53的系数的数目的单元。换句话说,系数减少单元46可表示经配置以消除(形成剩余前景V[k]向量53的)前景V[k]向量的具有极少到零方向信息的那些系数的单元。如上文所描述,在一些实例中,相异或(换句话说)前景V[k]向量的对应于一阶和零阶基底函数的那些系数(其可表示为NBG)提供极少方向信息,且因此可从前景V向量移除(经由可被称作“系数减少”的过程)。在此实例中,可提供较大灵活性以不仅从集合[(NBG+1)2+1,(N+1)2]识别对应于NBG的这些系数而且识别额外HOA信道(其可由变量TotalOfAddAmbHOAChan表示)。声场分析单元44可分析HOA系数11以确定BGTOT,其可不仅识别(NBG+1)2而且识别TotalOfAddAmbHOAChan(其可统称为背景信道信息43)。系数减少单元46可随后从剩余前景V[k]向量53移除对应于(NBG+1)2和TotalOfAddAmbHOAChan的那些系数以产生大小为((N+1)2-(BGTOT)x nFG的较小维度V[k]矩阵55,其也可被称作减少的前景V[k]向量55。
量化单元52可表示经配置以执行任何形式的量化以压缩减少的前景V[k]向量55以产生经译码前景V[k]向量57从而将这些经译码前景V[k]向量57输出到位流产生单元42的单元。在操作中,量化单元52可表示经配置以压缩声场的空间分量的单元,所述空间分量在此实例中即经减少前景V[k]向量55中的一或多者。出于实例的目的,假定减少的前景V[k]向量55包含两行向量,由于系数减少,每一行具有小于25个元素(其暗示声场的四阶HOA表示)。尽管相对于两个行向量来描述,但任何数目个向量可包含在减少的前景V[k]向量55中,至多为(n+1)2个,其中n表示声场的HOA表示的阶数。此外,尽管下文描述为执行标量和/或熵量化,但量化单元52可执行导致减少的前景V[k]向量55的压缩的任何形式的量化。
量化单元52可接收减少的前景V[k]向量55且执行压缩方案以产生经译码前景V[k]向量57。此压缩方案通常可涉及用于压缩向量或数据的元素的任何可设想压缩方案,且不应限于以下更详细描述的实例。作为一实例,量化单元52可执行包含以下各者中的一或多者的压缩方案:将减少的前景V[k]向量55的每一元素的浮点表示变换成减少的前景V[k]向量55的每一元素的整数表示、减少的前景V[k]向量55的整数表示的均匀量化,以及剩余前景V[k]向量55的经量化的整数表示的分类和译码。
在一些实例中,可由参数动态地控制此压缩方案的一或多个过程中的各者以实现或几乎实现用于所得位流21的目标位速率(作为一个实例)。在经减少前景V[k]向量55中的每一者彼此正交的条件下,经减少前景V[k]向量55中的每一者可独立译码。在一些实例中,如下文更详细地所描述,可使用相同译码模式(由各种子模式界定)译码每一减少的前景V[k]向量55的每一元素。
在任何情况下,如上文所指出,此译码方案可首先涉及将减少的前景V[k]向量55中的每一者的每一元素的浮点表示(其在一些实例中为32位浮点数)变换为16位整数表示。量化单元52可通过将减少的前景V[k]向量55中的给定者的每一元素乘以215(在一些实例中,其通过右移15而执行)而执行此浮点到整数变换。
量化单元52可随后相对于减少的前景V[k]向量55中的给定者的所有元素执行均匀量化。量化单元52可基于可表示为nbits参数的值识别量化步长大小。量化单元52可基于目标位速率41动态地确定此nbit参数。量化单元52可依据此nbits参数确定量化步长大小。作为一个实例,量化单元52可将量化步长大小(在本发明中表示为“差量”或“Δ”)确定为等于216-nbits。在此实例中,如果nbits等于六,则差量等于210,且存在26个量化层级。在此方面,对于向量元素v,经量化向量元素vq等于[v/Δ]且-2nbits-1<vq<2nbits-1。
量化单元52可接着执行经量化向量元素的分类和残余译码。作为一个实例,量化单元52可使用以下等式对于一给定经量化向量元素vq识别此元素所对应的类别(通过确定类别识别符cid):
量化单元52可接着对此类别索引cid进行霍夫曼译码,同时也识别指示vq为正值还是负值的正负号位。量化单元52接下来可识别此类别中的残余。作为一个实例,量化单元52可根据以下等式确定此残余:
残余=|vq|-2cid-1
量化单元52可接着用cid-1个位对此残余进行块译码。
以下实例说明此分类和残余译码过程的简化实例。首先,假定nbits等于六以使得vq∈[-31,31]。接下来,假定以下:
又,假定以下:
因此,对于vq=[6,-17,0,0,3],可确定以下各项:
>>cid=3,5,0,0,2
>>sign=1,0,x,x,1
>>残余=2,1,x,x,1
>>针对6的位=‘0010’+’1’+’10’
>>针对-17的位=‘00111’+’0’+‘0001’
>>针对0的位=‘0’
>>针对0的位=‘0’
>>针对3的位=‘000’+‘1’+‘1’
>>总计位=7+10+1+1+5=24
>>平均位=24/5=4.8
尽管未展示于先前简化实例中,但量化单元52可在对cid进行译码时针对nbits的不同值选择不同霍夫曼码簿。在一些实例中,量化单元52可针对nbits值6,…,15提供不同霍夫曼译码表。此外,量化单元52可包含针对范围为6,…,15的不同nbits值中的每一者的五个不同霍夫曼码簿,总共50个霍夫曼码簿。就此而言,量化单元52可包括多个不同霍夫曼码簿以适应数个不同统计上下文中的cid的译码。
为了说明,量化单元52可针对nbits值中的每一者包含用于对向量元素一到四译码的第一霍夫曼码簿、用于对向量元素五到九译码的第二霍夫曼码簿、用于对向量元素九及以上译码的第三霍夫曼码簿。当出现以下情形时,可使用这前三个霍夫曼码簿:减少的前景V[k]向量55中待压缩的前景V[k]向量55并非从减少的前景V[k]向量55中在时间上后续的对应前景V[k]向量预测而来且并非表示合成音频对象((例如)最初由经脉码调制(PCM)音频对象界定的音频对象)的空间信息。量化单元52可另外针对nbits值中的每一者包含用于对减少的前景V[k]向量55中的所述一者译码的第四霍夫曼码簿(当减少的前景V[k]向量55中的此一者是从减少的前景V[k]向量55中在时间上后续的对应前景V[k]向量预测而来时)。量化单元52还可针对nbits值中的每一者包含用于对减少的前景V[k]向量55中的所述一者译码的第五霍夫曼码簿(当减少的前景V[k]向量55中的此一者表示合成音频对象时)。可针对这些不同统计情境(即,在此实例中,非预测及非合成情境、预测情境及合成情境)中的每一者开发各种霍夫曼码簿。
下表说明霍夫曼表选择和待于位流中指定以使得解压缩单元能够选择适当霍夫曼表的位:
预测模式 | HT信息 | HT表 |
0 | 0 | HT5 |
0 | 1 | HT{1,2,3} |
1 | 0 | HT4 |
1 | 1 | HT5 |
在前表中,预测模式(“Pred模式”)指示是否针对当前向量执行了预测,而霍夫曼表(“HT信息”)指示用以选择霍夫曼表一到五中的一者的额外霍夫曼码簿(或表)信息。
下表进一步说明此霍夫曼表选择过程(假定各种统计情境或情形)。
记录 | 合成 | |
无预测 | HT{1,2,3} | HT5 |
有预测 | HT4 | HT5 |
在前表中,“记录”列指示向量表示所记录的音频对象时的译码情境,而“合成”列指示向量表示合成音频对象时的译码情境。“无预测”行指示并不相对于向量元素执行预测时的译码情境,而“有预测”行指示相对于向量元素执行预测时的译码情境。如此表中所示,量化单元52在向量表示所记录音频对象且不相对于向量元素执行预测时选择HT{1,2,3}。量化单元52在音频对象表示合成音频对象且不相对于向量元素执行预测时选择HT5。量化单元52在向量表示所记录音频对象且相对于向量元素执行预测时选择HT4。量化单元52在音频对象表示合成音频对象且相对于向量元素执行预测时选择HT5。
在这方面中,量化单元52可执行上文所述的标量量化和/或霍夫曼编码以压缩减少的前景V[k]向量55,从而输出经译码前景V[k]向量57(其可被称为旁侧信道信息57)。此旁侧信道信息57可包含用以对剩余前景V[k]向量55译码的语法元素。
如上所述,量化单元52可产生旁侧信道信息57的语法元素。举例来说,量化单元52可指定存取单元(其可包含一或多个帧)的标头中的表示选择所述多个配置模式中的哪一配置模式的语法元素。尽管描述为在每存取单元基础上予以指定,但量化单元52可在每帧基础或任何其它周期性基础或非周期性基础(例如整个位流一次)上指定此语法元素。在任何情况下,此语法元素可包括指示选择了四个配置模式中的哪一者用于指定减少的前景V[k]向量55的非零系数集合以表示此相异分量的方向方面的两个位。所述语法元素可表示为“codedVVecLength”。以此方式,量化单元52可在位流中用信号表示或以其它方式指定使用四个配置模式中的哪一者来在位流中指定经译码前景V[k]向量57。尽管相对于四个配置模式予以描述,但所述技术不应限于四个配置模式,而应限于任何数目的配置模式,包含单个配置模式或多个配置模式。标量/熵量化单元53还可将旗标63指定为旁侧信道信息57中的另一语法元素。
空间音频编码装置20内包含的夹层格式单元40可表示将数据格式化以符合已知格式(其可指代解码装置已知的格式)进而产生夹层格式化音频数据15的单元。夹层格式单元40在一些实例中可表示多路复用器,其可接收经译码前景V[k]向量57、经能量补偿环境HOA系数47'、经内插nFG信号49'以及背景信道信息43。夹层格式单元40接着可基于经译码前景V[k]向量57、经能量补偿环境HOA系数47'、经内插nFG信号49'以及背景信道信息43而产生夹层格式化音频数据15。如上所述,夹层格式化音频数据15可包含PCM输送信道和边带(或换句话说,旁侧信道)信息。
以此方式,所述技术可使得空间音频编码装置20能够经配置以存储较高阶立体混响音频数据,相对于所述较高阶立体混响音频数据执行夹层压缩以获得夹层格式化音频数据。
在这些和其它实例中,空间音频编码装置20可经配置以相对于所述较高阶立体混响音频数据执行不涉及心理声学音频编码的任何应用的夹层压缩以获得所述夹层格式化音频数据。
在这些和其它实例中,空间音频编码装置20可经配置以相对于所述较高阶立体混响音频数据执行空间音频编码以获得所述夹层格式化音频数据。
在这些和其它实例中,空间音频编码装置20可经配置以相对于所述较高阶立体混响音频数据执行基于向量的合成或分解以获得所述夹层格式化音频数据。
在这些和其它实例中,空间音频编码装置20可经配置以相对于所述较高阶立体混响音频数据执行奇异值分解以获得所述夹层格式化音频数据。
在这些和其它实例中,所述夹层格式化音频数据包含由所述较高阶立体混响音频数据表示的声场的一或多个背景分量。
在这些和其它实例中,所述背景分量包含对应于具有小于二的阶的球面基底函数的所述较高阶立体混响音频数据的较高阶立体混响系数。
在这些和其它实例中,所述背景分量仅包含对应于具有小于二的阶的球面基底函数的所述较高阶立体混响音频数据的较高阶立体混响系数。
在这些和其它实例中,所述夹层格式化音频数据包含由所述较高阶立体混响音频数据表示的声场的一或多个前景分量。
在这些和其它实例中,空间音频编码装置20可经配置以相对于所述较高阶立体混响音频数据执行基于向量的合成或分解以获得所述夹层格式化音频数据。在这些实例中,所述前景分量包含通过相对于所述较高阶立体混响音频数据执行所述基于向量的合成或分解而从所述较高阶音频对象分解的前景音频对象。
在这些和其它实例中,所述夹层格式化音频数据包含由所述较高阶立体混响音频数据表示的声场的一或多个背景分量和一或多个前景分量。
在这些和其它实例中,所述夹层格式化音频数据包含一或多个脉码调制(PCM)输送信道和边带信息。
在这些和其它实例中,空间音频编码装置20可经配置以相对于所述较高阶立体混响音频数据执行基于向量的合成或分解以获得所述夹层格式化音频数据。在这些实例中,所述边带信息包含由于相对于所述较高阶立体混响音频数据执行所述基于向量的合成或分解而输出的方向信息。
在这些和其它实例中,空间音频编码装置20可经配置以相对于所述较高阶立体混响音频数据执行奇异值分解以获得所述夹层格式化音频数据。在这些实例中,所述边带信息包含由于相对于所述较高阶立体混响音频数据执行所述基于向量的合成或分解而输出的一或多个V向量。
在这些和其它实例中,空间音频编码装置20可经配置以将所述夹层格式化音频数据发射到广播网络用于由所述广播网络进行处理。
在这些和其它实例中,空间音频编码装置20可经配置以将所述夹层格式化音频数据发射到广播网络以用于在广播所述夹层格式化音频数据之前将额外音频数据插入到所述夹层格式化音频数据中。
图11是更详细说明图11的音频解码装置24的框图。如在图11的实例中所展示,音频解码装置24可包含提取单元72、基于方向性的重构单元90及基于向量的重构单元92。尽管下文进行描述,但关于音频解码装置24及解压缩或以其它方式解码HOA系数的各种方面的更多信息可在2014年5月29日申请的标题为“用于声场的经分解表示的内插(INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD)”的第WO 2014/194099号国际专利申请公开案中获得。
提取单元72可表示经配置以接收位流15且提取HOA系数11的基于向量的经编码版本的单元。提取单元72可根据以上所述确定指示HOA系数11是否经由各种基于方向的或基于向量的版本而经编码的语法元素。提取单元72可提取经译码前景V[k]向量57(其可包含经译码权数57和/或索引63或标量经量化V向量)、经编码环境HOA系数59以及对应音频对象61(其也可被称作经编码nFG信号61)。音频对象61各自对应于向量57中的一者。提取单元72可将经译码前景V[k]向量57传递至V向量重构单元74,且将经编码环境HOA系数59以及经编码nFG信号61提供到心理声学解码单元80。
V向量重构单元74可表示经配置以从经编码前景V[k]向量57重构V向量的单元。V向量重构单元74可以与量化单元52互逆的方式操作。
心理声学解码单元80可以与图11的实例中所展示的心理声学音频译码器单元40互逆的方式操作以便对经编码环境HOA系数59及经编码nFG信号61进行解码且由此产生经能量补偿的环境HOA系数47'及经内插的nFG信号49'(其也可被称作经内插的nFG音频对象49')。心理声学解码单元80可将能量补偿环境HOA系数47'传递到淡化单元770且将nFG信号49'传递到前景制订单元78。
空间-时间内插单元76可以类似于上文相对于空间-时间内插单元50所描述方式的方式操作。空间-时间内插单元76可接收减少的前景V[k]向量55k且相对于前景V[k]向量55k及减少的前景V[k-1]向量55k-1执行空间-时间内插以产生经内插的前景V[k]向量55k”。空间-时间内插单元76可将经内插的前景V[k]向量55k”转发到淡化单元770。
提取单元72还可将指示环境HOA系数中的一者何时处于转变中的信号757输出到淡化单元770,所述淡化单元可接着确定SHCBG 47'(其中SHCBG 47'还可表示为“环境HOA信道47'”或“环境HOA系数47'”)及经内插的前景V[k]向量55k”的元素中的哪一者将淡入或淡出。在一些实例中,淡化单元770可相对于环境HOA系数47'及经内插的前景V[k]向量55k”的元素中的每一者相反地操作。也就是说,淡化单元770可相对于环境HOA系数47'中的对应环境HOA系数执行淡入或淡出或执行淡入或淡出两者,同时相对于经内插的前景V[k]向量55k”的元素中的对应一个元素执行淡入或淡出或执行淡入与淡出两者。淡化单元770可将经调整的环境HOA系数47”输出到HOA系数制订单元82且将经调整的前景V[k]向量55k”'输出到前景制订单元78。在这方面中,淡化单元770表示经配置以相对于HOA系数或其衍生物(例如,呈环境HOA系数47'和经内插前景V[k]向量55k”的元素的形式)的各种方面执行淡化操作的单元。
前景制订单元78可表示经配置以相对于经调整的前景V[k]向量55k”'及经内插的nFG信号49'执行矩阵乘法以产生前景HOA系数65的单元。在这方面中,前景制订单元78可组合音频对象49'(其为借以表示经内插的nFG信号49'的另一种方式)与向量55k”'以重构HOA系数11'的前景(或换句话说,优势)方面。前景制订单元78可执行经内插的nFG信号49'乘以经调整的前景V[k]向量55k”'的矩阵乘法。
HOA系数制订单元82可表示经配置以将前景HOA系数65组合到经调整的环境HOA系数47”以便获得HOA系数11'的单元。撇号记法反映HOA系数11'可类似于HOA系数11但与HOA系数11不相同。HOA系数11与11'之间的差可起因于由于有损发射媒体上的发射、量化或其它有损操作而产生的损失。在这些和其它实例中,广播网络中心402可经配置以相对于所述夹层格式化音频数据执行夹层解压缩以获得所述较高阶立体混响音频数据,相对于所述较高阶立体混响音频数据执行较高阶立体混响转换以获得空间格式化音频数据,且监视所述空间格式化音频数据。
在一或多个实例中,所描述的功能可在硬件、软件、固件或其任何组合中实施。如果在软件中实施,那么所述功能可作为一或多个指令或代码在计算机可读媒体上存储或传输,并且由基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体,其对应于例如数据存储媒体等有形媒体。数据存储媒体可为可由一或多个计算机或者一或多个处理器存取以检索用于实施本发明中描述的技术的指令、代码和/或数据结构的任何可用媒体。计算机程序产品可包含计算机可读媒体。
同样,在上文所描述的各种情况中的每一者中,应理解,音频解码装置24可执行方法或另外包括用于执行音频解码装置24经配置以执行的方法的每一步骤的装置。在一些情况下,所述装置可包括一或多个处理器。在一些情况下,所述一或多个处理器可表示借助于存储到非暂时性计算机可读存储媒体的指令配置的专用处理器。换句话说,编码实例的集合中的每一者中的技术的各种方面可提供其上存储有指令的非暂时性计算机可读存储媒体,所述指令在执行时致使所述一或多个处理器执行音频解码装置24已经配置以执行的方法。
借助于实例而非限制,此类计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器或可以用来存储指令或数据结构的形式的期望程序代码并且可以由计算机存取的任何其它媒体。然而,应理解,所述计算机可读存储媒体和数据存储媒体并不包含连接、载波、信号或其它暂时性媒体,而是实际上针对非暂时性的有形存储媒体。如本文中所使用,磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘和蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘利用激光以光学方式再现数据。上述各项的组合也应包含在计算机可读媒体的范围内。
指令可以由一或多个处理器执行,所述一或多个处理器例如是一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效的集成或离散逻辑电路。因此,如本文中所使用的术语“处理器”可指代上述结构或适合于实施本文中所描述的技术的任何其它结构中的任一者。另外,在一些方面中,本文中所描述的功能性可以在经配置用于编码和解码的专用硬件和/或软件模块内提供,或者并入在组合编解码器中。而且,可将所述技术完全实施于一或多个电路或逻辑元件中。
本发明的技术可在广泛多种装置或设备中实施,包括无线手持机、集成电路(IC)或一组IC(例如,芯片组)。本发明中描述各种组件、模块或单元以强调经配置以执行所揭示的技术的装置的功能方面,但未必需要通过不同硬件单元实现。实际上,如上文所描述,各种单元可以配合合适的软件和/或固件组合在编解码器硬件单元中,或者通过互操作硬件单元的集合来提供,所述硬件单元包含如上文所描述的一或多个处理器。
已经描述了所述技术的各种方面。所述技术的这些和其它方面在所附权利要求书的范围内。
Claims (28)
1.一种压缩表示声场的较高阶立体混响HOA系数的方法,所述方法包括:
基于通过所述HOA系数的分解获得的一或多个奇异值确定是否以所述HOA系数中的环境HOA系数来增强位流中的一或多个前景音频对象,所述环境HOA系数表示所述声场的环境分量,且所述前景音频对象和所述环境HOA系数是通过所述HOA系数的所述分解获得。
2.根据权利要求1所述的方法,其中所述HOA系数还包含表示所述声场的一或多个前景音频对象的一或多个前景HOA系数。
3.根据权利要求1所述的方法,
其中确定是否以所述环境HOA系数来增强所述位流中的所述一或多个前景音频对象包括分析通过所述HOA系数的所述分解获得的所述一或多个奇异值。
4.根据权利要求1所述的方法,其中确定是否以所述环境HOA系数来增强所述位流中的所述一或多个前景音频对象包括:
确定所述一或多个奇异值中的一或多个环境奇异值是否小于阈值,其中所述环境奇异值与所述声场的所述环境分量相关联;以及
当与所述环境分量相关联的所述一或多个环境奇异值小于所述阈值时,确定不使用所述环境HOA系数来增强所述前景音频对象。
5.根据权利要求4所述的方法,其中确定是否以所述环境HOA系数来增强所述位流中的所述一或多个前景音频对象包括:
当所述一或多个环境奇异值等于或大于所述阈值时,确定使用所述环境HOA系数来增强所述前景音频对象。
6.根据权利要求1所述的方法,其中所述一或多个奇异值中的每一者表示对应能量值的平方根。
7.根据权利要求1所述的方法,其中所述一或多个奇异值中的每一者表示对应本征值的平方根。
8.根据权利要求1所述的方法,其进一步包括对包含所述一或多个奇异值的一或多个S矩阵进行译码。
9.根据权利要求1所述的方法,其中确定是否以所述环境HOA系数来增强所述位流中的所述一或多个前景音频对象是基于对应于所述一或多个奇异值中的一或多个环境奇异值的一或多个振幅,所述环境奇异值与所述声场的所述环境分量相关联。
10.根据权利要求1所述的方法,其中确定是否使用所述环境HOA系数来增强所述一或多个前景音频对象包括:
确定使用所述环境HOA系数来增强所述前景音频对象;以及
确定将指派给所述环境分量的位的数目。
11.一种用于压缩表示声场的较高阶立体混响HOA系数的装置,所述装置包括:
存储器,其经配置以存储所述声场的所述HOA系数;以及
一或多个处理器,其经配置以:
基于通过所述HOA系数的分解获得的一或多个奇异值确定是否以所述HOA系数中的环境HOA系数来增强位流中的一或多个前景音频对象,所述环境HOA系数表示所述声场的环境分量,且所述前景音频对象和所述环境HOA系数是通过所述HOA系数的所述分解获得。
12.根据权利要求11所述的装置,其中所述一或多个处理器进一步经配置以处理所述HOA系数,所述HOA系数包括表示所述声场的所述一或多个前景音频对象的一或多个前景HOA系数。
13.根据权利要求11所述的装置,其中为了确定是否以所述环境HOA系数来增强所述位流中的所述一或多个前景音频对象,所述一或多个处理器经配置以分析通过所述HOA系数的所述分解获得的所述一或多个奇异值。
14.根据权利要求11所述的装置,其中为了确定是否以所述环境HOA系数来增强所述位流中的所述一或多个前景音频对象,所述一或多个处理器经配置以:
确定所述一或多个奇异值中的一或多个环境奇异值是否小于阈值,其中所述环境奇异值与所述声场的所述环境分量相关联;以及
当与所述环境分量相关联的所述一或多个环境奇异值小于所述阈值时,确定不使用所述环境HOA系数来增强所述前景音频对象。
15.根据权利要求14所述的装置,其中为了确定是否以所述环境HOA系数来增强所述位流中的所述一或多个前景音频对象,所述一或多个处理器经配置以:
当所述一或多个环境奇异值等于或大于所述阈值时,以所述环境HOA系数来增强所述位流中的所述前景音频对象。
16.根据权利要求11所述的装置,其中所述一或多个处理器经配置以处理所述一或多个奇异值,所述一或多个奇异值中的每一者表示对应能量值的平方根。
17.根据权利要求11所述的装置,其中所述一或多个处理器经配置以处理所述一或多个奇异值,所述一或多个奇异值中的每一者表示对应本征值的平方根。
18.根据权利要求11所述的装置,其中所述一或多个处理器进一步经配置以对包含所述一或多个奇异值的一或多个S矩阵进行译码。
19.根据权利要求11所述的装置,其中为了确定是否以所述环境HOA系数来增强所述位流中的所述一或多个前景音频对象,所述一或多个处理器经配置以基于对应于所述一或多个奇异值中的一或多个环境奇异值的一或多个振幅而确定是否以所述环境HOA系数来增强所述位流中的所述一或多个前景音频对象,所述环境奇异值与所述声场的所述环境分量相关联。
20.根据权利要求11所述的装置,其中为了确定是否以所述环境HOA系数来增强所述位流中的所述一或多个前景音频对象,所述一或多个处理器经配置以:
确定使用所述环境HOA系数来增强所述前景音频对象;以及
确定将指派给所述环境分量的位的数目。
21.根据权利要求11所述的装置,其进一步包括麦克风阵列,所述麦克风阵列经配置以捕获与表示所述声场的所述HOA系数相关联的音频数据。
22.根据权利要求21所述的装置,其中所述麦克风阵列经配置以输出表示所述声场的所述HOA系数。
23.根据权利要求21所述的装置,其中所述麦克风阵列包含在三维麦克风中。
24.一种用于压缩表示声场的较高阶立体混响HOA系数的装置,所述装置包括:
用于基于通过所述HOA系数的分解获得的一或多个奇异值确定是否以所述HOA系数中的环境HOA系数来增强位流中的一或多个前景音频对象的装置,所述环境HOA系数表示所述声场的环境分量,且所述前景音频对象和所述环境HOA系数是通过所述HOA系数的所述分解获得。
25.一种用于对表示声场的经编码较高阶立体混响HOA系数进行解码的装置,所述装置包括:
存储器,其经配置以存储表示所述声场的所述经编码HOA系数;以及
一或多个处理器,其当经配置以对存储在所述存储器中的所述经编码HOA系数进行解码时经配置以:
作为包含所述经编码HOA系数的经编码位流的部分而接收表示所述经编码HOA系数的音频对象;以及
接收包含基于将所述经编码位流的若干位分配给所述声场的所述音频对象的位分配方案的元数据。
26.根据权利要求25所述的装置,其中与所述声场相关联的所述元数据进一步包含对可分配给表示所述声场的多个音频对象中的单个音频对象的位数目的上限。
27.根据权利要求25所述的装置,其中所述一或多个处理器进一步经配置以分配所述位以使得没有所述声场的音频对象被分配超过最大数目的位数目。
28.根据权利要求25所述的装置,其进一步包括一或多个扬声器,所述一或多个扬声器经配置以输出与表示所述声场的所述HOA系数相关联的音频数据。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201461994800P | 2014-05-16 | 2014-05-16 | |
US61/994,800 | 2014-05-16 | ||
US201462004145P | 2014-05-28 | 2014-05-28 | |
US62/004,145 | 2014-05-28 | ||
US14/712,661 | 2015-05-14 | ||
US14/712,661 US9847087B2 (en) | 2014-05-16 | 2015-05-14 | Higher order ambisonics signal compression |
PCT/US2015/031072 WO2015175933A1 (en) | 2014-05-16 | 2015-05-15 | Higher order ambisonics signal compression |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106463121A CN106463121A (zh) | 2017-02-22 |
CN106463121B true CN106463121B (zh) | 2019-07-05 |
Family
ID=53274836
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580025867.5A Active CN106463121B (zh) | 2014-05-16 | 2015-05-15 | 较高阶立体混响信号压缩 |
Country Status (6)
Country | Link |
---|---|
US (2) | US9847087B2 (zh) |
EP (1) | EP3143613B1 (zh) |
JP (1) | JP6356832B2 (zh) |
KR (1) | KR101921403B1 (zh) |
CN (1) | CN106463121B (zh) |
WO (1) | WO2015175933A1 (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2922057A1 (en) * | 2014-03-21 | 2015-09-23 | Thomson Licensing | Method for compressing a Higher Order Ambisonics (HOA) signal, method for decompressing a compressed HOA signal, apparatus for compressing a HOA signal, and apparatus for decompressing a compressed HOA signal |
US9847087B2 (en) | 2014-05-16 | 2017-12-19 | Qualcomm Incorporated | Higher order ambisonics signal compression |
EP3329486B1 (en) | 2015-07-30 | 2020-07-29 | Dolby International AB | Method and apparatus for generating from an hoa signal representation a mezzanine hoa signal representation |
CN108496221B (zh) * | 2016-01-26 | 2020-01-21 | 杜比实验室特许公司 | 自适应量化 |
US9913061B1 (en) | 2016-08-29 | 2018-03-06 | The Directv Group, Inc. | Methods and systems for rendering binaural audio content |
EP3324406A1 (en) | 2016-11-17 | 2018-05-23 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for decomposing an audio signal using a variable threshold |
US10332530B2 (en) | 2017-01-27 | 2019-06-25 | Google Llc | Coding of a soundfield representation |
EP3622509B1 (en) | 2017-05-09 | 2021-03-24 | Dolby Laboratories Licensing Corporation | Processing of a multi-channel spatial audio format input signal |
US10885921B2 (en) * | 2017-07-07 | 2021-01-05 | Qualcomm Incorporated | Multi-stream audio coding |
US10075802B1 (en) * | 2017-08-08 | 2018-09-11 | Qualcomm Incorporated | Bitrate allocation for higher order ambisonic audio data |
US11270711B2 (en) * | 2017-12-21 | 2022-03-08 | Qualcomm Incorproated | Higher order ambisonic audio data |
US10264386B1 (en) * | 2018-02-09 | 2019-04-16 | Google Llc | Directional emphasis in ambisonics |
US11240623B2 (en) * | 2018-08-08 | 2022-02-01 | Qualcomm Incorporated | Rendering audio data from independently controlled audio zones |
US11432071B2 (en) | 2018-08-08 | 2022-08-30 | Qualcomm Incorporated | User interface for controlling audio zones |
CA3122164C (en) | 2018-12-07 | 2024-01-02 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding using diffuse compensation |
EP3751567B1 (en) * | 2019-06-10 | 2022-01-26 | Axis AB | A method, a computer program, an encoder and a monitoring device |
US11538489B2 (en) * | 2019-06-24 | 2022-12-27 | Qualcomm Incorporated | Correlating scene-based audio data for psychoacoustic audio coding |
US11361776B2 (en) * | 2019-06-24 | 2022-06-14 | Qualcomm Incorporated | Coding scaled spatial components |
CN110544484B (zh) * | 2019-09-23 | 2021-12-21 | 中科超影(北京)传媒科技有限公司 | 高阶Ambisonic音频编解码方法及装置 |
CN116391365A (zh) * | 2020-09-25 | 2023-07-04 | 苹果公司 | 高阶环境立体声编码和解码 |
CN115938388A (zh) * | 2021-05-31 | 2023-04-07 | 华为技术有限公司 | 一种三维音频信号的处理方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102547549A (zh) * | 2010-12-21 | 2012-07-04 | 汤姆森特许公司 | 编码解码2或3维声场环绕声表示的连续帧的方法和装置 |
CN102823277A (zh) * | 2010-03-26 | 2012-12-12 | 汤姆森特许公司 | 解码用于音频回放的音频声场表示的方法和装置 |
EP2637427A1 (en) * | 2012-03-06 | 2013-09-11 | Thomson Licensing | Method and apparatus for playback of a higher-order ambisonics audio signal |
WO2014013070A1 (en) * | 2012-07-19 | 2014-01-23 | Thomson Licensing | Method and device for improving the rendering of multi-channel audio signals |
WO2014044812A1 (en) * | 2012-09-21 | 2014-03-27 | Dolby International Ab | Coding of a sound field signal |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2898725A1 (fr) * | 2006-03-15 | 2007-09-21 | France Telecom | Dispositif et procede de codage gradue d'un signal audio multi-canal selon une analyse en composante principale |
EP2374124B1 (fr) | 2008-12-15 | 2013-05-29 | France Telecom | Codage perfectionne de signaux audionumériques multicanaux |
FR2947945A1 (fr) | 2009-07-07 | 2011-01-14 | France Telecom | Allocation de bits dans un codage/decodage d'amelioration d'un codage/decodage hierarchique de signaux audionumeriques |
CN102081926B (zh) | 2009-11-27 | 2013-06-05 | 中兴通讯股份有限公司 | 格型矢量量化音频编解码方法和系统 |
US9466305B2 (en) | 2013-05-29 | 2016-10-11 | Qualcomm Incorporated | Performing positional analysis to code spherical harmonic coefficients |
US9502044B2 (en) | 2013-05-29 | 2016-11-22 | Qualcomm Incorporated | Compression of decomposed representations of a sound field |
EP3014609B1 (en) | 2013-06-27 | 2017-09-27 | Dolby Laboratories Licensing Corporation | Bitstream syntax for spatial voice coding |
CN104282309A (zh) | 2013-07-05 | 2015-01-14 | 杜比实验室特许公司 | 丢包掩蔽装置和方法以及音频处理系统 |
EP3059732B1 (en) * | 2013-10-17 | 2018-10-10 | Socionext Inc. | Audio decoding device |
US9922656B2 (en) | 2014-01-30 | 2018-03-20 | Qualcomm Incorporated | Transitioning of ambient higher-order ambisonic coefficients |
US9847087B2 (en) | 2014-05-16 | 2017-12-19 | Qualcomm Incorporated | Higher order ambisonics signal compression |
-
2015
- 2015-05-14 US US14/712,661 patent/US9847087B2/en active Active
- 2015-05-15 EP EP15725953.2A patent/EP3143613B1/en active Active
- 2015-05-15 WO PCT/US2015/031072 patent/WO2015175933A1/en active Application Filing
- 2015-05-15 JP JP2016567649A patent/JP6356832B2/ja active Active
- 2015-05-15 CN CN201580025867.5A patent/CN106463121B/zh active Active
- 2015-05-15 KR KR1020167032090A patent/KR101921403B1/ko active IP Right Grant
-
2017
- 2017-11-27 US US15/823,284 patent/US10176814B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102823277A (zh) * | 2010-03-26 | 2012-12-12 | 汤姆森特许公司 | 解码用于音频回放的音频声场表示的方法和装置 |
CN102547549A (zh) * | 2010-12-21 | 2012-07-04 | 汤姆森特许公司 | 编码解码2或3维声场环绕声表示的连续帧的方法和装置 |
EP2637427A1 (en) * | 2012-03-06 | 2013-09-11 | Thomson Licensing | Method and apparatus for playback of a higher-order ambisonics audio signal |
CN103313182A (zh) * | 2012-03-06 | 2013-09-18 | 汤姆逊许可公司 | 用于回放更高阶立体混响音频信号的方法和设备 |
WO2014013070A1 (en) * | 2012-07-19 | 2014-01-23 | Thomson Licensing | Method and device for improving the rendering of multi-channel audio signals |
WO2014044812A1 (en) * | 2012-09-21 | 2014-03-27 | Dolby International Ab | Coding of a sound field signal |
Also Published As
Publication number | Publication date |
---|---|
CN106463121A (zh) | 2017-02-22 |
US9847087B2 (en) | 2017-12-19 |
EP3143613B1 (en) | 2019-08-07 |
JP6356832B2 (ja) | 2018-07-11 |
US20150340044A1 (en) | 2015-11-26 |
KR20170007749A (ko) | 2017-01-20 |
US10176814B2 (en) | 2019-01-08 |
JP2017519239A (ja) | 2017-07-13 |
US20180082694A1 (en) | 2018-03-22 |
WO2015175933A1 (en) | 2015-11-19 |
KR101921403B1 (ko) | 2018-11-22 |
EP3143613A1 (en) | 2017-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106463121B (zh) | 较高阶立体混响信号压缩 | |
CN106415714B (zh) | 译码环境高阶立体混响系数的独立帧 | |
CN105284131B (zh) | 用于声场的经分解表示的内插 | |
CN107004420B (zh) | 高阶立体混响声(hoa)架构中于预测及非预测量化技术间切换 | |
CN106104680B (zh) | 将音频信道插入到声场的描述中 | |
RU2685997C2 (ru) | Кодирование векторов, разложенных из аудиосигналов на основе амбиофонии высшего порядка | |
KR101723332B1 (ko) | 회전된 고차 앰비소닉스의 바이노럴화 | |
JP6728065B2 (ja) | 音場のベクトル量子化された空間成分を含むオーディオデータを復号する方法 | |
JP6293930B2 (ja) | 高次アンビソニック係数においてスカラー量子化とベクトル量子化との間で決定すること | |
CN106575506A (zh) | 高阶立体混响音频数据的中间压缩 | |
CN106663433A (zh) | 减少高阶立体混响(hoa)背景信道之间的相关性 | |
CN106796794A (zh) | 环境高阶立体混响音频数据的归一化 | |
CN106471576B (zh) | 高阶立体混响系数的闭环量化 | |
CN108141690A (zh) | 在多个转变期间译码高阶立体混响系数 | |
CN105340008B (zh) | 声场的经分解表示的压缩 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |