CN106796794A - 环境高阶立体混响音频数据的归一化 - Google Patents
环境高阶立体混响音频数据的归一化 Download PDFInfo
- Publication number
- CN106796794A CN106796794A CN201580053981.9A CN201580053981A CN106796794A CN 106796794 A CN106796794 A CN 106796794A CN 201580053981 A CN201580053981 A CN 201580053981A CN 106796794 A CN106796794 A CN 106796794A
- Authority
- CN
- China
- Prior art keywords
- audio
- coefficient
- audio track
- order ambiophony
- environment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000010606 normalization Methods 0.000 title claims abstract description 71
- 239000011229 interlayer Substances 0.000 claims description 44
- 238000000034 method Methods 0.000 claims description 36
- 230000006870 function Effects 0.000 claims description 30
- 238000007906 compression Methods 0.000 claims description 24
- 230000006835 compression Effects 0.000 claims description 22
- 238000000354 decomposition reaction Methods 0.000 claims description 14
- 239000007787 solid Substances 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 67
- 239000013598 vector Substances 0.000 description 160
- 230000008859 change Effects 0.000 description 30
- 239000011159 matrix material Substances 0.000 description 24
- 238000004458 analytical method Methods 0.000 description 22
- 238000013139 quantization Methods 0.000 description 19
- 230000005540 biological transmission Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 14
- 230000009466 transformation Effects 0.000 description 14
- 230000009467 reduction Effects 0.000 description 13
- 238000010612 desalination reaction Methods 0.000 description 11
- 238000000605 extraction Methods 0.000 description 11
- 230000008707 rearrangement Effects 0.000 description 11
- 230000015572 biosynthetic process Effects 0.000 description 10
- 238000009877 rendering Methods 0.000 description 10
- 238000003786 synthesis reaction Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 230000005236 sound signal Effects 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 5
- 241001269238 Data Species 0.000 description 4
- 238000013500 data storage Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000002156 mixing Methods 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 230000002787 reinforcement Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000017105 transposition Effects 0.000 description 4
- 238000011282 treatment Methods 0.000 description 4
- 238000005562 fading Methods 0.000 description 3
- 238000009472 formulation Methods 0.000 description 3
- 239000010410 layer Substances 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- VBRBNWWNRIMAII-WYMLVPIESA-N 3-[(e)-5-(4-ethylphenoxy)-3-methylpent-3-enyl]-2,2-dimethyloxirane Chemical compound C1=CC(CC)=CC=C1OC\C=C(/C)CCC1C(C)(C)O1 VBRBNWWNRIMAII-WYMLVPIESA-N 0.000 description 2
- 230000000386 athletic effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000006837 decompression Effects 0.000 description 2
- 230000005611 electricity Effects 0.000 description 2
- 238000003032 molecular docking Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 108091064702 1 family Proteins 0.000 description 1
- PEIBAWRLFPGPAT-UHFFFAOYSA-N 1-(diazomethyl)pyrene Chemical compound C1=C2C(C=[N+]=[N-])=CC=C(C=C3)C2=C2C3=CC=CC2=C1 PEIBAWRLFPGPAT-UHFFFAOYSA-N 0.000 description 1
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- RAQQRQCODVNJCK-JLHYYAGUSA-N N-[(4-amino-2-methylpyrimidin-5-yl)methyl]-N-[(E)-5-hydroxy-3-(2-hydroxyethyldisulfanyl)pent-2-en-2-yl]formamide Chemical compound C\C(N(Cc1cnc(C)nc1N)C=O)=C(\CCO)SSCCO RAQQRQCODVNJCK-JLHYYAGUSA-N 0.000 description 1
- 230000018199 S phase Effects 0.000 description 1
- 241000209140 Triticum Species 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000011276 addition treatment Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 238000005284 basis set Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000013707 sensory perception of sound Effects 0.000 description 1
- 230000035939 shock Effects 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/13—Aspects of volume control, not necessarily automatic, in stereophonic sound systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Stereophonic System (AREA)
Abstract
一般来说,技术是针对相对于环境高阶立体混响音频数据执行归一化。经配置以对高阶立体混响音频数据进行解码的装置可执行所述技术。所述装置可包含存储器和一或多个处理器。所述存储器可经配置以存储音频声道,所述音频声道提供表示声场的环境分量的至少一部分的经归一化的环境高阶立体混响系数。所述一或多个处理器可经配置以相对于所述音频声道执行反归一化。
Description
本申请案主张2014年10月7日申请的名称为“环境高阶立体混响音频数据的归一化(NOMALIZATION OF AMBIENT HIGHER ORDER AMBISONIC AUDIO DATA)”的第62/061,068号美国临时申请案的权益,所述申请案的全部内容以引用的方式并入本文中。
技术领域
本发明涉及音频数据,并且更确切地说,涉及音频数据的压缩。
背景技术
高阶立体混响(HOA)信号(常由多个球面谐波系数(SHC)或其它分层元素表示)是声场的三维(3D)表示。HOA或SHC表示可以独立于用以重放从此SHC信号渲染的多声道音频信号的本地扬声器几何结构的方式来表示此声场。SHC信号还可促进向后兼容性,因为可将SHC信号渲染为众所周知的且被广泛采用的多声道格式,例如,5.1音频声道格式或7.1音频声道格式。SHC表示因此可实现对声场的更好表示,其也适应向后兼容性。
发明内容
一般来说,描述用于相对于环境高阶立体混响音频数据执行归一化的技术。
在一个方面,方法包括相对于音频声道执行归一化,所述音频声道提供环境高阶立体混响系数,所述环境高阶立体混响音频系数表示声场的环境分量的至少一部分。
在一个方面,装置包括经配置以存储音频声道的存储器,所述音频声道提供表示声场的环境分量的至少一部分的环境高阶立体混响系数,以及一或多个处理器,所述处理器经配置以相对于音频声道执行归一化。
在一个方面,装置包括用于存储音频声道的装置,所述音频声道提供表示声场的环境分量的至少一部分的环境高阶立体混响系数,以及用于相对于音频声道执行归一化的装置。
在一个方面,非暂时性计算机可读储存媒体上面存储有指令,所述指令在经执行时,使一或多个处理器相对于音频声道执行归一化,所述音频声道提供环境高阶立体混响系数,所述环境高阶立体混响音频系数表示声场的环境分量的至少一部分。
在一个方面,方法包括相对于音频声道执行反归一化,所述音频声道提供经归一化的环境高阶立体混响系数,所述环境高阶立体混响音频系数表示声场的环境分量的至少一部分。
在一个方面,装置包括经配置以存储音频声道的存储器,所述音频声道提供表示声场的环境分量的至少一部分的经归一化的环境高阶立体混响系数,以及一或多个处理器,所述处理器经配置以相对于音频声道执行反归一化。
在一个方面,装置包括用于存储音频声道的装置,所述音频声道提供表示声场的环境分量的至少一部分的经归一化的环境高阶立体混响系数,以及用于相对于音频声道执行反归一化的装置。
在一个方面,非暂时性计算机可读储存媒体上面存储有指令,所述指令在经执行时,使一或多个处理器相对于音频声道执行反归一化,所述音频声道提供经归一化的环境高阶立体混响系数,所述环境高阶立体混响音频系数表示声场的环境分量的至少一部分。
在一个方面,方法包括相对于音频声道执行归一化,所述音频声道提供环境高阶立体混响系数,所述环境高阶立体混响音频系数表示声场的环境分量的至少一部分且与具有大于零的阶数的球面基函数相关联。
在一个方面,装置包括经配置以存储音频声道的存储器,所述音频声道提供表示声场的环境分量的至少一部分且与具有大于零的阶数的球面基函数相关联的环境高阶立体混响系数,以及一或多个处理器,所述处理器经配置以相对于音频声道执行归一化。
在一个方面,装置包括用于存储音频声道的装置,所述音频声道提供表示声场的环境分量的至少一部分且与具有大于零的阶数的球面基函数相关联的环境高阶立体混响系数,以及用于相对于音频声道执行归一化的装置。
在一个方面,非暂时性计算机可读储存媒体上面存储有指令,所述指令在经执行时,使一或多个处理器相对于音频声道执行归一化,所述音频声道提供环境高阶立体混响系数,所述环境高阶立体混响音频系数表示声场的环境分量的至少一部分且与具有大于零的阶数的球面基函数相关联。
在一个方面,方法包括相对于音频声道执行反归一化,所述音频声道提供经归一化的环境高阶立体混响系数,所述经归一化的环境高阶立体混响音频系数表示声场的环境分量的至少一部分且与具有大于零的阶数的球面基函数相关联。
在一个方面,装置包括经配置以存储音频声道的存储器,所述音频声道提供表示声场的环境分量的至少一部分且与具有大于零的阶数的球面基函数相关联的经归一化的环境高阶立体混响系数,以及一或多个处理器,所述处理器经配置以相对于音频声道执行反归一化。
在一个方面,装置包括用于存储音频声道的装置,所述音频声道提供表示声场的环境分量的至少一部分且与具有大于零的阶数的球面基函数相关联的经归一化的环境高阶立体混响系数,以及用于相对于音频声道执行反归一化的装置。
在一个方面,非暂时性计算机可读储存媒体上面存储有指令,所述指令在经执行时,使一或多个处理器相对于音频声道执行反归一化,所述音频声道提供经归一化的环境高阶立体混响系数,所述环境高阶立体混响音频系数表示声场的环境分量的至少一部分且与具有大于零的阶数的球面基函数相关联。
在附图和以下描述中陈述所述技术的一或多个方面的细节。这些技术的其它特征、目标及优点将从所述描述及图式以及所附权利要求书中显而易见。
附图说明
图1是说明具有各种阶数及子阶数的球面谐波基函数的图。
图2是说明可执行本发明中描述的技术的各个方面的系统的图。
图3是说明图2的实例中所示的系统的不同实例的框图。
图4A和4B是各自更详细地说明可执行本发明中描述的技术的各个方面的图2和3的实例中所示的空间音频编码装置的实例的框图。
图5A和5B是更详细地说明图2和3的空间音频解码装置410的框图。
图6A和6B是各自更详细地说明图2和3的实例中所示的音频解码装置24的不同实例的框图。
图7是说明音频编码装置在执行本发明中描述的基于向量的合成技术的各个方面中的例示性操作的流程图。
图8是说明音频解码装置在执行本发明中描述的技术的各个方面中的例示性操作的流程图。
图9是说明可执行本发明中描述的技术的各个方面的另一系统的图式。
图10是说明示出了测试项目的四阶表示的峰值归一化的图的图式。
图11是说明示出了从表示主导声音切换到提供额外的HOA声道的声道的图的图式。
图12是大体上示出了当信息由空间音频编码装置进行处理时的信息流动和由规范化编码器应用的增益控制的相对位置的图式。
图13是说明示出了将归一化因数应用到先前在图中示出为额外的HOA声道帧的额外HOA声道帧的结果的图的图式。
具体实施方式
环绕声的演进已使得许多输出格式可用于娱乐。此类消费者环绕声格式的实例大部分为基于“声道”的,这是因为其以某些几何坐标隐含地指定到扩音器的馈送。消费者环绕声格式包含普遍的5.1格式(其包含以下六个声道:左前(FL)、右前(FR)、中心或前中心、左后或左环绕、右后或右环绕,以及低频效果(LFE))、发展中的7.1格式、包含高度扬声器的各种格式,例如7.1.4格式和22.2格式(例如,用于与超高清电视标准一起使用)。非消费者格式可跨越任何数目的扬声器(成对称和非对称几何结构),其常常称为“环绕阵列”。此类阵列的一个实例包含定位在截角二十面体的拐角上的坐标处的32个扩音器。
到未来MPEG编码器的输入任选地为三个可能格式中的一个:(i)传统的基于声道的音频(如上文所论述),其意图通过处于预先指定的位置处的扩音器播放;(ii)基于对象的音频,其涉及用于单个音频对象的具有含有其位置坐标(以及其它信息)的相关联元数据的离散脉码调制(PCM)数据;以及(iii)基于场景的音频,其涉及使用球面谐波基函数的系数(也称为“球面谐波系数”或SHC、“高阶立体混响”或HOA及“HOA系数”)来表示声场。未来MPEG编码器更详细地描述于国际标准化组织/国际电工委员会(ISO)/(IEC)JTC1/SC29/WG11/N13411的名称为“要求对于3D音频的提议(Call for Proposals for 3D Audio)”的文献中,所述文献于2013年1月在瑞士日内瓦发布,且可在http:// mpeg.chiariglione.org/sites/default/files/files/standards/parts/docs/ w13411.zip获得。
在市场中存在各种“环绕声”基于声道的格式。它们的范围(例如)是从5.1家庭影院系统(其在使起居室享有立体声方面已获得最大成功)到NHK(日本广播协会或日本广播公司)所开发的22.2系统。内容创建者(例如,好莱坞工作室)将希望一次产生电影的声迹,而不用花费精力来针对每个扬声器配置对其进行再混合。近来,标准开发组织(StandardsDeveloping Organizations)一直在考虑以下方式:提供到标准化位流中的编码,以及后续解码,其可调适且不知晓重放位置(涉及渲染器)处的扬声器几何结构(和数目)以及声学条件。
为了向内容创建者提供此类灵活性,可使用分层元素集合来表示声场。所述分层元素集合可指其中元素经排序以使得较低阶元素的基础集合提供模型化声场的完整表示的一组元素。在所述集合经扩展以包含高阶元素时,所述表示变得更详细,从而增加分辨率。
分层元素集合的一个实例为球面谐波系数(SHC)的集合。以下表达式显示使用SHC对声场的描述或表示:
表达式示出了在时间t,在声场的任一点处的压力pi可由SHC唯一地表示。此处,c是声速(~343m/s),是参考点(或观察点),jn(·)是阶数n的球贝塞尔函数,以及是阶数n和子阶数m的球面谐波基底。可认识到,方括号里的项是信号的频域表示(即,),其可由各种时频变换近似表示,例如离散傅里叶变换(DFT)、离散余弦变换(DCT)或小波变换。分层集合的其它实例包含小波变换系数的集合和多分辨率基函数的系数的其它集合。
图1是说明从零阶(n=0)到四阶(n=4)的球面谐波基函数的图。如可见,对于每一阶,存在子阶数m的扩展,出于易于说明的目的,在图1的实例中展示所述子阶数但未明确注释。
SHC可以通过各种麦克风阵列配置以物理方式来获取(例如,记录),或替代地,它们可以从声场的基于声道或基于对象的描述导出。SHC表示基于场景的音频,其中SHC可输入到音频编码器以获得经编码SHC,所述经编码SHC可促成更有效的传输或存储。例如,可使用涉及(1+4)2个(25,并因此为四阶)系数的四阶表示。
如上文所提到,可使用麦克风阵列从麦克风记录导出SHC。可如何从麦克风阵列导出SHC的各种实例描述于波莱蒂·M(Poletti,M)的“基于球面谐波的三维环绕声系统(Three-Dimensional Surround Sound Systems Based on Spherical Harmonics)”(听觉工程学协会会刊(J.Audio Eng.Soc.),第53卷,第11期,2005年11月,第1004到1025页)中。
为了说明可如何从基于对象的描述导出SHC,考虑以下等式。对应于单个音频对象的声场的系数可表达为:
其中i是是阶数n的球面汉克尔函数(第二种),以及是对象的位置。知道随频率而变的对象源能量g(ω)(例如,使用时频分析技术,例如对PCM流执行快速傅里叶变换)允许我们将每一PCM对象及其对应的位置转换为SHC另外,可展示(由于上述为线性和正交分解):每一对象的系数具有相加性。以此方式,许多PCM对象可由系数(例如,作为个别对象的系数向量的总和)来表示。基本上,所述系数含有关于声场的信息(随3D坐标而变的压力),且上文表示从个别对象到观察点附近的总声场的表示的变换。下文在基于对象和基于SHC的音频译码的情形中描述其余各图。
图2是说明可执行本发明中描述的技术的各个方面的系统10A的图。如图2的实例所示,系统10A包含广播网络12A和内容消费者装置14。虽然在所述广播网络12A和所述内容消费者装置14的情形中描述,但是所述技术可在声场的SHC(其也可被称作HOA系数)或任何其它分层表示被编码以形成表示音频数据的位流的任何情形中实施。
此外,广播网络12A可表示包括能够实施本发明中描述的技术的任何形式的计算装置中的一或多个的系统,所述计算装置包含手持机(或蜂窝式电话)、平板计算机、智能电话、膝上型计算机、桌上型计算机或专用硬件,以提供几个实例或。同样地,内容消费者装置14可表示能够实施本发明中描述的技术的任何形式的计算装置,包含手持机(或蜂窝式电话)、平板计算机、智能电话、电视机、机顶盒、膝上型计算机或桌上型计算机,以提供几个实例。
广播网络12A可表示可产生多声道音频内容和可能地供内容消费者装置,例如由内容消费者装置14消费的视频内容的任何系统。广播网络12A可捕获事件(例如,体育活动)的实时音频数据,同时还将各种其它类型的额外音频数据,例如评论音频数据、商业音频数据、介绍或退出音频数据等等插入到所述实时音频内容中。
广播网络12A包含麦克风5,其记录或另外获得呈各种格式(包含直接作为HOA系数)的实时记录和音频对象。当麦克风5获得直接作为HOA系数的实时音频时,麦克风5可包含HOA码变换器,例如图2的实例中所示的HOA码变换器400。换句话说,尽管示出为与麦克风5分离,但是HOA码变换器400的单独例项可包含在麦克风5中的每一个内,以便将所捕获的馈送自然地转码成HOA系数11。然而,当不包含在麦克风5内时,HOA码变换器400可将从麦克风5输出的实时馈送转码成HOA系数11。在这方面中,HOA码变换器400可表示经配置以将麦克风馈送和/或音频对象转码成HOA系数11的单元。因此,广播网络12A包含HOA码变换器400,如与麦克风5集成,作为与麦克风5或其某一组合分离的HOA码变换器。
广播网络12A还可包含空间音频编码装置20、广播网络中心402和心理声学音频编码装置406。空间音频编码装置20可表示能够相对于HOA系数11执行本发明中描述的夹层压缩技术以获得经中间格式化的音频数据15(其还可被称作“经夹层格式化的音频数据15”)的装置。尽管下文更详细地描述,但空间音频编码装置20可经配置以通过至少部分地相对于HOA系数11执行分解(例如下文更详细地描述的线性分解),相对于HOA系数11执行此中间压缩(其还可被称作“夹层压缩”)。
空间音频编码装置20可经配置以使用涉及线性可逆变换(LIT)的应用的分解来编码HOA系数11。线性可逆变换的一个实例被称作“奇异值分解”(或“SVD”),其可表示线性分解的一种形式。在本实例中,空间音频编码装置20可将SVD应用到HOA系数11,以确定HOA系数11的经分解版本。空间音频编码装置20接着可分析HOA系数11的经分解版本以识别各种参数,其可促进HOA系数11的经分解版本的重新排序。
空间音频编码装置20可接着基于所识别的参数,将HOA系数11的经分解版本重新排序,其中如下文进一步详细描述,假定变换可横跨HOA系数的帧将HOA系数重新排序(其中帧通常包含HOA系数11的M个样本,且在一些实例中,将M设定为1024),那么此重新排序可改进译码效率。在重新排序HOA系数11的经分解版本之后,空间音频编码装置20可选择HOA系数11的经分解版本中表示声场的前景(或换句话说,相异、主导或突出)分量的那些经分解版本。空间音频编码装置20可将HOA系数11的表示前景分量的经分解版本指定为音频对象和相关联的方向信息。
空间音频编码装置20还可至少部分地按次序相对于HOA系数11执行声场分析,以识别表示声场的一或多个背景(或换句话说,环境)分量的HOA系数11。假定在一些实例中,背景分量可仅包含HOA系数11的任何给定样本的子集(例如,对应于零阶和一阶球面基函数的那些样本而非对应于二阶或更高阶球面基函数的那些样本),那么空间音频编码装置20可相对于背景分量执行能量补偿。当执行阶数减少时,换句话说,空间音频编码装置20可扩增(例如,添加能量到/从其减去能量)HOA系数11中的剩余背景HOA系数以补偿因执行所述降阶而产生的总体能量改变。
空间音频编码装置20可相对于前景方向信息执行一种形式的内插,且接着相对于经内插前景方向信息执行降阶以产生经降阶的前景方向信息。在一些实例中,空间音频编码装置20可进一步相对于经降阶的前景方向信息执行量化,从而输出经译码前景方向信息。在一些情况下,此量化可包括标量/熵量化。空间音频编码装置20接着可输出经夹层格式化的音频数据15作为背景分量、前景音频对象和经量化方向信息。背景分量和前景音频对象在一些实例中可包括脉码调制(PCM)输送信道。
空间音频编码装置20接着可向广播网络中心402传输或另外输出经夹层格式化的音频数据15。尽管在图2的实例中未示出,但是可执行经夹层格式化的音频数据15的进一步处理,以容纳从空间音频编码装置20到广播网络中心402的传输(例如加密、卫星压缩方案、纤维压缩方案等)。
经夹层格式化的音频数据15可表示符合所谓的夹层格式的音频数据,其通常是音频数据的轻度压缩(相对于通过对音频数据应用心理声学音频编码而提供的最终用户压缩,例如MPEG环绕、MPEG-AAC、MPEG-USAC或其它已知形式的心理声学编码)版本。假定广播公司偏好于提供低时延混合、编辑和其它音频和/或视频功能的专用设备,广播公司由于此类专用设备的成本而不想升级所述设备。
为了适应视频和/或音频的增加位速率且提供与可能不适用于高清视频内容或3D音频内容的较旧或换句话说传统设备的互操作性,广播公司已经采用一般称为“夹层压缩”的此中间压缩方案来减少文件大小且进而促进传送时间(例如经由网络或在装置之间)和改进的处理(特别是对于较旧传统设备来说)。换句话说,此夹层压缩可提供可用于促进编辑时间、减少时延且潜在地改进总体广播过程的内容的较轻型版本。
因此,广播网络中心402可表示负责使用中间压缩方案编辑和另外处理音频和/或视频内容以在时延方面改善工作流的系统。在一些实例中,广播网络中心402可包含移动装置的集合。在一些实例中,在处理音频数据的情形下,广播网络中心402可将经中间格式化的额外音频数据插入到由经夹层格式化的音频数据15表示的实时音频内容中。此额外音频数据可包括表示商业音频内容(包含电视广告的音频内容)的商业音频数据、表示电视工作室音频内容的电视工作室节目音频数据、表示介绍性音频内容的介绍音频数据、表示退出音频内容的退出音频数据、表示紧急音频内容(例如,天气警告、国家紧急状态、本地紧急状态等)的紧急音频数据或可插入到经夹层格式化的音频数据15中的任何其它类型的音频数据。
为了允许经夹层格式化的音频数据15的混合、其它编辑操作和监测,广播网络中心402可包含空间音频解码装置410以相对于经夹层格式化的音频数据15执行空间音频解压,从而恢复HOA系数11。广播网络中心402接着可相对于HOA系数11执行混合和其它编辑。关于所述混合和其它编辑操作的额外信息可见于2015年8月27日申请的名称为“高阶立体混响音频数据的中间压缩(INTERMEDIATE COMPRESSION OF HIGHER ORDER AMBISONICAUDIO DATA)”的第14/838,066号美国专利申请案中。尽管在图2的实例中未示出,但广播网络中心402还可包含类似于空间音频编码装置20的空间音频编码装置(其经配置以相对于经混合或编辑的HOA系数执行夹层压缩),并输出更新后的经夹层格式化的音频数据17。
在一些实例中,广播网络中心402包含能够处理至多达16个音频声道的传统音频设备。在依赖于例如HOA系数11等HOA系数的3D音频数据的情形下,HOA系数11可具有超过16个音频声道(例如,3D声场的4阶表示将每样本需要(4+1)2或25个HOA系数,其等效于25个音频声道)。传统广播设备中的此局限性可减缓对3D基于HOA的音频格式的采用,例如2014年7月25日的ISO/IEC JTC 1/SC 29/WG 11的名称为“信息技术-异质环境中的高效率译码和媒体递送-部分3:3D音频(Information technology-High efficiency coding and mediadelivery in heterogeneous environments-Part3:3D audio)”的ISO/IEC DIS 23008-3文献(可在http://mpeg.chiariglione.org/standards/mpeg-h/3d-audio/dis-mpeg-h- 3d-audio获得,下文称为“3D音频标准的阶段I(phase I of the 3D audio standard)”中所阐述,或在2015年7月25日的ISO/IEC JTC 1/SC 29/WG 11的名称为“信息技术-异质环境中的高效率译码和媒体递送-部分3:3D音频,修正3:MPEG-H 3D音频阶段2(Informationtechnology-High efficiency coding and media delivery in heterogeneousenvironments-Part 3:3D audio,AMENDMENT 3:MPEG-H 3D Audio Phase2)”的ISO/IECDIS 23008-3:2015/PDAM 3文献(可在http://mpeg.chiariglione.org/standards/mpeg- h/3d-audio/text-isoiec-23008-3201xpdam-3-mpeg-h-3d-audio-phase-2获得,下文称为“3D音频标准的阶段II(phase II of the 3D audio standard)”中所阐述。
同样,本发明中描述的技术的各个方面可促进一种形式的夹层压缩,其允许以可解决传统音频设备基于声道的局限性的方式从HOA系数11获得经夹层格式化的音频数据15。也就是说,空间音频编码装置20可经配置以执行本发明中描述的技术的各个方面,以获得具有16个或16个以下的音频声道(给定传统音频设备可在一些实例中,允许处理5.1音频内容,可能少至6个音频声道,其中‘.1’表示第六音频声道)的夹层音频数据15。
在任何情况下,广播网络中心402可输出更新后的经夹层格式化的音频数据17。所述更新后的经夹层格式化的音频数据17可包含经夹层格式化的音频数据15和由广播网络中心404插入到经夹层格式化的音频数据15中的任何额外音频数据。在分布之前,广播网络12A可进一步压缩更新后的经夹层格式化的音频数据17。如图2的实例中所示,心理声学音频编码装置406可相对于更新后的经夹层格式化的音频数据17执行心理声学音频编码(例如,上文所述的实例中的任一个)以产生位流21。广播网络12A接着可经由传输信道将位流21传输到内容消费者装置14。
在一些实例中,心理声学音频编码装置406可表示心理声学音频编码器的多个例项,其中的每一个用于对不同音频对象或更新后的经夹层格式化的音频数据17中的每一个的HOA声道进行编码。在一些情况下,此心理声学音频编码装置406可表示高级音频编码(AAC)编码单元的一或多个例项。通常,心理声学音频编码装置406可针对更新后的经夹层格式化的音频数据17的声道中的每一个,调用AAC编码单元的例项。作为AAC的替代方案或补充,心理声学音频编码装置406可表示统一语音和音频译码器(USAC)的一或多个例项。
关于可如何使用AAC编码单元对背景球谐系数进行编码的更多信息可见于埃里克·赫卢德(Eric Hellerud)等人的标题为“以AAC编码较高阶立体混响(Encoding HigherOrder Ambisonics with AAC)”的大会论文中,其在第124次大会(2008年5月17日至20日)上提交且可在http://ro.uow.edu.au/cgi/viewcontent.cgi?article=8025&context= engpapers获得。在一些情况下,心理声学音频编码装置406可使用比用于编码更新后的经夹层格式化的音频数据17的其它声道(例如前景声道)的位速率低的目标位速率来对更新后的经夹层格式化的音频数据17的各个声道(例如,背景声道)进行音频编码。
尽管图2中示出为直接传输到内容消费者装置14,但是广播网络12A可将位流21输出到定位在广播网络12A和内容消费者装置14之间的中间装置。所述中间装置可存储位流21以供稍后递送到可请求此位流的内容消费者装置14。所述中间装置可包括文件服务器、网络服务器、桌上型计算机、膝上型计算机、平板计算机、移动电话、智能电话,或能够存储位流21以供音频解码器稍后检索的任何其它装置。中间装置可驻留在能够将位流21流式传输(且可能结合传输对应视频数据位流)到请求位流21的订户(例如,内容消费者装置14)的内容递送网络中。
替代地,广播网络12A可将位流21存储到存储媒体,例如压缩光盘、数字视频光盘、高清视频光盘或其它存储媒体,其中大多数能够由计算机读取并且因此可被称为计算机可读存储媒体或非暂时性计算机可读存储媒体。在此情形下,传输信道可指代借以传输存储到这些媒体的内容的那些信道(且可包含零售商店和其它基于商店的递送机制)。因此,在任何情况下,本发明的技术不应就此而言受到图2的实例限制。
如图2的实例中进一步所示,内容消费者装置14包含音频重放系统16。音频重放系统16可表示能够重放多声道音频数据的任何音频重放系统。音频重放系统16可包含多个不同的音频渲染器22。所述音频渲染器22可各自提供不同形式的渲染,其中所述不同形式的渲染可包含执行基于向量的幅度平移(VBAP)的各种方式中的一或多个和/或执行声场合成的各种方式中的一或多个。
音频重放系统16可进一步包含音频解码装置24。所述音频解码装置24可表示经配置以对来自位流21的HOA系数11'进行解码的装置,其中所述HOA系数11'可类似于HOA系数11,但由于有损操作(例如,量化)和/或经由传输信道的传输而不同。也就是说,音频解码装置24可对位流21中指定的前景方向信息进行解量化,同时还相对于位流21中指定的前景音频对象和表示背景分量的经编码HOA系数执行心理声学解码。音频解码装置24可进一步相对于经解码的前景方向信息执行内插,且接着基于经解码的前景音频对象和经内插的前景方向信息确定表示前景分量的HOA系数。音频解码装置24可接着基于表示前景分量的所确定的HOA系数和表示背景分量的经解码的HOA系数来确定HOA系数11'。
在对位流21进行解码以获得HOA系数11'之后,音频重放系统16可渲染HOA系数11'以输出扩音器馈送25。扩音器馈送25可驱动一或多个扩音器3。
为了选择适当的渲染器或在一些情况下,为了产生适当的渲染器,音频重放系统16可获得指示扩音器3的数目和/或扩音器3的空间几何结构的扩音器信息13。在一些情况下,音频重放系统16可使用参考麦克风并以动态地确定扩音器信息13的方式驱动扩音器3来获得扩音器信息13。在其它情况下或结合扩音器信息13的动态确定,音频重放系统16可促使用户与音频重放系统16介接并输入扩音器信息13。
音频重放系统16可基于扩音器信息13而选择音频渲染器22中的一个。在一些情况下,当音频渲染器22都不在对在扩音器信息13中指定的渲染器的某一阈值类似性量度(在扩音器几何结构方面)内时,音频重放系统16可基于扩音器信息13而产生音频渲染器22中的一个。在一些情况下,音频重放系统16可基于扩音器信息13而产生音频渲染器22中的一个,而不需首先试图选择音频渲染器22中的现有的一个。
图3是说明可经配置以执行本发明中描述的技术的各个方面的系统10B的另一实例的框图。图3中所示的系统10B类似于图2的系统10A,除了系统10B的广播网络12B包含额外的HOA混合器450。HOA码变换器400可向HOA混合器450输出实时馈送HOA系数作为HOA系数11A。HOA混合器表示经配置以混合HOA音频数据的装置或单元。HOA混合器450可接收其它HOA音频数据11B(其可表示任何其它类型的音频数据,包含用点麦克风或非3D麦克风捕获的且转换到球面谐波域的音频数据、HOA域中指定的特殊效果等),并将此HOA音频数据11B与HOA音频数据11A混合以获得HOA系数11。
图4A和4B是各自更详细地说明可执行本发明中描述的技术的各个方面的图2和3的实例中所示的空间音频编码装置20的实例的框图。首先参看图4A,空间音频编码装置20的实例表示为空间音频编码装置20A。空间音频编码装置20A包含基于向量的分解单元27。
尽管下文简单地描述,但关于基于向量的分解单元27和压缩HOA系数的各个方面的更多信息可在2014年5月29日申请的名称为“用于声场的经分解表示的内插(INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF A SOUND FIELD)”的第WO 2014/194099号国际专利申请公开案中找到。此外,HOA系数的压缩的各个方面的更多细节根据上文参考的3D音频标准的阶段I和II。如根据3D音频标准的阶段I执行的基于向量的分解的概述可进一步见于2015年8月的Jürgen Herre等人的名称为“MPEG-H 3D音频-用于沉浸式空间音频的译码的新标准(MPEG-H 3D Audio-The New Standard for Coding of ImmersiveSpatial Audio)”(出版于选题为信号处理的IEEE杂志(the IEEE Journal of SelectedTopics in Signal Processing),第9卷,第5期)的论文。
如图4A的实例中所示,基于向量的分解单元27可包含线性可逆变换(LIT)单元30、参数计算单元32、重新排序单元34、前景选择单元36、能量补偿单元38、夹层格式单元40、声场分析单元44、系数减少单元46、背景(BG)选择单元48、时空内插单元50、量化单元52、归一化(norm)单元60和增益控制单元62。
线性可逆变换(LIT)单元30接收呈HOA声道形式的HOA系数11,每一声道表示与球面基函数的给定阶数、子阶数相关联的系数的块或帧(其可表示为HOA[k],其中k可表示样本的当前帧或块)。HOA系数11的矩阵可具有维度D:Mx(N+1)2。
也就是说,LIT单元30可表示经配置以执行被称作奇异值分解的形式的分析的单元。尽管相对于SVD进行描述,但可相对于任何类似的线性变换或线性分解(作为一个实例,其可指代提供线性不相关的输出集合的分解)执行本发明中描述的技术。而且,本发明中对“集合”的参考一般意图指非零集合(除非特定地相反陈述),且并不意图指包含所谓的“空集合”的集合的经典数学定义。
替代变换可包括常常被称作“PCA”的主分量分析。PCA指代采用正交变换将可能相关变量的观测结果集合变换成被称作主分量的线性不相关变量集合的数学程序。线性不相关变量表示彼此并不具有线性统计关系(或相依性)的变量。可将这些主分量描述为彼此具有小程度的统计相关性。
所谓的主分量的数目小于或等于原始变量的数目。在一些实例中,以如下方式定义变换:第一主分量具有最大可能方差(或,换句话说,尽可能多地解释数据中的可变性),且每一随后分量可能在以下约束下又具有可能的最高方差:此连续分量可与前述分量正交(可重新表述为不相关)。PCA可执行一种形式的降阶,其在HOA系数11方面可产生HOA系数11的压缩。取决于情形,PCA可由数个不同名称指代,例如(仅举几例)离散卡亨南-洛维变换(Karhunen-Loeve transform)、霍特林变换(Hotelling transform)、本征正交分解(POD),以及特征值分解(EVD)。
假设出于说明的目的,仅有LIT单元30执行奇异值分解(其同样可被称为“SVD”),出于实例的目的,LIT单元30可将HOA系数11变换成两个或两个以上的经变换的HOA系数集合。变换HOA系数的“集合”可包含经变换的HOA系数的向量。在图4A的实例中,LIT单元30可相对于HOA系数11执行SVD以产生所谓的V矩阵、S矩阵和U矩阵。在线性代数中,SVD可按如下形式表示y乘z实数或复数矩阵X(其中X可表示多声道音频数据,例如HOA系数11)的因数分解:
X=USV*
U可表示y乘y实数或复数单位矩阵,其中U的y列被称为多声道音频数据的左奇异向量。S可表示在对角线上具有非负实数的y乘z矩形对角矩阵,其中S的对角线值被称为多声道音频数据的奇异值。V*(其可表示V的共轭转置)可表示z乘z实数或复数单位矩阵,其中V*的z列被称为多声道音频数据的右奇异向量。
在一些实例中,以上提及的SVD数学表达式中的V*矩阵表示为V矩阵的共轭转置以反映SVD可应用于包括复数的矩阵。当应用于仅包括实数的矩阵时,V矩阵的复数共轭(或换句话说,V*矩阵)可被视为V矩阵的转置。下文中为容易说明的目的,假设HOA系数11包括实数,结果是经由SVD而非V*矩阵输出V矩阵。此外,尽管在本发明中表示为V矩阵,但对V矩阵的参考应理解为在适当的情况下指代V矩阵的转置。尽管假设为V矩阵,但所述技术可以类似方式应用于具有复数系数的HOA系数11,其中SVD的输出为V*矩阵。因此,就此而言,所述技术不应限于仅提供应用SVD以产生V矩阵,而是可包含将SVD应用于具有复数分量的HOA系数11以产生V*矩阵。
以此方式,LIT单元30可相对于HOA系数11执行SVD以输出具有维度D:Mx(N+1)2的US[k]向量33(其可表示S向量和U向量的组合版本)以及具有维度D:(N+1)2x(N+1)2的V[k]向量35。US[k]矩阵中的个别向量元素还可被称为XPS(k),而V[k]矩阵中的个别向量还可被称为v(k)。
所述U、S和V矩阵的分析可揭示所述矩阵携带或表示上文由X表示的基本声场的空间和时间特性。在(具有长度M个样本的)U中的N个向量中的每一个可表示随时间(由M个样本表示的时段)而变的彼此正交且已从任何空间特性(其也可被称作方向信息)解耦的经归一化的分开音频信号。表示空间形状和位置的空间特性可替代地由V矩阵(每一个具有长度(N+1)2)中的第i个向量v(i)(k)表示。
v(i)(k)向量中的每一个的个别元素可表示描述相关联的音频对象的声场的空间特性(例如,包含宽度的形状)和位置的HOA系数。U矩阵和V矩阵中的向量均经归一化而使得其均方根能量等于单位一。U中的音频信号的能量因此由S中的对角线元素表示。将U和S相乘以形成US[k](具有个别向量元素XPS(k)),因此表示具有能量的音频信号。SVD分解使音频时间信号(U中)、其能量(S中)与其空间特性(V中)解耦的能力可支持本发明中描述的技术的各个方面。另外,通过US[k]和V[k]的向量乘法合成基本HOA[k]系数X的模型产生贯穿此文献使用的术语“基于向量的分解”。
参数计算单元32表示经配置以计算各种参数的单元,所述参数例如相关性参数(R)、方向属性参数和能量属性(e)。用于当前帧的参数中的每一个可表示为R[k]、θ[k]、r[k]和e[k]。参数计算单元32可相对于US[k]向量33执行能量分析和/或相关(或所谓的交叉相关)以识别这些参数。参数计算单元32还可确定前一帧的参数,其中所述前一帧的参数可基于具有US[k-1]向量和V[k-1]向量的前一帧而被表示为R[k-1]、θ[k-1]、r[k-1]和e[k-1]。参数计算单元32可将当前参数37和先前参数39输出到重新排序单元34。
由参数计算单元32计算的参数可供重新排序单元34使用以将音频对象重新排序,从而表示其自然评估或随时间推移的连续性。重新排序单元34可逐轮地比较来自第一US[k]向量33的参数37中的每一个与第二US[k-1]向量33的参数39中的每一个。重新排序单元34可基于当前参数37和先前参数39将US[k]矩阵33和V[k]矩阵35内的各个向量重新排序(作为一实例,使用匈牙利算法(Hungarian algorithm))以将重新排序的US[k]矩阵33'(其可在数学上表示为)和重新排序的V[k]矩阵35'(其可在数学上表示为)输出到前景声音(或主导声音-PS)选择单元36(“前景选择单元36”)和能量补偿单元38。
声场分析单元44可表示经配置以相对于HOA系数11执行声场分析,以便潜在地实现目标位速率41的单元。声场分析单元44可基于所述分析和/或所接收的目标位速率41,确定心理声学译码器实例化的总数(其可随环境或背景声道的总数(BGTOT)和前景声道或换句话说主导声道的数量而变)。心理声学译码器实例化的总数可表示为numHOATransportChannels。
再次为了潜在地实现目标位速率41,声场分析单元44还可确定前景声道的总数(nFG)45、背景(或换句话说,环境)声场的最小阶数(NBG或替代地,MinAmbHOAorder)、表示背景声场的最小阶数的实际声道的对应数目(nBGa=(MinAmbHOAorder+1)2),以及要发送的额外BG HOA声道的索引(i)(其在图4的实例中可共同地表示为背景声道信息43)。背景声道信息42也可被称作环境声道信息43。
保持来自numHOATransportChannels-nBGa的声道中的每一个可为“额外背景/环境声道”、“作用中基于向量的主导声道”、“作用中基于方向的主导信号”或“完全非作用中”。一方面,可由两个位将声道类型指示为(作为“ChannelType”)语法元素(例如,00:基于方向的信号;01:基于向量的主导信号;10:额外的环境信号;11:非作用信号)。可由(MinAmbHOAorder+1)2+索引10(在以上实例中)呈现为用于所述帧的位流中的声道类型的次数给出背景或环境信号的总数nBGa。
声场分析单元44可基于目标位速率41而选择背景(或换句话说,环境)声道的数目和前景(或换句话说,主导)声道的数目,从而在目标位速率41相对较高时(例如,在目标位速率41等于或大于512Kbps时)选择更多背景和/或前景声道。一方面,在位流的标头部分中,可将numHOATransportChannels设定为8,而MinAmbHOAorder可设定为1。在此情形中,在每个帧处,四个声道可专用于表示声场的背景或环境部分,而其它4个声道可在逐帧基础上,在声道类型上产生变化--例如,用作额外背景/环境声道或前景/主导声道。前景/主导信号可为基于向量或基于方向的信号中的一个,如上文所描述。
在一些情况下,用于帧的基于向量的主导信号的总数可由ChannelType索引在所述帧的位流中为01的次数给出。在以上方面中,对于每个额外背景/环境声道(例如对应于声道类型10),可能HOA系数(超过前四个)中的每一个的对应信息可在所述声道中表示。对于四阶HOA内容,所述信息可为指示HOA系数5-25的索引。当minAmbHOAorder被设定为1时,前四个环境HOA系数1-4可一直发送;因此,音频编码装置可能仅需要指示具有5-25的索引的额外环境HOA系数中的一个。因此,所述信息可使用可表示为“CodedAmbCoeffIdx”的5位语法元素(用于4阶内容)来发送。在任何情况下,声场分析单元44将背景声道信息43和HOA系数11输出到背景(BG)选择单元36,将背景声道信息43输出到系数减少单元46和夹层格式单元40,且将nFG 45输出到前景选择单元36。
背景选择单元48可表示经配置以基于背景声道信息(例如,背景声场(NBG)以及要发送的额外BG HOA声道的数目(nBGa)和索引(i))确定背景或环境HOA系数47的单元。举例来说,当NBG等于一时,背景选择单元48可针对具有等于或小于一的阶数的音频帧的每一样本选择HOA系数11。在此实例中,背景选择单元48可接着选择具有由索引(i)中的一个识别的索引的HOA系数11作为额外的BG HOA系数,其中,将所述nBGa提供给在位流21中指定的夹层格式单元40,以便使得音频解码装置,例如图6和7的实例中所示的音频解码装置24,能够从位流21解析背景HOA系数47。背景选择单元48可接着将环境HOA系数47输出到所述能量补偿单元38。环境HOA系数47可具有维度D:M x[(NBG+1)2 +nBGa]。环境HOA系数47也可被称作“环境HOA系数47”,其中环境HOA系数47中的每一个对应于待由心理声学音频译码器单元40编码的单独环境HOA声道47。
前景选择单元36可表示经配置以基于nFG 45(其可表示标识前景向量的一或多个索引)选择表示声场的前景或相异分量的经重新排序的US[k]矩阵33'和经重新排序的V[k]矩阵35'的单元。前景选择单元36可将nFG信号49(其可表示为经重新排序的US[k]1,…, nFG49、FG1,…,nfG[k]49,或49)输出到心理声学音频译码器单元40,其中nFG信号49可具有维度D:M x nFG,且各自表示单声道音频对象。前景选择单元36还可将对应于声场的前景分量的经重新排序的V[k]矩阵35'(或v(1..nFG)(k)35')输出到时空内插单元50,其中对应于前景分量的经重新排序的V[k]矩阵35'的子集可表示为具有维度D:(N+1)2x nFG的前景V[k]矩阵51k(其可数学表示为)。
能量补偿单元38可表示经配置以相对于环境HOA系数47执行能量补偿以补偿由通过背景选择单元48去除HOA声道中的各种HOA声道造成的能量损失的单元。能量补偿单元38可相对于经重新排序的US[k]矩阵33'、经重新排序的V[k]矩阵35'、nFG信号49、前景V[k]向量51k和环境HOA系数47中的一或多个执行能量分析,并且接着基于所述能量分析而执行能量补偿以产生经能量补偿的环境HOA系数47'。能量补偿单元38可将经能量补偿的环境HOA系数47'输出到归一化单元60。
归一化单元60可表示经配置以相对于包含经能量补偿的环境HOA系数47'中的至少一个的音频声道执行归一化以获得包含经归一化的环境HOA系数47'的经归一化音频声道的单元。实例归一化过程是全三维归一化(其通常简称为N3D)和半三维归一化(其通常简称为SN3D)。归一化单元60可执行归一化以减少由于增益控制单元62应用自动增益控制或其它形式的增益控制而引入的伪声。
也就是说,如上所述,再次为了潜在地实现目标位速率41,声场分析单元44可确定背景(或换句话说,环境)声场(NBG或替代地,MinAmbHoaOrder)的最小阶数、表示背景声场的最小阶数的实际声道的对应数目(nBGa=(MinAmbHoaOrder+1)2),以及要发送的额外BGHOA声道的索引(i)(其在图4A的实例中还可共同地表示为背景声道信息43)。声场分析单元44可动态地作出这些确定,这意味着额外环境HOA声道的数目可在逐帧或其它基础上改变。将自动增益控制应用到从描述声场的主导(或换句话说,前景)分量转变到提供额外HOA系数的声道可由于可能出现的增益的巨大改变而导致音频伪声的引入。
例如,考虑图10中所示的图500,其示出了针对测试项目的四阶(即,N=4)HOA表示,MPEG测试项目(其指代用于在3D音频编码的MPEG标准化期间测试编解码能力的项目)的峰值(以分贝或dB为单位)N3D归一化。沿着图500的y轴是以dB为单位的峰值,而x轴通过从最左的0阶、0子阶开始到4阶、+4子阶(其示出为4+)的阶数(第一个数值)和子阶数(第二个数值)示出了每一系数。与1,1+球面基函数相关联的系数的峰值dB为接近6dB,大大超出了通常心理声学编码器的动态范围,例如由心理声学音频译码器单元40表示的心理声学编码器。因此,基于向量的合成单元27包含增益控制单元62,其执行自动增益控制以将峰值dB减少到在[-1,1]之间。
假定音频编码或压缩过程可在如上所述的四个不同的ChannelType选项之间切换,当在这些声道类型之间切换时,可执行淡入/淡出操作。图11是示出了图502的图式,所述图502说明从表示主导(或换句话说,前景)声音切换到提供额外HOA声道(其通常提供与具有大于零的阶数的单个球面基函数相关联的系数的帧)的声道。图502示出了此切换可如何在主导声音帧504(其具有约0.4环绕样本400的最大幅度)和额外HOA声道帧506(其具有约1.2样本环绕1600的最大幅度)之间产生最大幅度接近0.8的差。当增益控制单元62应用自动增益控制时,这种较大的幅度差可产生音频伪声。
换句话说,在音频压缩过程(编码)期间,空间音频编码装置20A具有动态地填充输送信道的四个ChannelType选项:0-基于方向的信号;1-基于向量的信号;2-额外环境HOA系数;以及3-空。当从一种类型改变到另一类型时,执行淡入/淡出操作以潜在地避免边界伪声。另外,增益控制单元62将增益控制过程应用在输送信道上,其中信号增益经平滑修改以实现适于感知编码器(例如,由心理声学音频编码装置406表示)的[-1,1]的取值范围。当执行增益控制时,增益控制单元62使用单帧预看(one-frame look ahead)以避免连续块之间的严重增益改变。增益控制单元62可在具有由空间音频编码装置20A提供的增益控制旁侧信息的空间音频解码装置410中进行恢复。
图12是大体上示出了当信息由空间音频编码装置20A进行处理时的信息流和由MPEG规范化编码器应用的增益控制的相对位置的图式。MPEG规范化编码器大体上对应于图2到4B的实例中所示的空间音频编码装置20,且在上文参考的3D音频标准的阶段I和II中更详细地描述。
在任何情况下,当声道类型从类型0或1切换到类型2(其在本实例中指代额外环境HOA系数)时,如图12的图502中所示,可出现幅度值的显著改变。因此,增益控制单元62可执行必须显著补偿音频信号的增益控制(例如,在主导声音音频帧504中,增益控制单元62可放大信号,而在额外环境HOA声道帧506中,增益控制单元62可衰减信号)。此类强增益调适的结果可对感知编码器(其在图2的实例中可同样表示为心理声学音频编码装置406)的性能产生非所要的影响。
根据本发明中描述的技术,归一化单元60可相对于音频声道执行归一化,所述音频声道提供环境高阶立体混响系数,例如,经能量补偿的环境HOA系数47'中的一个。如上所述,环境高阶立体混响音频系数47'可表示声场的环境分量的至少一部分。如上所述,归一化单元60可相对于音频声道执行三维归一化,所述音频声道提供环境高阶立体混响系数47'。归一化单元60还可相对于音频声道执行半三维归一化,所述音频声道提供环境高阶立体混响系数47'。在一些实例中,环境高阶立体混响系数47'与具有大于零的阶数的球面基函数相关联。
如上文进一步所述,在一些实例中,环境高阶立体混响系数47'可包含环境高阶立体混响系数,在多个不同音频声道中除了指定多个环境高阶立体混响系数47'之外还指定了所述环境高阶立体混响系数,并且所述环境高阶立体混响系数用于在表示声场的环境分量的过程中扩增多个环境高阶立体混响系数47'。在这方面中,归一化单元60可将归一化因数应用到环境高阶立体混响系数。
归一化单元60还可确定随与环境高阶立体混响系数相关联的球面基函数的至少一个阶数而变的归一化因数,并且可将归一化因数应用到环境高阶立体混响系数。在这些和其它情况下,归一化单元60可根据以下等式确定归一化因数:
其中Norm表示归一化因数,N表示环境高阶立体混响系数与其相关联的球面基函数的阶数。归一化单元60接着可将归一化因数Norm应用到环境高阶立体混响系数。
如上所述,环境高阶立体混响系数可通过表示声场的多个高阶立体混响系数的分解进行识别。环境高阶立体混响系数可通过将线性分解应用到表示声场的多个高阶立体混响系数进行识别。
如在本发明中的上文所描述,空间音频编码装置20A可进一步将音频声道从提供描述声场的主导分量的主导音频对象转变到提供环境高阶立体混响系数。如在本发明中的上文所描述,空间音频编码装置20A可进一步将音频声道从提供主导音频对象转变到提供环境高阶立体混响系数。在此情况下,仅当音频声道提供环境高阶立体混响系数时,归一化单元60才可相对于音频声道执行归一化。
如在本发明中所描述,空间音频编码装置20A可进一步将音频声道从提供主导音频对象转变到提供环境高阶立体混响系数。在此情况下,仅当音频声道提供环境高阶立体混响系数时,归一化单元60才可相对于音频声道执行归一化。空间音频编码装置20A可指定位流中的语法元素,其指示音频声道已经从提供主导音频对象转变到提供环境高阶立体混响系数。所述语法元素可表示为“ChannelType”语法元素。
换句话说,当额外环境HOA系数由空间音频编码装置20A选择时,所述技术可在通过因数Norm的增益控制之前衰减额外环境HOA系数的幅度,作为一个实例,所述因数Norm可等于图13是说明示出了将归一化因数应用到额外HOA声道帧的结果的图512的图式,所述额外HOA声道帧先前在图502中示出为额外HOA声道帧506。图512示出了主导声音帧514,其大体上类似于图502的主导声音帧504。然而,额外HOA声道帧506根据本发明中相对于归一化单元60描述的技术的归一化导致额外HOA声道帧516具有在[1,-1]动态范围内的经衰减最大幅度。在本实例中,归一化因数可为其中将N假设为2(意味着额外环境HOA系数对应于具有阶数二的球面基函数,如1+(2*2)等于5。如图512中所示,信号可进行更好的幅度调整,并且可因此防止增益控制功能的改变。归一化单元60可通过包含经归一化的环境HOA系数47”的此音频声道到增益控制单元62。
增益控制单元62可表示经配置以相对于音频声道执行(如上所述)自动增益控制的单元。然而,如上所述,给定音频声道在每一帧中并未超过[1,-1]的动态范围,如图13的实例中所示,由于将归一化应用到经归一化的环境HOA系数47”,所以增益控制单元62可确定自动增益控制不是必需的。在这些情况下,增益控制单元62可不相对于音频声道执行自动增益控制,所述音频声道有效地穿过归一化环境HOA系数47”到心理声学音频译码器单元40。同样地,增益控制单元62可相对于下文描述的经内插nFG信号49'(其可示出为图13中的主导声音帧504和图13中的主导声音帧514)执行自动增益控制62。同样,然而,给定这些帧504和514并未超过[1,-1]动态范围,增益控制单元62可能不需要应用自动增益控制,这可同样导致增益控制单元62有效地穿过经内插nFG信号49'到心理声学音频译码器单元40。
在这方面中,在一些情况下,在将增益控制应用到音频声道之前,归一化单元60可相对于环境高阶立体混响系数执行归一化。在这些和其它情况下,归一化单元60可相对于环境高阶立体混响系数执行归一化,以便减少增益控制到音频声道的应用。
时空内插单元50可表示经配置以接收第k帧的前景V[k]向量51k以及前一帧(因此为k-1记法)的前景V[k-1]向量51k-1且执行时空内插以产生经内插的前景V[k]向量的单元。时空内插单元50可将nFG信号49与前景V[k]向量51k重新组合以恢复经重新排序的前景HOA系数。时空内插单元50接着可将经重新排序的前景HOA系数除以经内插的V[k]向量以产生经内插的nFG信号49'。
时空内插单元50还可输出用于产生经内插前景V[k]向量的前景V[k]向量51k。音频解码装置,例如音频解码装置24,可基于输出的前景V[k]向量51k产生经内插的前景V[k]向量,并由此恢复前景V[k]向量51k。用于产生经内插的前景V[k]向量的前景V[k]向量51k表示为其余前景V[k]向量53。为了确保相同的V[k]和V[k-1]用在编码器和解码器处(以创建经内插的向量V[k]),向量的经量化/经解量化版本可用在编码器和解码器处。时空内插单元50可将经内插的nFG信号49'输出到夹层格式单元40,且将经内插的前景V[k]向量51k输出到系数减少单元46。
系数减少单元46可表示经配置以基于背景声道信息43而相对于其余前景V[k]向量53执行系数减少以将减少的前景V[k]向量55输出到量化单元52的单元。减少的前景V[k]向量55可具有维度D:[(N+1)2-(NBG+1)2-BGTOT]x nFG。就此而言,系数减少单元46可表示经配置以减少其余前景V[k]向量53中的系数的数目的单元。换句话说,系数减少单元46可表示经配置以消除前景V[k]向量(其形成其余前景V[k]向量53)中具有极少乃至没有方向信息的系数的单元。在一些实例中,相异或换句话说对应于一阶和零阶基函数的前景V[k]向量的系数(其可被表示为NBG)提供极少方向信息,并因此可从前景V向量去除(通过可被称为“系数减少”的过程)。在此实例中,可提供较大灵活性以不仅从集合[(NBG+1)2+1,(N+1)2]中识别对应于NBG的这些系数而且识别额外HOA声道(其可由变量TotalOfAddAmbHOAChan表示)。
量化单元52可表示经配置以执行任何形式的量化从而压缩减少的前景V[k]向量55以便产生经译码的前景V[k]向量57的单元,这将经译码的前景V[k]向量57输出到夹层格式单元40。在操作中,量化单元52可表示经配置以压缩声场的空间分量(即,本实例中的减少的前景V[k]向量55中的一或多个)的单元。量化单元52可执行以下12种量化模式中的任一个,如由表示为“NbitsQ”的量化模式语法元素指示:
量化单元52还可执行前述类型的量化模式中的任一个的预测版本,其中确定先前帧的V向量的元素(或执行向量量化时的权数)与当前帧的V向量的元素(或执行向量量化时的权数)之间的差。量化单元52接着可量化当前帧与前一帧的元素或权数之间的差而不是当前帧本身的V向量的元素的值。
量化单元52可相对于减少的前景V[k]向量55中的每一个执行多种形式的量化以获得减少的前景V[k]向量55的多个译码版本。量化单元52可将减少的前景V[k]向量55的译码版本中的一个选择为经译码的前景V[k]向量57。换句话说,量化单元52可基于在本发明中论述的标准的任何组合,选择非预测向量量化的V向量、预测向量量化的V向量、非霍夫曼译码的标量量化的V向量和霍夫曼译码的标量量化的V向量中的一个以用作输出切换量化的V向量。
在一些实例中,量化单元52可从包含向量量化模式和一或多个标量量化模式的量化模式集合中选择量化模式,且基于(或根据)所选择的模式量化输入V向量。量化单元52接着可向夹层格式单元40提供所选择的非预测向量量化的V向量(例如,按照指示其的权值或位)、预测向量量化的V向量(例如,按照指示其的误差值或位)、非霍夫曼译码的标量量化的V向量和霍夫曼译码的标量量化的V向量中的一个以作为经译码的前景V[k]向量57。量化单元52也可提供指示量化模式的语法元素(例如,NbitsQ语法元素)和用于解量化或以其它方式重构V向量的任何其它语法元素。
包含在空间音频编码装置20A内的夹层格式单元40可表示格式化数据以符合已知格式(其可指代解码装置已知的格式)并由此产生经夹层格式化的音频数据15的单元。在一些实例中,夹层格式单元40可表示多路复用器,其可接收经译码的前景V[k]向量57、经归一化的环境HOA系数47”、经内插的nFG信号49'和背景声道信息43。夹层格式单元40接着可基于所述经译码的前景V[k]向量57、所述经归一化的环境HOA系数47”、所述经内插的nFG信号49'和所述背景声道信息43,而产生经夹层格式化的音频数据15。
如上所述,经夹层格式化的音频数据15可包含PCM输送信道和边带(或换句话说,旁侧声道)信息。边带信息可包含V[k]向量47和在上文参考的2014年5月29日申请的名称为“声场的经分解表示的内插(INTERPOLATION FOR DECOMPOSED REPRESENTATIONS OF ASOUND FIELD)”的第WO 2014/194099号国际专利申请公开案中更详细地描述的其它语法元素。
尽管在图4A的实例中未示出,但空间音频编码装置20A还可包含位流输出单元,所述位流输出单元基于当前帧将使用基于方向的合成还是将使用基于向量的合成进行编码而切换从音频编码装置20A输出的位流(例如,在基于方向的位流21与基于向量的位流21之间切换)。位流输出单元可基于由内容分析单元26输出的指示执行基于方向的合成(由于检测到HOA系数11由合成音频对象产生)还是执行基于向量的合成(由于检测到HOA系数被记录)的语法元素执行所述切换。位流输出单元可指定正确的标头语法以指示用于当前帧以及位流21中的相应一个的此切换或当前编码。
此外,如上所述,声场分析单元44可识别BGTOT环境HOA系数47,所述系数可逐帧改变(但有时BGTOT可跨越两个或两个以上邻近(在时间上)帧保持恒定或相同)。BGTOT的改变可产生在减少的前景V[k]向量55中表达的系数的改变。BGTOT的改变可产生逐帧改变(尽管有时BGTOT可跨越两个或两个以上邻近(在时间上)帧保持恒定或相同)的背景HOA系数(其也可被称作“环境HOA系数”)。所述改变常常导致声场的各方面的能量改变,所述声场通过额外环境HOA系数的添加或去除以及系数从减少的前景V[k]向量55的对应去除或系数到减少的前景V[k]向量55的添加表示。
因此,声场分析单元44可进一步确定环境HOA系数何时逐帧改变,并产生指示环境HOA系数的改变的旗标或其它语法元素(就用于表示声场的环境分量来说)(其中,所述变化也可被称作环境HOA系数的“转变”或环境HOA系数的“转变”)。具体来说,系数减少单元46可产生旗标(其可表示为AmbCoeffTransition旗标或AmbCoeffIdxTransition旗标),从而将所述旗标提供到夹层格式单元40,使得可将所述旗标包含在位流21中(可能地作为旁侧声道信息的一部分)。
除指定环境系数转变旗标之外,系数减少单元46还可修改产生减少的前景V[k]向量55的方式。在一个实例中,在确定环境HOA环境系数中的一个在当前帧期间处于转变中之后,系数减少单元46可指定用于减少的前景V[k]向量55的V向量中的每一个的向量系数(其也可被称作“向量元素”或“元素”),所述向量系数对应于处于转变中的环境HOA系数。并且,处于转变中的环境HOA系数可添加到背景系数的BGTOT总数或从背景系数的BGTOT总数中去除。因此,背景系数的总数的所得改变影响环境HOA系数是否包含在位流中,以及在上文所描述的第二和第三配置模式中是否针对位流中所指定的V向量包含V向量的对应元素。关于系数减少单元46可如何指定减少的前景V[k]向量55以克服能量改变的更多信息提供于2015年1月12日申请的名称为“环境高阶立体混响系数的转变(TRANSITIONING OF AMBIENTHIGHER_ORDER AMBISONIC COEFFICIENTS)”的第14/594,533号美国申请案中。
图4B是说明图2和3的实例中所示的音频编码装置20的另一实例的框图。换句话说,空图4B的实例中所示的间音频编码装置20B可表示图2和3的实例中所示的空间音频编码装置20的一个实例。图4B的音频编码装置20B可与图4A的实例中所示的音频编码装置大体上相同,除了图4B的音频编码装置20B包含表示为基于向量的合成单元63的基于向量的合成单元27的经修改版本。基于向量的合成单元63类似于基于向量的合成单元27,除了其经修改以去除增益控制单元62。换句话说,基于向量的合成单元63不包含增益控制单元,或另外相对于经归一化的环境HOA系数47”或经内插的nFG信号49'执行自动或其它形式的增益控制。
此增益控制单元62的去除可产生更有效(在延迟方面)的音频编码,其可适应某些情形,例如广播情形。也就是说,当采用一或多个帧预看机制以便确定是衰减还是另外放大信号通常需要横跨帧边界时,增益控制单元62可引入延迟。在广播和其它时间敏感编码情形中,此延迟可防止采用或进一步考虑这些译码技术,尤其对于所谓的在新闻、体育和其它编程中是共同的“实时”广播来说。此增益控制单元62的去除可减少增益并避免一个或两个帧延迟(其中帧延迟的每次减少可去除约20毫秒(ms)的延迟),且更好的适应广播情形,所述广播情形可采用本发明中所阐述的适用作夹层压缩格式的音频编码技术。
换句话说,夹层格式作为PCM未经压缩的音频声道传输,其可允许0分贝(dB)满刻度范围(FSR)的最大幅度(+/-1.0幅度)。为了防止限幅,最大幅度限制可不超过0dB FSR(+/-1.0幅度)。在一些实例中,因为输入HOA音频信号已经经N3D归一化,所以最大幅度限制在传输高阶的环境HOA系数时可能很可能超过0dB FSR。
为了减少或潜在地避免超过0dB FSR,音频编码装置20可在传输信号之前应用自动增益控制。音频解码装置24接着可应用反自动增益控制以恢复HOA音频信号。然而,应用自动增益控制可产生指定增益控制数据的额外边带信息,音频解码装置24可使用所述增益控制数据以执行反自动增益控制。并且,应用自动增益控制可产生上文提到的延迟,这可能不适于一些情形(例如广播情形)。
不是应用N3D归一化和执行自动增益控制,而是音频编码装置20可将SN3D归一化应用到HOA音频信号,并且在一些实例中,不执行自动增益控制。通过执行SN3D归一化和不执行自动增益控制,音频编码装置20可不在位流21中指定用于自动增益控制的边带信息。此外,通过执行SN3D归一化和不执行自动增益控制,音频编码装置20可由于自动增益控制过程所需的预看而避免任何延迟,这可适应广播和其它情形。
图5A和5B是更详细地说明图2和3的空间音频解码装置410的框图。首先参看图5A的实例,图2和3中所示的空间音频解码装置410的实例示出为空间音频解码装置410A。空间音频解码装置410A可包含提取单元72一基于向量的重构单元92。尽管在下文进行描述,但是关于空间音频解码装置410A和减压或另外解码HOA系数的各个方面的更多信息可在2014年5月29日申请的名称为“声场的经分解表示的内插(INTERPOLATION FOR DECOMPOSEDREPRESENTATIONS OF A SOUND FIELD)”的第WO 2014/194099号国际专利申请公开案中获得。此外,HOA系数的解压的各个方面的更多细节根据上文参考的MPEG-H 3D音频编码标准的阶段I和II。
提取单元72可表示经配置以接收位流15和提取HOA系数11的基于向量的经编码版本的单元。提取单元72可提取经译码的前景V[k]向量57、经归一化的环境HOA系数47”和对应的经内插的音频对象49'(其还可被称作经内插的nFG信号49')。音频对象49'各自对应于向量57中的一个。提取单元72可通过经译码的前景V[k]向量57到V向量重构单元74、通过经归一化的环境HOA系数47'到反增益控制单元86,以及通过经内插的nFG信号49'到前景制订单元78。
反增益控制单元86可表示经配置以相对于经归一化的环境HOA系数47'和经内插的nFG信号49'中的每一个执行反增益控制的单元,其中此反增益控制往复于由增益控制单元62执行的增益控制。然而,由于经归一化的环境HOA系数47”的经归一化性质(在动态范围[1,-1]内的减少的幅度方面)和经内插的nFG信号49'的一般性质(在动态范围[1,-1]内的正常幅度)方面,反增益控制单元86可有效地通过经归一化的环境HOA系数47”到反归一化单元88(“inv norm单元88”)、通过经内插的nFG信号49'到前景制订单元78,而不需将任何自动或其它形式的反增益控制应用到经归一化的环境HOA系数47”或经内插的nFG信号49'。
尽管上文提出可能从不应用反增益控制,但是在各种情况中,反增益控制单元86可将增益控制应用到经归一化的环境HOA系数47”或经内插的nFG信号49'中的任一个或经归一化的环境HOA系数47”和经内插的nFG信号49'两个。在这些情况下,所述技术可减少反增益控制的应用,这可减少在经发送以实现反增益控制的应用并由此促进HOA系数11的更有效译码的旁侧信息方面的开销。
反归一化单元88可表示经配置以相对于经归一化的环境HOA系数47”执行反归一化,所述经归一化的环境HOA系数47”一般往复于由图4A和4B的实例中所示的归一化单元60应用的归一化。反归一化单元88可应用或另外相对于音频声道执行反归一化,所述音频声道包含经归一化的环境HOA系数47”以将经能量补偿的环境HOA系数47'输出到淡化单元770。
V向量重构单元74可表示经配置以从经编码的前景V[k]向量57重构V向量的单元。V向量重构单元74可以往复于量化单元52的V向量重构单元的方式操作,以获得减少的前景V[k]向量55k。V向量重构单元74可通过前景V[k]向量55到时空内插单元76。
时空内插单元76可以类似于上面相对于时空内插单元50描述的方式操作。时空内插单元76可接收减少的前景V[k]向量55k并相对于减少的前景V[k]向量55k和减少的前景V[k-1]向量55k-1执行时空内插,以产生经内插的前景V[k]向量55k”。时空内插单元76可将经内插的前景V[k]向量55k”转发到淡化单元770。
提取单元72还可输出指示环境HOA系数中的一个何时处于到淡化单元770的转变的信号757,所述淡化单元770接着可确定SHCBG47'(其中SHCBG47'还可表示为“环境HOA声道47'”或“经能量补偿的环境HOA系数47'”)以及经内插的前景V[k]向量55k”的元素中的哪些将淡入或淡出。淡化单元770可将经调整的环境HOA系数47”'输出到HOA系数制订单元82,并将经调整的前景V[k]向量55k”'输出到前景制订单元78。在这方面中,淡化单元770表示经配置以相对于HOA系数或其衍生物(例如,呈经能量补偿的环境HOA系数47'和经内插的前景V[k]向量55k”的元素的形式)的各个方面执行淡化操作的单元。
前景制订单元78可表示经配置以相对于经调整的前景V[k]向量55k”'和经内插的nFG信号49'执行矩阵相乘以产生前景HOA系数65的单元。在这方面中,前景制订单元78可将音频对象49'(其为表示经内插的nFG信号49'的另一方式)与向量55k”'组合以重构前景,或换句话说,HOA系数11'的主导方面。前景制订单元78可执行经内插的nFG信号49'与经调整的前景V[k]向量55k”'的矩阵相乘。
HOA系数制订单元82可表示经配置以将前景HOA系数65与经调整的环境HOA系数47”组合以便获得HOA系数11'的单元。撇号记号反映HOA系数11'可类似于但不同于HOA系数11。HOA系数11和11'之间的差异可能是由通过有损传输媒体的传输、量化或其它有损操作产生的损失导致。
图5B是说明可执行本发明中描述的归一化技术的空间音频解码装置410的另一实例的框图。图5B的实例中所示的空间音频解码装置410的实例示出为空间音频解码装置410B。图5B的空间音频解码装置410B可与图5A的实例中所示的空间音频解码装置大体上相同,除了图5B的空间音频解码装置410B包含表示为基于向量的重构单元90的基于向量的重构单元92的经修改版本。基于向量的重构单元90类似于基于向量的重构单元92,除了其经修改以去除反增益控制单元86。换句话说,基于向量的重构单元90不包含反增益控制单元,或另外相对于经归一化的环境HOA系数47”或经内插的nFG信号49'执行自动或其它形式的反增益控制。
图6A和6B是各自说明图2和3的实例中所示的经配置以执行本发明中描述的归一化技术的各个方面的音频解码装置24的不同实例的框图。首先参看图6A,音频解码装置24的实例表示为音频解码装置24A。音频解码装置24A可大体上类似于图5A中所示的空间音频解码装置410A,除了提取单元72经配置以提取经编码的环境HOA系数59和经编码的nFG信号61。空间音频解码装置410A和音频解码装置24A之间的另一差异是音频解码装置24A的基于向量的重构单元92包含心理声学解码单元80。提取单元72可将经编码的环境HOA系数59和经编码的nFG信号61提供到心理声学解码单元80。心理声学解码单元80可相对于经编码的环境HOA系数59和经编码的nFG信号61执行心理声学音频解码,并将经归一化的环境HOA系数47”和经内插的nFG信号49'输出到反增益控制单元86。
图6B是说明可执行本发明中描述的归一化技术的音频解码装置24的另一实例的框图。图6B的音频解码装置24B可表示图2和3的音频解码装置24的另一实例。音频解码装置24B可与图6A的实例中所示的音频解码装置大体上相同,除了图6B的音频解码装置24B包含表示为基于向量的重构单元90的基于向量的重构单元92的经修改版本。基于向量的重构单元90类似于基于向量的重构单元92,除了其经修改以去除反增益控制单元86。换句话说,基于向量的重构单元90不包含反增益控制单元,或另外相对于经归一化的环境HOA系数47”或经内插的nFG信号49'执行自动或其它形式的反增益控制。
图7是说明音频编码装置(例如图2和3的实例中所示的空间音频编码装置20)在执行本发明中描述的基于向量的合成技术的各个方面中的例示性操作的流程图。最初,空间音频编码装置20接收HOA系数11。空间音频编码装置20可调用LIT单元30,其可应用相对于HOA系数的LIT以输出经变换的HOA系数(例如,在SVD的情况下,经变换的HOA系数可包括US[k]向量33和V[k]向量35)(107)。
空间音频编码装置20随后可调用参数计算单元32以按上文所描述的方式,相对于US[k]向量33、US[k-1]向量33、V[k]和/或V[k-1]向量35的任何组合执行上文所描述的分析以识别各种参数。也就是说,参数计算单元32可基于经变换的HOA系数33/35的分析而确定至少一个参数(108)。
空间音频编码装置20可接着调用重新排序单元34,其可基于参数而将经变换的HOA系数(再次在SVD的情形中,其可指代US[k]向量33和V[k]向量35)重新排序,以产生经重新排序的经变换的HOA系数33'/35'(或换句话说,US[k]向量33'和V[k]向量35'),如上文所描述(109)。在上述操作或后续操作中的任一个期间,空间音频编码装置20还可调用声场分析单元44。如上所述,声场分析单元44可相对于HOA系数11和/或经变换的HOA系数33/35执行声场分析,以确定前景声道的总数(nFG)45、背景声场的阶数(NBG)以及待发送的额外BGHOA声道的数量(nBGa)和索引(i)(其在图4的实例中可共同地表示为背景声道信息43)(110)。
空间音频编码装置20还可调用背景选择单元48。背景选择单元48可基于背景声道信息(BCI)43确定背景或环境HOA系数47(112)。空间音频编码装置20可进一步调用前景选择单元36,其可基于nFG 45(其可表示识别这些前景向量的一或多个索引)选择经重新排序的US[k]向量33'和经重新排序的V[k]向量35'中表示声场的前景或相异分量的那些向量(113)。
空间音频编码装置20可调用能量补偿单元38。能量补偿单元38可相对于环境HOA系数47执行能量补偿以补偿由于由背景选择单元48去除HOA声道中的各种HOA系数所造成的能量损失(114),并由此产生经能量补偿的环境HOA系数47'。归一化单元60可归一化经能量补偿的环境HOA系数47'以产生经归一化的环境HOA系数47”(115)。在一些实例中,例如图4A中所示的实例,增益控制单元62可相对于经归一化的环境HOA系数47”和经内插的nFG音频信号49'执行增益控制(116)。然而,在其它实例中,例如图4B中所示的实例,可能没有应用增益控制。通过使用步骤116的虚线表示增益控制的应用的变化。
空间音频编码装置20也可调用时空内插单元50。时空内插单元50可相对于经重新排序的经变换的HOA系数33'/35'执行时空内插以获得经内插的前景信号49'(其也可被称作“经内插的nFG信号49'”)和其余的前景方向信息53(其也可被称作所述“V[k]向量53”)(116)。空间音频编码装置20可接着调用系数减少单元46。系数减少单元46可基于背景声道信息43而相对于其余的前景V[k]向量53执行系数减少,以获得减少的前景方向信息55(其也可被称作减少的前景V[k]向量55)(118)。
空间音频编码装置20可调用量化单元52,以便以上文所描述的方式来压缩减少的前景V[k]向量55,并产生经译码的前景V[k]向量57(120)。
空间音频编码装置20可调用夹层格式单元40。夹层格式单元40可基于经译码的前景V[k]向量57、经归一化的环境HOA系数47”、经内插的nFG信号49'和背景声道信息43而产生经夹层格式化的音频数据15(122)。
图8是说明音频解码装置(图2和3中所示的空间音频解码装置410)在执行本发明中描述的技术的各个方面的例示性操作的流程图。首先,空间音频解码装置410可接收位流21。在接收位流之后,空间音频解码装置410可调用提取单元72。提取装置72可解析此位流以检索上文提到的信息,从而将此信息传递到基于向量的重构单元92。
换句话说,提取单元72可以上文所描述的方式从位流21中提取前景方向信息57(再次,其也可被称作经译码前景V[k]向量57)、经归一化的环境HOA系数47”和经内插的前景信号(其也可被称作经内插的前景nFG信号49'或经内插的前景音频对象49')(132)。
空间音频解码装置410可进一步调用量化单元74。量化单元74可对经译码的前景方向信息57进行熵解码和解量化,以获得减少的前景方向信息55k(135)。
空间音频解码装置410随后可调用时空内插单元76。时空内插单元76可接收经重新排序的前景方向信息55k'并相对于减少的前景方向信息55k/55k-1执行时空内插以产生经内插的前景方向信息55k”(136)。时空内插单元76可将经内插的前景V[k]向量55k”转发到淡化单元770。
空间音频解码装置410可调用反增益控制单元86。反增益控制单元86可相对于经归一化的环境HOA系数47”和经内插的前景信号49'执行反增益控制,如上文相对于图5A的实例所描述(138)。在其它实例中,例如图5B中所示的实例,空间音频解码装置410可不应用反增益控制。为了表示其中可或可不应用反增益控制的这些不同实例,步骤138示出为具有虚线。
空间音频解码装置410还可调用反归一化单元88。反归一化单元88可相对于经归一化的环境HOA系数47”执行反归一化以获得经能量补偿的HOA系数47'(139)。反归一化单元88可将经能量补偿的HOA系数47'提供到淡化单元770。
音频解码装置24可调用淡化单元770。淡化单元770可接收或另外获得(例如,从所述提取单元72)指示经能量补偿的环境HOA系数47'何时处于转变中的语法元素(例如,AmbCoeffTransition语法元素)。淡化单元770可基于转变语法元素和保持转变状态信息而淡入或淡出经能量补偿的环境HOA系数47',从而向HOA系数制订单元82输出经调整的环境HOA系数47”。淡化单元770也可基于语法元素和保持转变状态信息,并淡出或淡入经内插的前景V[k]向量55k”的相应一或多个元素,从而向前景制订单元78输出经调整的前景V[k]向量55k”'(142)。
音频解码装置24可调用前景制订单元78。前景制订单元78可执行nFG信号49'与经调整的前景方向信息55k”'的矩阵相乘以获得前景HOA系数65(144)。音频解码装置24也可调用HOA系数制订单元82。HOA系数制订单元82可将前景HOA系数65添加到经调整的环境HOA系数47”以便获得HOA系数11'(146)。
尽管在广播设置的情形下进行描述,可相对于任何内容创建者执行所述技术。此外,尽管相对于经夹层格式化的位流进行描述,所述技术可应用到任何类型的位流,包含符合标准(例如,上文参考的MPEG-H 3D音频编码标准的阶段I或阶段II)的位流。更多一般的内容创建者情形在下文相对于图10的实例进行描述。
图9是说明可执行本发明中描述的技术的各个方面的系统200的图式。如图10的实例所示,系统200包含内容创建者装置220和内容消费者装置240。虽然在内容创建者装置220和内容消费者装置240的情形中进行描述,但是所述技术可在其中声场的SHC(其也可被称作HOA系数)或任何其它分层表示经编码以形成表示音频数据的位流的任何情形中实施。
此外,内容创建者装置220可表示能够实施本发明中描述的技术的任何形式的计算装置,包含手机(或蜂窝电话)、平板计算机、智能电话或桌上型计算机(提供几个实例)。同样,内容消费者装置240可表示能够实施本发明中描述的技术的任何形式的计算装置,包含手持机(或蜂窝式电话)、平板计算机、智能电话、机顶盒,或桌上型计算机(提供几个实例)。
内容创建者装置220可通过电影工作室或可产生用于由内容消费者装置,例如内容消费者装置240的操作者消费的多声道音频内容的其它实体来操作。在一些实例中,内容创建者装置220可由希望压缩HOA系数11的个人用户操作。所述内容创建者可产生音频内容以及视频内容。内容消费者装置240可由个人操作。内容消费者装置240可包含音频重放系统16,其可指能够渲染SHC以供作为多声道音频内容重放的任何形式的音频重放系统。音频重放系统16可与图2和3的实例中所示的音频重放系统16相同。
内容创建者装置220包含音频编辑系统18。内容创建者装置220可获得各种格式(包含直接作为HOA系数)的实时记录7和音频对象9,内容创建者装置220可使用音频编辑系统18对其进行编辑。麦克风5可捕获实时记录7。在编辑过程期间,内容创建者可渲染来自音频对象9的HOA系数11,收听所渲染的扬声器馈送以试图识别需要进一步编辑的声场的各个方面。内容创建者装置220可接着编辑HOA系数11(可能通过操纵可以上文所描述的方式从中导出源HOA系数的音频对象9中的不同者而间接地编辑)。内容创建者装置220可采用音频编辑系统18产生HOA系数11。音频编辑系统18表示能够编辑音频数据且输出所述音频数据作为一或多个源球面谐波系数的任何系统。
当编辑过程完成时,内容创建者装置220可基于HOA系数11而产生位流21。也就是说,内容创建者装置220包含音频编码装置202,其表示经配置以根据本发明中描述的技术的各个方面对HOA系数11进行编码或另外进行压缩从而产生位流21的装置。音频编码装置202可类似于空间音频编码装置20,除了音频编码装置202包含心理声学音频编码单元(类似于心理声学音频编码单元406),其在位流产生单元(其可类似于夹层格式单元40)形成位流21之前,相对于经归一化的nFG信号47”和经内插的nFG信号49'执行心理声学音频编码。
音频编码装置20可产生位流21以供(作为一个实例)跨越传输信道传输,所述传输信道可为有线或无线信道、数据存储装置或其类似物。位流21可表示HOA系数11的经编码版本,且可包含主要位流和另一旁侧位流(其可称为旁侧声道信息)。
尽管图10中示出为直接传输到内容消费者装置240,但是内容创建者装置220可将位流21输出到定位于内容创建者装置220和内容消费者装置240之间的中间装置。中间装置可存储位流21以供稍后递送到内容消费者装置240,其可请求所述位流。中间装置可包括文件服务器、网络服务器、桌上型计算机、膝上型计算机、平板计算机、移动电话、智能电话,或能够存储位流21以供音频解码器稍后检索的任何其它装置。中间装置可驻留在能够将位流21流式传输(且可能结合传输对应的视频数据位流)到请求位流21的订户(例如,内容消费者装置14)的内容递送网络中。
替代地,内容创建者装置220可将位流21存储到存储媒体,例如压缩光盘、数字视频光盘、高清视频光盘或其它存储媒体,其中大多数能够由计算机读取且因此可称为计算机可读存储媒体或非暂时性计算机可读存储媒体。在此情形中,传输信道可指代借以传输存储到媒体的内容的信道(且可包含零售商店及其它基于商店的递送机制)。因此,在任何情况下,本发明的技术不应就此而言受到图10的实例限制。
如图10的实例中进一步所示,内容消费者装置240包含音频重放系统16。音频重放系统16可表示能够重放多声道音频数据的任何音频重放系统。音频重放系统16可包含多个不同的渲染器22。渲染器22可各自提供不同形式的渲染,其中所述不同形式的渲染可包含执行基于向量的幅度平移(VBAP)的各种方式中的一或多个和/或执行声场合成的各种方式中的一或多个。如本文所使用,“A和/或B”意味着“A或B”,或“A和B”两者。
音频重放系统16可进一步包含音频解码装置24,其可与图2和3中所示的音频解码装置24类似或相同。音频解码装置24可表示经配置以对来自位流21的HOA系数11'进行解码的装置,其中HOA系数11'可与HOA系数11类似,但由于有损操作(例如,量化)和/或经由传输信道的传输而有所不同。在对位流21进行解码以获得HOA系数11'之后,音频重放系统16可渲染HOA系数11'以输出扩音器馈送25。扩音器馈送25可驱动一或多个扩音器3。
为了选择适当的渲染器或在一些情况下产生适当的渲染器,音频重放系统16可获得指示扩音器的数目和/或扩音器的空间几何结构的扩音器信息13。在一些情况下,音频重放系统16可使用参考麦克风且以使得动态地确定扩音器信息13的方式驱动所述扩音器来获得扩音器信息13。在其它情况下或结合扩音器信息13的动态确定,音频重放系统16可促使用户与音频重放系统16介接并输入扩音器信息13。
音频重放系统16接着可基于扩音器信息13而选择音频渲染器22中的一个。在一些情况下,当音频渲染器22都不在对在扩音器信息13中指定的扩音器几何结构的某一阈值类似性量度(在扩音器几何结构方面)内时,音频重放系统16可基于扩音器信息13而产生音频渲染器22中的一个。在一些情况下,音频重放系统16可基于扩音器信息13而产生音频渲染器22中的一个,而不需首先试图选择音频渲染器22中的现有的一个。一或多个扬声器3接着可重放经渲染的扩音器馈送25。
此外,前述技术可相对于任何数目的不同情形和音频生态系统执行,且不应限于上文所述的情形或音频生态系统中的任一个。下文描述多个实例情形,但所述技术应该限于所述实例情形。一个实例音频生态系统可包含音频内容、电影工作室、音乐工作室、游戏音频工作室、基于声道的音频内容、译码引擎、游戏音频原声、游戏音频译码/渲染引擎,以及递送系统。
电影工作室、音乐工作室和游戏音频工作室可接收音频内容。在一些实例中,音频内容可表示获取内容的输出。电影工作室可例如通过使用数字音频工作站(DAW)输出基于声道的音频内容(例如,呈2.0、5.1和7.1)。音乐工作室可例如通过使用DAW输出基于声道的音频内容(例如,呈2.0和5.1)。在任一情况下,译码引擎可基于一或多个编解码器(例如,AAC、AC3、杜比真HD、杜比数字加和DTS主音频)接收并编码基于声道的音频内容以供递送系统输出。游戏音频工作室可例如通过使用DAW输出一或多个游戏音频原声。游戏音频译码/渲染引擎可将音频原声译码和/或将音频原声渲染到基于声道的音频内容中以供递送系统输出。可执行所述技术的另一实例情形包括音频生态系统,其可包含广播记录音频对象、专业音频系统、消费者装置上捕获、HOA音频格式、装置上渲染、消费者音频、TV和配件以及汽车音频系统。
广播记录音频对象、专业音频系统及消费者装置上捕获都可使用HOA音频格式对其输出进行译码。以此方式,可使用HOA音频格式将音频内容译码成单一表示,所述单一表示可使用装置上渲染、消费者音频、TV和配件以及汽车音频系统重放所述单一表示。换句话说,可在通用音频重放系统(即,与要求例如5.1、7.1等的特定配置相反)(例如,音频重放系统16)处重放音频内容的单一表示。
可执行所述技术的情形的其它实例包含音频生态系统,其可包含获取元件和重放元件。获取元件可包含有线和/或无线获取装置(例如,本征麦克风)、装置上环绕声捕获,以及移动装置(例如,智能电话和平板计算机)。在一些实例中,有线和/或无线获取装置可经由有线和/或无线通信信道耦合到移动装置。
根据本发明的一或多个技术,移动装置可用于获取声场。例如,移动装置可经由有线和/或无线获取装置和/或装置上环绕声捕获(例如,集成到移动装置中的多个麦克风)来获取声场。移动装置可接着将所获取的声场译码成HOA系数以供播放元件中的一或多个重放。举例来说,移动装置的用户可记录实时事件(例如,集会、会议、比赛、音乐会等)(获取实时事件的声场),并将所述记录译码成HOA系数。
移动装置还可利用重放元件中的一或多个来重放经HOA译码的声场。举例来说,移动装置可对经HOA译码的声场进行解码,且将致使重放元件中的一或多个重新创建声场的信号输出到重放元件中的一或多个。作为一个实例,移动装置可利用无线和/或无线通信信道将信号输出到一或多个扬声器(例如,扬声器阵列、声棒等)。作为另一实例,移动装置可利用对接解决方案将信号输出到一或多个对接站和/或一或多个对接扬声器(例如,智能汽车和/或家庭中的声音系统)。作为另一实例,移动装置可利用头戴式耳机渲染将信号输出到一组头戴式耳机(例如)以创建真实的立体声声音。
在一些实例中,特定移动装置可获取3D声场并且在稍后时间重放同一3D声场。在一些实例中,移动装置可获取3D声场、将所述3D声场编码为HOA,且将经编码的3D声场传输到一或多个其它装置(例如,其它移动装置和/或其它非移动装置)以供重放。
可执行所述技术的又一情形包含音频生态系统,其可包含音频内容、游戏工作室、经译码的音频内容、渲染引擎以及递送系统。在一些实例中,游戏工作室可包含可支持HOA信号的编辑的一或多个DAW。举例来说,所述一或多个DAW可包含可经配置以与一或多个游戏音频系统一起操作(例如,工作)的HOA插件和/或工具。在一些实例中,游戏工作室可输出支持HOA的新原声格式。在任何情况下,游戏工作室可将经译码的音频内容输出到渲染引擎,所述渲染引擎可渲染声场以供递送系统重放。
也可相对于例示性音频获取装置执行所述技术。例如,所述技术可相对于可包含共同地经配置以记录3D声场的多个麦克风的本征麦克风来执行。在一些实例中,本征麦克风的多个麦克风可位于具有大约4cm的半径的大体上球面球的表面上。在一些实例中,音频编码装置20可集成到本征麦克风中以便直接从麦克风输出位流21。
另一例示性音频获取情形可包含可经配置以从一或多个麦克风,例如一或多个本征麦克风接收信号的制作车。制作车还可包含音频编码器,例如图4A和4B的空间音频编码装置20。
在一些情况下,移动装置还可包含共同地经配置以记录3D声场的多个麦克风。换句话说,所述多个麦克风可具有X、Y、Z分集。在一些实例中,移动装置可包含可经旋转以相对于移动装置的一或多个其它麦克风提供X、Y、Z分集的麦克风。移动装置还可包含音频编码器,例如图4A和4B的空间音频编码装置20。
加固型视频捕获装置可经进一步配置以记录3D声场。在一些实例中,加固型视频捕获装置可附接到参与活动的用户的头盔。举例来说,加固型视频捕获装置可在用户泛舟时附接到所述用户的头盔。以此方式,加固型视频捕获装置可捕获表示用户周围的动作(例如,水在所述用户身后的撞击、另一泛舟者在所述用户前方说话等)的3D声场。
还可相对于可经配置以记录3D声场的配件增强型移动装置执行所述技术。在一些实例中,移动装置可类似于上文所论述的移动装置,其中添加一或多个配件。举例来说,本征麦克风可附接到上文所提到的移动装置以形成配件增强型移动装置。以此方式,配件增强型移动装置可捕获3D声场的较高质量版本,而不是仅使用与配件增强型移动装置成一体式的声音捕获组件。
下文进一步论述可执行本发明中描述的技术的各个方面的实例音频重放装置。根据本发明的一或多个技术,扬声器和/或声棒可以任何任意配置布置,同时仍然重放3D声场。此外,在一些实例中,头戴式耳机重放装置可经由有线或无线连接耦合到解码器24。根据本发明的一或多个技术,可利用声场的单一通用表示来在扬声器、声棒和头戴式耳机重放装置的任何组合上渲染声场。
多个不同实例音频重放环境还可适合于执行本发明中描述的技术的各个方面。举例来说,以下环境可为适用于执行本发明中描述的技术的各个方面的环境:5.1扬声器重放环境、2.0(例如,立体声)扬声器重放环境、具有全高前扩音器的9.1扬声器重放环境、22.2扬声器重放环境、16.0扬声器重放环境、汽车扬声器重放环境,以及具有耳机重放环境的移动装置。
根据本发明的一或多个技术,可利用声场的单一通用表示来在前述重放环境中的任一者上渲染声场。另外,本发明的技术使得渲染器能够从通用表示渲染声场以供在除上文所述的环境之外的重放环境上播放。举例来说,如果设计考虑禁止扬声器根据7.1扬声器重放环境的恰当放置(例如,如果不可以放置右环绕扬声器),那么本发明的技术使得渲染器能够用其它6个扬声器进行补偿,使得可在6.1扬声器重放环境上实现重放。
此外,用户可在佩戴头戴式耳机的同时观看体育比赛。根据本发明的一或多个技术,可获取运动比赛的3D声场(例如,可将一或多个本征麦克风放置在棒球场中和/或其周围),可获得对应于3D声场的HOA系数并将所述HOA系数传输到解码器,所述解码器可基于HOA系数重构3D声场且将经重构的3D声场输出到渲染器,并且所述渲染器可获得关于重放环境的类型(例如,头戴式耳机)的指示,且将经重构的3D声场渲染成致使头戴式耳机输出运动比赛的3D声场的表示的信号。
在上述各种实例中的每一个中,应理解,音频编码装置20可执行方法,或另外包括执行音频编码装置20经配置以执行的方法中的每一步骤的装置。在一些情况下,这些装置可包括一或多个处理器。在一些情况下,所述一或多个处理器可表示借助于存储到非暂时性计算机可读存储媒体的指令配置的专用处理器。换句话说,编码实例的集合中的每一个中的技术的各个方面可提供其上存储有指令的非暂时性计算机可读存储媒体,所述指令在经执行时致使一或多个处理器执行音频编码装置20已经经配置以执行的方法。
在一或多个实例中,所描述的功能可用硬件、软件、固件或其任何组合实施。如果以软件实施,那么所述功能可以作为一或多个指令或代码在计算机可读媒体上存储或通过计算机可读媒体传输,并且由基于硬件的处理单元来执行。计算机可读媒体可包含计算机可读存储媒体,其对应于例如数据存储媒体等有形媒体。数据存储媒体可为可由一或多个计算机或一或多个处理器存取以检索用于实施本发明中描述的技术的指令、代码和/或数据结构的任何可用媒体。计算机程序产品可包含计算机可读媒体。
同样地,在上文所描述的各种例子中的每一个中,应理解,音频解码装置24可执行方法或另外包括用于执行音频解码装置24经配置以执行的方法中的每一步骤的装置。在一些情况下,所述装置可包括一或多个处理器。在一些情况下,所述一或多个处理器可表示借助于存储到非暂时性计算机可读存储媒体的指令配置的专用处理器。换句话说,编码实例的集合中的每一个中的技术的各个方面可提供其上存储有指令的非暂时性计算机可读存储媒体,所述指令在经执行时致使一或多个处理器执行音频解码装置24已经经配置以执行的方法。
借助于实例而非限制,此类计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁性存储装置、快闪存储器或可以用来存储呈指令或数据结构形式的期望程序代码并且可由计算机存取的任何其它媒体。然而,应理解,所述计算机可读存储媒体和数据存储媒体并不包含连接、载波、信号或其它暂时性媒体,而是实际上针对非暂时性的有形存储媒体。如本文中所使用,磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘和蓝光光盘,其中磁盘通常以磁性方式再现数据,而光盘利用激光以光学方式再现数据。以上各项的组合也应包含在计算机可读媒体的范畴内。
可由一或多个处理器(例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成或离散逻辑电路)执行指令。因此,如本文中所使用的术语“处理器”可指前述结构或适合于实施本文中描述的技术的任一其它结构中的任一个。另外,在一些方面中,本文中所描述的功能性可以在经配置以用于编码和解码的专用硬件和/或软件模块内提供,或者并入在组合编解码器中。而且,所述技术可完全实施于一或多个电路或逻辑元件中。
本发明的技术可在广泛多种装置或设备中实施,包含无线手持机、集成电路(IC)或一组IC(例如,芯片组)。本发明中描述各种组件、模块或单元是为了强调经配置以执行所揭示的技术的装置的功能方面,但未必需要由不同硬件单元实现。实际上,如上文所描述,各种单元可以结合合适的软件和/或固件而组合在编码解码器硬件单元中,或者通过互操作硬件单元的集合来提供,所述硬件单元包含如上文所描述的一或多个处理器。
此外,如本文所使用,“A和/或B”表示“A或B”,或“A和B”两者。
已经描述了所述技术的各个方面。所述技术的这些和其它方面在所附权利要求书的范畴内。
Claims (30)
1.一种经配置以对高阶立体混响音频数据进行解码的装置,所述装置包括:
经配置以存储音频声道的存储器,所述音频声道提供表示声场的环境分量的至少一部分的经归一化的环境高阶立体混响系数;以及
一或多个处理器,所述处理器经配置以相对于所述音频声道执行反归一化。
2.根据权利要求1所述的装置,其中所述一或多个处理器经配置以相对于所述音频声道执行反三维归一化,所述音频声道提供所述经归一化的环境高阶立体混响系数。
3.根据权利要求1所述的装置,其中所述一或多个处理器经配置以相对于所述音频声道执行反半三维归一化,所述音频声道提供所述经归一化的环境高阶立体混响系数。
4.根据权利要求1所述的装置,其中所述经归一化的环境高阶立体混响系数与具有大于零的阶数的球面基函数相关联。
5.根据权利要求1所述的装置,其中所述经归一化的环境高阶立体混响系数包含经归一化的环境高阶立体混响系数,在多个不同音频声道中除了指定多个环境高阶立体混响系数之外还指定所述经归一化的环境高阶立体混响系数,并且所述经归一化的环境高阶立体混响系数用于在表示所述声场的所述环境分量的过程中扩增所述多个环境高阶立体混响系数。
6.根据权利要求1所述的装置,其中所述一或多个处理器经配置以将反归一化因数应用到所述经归一化的环境高阶立体混响系数。
7.根据权利要求1所述的装置,其中所述一或多个处理器经配置以确定随与所述经归一化的环境高阶立体混响系数相关联的球面基函数的至少一个阶数而变的反归一化因数,并且将所述反归一化因数应用到所述经归一化的环境高阶立体混响系数。
8.根据权利要求1所述的装置,其中所述经归一化的环境高阶立体混响系数通过表示所述声场的多个高阶立体混响系数的线性分解进行识别。
9.根据权利要求1所述的装置,其中所述经归一化的环境高阶立体混响系数符合中间压缩格式。
10.根据权利要求9所述的装置,其中所述中间压缩格式包括供广播网络使用的夹层压缩格式。
11.一种对高阶立体混响音频数据进行解码的方法,所述方法包括:
相对于音频声道执行反归一化,所述音频声道提供经归一化的环境高阶立体混响系数,所述环境高阶立体混响音频系数表示声场的环境分量的至少一部分。
12.根据权利要求11所述的方法,其中执行所述反归一化包括在将反增益控制应用到所述音频声道之后,相对于所述经归一化的环境高阶立体混响系数执行所述反归一化。
13.根据权利要求11所述的方法,其中执行所述反归一化包括相对于所述经归一化的环境高阶立体混响系数执行所述反归一化,以便减少反增益控制到所述音频声道的应用。
14.根据权利要求11所述的方法,其中执行所述反归一化包括相对于所述经归一化的环境高阶立体混响系数执行所述反归一化,以便避免反增益控制到所述音频声道的应用。
15.根据权利要求11所述的方法,其中执行所述反归一化包括相对于所述经归一化的环境高阶立体混响系数执行所述反归一化,而不是将反增益控制应用到所述音频声道。
16.根据权利要求11所述的方法,进一步包括确定所述音频声道从提供描述所述声场的主导分量的主导音频对象转变到提供所述经归一化的环境高阶立体混响系数。
17.根据权利要求11所述的方法,进一步包括确定所述音频声道从提供描述所述声场的主导分量的主导音频对象转变到提供所述经归一化的环境高阶立体混响系数,
其中执行所述反归一化包括仅当所述音频声道提供所述经归一化的环境高阶立体混响系数时,才相对于所述音频声道执行所述反归一化。
18.根据权利要求11所述的方法,进一步包括获得语法元素,所述语法元素指示所述音频声道从提供描述所述声场的主导分量的主导音频对象转变到提供所述经归一化的环境高阶立体混响系数,
其中执行所述反归一化包括仅当所述语法元素指示所述音频声道提供所述经归一化的环境高阶立体混响系数时,才相对于所述音频声道执行所述反归一化。
19.一种经配置以对高阶立体混响音频数据进行编码的装置,所述装置包括:
经配置以存储音频声道的存储器,所述音频声道提供表示声场的环境分量的至少一部分的环境高阶立体混响系数;以及
一或多个处理器,所述处理器经配置以相对于所述音频声道执行归一化。
20.根据权利要求19所述的装置,其中所述一或多个处理器经配置以相对于所述音频声道执行三维归一化,所述音频声道提供所述环境高阶立体混响系数。
21.根据权利要求19所述的装置,其中所述一或多个处理器经配置以相对于所述音频声道执行半三维归一化,所述音频声道提供所述环境高阶立体混响系数。
22.根据权利要求19所述的装置,其中所述环境高阶立体混响系数与具有大于零的阶数的球面基函数相关联。
23.根据权利要求19所述的装置,其中所述一或多个处理器经配置以确定随与所述环境高阶立体混响系数相关联的球面基函数的至少一个阶数而变的归一化因数,并且将所述归一化因数应用到所述环境高阶立体混响系数。
24.根据权利要求19所述的装置,进一步包括产生包含所述经归一化的环境高阶立体混响系数的位流以使得所述位流符合中间压缩格式。
25.根据权利要求24所述的装置,其中所述中间压缩格式包括用于广播网络中的夹层压缩格式。
26.一种对高阶立体混响音频数据进行编码的方法,其包括:
相对于音频声道执行归一化,所述音频声道提供环境高阶立体混响系数,所述环境高阶立体混响音频系数表示声场的环境分量的至少一部分。
27.根据权利要求26所述的方法,其中执行所述归一化包括在将增益控制应用到所述音频声道之前,相对于所述环境高阶立体混响系数执行所述归一化。
28.根据权利要求26所述的方法,其中执行所述归一化包括相对于所述环境高阶立体混响系数执行所述归一化,以便减少增益控制到所述音频声道的应用。
29.根据权利要求26所述的方法,其中执行所述归一化包括相对于所述环境高阶立体混响系数执行所述归一化,而不是将增益控制应用到所述音频声道。
30.根据权利要求26所述的方法,进一步包括将所述音频声道从提供主导音频对象转变到提供所述环境高阶立体混响系数,
其中执行所述归一化包括仅当所述音频声道提供所述环境高阶立体混响系数时,才相对于所述音频声道执行所述归一化。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201462061068P | 2014-10-07 | 2014-10-07 | |
US62/061,068 | 2014-10-07 | ||
US14/876,583 US9875745B2 (en) | 2014-10-07 | 2015-10-06 | Normalization of ambient higher order ambisonic audio data |
US14/876,583 | 2015-10-06 | ||
PCT/US2015/054453 WO2016057646A1 (en) | 2014-10-07 | 2015-10-07 | Normalization of ambient higher order ambisonic audio data |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106796794A true CN106796794A (zh) | 2017-05-31 |
CN106796794B CN106796794B (zh) | 2020-11-24 |
Family
ID=55633217
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201580053981.9A Active CN106796794B (zh) | 2014-10-07 | 2015-10-07 | 环境高阶立体混响音频数据的归一化 |
Country Status (3)
Country | Link |
---|---|
US (1) | US9875745B2 (zh) |
CN (1) | CN106796794B (zh) |
WO (1) | WO2016057646A1 (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110832883A (zh) * | 2017-06-30 | 2020-02-21 | 高通股份有限公司 | 以计算机为中介的现实系统的混阶立体混响(moa)音频数据 |
CN111034225A (zh) * | 2017-08-17 | 2020-04-17 | 高迪奥实验室公司 | 使用立体混响信号的音频信号处理方法和装置 |
CN111149159A (zh) * | 2017-10-05 | 2020-05-12 | 高通股份有限公司 | 使用虚拟高阶立体混响系数的空间关系译码 |
CN111492427A (zh) * | 2017-12-21 | 2020-08-04 | 高通股份有限公司 | 高阶立体混响音频数据的优先级信息 |
CN114073097A (zh) * | 2019-07-17 | 2022-02-18 | 皇家Kpn公司 | 通过边缘计算促进视频流式传输和处理 |
US12108097B2 (en) | 2019-09-03 | 2024-10-01 | Koninklijke Kpn N.V. | Combining video streams in composite video stream with metadata |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9847088B2 (en) | 2014-08-29 | 2017-12-19 | Qualcomm Incorporated | Intermediate compression for higher order ambisonic audio data |
US9961475B2 (en) | 2015-10-08 | 2018-05-01 | Qualcomm Incorporated | Conversion from object-based audio to HOA |
US9961467B2 (en) | 2015-10-08 | 2018-05-01 | Qualcomm Incorporated | Conversion from channel-based audio to HOA |
US10249312B2 (en) | 2015-10-08 | 2019-04-02 | Qualcomm Incorporated | Quantization of spatial vectors |
KR101773929B1 (ko) * | 2016-02-29 | 2017-09-01 | (주)에프엑스기어 | 광 시야각 영상 처리 시스템, 광 시야각 영상의 전송 및 재생 방법, 및 이를 위한 컴퓨터 프로그램 |
US20180338212A1 (en) * | 2017-05-18 | 2018-11-22 | Qualcomm Incorporated | Layered intermediate compression for higher order ambisonic audio data |
US11206001B2 (en) | 2017-09-27 | 2021-12-21 | Dolby International Ab | Inference and correction of automatic gain compensation |
BR112020015835A2 (pt) | 2018-04-11 | 2020-12-15 | Dolby International Ab | Métodos, aparelho e sistemas para renderização de áudio 6dof e representações de dados e estruturas de fluxo de bits para renderização de áudio 6dof |
SG11202007627RA (en) | 2018-10-08 | 2020-09-29 | Dolby Laboratories Licensing Corp | Transforming audio signals captured in different formats into a reduced number of formats for simplifying encoding and decoding operations |
US11743670B2 (en) | 2020-12-18 | 2023-08-29 | Qualcomm Incorporated | Correlation-based rendering with multiple distributed streams accounting for an occlusion for six degree of freedom applications |
CN116033314B (zh) * | 2023-02-15 | 2023-05-30 | 南昌航天广信科技有限责任公司 | 一种音频自动增益补偿方法、系统、计算机及存储介质 |
CN117421718B (zh) * | 2023-12-18 | 2024-02-20 | 南京创能百泰自动化科技有限公司 | 一种数据平台信息安全监控管理系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050058304A1 (en) * | 2001-05-04 | 2005-03-17 | Frank Baumgarte | Cue-based audio coding/decoding |
CN101341793A (zh) * | 2005-09-02 | 2009-01-07 | Lg电子株式会社 | 从立体声信号产生多声道音频信号的方法 |
CN101884065A (zh) * | 2007-10-03 | 2010-11-10 | 创新科技有限公司 | 用于双耳再现和格式转换的空间音频分析和合成 |
EP2451196A1 (en) * | 2010-11-05 | 2012-05-09 | Thomson Licensing | Method and apparatus for generating and for decoding sound field data including ambisonics sound field data of an order higher than three |
EP2450880A1 (en) * | 2010-11-05 | 2012-05-09 | Thomson Licensing | Data structure for Higher Order Ambisonics audio data |
CN103282959A (zh) * | 2010-10-25 | 2013-09-04 | 沃伊斯亚吉公司 | 低位速率和短延迟地编码普通音频信号 |
US20130315402A1 (en) * | 2012-05-24 | 2013-11-28 | Qualcomm Incorporated | Three-dimensional sound compression and over-the-air transmission during a call |
US20140023196A1 (en) * | 2012-07-20 | 2014-01-23 | Qualcomm Incorporated | Scalable downmix design with feedback for object-based surround codec |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20100158098A1 (en) | 2008-12-22 | 2010-06-24 | Echostar Technologies L.L.C. | System and method for audio/video content transcoding |
EP2469741A1 (en) * | 2010-12-21 | 2012-06-27 | Thomson Licensing | Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field |
US9363522B2 (en) | 2011-04-28 | 2016-06-07 | Warner Bros. Entertainment, Inc. | Region-of-interest encoding enhancements for variable-bitrate mezzanine compression |
EP2946468B1 (en) * | 2013-01-16 | 2016-12-21 | Thomson Licensing | Method for measuring hoa loudness level and device for measuring hoa loudness level |
US9883310B2 (en) * | 2013-02-08 | 2018-01-30 | Qualcomm Incorporated | Obtaining symmetry information for higher order ambisonic audio renderers |
US20140355769A1 (en) | 2013-05-29 | 2014-12-04 | Qualcomm Incorporated | Energy preservation for decomposed representations of a sound field |
WO2014195190A1 (en) * | 2013-06-05 | 2014-12-11 | Thomson Licensing | Method for encoding audio signals, apparatus for encoding audio signals, method for decoding audio signals and apparatus for decoding audio signals |
EP2824661A1 (en) * | 2013-07-11 | 2015-01-14 | Thomson Licensing | Method and Apparatus for generating from a coefficient domain representation of HOA signals a mixed spatial/coefficient domain representation of said HOA signals |
US9922656B2 (en) | 2014-01-30 | 2018-03-20 | Qualcomm Incorporated | Transitioning of ambient higher-order ambisonic coefficients |
US9847088B2 (en) | 2014-08-29 | 2017-12-19 | Qualcomm Incorporated | Intermediate compression for higher order ambisonic audio data |
-
2015
- 2015-10-06 US US14/876,583 patent/US9875745B2/en active Active
- 2015-10-07 WO PCT/US2015/054453 patent/WO2016057646A1/en active Application Filing
- 2015-10-07 CN CN201580053981.9A patent/CN106796794B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050058304A1 (en) * | 2001-05-04 | 2005-03-17 | Frank Baumgarte | Cue-based audio coding/decoding |
CN101341793A (zh) * | 2005-09-02 | 2009-01-07 | Lg电子株式会社 | 从立体声信号产生多声道音频信号的方法 |
CN101884065A (zh) * | 2007-10-03 | 2010-11-10 | 创新科技有限公司 | 用于双耳再现和格式转换的空间音频分析和合成 |
CN103282959A (zh) * | 2010-10-25 | 2013-09-04 | 沃伊斯亚吉公司 | 低位速率和短延迟地编码普通音频信号 |
EP2451196A1 (en) * | 2010-11-05 | 2012-05-09 | Thomson Licensing | Method and apparatus for generating and for decoding sound field data including ambisonics sound field data of an order higher than three |
EP2450880A1 (en) * | 2010-11-05 | 2012-05-09 | Thomson Licensing | Data structure for Higher Order Ambisonics audio data |
CN103250207A (zh) * | 2010-11-05 | 2013-08-14 | 汤姆逊许可公司 | 高阶高保真度立体声响复制音频数据的数据结构 |
US20130216070A1 (en) * | 2010-11-05 | 2013-08-22 | Florian Keiler | Data structure for higher order ambisonics audio data |
US20130315402A1 (en) * | 2012-05-24 | 2013-11-28 | Qualcomm Incorporated | Three-dimensional sound compression and over-the-air transmission during a call |
US20140023196A1 (en) * | 2012-07-20 | 2014-01-23 | Qualcomm Incorporated | Scalable downmix design with feedback for object-based surround codec |
Non-Patent Citations (5)
Title |
---|
ALEXANDER KRUEGER ET AL.: "Restriction of the Dynamic Range of HOA Coefficients in the HOA Input Format", 《MPEG2014》 * |
JOHANNES BOEHM ET AL.: "Proposed changes to the bitstream of RM0-HOA for integration of Qualcomm CE", 《MPEG2014》 * |
JOHANNES BOEHM ET AL.: "Technical Description of the Technicolor Submission for the phase 2 CfP for 3D Audio", 《MPEG2014》 * |
JÖRN NETTINGSMEIER ET AL.: "Preliminary Studies on Large-Scale Higher-Order Ambisonic Sound Reinforcement Systems", 《2011 AMBISONICS SYMPOSIUM》 * |
谢昌鹏 等: "Schroeder混响模型的改进与数字混响器软件设计", 《广西科学院学报》 * |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110832883A (zh) * | 2017-06-30 | 2020-02-21 | 高通股份有限公司 | 以计算机为中介的现实系统的混阶立体混响(moa)音频数据 |
CN110832883B (zh) * | 2017-06-30 | 2021-03-16 | 高通股份有限公司 | 以计算机为中介的现实系统的混阶立体混响(moa)音频数据 |
CN110832883B9 (zh) * | 2017-06-30 | 2021-04-09 | 高通股份有限公司 | 以计算机为中介的现实系统的混阶立体混响(moa)音频数据 |
CN111034225A (zh) * | 2017-08-17 | 2020-04-17 | 高迪奥实验室公司 | 使用立体混响信号的音频信号处理方法和装置 |
CN111034225B (zh) * | 2017-08-17 | 2021-09-24 | 高迪奥实验室公司 | 使用立体混响信号的音频信号处理方法和装置 |
CN111149159A (zh) * | 2017-10-05 | 2020-05-12 | 高通股份有限公司 | 使用虚拟高阶立体混响系数的空间关系译码 |
CN111492427A (zh) * | 2017-12-21 | 2020-08-04 | 高通股份有限公司 | 高阶立体混响音频数据的优先级信息 |
CN111492427B (zh) * | 2017-12-21 | 2021-05-25 | 高通股份有限公司 | 高阶立体混响音频数据的优先级信息 |
CN114073097A (zh) * | 2019-07-17 | 2022-02-18 | 皇家Kpn公司 | 通过边缘计算促进视频流式传输和处理 |
US12096090B2 (en) | 2019-07-17 | 2024-09-17 | Koninklijke Kpn N.V. | Facilitating video streaming and processing by edge computing |
US12108097B2 (en) | 2019-09-03 | 2024-10-01 | Koninklijke Kpn N.V. | Combining video streams in composite video stream with metadata |
Also Published As
Publication number | Publication date |
---|---|
US20160099001A1 (en) | 2016-04-07 |
CN106796794B (zh) | 2020-11-24 |
WO2016057646A1 (en) | 2016-04-14 |
US9875745B2 (en) | 2018-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106796794A (zh) | 环境高阶立体混响音频数据的归一化 | |
CN106415714B (zh) | 译码环境高阶立体混响系数的独立帧 | |
CN105325015B (zh) | 经旋转高阶立体混响的双耳化 | |
CN106104680B (zh) | 将音频信道插入到声场的描述中 | |
CN106463121B (zh) | 较高阶立体混响信号压缩 | |
CN106575506A (zh) | 高阶立体混响音频数据的中间压缩 | |
EP3729425B1 (en) | Priority information for higher order ambisonic audio data | |
CN106471577B (zh) | 在高阶立体混响系数中的标量与向量之间进行确定 | |
CN106663433A (zh) | 减少高阶立体混响(hoa)背景信道之间的相关性 | |
CN106463127A (zh) | 译码从高阶立体混响音频信号分解的向量 | |
CN105940447A (zh) | 环境高阶立体混响系数的转变 | |
JP6549225B2 (ja) | 高次アンビソニックオーディオデータのスケーラブルコーディングのためのチャネルのシグナリング | |
CN106471576B (zh) | 高阶立体混响系数的闭环量化 | |
CN106463129A (zh) | 选择码簿以用于译码从高阶立体混响音频信号分解的向量 | |
CN105264598A (zh) | 声场的经分解表示中的误差的补偿 | |
KR20170067764A (ko) | 고차 앰비소닉 오디오 데이터의 스케일러블 코딩을 위한 시그널링 계층들 | |
CN106415712B (zh) | 用于渲染高阶立体混响系数的装置和方法 | |
CN106471578A (zh) | 较高阶立体混响信号之间的交叉淡化 | |
EP3363213B1 (en) | Coding higher-order ambisonic coefficients during multiple transitions | |
CN110603585A (zh) | 用于高阶立体环绕声的音频数据的分层中间压缩 | |
CN106465029B (zh) | 用于渲染高阶立体混响系数及产生位流的装置和方法 | |
CN112313744B (zh) | 使用不同的渲染器渲染音频数据的不同部分 | |
CN114008706A (zh) | 全景声音频数据的心理声学音频译码 | |
TW202029185A (zh) | 音訊資料之靈活渲染 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |