CN103250207A - 高阶高保真度立体声响复制音频数据的数据结构 - Google Patents

高阶高保真度立体声响复制音频数据的数据结构 Download PDF

Info

Publication number
CN103250207A
CN103250207A CN2011800531537A CN201180053153A CN103250207A CN 103250207 A CN103250207 A CN 103250207A CN 2011800531537 A CN2011800531537 A CN 2011800531537A CN 201180053153 A CN201180053153 A CN 201180053153A CN 103250207 A CN103250207 A CN 103250207A
Authority
CN
China
Prior art keywords
hoa
ambisonics
track
coefficients
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2011800531537A
Other languages
English (en)
Other versions
CN103250207B (zh
Inventor
F.基勒
S.科登
J.贝姆
H.克罗普
J-M.巴特克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Original Assignee
汤姆逊许可公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 汤姆逊许可公司 filed Critical 汤姆逊许可公司
Publication of CN103250207A publication Critical patent/CN103250207A/zh
Application granted granted Critical
Publication of CN103250207B publication Critical patent/CN103250207B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/02Spatial or constructional arrangements of loudspeakers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

本发明涉及一种高阶高保真度立体声响复制HOA音频数据的数据结构,该数据结构包括用于一个或多个不同HOA音频数据流描述的2D或3D空间音频内容。HOA音频数据具有大于'3'的阶,该数据结构另外还包括单音频信号源数据和/或来自固定或时变空间位置的麦克风阵列音频数据。

Description

高阶高保真度立体声响复制音频数据的数据结构
技术领域
本发明涉及一种高阶高保真度立体声响复制(Ambisonics)音频数据的数据结构,其包括二维和/或三维空间音频内容数据,并且也适用于具有大于'3'阶的高阶高保真度立体声响复制(Higher Order Ambisonics(HOA))音频数据。 
背景技术
3D音频可以通过被称为如下所述的高阶高保真度立体声响复制(HOA)的技术使用声场描述来实现。存储HOA数据需要一些协定和约定,其约定特定解码器必须如何使用该数据才能够创建用于在给定再现扬声器设置上进行重播的扬声器信号。没有现有的存储格式定义HOA的所有这些约定。例如在2009年3月30日在Martin Leese"File Format for B-Format", http://www.ambisonia.com/Members/etienne/Members/mleese/file-format-for-b-format中描述的(基于可扩展‘Riff/wav’结构)的B-格式及其*.amb文件格式实现是当今可用的最复杂的格式。 
在2010年7月16日,在高保真度立体声响复制交换站点(Ambisonics Xchange Site)上在"Existing formats", http://ambisonics.iem.at/xchange/format/existing-formats中公开了现有文件格式的概述,并且在该站点上在"A first proposal to specify,define and determine the parameters for an Ambisonics exchange format", http://ambisonics.iem.at/xchange/format/a-first-proposal-for-the-format中还公开了对于高保真度立体声响复制交换格式的建议。 
发明内容
关于HOA信号,对于3D,可以全部记录(编码)以相同频率从不同声 源采集M=(N十l)2个(对于2D是(2N+l)个)不同的音频对象,并且将其再现为不同的声音对象,假设他们是均匀空间分布的。这意味着,1阶高保真度立体声响复制信号可以携带四个3D或三个2D音频对象,并且这些对象需要围绕着3D的球面或者围绕2D的圆均匀分隔开。在记录中空间重叠和多于M个信号将导致模糊,仅仅可以将最大声信号再现为相干对象,而其它弥漫性信号取决于空间上的重叠、频率和响度(loudness)相似度将在一定程度上使相干信号退化。 
关于电影院中的声学情况,对于前屏幕区域,要求高空间声音定位精度,以便配合视觉场景。环绕声对象的感知较不重要(混响(reverb)、与视觉场景无关的声音对象)。这里,扬声器的密度与前面区域相比可以更小。 
(与前面区域相关的)HOA数据的HOA阶需要大,以便使得能够选择声音全息(holophonic)重播。典型的阶是N=10。这要求(N+1)2=121个HOA系数。理论上,如果这些音频对象将均匀地空间分布,我们还可以编码M=121个音频对象。但是,在我们的情形下,它们被限制到前面区域(因为我们仅仅在这里需要这样高阶)。实际上,在没有模糊的情况下,我们可能仅仅编码大约M=60个音频对象(前面区域至多是球体方向的一半,因此是M/2)。 
关于上述B-格式,其使能了仅仅高达3高保真度立体声响复制阶的描述,而文件大小被限制为4GB。其它空间信息丢失,诸如对现代解码器重要的波类型或参考解码半径。不可能对不同的高保真度立体声响复制分量(声道)使用不同的采样格式(字宽度)和带宽。也没有对于存储用于高保真度立体声响复制的辅助信息和元数据的标准化。 
在现有技术中,使用麦克风阵列记录高保真度立体声响复制信号被限制为一阶。如果将开发HOA麦克风的试验原型,这将在将来改变。对于3D内容的创建,可以在一阶高保真度立体声响复制下使用麦克风阵列来记录环境声场的描述,由此方向性源可以被使用特写单声道(closed-up mono)麦克风或者高方向性麦克风与方向性信息一起(即该源的位置)来捕捉。然后,方向性信号可以被编码为HOA描述,或者这可以由复杂解码器执行。无论如后,需要新的高保真度立体声响复制文件格式能够一次存储多于一个声场描述,但是没有现有格式能够封装多于一个高保真度立体声响复制描述。 
本发明要解决的问题是提供一种高保真度立体声响复制文件格式,其能 够一次存储两个或多个声场描述,其中高保真度立体声响复制阶可以大于3。通过权利要求1中公开的数据结构以及权利要求12中公开的方法来解决该问题。 
为了创建逼真的3D音频,下一代高保真度立体声响复制解码器将要求处理大量协定和约定以及存储数据,或者可以相干地存储所有相关参数和数据元素的单文件格式。 
空间声音内容的发明性文件格式可以存储一个或多个HOA信号、以及/或者方向性的单声道信号和方向性信息,其中高保真度立体声响复制阶大于3以及文件大于4GB是可行的。此外,发明性文件格式提供了现有格式没有提供的附加元素: 
1)在该文件格式中存储了下一代HOA解码器所需的重要信息: 
-高保真度立体声响复制波信息(平面、球面、混合类型)、感兴趣区域(收听区域外部的源或收听区域内的源)、以及(用于球面波解码的)参考半径 
-可以存储相关的方向性的单声道信号。可以使用角度和距离信息、或者使用高保真度立体声响复制系数的编码矢量来描述这些方向性信号的位置信息。 
2)在辅助信息中包含定义高保真度立体声响复制数据的所有参数,以便确保记录清楚: 
-高保真度立体声响复制缩放和规范化(SN3D、N3D、福尔斯马勒姆(Furse Malham)、B格式、…、用户定义)、混合阶信息。 
3)扩展高保真度立体声响复制数据的存储格式以允许灵活且经济地存储数据: 
-发明性的格式允许利用不同的PCM-字大小的分辨率并且使用限制的带宽来存储与高保真度立体声响复制阶(高保真度立体声响复制声道)相关的数据。 
4)元字段允许存储关于文件的附属信息(如用于麦克风信号的记录信息): 
-记录参考坐标系、麦克风、源和虚拟收听者位置、麦克风方向性特性、房间和源信息。 
用于2D和3D音频内容的该文件格式覆盖高阶高保真度立体声响复制描 述(HOA)以及具有固定或时变位置的单源的存储,并且包含使得下一代音频解码器能够提供逼真的3D音频的所有信息。 
使用适当设置,发明性的文件格式还适用于音频内容的流传输。因此,可以在文件创建者选择的时间实例处发送依赖于内容的辅助信息(头部数据)。发明性文件格式也用作场景描述,其中音频场景的音轨可以在任何时间处开始和结束。 
原理上,发明性的数据结构适用于高阶高保真度立体声响复制HOA音频数据,其数据结构包括用于一个或多个不同HOA音频数据流描述的2D和/或3D空间音频内容数据,并且其数据结构也适用于具有大于'3'阶的HOA音频数据,另外其数据结构可以包括单音频信号源数据和/或来自固定或时变空间位置的麦克风阵列音频数据。 
原理上,发明性的方法适用于音频呈现,其中接收包含至少两个不同HOA音频数据信号的HOA音频数据流,并且在具有位于呈现点的不同区域处的密集扬声器布置的情况下至少将其中的第一个用于呈现,并且在具有环绕所述呈现点的低密集扬声器布置的情况下至少将其中的至少第二个和不同的一个用于呈现。 
在各从属权利要求中公开了本发明的其它有利实施例。 
附图说明
参考附图描述本发明的实例实施例,在附图中: 
图1是在前面区域具有密集扬声器布置而围绕收听区域具有稀疏扬声器密度的电影院中的声音全息再现; 
图2是复杂的解码系统; 
图3是从麦克风阵列记录、单源记录、简单和复杂声场生成的HOA内容创建; 
图4是下一代浸入式内容创建; 
图5是简单环绕扬声器设置的HOA信号的2D解码、以及前面阶段的声音全息扬声器设置以及更稀疏3D环绕扬声器设置的HOA信号的3D解码; 
图6是内部域问题,其中源在感兴趣区域/有效区域外部; 
图7是球面坐标的定义; 
图8是外部域问题,其中源在感兴趣区域/有效区域内部; 
图9是简单示例的HOA文件格式; 
图10是包含多帧和多音轨的HOA文件的示例; 
图11是具有多个元数据块(MetaDataChunk)的HOA文件; 
图12是音轨区域编码处理; 
图13是音轨区域解码处理; 
图14是使用MDCT处理降低带宽的实现; 
图15是使用MDCT处理重构带宽的实现。 
具体实施方式
随着3D视频的日益蔓延,浸入式的音频技术正在成为用以区分的有趣特征。高阶高保真度立体声响复制(HOA)是这些能够提供以增量方式将3D音频引入到电影院中的方法的技术之一。使用HOA声音音轨和HOA解码器,电影院可以以现有的音频环绕扬声器设置开始并且逐步投入更多扬声器,逐步提高浸入式体验。 
图1a示出了在前面区域具有密集扬声器布置11而围绕收听或座位区域10具有稀疏扬声器密度12的电影院中的声音全息再现,提供了精确再现与视觉动作相关的声音以及足够精确再现所再现的环境声音的方法。 
图1b示出了所再现的前面声波到达的感知方向,其中平面波到达的方向匹配不同的屏幕位置,即平面波适用于再现深度。 
图1c示出了所再现的球面波到达的感知方向,其导致所感知的声音方向和围绕屏幕的3D视觉动作的更高一致度。 
由于在电影院中主视觉动作在收听者的前面区域中发生的事实,引起了对两种不同的HOA流的需要。而且,对于前面声源的检测声音方向的感知精度比对于环绕源的检测声音方向的感知精度要高。因此,前面空间声音再现的精度需要比用于所再现的环境声音的空间精度高。对于前面屏幕区域要求用于声音再现的声音全息部件、大量扬声器、专用解码器和相关扬声器驱动器,而对于环境声音再现需要更低成本的技术(环绕收听区域的较低密度的扬声器、以及更不完美的解码技术)。 
由于内容创建和声音再现技术,有利的是为环境声音提供一个HOA再现并且为前景动作声音提供一个HOA再现,参见图4。使用简单设置以及简单的稀疏再现声音装备的电影院可以在解码之前混合两个流(参见图5上部 分)。 
装备有完全浸入式再现部件的更复杂的电影院可以使用两个解码器,一个用于解码环境声音,而另一个专用解码器用于前景主动作的虚拟声源的高精度定位,如在图2的复杂解码系统以及图5下部分中示出的。 
具体HOA文件包含至少两个音轨,其呈现用于环境声音
Figure BDA00003139292500061
以及用于与虚拟主动作相关的前面声音
Figure BDA00003139292500062
的HOA声场。可以提供用于方向性效果的可选流。两个对应的解码器系统与声像调节器(panner)一起提供用于密集的前面3D声音全息扬声器系统21和较低密集的(即稀疏的)3D环绕系统22的信号。 
音轨1流的HOA数据信号呈现环境声音,并且在HOA转换器231中被转换以输入到专用于环境再现的解码器1(232)。对于音轨2数据流,HOA信号数据(与虚拟场景相关的前面声音)在HOA转换器241中被转换以输入到距离校正(方程(26))滤波器242,以便以专用解码器2(243)围绕屏幕区域更好地放置球面声音源。方向性的数据流被直接声像调节(pan)到L扬声器。三个扬声器信号被PCM混合以便利用3D扬声器系统进行联合再现。 
看上去没有已知的文件格式专用于这样的情形。已知的3D声场记录使用具有相关声音音轨的完整场景描述,或者在存储以用于稍后再现时使用单声音场描述。第一类的示例是WFS(波场合成)格式和各种容器格式。第二类的示例是像B或AMB格式的高保真度立体声响复制格式,参见上述文章“File Format for B-Format”。后者限于高保真度立体声响复制阶为三、固定传输格式、固定解码器型号和单声音场。 
HOA内容创建和再现 
在图3中描绘了生成HOA声音唱描述的处理。 
在图3a中,通过使用麦克风阵列来创建声音场的自然记录。采集信号(capsule signal)被矩阵化和均衡化,以便形成HOA信号。高阶信号(高保真度立体声响复制阶>1)通常被带通滤波以降低由于采集距离效应引起的伪像,被低通滤波以降低高频处的空间混声(spatial alias),被高通滤波以在增加高保真度立体声响复制阶nhn(krd-mic)的情况下降低额外的低频电平,参见方程(34)。可选地,可以应用距离编码滤波,参见方程(25)和(27)。在存储之前,HOA格式信息被添加到音轨头部。 
通常使用多个方向性的单源流来创建人工声音场再现。如图3b中所示,可以将单源信号捕获为PCM记录。这可以通过特写(close-up)麦克风进行或者通过使用具有高方向度的麦克风进行。另外,记录声音源相对于虚拟最佳收听位置的方向性参数(rss,φs)(HOA坐标系,或者用于稍后映射的任何参考点)。当呈现电影场景时,还可以通过人工地放置声音来创建距离信息。如图3c中所示,然后使用方向性信息(ΘS,φs)来创建编码矢量ψ,将方向性的源信号编码为高保真度立体声响复制信号,参见方程(18)。这等效于平面波再现。拖尾滤波处理可以使用距离信息来将球面源特征印记到高保真度立体声响复制信号(方程(19))中,或者应用距离编码滤波(方程(25)(27))。在存储之前,HOA格式信息被添加到音轨头部。 
如图3d中所描绘的,通过HOA混合高保真度立体声响复制信号,生成更复杂的波场描述。在存储之前,HOA格式信息被添加到音轨头部。 
在图4中描绘了用于3D电影院的内容生成的处理。利用高空间精度编码与视频动作相关的前面声音,并且将其与HOA信号(波场)
Figure BDA00003139292500071
混合并存储为音轨2。所包含的编码器以高空间精度和最佳匹配视频场景所需的特定波类型来进行编码。音轨1包含声场
Figure BDA00003139292500072
其与所编码的环境声音相关而不限制源方向。通常,环境声音的空间精度不需要与前面声音的空间精度那样高(因此,高保真度立体声响复制阶可以更小),并且波类型的建模将更不重要。环境声音场还可以包括前面声音信号的回响(reverberant)部分。两个音轨被多路复用以便存储和/或交换。 
可选地,可以将方向性的声音(例如,音轨3)多路复用到文件。这些声音可以是特殊效果的声音、对话或运动信息(像用于视觉障碍的叙事演讲)。 
图5示出了解码的原理。如上部分所描绘的,在简化的HOA解码之间,具有稀疏扬声器设置的电影院可以将来自音轨1和音轨2的两个HOA信号混合,并且可以截断音轨2的阶并且将两个音轨的维度降低为2D。在出现方向性的流的情况下,将其编码为2D HOA。然后,所有三个流被混合以形成单HOA表示,其然后被解码并再现。 
下部分对应于图2。装备有用于前面阶段的声音全息系统和稀疏的3D环绕系统的电影院将使用专用的复杂解码器,并且混合扬声器供给。对于音轨1数据流,表示环境声音的HOA数据被转换到专用于再现环境的解码器1。对于音轨2数据流,HOA(与视觉场景相关的前面声音)被转换并且被距离 校正(方程(26))以便用于更好地围绕屏幕区域放置球面声音源以及用于专用解码器2。方向性的数据流被直接声像调节到L扬声器。三个扬声器信号被PCM混合以便利用3D扬声器系统进行联合再现。 
使用高阶高保真度立体声响复制的声音场描述 
使用球面谐波(SH)的声音场描述 
当使用球面谐波/贝塞尔描述时,在方程(1)中提供了声波方程的解,参见M.A.Poletti,"Three-dimensional surround sound systems based on spherical harmonics",Journal of Audio Engineering Society,53(11),pp.1004–1025,2005年11月、以及Earl G.Williams,"Fourier Acoustics",Academic Press,1999年。 
声压是球面坐标r,Θ,Φ(对于其定义请参见图7)和空间频率的函数  k = ω c = 2 πf c .
该描述对于感兴趣区域或有效区域外部的音频声音源有效(内部域问题,如图6所示),并且假设正交规范化的球面谐波: 
p ( r , θ , φ , k ) = Σ n = 0 ∞ Σ m = - n n A n m ( k ) j n ( kr ) Y n m ( θ , φ ) - - - ( 1 )
Figure BDA00003139292500083
被称为高保真度立体声响复制系数,jn(kr)是第一类的球面贝塞尔函数,被称为球面谐波(SH),n是高保真度立体声响复制阶索引,m指示程度。 
由于贝塞尔函数仅仅对于小kr值(距原点的小距离或者低频率)具有显著值的特性,因此序列可以在某阶n处停止并且以足够精度限制于值N。当存储HOA值时,通常存储直至阶N的高保真度立体声响复制系数
Figure BDA00003139292500085
或一些导数(下面描述细节)。N被称为高保真度立体声响复制阶。 
N被称为高保真度立体声响复制阶,项“阶”通常也与贝塞尔jn(kr)和汉克尔hn(kr)函数中的n组合使用。 
对于r>rSource,在方程(2)中表达了用于外部情况的波方程的解,其中源位于感兴趣区域或有效区域内,如图8所描绘的。 
p ( r , θ , φ , k ) = Σ n = 0 ∞ Σ m = - n n B n m ( k ) h n ( 1 ) ( kr ) Y n m ( θ , φ ) - - - ( 2 )
Figure BDA00003139292500087
再次被称为高保真度立体声响复制系数,
Figure BDA00003139292500088
表示第一类和第n阶的球面汉克尔函数。方程假设正交规范化的SH。 
注释:通常,第一类的球面汉克尔函数
Figure BDA00003139292500089
被用来描述正频率的输出波 (与eikr相关),而第二类的球面汉克尔函数
Figure BDA00003139292500099
被用来描述输入波(与e-ikr相关),参见上述的“Fourier Acoustics”书。 
球面谐波 
球面谐波可以是复数值或实数值。HOA的通常情况使用实数值的球面谐波。使用实数和复数球面谐波的高保真度立体声响复制的统一描述可以在Mark Poletti,"Unified description of Ambisonics using real and complex spherical harmonics",Proceedings of the Ambisonics Symposium2009,Gras,奥地利,2009年6月中看到。 
存在将球面谐波规范化的不同方法(其与球面谐波是实数还是复数无关),参见以下关于(实数)球面谐波和规范化方案的网页: http://www.ipgp.fr/~wiecsor/SHTOOLS/www/conventions.htmlhttp://en.citisendium.org/wiki/Spherical_harmonics。 
规范化对应于
Figure BDA00003139292500092
Figure BDA00003139292500093
之间的正交关系。 
注释: 
∫ S 2 Y n m ( Ω ) Y n ' m ' ( Ω ) * dΩ = N n , m ( 2 n + 1 ) ( n - | m | ) ! 4 π ( n + | m | ) ! N n ' , m ' ( 2 n ' + 1 ) ( n ' - | m ' | ) ! 4 π ( n ' + | m ' | ) ! δ nn ' δ mm '
其中,S2是单位球面,对于a=a',Kroneker delta等于1,否则等于0。 
通过下式来描述复数球面谐波: 
Y n m ( Θ , φ ) = s m Θ n m ( θ ) e imφ = s m N n , m P n , | m | ( cos ( θ ) ) e imφ - - - ( 3 )
其中,像在上述“Fourier Acoustics”书中,对于正m,对于交替符号, 
i = - 1 s m = { ( - 1 ) m m > 0 1 else .
(注释:Sm是传统项,并且可以仅对于正SH省略)。Nn,m是规范化项,其采取正交规范化表达的形式(!表示阶乘)。 
N n , m = ( 2 n + 1 ) ( n - | m | ) ! 4 π ( n + | m | ) ! - - - ( 4 )
下表1示出了用于复数值球面谐波的一些常用规范化方案。Pn,|m|(x)是相关联的拉格朗日函数,其中,在符号后接着|m|,依据上面的文章“Unified description of Ambisonics using real and complex spherical harmonics”,其避免了被称为康登肖特利相位的相位项(-1)m,并且其有时被包括在其它符号内 的
Figure BDA00003139292500105
的表示中。可以使用方程将相关联的拉格朗日函数 
表达为: 
P n , | m | ( x ) = 1 2 n n ! ( 1 - x 2 ) | m | 2 d n + | m | dx n + | m | ( x 2 - 1 ) n - - - ( 5 )
Figure BDA00003139292500102
表1复数值的球面谐波的规范化因子 
在数值上,有利的是从递归关系以渐进方式推导Pn,|m|(X),参见William H.Press,Saul A.Teukolsky,William T.Vetterling,Brian P.Flannery,"Numerical Recipes in C",Cambridge University Press,1992。在表2中给出了相关联的上至n=4的拉格朗日函数: 
Figure BDA00003139292500103
表2-第一一些拉格朗日多项式 
P n , | m | ( cos θ ) , n = 0 · · · 4
通过组合与m的相反值对应的复数共轭(conjugate)来推导实数值SH(引入定义(6)中的项(-1)m来获得实数SH的无符号表达,其是高保真度立体声响复制中的常见情况): 
S n m ( &theta; , &phi; ) = { ( - 1 ) m 2 ( Y n m + Y n m * ) = &Theta; n m ( &theta; ) 2 cos ( m&phi; ) , m > 0 Y n 0 = &Theta; n 0 ( &theta; ) , m = 0 ( - 1 ) m i 2 ( Y n | m | - Y n | m | * ) = &Theta; n | m | ( &theta; ) 2 sin ( | m | &phi; ) , m < 0 - - - ( 6 )
Figure BDA00003139292500117
,并且仅仅保持方位项,方程(6)可以被重写为方程(7),以便突出与圆谐波的联系: 
S n m ( &theta; , &phi; ) = N ~ n , m P n , | m | ( cos ( &theta; ) ) &phi; m ( &phi; ) - - - ( 7 )
&phi; n = | m | m ( &phi; ) = { cos ( m&phi; ) , m > 0 1 m = 0 sin ( | m | &phi; ) m < 0 - - - ( 8 )
用于给定高保真度立体声响复制阶N的球面分量
Figure BDA00003139292500114
的总数量等于(N+1)2。在表3中给出了实数值球面谐波的常见规范化方案。 
Figure BDA00003139292500115
表3-3D实数SH规范化方案,对于m=0,δ0,m具有值1,否则具有值0 
圆谐波 
对于二维表示,仅仅需要谐波子集。SH程度可以仅仅取值m∈{-n,n}。由于表示倾角θ的分量变为过时的并且球面谐波可以由方程(8)中给出的圆谐波替代,用于给定N的分量的总数目降到2N+1。 
存在用于圆谐波的不同的规范化Nm方案,当将3D高保真度立体声响复制系数转换为2D系数时需要考虑这些方案。用于圆谐波的更一半的方程变为: 
Figure BDA00003139292500116
在表4中提供了一些用于圆谐波的常见规范化因子,其中通过水平项 φm(φ)之前的因子引入规范化项: 
表4-2D圆谐波规范化方案,对于m=0,δ0,m具有值1,否则具有值0 
不同规范化之间的转换是直接了当的。通常,规范化对描述压力(参见方程(1)(2))和所有导出的考虑具有影响。规范化的类型也影响高保真度立体声响复制系数。还存在可以应用于缩放这些系数的权重,例如当使用AMB-格式存储文件时应用于高保真度立体声响复制系数的福尔斯马勒姆(FuMa)权重。 
关于2D-3D变换,例如当利用用于2D扬声器设置的2D解码器解码高保真度立体声响复制表示(记录)时,CH(圆谐波)到SH(球面谐波)变换也可以应用于高保真度立体声响复制系数,反之亦然。在下面的上至高保真度立体声响复制阶4的方案中描绘了用于3D-2D变换的
Figure BDA00003139292500122
Figure BDA00003139292500123
之间的关系: 
Figure BDA00003139292500124
可以如下地针对
Figure BDA00003139292500125
的水平面导出2D到3D变换因子: 
Figure BDA00003139292500126
从3D到2D的变换使用
Figure BDA00003139292500127
结合下面的方程(28)(29)(30)给出细节。 
2D规范化到正交规范化的变换变为: 
&alpha; N 2 D ortho 3 D = ( 2 m + 1 ) ! 4 &pi;m ! 2 2 2 m - - - ( 11 )
高保真度立体声响复制系数 
高保真度立体声响复制系数具有声压的单位缩放: 
1 Pa = 1 N m 2 = 1 kgm s 2 m 2 .
高保真度立体声响复制系数形成高保真度立体声响复制信号,并且通常是离散时间的函数。表5示出了维度表示、高保真度立体声响复制阶N以及高保真度立体声响复制系数(声道)的数量之间的关系: 
Figure BDA00003139292500132
表5-高保真度立体声响复制系数的数量 
当处理离散时间表示时,通常以交织方式存储高保真度立体声响复制系数,像用于多声道记录的PCM声道表示(声道=样本v的高保真度立体声响复制系数
Figure BDA00003139292500133
),系数序列作为变换的问题。对于3D、N=2的示例为: 
A 0 0 ( v ) A 1 - 1 ( v ) A 1 0 ( v ) A 1 1 ( v ) A 2 - 2 ( v ) A 2 - 1 ( v ) A 2 0 ( v ) A 2 1 ( v ) A 2 2 ( v ) A 0 0 ( v + 1 ) . . . - - - ( 12 )
对于2D、N=2的示例为: 
A 0 0 ( v ) A 1 - 1 ( v ) A 1 1 ( v ) A 2 - 2 ( v ) A 2 2 ( v ) A 0 0 ( v + 1 ) A 1 - 1 ( v + 1 ) . . . - - - ( 13 )
Figure BDA00003139292500136
信号可以被看作高保真度立体声响复制记录的单声道表示,没有方向性信息但是作为记录的总音色印象(timbre impression)的表示。 
高保真度立体声响复制系数的规范化通常是根据SH的规范化(如下面将变得明显的,参见方程(15))来执行的,这在解码外部记录时必须考虑(
Figure BDA00003139292500137
基于具有规范化因子Nn,m的SH,
Figure BDA00003139292500138
基于具有规范化因子的SH): 
对于SN3D到N3D情况,其变为
B格式和AMB格式使用应用于系数的另外权重(Gerson、福尔斯马勒姆(FuMa)、MaxN权重)。参考规范化然后通常是SN3D,参见Daniel, "Représentation de champs acoustiques,applicationàla transmission etàla reproduction de scènes sonores complexes dans un contexte multimédia",博士论文(PhD thesis),UniversitéParis6,2001,and Dave Malham,"3-D acoustic space and its simulation using ambisonics", http://www.dxarts.washington.edu/courses/567/current/malham_3d.pdf。 
下面的用于理想平面波或球面波的波方程的两种特定规范化示出了关于高保真度立体声响复制系数的更多细节: 
平面波 
求解平面波
Figure BDA00003139292500141
的波方程变得独立于k和rs;θs,φs描述了源角度,
Figure BDA000031392925001412
表示共轭复数: 
A n plane m ( &theta; s , &phi; s ) = 4 &pi; i n P S 0 Y n m ( &theta; s , &phi; s ) * = 4 &pi; i n d n m ( &theta; s , &phi; s ) - - - ( 15 )
这里,
Figure BDA000031392925001413
用于描述在描述坐标系的原点处测量的源的缩放信号压力,其可以是时间的函数,并且对于正交规范化的球面谐波变为
Figure BDA00003139292500143
通常,高保真度立体声响复制假设平面波,并且传送或存储高保真度立体声响复制系数 d n m ( &theta; s , &phi; s ) = A n m ( &theta; s , &phi; s ) 4 &pi; i n = P S 0 Y n m ( &theta; s , &phi; s ) * - - - ( 16 ) 该假设提供了叠加不同方向性信号的能力以及简单的解码器设计。这对于以一阶B格式(N=1)记录的声音场TM(SoundfieldTM)麦克风的信号也成立,当与均衡滤波器的相位演进相比时这变得明显(对于理论上的演进,参见上述文章"Unified description of Ambisonics using real and complex spherical harmonics",chapter2.1,而对于专利保护的演进,参见US4042779)。方程(1)变为: 
p ( r , &theta; , &phi; , k ) = &Sigma; n = 0 &infin; &Sigma; m = - n n j n ( kr ) Y n m ( &theta; , &phi; ) 4 &pi; i n P S 0 Y n m ( &theta; s , &phi; s ) * - - - ( 17 )
可以通过后处理麦克风阵列信号导出系数
Figure BDA00003139292500146
或者可以使用单声道信号 
Figure BDA000031392925001414
合成地创建系数
Figure BDA00003139292500147
,在该情况下方向性的球面谐波
Figure BDA00003139292500148
可以同样是依赖于时间的(移动源)。方程(17)对于每个时间采样实例v都有效。对于所选择的高保真度立体声响复制阶N,可以以矢量/矩阵形式(对于每个采样实例v)重写合成编码的处理。 
d = &Psi; P S 0 - - - ( 18 )
其中,d是高保真度立体声响复制信号,保持
Figure BDA000031392925001410
(对于N=2的示例,  d ( t ) = [ d 0 0 , d 1 - 1 , d 1 0 , d 1 1 , d 2 - 2 , d 2 - 1 , d 2 0 , d 2 1 , d 2 2 ] &prime; ),size(d)=(N+1)2x1=Ox1, 
Figure BDA00003139292500159
是参考原点处的源信号压力,ψ是编码矢量,保持
Figure BDA00003139292500151
,sise(ψ)=Ox1。可以从用于特定源方向(等于平面波的方向)的球面谐波导出编码矢量Os,φs。 
球面波 
对于r<rs,描述由点源(近场源)生成的进入球面波的高保真度立体声响复制系数高保真度立体声响复制系数为: 
A n sperical m ( k , &theta; s , &phi; s , r s ) = 4 &pi; h n ( 2 ) ( k r s ) h 0 ( 2 ) ( k r s ) P S 0 Y n m ( &theta; s , &phi; s ) * - - - ( 19 )
该方程是与下面的方程(31)到(36)结合地导出的。
Figure BDA000031392925001510
描述了原点处的声压,并且再次变得与
Figure BDA000031392925001511
一致,
Figure BDA00003139292500153
是第二类的阶n的球面汉克尔函数,
Figure BDA00003139292500154
是第二类的零阶球面汉克尔函数。 
方程(19)与
Figure BDA000031392925001512
 Daniel,"Spatial sound encoding including near field effect:Introducing distance coding filters and a viable,new ambisonic format",AES23rd International Conference,Denmark,May2003(AES第23次国际会议,丹麦,2003年5月)中的教导相似。这里,
Figure BDA00003139292500155
顺便提及,考虑方程(11),
Figure BDA00003139292500156
这可以在M.A.Gerson,"General metatheory of auditory localisation",92th AES Convention,1992,Preprint3306中看到,其中Gerson描述了第一度信号(first-degree signal)的近似效果。 
对于更高的高保真度立体声响复制阶N而言,球面高保真度立体声响复制信号的合成创建更不常见,这是因为
Figure BDA00003139292500157
的频率响应对于低频而言难以在数值上处理。通过考虑如下所述的用于解码/再现的球面模型,可以克服这些数值问题。 
声音场再现 
平面波解码 
通常,高保真度立体声响复制假设通过在圆上或球面上均匀分布的L扬声器再现声音场。当假设扬声器被放置在距收听者位置足够远时,在中心(rs>λ)处平面波解码模型有效。L扬声器生成的声压由以下描述: 
p ( r , &theta; , &phi; , k ) = &Sigma; n = 0 &infin; &Sigma; m = - n n j n ( kr ) Y n m ( &theta; , &phi; ) 4 &pi; i n &Sigma; l = 1 L w l Y n m ( &theta; l , &phi; l ) * - - - ( 20 )
其中,wl是用于扬声器l的信号并且具有单位规模的声压1Pa。wl通常被称为扬声器l的驱动函数。 
期望方程(20)的声压与方程(17)描述的压力一致。这导致: 
&Sigma; l = 1 L w l Y n m ( &theta; l , &phi; l ) * = d n m ( &theta; s , &phi; s ) = A n m ( &theta; s , &phi; s ) 4 &pi; i n - - - ( 21 )
这可以以矩阵形式重写,已知为“重编码方程”(与方程(18)比较): 
d = &Psi;y - - - ( 22 )
其中d是高保真度立体声响复制信号,保持
Figure BDA00003139292500162
或者
Figure BDA00003139292500163
(对于N=2的示例, d ( t ) = [ d 0 0 , d 1 - 1 , d 1 0 , d 1 1 , d 2 - 2 , d 2 - 1 , d 2 0 , d 2 1 , d 2 2 ] &prime; ),size(d)=(N+1)2x1=Ox1,ψ是重编码矩阵,保持
Figure BDA00003139292500165
sise(ψ=Ox1,y是扬声器信号wl,sise(y(n),1)=L。 
可以使用若干已知方法(例如,模式匹配)来导出y,或者通过使特定扬声器声像调节函数最优化的方法来导出y。 
球面波模型的解码 
更一般的解码模型再次假设围绕原点均匀地分布扬声器,像球面波那样以距离rl辐射点。依据方程(1)通过一般描述来给出高保真度立体声响复制系数,并且根据方程(19)给出L扬声器生成的声压: 
A n m = &Sigma; l = 1 L 4 &pi; h n ( kr l ) h 0 ( kr l ) w l Y n m ( &theta; l , &phi; l ) * - - - ( 23 )
更复杂的解码器可以对高保真度立体声响复制系数
Figure BDA00003139292500168
进行滤波,以便提取 C n m = A n m h 0 ( kr l ) 4 &pi; h n ( kr l ) 并且此后将 d = [ C 0 0 , C 1 - 1 , C 1 0 , C 1 1 , C 2 - 2 , C 2 - 1 , C 2 0 , C 2 1 , C 2 2 , . . . ] &prime; 应用于方程(17)以便导出扬声器权重。利用该模型,通过原点处的压力确定扬声器信号wl。 
存在替代方法,其使用首先在上述文章"Three-dimensional surround sound systems based on spherical harmonics"中描述的简单源方法。假设扬声器均匀分布在球面上并且具有二次源特性。在Jens Ahrens,Sascha Spors,"Analytical driving functions for higher order ambisonics",Proceedings of the ICASSP,pages373–376,2008(ICASSP会议论文集,第373-376页,2008年),方程(13)中导出了解,其可以针对用于高保真度立体声响复制阶N处的截断和扬声器增益gl被重写以作为概括: 
w l = &Sigma; n = 0 N &Sigma; m = - n n g l A n m kr l h n ( 2 ) ( kr l ) Y n m ( &theta; l , &phi; l ) - - - ( 24 )
距离编码的高保真度立体声响复制信号 
当(使用方程(18))建模或记录球面波时,在高保真度立体声响复制编码器处使用参考扬声器距离rl-ref创建
Figure BDA00003139292500171
可以求解的数值解: 
C n m = A n m h 0 ( kr l _ ref ) 4 &pi; h n ( kr l _ ref ) = h 0 ( kr l _ ref ) h n ( kr l _ ref ) h n ( kr s ) h 0 ( kr s ) P S 0 Y n m ( &theta; s , &phi; s ) * - - - ( 25 )
传送或存储
Figure BDA00003139292500173
参考距离rl-ref以及用于使用球面距离编码系数的指示符。在解码器侧,只要实际扬声器距离rl≈rl-ref,方程(22)给出的简单解码处理就是可行的。如果差异太大,则要求在高保真度立体声响复制解码之前通过滤波进行校正 D n m = C n m h n ( kr l - ref ) h n ( kr l ) - - - ( 26 ) 。 
像方程(24)那样的其它解码模式导致用于距离编码高保真度立体声响复制的不同公式: 
C ~ n m = A n m kr l _ ref h n ( kr l _ ref ) = 1 kr l _ ref h n ( kr l _ ref ) h n ( kr s ) h 0 ( kr s ) P S 0 Y n m ( &theta; s , &phi; s ) * - - - ( 27 )
而且,球面谐波的规范化可能对距离编码高保真度立体声响复制的公式有影响,即距离编码高保真度立体声响复制系数需要定义的上下文。 
上述2D-3D转换的细节如下: 
用于通过乘法将2D圆分量转换为3D球形分量的转换系数
Figure BDA00003139292500176
可以如下地导出: 
Figure BDA00003139292500177
使用常用等式(参见2010年10月12日维基百科的"Associated Legendre polynomials", 
http://en.wikipedia.org/w/index.php?title=Associated_Legendre_polynomials&oldid=363001511)), P l , l ( x ) = ( 2 l - 1 ) ! ! ( 1 - x 2 ) l / 2 ,其中 ( 2 l - 1 ) ! ! = &Pi; i = 1 l ( 2 i - 1 ) 是二阶因子,P|m|,|m|可以被表达为: 
P | m | , | m | ( cos ( &theta; = &pi; / 2 ) ) = ( 2 m - 1 ) ! ! = ( 2 m ) ! m ! 2 m - - - ( 29 )
将方程(29)插入到方程(28)中,导致方程(30)。 
使用关系
Figure BDA000031392925001712
并且代入l=2m,从2D到正交-3D的转换被导出为: 
&alpha; N 2 D ortho 3 D = ( 2 m + 1 ) 4 &pi; ( 2 m ) ! ( 2 m ) ! m ! 2 m = ( 2 m + 1 ) ( 2 m ) ! 4 &pi; m ! 2 2 2 m = ( 2 m + 1 ) 4 &pi; m ! 2 2 2 m , - - - ( 30 )
上述球面波扩展的细节如下: 
求解用于球面波的方程(1)(其是由r<rs的点源和进入波生成的)更复 杂,这是因为需要使用体积流量QS来描述具有消失的无穷小的大小的点源,其中r处场点和rs处场点的辐射压力由以下给出(参见上述书目"Fourier Acoustics"): 
p ( r | r s ) = - i &rho; 0 ck Q S G ( r | r s ) - - - ( 31 )
其中,ρ0是具体密度,G(r|rs)是格林函数 G ( r | r s ) = e - ik | r - r s | 4 &pi; | r - r s | - - - ( 32 )
对于r<rs,在球面谐波中还可以通过下式来表达G(r|rs): 
G ( r | r s ) = ik &Sigma; n = 0 &infin; &Sigma; m = - n n j n ( kr ) h n ( 2 ) ( kr s ) Y n m ( &theta; , &phi; ) Y n m ( &Theta; s , &phi; s ) * - - - ( 33 )
其中,
Figure BDA00003139292500184
是第二类的汉克尔函数。注意,格林函数具有米-1的单位大小(由于k,
Figure BDA00003139292500185
)。可以将方程(31)(33)与方程(1)相比,以导出球面波的高保真度立体声响复制系数: 
A n sperical m ( k , &Theta; s , &phi; s , r s ) = &rho; 0 ck 2 Q S h n ( 2 ) ( kr s ) Y n m ( &Theta; s , &phi; s ) * - - - ( 34 )
其中,QS是单位为m3s-1的体积流量,ρ0是单位为kg m-3的具体密度。 
为了能够合成地创建高保真度立体声响复制信号并且能够与上面的平面波考虑有关,使用在坐标系的原点处生成的声压来表达方程(34)是合理的: 
P S 0 = p ( 0 | r s ) = - i &rho; o ck Q S 4 &pi; e - ik r s r s = &rho; 0 ck 2 Q S 4 &pi; h 0 ( 2 ) ( kr s ) - - - ( 35 )
这导致: 
A n sperical m ( k , &Theta; s , &phi; s , r s ) = 4 &pi; h n ( 2 ) ( kr s ) h 0 ( 2 ) ( kr s ) P S 0 Y n m ( &Theta; s , &phi; s ) * - - - ( 36 )
交换存储格式 
根据本发明的存储格式允许将多于一个HOA表示和附加的方向性流一起存储在一个数据容器中。这使能HOA描述的不同格式,其使得解码器能够将再现最优化,并且对于大小>4GB提供了高效的数据存储。其它优点为: 
A)通过将使用不同格式的若干HOA描述与相关的存储格式信息一起存储,高保真度立体声响复制解码器能够混合并解码两个表示。 
B)将下一代HOA解码器所需的信息项存储为格式信息: 
-维度,感兴趣区域(收听区域外部的源或收听区域内的源),球面基本函数的规范化; 
-高保真度立体声响复制系数打包和缩放信息; 
-高保真度立体声响复制波类型(平面,球面),参考半径(用于解码球面波); 
-可以存储相关的方向性单声道信号。可以使用角度和距离信息、或者高保真度立体声响复制系数的编码矢量来描述这些方向性信号的位置信息。 
C)扩展高保真度立体声响复制数据的存储格式以便允许灵活并经济地存储数据: 
-利用不同PCM-字大小分辨率来存储与高保真度立体声响复制分量(高保真度立体声响复制声道)相关的高保真度立体声响复制数据; 
-使用重采样或MDCT处理来利用降低的带宽存储高保真度立体声响复制数据。 
D)元数据字段可用于将用于特定解码(前面、环境)的音轨相关联,并且允许存储关于文件的附属信息(诸如用于麦克风信号的记录信息): 
-记录参考坐标系、麦克风、源和虚拟听众位置、麦克风方向性特性、房间和源信息。 
E)该格式适用于存储包含不同音轨的多帧,允许在没有场景描述的情况下进行音频场景改变。(注释:一个音轨包含HOA声音场描述、或者带有位置信息的单源。一帧是一个或多个并列音轨的组合)。音轨可以在帧的开头处开始或者在帧的结束处结束,因此不需要时间码。 
F)该格式便于快速访问音频音轨数据(快进或调到线索点)并且确定相对于文件数据的开头处的时间的时间码。 
HOA数据交换的HOA参数 
表6总结了需要为HOA信号数据的非歧义交换(non-ambiguous exchange)定义的参数。球面谐波的定义固定于复数值和实数值情况,参见方程(3)(6)。 
表6-用于HOA记录的非歧义交换的参数 
文件格式细节 
在下文中,具体描述用于存储由高阶高保真度立体声响复制(HOA)或者具有位置信息的单源构成的音频场景的文件格式。音频场景可以包含多个可能使用不同的规范化方案的HOA序列。因此,解码器可以将用于期望扬声器设置的对应扬声器信号计算为来自当前文件的所有音频音轨的叠加。该文件包含解码音频内容所需的所有数据。根据本发明的文件格式提供了在单个文件中存储多于一个HOA或单源信号的特征。该文件格式使用帧的组成,每个帧可以包含若干音轨,其中在一个或多个被称为音轨分组(TrackPackets)的分组中存储一个音轨的数据 
按照little-endian字节顺序存储所有整数类型,使得最低有效字节最先到达。比特顺序总是最高有效比特在前。整数数据类型的表示为'int'。前面的'u'指示无符号整数。比特的分辨率被写在定义的尾部。例如,无符号16比特整数字段被定义为'uint16'。整数格式的PCM样本和HOA系数被表示为定点数,小数点在最高有效比特处。 
所有浮点数据类型符合IEEE规范IEEE-754,"Standard for binary floating-point arithmetic",http://grouper.ieee.org/groups/754/。浮点数据类型的表 示为'float'。比特的分辨率被写在定义的尾部。例如,32比特浮点字段被定义为'float32'。 
恒定标识符ID(其表示帧、音轨或块、以及字符串的开头)被定义为数据类型字节。字节阵列的字节顺序是最高有效字节和比特在前。因此,在32比特字节字段中定义ID'TRCK',其中,按照物理顺序'T','R','C'和'K'(<0x54;0x52;0x42;0x4b>)编写字节。 
十六进制值以'0x'开始(例如0xAB64C5)。单比特被置入引号(例如'1'),多个二进制值'0b'以开始(例如0b0011=0x3)。 
头部字段名称总是以头部名称开始,后面接着字段名称,其中,每个词的第一字母是大写字母(例如,TrackHeaderSize)。通过仅使用字段或头部名称的大写字母来创建字段或头部名称的缩写(例如TrackHeaderSize=THS)。 
HOA文件格式可以包括多于一帧、分组或音轨。对于多个头部字段的区分,可以在字段或头部名称之后接有数字。例如,第三音轨的第二TrackPacket(音轨分组)被命名为'Track3Packet2'。 
HOA文件格式可以包括复数值字段。这些复数值被存储为实部和虚部,其中实部被写在前面。'int8'格式的复数值1+i2将被存储为'0x01'后面接着'0x02'。因此,与对应的实数值格式类型相比,复数值格式类型的字段或系数要求两倍存储大小。 
高阶高保真度立体声响复制文件格式结构 
单音轨格式 
高阶高保真度立体声响复制文件格式包括至少一个文件头部(FileHeader)、一个帧头部(FrameHeader)、一个音轨头部(TrackHeader)和一个音轨分组(TrackPacket),如图9中所描绘的,其示出了在一个或多个分组(Packets)中携带一个音轨(Track)的简单示例的HOA文件格式文件。 
因此,HOA文件的基本结构是一个文件头部后接着帧,该帧包括至少一个音轨。音轨总是包括音轨头部以及一个或多个音轨分组。 
多帧和音轨格式 
与文件头部相反,HOA文件可以包含多于一帧,其中帧可以包含多于一个音轨。如果超出帧的最大大小则使用新的帧头部,或者从一帧向另一帧添 加音轨或移动音轨。在图10中示出多音轨和帧HOA文件的结构。 
对音轨帧的结构以帧头部(FrameHeader)开始,后面接着该帧(Frame)的所有音轨头部(TrackHeader)。因此,每个音轨的音轨分组被连续地发送给帧头部,其中音轨分组以与音轨头部相同的方式被交织。 
在多音轨帧中,在帧头部中定义样本中分组的长度,并且样本中分组的长度对于所有音轨都是恒定的。此外,每个音轨的样本是同步的,例如,音轨1分组1(Track1Packet1)的样本与音轨2分组1(Track2Packet1)的样本同步。特定的音轨编码类型(TrackCodingType)可能在解码器侧引起延迟,并且这样的特定延迟需要在解码器侧是已知的,或者要被包括在音轨头部(TrackHeader)的依赖音轨编码类型(TrackCodingType)的部分中,这是因为解码器将所有的音轨分组(TrackPacket)同步到帧的所有音轨的最大延迟。 
依赖文件的元数据 
指代完整HOA文件的元数据可以优选地被添加在文件头部(FileHeader)后的元数据块(MetaDataChunk)中。MetaDataChunk以特定的一般用户ID(GUID)开始,后面接着元数据块大小(MetaDataChunkSize)。MetaDataChunk的实质内容(例如元数据信息)被打包到XML格式或任何用户定义格式。图11示出了使用若干MetaDataChunk的HOA文件格式的结构。 
音轨类型 
HOA格式的音轨(Track)在一般HOA音轨(HOATrack)和单源音轨(SingleSourceTrack)之间进行区分。HOATrack包括被编码为HOA系数(HOACoefficient)的完整声音场。因此,在解码器不需要场景描述(例如编码源的位置)来解码系数。换句话说,在HOACoefficient内存储音频场景。 
与HOATrack相反,SingleSourceTrack仅包括被编码为PCM样本的一个源以及该源在音频场景内的位置。SingleSourceTrack的位置随着时间的推移可以固定或可变。源位置被发送为音轨HOA编码矢量(TrackHOAEncodingVector)或音轨位置矢量(TrackPositionVector)。TrackHOAEncodingVector包含用于获得用于每个样本的HOACoefficient的HOA编码值。TrackPositionVector将源的位置包含为相对于中央收听位置的角度和距离。 
文件头部(File Header) 
Figure BDA00003139292500231
FileHeader包括完整HOA文件的所有恒定信息。FileID用于标识HOA文件格式。采样率对所有音轨恒定,即使它是在FrameHeader中发送的。其采样率从一帧到另一帧改变的HOA文件无效。在FileHeader中指示帧数,以便向解码器指示帧结构。 
元数据块 
Figure BDA00003139292500232
帧头部(Frame Header) 
Figure BDA00003139292500241
FrameHeader保持帧的所有轨道的恒定信息,并且指示HOA文件内的改变。FrameID和FrameSize指示帧的开头和帧的长度。这两个字段允许容易访问每个帧和帧结构的交叉检查。如果帧长度要求多于32比特,则一帧可以被划分为多帧。每帧具有唯一帧编号(FrameNumber)。FrameNumber应以0开始,并且应对于每个新帧增加1。 
帧的样本的数量对于帧的所有轨道恒定。帧内轨道的数量对于帧恒定。发送新帧头部以在期望样本位置结束或开始音轨。 
在分组中存储每个音轨的样本。在样本中指示这些音轨分组(TrackPacket)的大小,并且其对于所有音轨恒定。分组的数量等于存储帧的样本的数量所需的整数。因此,音轨的最后分组可以包含比所指示的分组大小更少的样本。 
帧的采样率等于FileSampleRate,并且在FrameHeader中被指示以便允许在不知道FileHeader的情况下解码帧。这可以在从多帧文件的中间开始解码时在不知道的情况下(例如对于流应用)使用。 
音轨头部(Track Header) 
Figure BDA00003139292500251
项'dyn'指代由于条件字段引起的动态字段大小。TrackHeader保持用于特定音轨的分组的恒定信息。TrackHeader被分为恒定部分和用于两个音轨源类型(TrackSourceType)的可变部分。TrackHeader以恒定值TrackID开始,以验证和标识TrackHeader的开头。向每个音轨分配唯一的音轨编号(TrackNumber),以在帧边界上指示相干轨道。因此,具有相同TrackNumber的音轨可以在以下帧中出现。提供音轨头部大小(TrackHeaderSize)以跳到下一TrackHeader,并且其被指示为从TrackHeaderSize字段的结尾开始的偏移。音轨元数据偏移(TrackMetaDataOffset)提供样本的数量以便直接跳到TrackMetaData字段的开头,其可以被用来跳过TrackHeader的可变长度部分。TrackMetaDataOffset为零指示不存在TrackMetaData字段。依赖于音轨源类型(TrackSourceType),提供HOA音轨头部(HOATrackHeader)或单源音轨头部(SingleSourceTrackHeader)。HOATrackHeader提供用于描述完整声音场 的标准HOA系数的辅助信息。SingleSourceTrackHeader保持用于单声道PCM音轨的样本和源的位置的信息。对于SingleSourceTrack而言,解码器无需将音轨包括在场景中。 
在TrackHeader结尾,定义可选的TrackMetaData字段,其使用XML格式来提供依赖音轨的元数据,例如用于A-格式传输的附加信息(麦克风阵列信号) 
HOA音轨头部(HOA Track Header) 
Figure BDA00003139292500261
Figure BDA00003139292500262
Figure BDA00003139292500271
Figure BDA00003139292500272
Figure BDA00003139292500273
Figure BDA00003139292500281
HOATrackHeader是保持用于解码HOATrack的信息的TrackHeader的一部分。HOATrack的TrackPackets传输编码轨道的整个声音场的HOA系数。基本上,HOATrackHeader保持了在解码器侧解码用于给定扬声器设置的HOA系数所需的所有HOA参数。 
音轨复数值标志(TrackComplexValueFlag)和音轨样本格式(TrackSampleFormat)定义了每个TrackPacket的HOA系数的格式类型。对于编码或压缩系数,TrackSampleFormat定义了解码或未压缩系数的格式。所有格式类型可以是实数或复数。 
在上面File Format细节部分中提供了关于复数值的更多信息。 
在音轨HOA参数(TrackHOAParams)中定义了所有依赖HOA的信息。在其它TrackSourceTypes中重新使用TrackHOAParams。因此,在TrackHOAParams部分中定义并描述了TrackHOAParams的字段。 
音轨编码类型(TrackCodingType)字段指示HOA系数的编码(压缩)格式。HOA文件格式的基本版本包括例如两种编码类型(CodingType)。 
一种CodingType是PCM编码类型(TrackCodingType==‘0’),其中,以所选择的分组样本格式(TrackSampleFormat)将未压缩的实数或复数系数写入到分组中。在TrackHOAParams字段中定义了HOA系数的顺序和规范化。 
第二种CodingType允许改变样本格式,并且限制每种HOA顺序的系数的带宽。在音轨区域编码(TrackRegion Coding)部分中提供了该CodingType的具体描述,简短说明如下: 
音轨带宽降低类型(TrackBandwidthReductionType)确定已经被用来限制每种HOA顺序的带宽的处理的类型。如果不改变所有系数的带宽,则可以通过将TrackBandwidthReductionType字段设置为零来关掉带宽降低。定义了两 种其它的带宽降低处理类型。格式包括频域MDCT处理以及可选地时域滤波器处理。关于更多关于MDCT处理的信息,参见经由MDCT降低带宽(Bandwidth reduction via MDCT)部分。 
可以将HOA顺序组合到具有相同样本格式和带宽的区域中。通过顺序区域音轨数量(TrackNumberOfOrderRegions)字段来指示区域的数量。对于每个区域,必须定义第一和最后顺序索引、样本格式和可选带宽降低信息。区域将获得至少一个顺序。使用在音轨样本格式(TrackSampleFormat)字段中指示的标准格式利用全带宽来编码未被任何区域覆盖的顺序。特殊情况是没有使用区域(TrackNumberOfOrderRegions==0)。该情况可以用于PCM格式的去交织的HOA系数,其中HOA分量没有每个样本地被交织。区域的顺序的HOA系数被按照音轨区域样本格式(TrackRegionSampleFormat)编码。音轨区域使用带宽降低(TrackRegionUseBandwidthReduction)指示对于该区域的顺序的系数使用带宽降低处理。如果TrackRegionUseBandwidthReduction标志被设置,则带宽降低辅助信息将接在后面。对于MDCT处理,定义了窗口类型、以及第一和最后编码的MDCT库。这里,第一库等效于低截止频率,而最后库定义了高截止频率。也按照TrackRegionSampleFormat编码MDCT库,参见经由MDCT降低带宽(Bandwidth reduction via MDCT)部分。 
单源类型 
单源被划分为固定位置和移动位置源。在音轨移动源标志(TrackMovingSourceFlag)中指示源类型。移动位置源类型和固定位置源类型之间的区别在于:固定源的位置仅在TrackHeader中指示一次;而对于移动源,在每个TrackPackage中指示。可以在球面坐标下利用位置向量明确地指示源的位置,或者可以将源的位置隐含地指示为HOA编码矢量。源本身是PCM单声道音轨,在使用高保真度立体声响复制解码器进行重放的情况下,其必须在解码器侧被编码为HOA系数。 
单源固定位置音轨头部(Single Source fixed Position Track Header) 
Figure BDA00003139292500301
Figure BDA00003139292500302
Figure BDA00003139292500311
通过音轨移动源标志(TrackMovingSourceFlag)为零定义固定位置源类型。第二字段指示音轨位置类型(TrackPositionType),其将源位置的编码给出为球面坐标中的矢量或者HOA编码矢量。通过音轨样本格式(TrackSampleFormat)字段指示单声道PCM样本的编码格式。如果源位置被发送为音轨位置矢量(TrackPositionVector),则在音轨位置角度(TrackPositionTheta)(从s轴到x-,y-平面的倾斜度)、音轨位置方位角(TrackPositionPhi)(在x轴开始的逆时针方位角)和音轨位置半径(TrackPositionRadius)字段中定义源位置的球面坐标。 
如果源位置被定义为HOA编码矢量,则首先定义音轨HOA参数(TrackHOAParam)。在TrackHOAParam部分中定义这些参数,并且这些参数指示HOA编码矢量所使用的规范化和定义。音轨编码矢量复数标志(TrackEncodeVectorComplexFlag)和音轨编码矢量格式(TrackEncodeVectorFormat)字段定义了接下来的音轨HOA编码矢量(TrackHOAEncodingVector)的格式类型。TrackHOAEncodingVector由以'float32'或'float64'格式编码的系数音轨HOA参数数量(TrackHOAParamNumberOfCoeffs)的值组成。 
单源移动位置音轨头部(Single Source moving Position Track Header) 
Figure BDA00003139292500312
Figure BDA00003139292500321
Figure BDA00003139292500322
通过TrackMovingSourceFlag为'1'来定义移动位置源类型。除了源位置数据字段TrackPositionTheta,TrackPositionPhi,TrackPositionRadius和TrackHOAEncodingVector没出现之外,该头部与固定源头部相同。对于移动源,这些字段位于TrackPacket中以便在每个分组中指示新(移动)源位置。 
具体音轨表(Special Track Table) 
音轨HOA参数(TrackHOAParam) 
Figure BDA00003139292500323
Figure BDA00003139292500331
Figure BDA00003139292500341
Figure BDA00003139292500342
过去已经讨论了用于HOA编码和解码的几种方法。然而,尚没有用于编码HOA系数的任何结论或一致观点。有利地,根据本发明的格式允许存储大多数已知的HOA表示。定义TrackHOAParam以便使得清楚在编码器侧已经使用了何种系数规范化和顺序序列。在解码器侧必须考虑这些定义,以便混合HOA音轨以及应用解码器矩阵。 
HOA系数可以应用于完整的三维声音场,或者仅仅应用于二维x/y-平面。通过音轨HOA参数维度(TrackHOAParamDimension)字段定义HOA音轨(HOATrack)的维度。 
感兴趣区域的音轨HOA参数(TrackHOAParamRegionOfInterest)顺序 地反映了两个声压扩张,由此源驻留于感兴趣区域内部或外部,并且感兴趣区域不包含任何源。分别在以上方程(1)和(2)中定义了用于内部情况和外部情况的声压计算,由此通过共轭复数球面谐波函数确定HOA信号的方向性信息
Figure BDA00003139292500352
。该函数是在复数和实数形式下定义的。编码器和解码器必须应用等效数量类型的球面谐波函数。因此,音轨HOA参数球面谐波类型(TrackHOAParamSphericalHarmonicType)指示在编码器侧已经应用何种球面谐波函数。 
如上所述,基本上通过相关联的拉格朗日函数以及复数或实数三角函数来定义球面谐波函数。通过方程(5)定义相关联的拉格朗日函数。复数值球面谐波表示为: 
Y n m ( &theta; , &phi; ) = N n , m P n , | m | ( cos ( &theta; ) ) e im&phi; { ( - 1 ) m ; m &GreaterEqual; 0 1 ; m < 0
其中,Nn,m是缩放因子(参见方程(3))。使用以下方程,可以将该复数值表示转换为实数值表示: 
S n m ( &theta; , &phi; ) = ( - 1 ) m 2 ( Y n m + Y n m * ) = N ~ n , m P n , | m | ( cos ( &theta; ) ) cos ( m&phi; ) , m > 0 Y n 0 = N ~ n , m P n , | m | ( cos ( &theta; ) ) m = 0 - 1 i 2 ( Y n m - Y n m * ) = N ~ n , m P n , | m | ( cos ( &theta; ) ) sin ( | m | &phi; ) , m < 0
其中,用于实数球面谐波的修改后的缩放因子为: 
N ~ n , m = 2 - &delta; 0 , m N n , m , &delta; 0 , m = { 1 ; m = 0 0 ; m &NotEqual; 0 .
对于2D表示,必须将圆谐波函数用于HOA系数的编码和解码。通过 来定义圆谐波的复数值表示。 
通过
Figure BDA00003139292500357
来定义圆谐波的实数值表示。 
几个规范化因子Nn,m,
Figure BDA00003139292500359
Figure BDA000031392925003510
被用于将球面或圆谐波函数适配于特定应用或要求。为了确保正确解码HOA系数,在解码器侧必须知道在编码器侧使用的球面谐波函数的规范化。下表7定义了可以利用音轨HOA参数球面谐波规范化(TrackHOAParamSphericalHarmonicNorm)字段选择的规范化。 
Figure BDA00003139292500361
表7–球面和圆谐波函数的规范化 
对于将来规范化,TrackHOAParamSphericalHarmonicNorm字段的专用值是可用的。对于专用规范化,在音轨HOA参数(TrackHOAParam)的结尾定义了用于每个HOA系数的缩放因子。可以将专用缩放因子TrackScalingFactor作为实数或复数'float32'或'float64'值传送。在专用缩放的情况下,在音轨复数值缩放标志(TrackComplexValueScalingFlag)和音轨缩放格式(TrackScalingFormat)字段中定义了缩放因子格式。 
福尔斯马勒姆规范化可以另外应用于编码的HOA系数,以便将不同HOA顺序的系数的幅度均衡化为小于'一'的绝对值,以便以整数格式类型传送。福尔斯马勒姆规范化被指定用于高达三阶系数的SN3D实数值球面谐波函数。因此,仅仅推荐将福尔斯马勒姆规范化与SN3D实数值球面谐波函数组合使用。此外,对于具有HOA阶高于三的音轨,忽略音轨HOA参数福尔斯马勒姆标志。在解码器侧必须转换福尔斯马勒姆规范化以便解码HOA系数。表8定义了福尔斯马勒姆系数。 
Figure BDA00003139292500371
表8-在编码器侧要应用的福尔斯马勒姆规范化因子 
音轨HOA参数解码器类型(TrackHOAParamDecoderType)定义了在编码器侧假设在解码器侧出现了何种解码器。解码器类型确定要在解码器侧用来呈现声音场的扬声器模型(球面或平面波)。由此,通过将解码器方程的部分平移到解码器方程,可以降低解码器的计算复杂度。另外,可以降低编码器侧的数值问题。此外,可以将解码器降低到对于所有HOA系数进行相同处理,这是因为解码器侧的所有不一致可以被移动到编码器。然而,对于球面谐波,可以假设扬声器到收听位置具有恒定距离。因此,在TrackHeader中指示了所假设的解码器类型,并且在可选的音轨HOA参数参考半径字段(TrackHOAParamReferenceRadius)中以毫米为单位传送用于球面波解码器类型的扬声器半径rls。解码器侧的另外的滤波器可以均衡化所假设的扬声器半径和实际扬声器半径之间的差异。 
HOA系数
Figure BDA00003139292500381
的音轨HOA参数解码器类型(TrackHOAParamDecoder Type)规范化取决于在TrackHOAParamRegionOfInterest中选择的顺序的内部或外部声音场扩张的使用。注释:方程(18)和以下方程中的系数
Figure BDA00003139292500382
对应于下面的系数
Figure BDA00003139292500383
。在编码器侧,依据在表9中定义的系数
Figure BDA00003139292500384
Figure BDA00003139292500385
来确定系数 
Figure BDA00003139292500386
,并且存储系数。在TrackHOAParam头部的TrackHOAParamDecoderTyp字段中指示了所使用的规范化: 
Figure BDA00003139292500388
表9-用于几种解码器类型规范化的所传送的HOA系数 
用于一个时间样本的HOA系数包括系数
Figure BDA00003139292500389
的数量TrackHOAParamNumberOfCoeffs(O)。N取决于HOA系数的维度。对于2D声音场,'O'等于2N+1,其中N等于来自TrackHOAParam头部的音轨HOA参数水平阶(TrackHOAParamHorizontalOrder)字段。2D HOA系数被定义为 
Figure BDA000031392925003810
,其中,-N≤m≤N,并且可以被表示为3D系数的子集,如表10所示。 
对于2D声音场,'o'等于(N+1)2,其中N等于来自TrackHOAParam头部的音轨HOA参数垂直阶(TrackHOAParamVerticalOrder)字段。3D HOA系数
Figure BDA000031392925003811
被定义用于0≤n≤N和-n≤m≤n在表10中给出了HOA系数的共同表示。 
Figure BDA000031392925003812
表10-高达四阶的HOA系数表示,将粗体的2D系数示出为3D系数的子集 
在3D声音场以及TrackHOAParamHorizontalOrder大于TrackHOAParamVerticalOrder的情况下,将执行混合阶解码。在混合阶信号中,仅在2D中传送一些更高阶系数。TrackHOAParamVerticalOrder字段确定传送其所有系数的垂直阶。从该垂直阶到TrackHOAParamHorizontalOrder,仅使用2D系数。因此,TrackHOAParamHorizontalOrder等于或大于TrackHOAParamVerticalOrder。在表11中绘制了四水平阶和二垂直阶的混合阶表示的示例: 
Figure BDA00003139292500391
表11-用于二垂直阶和四水平阶的混合阶表示的HOA系数表示 
在音轨的分组中存储HOA系数
Figure BDA00003139292500392
过去已经不同地定义了系数序列(例如哪个系数在先哪个系数在后)。因此,音轨HOA参数系数序列(TrackHOAParamCoeffSequence)字段指示三种类型的系数序列。这三种序列是从表10的HOA系数排列中导出的。 
B-格式序列将特殊措辞(special wording)用于高达三阶的HOA系数,如表12所示: 
Figure BDA00003139292500393
表12-B-格式HOA系数命名约定 
对于B-格式,从最低阶到最高阶传送HOA系数,其中按照字母表顺序传送每一阶的HOA系数。例如,按照序列W,X,Y,S,R,S,T,U,V,K,L,M,N,O,P和Q存储HOA阶三的3D设置的系数。B-格式仅仅被定义高达第三HOA 阶。对于水平(2D)系数的传送,忽略补充性的3D系数,例如W,X,Y,U,V,P,Q。 
从最低到最高HOA阶(n=O...N)以数值向上或向下的方式在音轨HOA参数系数序列(TrackHOAParamCoeffSequence)中传送用于3D HOA的系数
Figure BDA00003139292500401
。数值向上序列以m=-n开始,并且增加到m=n 
Figure BDA00003139292500402
,其是在Chris Travis,"Four candidate component sequences",http://ambisonics.googlegroups.com/web/Four+candidate+component+sequences+V09.pdf,2008中定义的‘CG’序列。数值向下序列m按照从m=n到m=-n的另一种方式运行,其是在该发表物中定义的‘QM’序列。 
对于2D HOA系数,TrackHOAParamCoeffSequence数值向上和向下序列与3D情况相似,但其中省略具有|m|≠n的无用系数(即,仅仅表10中的部分HOA系数)。因此,数值向上序列导致 
,数值向下序列导致 
( C 0 0 , C 1 1 , C 1 0 , C 1 - 1 , C 2 2 , C 2 1 , C 2 0 , C 2 - 1 , C 2 - 2 , . . . ) .
音轨分组(Track Packet) 
HOA音轨分组 
PCM编码类型分组 
Figure BDA00003139292500407
该分组包含按照在TrackHOAParamCoeffSequence中定义的顺序的HOA系数其中连续地传送一个时间样本的所有系数。在TrackSourceType为零并且TrackCodingType为零的情况下,该分组用于标准HOA音轨。 
动态分辨率编码类型分组 
Figure DEST_PATH_GDA00003332127300021
动态分辨率分组用于'零'的音轨源类型(TrackSourceType)和'一'的音轨编码类型(TrackCodingType)。音轨阶区域(TrackOrderRegion)的不同分辨率导致用于每个TrackOrderRegion的不同存储大小。因此,以去交织方式存储HOA系数,例如连续地存储一个HOA阶的所有系数。 
单源音轨分组 
单源固定位置分组 
Figure BDA00003139292500412
单源固定位置分组用于'一'的音轨源类型(TrackSourceType)和'零'的音轨移动源标志(TrackMovingSourceFlag)。该分组保持单声道源的PCM样本。 
单源移动位置分组 
Figure BDA00003139292500413
Figure BDA00003139292500414
Figure BDA00003139292500421
Figure BDA00003139292500422
单源移动位置分组用于'一'的音轨源类型(TrackSourceType)和'一'的音轨移动源标志(TrackMovingSourceFlag)。其保持单声道PCM样本、以及用于TrackPacket的样本的位置信息。 
分组方向标志(PacketDirectionFlag)指示分组的方向是否已经改变、或者使用应使用前一分组的方向。为了确保从每帧的开头开始解码,对于帧的第一个移动源TrackPacket,PacketDirectionFlag等于'一'。 
对于'一'的PacketDirectionFlag,传送以下PCM样本源的方向信息。取决于TrackPositionType,方向信息被作为球面坐标下的音轨位置矢量(TrackPositionVector)发送,或者作为具有所定义的音轨编码矢量格式(TrackEncodingVectorFormat)的音轨HOA编码矢量(TrackHOAEncodingVector)发送。音轨编码矢量(TrackEncodingVector)生成符合HOA参数头部(HOAParamHeader)字段定义的HOA系数。与方向性信息连续地,传送TrackPacket的PCM单声道样本的方向性信息。 
编码处理 
音轨区域编码 
可以利用麦克风阵列从声音场记录中导出HOA信号。例如,可以使用在WO03/061336A1中公开的Eigenmike来获得阶三的HOA记录。然而,麦克风阵列的有限大小导致对所记录的HOA系数的约束。在WO03/061336A1、以及上述文章"Three-dimensional surround sound systems based on spherical harmonics"中,讨论了由有限麦克风阵列引起的问题。 
麦克风单元(capsule)的距离导致空间采样理论给出的上频率边界。在该上频率之上,麦克风阵列不能产生正确的HOA系数。此外,麦克风距HOA收听位置的有限距离要求均衡滤波器。这些滤波器对于低频获得高增益,甚 至随着每个HOA阶增高。在WO03/061336A1中,引入了用于高阶系数的低截止频率,以便操纵均衡滤波器的动态范围。这示出了不同HOA阶的HOA系数的带宽可能不同。因此,HOA文件格式提供了音轨区域带宽降低(TrackRegionBandwidthReduction),其使得对于每个HOA阶能够仅传送所需要的频率带宽。 
由于均衡滤波器的高动态范围以及由于零阶系数基本上是所有麦克风信号之和的事实,不同HOA阶的系数可能具有不同的动态范围。因此,HOA文件格式也提供了将格式类型适配于每个HOA阶的动态范围的特征。 
音轨区域编码处理(TrackRegion Encoding Processing) 
如图12所示,交织的HOA系数被送入第一去交织步骤或阶段1211,其被指派给第一音轨区域(TrackRegion)并且将该TrackRegion的所有HOA系数分离到去交织缓冲器中以成为帧分组大小(FramePacketSize)的样本。从HOA音轨头部的音轨区域最后阶(TrackRegionLastOrder)和音轨区域第一阶(TrackRegionFirstOrder)字段中导出的TrackRegion系数。去交织意味着用于n和m的一个组合的系数被编组到一个缓冲器中。从去交织步骤或阶段1211,去交织的HOA系数被传送到音轨区域(TrackRegion)编码部分。其余的去交织的HOA系数被传送到下面的音轨区域去交织部分或阶段等等,直至去交织步骤或阶段121N。去交织步骤或阶段的数量N等于TrackNumberOfOrderRegions加'一'。另外的去交织步骤或阶段125将不是TrackRegion的部分的其余系数去交织到包括格式转换步骤或阶段126的标准处理路径中。 
音轨区域编码路径包括可选的带宽降低步骤或阶段1221、以及格式转换步骤或阶段1231,并且对于每个HOA系数缓冲器执行并行处理。如果TrackRegionUseBandwidthReduction字段被设置为'一',则执行带宽降低。取决于所选择的TrackBandwidthReductionType,选择处理以用于限制HOA系数的频率范围或者用于关键地对HOA系数进行下采样。这被执行来将HOA系数的数量降低到最小所需的样本数量。格式转换将当前的HOA系数格式转换为在HOATrack头部中定义的音轨区域样本格式(TrackRegionSampleFormat)。这是标准处理路径中仅有的将HOA系数转换为HOA音轨头部的所指示的TrackSampleFormat的步骤/阶段。 
多路复用器TrackPacket步骤或阶段124将HOA系数缓冲器多路复用到TrackPacket数据文件流中,如在所选择的TrackHOAParamCoeffSequence字段中定义的,其中用于n和m的一个组合的系数
Figure BDA00003139292500441
索引(在一个缓冲器内)保持去交织。 
音轨区域解码处理(TrackRegion Decoding Processing) 
如图13所示,解码处理与编码处理相反。去多路复用器步骤或阶段134将来自所指示的TrackHOAParamCoeffSequence的TrackPacket数据文件或流去多路复用到去交织的HOA系数缓冲器(未示出)中。每个缓冲器包含用于n和m的一个组合的FramePacketLength系数
Figure BDA00003139292500442
步骤/阶段134初始化TrackNumberOfOrderRegion加'一'处理路径,并且将去交织的HOA系数缓冲器的内容传送到适当的处理路径。通过HOA音轨头部的TrackRegionLastOrder和TrackRegionFirstOrder字段定义每个TrackRegion的系数。在包括格式转换步骤或阶段136和其余系数交织步骤或阶段135的标准处理路径中处理未被所选择的TrackRegions覆盖的HOA阶。标准处理路径对应于没有带宽降低步骤或阶段的音轨处理路径。 
在音轨处理TrackProcessing路径中,格式转换步骤/阶段1331到133N将以TrackRegionSampleFormat编码的HOA系数转换为用于解码器处理的数据格式。取决于TrackRegionUseBandwidthReduction数据字段,接着可选的带宽重构步骤或阶段1321到132N,其中将带宽首先的并且关键采样的HOA系数重构至音轨的全带宽。在HOA音轨头部的TrackBandwidthReductionType字段中定义了重构处理的种类。 
在以下交织步骤或阶段1311到131N中,通过将一个时间样本的HOA系数编组,来将HOA系数的去交织的缓冲器的内容交织,将当前TrackRegion的HOA系数与之前TrackRegion的HOA系数组合。可以将HOA系数的结果序列适配至音轨的处理。此外,交织步骤/阶段处理使用带宽降低的音轨区域(TrackRegions)和不使用带宽降低的音轨区域之间的延迟,该延迟取决于所选择的音轨带宽降低类型(TrackBandwidthReductionType)处理。例如,MDCT处理添加帧分组大小(FramePacketSize)样本的延迟,并且因此没有带宽降低的处理路径的交织步骤/阶段将其输出延迟一个分组。 
经由MDCT的带宽降低(Bandwidth reduction via MDCT) 
编码 
图14示出了使用MDCT(修改的离散余弦变换)处理的带宽降低。经由缓冲器1411到141M,FramePacketSize样本的音轨区域(TrackRegion)的每个HOA系数经过对应的MDCT窗添加步骤或阶段1421到142M。每个输入缓冲器包含n和m的一个组合的时间连续的HOA系数
Figure BDA00003139292500451
,即,一个缓冲器被定义为
Figure BDA00003139292500452
缓冲器的数量M与高保真度立体声响复制分量的数量相同(对于阶N的全3D声音场,为((N+1)2)。通过将之前缓冲器内容与当前缓冲器内容组合为用于对应步骤或阶段1431到143M中以下MDCT处理的新内容,缓冲器处理执行用于该MDCT处理的50%重叠,并且其存储当前缓冲器内容以用于下面缓冲器内容的处理。MDCT处理在每帧的开头处重启,这意味着可以在不知道之前帧的情况下解码当前帧的音轨的所有系数,在当前帧的最后缓冲器内容之后,处理零另外缓冲器内容。因此,MDCT处理后的TrackRegions产生一个额外TrackPacket。 
在窗口添加步骤/阶段中,将对应缓冲器内容与所选择的窗口函数w(t)相乘,在用于每个TrackRegion的HOATrack头部字段TrackRegionWindowType中定义了该函数。 
在J.P.Princen,A.B.Bradley,"Analysis/Synthesis Filter Bank Design Based on Time Domain Aliasing Cancellation",IEEE Transactions on Acoustics,Speech and Signal Processing,vol.ASSP-34,no.5,pages1153–1161,1986年10月中首次提到了修改的离散余弦变换。MDCT可以被考虑为表示FramePacketSize子带的关键采样的滤波器组,并且其要求50%输入缓冲器重叠。输入缓冲器具有两倍于子带大小的长度。通过以下方程定义MDCT,其中T等于FramePacketSize,对于0≤k<T, 
C &prime; n m ( k ) = &Sigma; t = 0 2 T - 1 w ( t ) C n m ( t ) cos &lsqb; &pi; T ( t + T + 1 2 ) ( k + 1 2 ) &rsqb;
系数
Figure BDA00003139292500454
被称为MDCT库。使用快速傅立叶变换,可以实现MDCT计算。 
在以下频率区域消减步骤或阶段1441到144M中,通过移除具有k<TrackRegionFirstBin和k>TrackRegionLastBin的所有MDCT库
Figure BDA00003139292500455
来执行 带宽降低,以便将缓冲器长度降低到TrackRegionLastBin–TrackRegionFirstBin+1,其中,TrackRegionFirstBin是音轨区域的低截止频率,TrackRegionLastBin是高截止频率。可以将MDCT库的忽略视作表示具有与TrackRegionLastBin和TrackRegionFirstBin频率对应的截止频率的带通滤波器。因此,仅仅传送所需的MDCT库。 
解码 
图15示出了使用MDCT处理的带宽解码或重构,其中,带宽受限的音轨区域的HOA系数被重构到音轨的全带宽。该带宽重构并行地处理在时间上去交织的HOA系数的缓冲器内容,其中,每个缓冲器包含系数的TrackRegionLastBin–TrackRegionFirstBin+1个MDCT库。 
丢失频率区域添加步骤或阶段1541到154M通过利用使用零的丢失MDCT库的TrackRegionFirstBin和TrackRegionLastBin补充所接收的MDCT库,来重构帧分组长度(FramePacketLength)大小的完整MDCT缓冲器内容。此后,在对应的逆MDCT步骤或阶段1531到153M中执行逆MDCT,以便重构时间域HOA系数
Figure BDA00003139292500462
。逆MDCT可以被解释为合成滤波器组,其中,帧分组长度(FramePacketLength)的MDCT库被转换为两倍帧分组长度的时域系数。然而,时域样本的完整重构要求与在编码器中使用的窗口函数w(t)与当前缓冲器内容的前一半和前一缓冲器内容的后一半的重叠相加的乘法。通过以下方程定义逆MDCT,对于O<t<T 
C n m ( t ) = w ( t ) 2 T &Sigma; t = 0 T - 1 C &prime; n m ( k ) cos &lsqb; &pi; T ( t + T + 1 2 ) ( k + 1 2 ) &rsqb;
像MDCT,使用快速傅立叶逆变换,可以实现逆MDCT。 
MDCT窗口添加步骤或阶段1521到152M将重构的时域系数与由音轨区域窗口类型(TrackRegionWindowType)定义的窗口函数相乘。下面的缓冲器1511到151M将当前音轨分组缓冲器内容的前一半到最后音轨分组缓冲器内容的后一半相加,以便重构帧分组大小(FramePacketSize)的时域系数。存储当前音轨分组缓冲器内容的后一半以用于下面音轨分组的处理,重叠相加处理移除了两个缓冲器内容的相反混叠分量。 
对于多帧HOA文件,禁止编码器使用前一帧的最后缓冲器内容,以便在新帧的开头处进行重叠相加例程。因此,在帧边界或者在新帧的开头处, 重叠相加的缓冲器内容丢失,并且在第二音轨分组处可以执行帧的第一音轨分组的重构,由此与没有带宽降低的处理路径相比,引入了一个帧分组和解码一个额外音轨分组的延迟。通过结合图13描述的交织步骤/阶段来处理该延迟。 

Claims (13)

1.一种高阶高保真度立体声响复制HOA音频数据的数据结构,包括高保真度立体声响复制系数,该数据结构包括用于一个或多个不同HOA音频数据流描述的2D和/或3D空间音频内容,并且该数据结构也适用于具有大于'3'阶的HOA音频数据,该数据结构另外还包括单音频信号源数据和/或来自固定或时变空间位置的麦克风阵列音频数据,
其中,所述不同HOA音频数据流描述与不同扬声器位置密度、编码的HOA波类型、HOA阶和HOA维度中的至少两个有关,
以及其中,一个HOA音频数据流描述包含用于具有位于呈现位置(10)的不同区域处的密集扬声器布置(11,21)的呈现的音频数据,另一HOA音频数据流描述包含用于具有环绕所述呈现点(10)的不太密集扬声器布置(12,22)的呈现的音频数据。
2.如权利要求1所述的数据结构,其中,用于所述密集扬声器布置(11,21)的所述音频数据表示球面波和第一高保真度立体声响复制阶,用于所述不太密集扬声器布置(12,22)的所述音频数据表示平面波和/或小于所述第一高保真度立体声响复制阶的第二高保真度立体声响复制阶。
3.如权利要求1或2所述的数据结构,其中,所述数据结构充当场景描述,其中,音频场景的音轨可以在任何时间开始或结束。
4.如权利要求1到3之一所述的数据结构,其中,所述数据结构包括关于以下的数据项:
-与收听区域外部或内部的音频源有关的感兴趣区域;
-球形基函数的规范化;
-传播方向性;
-高保真度立体声响复制系数缩放信息;
-高保真度立体声响复制波类型,例如平面或球面
-在球面波情况下,用于解码的参考半径。
5.如权利要求1到4之一所述的数据结构,其中,所述高保真度立体声响复制系数是复数系数。
6.如权利要求1到5之一所述的数据结构,其中,所述数据结构包括关于用于一个或多个麦克风的方向和特性的元数据,并且/或者包括用于单源输入信号的至少一个编码矢量。
7.如权利要求1到6之一所述的数据结构,其中,所述高保真度立体声响复制系数的至少部分被带宽降低,从而对于不同的HOA阶,相关的高保真度立体声响复制系数的带宽是不同的(1221-122N)。
8.如权利要求7所述的数据结构,其中,所述带宽降低基于MDCT处理(1431-143M)。
9.一种根据如权利要求1到8之一所述的数据结构的编码和排列数据的方法。
10.一种音频呈现方法,其中,接收包含至少两个不同HOA音频数据信号的HOA音频数据流,并且使用(231,232)它们中的至少第一流来利用位于呈现点(10)的不同区域处的密集扬声器布置(11,21)进行呈现,使用(241,242,243)它们中的至少第二流和不同流来利用环绕所述呈现点(10)的不太密集扬声器布置(12,22)进行呈现。
11.如权利要求10所述的方法,其中,用于所述密集扬声器布置(11,21)的所述音频数据表示球面波和第一高保真度立体声响复制阶,用于所述不太密集扬声器布置(12,22)的所述音频数据表示平面波和/或小于所述第一高保真度立体声响复制阶的第二高保真度立体声响复制阶。
12.如权利要求1或2的数据结构,或者如权利要求10或11所述的方法,其中,所述呈现点是电影院中的收听区域或座位区域。
13.一种被适配为执行如权利要求10或11所述的方法的装置。
CN201180053153.7A 2010-11-05 2011-10-26 高阶高保真度立体声响复制音频数据的数据结构 Active CN103250207B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP10306211A EP2450880A1 (en) 2010-11-05 2010-11-05 Data structure for Higher Order Ambisonics audio data
EP10306211.3 2010-11-05
PCT/EP2011/068782 WO2012059385A1 (en) 2010-11-05 2011-10-26 Data structure for higher order ambisonics audio data

Publications (2)

Publication Number Publication Date
CN103250207A true CN103250207A (zh) 2013-08-14
CN103250207B CN103250207B (zh) 2016-01-20

Family

ID=43806783

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201180053153.7A Active CN103250207B (zh) 2010-11-05 2011-10-26 高阶高保真度立体声响复制音频数据的数据结构

Country Status (10)

Country Link
US (1) US9241216B2 (zh)
EP (2) EP2450880A1 (zh)
JP (1) JP5823529B2 (zh)
KR (1) KR101824287B1 (zh)
CN (1) CN103250207B (zh)
AU (1) AU2011325335B8 (zh)
BR (1) BR112013010754B1 (zh)
HK (1) HK1189297A1 (zh)
PT (1) PT2636036E (zh)
WO (1) WO2012059385A1 (zh)

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105027199A (zh) * 2013-03-01 2015-11-04 高通股份有限公司 在位流中指定球谐系数和/或高阶立体混响系数
CN105723743A (zh) * 2013-11-19 2016-06-29 索尼公司 声场再现设备和方法以及程序
CN106165451A (zh) * 2014-03-24 2016-11-23 杜比国际公司 对高阶高保真立体声信号应用动态范围压缩的方法和设备
CN106340301A (zh) * 2016-09-13 2017-01-18 广州酷狗计算机科技有限公司 一种音频播放方法和装置
CN106415711A (zh) * 2014-05-30 2017-02-15 索尼公司 信息处理装置和信息处理方法
CN106463131A (zh) * 2014-07-02 2017-02-22 杜比国际公司 用于对hoa信号表示的子带内的主导方向信号的方向进行编码/解码的方法和装置
CN106471579A (zh) * 2014-07-02 2017-03-01 杜比国际公司 用于对hoa信号表示的子带内的主导方向信号的方向进行编码/解码的方法和装置
CN106471822A (zh) * 2014-06-27 2017-03-01 杜比国际公司 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的设备
CN106471580A (zh) * 2014-06-27 2017-03-01 杜比国际公司 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的方法和设备
CN106471574A (zh) * 2014-06-30 2017-03-01 索尼公司 信息处理装置和信息处理方法
CN106663433A (zh) * 2014-07-02 2017-05-10 高通股份有限公司 减少高阶立体混响(hoa)背景信道之间的相关性
CN106796794A (zh) * 2014-10-07 2017-05-31 高通股份有限公司 环境高阶立体混响音频数据的归一化
CN106796795A (zh) * 2014-10-10 2017-05-31 高通股份有限公司 以信号表示用于高阶立体混响音频数据的可缩放译码的层
WO2017101406A1 (zh) * 2015-12-15 2017-06-22 乐视控股(北京)有限公司 基于Android的音频内容处理方法及设备
CN107077853A (zh) * 2014-10-10 2017-08-18 杜比国际公司 用于对声场的高阶高保真立体声hoa信号表示进行低位速率压缩的方法和装置
CN107995582A (zh) * 2013-11-28 2018-05-04 杜比国际公司 使用奇异值分解进行hoa编码和解码的方法和装置
CN108632736A (zh) * 2013-10-23 2018-10-09 杜比国际公司 用于音频信号呈现的方法和装置
CN107210043B (zh) * 2015-02-03 2018-10-09 高通股份有限公司 按运动稳定译码高阶立体混响音频数据
CN109756683A (zh) * 2017-11-02 2019-05-14 深圳市裂石影音科技有限公司 全景音视频录制方法、装置、存储介质和计算机设备
CN110100460A (zh) * 2017-01-30 2019-08-06 谷歌有限责任公司 基于头部位置和时间的具有非头部跟踪立体声的高保真度立体声响复制音频
CN110313187A (zh) * 2017-06-15 2019-10-08 杜比国际公司 在计算机介导的现实应用中优化发送方与接收方之间的通信的方法、装置和系统
CN111028849A (zh) * 2014-01-08 2020-04-17 杜比国际公司 包括编码hoa表示的位流的解码方法和装置、以及介质
CN111149155A (zh) * 2017-07-14 2020-05-12 弗劳恩霍夫应用研究促进协会 使用多点声场描述生成经增强的声场描述或经修改的声场描述的概念
CN111183479A (zh) * 2017-07-14 2020-05-19 弗劳恩霍夫应用研究促进协会 使用多层描述生成经增强的声场描述或经修改的声场描述的概念
CN111276153A (zh) * 2014-03-26 2020-06-12 弗劳恩霍夫应用研究促进协会 屏幕相关的音频对象重映射的设备和方法
CN111684822A (zh) * 2018-02-09 2020-09-18 谷歌有限责任公司 环境立体声的定向增强
US11172317B2 (en) 2012-03-28 2021-11-09 Dolby International Ab Method and apparatus for decoding stereo loudspeaker signals from a higher-order ambisonics audio signal
TWI811864B (zh) * 2014-06-27 2023-08-11 瑞典商杜比國際公司 用於解碼聲音或聲場的高階保真立體音響(hoa)表示的方法
US12067992B2 (en) * 2019-04-02 2024-08-20 Nokia Technologies Oy Audio codec extension

Families Citing this family (81)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2469741A1 (en) * 2010-12-21 2012-06-27 Thomson Licensing Method and apparatus for encoding and decoding successive frames of an ambisonics representation of a 2- or 3-dimensional sound field
DE102012200512B4 (de) * 2012-01-13 2013-11-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Berechnen von Lautsprechersignalen für eine Mehrzahl von Lautsprechern unter Verwendung einer Verzögerung im Frequenzbereich
EP2637427A1 (en) * 2012-03-06 2013-09-11 Thomson Licensing Method and apparatus for playback of a higher-order ambisonics audio signal
EP2665208A1 (en) * 2012-05-14 2013-11-20 Thomson Licensing Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation
US9288603B2 (en) * 2012-07-15 2016-03-15 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for backward-compatible audio coding
CN107071687B (zh) * 2012-07-16 2020-02-14 杜比国际公司 用于渲染音频声场表示以供音频回放的方法和设备
EP2688066A1 (en) 2012-07-16 2014-01-22 Thomson Licensing Method and apparatus for encoding multi-channel HOA audio signals for noise reduction, and method and apparatus for decoding multi-channel HOA audio signals for noise reduction
EP2875511B1 (en) 2012-07-19 2018-02-21 Dolby International AB Audio coding for improving the rendering of multi-channel audio signals
US9460729B2 (en) * 2012-09-21 2016-10-04 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
EP2733963A1 (en) * 2012-11-14 2014-05-21 Thomson Licensing Method and apparatus for facilitating listening to a sound signal for matrixed sound signals
EP2743922A1 (en) * 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
EP2946468B1 (en) * 2013-01-16 2016-12-21 Thomson Licensing Method for measuring hoa loudness level and device for measuring hoa loudness level
US9736609B2 (en) * 2013-02-07 2017-08-15 Qualcomm Incorporated Determining renderers for spherical harmonic coefficients
US10178489B2 (en) * 2013-02-08 2019-01-08 Qualcomm Incorporated Signaling audio rendering information in a bitstream
US9883310B2 (en) 2013-02-08 2018-01-30 Qualcomm Incorporated Obtaining symmetry information for higher order ambisonic audio renderers
EP2765791A1 (en) * 2013-02-08 2014-08-13 Thomson Licensing Method and apparatus for determining directions of uncorrelated sound sources in a higher order ambisonics representation of a sound field
US9609452B2 (en) 2013-02-08 2017-03-28 Qualcomm Incorporated Obtaining sparseness information for higher order ambisonic audio renderers
JP5734328B2 (ja) * 2013-02-28 2015-06-17 日本電信電話株式会社 音場収音再生装置、方法及びプログラム
JP5734329B2 (ja) * 2013-02-28 2015-06-17 日本電信電話株式会社 音場収音再生装置、方法及びプログラム
JP5734327B2 (ja) * 2013-02-28 2015-06-17 日本電信電話株式会社 音場収音再生装置、方法及びプログラム
EP2782094A1 (en) * 2013-03-22 2014-09-24 Thomson Licensing Method and apparatus for enhancing directivity of a 1st order Ambisonics signal
US9723305B2 (en) 2013-03-29 2017-08-01 Qualcomm Incorporated RTP payload format designs
EP2800401A1 (en) * 2013-04-29 2014-11-05 Thomson Licensing Method and Apparatus for compressing and decompressing a Higher Order Ambisonics representation
US9412385B2 (en) * 2013-05-28 2016-08-09 Qualcomm Incorporated Performing spatial masking with respect to spherical harmonic coefficients
US20140355769A1 (en) 2013-05-29 2014-12-04 Qualcomm Incorporated Energy preservation for decomposed representations of a sound field
US9466305B2 (en) 2013-05-29 2016-10-11 Qualcomm Incorporated Performing positional analysis to code spherical harmonic coefficients
US9384741B2 (en) * 2013-05-29 2016-07-05 Qualcomm Incorporated Binauralization of rotated higher order ambisonics
BR112015030103B1 (pt) * 2013-05-29 2021-12-28 Qualcomm Incorporated Compressão de representações decomposta de campo sonoro
JP6186900B2 (ja) 2013-06-04 2017-08-30 ソニー株式会社 固体撮像装置、電子機器、レンズ制御方法、および撮像モジュール
WO2014195190A1 (en) * 2013-06-05 2014-12-11 Thomson Licensing Method for encoding audio signals, apparatus for encoding audio signals, method for decoding audio signals and apparatus for decoding audio signals
EP3011764B1 (en) 2013-06-18 2018-11-21 Dolby Laboratories Licensing Corporation Bass management for audio rendering
EP2824661A1 (en) * 2013-07-11 2015-01-14 Thomson Licensing Method and Apparatus for generating from a coefficient domain representation of HOA signals a mixed spatial/coefficient domain representation of said HOA signals
EP2830335A3 (en) 2013-07-22 2015-02-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method, and computer program for mapping first and second input channels to at least one output channel
CN103618986B (zh) * 2013-11-19 2015-09-30 深圳市新一代信息技术研究院有限公司 一种3d空间中音源声像体的提取方法及装置
US10020000B2 (en) * 2014-01-03 2018-07-10 Samsung Electronics Co., Ltd. Method and apparatus for improved ambisonic decoding
US9502045B2 (en) 2014-01-30 2016-11-22 Qualcomm Incorporated Coding independent frames of ambient higher-order ambisonic coefficients
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US20150243292A1 (en) * 2014-02-25 2015-08-27 Qualcomm Incorporated Order format signaling for higher-order ambisonic audio data
CN117253494A (zh) * 2014-03-21 2023-12-19 杜比国际公司 用于对压缩的hoa信号进行解码的方法、装置和存储介质
EP2922057A1 (en) 2014-03-21 2015-09-23 Thomson Licensing Method for compressing a Higher Order Ambisonics (HOA) signal, method for decompressing a compressed HOA signal, apparatus for compressing a HOA signal, and apparatus for decompressing a compressed HOA signal
KR101846484B1 (ko) * 2014-03-21 2018-04-10 돌비 인터네셔널 에이비 고차 앰비소닉스(hoa) 신호를 압축하는 방법, 압축된 hoa 신호를 압축 해제하는 방법, hoa 신호를 압축하기 위한 장치, 및 압축된 hoa 신호를 압축 해제하기 위한 장치
US10412522B2 (en) * 2014-03-21 2019-09-10 Qualcomm Incorporated Inserting audio channels into descriptions of soundfields
WO2015152666A1 (ko) * 2014-04-02 2015-10-08 삼성전자 주식회사 Hoa 신호를 포함하는 오디오 신호를 디코딩하는 방법 및 장치
US20150332682A1 (en) * 2014-05-16 2015-11-19 Qualcomm Incorporated Spatial relation coding for higher order ambisonic coefficients
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
US9620137B2 (en) 2014-05-16 2017-04-11 Qualcomm Incorporated Determining between scalar and vector quantization in higher order ambisonic coefficients
US9852737B2 (en) * 2014-05-16 2017-12-26 Qualcomm Incorporated Coding vectors decomposed from higher-order ambisonics audio signals
CA2949108C (en) * 2014-05-30 2019-02-26 Qualcomm Incorporated Obtaining sparseness information for higher order ambisonic audio renderers
CN113808598A (zh) 2014-06-27 2021-12-17 杜比国际公司 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的方法
US9536531B2 (en) * 2014-08-01 2017-01-03 Qualcomm Incorporated Editing of higher-order ambisonic audio data
US9847088B2 (en) * 2014-08-29 2017-12-19 Qualcomm Incorporated Intermediate compression for higher order ambisonic audio data
US9747910B2 (en) 2014-09-26 2017-08-29 Qualcomm Incorporated Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework
GB2532034A (en) * 2014-11-05 2016-05-11 Lee Smiles Aaron A 3D visual-audio data comprehension method
EP3251116A4 (en) * 2015-01-30 2018-07-25 DTS, Inc. System and method for capturing, encoding, distributing, and decoding immersive audio
US10327067B2 (en) * 2015-05-08 2019-06-18 Samsung Electronics Co., Ltd. Three-dimensional sound reproduction method and device
JP6466251B2 (ja) * 2015-05-20 2019-02-06 アルパイン株式会社 音場再現システム
TWI607655B (zh) * 2015-06-19 2017-12-01 Sony Corp Coding apparatus and method, decoding apparatus and method, and program
US9961467B2 (en) 2015-10-08 2018-05-01 Qualcomm Incorporated Conversion from channel-based audio to HOA
US10249312B2 (en) * 2015-10-08 2019-04-02 Qualcomm Incorporated Quantization of spatial vectors
US9961475B2 (en) 2015-10-08 2018-05-01 Qualcomm Incorporated Conversion from object-based audio to HOA
CN108496221B (zh) 2016-01-26 2020-01-21 杜比实验室特许公司 自适应量化
EP3209036A1 (en) 2016-02-19 2017-08-23 Thomson Licensing Method, computer readable storage medium, and apparatus for determining a target sound scene at a target position from two or more source sound scenes
EP3232688A1 (en) 2016-04-12 2017-10-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for providing individual sound zones
US10074012B2 (en) 2016-06-17 2018-09-11 Dolby Laboratories Licensing Corporation Sound and video object tracking
US11032663B2 (en) 2016-09-29 2021-06-08 The Trustees Of Princeton University System and method for virtual navigation of sound fields through interpolation of signals from an array of microphone assemblies
KR20180090022A (ko) * 2017-02-02 2018-08-10 한국전자통신연구원 다중 전방향 카메라 및 마이크 기반 가상현실 제공 방법 및 가상 현실 제공 방법을 수행하는 음향 신호 처리 장치 및 영상 신호 처리 장치
JP7099456B2 (ja) * 2017-05-16 2022-07-12 ソニーグループ株式会社 スピーカアレイ、および信号処理装置
US10390166B2 (en) * 2017-05-31 2019-08-20 Qualcomm Incorporated System and method for mixing and adjusting multi-input ambisonics
US10405126B2 (en) 2017-06-30 2019-09-03 Qualcomm Incorporated Mixed-order ambisonics (MOA) audio data for computer-mediated reality systems
RU2736274C1 (ru) * 2017-07-14 2020-11-13 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Принцип формирования улучшенного описания звукового поля или модифицированного описания звукового поля с использованием dirac-технологии с расширением глубины или других технологий
CN107920303B (zh) * 2017-11-21 2019-12-24 北京时代拓灵科技有限公司 一种音频采集的方法及装置
US10595146B2 (en) 2017-12-21 2020-03-17 Verizon Patent And Licensing Inc. Methods and systems for extracting location-diffused ambient sound from a real-world scene
JP7102024B2 (ja) 2018-04-10 2022-07-19 ガウディオ・ラボ・インコーポレイテッド メタデータを利用するオーディオ信号処理装置
GB2574238A (en) * 2018-05-31 2019-12-04 Nokia Technologies Oy Spatial audio parameter merging
KR102323529B1 (ko) 2018-12-17 2021-11-09 한국전자통신연구원 복합 차수 앰비소닉을 이용한 오디오 신호 처리 방법 및 장치
JP2022539217A (ja) 2019-07-02 2022-09-07 ドルビー・インターナショナル・アーベー 離散指向性情報の表現、符号化、および復号化のための方法、装置、およびシステム
JP7285434B2 (ja) * 2019-08-08 2023-06-02 日本電信電話株式会社 スピーカアレイ、信号処理装置、信号処理方法および信号処理プログラム
US10735887B1 (en) * 2019-09-19 2020-08-04 Wave Sciences, LLC Spatial audio array processing system and method
US11430451B2 (en) * 2019-09-26 2022-08-30 Apple Inc. Layered coding of audio with discrete objects
RU2751440C1 (ru) * 2020-10-19 2021-07-13 Федеральное государственное бюджетное образовательное учреждение высшего образования «Московский государственный университет имени М.В.Ломоносова» (МГУ) Система для голографической записи и воспроизведения звуковой информации
CN115226001B (zh) * 2021-11-24 2024-05-03 广州汽车集团股份有限公司 声能量补偿方法、装置及计算机设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1495705A (zh) * 1995-12-01 2004-05-12 ���־糡ϵͳ�ɷ����޹�˾ 多通道声码器
CN1677490A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
EP2205007A1 (en) * 2008-12-30 2010-07-07 Fundació Barcelona Media Universitat Pompeu Fabra Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB1512514A (en) 1974-07-12 1978-06-01 Nat Res Dev Microphone assemblies
US20030147539A1 (en) 2002-01-11 2003-08-07 Mh Acoustics, Llc, A Delaware Corporation Audio system based on at least second-order eigenbeams
FR2858403B1 (fr) 2003-07-31 2005-11-18 Remy Henri Denis Bruno Systeme et procede de determination d'une representation d'un champ acoustique
JP5023662B2 (ja) * 2006-11-06 2012-09-12 ソニー株式会社 信号処理システム、信号送信装置、信号受信装置およびプログラム
EP2451196A1 (en) * 2010-11-05 2012-05-09 Thomson Licensing Method and apparatus for generating and for decoding sound field data including ambisonics sound field data of an order higher than three

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1495705A (zh) * 1995-12-01 2004-05-12 ���־糡ϵͳ�ɷ����޹�˾ 多通道声码器
CN101872618A (zh) * 1995-12-01 2010-10-27 Dts(Bvi)有限公司 多通道音频编码器
CN1677490A (zh) * 2004-04-01 2005-10-05 北京宫羽数字技术有限责任公司 一种增强音频编解码装置及方法
EP2205007A1 (en) * 2008-12-30 2010-07-07 Fundació Barcelona Media Universitat Pompeu Fabra Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction

Cited By (69)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11172317B2 (en) 2012-03-28 2021-11-09 Dolby International Ab Method and apparatus for decoding stereo loudspeaker signals from a higher-order ambisonics audio signal
US12010501B2 (en) 2012-03-28 2024-06-11 Dolby International Ab Method and apparatus for decoding stereo loudspeaker signals from a higher-order Ambisonics audio signal
CN105027199B (zh) * 2013-03-01 2018-05-29 高通股份有限公司 在位流中指定球谐系数和/或高阶立体混响系数
CN105027199A (zh) * 2013-03-01 2015-11-04 高通股份有限公司 在位流中指定球谐系数和/或高阶立体混响系数
US11770667B2 (en) 2013-10-23 2023-09-26 Dolby Laboratories Licensing Corporation Method for and apparatus for decoding/rendering an ambisonics audio soundfield representation for audio playback using 2D setups
US11451918B2 (en) 2013-10-23 2022-09-20 Dolby Laboratories Licensing Corporation Method for and apparatus for decoding/rendering an Ambisonics audio soundfield representation for audio playback using 2D setups
US11750996B2 (en) 2013-10-23 2023-09-05 Dolby Laboratories Licensing Corporation Method for and apparatus for decoding/rendering an Ambisonics audio soundfield representation for audio playback using 2D setups
CN108632736B (zh) * 2013-10-23 2021-06-01 杜比国际公司 用于音频信号呈现的方法和装置
US10986455B2 (en) 2013-10-23 2021-04-20 Dolby Laboratories Licensing Corporation Method for and apparatus for decoding/rendering an ambisonics audio soundfield representation for audio playback using 2D setups
US10694308B2 (en) 2013-10-23 2020-06-23 Dolby Laboratories Licensing Corporation Method for and apparatus for decoding/rendering an ambisonics audio soundfield representation for audio playback using 2D setups
CN108632736A (zh) * 2013-10-23 2018-10-09 杜比国际公司 用于音频信号呈现的方法和装置
US10015615B2 (en) 2013-11-19 2018-07-03 Sony Corporation Sound field reproduction apparatus and method, and program
CN105723743A (zh) * 2013-11-19 2016-06-29 索尼公司 声场再现设备和方法以及程序
CN107995582A (zh) * 2013-11-28 2018-05-04 杜比国际公司 使用奇异值分解进行hoa编码和解码的方法和装置
CN111179951A (zh) * 2014-01-08 2020-05-19 杜比国际公司 包括编码hoa表示的位流的解码方法和装置、以及介质
CN111179951B (zh) * 2014-01-08 2024-03-01 杜比国际公司 包括编码hoa表示的位流的解码方法和装置、以及介质
CN111179955A (zh) * 2014-01-08 2020-05-19 杜比国际公司 包括编码hoa表示的位流的解码方法和装置、以及介质
CN111179955B (zh) * 2014-01-08 2024-04-09 杜比国际公司 包括编码hoa表示的位流的解码方法和装置、以及介质
CN111028849A (zh) * 2014-01-08 2020-04-17 杜比国际公司 包括编码hoa表示的位流的解码方法和装置、以及介质
CN111028849B (zh) * 2014-01-08 2024-03-01 杜比国际公司 包括编码hoa表示的位流的解码方法和装置、以及介质
CN109285553B (zh) * 2014-03-24 2023-09-08 杜比国际公司 对高阶高保真立体声信号应用动态范围压缩的方法和设备
CN109285553A (zh) * 2014-03-24 2019-01-29 杜比国际公司 对高阶高保真立体声信号应用动态范围压缩的方法和设备
CN106165451B (zh) * 2014-03-24 2018-11-30 杜比国际公司 对高阶高保真立体声信号应用动态范围压缩的方法和设备
CN106165451A (zh) * 2014-03-24 2016-11-23 杜比国际公司 对高阶高保真立体声信号应用动态范围压缩的方法和设备
US11900955B2 (en) 2014-03-26 2024-02-13 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for screen related audio object remapping
CN111276153B (zh) * 2014-03-26 2024-03-29 弗劳恩霍夫应用研究促进协会 屏幕相关的音频对象重映射的设备和方法
CN111276153A (zh) * 2014-03-26 2020-06-12 弗劳恩霍夫应用研究促进协会 屏幕相关的音频对象重映射的设备和方法
CN106415711A (zh) * 2014-05-30 2017-02-15 索尼公司 信息处理装置和信息处理方法
CN110662158A (zh) * 2014-06-27 2020-01-07 杜比国际公司 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的设备
US10872612B2 (en) 2014-06-27 2020-12-22 Dolby Laboratories Licensing Corporation Method and apparatus for determining for the compression of an HOA data frame representation a lowest integer number of bits required for representing non-differential gain values
US11875803B2 (en) 2014-06-27 2024-01-16 Dolby Laboratories Licensing Corporation Methods and apparatus for determining for decoding a compressed HOA sound representation
CN106471822B (zh) * 2014-06-27 2019-10-25 杜比国际公司 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的设备
TWI811864B (zh) * 2014-06-27 2023-08-11 瑞典商杜比國際公司 用於解碼聲音或聲場的高階保真立體音響(hoa)表示的方法
CN110556120B (zh) * 2014-06-27 2023-02-28 杜比国际公司 用于解码声音或声场的高阶高保真度立体声响复制(hoa)表示的方法
CN110556120A (zh) * 2014-06-27 2019-12-10 杜比国际公司 用于解码声音或声场的高阶高保真度立体声响复制(hoa)表示的方法
US11322165B2 (en) 2014-06-27 2022-05-03 Dolby Laboratories Licensing Corporation Methods and apparatus for determining for decoding a compressed hoa sound representation
CN106471822A (zh) * 2014-06-27 2017-03-01 杜比国际公司 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的设备
CN110662158B (zh) * 2014-06-27 2021-05-25 杜比国际公司 用于解码声音或声场的压缩hoa声音表示的方法和装置
CN106471580A (zh) * 2014-06-27 2017-03-01 杜比国际公司 针对hoa数据帧表示的压缩确定表示非差分增益值所需的最小整数比特数的方法和设备
CN106471574A (zh) * 2014-06-30 2017-03-01 索尼公司 信息处理装置和信息处理方法
CN106471579B (zh) * 2014-07-02 2020-12-18 杜比国际公司 用于对hoa信号表示的子带内的主导方向信号的方向进行编码/解码的方法和装置
CN106463131B (zh) * 2014-07-02 2020-12-08 杜比国际公司 用于对hoa信号表示的子带内的主导方向信号的方向进行编码/解码的方法和装置
CN106471579A (zh) * 2014-07-02 2017-03-01 杜比国际公司 用于对hoa信号表示的子带内的主导方向信号的方向进行编码/解码的方法和装置
CN106663433B (zh) * 2014-07-02 2020-12-29 高通股份有限公司 用于处理音频数据的方法和装置
CN106463131A (zh) * 2014-07-02 2017-02-22 杜比国际公司 用于对hoa信号表示的子带内的主导方向信号的方向进行编码/解码的方法和装置
CN106663433A (zh) * 2014-07-02 2017-05-10 高通股份有限公司 减少高阶立体混响(hoa)背景信道之间的相关性
CN106796794A (zh) * 2014-10-07 2017-05-31 高通股份有限公司 环境高阶立体混响音频数据的归一化
CN107077853A (zh) * 2014-10-10 2017-08-18 杜比国际公司 用于对声场的高阶高保真立体声hoa信号表示进行低位速率压缩的方法和装置
CN106796795A (zh) * 2014-10-10 2017-05-31 高通股份有限公司 以信号表示用于高阶立体混响音频数据的可缩放译码的层
US11138983B2 (en) 2014-10-10 2021-10-05 Qualcomm Incorporated Signaling layers for scalable coding of higher order ambisonic audio data
CN107077853B (zh) * 2014-10-10 2020-09-08 杜比国际公司 用于对声场的高阶高保真立体声hoa信号表示进行低位速率压缩的方法和装置
US11664035B2 (en) 2014-10-10 2023-05-30 Qualcomm Incorporated Spatial transformation of ambisonic audio data
CN107210043B (zh) * 2015-02-03 2018-10-09 高通股份有限公司 按运动稳定译码高阶立体混响音频数据
WO2017101406A1 (zh) * 2015-12-15 2017-06-22 乐视控股(北京)有限公司 基于Android的音频内容处理方法及设备
CN106340301A (zh) * 2016-09-13 2017-01-18 广州酷狗计算机科技有限公司 一种音频播放方法和装置
CN106340301B (zh) * 2016-09-13 2020-01-24 广州酷狗计算机科技有限公司 一种音频播放方法和装置
CN110100460A (zh) * 2017-01-30 2019-08-06 谷歌有限责任公司 基于头部位置和时间的具有非头部跟踪立体声的高保真度立体声响复制音频
CN110313187A (zh) * 2017-06-15 2019-10-08 杜比国际公司 在计算机介导的现实应用中优化发送方与接收方之间的通信的方法、装置和系统
CN111183479B (zh) * 2017-07-14 2023-11-17 弗劳恩霍夫应用研究促进协会 使用多层描述生成经增强的声场描述的装置及方法
CN111149155A (zh) * 2017-07-14 2020-05-12 弗劳恩霍夫应用研究促进协会 使用多点声场描述生成经增强的声场描述或经修改的声场描述的概念
US11863962B2 (en) 2017-07-14 2024-01-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for generating an enhanced sound-field description or a modified sound field description using a multi-layer description
US11950085B2 (en) 2017-07-14 2024-04-02 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for generating an enhanced sound field description or a modified sound field description using a multi-point sound field description
CN111183479A (zh) * 2017-07-14 2020-05-19 弗劳恩霍夫应用研究促进协会 使用多层描述生成经增强的声场描述或经修改的声场描述的概念
CN111149155B (zh) * 2017-07-14 2023-10-10 弗劳恩霍夫应用研究促进协会 使用多点声场描述生成经增强的声场描述的装置及方法
CN109756683A (zh) * 2017-11-02 2019-05-14 深圳市裂石影音科技有限公司 全景音视频录制方法、装置、存储介质和计算机设备
CN109756683B (zh) * 2017-11-02 2024-06-04 深圳市裂石影音科技有限公司 全景音视频录制方法、装置、存储介质和计算机设备
CN111684822B (zh) * 2018-02-09 2022-03-18 谷歌有限责任公司 环境立体声的定向增强
CN111684822A (zh) * 2018-02-09 2020-09-18 谷歌有限责任公司 环境立体声的定向增强
US12067992B2 (en) * 2019-04-02 2024-08-20 Nokia Technologies Oy Audio codec extension

Also Published As

Publication number Publication date
KR20140000240A (ko) 2014-01-02
HK1189297A1 (zh) 2014-05-30
CN103250207B (zh) 2016-01-20
KR101824287B1 (ko) 2018-01-31
US9241216B2 (en) 2016-01-19
BR112013010754A8 (pt) 2018-06-12
US20130216070A1 (en) 2013-08-22
AU2011325335B2 (en) 2015-05-21
EP2636036A1 (en) 2013-09-11
PT2636036E (pt) 2014-10-13
BR112013010754A2 (pt) 2018-05-02
EP2450880A1 (en) 2012-05-09
EP2636036B1 (en) 2014-08-27
WO2012059385A1 (en) 2012-05-10
BR112013010754B1 (pt) 2021-06-15
AU2011325335A1 (en) 2013-05-09
JP5823529B2 (ja) 2015-11-25
AU2011325335B8 (en) 2015-06-04
AU2011325335A8 (en) 2015-06-04
JP2013545391A (ja) 2013-12-19

Similar Documents

Publication Publication Date Title
CN103250207B (zh) 高阶高保真度立体声响复制音频数据的数据结构
CN107533843B (zh) 用于捕获、编码、分布和解码沉浸式音频的系统和方法
EP2962298B1 (en) Specifying spherical harmonic and/or higher order ambisonics coefficients in bitstreams
EP2205007B1 (en) Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
TWI646847B (zh) 屬於第1階保真立體音響訊號且具有第0階和第1階係數的輸入訊號指向性之增進方法及裝置
AU2015330758B2 (en) Signaling layers for scalable coding of higher order ambisonic audio data
CN105981411A (zh) 用于高声道计数的多声道音频的基于多元组的矩阵混合
CN109166587B (zh) 处理信道信号的编码/解码装置及方法
AU2015330759B2 (en) Signaling channels for scalable coding of higher order ambisonic audio data
TW201509200A (zh) 用於音場之分解表示之能量保留
TW202007191A (zh) 在後向相容音訊位元串流中內嵌增強式音訊傳輸

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20160714

Address after: Amsterdam

Patentee after: Dolby International AB

Address before: I Si Eli Murli Nor, France

Patentee before: Thomson Licensing SA