CN108141688B - 从以信道为基础的音频到高阶立体混响的转换 - Google Patents
从以信道为基础的音频到高阶立体混响的转换 Download PDFInfo
- Publication number
- CN108141688B CN108141688B CN201680057675.7A CN201680057675A CN108141688B CN 108141688 B CN108141688 B CN 108141688B CN 201680057675 A CN201680057675 A CN 201680057675A CN 108141688 B CN108141688 B CN 108141688B
- Authority
- CN
- China
- Prior art keywords
- audio
- vector
- spatial
- audio signal
- source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000006243 chemical reaction Methods 0.000 title description 12
- 239000013598 vector Substances 0.000 claims abstract description 550
- 230000005236 sound signal Effects 0.000 claims abstract description 254
- 238000000034 method Methods 0.000 claims abstract description 143
- 239000011159 matrix material Substances 0.000 claims abstract description 96
- 238000009877 rendering Methods 0.000 claims abstract description 96
- 230000004807 localization Effects 0.000 claims abstract description 45
- 241000700566 Swinepox virus (STRAIN KASZA) Species 0.000 abstract 1
- 238000013139 quantization Methods 0.000 description 85
- 238000010586 diagram Methods 0.000 description 48
- 230000006870 function Effects 0.000 description 13
- 238000007906 compression Methods 0.000 description 8
- 230000006835 compression Effects 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 5
- 238000013500 data storage Methods 0.000 description 5
- 235000009508 confectionery Nutrition 0.000 description 4
- 230000011664 signaling Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000013144 data compression Methods 0.000 description 2
- 238000007667 floating Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004091 panning Methods 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000004134 energy conservation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/02—Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/308—Electronic adaptation dependent on speaker or headphone connection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/173—Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Analysis (AREA)
- Theoretical Computer Science (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Optimization (AREA)
- General Physics & Mathematics (AREA)
- Algebra (AREA)
- Stereophonic System (AREA)
Abstract
在一个实例中,一种方法包含:获得用于源扩音器配置的多信道音频信号的表示;获得在高阶立体混响HOA域中的基于源呈现矩阵的多个空间定位向量SPV的表示,所述源呈现矩阵基于所述扩音器配置;及基于所述多信道音频信号及所述多个空间定位向量产生HOA音场。
Description
本申请案主张2015年10月8日申请的美国临时专利申请案62/239,079的权益,所述临时专利申请案的全部内容以引用的方式并入本文中。
技术领域
本发明涉及音频数据,且更具体来说,涉及高阶立体混响音频数据的译码。
背景技术
高阶立体混响(HOA)信号(常常通过多个球谐系数(SHC)或其它阶层元素表示)为音场的三维表示。HOA或SHC表示可按独立于用以播放从SHC信号呈现的多信道音频信号的局部扩音器几何布置的方式来表示音场。SHC信号也可促进回溯兼容性,此是因为可将SHC信号呈现为熟知且被高度采用的多信道格式,例如,5.1音频信道格式或7.1音频信道格式。SHC表示因此可实现音场的更好表示,其也适应回溯兼容性。
发明内容
在一个实例中,装置包括存储器,其经配置以存储经译码音频位流;及一或多个处理器,其电耦合到所述存储器。在此实例中,所述一或多个处理器经配置以:从经译码音频位流获得用于源扩音器配置的多信道音频信号的表示;获得高阶立体混响(HOA)域中的基于源呈现矩阵的多个空间定位向量的表示,所述源呈现矩阵基于源扩音器配置;基于多信道音频信号及多个空间定位向量产生HOA音场;及呈现HOA音场以基于表示多个局部扩音器的位置的局部扩音器配置产生多个音频信号,其中所述多个音频信号中的每一相应音频信号对应于多个局部扩音器中的相应扩音器。
在另一实例中,一种装置包含一或多个处理器,其经配置以:接收用于源扩音器配置的多信道音频信号;获得基于源扩音器配置的源呈现矩阵;基于源呈现矩阵获得高阶立体混响(HOA)域中的多个空间定位向量,所述多个空间定位向量与多信道音频信号组合而表示对应于多信道音频信号的HOA音场,及在经译码音频位流中编码多信道音频信号的表示及多个空间定位向量的指示。在此实例中,所述装置也包含存储器,其电耦合到所述一或多个处理器,经配置以存储经译码位流。
在另一实例中,一种方法包含:从经译码音频位流获得用于源扩音器配置的多信道音频信号的表示;获得高阶立体混响(HOA)域中的基于源呈现矩阵的多个空间定位向量的表示,所述源呈现矩阵基于源扩音器配置;基于多信道音频信号及多个空间定位向量产生HOA音场;及呈现HOA音场以基于表示多个局部扩音器的位置的局部扩音器配置而产生多个音频信号,其中多个音频信号中的每一相应音频信号对应于多个局部扩音器中的相应扩音器。
在另一实例中,一种方法包含:接收用于源扩音器配置的多信道音频信号;获得基于源扩音器配置的源呈现矩阵;基于源呈现矩阵获得高阶立体混响(HOA)域中的多个空间定位向量,所述多个空间定位向量与多信道音频信号组合而表示对应于多信道音频信号的HOA音场,及在经译码音频位流中编码多信道音频信号的表示及多个空间定位向量的指示。
在随附图式及以下描述中阐述本发明的一或多个方面的细节。本发明中所描述的技术的其它特征、目标及优点将从描述及图式且从权利要求书显而易见。
附图说明
图1为说明可执行本发明中所描述的技术的各种方面的系统的图。
图2为说明具有各种阶数及子阶数的球谐基底函数的图。
图3为说明根据本发明的一或多个技术的音频编码装置的实例实施方案的框图。
图4为说明根据本发明的一或多个技术的用于与图3中所示的音频编码装置的实例实施方案一起使用的音频编码装置的实例实施方案的框图。
图5为说明根据本发明的一或多个技术的音频编码装置的实例实施方案的框图。
图6为说明根据本发明的一或多个技术的向量编码单元的实例实施方案的图。
图7为展示理想球面设计位置的实例集合的表。
图8为展示理想球面设计位置的另一实例集合的表。
图9为说明根据本发明的一或多个技术的向量编码单元的实例实施方案的框图。
图10为说明根据本发明的一或多个技术的音频解码装置的实例实施方案的框图。
图11为说明根据本发明的一或多个技术的向量解码单元的实例实施方案的框图。
图12为说明根据本发明的一或多个技术的向量解码单元的替代实施方案的框图。
图13为说明根据本发明的一或多个技术的音频编码装置的实例实施方案的框图,其中所述音频编码装置经配置以编码基于对象的音频数据。
图14为说明根据本发明的一或多个技术的用于基于对象的音频数据的向量编码单元68C的实例实施方案的框图。
图15为说明VBAP的概念图。
图16为说明根据本发明的一或多个技术的音频解码装置的实例实施方案的框图,其中所述音频解码装置经配置以解码基于对象的音频数据。
图17为说明根据本发明的一或多个技术的音频编码装置的实例实施方案的框图,其中所述音频编码装置经配置以量化空间向量。
图18为说明根据本发明的一或多个技术的用于与图17中所示的音频编码装置的实例实施方案一起使用的音频解码装置的实例实施方案的框图。
图19为说明根据本发明的一或多个技术的呈现单元210的实例实施方案的框图。
图20说明根据本发明的一或多个技术的汽车扬声器播放环境。
图21为说明根据本发明的一或多个技术的音频编码装置的实例操作的流程图。
图22为说明根据本发明的一或多个技术的音频解码装置的实例操作的流程图。
图23为说明根据本发明的一或多个技术的音频编码装置的实例操作的流程图。
图24为说明根据本发明的一或多个技术的音频解码装置的实例操作的流程图。
图25为说明根据本发明的一或多个技术的音频编码装置的实例操作的流程图。
图26为说明根据本发明的一或多个技术的音频解码装置的实例操作的流程图。
图27为说明根据本发明的一或多个技术的音频编码装置的实例操作的流程图。
图28为说明根据本发明的技术的实例向量编码单元的框图。
具体实施方式
环绕声的演化现今已使得许多输出格式可用于娱乐。这些消费型环绕声格式的实例大部分为以“信道”为基础的,这是因为其以某些几何坐标隐含地指定到扩音器的馈入。消费型环绕声格式包含流行的5.1格式(其包含以下六个信道:左前(FL)、右前(FR)、中心或前中心、左后或左环绕、右后或右环绕,及低频效应(LFE))、发展中的7.1格式、包含高度扬声器的各种格式,例如7.1.4格式及22.2格式(例如,用于供超高清晰度电视标准使用)。非消费型格式可涵括任何数目的扬声器(成对称及非对称几何结构),其常常称为“环绕阵列”。此类阵列的一个实例包含定位于截顶二十面体的拐角上的坐标处的32个扩音器。
音频编码器可接收呈三种可能格式中的一种的输入:(i)传统的以信道为基础的音频(如上文所论述),其意谓经由在预先指定的位置处的扩音器播放;(ii)基于对象的音频,其涉及用于单音频对象的离散脉码调制(PCM)数据及含有其场所坐标(以及其它信息)的相关联元数据;及(iii)基于场景的音频,其涉及使用球谐基底函数的系数(也称为“球谐系数”或SHC、“高阶立体混响”或HOA及“HOA系数”)来表示音场。
在一些实例中,编码器可按接收到的格式来编码所接收的音频数据。举例来说,接收传统的7.1以信道为基础的音频的编码器可将以信道为基础的音频编码为位流,其可由解码器播放。然而,在一些实例中,为了使得能够在具有5.1播放功能(而非7.1播放功能)的解码器处播放,编码器也可包含位流中的7.1以信道为基础的音频的5.1版本。在一些实例中,可能不需要编码器包含位流中的音频的多个版本。作为一个实例,包含位流中的音频的多个版本可增加位流的大小,且因此可增加发射所需的频宽的量及/或存储位流所需的存储器的量。作为另一实例,内容创建者(例如,好莱坞工作室)希望一次制作电影的声迹且不费力混音每一扬声器配置的声迹。因此,可能需要提供到标准化位流中的编码及对播放(涉及呈现器)的位置处的扬声器几何形状(及数目)及声学条件可调适及不可知的后续解码。
在一些实例中,为了使音频解码器能够用任意扬声器配置播放音频,音频编码器可转换单一格式的输入音频以用于编码。举例来说,音频编码器可将多信道音频数据及/或音频对象转换为阶层元素集合且编码位流中的所得元素集合。所述阶层元素集合可指其中元素经排序而使得基本低阶元素集合提供经模型化音场的完整表示的一组元素。当将所述集合扩展以包含高阶元素时,所述表示变得更详细,从而增加分辨率。
阶层元素集合的一个实例为球谐系数(SHC)集合,其也可称为高阶立体混响(HOA)系数。以下方程式(1)表明使用SHC对音场的描述或表示。
方程式(1)展示在时间t在音场的任何点处的压力pi可由独特地表示。此处,c为声速(~343m/s),为参考点(或观测点),jn(·)为阶数n的球贝塞尔函数,且为阶数n及子阶数m的球谐基底函数。可认识到,方括弧中的项为信号的频域表示(即,),其可通过各种时间-频率变换(例如,离散傅立叶变换(DFT)、离散余弦变换(DCT)或小波变换)来近似。阶层集合的其它实例包含小波变换系数集合及其它多分辨率基底函数系数集合。出于简单的目的,下文参考HOA系数描述本发明。然而,应了解,所述技术可同样适用于其它阶层集合。
然而,在一些实例中,可不需要将所有接收到的音频数据转换为HOA系数。举例来说,如果音频编码器是将所有接收到的音频数据转换为HOA系数,所得位流可不与不能够处理HOA系数的音频解码器(即,仅可处理多信道音频数据及音频对象中的一或两者的音频解码器)回溯兼容。因此,音频编码器可能需要编码接收到的音频数据,以使得所得位流使音频解码器能够用任意扬声器配置来播放音频数据,同时还实现与不能够处理HOA系数的内容消费者系统的回溯兼容性。
根据本发明的一或多个技术,如与将接收到的音频数据转换为HOA系数及在位流中编码所得HOA系数相反,音频编码器可在位流中编码接收到的呈其原始格式的音频数据以及实现经编码音频数据到HOA系数的转换的信息。举例来说,音频编码器可确定实现经编码音频数据到HOA系数的转换的一或多个空间定位向量(SPV),且在位流中编码所述一或多个SPV的表示及接收到的音频数据的表示。在一些实例中,所述一或多个SPV中的特定SPV的表示可为对应于码簿中的特定SPV的索引。可基于源扩音器配置(即,接收到的音频数据意欲用于播放的扩音器配置)来确定空间定位向量。以此方式,音频编码器可输出使音频解码器能够用任意扬声器配置播放接收到的音频数据同时也实现与不能够处理HOA系数的音频解码器的回溯兼容性的位流。
音频解码器可接收包含呈其原始格式的音频数据以及实现经编码音频数据到HOA系数的转换的信息的位流。举例来说,音频解码器可接收呈5.1格式的多信道音频数据及一或多个空间定位向量(SPV)。使用所述一或多个空间定位向量,音频解码器可从5.1格式的音频数据产生HOA音场。举例来说,音频解码器可基于多信道音频信号及空间定位向量产生HOA系数的集合。音频解码器可呈现或使得另一装置能够基于局部扩音器配置呈现HOA音场。以此方式,能够处理HOA系数的音频解码器可用任意扬声器配置播放多信道音频数据,同时也实现与不能够处理HOA系数的音频解码器的回溯兼容性。
如上文所论述,音频编码器可确定及编码实现经编码音频数据到HOA系数的转换的一或多个空间定位向量(SPV)。然而,在一些实例中,音频解码器可需要当位流不包含一或多个空间定位向量的指示时用任意扬声器配置播放接收到的音频数据。
根据本发明的一或多个技术,音频解码器可接收经编码音频数据及源扩音器配置(即,经编码音频数据意欲用于播放的扩音器配置的指示),且基于源扩音器配置的指示产生实现经编码音频数据到HOA系数的转换的空间定位向量(SPV)。在一些实例中,例如当经编码音频数据为5.1格式的多信道音频数据的情况下,源扩音器配置的指示可指示经编码音频数据为呈5.1格式的多信道音频数据。
使用空间定位向量,音频解码器可从音频数据产生HOA音场。举例来说,音频解码器可基于多信道音频信号及空间定位向量产生HOA系数的集合。音频解码器可呈现或使得另一装置能够基于局部扩音器配置呈现HOA音场。以此方式,音频解码器可输出位流,其使音频解码器能够用任意扬声器配置播放接收到的音频数据,同时还实现与可不产生及编码空间定位向量的音频编码器的回溯兼容性
如上文所论述,音频译码器(即,音频编码器或音频解码器)可获得(即,产生、确定、检索、接收等)实现经编码音频数据到HOA音场的转换的空间定位向量。在一些实例中,以实现音频数据的近似“完美”重建的目标获得空间定位向量。可考虑空间定位向量以实现音频数据的近似“完美”重建,其中空间定位向量用以将输入N-信道音频数据转换为HOA音场,所述HOA音场在经转换回到N-信道的音频数据时近似地等效于所述输入N-信道音频数据。
为获得实现近似“完美”重建的空间定位向量,音频编码器可确定用于每一向量的系数NHOA的数目。如果HOA音场是根据方程式(2)及(3)表达且由用呈现矩阵D呈现HOA音场所产生的N-信道音频是根据方程式(4)及(5)表达,则在系数的数目经选择为大于或等于输入N-信道音频数据中的信道的数目的情况下,近似“完美”重建可为有可能的。
即,如果满足方程式(6),则近似“完美”重建可为有可能的。
N≤NHOA (6)
即,如果输入信道N的数目小于或等于用于每一空间定位向量的系数NHOA的数目,则近似“完美”重建可为有可能的。
音频译码器可用所选数目的系数获得空间定位向量。HOA音场H可根据方程式(7)表达。
在方程式(7)中,i信道的Hi可为信道i的音频信道Ci与信道i的空间定位向量Vi的转置的乘积,如方程式(8)中所示。
如果方程式(10)或方程式(11)为真,则方程式(9)可适用,其中对方程式(11)的第二解答由于为单数的而移除。
因此,为实现近似“完美”重建,音频译码器可获得满足方程式(15)及(16)的空间定位向量。
N≤NHOA(16)
为了完整性,以下为满足以上方程式的空间定位向量实现近似“完美”重建的证据。对于根据方程式(17)表达的给定N-信道音频,音频译码器可获得可根据方程式(18)及(19)表达的空间定位向量,其中D为基于N-信道音频数据的源扩音器配置确定的源呈现矩阵,[0,…,1,…,0]包含N个元素,且第i个元素为其中其它元素为零的一个元素。
Γ=[C1,C2,…,CN] (17)
{Vi}i=1,…,N (18)
Vi=[[0,…,1,…,0](DDT)-1D]T (19)
音频译码器可基于空间定位向量及根据方程式(20)的N-信道音频数据产生HOA音场H。
可以各种方式处理例如呈现矩阵的矩阵。举例来说,可将矩阵处理(例如,存储、相加、倍增、检索等)为行、列、向量或以其它方式来处理矩阵。
图1为说明可执行本发明中所描述的技术的各种方面的系统2的图。如图1的实例中所示,系统2包含内容创建者系统4及内容消费者系统6。虽然在内容创建者系统4及内容消费者系统6的环境中描述,但所述技术可实施于其中音频数据经编码以形成表示音频数据的位流的任何环境中。此外,内容创建者系统4可包含能够实施本发明中所描述的技术的任何形式的一或多个计算装置,包含手持机(或蜂窝式电话)、平板计算机、智能型手机或台式计算机以提供一些实例。同样,内容消费者系统6可包含能够实施本发明中所描述的技术的任何形式的一或多个计算装置,包含手持机(或蜂窝式电话)、平板计算机、智能型电话、机顶盒、AV-接收器、无线扬声器或台式计算机以提供一些实例。
内容创建者系统4可由各种内容创建者操作,所述各种内容创建者例如电影工作室、电视工作室、因特网流服务或可产生供内容消费者系统(例如内容消费者系统6)的操作者消耗的音频内容的其它实体。常常,内容创建者产生音频内容连同视频内容。内容消费者系统6可由个体操作。大体上,内容消费者系统6可指能够输出多信道音频内容的任何形式的音频播放系统。
内容创建者系统4包含音频编码装置14,其可能够将接收到的音频数据编码到位流。音频编码装置14可从各种源接收音频数据。举例来说,音频编码装置14可获得实时音频数据10及/或预产生的音频数据12。音频编码装置14可接收呈各种格式的实时音频数据10及/或预产生的音频数据12。作为一个实例,音频编码装置14可从一或多个麦克风8接收实时音频数据10作为HOA系数、音频对象或多信道音频数据。作为另一实例,音频编码装置14可接收预产生的音频数据12作为HOA系数、音频对象或多信道音频数据。
如上所述,音频编码装置14可将接收到的音频数据编码到位流(例如位流20)中以供(作为一个实例)横越可为有线或无线信道的发射信道,数据存储装置或类似者发射。在一些实例中,内容创建者系统4将经编码位流20直接发射到内容消费者系统6。在其它实例中,经编码位流也可存储到存储媒体或文件服务器上,以便稍后通过内容消费者系统6存取以用于解码及/或播放。
如上文所论述,在一些实例中,接收到的音频数据可包含HOA系数。然而,在一些实例中,接收到的音频数据可包含呈除HOA系数之外的格式的音频数据,例如多信道音频数据及/或基于对象的音频数据。在一些实例中,音频编码装置14可转换接收到的呈单一格式的音频数据以用于编码。举例来说,如上文所论述,音频编码装置14可将多信道音频数据及/或音频对象转换成HOA系数及在位流20中编码所得HOA系数。以此方式,音频编码装置14可使内容消费者系统能够用任意扬声器配置来播放音频数据。
然而,在一些实例中,可不需要将所有接收到的音频数据转换成HOA系数。举例来说,如果音频编码装置14是将所有接收到的音频数据转换成HOA系数,则所得位流可并不与不能够处理HOA系数的内容消费者系统(即,仅可处理多信道音频数据及音频对象中的一或两者的内容消费者系统)回溯兼容。因此,音频编码装置14可能需要编码接收到的音频数据,以使得所得位流使内容消费者系统能够用任意扬声器配置来播放音频数据,同时还实现与不能够处理HOA系数的内容消费者系统的回溯兼容性。
根据本发明的一或多个技术,如与将接收到的音频数据转换成HOA系数及在位流中编码所得HOA系数相反,音频编码装置14可在位流20中编码接收到的呈其原始格式的音频数据以及实现经编码音频数据到HOA系数的转换的信息。举例来说,音频编码装置14可确定实现经编码音频数据到HOA系数的转换的一或多个空间定位向量(SPV),且在位流20中编码所述一或多个SPV的表示及接收到的音频数据的表示。在一些实例中,音频编码装置14可确定满足以上方程式(15)及(16)的一或多个空间定位向量。以此方式,音频编码装置14可输出使内容消费者系统能够用任意扬声器配置播放接收到的音频数据同时还实现与不能够处理HOA系数的内容消费者系统的回溯兼容性的位流。
内容消费者系统6可基于位流20产生扩音器馈送26。如图1中所示,内容消费者系统6可包含音频解码装置22及扩音器24。扩音器24也可被称作局部扩音器。音频解码装置22可能够解码位流20。作为一个实例,音频解码装置22可对位流20进行解码以重建音频数据及实现经解码音频数据到HOA系数的转换的信息。作为另一实例,音频解码装置22可对位流20进行解码以重建音频数据且可局部确定实现经解码音频数据到HOA系数的转换的信息。举例来说,音频解码装置22可确定满足以上方程式(15)及(16)的一或多个空间定位向量。
在任何情况下,音频解码装置22可使用所述信息将经解码音频数据转换成HOA系数。举例来说,音频解码装置22可使用SPV将经解码音频数据转换成HOA系数并呈现HOA系数。在一些实例中,音频解码装置可呈现所得HOA系数以输出可驱动扩音器24中的一或多者的扩音器馈送26。在一些实例中,音频解码装置可将所得HOA系数输出到外部呈现器(未图示),所述外部呈现器可呈现HOA系数以输出可驱动扩音器24中的一或多者的扩音器馈送26。换句话说,HOA音场由扩音器24播放。在各种实例中,扩音器24可为车辆、住宅、电影院、音乐会场地或其它场所。
音频编码装置14及音频解码装置22各可实施为各种合适电路中的任一者,例如一或多个集成电路,其包含微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、离散逻辑、软件、硬件、固件或其任何组合。当以软件部分地实施技术时,装置可将用于软件的指令存储于合适的非暂时性计算机可读媒体中,且使用一或多个处理器来执行例如集成电路的硬件中的指令以执行本发明的技术。
图2为说明从零阶(n=0)到四阶(n=4)的球谐基底函数的图。如可见,对于每一阶来说,存在子阶m的扩展,出于易于说明的目的,在图1的实例中展示了所述子阶但却未显式注释。
可由各种麦克风阵列配置实体地获取(例如,记录)SHC或替代地,其可从音场的以信道为基础或基于对象的描述导出。SHC表示基于场景的音频,其中可将SHC输入到音频编码器以获得经编码SHC,所述经编码SHC可促成更有效率的发射或存储。举例来说,可使用涉及1+24个(25,且因此为四阶)系数的四阶表示。
如上文所陈述,可使用麦克风阵列从麦克风记录导出SHC。可如何从麦克风阵列导出SHC的各种实例描述于波莱蒂(Poletti),M.的“基于球谐的三维环绕声系统(Three-Dimensional Surround Sound Systems Based on Spherical Harmonics)”(J.音频工程学会(Audio Eng.Soc.),第53卷,第11期,2005年11月,第1004到1025页)中。
已知随频率变化的对象源能量g(ω)(例如,使用时间-频率分析技术,例如,对PCM流执行快速傅立叶变换)允许我们将每一PCM对象及对应位置转换成SHC另外,可展示(由于上式为线性及正交分解):每一对象的系数为相加性的。以此方式,许多PCM对象可由系数(例如,作为个别对象的系数向量的总和)来表示。基本上,所述系数含有关于音场的信息(作为3D坐标的函数的压力),且上式表示在观测点附近从个别对象到总音场的表示的变换。
图3为说明根据本发明的一或多个技术的音频编码装置14的实例实施方案的框图。图3中所示的音频编码装置14的实例实施方案标记为音频编码装置14A。音频编码装置14A包含音频编码单元51、位流产生单元52A及存储器54。在其它实例中,音频编码装置14A可包含更多、更少或不同单元。举例来说,音频编码装置14A可不包含音频编码单元51,或音频编码单元51可实施于可经由一或多个有线或无线连接而连接到音频编码装置14A的单独装置中。
音频信号50可表示由音频编码装置14A接收的输入音频信号。在一些实例中,音频信号50可为用于源扩音器配置的多信道音频信号。举例来说,如图3中所示,音频信号50可包含表示为信道C1到信道CN的N个信道的音频数据。作为一个实例,音频信号50可为用于5.1的源扩音器配置的6信道音频信号(即,左前信道、中心信道、右前信道、左后环绕信道、右后环绕信道,及低频效应(LFE)信道)作为另一实例,音频信号50可为用于7.1的源扩音器配置的8信道音频信号(即,左前信道、中心信道、右前信道、左后环绕信道、左环绕信道、右后环绕信道,右环绕信道及低频效应(LFE)信道)。其它实例是可能的,例如24信道音频信号(例如,22.2)、9信道音频信号(例如,8.1)及信道的任何其它组合。
在一些实例中,音频编码装置14A可包含音频编码单元51,其可经配置以将音频信号50编码成经译码音频信号62。举例来说,音频编码单元51可量化格式或另外压缩音频信号50以产生音频信号62。如图3的实例中所示,音频编码单元51可将信道C1到CN的音频信号50编码成信道C'1到C'N的经译码音频信号62。在一些实例中,音频编码单元51可被称为音频编解码器(CODEC)。
源扩音器设置信息48可指定源扩音器设定中的扩音器的数目(例如,N)及源扩音器设定中的扩音器的位置。在一些实例中,源扩音器设置信息48可指示呈方位角及仰角(例如,{θi,φi}i=1,…,N)形式的源扩音器的位置。在一些实例中,源扩音器设置信息48可指示呈预定义设定(例如,5.1、7.1、22.2)的形式的源扩音器的位置。在一些实例中,音频编码装置14A可基于源扩音器设置信息48确定源呈现格式D。在一些实例中,源呈现格式D可表示为矩阵。
位流产生单元52A可经配置以基于一或多个输入产生位流。在图3的实例中,位流产生单元52A可经配置以将扩音器位置信息48及音频信号50编码到位流56A中。在一些实例中,位流产生单元52A可编码音频信号而不压缩。举例来说,位流产生单元52A可将音频信号50编码到位流56A中。在一些实例中,位流产生单元52A可利用压缩编码音频信号。举例来说,位流产生单元52A可将经译码音频信号62编码到位流56A中。
在一些实例中,到扩音器位置信息48到位流56A中,位流产生单元52A可编码(例如,传信)源扩音器设定中的扩音器的数目(例如,N)及源扩音器设定中呈方位角及仰角(例如,{θi,φi}i=1,…,N)的形式的扩音器的位置。另外在一些实例中,位流产生单元52A可确定及编码对在将音频信号50转换成HOA音场时将使用多少HOA系数(例如,NHOA)的指示。在一些实例中,音频信号50可经划分为帧。在一些实例中,位流产生单元52A可针对每一帧传信源扩音器设定中的扩音器的数目及源扩音器设定的扩音器的位置。在一些实例中,例如在当前帧的源扩音器设定与前一帧的源扩音器设定相同的情况下,位流产生单元52A可针对当前帧省略源扩音器设定中的扩音器的数目及源扩音器设定的扩音器的位置。
在操作时,音频编码装置14A可接收音频信号50作为6信道多信道音频信号且接收扩音器位置信息48作为呈5.1预定义设定的形式的源扩音器的位置的指示。如上文所论述,位流产生单元52A可将扩音器位置信息48及音频信号50编码到位流56A中。举例来说,位流产生单元52A可将6信道多信道(音频信号50)的表示及经编码音频信号为5.1音频信号的指示(源扩音器位置信息48)编码到位流56A中。
如上文所论述,在一些实例中,音频编码装置14A可将经编码音频数据(即,位流56A)直接发射到音频解码装置。在其它实例中,音频编码装置14A可将经编码音频数据(即,位流56A)存储到存储媒体或文件服务器上以供稍后由音频解码装置存取以用于解码及/或播放。在图3的实例中,存储器54可在通过音频编码装置14A输出之前存储位流56A的至少一部分。换句话说,存储器54可存储所有位流56A或一部分位流56A。
因此,音频编码装置14A可包含一或多个处理器,其经配置以:接收用于源扩音器配置的多信道音频信号(例如,针对扩音器位置信息48的多信道音频信号50);基于源扩音器配置获得高阶立体混响(HOA)域中的多个空间定位向量,所述多个空间定位向量与多信道音频信号组合而表示高阶立体混响(HOA)系数的集合,所述高阶立体混响(HOA)系数表示多信道音频信号;及在经译码音频位流(例如,位流56A)中编码多信道音频信号(例如,经译码音频信号62)的表示及多个空间定位向量(例如,扩音器位置信息48)的指示。此外,音频编码装置14A可包含电耦合到一或多个处理器的存储器(例如存储器54),其经配置以存储经译码音频位流。
图4为说明根据本发明的一或多个技术的用于与图3中所示的音频编码装置14A的实例实施方案一起使用的音频解码装置22的实例实施方案的框图。图4中所示的音频解码装置22的实例实施方案标记为22A。图4中的音频解码装置22的实施方案包含存储器200、多路分用单元202A、音频解码单元204、向量创建单元206、HOA产生单元208A及呈现单元210。在其它实例中,音频解码装置22A可包含更多、更少或不同单元。举例来说,呈现单元210可实施于例如扩音器、头戴式耳机单元或音频库或卫星装置的单独装置中,且可经由一或多个有线或无线连接而连接到音频解码装置22A。
存储器200可获得经编码音频数据,例如位流56A。在一些实例中,存储器200可从音频编码装置直接接收经编码音频数据(即,位流56A)。在其它实例中,可存储经编码音频数据且存储器200可从存储媒体或文件服务器获得经编码音频数据(即,位流56A)。存储器200可提供对到音频解码装置22A的一或多个组件(例如多路分用单元202)的位流56A的存取。
多路分用单元202A可对位流56A多路分用以获得经译码音频数据62及源扩音器设置信息48。多路分用单元202A可将获得的数据提供到音频解码装置22A的一或多个组件。举例来说,多路分用单元202A可将经译码音频数据62提供到音频解码单元204且将源扩音器设置信息48提供到向量创建单元206。
音频解码单元204可经配置以将经译码音频信号62解码成音频信号70。举例来说,音频解码单元204可解量化、解格式化或另外解压缩音频信号62以产生音频信号70。如图4的实例中所示,音频解码单元204可将信道C'1到C'N的音频信号62解码成信道C'1到C'N的经解码音频信号70。在一些实例中,例如在使用无损译码技术译码音频信号62的情况下,音频信号70可近似等于或近似等效于图3的音频信号50。在一些实例中,音频解码单元204可被称为音频编解码器(CODEC)。音频解码单元204可将经解码音频信号70提供到音频解码装置22A的一或多个组件,例如HOA产生单元208A。
向量创建单元206可经配置以产生一或多个空间定位向量。举例来说,如图4的实例中所示,向量创建单元206可基于源扩音器设置信息48产生空间定位向量72。在一些实例中,空间定位向量72可在高阶立体混响(HOA)域中。在一些实例中,为了产生空间定位向量72,向量创建单元206可基于源扩音器设置信息48确定源呈现格式D。使用所述经确定的源呈现格式D,向量创建单元206可确定空间定位向量72满足以上方程式(15)及(16)。向量创建单元206可将空间定位向量72提供到音频解码装置22A的一或多个组件,例如HOA产生单元208A。
HOA产生单元208A可经配置以基于多信道音频数据及空间定位向量产生HOA音场。举例来说,如图4的实例中所示,HOA产生单元208A可基于经解码音频信号70及空间定位向量72产生HOA系数212A的集合。在一些实例中,HOA产生单元208A可根据以下方程式(28)产生HOA系数212A的集合,其中H表示HOA系数212A,Ci表示经解码音频信号70,且表示空间定位向量72的转置。
HOA产生单元208A可将产生的HOA音场提供到一或多个其它组件。举例来说,如图4的实例中所示,HOA产生单元208A可将HOA系数212A提供到呈现单元210。
呈现单元210可经配置以呈现HOA音场以产生多个音频信号。在一些实例中,呈现单元210可呈现HOA音场的HOA系数212A以产生音频信号26A以用于在多个局部扩音器(例如图1的扩音器24处)播放。在多个局部扩音器包含L个扩音器的情况下,音频信号26A可包含分别凹入以用于经由扩音器1到L播放的信道C1到CL。
呈现单元210可基于可表示多个局部扩音器的位置的局部扩音器设置信息28产生音频信号26A。在一些实例中,局部扩音器设置信息28可呈局部呈现格式的形式。在一些实例中,局部呈现格式可为局部呈现矩阵。在一些实例中,例如当局部扩音器设置信息28呈局部扩音器中的每一者的方位角及仰角的形式时,呈现单元210可基于局部扩音器设置信息28确定局部呈现格式在一些实例中,呈现单元210可基于局部扩音器设置信息28根据方程式(29)产生音频信号26A,其中表示音频信号26A,H表示HOA系数212A,且表示局部呈现格式的转置。
在一些实例中,局部呈现格式可不同于用以确定空间定位向量72的源呈现格式D。作为一个实例,多个局部扩音器的位置可不同于多个源扩音器的位置。作为另一实例,多个局部扩音器中的扩音器的数目可不同于多个源扩音器中的扩音器的数目。作为另一实例,多个局部扩音器的位置可不同于多个源扩音器的位置,且多个局部扩音器中的扩音器的数目可不同于多个源扩音器中的扩音器的数目。
因此,音频解码装置22A可包含经配置以存储经译码音频位流的存储器(例如,存储器200)。音频解码装置22A可进一步包含一或多个处理器,其电耦合到存储器且经配置以:从经译码音频位流获得用于源扩音器配置的多信道音频信号(例如,针对扩音器位置信息48的经译码音频信号62)的表示;获得高阶立体混响(HOA)域中的基于源扩音器配置的多个空间定位向量(SPV)(例如,空间定位向量72)的表示;及基于多信道音频信号及多个空间定位向量产生HOA音场(例如,HOA系数212A)。
图5为说明根据本发明的一或多个技术的音频编码装置14的实例实施方案的框图。图5中所示的音频编码装置14的实例实施方案标记为音频编码装置14B。音频编码装置14B包含音频编码单元51、位流产生单元52A及存储器54。在其它实例中,音频编码装置14B可包含更多、更少或不同单元。举例来说,音频编码装置14B可不包含音频编码单元51,或音频编码单元51可实施于可经由一或多个有线或无线连接而连接到音频编码装置14B的单独装置中。
与图3的可编码经译码音频信号62及扩音器位置信息48而不编码空间定位向量的指示的音频编码装置14A相对比,音频编码装置14B包含可确定空间定位向量的向量编码单元68。在一些实例中,向量编码单元68可基于扩音器位置信息48确定空间定位向量且输出空间向量表示数据71A以用于通过位流产生单元52B编码到位流56B中。
在一些实例中,向量编码单元68可产生向量表示数据71A作为码簿中的索引。作为一个实例,向量编码单元68可产生向量表示数据71A作为经动态(例如,基于扩音器位置信息48)创建的码簿中的索引。下文参考图6到8论述产生向量表示数据71A作为动态创建的码簿中的索引的向量编码单元68的一个实例的额外细节。作为另一实例,向量编码单元68可产生向量表示数据71A作为包含用于预定源扩音器设定的空间定位向量的码簿中的索引。下文参考图9论述产生向量表示数据71A作为包含用于预定源扩音器设定的空间定位向量的码簿中的索引的向量编码单元68的一个实例的额外细节。
位流产生单元52B可在位流56B中包含表示经译码音频信号60的数据及空间向量表示数据71A。在一些实例中,位流产生单元52B也可在位流56B中包含表示扩音器位置信息48的数据。在图5的实例中,存储器54可在通过音频编码装置14B输出之前存储位流56B的至少一部分。
因此,音频编码装置14B可包含一或多个处理器,其经配置以:接收用于源扩音器配置的多信道音频信号(例如,针对扩音器位置信息48的多信道音频信号50);基于源扩音器配置获得高阶立体混响(HOA)域中的多个空间定位向量,所述多个空间定位向量与多信道音频信号组合而表示HOA系数的集合,所述HOA系数表示多信道音频信号;及在经译码音频位流(例如,位流56B)中编码多信道音频信号(例如,经译码音频信号62)的表示及多个空间定位向量(例如,空间向量表示数据71A)的指示。此外,音频编码装置14B可包含电耦合到一或多个处理器的存储器(例如,存储器54),其经配置以存储经译码音频位流。
图6为说明根据本发明的一或多个技术的向量编码单元68的实例实施方案的图。在图6的实例中,向量编码单元68的实例实施方案经标记为向量编码单元68A。在图6的实例中,向量编码单元68A包括呈现格式单元110、向量创建单元112、存储器114及表示单元115。此外,如图6的实例中所示,呈现格式单元110接收源扩音器设置信息48。
呈现格式单元110使用源扩音器设置信息48确定源呈现格式116。源呈现格式116可为用于将HOA系数的集合呈现为用于按源扩音器设置信息48描述的方式布置的扩音器的扩音器馈送的集合的呈现矩阵。呈现格式单元110可以各种方式确定源呈现格式116。举例来说,呈现格式单元110可使用ISO/IEC 23008-3(“信息技术-异类环境中高效率译码及媒体递送-第3部分:3D音频(Information technology-High efficiency coding and mediadelivery in heterogeneous environments-Part 3:3D audio)”,第一版,2015(可在iso.org处获得))中所描述的技术。
在呈现格式单元110使用ISO/IEC 23008-3中描述的技术的实例中,源扩音器设置信息48包含指定源扩音器设定中的扩音器的方向的信息。为易于解释,本发明可将源扩音器设定中的扩音器称作“源扩音器”。因此,源扩音器设置信息48可包含指定L个扩音器方向的数据,其中L为源扩音器的数目。指定L个扩音器方向的数据可表示为指定源扩音器的方向的数据可表达为一对球面坐标。因此,具有球面角度的指示倾斜角度,且指示方位角角度,其可以弧度为单位表达。在此实例中,呈现格式单元110可假定源扩音器具有定心于声学甜点处的球面布置。
在此实例中,呈现格式单元110可基于HOA阶数及理想球面设计位置的集合确定模式矩阵,其表示为图7展示理想球面设计位置的实例集合。图8为展示理想球面设计位置的另一实例集合的表。理想球面设计位置可表示为其中S为理想球面设计位置的数目且Ωs=[θs,φs]。模式矩阵可经定义以使得其中其中ys持有实值球谐系数大体上,实值球谐系数可根据方程式(30)及(31)表示。
在方程式(30)及(31)中,勒戎德尔函数Pn,m(x)可根据以下方程式(32)定义,方程式(32)具有勒戎德尔多项式Pn(x)且无康登-肖特莱相位项(-1)m。
图7呈现具有对应于理想球面设计位置的输入项的实例表130。在图7的实例中,表130的各行为对应于预定义扩音器位置的输入项。表130的列131以度为单位指定扩音器的理想方位角。表130的列132以度为单位指定扩音器的理想仰角。表130的列133及134以度为单位指定扩音器的方位角的可接受范围。表130的列135及136以度为单位指定扩音器的仰角的可接受范围。
图8呈现具有对应于理想球面设计位置的输入项的另一实例表140的一部分。虽然图8中未示出,但表140包含900个输入项,其各指定扩音器定位的不同方位角及仰角θ。在图8的实例中,音频编码装置20可通过传信表140中的输入项的索引而指定源扩音器设定中的扩音器的位置。举例来说,音频编码装置20可通过传信索引值46来指定源扩音器设定中的扩音器处于弧度为1.967778的方位角及弧度为0.428967的仰角。
返回到图6的实例,向量创建单元112可获得源呈现格式116。向量创建单元112可基于源呈现格式116确定空间向量118的集合。在一些实例中,由向量创建单元112产生的空间向量的数目等于源扩音器设定中的扩音器的数目。举例来说,如果在源扩音器设定中存在N个扩音器,则向量创建单元112可确定N个空间向量。对于源扩音器设定中的每一扩音器n,其中n的范围从1到N,用于扩音器的空间向量可等于或等效于Vn=[An(DDT)-1D]T。在这个方程式中,D为表示为矩阵的源呈现格式,且An为由数目等于N的单行元素构成的矩阵(即,An为N维向量)。An中的每一元素等于0,除了其值等于1的一个元素之外。等于1的元素的An内的位置的索引等于n。因此,当n等于1时,An等于[1,0,0,…,0];当n等于2时,An等于[0,1,0,…,0],等等。
存储器114可存储码簿120。存储器114可与向量编码单元68A分离且可形成音频编码装置14的通用存储器的一部分。码簿120包含输入项的集合,其中的每一者将相应码-向量索引映射到空间向量118的集合中的相应空间向量。下表为实例码簿。在这个表中,每一相应行对应于相应输入项,N指示扩音器的数目,且D表示源呈现格式,其表示为矩阵。
对于源扩音器设定的每一相应扩音器,表示单元115输出对应于相应扩音器的码-向量索引。举例来说,表示单元115可输出指示对应于第一信道的码-向量索引为2、对应于第二信道的码-向量索引等于4等等的数据。具有码簿120的复本的解码装置能够使用码-向量索引确定用于源扩音器设定的扩音器的空间向量。因此,码-向量索引为类空间向量表示数据。如上文所论述,位流产生单元52B可在位流56B包含空间向量表示数据71A。
此外,在一些实例中,表示单元115可获得源扩音器设置信息48且可包含指示源扩音器在空间向量表示数据71A中的位置的数据。在其它实例中,表示单元115并不包含指示源扩音器在空间向量表示数据71A中的位置的数据。相反,在至少一些此类实例中,源扩音器的位置可在音频解码装置22处经预配置。
在表示单元115包含指示源扩音器在空间向量表示数据71A中的位置的数据的实例中,表示单元115可以各种方式指示源扩音器的位置。在一个实例中,源扩音器设置信息48指定环绕声格式,例如5.1格式、7.1格式或22.2格式。在此实例中,源扩音器设定中的扩音器中的每一者处于预定义位置。因此,表示单元115可在空间表示数据115中包含指示预定义环绕声格式的数据。因为呈预定义环绕声格式的扩音器处于预定义位置,故指示预定义环绕声格式的数据可足以用于音频解码装置22产生匹配码簿120的码簿。
在另一实例中,ISO/IEC 23008-3定义用于不同扩音器布局的多个CICP扬声器布局索引值。在此实例中,源扩音器设置信息48指定CICP扬声器布局索引(CICPspeakerLayoutIdx),如ISO/IEC 23008-3中所指定。呈现格式单元110可基于此CICP扬声器布局索引确定源扩音器设定中的扩音器的位置。因此,表示单元115可在空间向量表示数据71A中包含对CICP扬声器布局索引的指示。
在另一实例中,源扩音器设置信息48指定源扩音器设定中的扩音器的任意数目及源扩音器设定中的扩音器的任意位置。在此实例中,呈现格式单元110可确定基于源扩音器设定中的扩音器的任意数目及源扩音器设定中的扩音器的任意位置形成的源呈现格式。在此实例中,源扩音器设定中的扩音器的任意位置可以各种方式表达。举例来说,表示单元115可在空间向量表示数据71A中包含源扩音器设定中的扩音器的球面坐标。在另一实例中,音频编码装置20及音频解码装置24经配置有具有对应于多个预定义扩音器位置的输入项的表。图7及8为这些表的实例。在这个实例中,并非空间向量表示数据71A进一步指定扩音器的球面坐标,实情为空间向量表示数据71A可包含指示表中的条目的索引值的数据。传信索引值可比传信球面坐标更高效。
图9为说明根据本发明的一或多个技术的向量编码单元68的实例实施方案的框图。在图9的实例中,向量编码单元68的实例实施方案经标记为向量编码单元68B。在图9的实例中,空间向量单元68B包含码簿程序库150及选择单元154。码簿程序库150可使用存储器实施。码簿程序库150包含一或多个预定义码簿152A到152N(统称为“码簿152”)。码簿152中的每一相应者包含一或多个输入项的集合。每一相应输入项将相应码-向量索引映射到相应空间向量。
码簿152中的每一相应者对应于不同预定义源扩音器设定。举例来说,码簿程序库150中的第一码簿可对应于由两个扩音器组成的源扩音器设定。在此实例中,码簿程序库150中的第二码簿对应于由布置在用于5.1环绕声格式的标准位置处的五个扩音器组成的源扩音器设定。此外,在这个实例中,码簿程序库150中的第三码簿对应于由布置在用于7.1环绕声格式的标准位置处的七个扩音器组成的源扩音器设定。在此实例中,码簿程序库100中的第四码簿对应于由布置在用于22.2环绕声格式的标准位置处的22个扩音器组成的源扩音器设定。相比于先前实例中所提及的那些码簿,其它实例可包含更多、更少或不同码簿。
在图9的实例中,选择单元154接收源扩音器设置信息48。在一个实例中,源扩音器信息48可由识别预定义环绕声格式(例如5.1、7.1、22.2及其它格式)的信息组成或包括所述信息。在另一实例中,源扩音器信息48由识别另一类型的预定义数目及布置的扩音器的信息组成或包括所述信息。
选择单元154基于源扩音器设置信息识别码簿152中的哪一者适用于音频解码装置24所接收的音频信号。在图9的实例中,选择单元154输出指示音频信号50中的哪一者对应于经识别码簿中的哪些输入项的空间向量表示数据71A。举例来说,选择单元154可输出用于音频信号50中的每一者的码-向量索引。
在一些实例中,向量编码单元68采用图6的预定义码簿方法与图9的动态码簿方法的混合。举例来说,如在本发明中其它处所描述,在使用以信道为基础的音频的情况下,每一相应信道对应于源扩音器设定的每一相应扩音器且向量编码单元68确定用于源扩音器设定的每一相应扩音器的相应空间向量。在一些此类实例中,例如在使用以信道为基础的音频的情况下,向量编码单元68可使用一或多个预定义码簿来确定源扩音器设定的特定扩音器的空间向量。向量编码单元68可确定基于源扩音器设定形成的源呈现格式,且使用源呈现格式确定用于源扩音器设定的其它扩音器的空间向量。
图10为说明根据本发明的一或多个技术的音频解码装置22的实例实施方案的框图。图5中所示的音频解码装置22的实例实施方案标记为音频解码装置22B。图10中的音频解码装置22的实施包含存储器200、多路分用单元202B、音频解码单元204、向量解码单元207、HOA产生单元208A及呈现单元210。在其它实例中,音频解码装置22B可包含更多、更少或不同单元。举例来说,呈现单元210可实施于例如扩音器、头戴式耳机单元或音频基础或卫星装置的单独装置中,且可经由一或多个有线或无线连接而连接到音频解码装置22B。
与图4中可在不接收空间定位向量的指示的情况下基于扩音器位置信息48而产生空间定位向量72的音频解码装置22A相对比,音频解码装置22B包含可基于接收到的空间向量表示数据71A确定空间定位向量72的向量解码单元207。
在一些实例中,向量解码单元207可基于通过空间向量表示数据71A表示的码簿索引确定空间定位向量72。作为一个实例,向量编码单元207可从经动态(例如,基于扩音器位置信息48)创建的码簿中的索引确定空间定位向量72。下文参考图11论述从经动态创建的码簿中的索引确定空间定位向量的向量解码单元207的一个实例的额外细节。作为另一实例,向量解码单元207可从包含用于预定源扩音器设定的空间定位向量的码簿中的索引确定空间定位向量72。下文参考图12论述从包含用于预定源扩音器设定的空间定位向量的码簿中的索引确定空间定位向量的向量解码单元207的一个实例的额外细节。
在任何情况下,向量解码单元207可将空间定位向量72提供到音频解码装置22B的一或多个其它组件,例如HOA产生单元208A。
因此,音频解码装置22B可包含经配置以存储经译码音频位流的存储器(例如,存储器200)。音频解码装置22B可进一步包含一或多个处理器,其电耦合到存储器且经配置以:从经译码音频位流获得用于源扩音器配置的多信道音频信号(例如,针对扩音器位置信息48的经译码音频信号62)的表示;获得HOA域中的基于源扩音器配置的多个SPV(例如,空间定位向量72)的表示;及基于多信道音频信号及多个空间定位向量产生HOA音场(例如,HOA系数212A)。
图11为说明根据本发明的一或多个技术的向量解码单元207的实例实施方案的框图。在图11的实例中,向量解码单元207的实例实施方案经标记为向量解码单元207A。在图11的实例中,向量解码单元207包含呈现格式单元250、向量创建单元252、存储器254及重建单元256。在其它实例中,向量解码单元207可包含更多、更少或不同组件。
呈现格式单元250的操作方式可类似于图6的呈现格式单元110的操作方式。正如呈现格式单元110,呈现格式单元250可接收源扩音器设置信息48。在一些实例中,源扩音器设置信息48从位流获得。在其它实例中,源扩音器设置信息48在音频解码装置22处经预配置。此外,与呈现格式单元110相同,呈现格式单元250可产生源呈现格式258。源呈现格式258可匹配由呈现格式单元110产生的源呈现格式116。
向量创建单元252的操作方式可类似于图6的向量创建单元112的操作方式。向量创建单元252可使用源呈现格式258来确定空间向量260的集合。空间向量260可匹配由向量产生单元112产生的空间向量118。存储器254可存储码簿262。存储器254可与向量解码206分离且可形成音频解码装置22的通用存储器的一部分。码簿262包含输入项的集合,其中的每一者将相应码-向量索引映射到空间向量260的集合中的相应空间向量。码簿262可匹配图6的码簿120。
重建单元256可输出经识别为对应于源扩音器设定的特定扩音器的空间向量。举例来说,重建单元256可输出空间向量72。
图12为说明根据本发明的一或多个技术的向量解码单元207的替代实施的框图。在图12的实例中,向量解码单元207的实例实施方案经标记为向量解码单元207B。向量解码单元207包含码簿程序库300及重建单元304。码簿程序库300可使用存储器实施。码簿程序库300包含一或多个预定义码簿302A到302N(统称为“码簿302”)。码簿302中的每一相应者包含一或多个输入项的集合。每一相应输入项将相应码-向量索引映射到相应空间向量。码簿程序库300可匹配图9的码簿程序库150。
在图12的实例中,重建单元304获得源扩音器设置信息48。以类似于图9的选择单元154的方式,重建单元304可使用源扩音器设置信息48来识别码簿程序库300中的可适用码簿。重建单元304可针对源扩音器设置信息的扩音器输出在可适用码簿中所指定的空间向量。
图13为说明根据本发明的一或多种技术的音频编码装置14的实例实施方案的框图,其中所述音频编码装置14经配置以编码基于对象的音频数据。图13中所示的音频编码装置14的实例实施方案标记为14C。在图13的实例中,音频编码装置14C包含向量编码单元68C、位流产生单元52C及存储器54。
在图13的实例中,向量编码单元68C获得源扩音器设置信息48。另外,向量编码单元58C获得音频对象位置信息350。音频对象位置信息350指定音频对象的虚拟位置。向量编码单元68B使用源扩音器设置信息48及音频对象位置信息350来确定音频对象的空间向量表示数据71B。下文详细描述的图14描述向量编码单元68C的实例实施方案。
位流产生单元52C获得音频对象的音频信号50B。位流产生单元52C可在位流56C中包含表示音频信号50C的数据及空间向量表示数据71B。在一些实例中,位流产生单元52C可使用例如MP3、AAC、Vorbis、FLAC及Opus的已知音频压缩格式来编码音频信号50B。在一些情况下,位流产生单元52C将音频信号50B从一种压缩格式转码到另一种压缩格式。在一些实例中,音频编码装置14C可包含音频编码单元(例如图3及5的音频编码单元51)以编码及/或转码音频信号50B。在图13的实例中,在由音频编码装置14C输出之前,存储器54存储位流56C的至少部分。
因此,音频编码装置14C包含存储器,其经配置以存储音频对象的音频信号(例如音频信号50B)达时间间隔及指示音频对象的虚拟源位置的数据(例如,音频对象位置信息350)。此外,音频编码装置14C包含电耦合到存储器的一或多个处理器。所述一或多个处理器经配置以基于指示音频对象的虚拟源位置的数据及指示多个扩音器位置的信息(例如,源扩音器设置信息48)来确定HOA域中的音频对象的空间向量。此外,在一些实例中,音频编码装置14C在位流中可包含表示音频信号的数据及表示空间向量的数据。在一些实例中,表示音频信号的数据并非是HOA域中的数据的表示。此外,在一些实例中,描述在时间间隔期间含有音频信号的音场的HOA系数的集合等于或等效于音频信号乘以空间向量的转置。
此外,在一些实例中,空间向量表示数据71B可包含指示源扩音器设定中的扩音器的位置的数据。位流产生单元52C可在位流56C中包含表示源扩音器设定的扩音器的位置的数据。在其它实例中,位流产生单元52C在位流56C中并不包含指示源扩音器设定中的扩音器的位置的数据。
图14为说明根据本发明的一或多个技术的用于基于对象的音频数据的向量编码单元68C的实例实施方案的框图。在图14的实例中,向量编码单元68C包含呈现格式单元400、中间向量单元402、向量终结单元404、增益确定单元406及量化单元408。
在图14的实例中,呈现格式单元400获得源扩音器设置信息48。呈现格式单元400基于源扩音器设置信息48确定源呈现格式410。呈现格式单元400可根据在本发明中其它处提供的实例中的一或多者确定源呈现格式410。
在图14的实例中,中间向量单元402基于源呈现格式410确定中间空间向量412的集合。中间空间向量412的集合中的每一相应中间空间向量对应于源扩音器设定中的相应扩音器。举例来说,如果在源扩音器设定中存在N个扩音器,则中间向量单元402确定N个中间空间向量。对于源扩音器设定中的每一扩音器n,其中n的范围从1到N,则用于扩音器的中间空间向量可等于或等效于Vn=[An(DDT)-1D]T。在此方程式中,D为表示为矩阵的源呈现格式且An为由数目等于N的单行元件组成的矩阵。An中的每一元素等于0,除了其值等于1的一个元素以外。等于1的元素的An内的位置的索引等于n。
此外,在图14的实例中,增益确定单元406获得源扩音器设置信息48及音频对象位置数据49。音频对象位置数据49指定音频对象的虚拟位置。举例来说,音频对象位置数据49可指定音频对象的球面坐标。在图14的实例中,增益确定单元406确定增益因数416的集合。增益因数416的集合中的每一个相应增益因数对应于源扩音器设定的相应扩音器。增益确定单元406可使用向量基础振幅平移(VBAP)来确定增益因数416。VBAP可用以利用任意扩音器设定放置虚拟音频源,其中假定扩音器与收听位置的相同距离。普尔基(Pulkki)的“使用向量基础振幅平移的虚拟声音源定位(Virtual Sound Source Positioning UsingVector Base Amplitude Panning)”(音频工程协会期刊(Journal of Audio EngineeringSociety),第45卷,第6版,1997年6月)提供对VBAP的描述。
图15为说明VBAP的概念图。在VBAP中,应用于通过三个扬声器输出的音频信号的增益因数诱使收听者感知到音频信号来自位于三个扩音器之间的作用中三角形452内的虚拟源位置450。虚拟源位置450可为由音频对象的定位坐标指示的位置。举例来说,在图15的实例中,虚拟源位置450相比扩音器454B更接近扩音器454A。因此,用于扩音器454A的增益因数可大于用于扩音器454B的增益因数。具有较大数目的扩音器或具有两个扩音器的其它实例是可能的。
VBAP使用几何方法来计算增益因数416。在例如图15的实例中,当针对每一音频对象使用三个扩音器时,所述三个扩音器按三角形布置以形成向量基。每一向量基由扩音器编号k、m、n及在正规化到单位长度的笛卡尔坐标中给定的扩音器位置向量Ik、Im及In识别。用于扩音器k、m及n的向量基可由下者定义:
Ik,m,n=(Ik,Im,In) (33)
通过对向量基矩阵求逆,可通过下式计算所需增益因数:
根据方程式(36)确定待使用的向量基。首先,针对所有向量基根据方程式(36)计算增益。随后,对于每一向量基,通过评估增益因数上的最小值。使用其中具有最高值的向量基。大体上,不容许增益因数为负。取决于收听室声学,可针对能量保存来正规化增益因数。
在图14的实例中,向量终结单元404获得增益因数416。向量终结单元404基于中间空间向量412及增益因数416产生音频对象的空间向量418。在一些实例中,向量终结单元404使用以下方程式确定空间向量。
在以上方程式中,V为空间向量,N为源扩音器设定的扩音器的数目,gi为扩音器i的增益因数,且Ii为扩音器i的中间空间向量。在其中增益确定单元406使用具有三个扩音器的VBAP的一些实例中,仅三个增益因数gi为非零。
因此,在其中向量终结单元404使用方程式(37)确定空间向量418的实例中,空间向量418等于或等效于多个运算元的总和。多个运算元中的每一相应运算元对应于多个扩音器位置中的相应扩音器位置。对于多个扩音器位置中的每一相应扩音器位置,多个扩音器位置向量包含用于相应扩音器位置的扩音器位置向量。此外,对于多个扩音器位置中的每一相应扩音器位置,对应于相应扩音器位置的运算元等于或等效于用于相应扩音器位置的增益因数乘以用于相应扩音器位置的扩音器位置向量。在此实例中,用于相应扩音器位置的增益因数指示在相应扩音器位置处的音频信号的相应增益。
因此,在此实例中,空间向量418等于或等效于多个运算元的总和。多个运算元中的每一相应运算元对应于多个扩音器位置中的相应扩音器位置。对于多个扩音器位置中的每一相应扩音器位置,多个扩音器位置向量包含用于相应扩音器位置的扩音器位置向量。此外,对应于相应扩音器位置的运算元等于或等效于用于相应扩音器位置的增益因数乘以用于相应扩音器位置的扩音器位置向量。在此实例中,用于相应扩音器位置的增益因数指示在相应扩音器位置处的音频信号的相应增益。
总之,在一些实例中,视频编码单元68C的呈现格式单元400可确定用于将HOA系数的集合呈现为用于源扩音器位置处的扩音器的扩音器馈送的呈现格式。此外,向量终结单元404可确定多个扩音器位置向量。多个扩音器位置向量中的每一相应扩音器位置向量可对应于多个扩音器位置中的相应扩音器位置。为确定多个扩音器位置向量,增益确定单元406可针对多个扩音器位置中的每一相应扩音器位置基于音频对象的位置坐标确定用于相应扩音器位置的增益因数。用于相应扩音器位置的增益因数可指示在相应扩音器位置处的增益信号的相应增益。此外,对于多个扩音器位置中的每一相应扩音器位置,基于音频对象的位置坐标确定,中间向量单元402可基于呈现格式确定对应于相应扩音器位置的扩音器位置向量。向量终结单元404可将空间向量确定为多个运算元的总和,所述多个运算元中的每一相应运算元对应于多个扩音器位置中的相应扩音器位置。对于多个扩音器位置的每一相应扩音器位置,对应于相应扩音器位置的运算元等于或等效于相应扩音器位置的增益因数乘以对应于相应扩音器位置的扩音器位置向量。
量化单元408量化用于音频对象的空间向量。举例来说,量化单元408可根据本发明中其它处所描述的向量量化技术来量化空间向量。举例来说,量化单元408可使用标量量化、具有霍夫曼(Huffman)译码的标量量化或关于图17所描述的向量量化技术来量化空间向量418。因此,表示包含于位流70C中的空间向量的数据为经量化空间向量。
如上文所论述,空间向量418可等于或等效于多个运算元的总和。出于本发明的目的,在其中以下中的任一者为真的情况下,第一元素可被视为等于第二元素:(1)第一元素的值在数学上等于第二元素的值,(2)第一元素的值当经舍入时(例如,归因于位深度、寄存器限制、浮点表示、固定点表示、经二进制译码十进制表示等)与当经舍入时(例如,归因于位深度、寄存器限制、浮点表示、固定点表示、经二进制译码十进制表示等)的第二元素的值相同,或(3)第一元素的值等于第二元素的值。
图16为说明根据本发明的一或多个技术的音频解码装置22的实例实施方案的框图,其中所述音频解码装置22经配置以解码基于对象的音频数据。图16中所示的音频解码装置22的实例实施方案标记为22C。在图16的实例中,音频解码装置22C包含存储器200、多路分用单元202C、音频解码单元66、向量解码单元209、HOA产生单元208B及呈现单元210。大体上,存储器200、多路分用单元202C、音频解码单元66、HOA产生单元208B及呈现单元210可以与关于图10的实例的存储器200、多路分用单元202B、音频解码单元204、HOA产生单元208A及呈现单元210描述的方式类似的方式操作。在其它实例中,关于图14描述的音频解码装置22的实施方案可包含更多、更少或不同单元。举例来说,呈现单元210可实施于例如扩音器、头戴式耳机单元或音频基础或卫星装置的单独装置中。
在图16的实例中,音频解码装置22C获得位流56C。位流56C可包含音频对象的经编码的基于对象的音频信号及表示音频对象的空间向量的数据。在图16的实例中,基于对象的音频信号并未基于HOA域中的数据、从HOA域中的数据导出或表示HOA域中的数据。然而,音频对象的空间向量在HOA域中。在图16的实例中,存储器200经配置以存储位流56C的至少部分且因此经配置以存储表示音频对象的音频信号的数据及表示音频对象的空间向量的数据。
多路分用单元202C可从位流56C获得空间向量表示数据71B。空间向量表示数据71B包含表示用于每一音频对象的空间向量的数据。多路分用单元202C可从位流56C获得表示音频对象的音频信号的数据,且可从位流56C获得表示用于音频对象的空间向量的数据。在实例中,例如在表示空间向量的数据经量化的情况下,向量解码单元209可逆量化空间向量以确定音频对象的空间向量72。
HOA产生单元208B可接着以关于图10描述的方式使用空间向量72。举例来说,HOA产生单元208B可基于空间向量72及音频信号70产生HOA音场,例如HOA系数212B。
因此,音频解码装置22B包含经配置以存储位流的存储器58。此外,音频解码装置22B包含电耦合到存储器的一或多个处理器。所述一或多个处理器经配置以基于位流中的数据确定音频对象的音频信号,所述音频信号对应于时间间隔。此外,所述一或多个处理器经配置以基于位流中的数据确定用于音频对象的空间向量。在此实例中,空间向量经定义于HOA域中。此外,在一些实例中,所述一或多个处理器将音频对象的音频信号及空间向量转换为描述时间间隔期间的音场的HOA系数212B的集合。如在本发明中其它处所描述,HOA产生单元208B可确定HOA系数的集合,以使得HOA系数的集合等于音频信号乘以空间向量的转置。
在图16的实例中,呈现单元210可以类似于图10的呈现单元210的方式操作。举例来说,呈现单元210可通过将呈现格式(例如,局部呈现矩阵)应用于HOA系数212B而产生多个音频信号26。多个音频信号26中的每一相应音频信号可对应于多个扩音器中的相应扩音器,例如图1的扩音器24。
在一些实例中,呈现单元210B可基于指示局部扩音器设定的位置的信息28来调适局部呈现格式。呈现单元210B可以下文关于图19描述的方式来调适局部呈现格式。
图17为说明根据本发明的一或多个技术的音频编码装置14的实例实施方案的框图,其中所述音频编码装置14经配置以量化空间向量。图17中所示的音频编码装置14的实例实施方案标记为14D。在图17的实例中,音频编码装置14D包含向量编码单元68D、量化单元500、位流产生单元52D及存储器54。
在图17的实例中,向量编码单元68D可以与上文关于图5及/或图13描述的方式类似的方式来操作。举例来说,如果音频编码装置14D编码以信道为基础的音频,则向量编码单元68D可获得源扩音器设置信息48。向量编码单元68可基于由源扩音器设置信息48指定的扩音器的位置来确定空间向量的集合。如果音频编码装置14D编码基于对象的音频,则向量编码单元68D除源扩音器设置信息48之外可获得音频对象位置信息350。音频对象位置信息49指定音频对象的虚拟源位置。在此实例中,空间向量单元68D可以与图13的实例中所示的向量编码单元68C确定用于音频对象的空间向量大致相同的方式来确定用于音频对象的空间向量。在一些实例中,空间向量单元68D经配置以确定用于以信道为基础的音频及基于对象的音频两者的空间向量。在其它实例中,向量编码单元68D经配置以确定用于以信道为基础的音频或基于对象的音频中的仅一者的空间向量。
音频编码装置14D的量化单元500量化通过向量编码单元68C确定的空间向量。量化单元500可使用各种量化技术来量化空间向量。量化单元500可经配置以仅执行单一量化技术或可经配置以执行多个量化技术。在量化单元500经配置以执行多个量化技术的实例中,量化单元500可接收指示使用所述量化技术中的哪一者的数据或可内部确定应用所述量化技术中的哪一者。
在一个实例量化技术中,空间向量可由向量编码单元68D产生,其中信道或对象i经表示为Vi。在此实例中,量化单元500可计算中间空间向量以使得等于Vi/‖Vi‖,其中‖Vi‖可为量化步长。此外,在此实例中,量化单元500可量化中间空间向量中间空间向量的经量化版本可表示为另外,量化单元500可量化‖Vi‖。‖Vi‖的经量化版本可表示为量化单元500可输出及以用于包括于位流56D中。因此,量化单元500可输出用于音频信号50D的经量化向量数据的集合。用于音频信号50C的经量化向量数据的集合可包含及
量化单元500可以各种方式量化中间空间向量在一个实例中,量化单元500可将标量量化(SQ)应用于中间空间向量在另一实例量化技术中,量化单元200可将具有霍夫曼译码的标量量化应用于中间空间向量在另一实例量化技术中,量化单元200可将向量量化应用于中间空间向量在量化单元200应用标量量化技术、标量量化加霍夫曼译码技术或向量量化技术的实例中,音频解码装置22可逆量化经量化的空间向量。
在概念上,在标量量化中,数线(number line)经划分为多个频带,每一者对应于不同标量值。当量化单元500将标量量化应用于中间空间向量时,量化单元500用对应于含有由相应元素指定的值的频带的标量值来替换中间空间向量的每一相应元素。为便于解释,本发明可参考对应于含有由空间向量的元素指定为“经量化值”的值的频带的标量值。在此实例中,量化单元500可输出包含经量化值的经量化空间向量
标量量化加霍夫曼译码技术可类似于标量量化技术。然而,量化单元500另外确定用于经量化值中的每一者的霍夫曼码。量化单元500用相对应的霍夫曼码替换空间向量的经量化值。因此,经量化空间向量中的每一元素指定霍夫曼码。霍夫曼码允许所述元素中的每一者表示为变量长度值而非固定长度值,其可提高数据压缩。音频解码装置22D可通过确定对应于霍夫曼码的经量化值及将所述经量化值复原到其原始位深度来确定空间向量的逆量化版本。
在量化单元500将向量量化应用于中间空间向量的至少一些实例中,量化单元500可将中间空间向量变换为低维的离散子空间中的值的集合。为便于解释,本发明可将低维的离散子空间的尺寸称为“降低维度集合”且将空间向量的原始维度称为“全维度集合”。举例来说,全维度集合可由二十二个维度组成且降低维度集合可由八个维度组成。因此,在此情况下,量化单元500将中间空间向量从二十二个值的集合变换到八个值的集合。此变换可采用从空间向量的高维空间到低维子空间的投影的形式。
在量化单元500应用向量量化的至少一些实例中,用包含输入项的集合的码簿来配置量化单元500。可预定义或动态确定码簿。码簿可基于空间向量的统计分析。码簿中的每一输入项指示低纬子空间中的点。在将空间向量从全维度集合变换到降低维度集合之后,量化单元500可确定对应于经变换的空间向量的码簿输入项。在码簿中的码簿输入项中,对应于经变换的空间向量的码簿输入项指定最接近由所述经变换的空间向量指定的点的点。在一个实例中,量化单元500输出由经识别的码簿输入项指定的向量作为经量化空间向量。在另一实例中,量化单元200输出呈码-向量索引形式的经量化空间向量,所述码-向量索引指定对应于经变换的空间向量的码簿输入项的索引。举例来说,如果对应于经变换的空间向量的码簿输入项为码簿中的第8个输入项,则码-向量索引可等于8。在此实例中,音频解码装置22可通过查找码簿中的相对应的输入项来逆量化所述码-向量索引。音频解码装置22D可通过假定在全维度集合中而非在降低维度集合中的空间向量的分量等于零来确定空间向量的逆量化版本。
在图17的实例中,音频编码装置14D的位流产生单元52D从量化单元200获得经量化空间向量204,获得音频信号50C且输出位流56D。在音频编码装置14D编码以信道为基础的音频的实例中,位流产生单元52D可获得用于每一相应信道的音频信号及经量化空间向量。在音频编码装置14编码基于对象音频的实例中,位流产生单元52D可获得用于每一相应音频对象的音频信号及经量化空间向量。在一些实例中,位流产生单元52D可编码音频信号50C以用于更强的数据压缩。举例来说,位流产生单元52D可使用例如MP3、AAC、Vorbis、FLAC及Opus的已知音频压缩格式来编码音频信号50C中的每一者。在一些情况下,位流产生单元52C将音频信号50C从一种压缩格式转码到另一种压缩格式。位流产生单元52D在位流56C中可包含经量化空间向量作为伴随经编码音频信号的元数据。
因此,音频编码装置14D可包含一或多个处理器,其经配置以:接收针对源扩音器配置的多信道音频信号(例如,针对扩音器位置信息48的多信道音频信号50);基于源扩音器配置获得高阶立体混响(HOA)域中的多个空间定位向量,所述多个空间定位向量与多信道音频信号组合而表示高阶立体混响(HOA)系数,所述高阶立体混响(HOA)系数表示多信道音频信号;及在经译码音频位流(例如,位流56D)中编码多信道音频信号(例如,音频信号50C)的表示及多个空间定位向量(例如,经量化向量数据554)的指示。此外,音频编码装置14A可包含电耦合到一或多个处理器的存储器(例如存储器54),其经配置以存储经译码音频位流。
图18为说明根据本发明的一或多个技术的用于与图17中所示的音频编码装置14的实例实施方案一起使用的音频解码装置22的实例实施方案的框图。图18中所示的音频解码装置22的实例实施方案标记为音频解码装置22D。类似于关于图10描述的音频解码装置22的实施方案,图18中的音频解码装置22的实施方案包含存储器200、多路分用单元202D、音频解码单元204、HOA产生单元208C及呈现单元210。
与关于图10描述的音频解码装置22的实施相对比,关于图18描述的音频解码装置22的实施可包含逆量化单元550代替向量解码单元207。在其它实例中,音频解码装置22D可包含更多、更少或不同单元。举例来说,呈现单元210可实施于例如扩音器、头戴式耳机单元或音频基础或卫星装置的单独装置中。
存储器200、多路分用单元202D、音频解码单元204、HOA产生单元208C,及呈现单元210可以与在本发明中其它处关于图10的实例所描述的相同方式来操作。然而,多路分用单元202D可从位流56D获得经量化向量数据554的集合。经量化向量数据的每一相应集合对应于音频信号70中的相应者。在图18的实例中,经量化向量数据554的集合经表示为V'1到V'N。逆量化单元550可使用经量化向量数据554的集合来确定逆量化的空间向量72。逆量化单元550可将逆量化的空间向量72提供到音频解码装置22D的一或多个组件,例如HOA产生单元208C。
逆量化单元550可使用经量化向量数据554的集合以各种方式确定逆量化的向量。在一个实例中,经量化向量数据中的每一集合包含用于音频信号的经量化的空间向量及经量化的量化步长在此实例中,逆量化单元550可基于经量化的空间向量及经量化的量化步长确定逆量化的空间向量举例来说,逆量化单元550可确定逆量化的空间向量以使得基于逆量化的空间向量及音频信号HOA产生单元208C可将HOA域表示确定为如在本发明中其它处所描述,呈现单元210可获得局部呈现格式另外,扩音器馈送80可经表示为呈现单元210C可产生扩音器馈送26作为
因此,音频解码装置22D可包含存储器(例如存储器200),其经配置以存储经译码的音频位流(例如,位流56D)。音频解码装置22D可进一步包含一或多个处理器,其电耦合到存储器且经配置以:从经译码音频位流获得用于源扩音器配置的多信道音频信号(例如,用于扩音器位置信息48的经译码音频信号62)的表示;获得高阶立体混响(HOA)域中的基于源扩音器配置的多个空间定位向量(SPV)(例如,空间定位向量72)的表示;及基于多信道音频信号及多个空间定位向量产生HOA音场(例如,HOA系数212C)。
图19为根据本发明的一或多个技术的呈现单元210的实例实施方案的框图。如图19中所说明,呈现单元210可包含收听者定位单元610、扩音器位置单元612、呈现格式单元614、存储器615及扩音器馈送产生单元616。
收听者定位单元610可经配置以确定多个扩音器(例如图1的扩音器24)的收听者的位置。在一些实例中,收听者定位单元610可定期(例如每1秒、每5秒、每10秒、每30秒、每1分钟、每5分钟、每10分钟等)确定收听者的位置。在一些实例中,收听者定位单元610可基于由收听者定位的装置所产生的信号来确定收听者的位置。可由收听者定位单元610使用以确定收听者的位置的装置的一些实例包含(但不限于)移动计算装置、视频游戏控制器、遥控器或可指示收听者的位置的任何其它装置。在一些实例中,收听者定位单元610可基于一或多个传感器确定收听者的位置。可由收听者定位单元610使用以确定收听者的位置的传感器的一些实例包含(但不限于)摄像机、麦克风、压力传感器(例如,嵌入或附接到家俱、车辆座椅)、安全带传感器或可指示收听者的位置的任何其它传感器。收听者定位单元610可将收听者的位置的指示618提供到呈现单元210的一或多个其它组件,例如呈现格式单元614。
扩音器位置单元612可经配置以获得多个局部扩音器(例如图1的扩音器24)的位置的表示。在一些实例中,扩音器位置单元612可基于局部扩音器设置信息28确定多个局部扩音器的位置的表示。扩音器位置单元612可从广泛多种来源获得局部扩音器设置信息28。作为一个实例,使用者/收听者可经由音频解码单元22的使用者接口手动键入局部扩音器设置信息28。作为另一实例,扩音器位置单元612可使多个局部扩音器发射各种音调并利用麦克风以基于所述音调确定局部扩音器设置信息28。作为另一实例,扩音器位置单元612可接收来自一或多个摄像机的图像,且执行图像辨识以基于所述图像确定局部扩音器设置信息28。扩音器位置单元612可将多个局部扩音器的位置的表示620提供到呈现单元210的一或多个其它组件,例如呈现格式单元614。作为另一实例,局部扩音器设置信息28可(例如在工厂处)经预编程到音频解码单元22中。举例来说,在扩音器24经集成于车辆中的情况下,局部扩音器设置信息28可通过车辆的制造商及/或扩音器24的安装者预编程到音频解码单元22中。
呈现格式单元614可经配置以基于多个局部扩音器(例如,局部重现布局)的位置的表示及多个局部扩音器的收听者的位置产生局部呈现格式622。在一些实例中,呈现格式单元614可产生局部呈现格式622,以使得当HOA系数212经呈现为扩音器馈送且经由多个局部扩音器播放时,声学“甜点”位于收听者的位置处或附近。在一些实例中,为产生局部呈现格式622,呈现格式单元614可产生局部呈现矩阵呈现格式单元614可将局部呈现格式622提供到呈现单元210的一或多个其它组件,例如扩音器馈送产生单元616及/或存储器615。
扩音器馈送产生单元616可经配置以将HOA系数呈现为各自对应于多个局部扩音器中的相应局部扩音器的多个输出音频信号。在图19的实例中,扩音器馈送产生单元616可基于局部呈现格式622来呈现HOA系数,以使得当所得扩音器馈送26经由多个局部扩音器播放时,声学“甜点”位于如由收听者定位单元610所确定的收听者的位置处或附近。在一些实例中,扩音器馈送产生单元616可根据方程式(35)产生扩音器馈送26,其中表示扩音器馈送26,H为HOA系数212,且为局部呈现矩阵的转置。
图20说明根据本发明的一或多个技术的汽车扬声器播放环境。如图20中所说明,在一些实例中,音频解码装置22可包含于例如汽车2000的车辆中。在一些实例中,车辆2000可包含一或多个乘客传感器。可包含于车辆2000中的乘客传感器的实例包含但不一定限于安全带传感器及集成于车辆2000的座椅中的压力传感器。
图21为说明根据本发明的一或多个技术的音频编码装置的实例操作的流程图。图21的技术可由音频编码装置(例如图1、3、5、13及17的音频编码装置14)的一或多个处理器执行,但具有与音频编码装置14不同的配置的音频编码装置可执行图21的技术。
根据本发明的一或多种技术,音频编码装置14可接收针对源扩音器配置的多信道音频信号(2102)。举例来说,音频编码装置14可接收呈5.1环绕声格式的六信道音频数据(例如,针对5.1的源扩音器配置)。如上文所论述,由音频编码装置14接收的多信道音频信号可包含图1的实时音频数据10及/或预产生的音频数据12。
音频编码装置14可基于源扩音器配置获得高阶立体混响(HOA)域中的多个空间定位向量,所述多个空间定位向量可与多信道音频信号组合以产生表示多信道音频信号的HOA音场(2104)。在一些实例中,多个空间定位向量可与多信道音频信号组合以根据以上方程式(20)产生表示多信道音频信号的HOA音场。
音频编码装置14可在经译码音频位流中编码多信道音频信号的表示及多个空间定位向量的指示(2016)。作为一个实例,音频编码装置14A的位流产生单元52A可在位流56A中编码经译码音频数据62的表示及扩音器位置信息48的表示。作为另一实例,音频编码装置14B的位流产生单元52B可在位流56B中编码经译码音频数据62的表示及空间向量表示数据71A。作为另一实例,音频编码装置14D的位流产生单元52D可在位流56D中编码音频信号50C的表示及经量化向量数据554的表示。
图22为说明根据本发明的一或多个技术的音频解码装置的实例操作的流程图。图22的技术可由音频解码装置(例如图1、4、10、16及18的音频解码装置22)的一或多个处理器执行,但具有与音频编码装置14不同的配置的音频编码装置可执行图22的技术。
根据本发明的一或多个技术,音频解码装置22可获得经译码音频位流(2202)。作为一个实例,音频解码装置22可经由可为有线或无线信道的发射信道、数据存储装置或类似者获得位流。作为另一实例,音频解码装置22可从存储媒体或文件服务器获得位流。
音频解码装置22可从经译码音频位流获得针对源扩音器配置的多信道音频信号的表示(2204)。举例来说,音频解码单元204可从位流获得呈5.1环绕声格式的六信道音频数据(即,针对5.1的源扩音器配置)。
音频解码装置22可获得高阶立体混响(HOA)域中的基于源扩音器配置的多个空间定位向量的表示(2206)。作为一个实例,音频解码装置22A的向量创建单元206可基于源扩音器设置信息48产生空间定位向量72。作为另一实例,音频解码装置22B的向量解码单元207可从空间向量表示数据71A解码基于源扩音器设置信息48的空间定位向量72。作为另一实例,音频解码装置22D的逆量化单元550可逆量化经量化的向量数据554以产生基于源扩音器设置信息48的空间定位向量72。
音频解码装置22可基于多信道音频信号及多个空间定位向量产生HOA音场(2208)。举例来说,HOA产生单元208A可根据以上方程式(20)基于多信道音频信号70及空间定位向量72产生HOA系数212A。
音频解码装置22可呈现HOA音场以产生多个音频信号(2210)。举例来说,呈现单元210(其可或可不包含于音频解码装置22中)可呈现HOA系数的集合以基于局部呈现配置产生多个音频信号(例如,局部呈现格式)。在一些实例中,呈现单元210可根据以上方程式(21)呈现HOA系数的集合。
图23为说明根据本发明的一或多个技术的音频编码装置的实例操作的流程图。图23的技术可由音频编码装置(例如图1、3、5、13及17的音频编码装置14)的一或多个处理器执行,但具有与音频编码装置14不同的配置的音频编码装置可执行图23的技术。
根据本发明的一或多个技术,音频编码装置14可接收音频对象的音频信号及指示音频对象的虚拟源位置的数据(2230)。此外,音频编码装置14可基于指示音频对象的虚拟源位置的数据及指示多个扩音器位置的数据来确定HOA域中的音频对象的空间向量(2232)。
图24为说明根据本发明的一或多个技术的音频解码装置的实例操作的流程图。图24的技术可由音频解码装置(例如图1、4、10、16及18的音频解码装置22)的一或多个处理器执行,但具有与音频编码装置14不同的配置的音频编码装置可执行图24的技术。
根据本发明的一或多个技术,音频解码装置22可从经译码音频位流获得音频对象的音频信号的基于对象的表示(2250)。在此实例中,音频信号对应于时间间隔。此外,音频解码装置22可从经译码音频位流获得用于音频对象的空间向量的表示(2252)。在此实例中,空间向量经定义于HOA域中且是基于多个扩音器位置。HOA产生单元208B(或音频解码装置22的另一单元)可将音频对象的音频信号及空间向量转换为描述时间间隔期间的音场的HOA系数的集合(2254)。
图25为说明根据本发明的一或多个技术的音频编码装置的实例操作的流程图。图25的技术可由音频编码装置(例如图1、3、5、13及17的音频编码装置14)的一或多个处理器执行,但具有与音频编码装置14不同的配置的音频编码装置可执行图25的技术。
根据本发明的一或多个技术,音频编码装置14可在经译码音频位流中包含针对时间间隔的一或多个音频信号的集合的基于对象或以信道为基础的表示(2300)。此外,音频编码装置14可基于扩音器位置的集合确定HOA域中的一或多个空间向量的集合(2302)。在此实例中,空间向量的集合中的每一相应空间向量对应于音频信号的集合中的相应音频信号。此外,在此实例中,音频编码装置14可产生表示空间向量的经量化版本的数据(2304)。此外,在此实例中,音频编码装置14可在经译码音频位流中包含表示空间向量的经量化版本的数据(2306)。
图26为说明根据本发明的一或多个技术的音频解码装置的实例操作的流程图。图26的技术可由音频解码装置(例如图1、4、10、16及18的音频解码装置22)的一或多个处理器执行,但具有与音频解码装置22不同的配置的音频解码装置可执行图26的技术。
根据本发明的一或多个技术,音频解码装置22可从经译码音频位流获得针对时间间隔的一或多个音频信号的集合的基于对象或以信道为基础的表示(2400)。此外,音频解码装置22可从经译码音频位流获得表示一或多个空间向量的集合的经量化版本的数据(2402)。在此实例中,空间向量的集合中的每一相应空间向量对应于音频信号的集合中的相应音频信号。此外,在此实例中,空间向量中的每一者在HOA域中且是基于扩音器位置的集合计算。
图27为说明根据本发明的一或多个技术的音频解码装置的实例操作的流程图。图27的技术可由音频解码装置(例如图1、4、10、16及18的音频解码装置22)的一或多个处理器执行,但具有与音频解码装置22不同的配置的音频编码装置可执行图27的技术。
根据本发明的一或多个技术,音频解码装置22可获得高阶立体混响(HOA)音场(2702)。举例来说,音频解码装置22的HOA产生单元(例如,HOA产生单元208A/208B/208C)可将HOA系数(例如,HOA系数212A/212B/212C)的集合提供到音频解码装置22的呈现单元210。
音频解码装置22可获得多个局部扩音器的位置的表示(2704)。举例来说,音频解码装置22的呈现单元210的扩音器位置单元612可基于局部扩音器设置信息(例如,局部扩音器设置信息28)来确定多个局部扩音器的位置的表示。如上文所论述,扩音器位置单元612可从广泛多种来源获得局部扩音器设置信息28。
音频解码装置22可定期确定收听者的位置(2706)。举例来说,在一些实例中,音频解码装置22的呈现单元210的收听者定位单元610可基于由收听者定位的装置所产生的信号来确定收听者的位置。可由收听者定位单元610使用以确定收听者的位置的装置的一些实例包含(但不限于)移动计算装置、视频游戏控制器、遥控器或可指示收听者的位置的任何其它装置。在一些实例中,收听者定位单元610可基于一或多个传感器确定收听者的位置。可由收听者定位单元610使用以确定收听者的位置的传感器的一些实例包含(但不限于)摄像机、麦克风、压力传感器(例如,嵌入或附接到家俱、车辆座椅)、安全带传感器或可指示收听者的位置的任何其它传感器。
音频解码装置22可基于收听者的位置及多个局部扩音器位置来定期确定局部呈现格式(2708)。举例来说,音频解码装置22的呈现单元210的呈现格式单元614可产生局部呈现格式,以使得当HOA音场呈现为扩音器馈送且经由多个扩音器播放时,声学“甜点”位于收听者的位置处或附近。在一些实例中,为产生局部呈现格式,呈现配置单元614可产生局部呈现矩阵
音频解码装置22可基于局部呈现格式将HOA音场呈现为各自对应于多个局部扩音器中的相应局部扩音器的多个输出音频信号(2710)。举例来说,扩音器馈送产生单元616可呈现HOA系数以根据以上方程式(35)产生扩音器馈送26。
在一个实例中,为编码多信道音频信号(例如,{Ci}i=1,…,N)),音频编码装置14可确定源扩音器配置中的扩音器的数目(例如,N)、待在基于多信道音频信号产生HOA音场时使用的HOA系数的数目(例如,NHOA)及源扩音器配置中的扩音器的位置(例如,{θi,φi}i=1,…,N)。在此实例中,音频编码装置14可在位流中编码N、NHOA及{θi,φi}i=1,…,N。在一些实例中,音频编码装置14可在位流针对每一帧编码N、NHOA及{θi,φi}i=1,…,N。在一些实例中,如果前一帧使用相同N、NHOA及{θi,φi}i=1,…,N,则音频编码装置14可省略在位流针对当前帧编码N、NHOA及{θi,φi}i=1,…,N。在一些实例中,音频编码装置14可基于N、NHOA及{θi,φi}i=1,…,N产生呈现矩阵D1。在一些实例中,如果需要,则音频编码装置14可产生并使用一或多个空间定位向量(例如,Vi=[[0,…,0,1,0,…,0](D1D1 T)-1D1]T)。在一些实例中,音频编码装置14可量化多信道音频信号(例如,{Ci}i=1,…,N))以产生经量化的多信道音频信号(例如,)并在位流中编码经量化的多信道音频信号。
音频解码装置22可接收位流。基于源扩音器配置中的扩音器的所接收数目(例如,N)、待在基于多信道音频信号产生HOA音场时使用的HOA系数的数目(例如,NHOA)及源扩音器配置中的扩音器的位置(例如,{θi,φi}i=1,…,N),音频解码装置22可产生呈现矩阵D2。在一些实例中,只要D2是基于所接收的N、NHOA及{θi,φi}i=1,…,N(即,源扩音器配置)而产生,D2即可与D1不相同。基于D2,音频解码装置22可计算一或多个空间定位向量(例如,)。基于所述一或多个空间定位向量及接收到的音频信号(例如,),音频解码装置22可产生HOA域表示作为基于局部扩音器配置(即,在解码器处的扩音器的数目及位置)(例如,及音频解码装置22可产生局部呈现矩阵D3。音频解码装置22可通过将局部呈现矩阵乘以所产生的HOA域表示(例如,)来产生用于局部扩音器的扬声器馈送(例如,)。
在一个实例中,为编码多信道音频信号(例如,{Ci}i=1,…,N)),音频编码装置14可确定源扩音器配置中的扩音器的数目(例如,N)、待在基于多信道音频信号产生HOA音场时使用的HOA系数的数目(例如,NHOA)及源扩音器配置中的扩音器的位置(例如,{θi,φi}i=1,…,N)。在一些实例中,音频编码装置14可基于N、NHOA及{θi,φi}i=1,…,N产生呈现矩阵D1。在一些实例中,音频编码装置14可计算一或多个空间定位向量(例如,Vi=[[0,…,0,1,0,…,0](D1D1 T)-1D1]T)。在一些实例中,音频编码装置14可将空间定位向量正规化为且按ISO/IEC 23008-3将量化到(例如,使用例如(SQ、SQ+Huff、VQ)的向量量化方法)并在位流中编码及‖Vi‖。在一些实例中,音频编码装置14可量化多信道音频信号(例如,{Ci}i=1,…,N))以产生经量化的多信道音频信号(例如)并在位流中编码经量化的多信道音频信号。
音频解码装置22可接收位流。基于及‖Vi‖,音频解码装置22可通过重建空间定位向量。基于所述一或多个空间定位向量(例如)及接收到的音频信号(例如,),音频解码装置22可产生HOA域表示作为基于局部扩音器配置(即,在解码器处的扩音器的数目及位置)(例如,及),音频解码装置22可产生局部呈现矩阵D3。音频解码装置22可通过将局部呈现矩阵乘以所产生的HOA域表示(例如,)来产生用于局部扩音器的扬声器馈送(例如,)。
图28为说明根据本发明的技术的实例向量编码单元68E的框图。向量编码单元68E可为图5的向量编码单元68的例项。在图28的实例中,向量编码单元68E包含呈现格式单元、向量创建单元2804、向量预测单元2806。表示单元2808、逆量化单元2810及重建单元2812。
呈现格式单元2802使用源扩音器设置信息48确定源呈现格式2803。源呈现格式116可为用于将HOA系数的集合呈现为用于按源扩音器设置信息48描述的方式布置的扩音器的扩音器馈送的集合的呈现矩阵。呈现格式单元2802可根据在本发明中其它处描述的实例确定源呈现格式2803。
向量创建单元2804可基于源呈现格式116确定空间向量2805的集合。在一些实例中,向量创建单元2804以在本发明中其它处关于图6的向量创建单元112描述的方式来确定空间向量2805。在一些实例中,向量创建单元2804以关于图14的中间向量单元402及向量终结单元404描述的方式来确定空间向量2805。
在图28的实例中,向量预测单元2806可从重建单元2812获得经重建的空间向量2811。向量预测单元2806可基于经重建的空间向量2811确定中间空间向量2813。在一些实例中,向量预测单元2806可确定中间空间向量2806,以使得针对空间向量2805中的每一相应空间向量,中间空间向量2806中的相应中间空间向量等效于或基于所述相应空间向量与经重建的空间向量2811中的相对应的经重建空间向量之间的差异。相对应的空间向量及经重建的空间向量可对应于源扩音器设定的同一扩音器。
量化单元2808可量化中间空间向量2813。量化单元2808可根据在本发明中其它处描述的量化技术来量化中间空间向量2813。量化单元2808输出空间向量表示数据2815。空间向量表示数据2815可包括表示空间向量2805的经量化版本的数据。更具体来说,在图28的实例中,空间向量表示数据2815可包括表示中间空间向量2813的经量化版本的数据。在一些实例中,使用与在本发明中其它处关于码簿描述的那些技术类似的技术,表示中间空间向量2813的经量化版本的数据包括码簿索引,其指示经动态或静态定义的码簿中的输入项,所述输入项指定中间空间向量的经量化版本的值。在一些实例中,空间向量表示数据2815包括中间空间向量2813的经量化版本。
此外,在图28的实例中,逆量化单元2810可获得空间向量表示数据2815。即,逆量化单元2810可获得表示空间向量2805的经量化版本的数据。更具体来说,在图28的实例中,逆量化单元2810可获得表示中间空间向量2813的经量化版本的数据。逆量化单元2810可对中间空间向量2813的经量化版本进行逆量化。因此,逆量化单元2810可产生经逆量化的中间空间向量2817。逆量化单元2810可根据在本发明中其它处描述的用于逆量化空间向量的实例来对中间空间向量2813的经量化版本进行逆量化。因为量化可涉及信息的损失,经逆量化的中间空间向量2817可并不与中间空间向量2813一样精确。
此外,重建单元2813可基于经逆量化的中间空间向量2817产生经重建的空间向量的集合。在一些实例中,重建单元2813可产生经重建的空间向量的集合,以使得针对经逆量化的空间向量2817的集合中的每一相应经逆量化的空间向量,相应经重建的空间向量等于按解码次序用于先前时间间隔的相应经逆量化的空间向量与相对应的经重建的空间向量的总和。向量预测单元2806可使用经重建的空间向量以用于产生用于后续时间间隔的中间空间向量。
因此,在图28的实例中,逆量化单元2810可获得表示一或多个空间向量的第一集合的经量化版本的数据。空间向量的第一集合中的每一相应空间向量对应于用于第一时间间隔的音频信号的集合中的相应音频信号。空间向量的第一集合中的空间向量中的每一者在HOA域中且是基于扩音器位置的集合计算。此外,逆量化单元2810可对空间向量的第一集合的经量化版本进行逆量化。此外,在此实例中,向量创建单元2804可确定空间向量的第二集合。空间向量的第二集合中的每一相应空间向量对应于用于按按解码次序在第一时间间隔之后的第二时间间隔的音频信号的集合中的相应音频信号。空间向量的第二集合中的每一空间向量在HOA域中且是基于扩音器位置的集合计算。向量预测单元2806可基于空间向量的经逆量化的第一集合确定空间向量的第二集合中的空间向量的中间版本。量化单元2808可对空间向量的第二集合中的空间向量的中间版本进行量化。音频编码装置可包含在经译码音频位流中表示空间向量的第二集合中的空间向量的中间版本的经量化版本的数据。
以下编号实例可说明本发明的一或多个方面:
实例1.一种用于解码经译码音频位流的装置,所述装置包括:存储器,其经配置以存储经译码音频位流;及电耦合到所述存储器的一或多个处理器,所述一或多个处理器经配置以:从经译码音频位流获得用于源扩音器配置的多信道音频信号的表示;获得高阶立体混响(HOA)域中的基于源呈现矩阵的多个空间定位向量的表示,所述源呈现矩阵基于源扩音器配置;基于多信道音频信号及多个空间定位向量产生HOA音场;及呈现HOA音场以基于表示多个局部扩音器的位置的局部扩音器配置产生多个音频信号,其中所述多个音频信号中的每一相应音频信号对应于多个局部扩音器中的相应扩音器。
实例2.如实例1的装置,其中所述一或多个处理器经进一步配置以:从经译码音频位流获得源扩音器配置的指示;基于所述指示产生源呈现矩阵,其中,为获得HOA域中的多个空间定位向量的表示,所述一或多个处理器经配置以基于源呈现矩阵产生空间定位向量。
实例3.如实例1的装置,其中所述一或多个处理器经配置以从经译码音频位流获得HOA域中的多个空间定位向量的表示。
实例4.如实例1到3的任何组合的装置,其中,为基于多信道音频信号及多个空间定位向量产生HOA音场,所述一或多个处理器经配置以基于多信道音频信号及多个空间定位向量产生HOA系数的集合。
实例5.如实例4的装置,其中所述一或多个处理器经配置以根据以下方程式产生HOA系数的集合:其中H为HOA系数的集合,Ci为多信道音频信号的第i个信道,且SPi为多个空间定位向量中对应于多信道音频信号的第i个信道的空间位置向量。
实例6.如实例1到5的任何组合的装置,其中多个空间定位向量中的每一空间定位向量对应于包含于多信道音频信号中的信道,其中多个空间定位向量中对应于第N个信道的空间定位向量等于由第一矩阵、第二矩阵与源呈现矩阵相乘产生的矩阵的转置,所述第一矩阵由单一相应列的元素组成,所述单一相应列的元素的数目等于源扩音器配置中的扩音器的数目,所述相应列的元素中的第N个元素等于1且所述相应列中除所述第N个元素之外的元素等于0,所述第二矩阵为由源呈现矩阵与源呈现矩阵的转置相乘产生的矩阵的相逆项。
实例7.如实例1到6的任何组合的装置,其中所述一或多个处理器包含于车辆的音频系统中。
实例8.一种用于编码音频数据的装置,所述装置包括:一或多个处理器,其经配置以:接收用于源扩音器配置的多信道音频信号;获得基于源扩音器配置的源呈现矩阵;基于源呈现矩阵获得高阶立体混响(HOA)域中的多个空间定位向量,所述多个空间定位向量与多信道音频信号组合而表示对应于多信道音频信号的HOA音场,及在经译码音频位流中编码多信道音频信号的表示及多个空间定位向量的指示;及存储器,其电耦合到所述一或多个处理器,经配置以存储经译码音频位流。
实例9.如实例8的装置,其中,为编码多个空间定位向量的指示,所述一或多个处理器经配置以:编码源扩音器配置的指示。
实例10.如实例8的装置,其中,为编码多个空间定位向量的指示,所述一或多个处理器经配置以:编码空间定位向量的经量化值。
实例11.如实例8到10的任何组合的装置,其中多信道音频信号的表示为多信道音频信号的未经压缩版本。
实例12.如实例8到10的任何组合的装置,其中多信道音频信号的表示为多信道音频信号的未经压缩的脉码调制(PCM)版本。
实例13.如实例8到10的任何组合的装置,其中多信道音频信号的表示为多信道音频信号的经压缩版本。
实例14.如实例8到10的任何组合的装置,其中多信道音频信号的表示为多信道音频信号的经压缩的脉码调制(PCM)版本。
实例15.如实例8到14的任何组合的装置,其中多个空间定位向量中的每一空间定位向量对应于包含于多信道音频信号中的信道,其中多个空间定位向量中对应于第N个信道的空间定位向量等于由第一矩阵、第二矩阵及源呈现矩阵相乘产生的矩阵的转置,所述第一矩阵由单一相应列的元素组成,所述单一相应列的元素的数目等于源扩音器配置中的扩音器的数目,所述相应列的元素中的第N个元素等于1且所述相应列中除所述第N个元素之外的元素等于0,所述第二矩阵为由源呈现矩阵与源呈现矩阵的转置相乘产生的矩阵的相逆项。
实例16.一种用于解码经译码音频位流的方法,所述方法包括:从经译码音频位流获得用于源扩音器配置的多信道音频信号的表示;获得高阶立体混响(HOA)域中的基于源呈现矩阵的多个空间定位向量的表示,所述源呈现矩阵基于源扩音器配置;基于多信道音频信号及多个空间定位向量产生HOA音场;及呈现HOA音场以基于表示多个局部扩音器的位置的局部扩音器配置而产生多个音频信号,其中多个音频信号中的每一相应音频信号对应于多个局部扩音器中的相应扩音器。
实例17.如实例16的方法,其进一步包括:从经译码音频位流获得源扩音器配置的指示;及基于所述指示产生源呈现矩阵,其中获得HOA域中的多个空间定位向量的表示包括基于所述源呈现矩阵产生空间定位向量。
实例18.如实例16的方法,其中获得多个空间定位向量的表示包括从经译码音频位流获得HOA域中的多个空间定位向量的表示。
实例19.如实例16到18的任何组合的方法,其中基于多信道音频信号及多个空间定位向量产生HOA音场包括:基于多信道音频信号及多个空间定位向量产生HOA系数的集合。
实例20.如实例16到19的任何组合的方法,其中产生HOA系数的集合包括根据以下方程式产生HOA系数的集合:其中H为HOA系数的集合,Ci为多信道音频信号的第i个信道,且SPi为多个空间定位向量中对应于多信道音频信号的第i个信道的空间位置向量。
实例21.一种用于编码经译码音频位流的方法,所述方法包括:接收用于源扩音器配置的多信道音频信号;获得基于源扩音器配置的源呈现矩阵;基于源呈现矩阵获得高阶立体混响(HOA)域中的多个空间定位向量,所述多个空间定位向量与多信道音频信号组合而表示对应于多信道音频信号的HOA音场,及在经译码音频位流中编码多信道音频信号的表示及多个空间定位向量的指示。
实例22.如实例21的方法,其中编码多个空间定位向量的指示包括:编码源扩音器配置的指示。
实例23.如实例21的方法,其中编码多个空间定位向量的指示包括:编码空间定位向量的经量化值。
实例24.一种存储指令的计算机可读存储媒体,所述指令在执行时使音频编码装置或音频解码装置的一或多个处理器执行如实例16到22的任何组合的方法。
实例25.一种音频编码或音频解码装置,其包括用于执行如实例16到22的任何组合的方法的装置。
在上文所描述的各种情况中的每一者中,应理解,音频编码装置14可执行一种方法或另外包括用以执行音频编码装置14经配置以执行的方法的每一步骤的装置。在一些情况下,装置可包括一或多个处理器。在一些情况下,所述一或多个处理器可表示借助于存储到非暂时性计算机可读存储媒体的指令配置的专用处理器。换句话说,编码实例集合中的每一者中的技术的各种方面可提供非暂时性计算机可读存储媒体,其上存储有指令,所述指令在执行时使得一或多个处理器执行音频编码装置14已经配置以执行的方法。
在一或多个实例中,所描述的功能可以硬件、软件、固件或其任何组合来实施。如果以软件实施,则所述功能可作为一或多个指令或程序代码而存储于计算机可读媒体上或经由计算机可读媒体进行发射,且通过基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体,其对应于例如数据存储媒体的有形媒体。数据存储媒体可为可通过一或多个计算机或一或多个处理器存取以检索指令、程序代码及/或数据结构以用于实施本发明中所描述的技术的任何可用媒体。计算机程序产品可包含计算机可读媒体。
同样,在上文所描述的各种情况中的每一者中,应理解,音频解码装置22可执行一种方法或另外包括用以执行音频解码装置22经配置以执行的方法的每一步骤的装置。在一些情况下,装置可包括一或多个处理器。在一些情况下,所述一或多个处理器可表示借助于存储到非暂时性计算机可读存储媒体的指令配置的专用处理器。换句话说,编码实例集合中的每一者中的技术的各种方面可提供非暂时性计算机可读存储媒体,其上存储有指令,所述指令在执行时使得一或多个处理器执行音频解码装置24已经配置以执行的方法。
通过实例而非限制,这些计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储器、磁盘存储器或其它磁性存储装置、快闪存储器或可用于存储呈指令或数据结构形式的所要程序代码且可由计算机存取的任何其它媒体。然而,应理解,计算机可读存储媒体及数据存储媒体不包含连接、载波、信号或其它暂时性媒体,而实情为关于非暂时性有形存储媒体。如本文中所使用,磁盘及光盘包含紧密光盘(CD)、激光光盘、光学光盘、数字影音光盘(DVD)、软性磁盘及蓝光(Blu-ray)光盘,其中磁盘通常以磁性方式重现数据,而光盘使用激光以光学方式重现数据。以上各者的组合也应包含于计算机可读媒体的范畴内。
可由例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效集成式或离散逻辑电路的一或多个处理器来执行指令。因此,如本文中所使用的术语“处理器”可指上述结构或适合于实施本文中所描述的技术的任何其它结构中的任一者。另外,在一些方面中,本文中所描述的功能性可提供于经配置用于编码及解码的专用硬件及/或软件模块内,或并入组合式编解码器中。此外,所述技术可完全实施于一或多个电路或逻辑元件中。
本发明的技术可在广泛多种装置或设备中实施,包含无线手持机、集成电路(IC)或IC集合(例如,芯片组)。在本发明中描述各种组件、模块或单元以强调经配置以执行所揭示技术的装置的功能方面,但未必要求由不同硬件单元来实现。确切来说,如上文所描述,可将各种单元组合于编解码器硬件单元中,或通过互操作性硬件单元(包含如上文所描述的一或多个处理器)的集合结合合适的软件及/或固件来提供所述单元。
已描述所述技术的各种方面。所述技术的这些及其它方面在以下权利要求书的范畴内。
Claims (21)
1.一种用于解码经译码音频位流的装置,所述装置包括:
存储器,其经配置以存储经译码音频位流;及
电耦合到所述存储器的一或多个处理器,所述一或多个处理器经配置以:
从所述经译码音频位流获得用于源扩音器配置的多信道音频信号的表示;
从所述经译码音频位流获得所述源扩音器配置的指示;
基于所述指示产生源呈现矩阵;
基于所述源呈现矩阵且在高阶立体混响HOA域中产生多个空间定位向量;
基于所述多信道音频信号及所述多个空间定位向量产生HOA音场;及
呈现所述HOA音场以基于表示多个局部扩音器的位置的局部扩音器配置产生多个音频信号,其中所述多个音频信号中的每一相应音频信号对应于所述多个局部扩音器中的相应扩音器。
2.根据权利要求1所述的装置,其中为基于所述多信道音频信号及所述多个空间定位向量产生所述HOA音场,所述一或多个处理器经配置以基于所述多信道音频信号及所述多个空间定位向量产生HOA系数的集合。
4.根据权利要求1所述的装置,其中所述多个空间定位向量中的每一空间定位向量对应于包含于所述多信道音频信号中的信道,其中所述多个空间定位向量中对应于第N个信道的所述空间定位向量等于由第一矩阵、第二矩阵与所述源呈现矩阵的相乘产生的矩阵的转置,所述第一矩阵由单一相应列的元素组成,所述单一相应列的元素的数目等于所述源扩音器配置中的扩音器的所述数目,所述相应列的元素中的所述第N个元素等于1且所述相应列中除所述第N个元素之外的元素等于0,所述第二矩阵为由所述源呈现矩阵与所述源呈现矩阵的所述转置的相乘产生的矩阵的相逆项。
5.根据权利要求1所述的装置,其中所述一或多个处理器包含于车辆的音频系统中,所述音频系统包含所述多个局部扩音器。
6.根据权利要求1所述的装置,其进一步包括:
所述多个局部扩音器中的一或多者。
7.一种用于编码视频数据的装置,所述装置包括:
一或多个处理器,其经配置以:
接收用于源扩音器配置的多信道音频信号;
获得基于所述源扩音器配置的源呈现矩阵;
基于所述源呈现矩阵获得高阶立体混响HOA域中的多个空间定位向量,所述多个空间定位向量与所述多信道音频信号组合而表示对应于所述多信道音频信号的HOA音场;及
在经译码音频位流中编码所述多信道音频信号的表示及所述多个空间定位向量的指示;及
存储器,其电耦合到所述一或多个处理器,经配置以存储所述经译码音频位流。
8.根据权利要求7所述的装置,其中为编码所述多个空间定位向量的所述指示,所述一或多个处理器经配置以:
编码所述源扩音器配置的指示。
9.根据权利要求7所述的装置,其中为编码所述多个空间定位向量的所述指示,所述一或多个处理器经配置以:
编码所述空间定位向量的经量化值。
10.根据权利要求7所述的装置,其中所述多信道音频信号的所述表示为所述多信道音频信号的未经压缩版本。
11.根据权利要求7所述的装置,其中所述多信道音频信号的所述表示为所述多信道音频信号的未经压缩的脉码调制PCM版本。
12.根据权利要求7所述的装置,其中所述多信道音频信号的所述表示为所述多信道音频信号的经压缩版本。
13.根据权利要求7所述的装置,其中所述多信道音频信号的所述表示为所述多信道音频信号的经压缩的脉码调制PCM版本。
14.根据权利要求7所述的装置,其中所述多个空间定位向量中的每一空间定位向量对应于包含于所述多信道音频信号中的信道,其中所述多个空间定位向量中对应于第N个信道的所述空间定位向量等于由第一矩阵、第二矩阵与所述源呈现矩阵的相乘产生的矩阵的转置,所述第一矩阵由单一相应列的元素组成,所述单一相应列的元素的数目等于所述源扩音器配置中的扩音器的所述数目,所述相应列的元素中的所述第N个元素等于1且所述相应列中除所述第N个元素之外的元素等于0,所述第二矩阵为由所述源呈现矩阵与所述源呈现矩阵的所述转置的相乘产生的矩阵的相逆项。
15.根据权利要求7所述的装置,其进一步包括:
一或多个麦克风,其经配置以捕获所述多信道音频信号。
16.一种用于解码经译码音频位流的方法,所述方法包括:
从经译码音频位流获得用于源扩音器配置的多信道音频信号的表示;
从所述经译码音频位流获得所述源扩音器配置的指示;
基于所述指示产生源呈现矩阵;
基于所述源呈现矩阵且在高阶立体混响HOA域中产生多个空间定位向量;
基于所述多信道音频信号及所述多个空间定位向量产生HOA音场;及
呈现所述HOA音场以基于表示多个局部扩音器的位置的局部扩音器配置而产生多个音频信号,其中所述多个音频信号中的每一相应音频信号对应于所述多个局部扩音器中的相应扩音器。
17.根据权利要求16所述的方法,其中基于所述多信道音频信号及所述多个空间定位向量产生所述HOA音场包括:
基于所述多信道音频信号及所述多个空间定位向量产生HOA系数的集合。
19.一种用于编码经译码音频位流的方法,所述方法包括:
接收用于源扩音器配置的多信道音频信号;
获得基于所述源扩音器配置的源呈现矩阵;
基于所述源呈现矩阵获得高阶立体混响HOA域中的多个空间定位向量,所述多个空间定位向量与所述多信道音频信号组合而表示对应于所述多信道音频信号的HOA音场;及
在经译码音频位流中编码所述多信道音频信号的表示及所述多个空间定位向量的指示。
20.根据权利要求19所述的方法,其中编码所述多个空间定位向量的所述指示包括:
编码所述源扩音器配置的指示。
21.根据权利要求19所述的方法,其中编码所述多个空间定位向量的所述指示包括:
编码所述空间定位向量的经量化值。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201562239079P | 2015-10-08 | 2015-10-08 | |
US62/239,079 | 2015-10-08 | ||
US15/266,895 | 2016-09-15 | ||
US15/266,895 US9961467B2 (en) | 2015-10-08 | 2016-09-15 | Conversion from channel-based audio to HOA |
PCT/US2016/052221 WO2017062157A1 (en) | 2015-10-08 | 2016-09-16 | Conversion from channel-based audio to hoa |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108141688A CN108141688A (zh) | 2018-06-08 |
CN108141688B true CN108141688B (zh) | 2020-07-28 |
Family
ID=57018190
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680057675.7A Active CN108141688B (zh) | 2015-10-08 | 2016-09-16 | 从以信道为基础的音频到高阶立体混响的转换 |
Country Status (7)
Country | Link |
---|---|
US (1) | US9961467B2 (zh) |
EP (1) | EP3360342B1 (zh) |
JP (1) | JP2018534616A (zh) |
KR (1) | KR102032073B1 (zh) |
CN (1) | CN108141688B (zh) |
TW (1) | TW201714169A (zh) |
WO (1) | WO2017062157A1 (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019197349A1 (en) | 2018-04-11 | 2019-10-17 | Dolby International Ab | Methods, apparatus and systems for a pre-rendered signal for audio rendering |
US10999693B2 (en) | 2018-06-25 | 2021-05-04 | Qualcomm Incorporated | Rendering different portions of audio data using different renderers |
CN112005210A (zh) * | 2018-08-30 | 2020-11-27 | 惠普发展公司,有限责任合伙企业 | 多通道源音频的空间特性 |
DE102021128314A1 (de) | 2021-10-29 | 2023-05-04 | Blum-Novotest Gmbh | Rundlaufüberwachungsmodule und Rundlaufüberwachungsverfahren für ein im Betrieb zu rotierendes Werkzeug |
US20230317087A1 (en) * | 2022-04-01 | 2023-10-05 | Sonos, Inc. | Multichannel compressed audio transmission to satellite playback devices |
Family Cites Families (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5857026A (en) * | 1996-03-26 | 1999-01-05 | Scheiber; Peter | Space-mapping sound system |
JP4676140B2 (ja) | 2002-09-04 | 2011-04-27 | マイクロソフト コーポレーション | オーディオの量子化および逆量子化 |
JP5270557B2 (ja) * | 2006-10-16 | 2013-08-21 | ドルビー・インターナショナル・アクチボラゲット | 多チャネルダウンミックスされたオブジェクト符号化における強化された符号化及びパラメータ表現 |
CN101009950B (zh) * | 2006-12-30 | 2010-11-03 | 华南理工大学 | 一种连续处理式混合音频盲分离装置 |
EP2094032A1 (en) | 2008-02-19 | 2009-08-26 | Deutsche Thomson OHG | Audio signal, method and apparatus for encoding or transmitting the same and method and apparatus for processing the same |
US8964994B2 (en) | 2008-12-15 | 2015-02-24 | Orange | Encoding of multichannel digital audio signals |
GB2467534B (en) * | 2009-02-04 | 2014-12-24 | Richard Furse | Sound system |
EP2389016B1 (en) * | 2010-05-18 | 2013-07-10 | Harman Becker Automotive Systems GmbH | Individualization of sound signals |
NZ587483A (en) * | 2010-08-20 | 2012-12-21 | Ind Res Ltd | Holophonic speaker system with filters that are pre-configured based on acoustic transfer functions |
EP2450880A1 (en) | 2010-11-05 | 2012-05-09 | Thomson Licensing | Data structure for Higher Order Ambisonics audio data |
WO2013095675A1 (en) | 2011-12-23 | 2013-06-27 | Intel Corporation | Dynamic memory performance throttling |
EP2645748A1 (en) * | 2012-03-28 | 2013-10-02 | Thomson Licensing | Method and apparatus for decoding stereo loudspeaker signals from a higher-order Ambisonics audio signal |
EP3748632A1 (en) * | 2012-07-09 | 2020-12-09 | Koninklijke Philips N.V. | Encoding and decoding of audio signals |
US9190065B2 (en) | 2012-07-15 | 2015-11-17 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients |
US9288603B2 (en) | 2012-07-15 | 2016-03-15 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for backward-compatible audio coding |
US20140086416A1 (en) | 2012-07-15 | 2014-03-27 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients |
US9473870B2 (en) | 2012-07-16 | 2016-10-18 | Qualcomm Incorporated | Loudspeaker position compensation with 3D-audio hierarchical coding |
KR102681514B1 (ko) * | 2012-07-16 | 2024-07-05 | 돌비 인터네셔널 에이비 | 오디오 재생을 위한 오디오 음장 표현을 렌더링하는 방법 및 장치 |
KR102201713B1 (ko) * | 2012-07-19 | 2021-01-12 | 돌비 인터네셔널 에이비 | 다채널 오디오 신호들의 렌더링을 향상시키기 위한 방법 및 디바이스 |
WO2014082683A1 (en) * | 2012-11-30 | 2014-06-05 | Huawei Technologies Co., Ltd. | Audio rendering system |
EP2743922A1 (en) | 2012-12-12 | 2014-06-18 | Thomson Licensing | Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field |
US9609452B2 (en) | 2013-02-08 | 2017-03-28 | Qualcomm Incorporated | Obtaining sparseness information for higher order ambisonic audio renderers |
US10178489B2 (en) * | 2013-02-08 | 2019-01-08 | Qualcomm Incorporated | Signaling audio rendering information in a bitstream |
CN104982042B (zh) | 2013-04-19 | 2018-06-08 | 韩国电子通信研究院 | 多信道音频信号处理装置及方法 |
WO2014184353A1 (en) * | 2013-05-16 | 2014-11-20 | Koninklijke Philips N.V. | An audio processing apparatus and method therefor |
US9980074B2 (en) | 2013-05-29 | 2018-05-22 | Qualcomm Incorporated | Quantization step sizes for compression of spatial components of a sound field |
EP3005354B1 (en) * | 2013-06-05 | 2019-07-03 | Dolby International AB | Method for encoding audio signals, apparatus for encoding audio signals, method for decoding audio signals and apparatus for decoding audio signals |
US9319819B2 (en) * | 2013-07-25 | 2016-04-19 | Etri | Binaural rendering method and apparatus for decoding multi channel audio |
US9502045B2 (en) | 2014-01-30 | 2016-11-22 | Qualcomm Incorporated | Coding independent frames of ambient higher-order ambisonic coefficients |
US20150243292A1 (en) | 2014-02-25 | 2015-08-27 | Qualcomm Incorporated | Order format signaling for higher-order ambisonic audio data |
US10134403B2 (en) * | 2014-05-16 | 2018-11-20 | Qualcomm Incorporated | Crossfading between higher order ambisonic signals |
US9852737B2 (en) | 2014-05-16 | 2017-12-26 | Qualcomm Incorporated | Coding vectors decomposed from higher-order ambisonics audio signals |
KR20230162157A (ko) * | 2014-06-27 | 2023-11-28 | 돌비 인터네셔널 에이비 | Hoa 데이터 프레임 표현의 데이터 프레임들 중 특정 데이터 프레임들의 채널 신호들과 연관된 비차분 이득 값들을 포함하는 코딩된 hoa 데이터 프레임 표현 |
US9875745B2 (en) | 2014-10-07 | 2018-01-23 | Qualcomm Incorporated | Normalization of ambient higher order ambisonic audio data |
US9767618B2 (en) * | 2015-01-28 | 2017-09-19 | Samsung Electronics Co., Ltd. | Adaptive ambisonic binaural rendering |
CN109314832B (zh) * | 2016-05-31 | 2021-01-29 | 高迪奥实验室公司 | 音频信号处理方法和设备 |
WO2017218973A1 (en) * | 2016-06-17 | 2017-12-21 | Edward Stein | Distance panning using near / far-field rendering |
-
2016
- 2016-09-15 US US15/266,895 patent/US9961467B2/en active Active
- 2016-09-16 EP EP16774582.7A patent/EP3360342B1/en active Active
- 2016-09-16 KR KR1020187009767A patent/KR102032073B1/ko active IP Right Grant
- 2016-09-16 CN CN201680057675.7A patent/CN108141688B/zh active Active
- 2016-09-16 WO PCT/US2016/052221 patent/WO2017062157A1/en active Application Filing
- 2016-09-16 JP JP2018517803A patent/JP2018534616A/ja active Pending
- 2016-09-19 TW TW105130241A patent/TW201714169A/zh unknown
Also Published As
Publication number | Publication date |
---|---|
US20170105082A1 (en) | 2017-04-13 |
KR20180066074A (ko) | 2018-06-18 |
US9961467B2 (en) | 2018-05-01 |
TW201714169A (zh) | 2017-04-16 |
EP3360342A1 (en) | 2018-08-15 |
WO2017062157A1 (en) | 2017-04-13 |
EP3360342B1 (en) | 2019-10-30 |
KR102032073B1 (ko) | 2019-10-14 |
CN108141688A (zh) | 2018-06-08 |
JP2018534616A (ja) | 2018-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3360132B1 (en) | Quantization of spatial vectors | |
CN108141689B (zh) | 从基于对象的音频转换到hoa | |
EP3100265B1 (en) | Indicating frame parameter reusability for coding vectors | |
KR101723332B1 (ko) | 회전된 고차 앰비소닉스의 바이노럴화 | |
CN106663433B (zh) | 用于处理音频数据的方法和装置 | |
CN108780647B (zh) | 用于音频信号译码的方法和设备 | |
CN108141688B (zh) | 从以信道为基础的音频到高阶立体混响的转换 | |
WO2015175998A1 (en) | Spatial relation coding for higher order ambisonic coefficients | |
US20200120438A1 (en) | Recursively defined audio metadata | |
CN110827839A (zh) | 用于渲染高阶立体混响系数的装置和方法 | |
WO2020005970A1 (en) | Rendering different portions of audio data using different renderers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |