CN105027200A - 变换球谐系数 - Google Patents
变换球谐系数 Download PDFInfo
- Publication number
- CN105027200A CN105027200A CN201480011287.6A CN201480011287A CN105027200A CN 105027200 A CN105027200 A CN 105027200A CN 201480011287 A CN201480011287 A CN 201480011287A CN 105027200 A CN105027200 A CN 105027200A
- Authority
- CN
- China
- Prior art keywords
- sound field
- bit stream
- information
- multiple stratum
- describing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/167—Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/018—Audio watermarking, i.e. embedding inaudible data in the audio signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/11—Application of ambisonics in stereophonic audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
一般来说,本发明描述一种用于变换球谐系数的技术。一种包含一或多个处理器的装置可执行所述技术。所述处理器可经配置以:解析所述位流以确定变换信息,所述变换信息描述如何变换声场以减少提供与描述所述声场相关的信息的多个阶层元素的数目。所述处理器可进一步经配置以:当基于提供与描述所述声场相关的信息的所述多个阶层元素中的那些阶层元素来重现所述声场时,基于所述变换信息来变换所述声场以反转为减少所述多个阶层元素的所述数目所执行的所述变换。
Description
本申请案主张2013年3月1日申请的第61/771,677号美国临时申请案和2013年7月30日申请的第61/860,201号美国临时申请案的权益。
技术领域
本发明涉及音频译码,且更特定地涉及指定经译码的音频数据的位流。
背景技术
高阶立体混响(HOA)信号(常由多个球谐系数(SHC)或其它阶层元素表示)为声场的三维表示。此HOA或SHC表示可以独立于用以回放从此SHC信号再现的多声道音频信号的局部扬声器几何布置的方式来表示此声场。此SHC信号还可促进回溯兼容性,这是因为可将此SHC信号再现为众所周知的且被广泛采用的多声道格式(例如,5.1音频声道格式或7.1音频声道格式)。因此,SHC表示可允许实现声场的更好表示,其还提供回溯兼容性。
发明内容
一般来说,描述了用于在表示音频数据的位流中用信号发送音频信息和用于执行关于音频数据的变换的各种技术。在一些方面中,描述了用于用信号发送多个阶层元素(例如,高阶立体混响(HOA)系数(其还可称作球谐系数))中的非零子集中的哪些被包含于位流中的技术。考虑到所述HOA系数中的一些可能不提供与描述声场相关的信息,音频编码器可将所述多个HOA系数减少到提供与描述声场相关的信息的HOA系数的子集,借此增大译码效率。结果,所述技术的各种方面可允许实现在包含HOA系数和/或其编码版本的位流中指定实际上被包含于位流中的那些HOA系数(例如,包含所述HOA系数中的至少一者但非全部所述系数的HOA系数的非零子集)。可如上文所提及在位流中或在一些例子中在旁声道信息中指定识别HOA系数的子集的信息。
在其它方面中,描述了用于变换SHC以便减少将要在位流中指定的SHC的数目且借此增大译码效率的技术。即,所述技术可关于SHC来执行某种形式的线性可逆变换,从而减少将要在位流中指定的SHC的数目。线性可逆变换的实例包含旋转、平移、离散余弦变换(DCT)、离散傅里叶变换(DFT)、和基于向量的分解。基于向量的分解可涉及将SHC从球谐域变换到另一域。基于向量的分解的实例可包含奇异值分解(SVD)、主分量分析(PCA)和卡忽南-拉维(Karhunen-Loeve)变换(KLT)。所述技术可接着指定识别关于SHC所执行的变换的“变换信息”。举例来说,当关于SHC来执行旋转时,所述技术可提供指定识别所述旋转的旋转信息(常依据各种旋转角)。作为另一实例,当执行SVD时,所述技术可提供指示执行了SVD的旗标。
在一个实例中,描述了一种产生表示音频内容的位流的方法,所述方法包括:在位流中识别被包含于位流中且描述声场的多个阶层元素;及在位流中指定所识别的多个阶层元素。
在另一实例中,描述了一种经配置以产生表示音频内容的位流的装置,所述装置包括一或多个处理器,所述一或多个处理器经配置以:在位流中识别被包含于位流中且描述声场的多个阶层元素;及在位流中指定所识别的多个阶层元素。
在另一实例中,描述了一种经配置以产生表示音频内容的位流的装置,所述方法包括:用于在位流中识别被包含于位流中且描述声场的多个阶层元素的装置;及用于在位流中指定所识别的多个阶层元素的装置。
在另一实例中,一种非暂时性计算机可读存储媒体具有存储于其上的指令,当执行时,所述指令致使一或多个处理器:在位流中识别被包含于位流中且描述声场的多个阶层元素;及在位流中指定所识别的多个阶层元素。
在另一实例中,描述了一种处理表示音频内容的位流的方法,所述方法包括:从位流识别被包含于位流中且描述声场的多个阶层元素;及解析位流以确定所识别的多个阶层元素。
在另一实例中,描述了一种经配置以处理表示音频内容的位流的装置,所述装置包括一或多个处理器,所述一或多个处理器经配置以:从位流识别被包含于位流中且描述声场的多个阶层元素;及解析位流以确定所识别的多个阶层元素。
在另一实例中,描述了一种经配置以处理表示音频内容的位流的装置,所述装置包括:用于从位流识别被包含于位流中且描述声场的多个阶层元素的装置;及用于解析位流以确定所识别的多个阶层元素的装置。
在另一实例中,一种非暂时性计算机可读存储媒体具有存储于其上的指令,当执行时,所述指令致使一或多个处理器:从位流识别被包含于位流中且描述声场的多个阶层元素;及解析位流以确定所识别的多个阶层元素。
在另一实例中,描述了一种产生包括描述声场的多个阶层元素的位流的方法,所述方法包括:变换声场以减少提供与描述声场相关的信息的多个阶层元素的数目;及在位流中指定描述如何变换声场的变换信息。
在另一实例中,描述了一种经配置以产生包括描述声场的多个阶层元素的位流的装置,所述装置包括一或多个处理器,所述一或多个处理器经配置以:变换声场以减少提供与描述声场相关的信息的多个阶层元素的数目;及在位流中指定描述如何变换声场的变换信息。
在另一实例中,描述了一种经配置以产生包括描述声场的多个阶层元素的位流的装置,所述装置包括:用于变换声场以减少提供与描述声场相关的信息的多个阶层元素的数目的装置;及用于在位流中指定描述如何变换声场的变换信息的装置。
在另一实例中,描述了一种存储有指令的非暂时性计算机可读存储媒体,当执行时,所述指令致使一或多个处理器:变换声场以减少提供与描述声场相关的信息的多个阶层元素的数目;及在位流中指定描述如何变换声场的变换信息。
在另一实例中,描述了一种处理包括描述声场的多个阶层元素的位流的方法,所述方法包括:解析位流以确定变换信息,所述变换信息描述如何变换声场以减少提供与描述声场相关的信息的多个阶层元素的数目;及当基于所述多个阶层元素中的提供与描述声场相关的信息的那些阶层元素来重现声场时,基于变换信息来变换声场以反转为减少多个阶层元素的数目所执行的变换。
在另一实例中,描述了一种经配置以处理包括描述声场的多个阶层元素的位流的装置,所述装置包括一或多个处理器,所述一或多个处理器经配置以:解析位流以确定变换信息,所述变换信息描述如何变换声场以减少提供与描述声场相关的信息的多个阶层元素的数目;及当基于所述多个阶层元素中的提供与描述声场相关的信息的那些阶层元素来重现声场时,基于变换信息来变换声场以反转为减少多个阶层元素的数目所执行的变换。
在另一实例中,描述了一种经配置以处理包括描述声场的多个阶层元素的位流的装置,所述装置包括:用于解析位流以确定变换信息的装置,所述变换信息描述如何变换声场以减少提供与描述声场相关的信息的多个阶层元素的数目;及用于当基于所述多个阶层元素中的提供与描述声场相关的信息的那些阶层元素来重现声场时基于变换信息来变换声场以反转为减少多个阶层元素的数目所执行的变换的装置。
在另一实例中,一种非暂时性计算机可读存储媒体具有存储于其上的指令,当执行时,所述指令致使一或多个处理器:解析位流以确定变换信息,所述变换信息描述如何变换声场以减少提供与描述声场相关的信息的多个阶层元素的数目;及当基于所述多个阶层元素中的提供与描述声场相关的信息的那些阶层元素来重现声场时,基于变换信息来变换声场。
所述技术的一或多个方面的细节阐述于附图和以下描述中。这些技术的其它特征、目标和优点将从描述和图式且从权利要求书显而易见。
附图说明
图1和2为说明各个阶和子阶的球谐基底函数的图。
图3为说明可实施本发明中所描述的技术的各种方面的系统的图。
图4A和4B为说明在图3的实例中所示的位流产生装置的实例实施的框图。
图5A和5B为说明执行本发明中所描述的技术的各种方面以旋转声场的实例的图。
图6为说明根据第一参考坐标所俘获的实例声场的图,所述实例声场接着根据本发明中所描述的技术而旋转以依据第二参考坐标来表达所述声场。
图7A到7E说明根据本发明中所描述的技术而形成的位流的实例。
图8为说明图3的位流产生装置在执行本发明中所描述的技术的旋转方面时的实例操作的流程图。
图9为说明在图3的实例中所示的位流产生装置在执行本发明中所描述的技术的变换方面时的实例操作的流程图。
图10为说明提取装置在执行本发明中所描述的技术的各种方面时的示范性操作的流程图。
图11为说明位流产生装置和提取装置在执行本发明中所描述的技术的各种方面时的示范性操作的流程图。
具体实施方式
环绕声的演进已为现今的娱乐提供许多输出格式。这些环绕声格式的实例包含风行的5.1格式(其包含以下六个声道:左前(FL)、右前(FR)、中心或前中心、左后或左环绕、右后或右环绕,和低频效果(LFE))、在增长中的7.1格式和即将来临的22.2格式(例如,用于与超高清晰度电视标准一起使用)。进一步的实例包含用于球谐阵列的格式。
到未来的MPEG编码器的输入任选为三种可能格式中的一者:(i)传统的基于声道的音频,其必须经由在预先指定位置处的扩音器来回放;(ii)基于对象的音频,其涉及用于单个音频对象的离散脉码调制(PCM)数据和含有其位置坐标的相关联的后设数据(以及其它信息);及(iii)基于场景的音频,其涉及使用球谐基底函数的系数(还称为“球谐系数”或SHC)来表示声场。
市场上存在各种“环绕声”格式。所述格式的范围(例如)从5.1家庭影院系统(除立体声系统之外,其就进军起居室而言已是最成功的)到由NHK(日本放送协会或日本广播公司)开发的22.2系统。内容创作者(例如,好莱坞制片厂)愿意为一部电影制作原声带一次,但不愿意花费精力来为每一扬声器配置将其重新混音。近来,标准委员会已考虑将编码提供到标准化位流中和提供可调适于且不限定(agnostic)于扬声器几何布置和再现器的位置处的声学条件的后续解码的方式。
为了向内容创作者提供此灵活性,可使用阶层元素集合来表示声场。所述阶层元素集合可指元素集合,其中所述元素经排序以使得低阶元素的基本集合提供模型化声场的完整表示。当所述集合经扩展以包含高阶元素时,所述表示变得更详细。
阶层元素集合的一个实例为球谐系数(SHC)集合。以下表达式使用SHC来示范声场的描述或表示:
此表达式展示在声场的任何点处的压力pi可唯一地由SHC表示。此处,c为声速(约343m/s),为参考点(或观测点),jn(·)为阶n的球面贝塞耳函数,且为阶n和子阶m的球谐基底函数。可认识到,方括号中的项为信号的频域表示(即,),其可通过各种时间-频率变换(例如,离散傅里叶变换(DFT)、离散余弦变换(DCT)或子波变换)来近似。阶层集合的其它实例包含子波变换系数的集合和多分辨率基底函数的系数的其它集合。
图1为说明从零阶(n=0)到四阶(n=4)的球谐基底函数的图。如可见,对于每一阶而言,存在子阶m的扩张,出于容易说明的目的,在图1的实例中展示了所述子阶但却未明确注释。
图2为说明从零阶(n=0)到四阶(n=4)的球谐基底函数的另一图。在图2中,在三维坐标空间中展示了球谐基底函数,其中展示了阶与子阶两者。
在任何情况下,可由各种麦克风阵列配置物理地获取(例如,记录)SHC或SHC可从声场的基于声道或基于对象的描述导出。前一种情况表示到编码器的基于场景的音频输入。举例来说,可使用涉及1+24个(25,和因此为四阶)系数的四阶表示。
为了说明这些SHC可如何从基于对象的描述导出,考虑以下等式。可将对应于个别音频对象的声场的系数表达为:
其中i为为阶n的球面汉克(Hankel)函数(第二种类),且为对象的位置。已知作为频率的函数(例如,使用时间-频率分析技术,例如对PCM串流执行快速傅里叶变换)的源能量g(ω)允许将每一PCM对象和其位置转换成SHC进一步,可展示(由于上式为线性和正交分解):每一物件的系数为加性的。以此方式,许多PCM对象可由系数(例如,作为个别对象的系数向量的总和)来表示。基本上,这些系数含有关于声场的信息(作为3D坐标的函数的压力),且上式表示在观测点附近从个别对象到总声场的表示的变换。下文在基于对象和基于SHC的音频译码的背景中描述剩余各图。
虽然SHC可从PCT对象导出,但SHC还可如下从麦克风阵列记录导出:
其中,为(SHC)的时域等效物,*表示卷积运算,<,>表示内积,bn(ri,t)表示取决于ri的时域滤波函数,mi(t)为第i麦克风信号,其中第i麦克风换能器处于半径ri、仰角θi和方位角处。因此,如果在麦克风阵列中存在32个换能器且每一麦克风被定位于球体上使得ri=a为常数(例如,来从mhAcoustics的Eigenmike EM32装置上的那些换能器),则可如下使用矩阵运算来获得25个SHC:
可将以上等式中的矩阵更一般地称作其中下标s可指示矩阵是针对某一换能器几何设置s。以上等式中的卷积(由*指示)是逐列进行,使得(例如)输出为b0(a,t)与时间序列之间的卷积的结果(其是作为时间的函数而变化—考虑到向量乘法的结果为时间序列的事实),所述时间序列由矩阵的第一行与麦克风信号的列的向量乘法产生。当麦克风阵列的换能器位置呈所谓的T设计几何布置(其非常接近Eigenmike换能器几何布置)时,计算可最准确。T设计几何布置的一个特性可为由所述几何布置产生的矩阵具有表现非常好的逆矩阵(或伪逆矩阵),且进一步而言所述逆矩阵可常常由矩阵的转置而得到非常好的近似。如果将忽略对bn(a,t)的滤波操作,则此性质可允许从SHC恢复麦克风信号(即,在此实例中)。下文在基于SHC的音频译码的背景中描述剩余各图。
一般来说,本发明中所描述的技术可提供一种经由使用球谐域到空间域变换和匹配的逆变换来实现声场的定向变换的稳健方法。可借助于旋转、倾斜和翻滚来控制声场定向变换。在一些例子中,仅合并给定阶的系数以创造新系数,此意味着不存在中间阶相依性(例如可在使用滤波器时发生)。可接着将球谐域与空间域之间的合成变换表示为矩阵运算。结果,定向变换可为完全可逆的,这是因为可通过使用同等定向变换的再现器来取消此定向变换。此定向变换的一个应用可为减少为表示基础声场所需的球谐系数的数目。可通过使具有最高能量的区域与声场方向对准从而需要最小数目的球谐系数来表示旋转的声场来实现所述减少。可通过使用能量阈值来实现系数的数目的甚至进一步减少。此能量阈值可减少所需系数的数目而无对应的可察觉的信息损失。此通过移除冗余空间信息而非冗余频谱信息,对于需要进行基于球谐的音频材料的发射(或存储)的应用而言可为有益的。
图3为说明系统20的图,所述系统可执行本发明中所描述的技术以使用球谐系数来潜在地更有效率地表示音频数据。如在图3的实例中所示,系统20包含内容创作者22和内容消费者24。虽然是在内容创作者22和内容消费者24的背景中加以描述,但所述技术可在SHC或声场的任何其它阶层表示经编码以形成表示音频数据的位流的任何背景中加以实施。
内容创作者22可表示电影制片厂或可产生供内容消费者(例如,内容消费者24)消费的多声道音频内容的其它实体。此内容创作者常结合视频内容来产生音频内容。内容消费者24表示拥有或具有对音频回放系统的存取权的个体,所述音频回放系统可指能够再现SHC以作为多声道音频内容回放的任何形式的音频回放系统。在图3的实例中,内容消费者24包含音频回放系统32。
内容创作者22包含音频编辑系统30。音频再现器26可表示再现或以其它方式产生扬声器馈入(其还可称作“扩音器馈入”、“扬声器信号”或“扩音器信号”)的音频处理单元。每一扬声器馈入可对应于一重现多声道音频系统的特定声道的声音的扬声器馈入。在图3的实例中,再现器28可针对常规5.1、7.1或22.2环绕声格式来再现扬声器馈入,从而针对5.1、7.1或22.2环绕声扬声器系统中的5、7或22个扬声器中的每一者产生扬声器馈入。或者,再现器28可经配置以针对具有任何数目的扬声器的任何扬声器配置而从源球谐系数再现扬声器馈入(给定上文所论述的源球谐系数的性质)。音频再现器28可以此方式产生若干扬声器馈入(其在图3中被表示为扬声器馈入29)。
内容创作者可在编辑过程期间再现球谐系数27(“SHC 27”),倾听所再现的扬声器馈入以尝试识别声场的不具有高保真度或不提供令人信服的环绕声体验的方面。内容创作者22可接着编辑源球谐系数(常间接地经由操纵不同物件来实现,所述源球谐系数可以上文所描述的方式从所述不同对象导出)。内容创作者22可使用音频编辑系统30来编辑球谐系数27。音频编辑系统30表示能够编辑音频数据且将此音频数据输出作为一或多个源球谐系数的任何系统。
当编辑过程完成时,内容创作者22可基于球谐系数27而产生位流31。即,内容创作者22包含位流产生装置36,所述位流产生装置可表示能够产生位流31(例如,用于发射跨越传输通道(其可为有线或无线声道)、数据存储装置或其类似者)的任何装置,如下文予以进一步详细描述。在一些例子中,位流产生装置36可表示编码器,所述编码器带宽压缩(作为一个实例,经由熵编码)球谐系数27且以所接受的格式来布置球谐系数27的熵编码版本以形成位流31。在其它例子中,位流产生装置36可表示音频编码器(可能地,遵照例如MPEG surround的已知音频译码标准或其衍生标准的音频编码器),所述音频编码器使用(作为一个实例)与那些常规音频环绕声编码过程类似的过程来编码多声道音频内容29以压缩多声道音频内容或其衍生物。经压缩的多声道音频内容29可接着以某一其它方式加以熵编码或译码以带宽压缩内容29且根据已实现协议(或换句话说,经指定)的格式加以布置以形成位流31。不管是直接被压缩以形成位流31还是被再现且接着被压缩以形成位流31,内容创作者22均可将位流31发射到内容消费者24。
虽然在图3中被展示为直接发射到内容消费者24,但内容创作者22可将位流31输出到定位于内容创作者22与内容消费者24之间的中间装置。此中间装置可存储位流31以供稍后递送到可请求此位流的内容消费者24。中间装置可包括文件服务器、网络服务器、桌上型计算机、膝上型计算机、平板计算机、移动电话、智能电话或能够存储位流31以供稍后由音频解码器检索的任何其它装置。此中间装置可驻留于内容递送网络中,所述内容递送网络能够将位流31串流发射(和可能地与发射对应的视频数据位流相结合)到请求位流31的订户(例如,内容消费者24)。
或者,内容创作者22可将位流31存储到存储媒体(例如,压缩光盘、数字视频光盘、高清晰度视频光盘或其它存储媒体,以上各者中的大部分能够由计算机读取且因此可称作计算机可读存储媒体或非暂时性计算机可读存储媒体)。在此背景中,传输通道可指借以发射被存储到这些媒体的内容的那些声道(且可包含零售商店和其它基于商店的递送机构)。因此,在任何情况下,在此方面,本发明的技术不应受限于图3的实例。
如在图3的实例中予以进一步展示,内容消费者24包含音频回放系统32。音频回放系统32可表示能够回放多声道音频数据的任何音频回放系统。音频回放系统32可包含若干不同再现器34。再现器34可各自提供不同形式的再现,其中所述不同形式的再现可包含:执行向量基振幅移动(VBAP)的各种方式中的一或多者;及/或执行声场合成的各种方式中的一或多者。
音频回放系统32可进一步包含提取装置38。提取装置38可表示能够经由可大体与位流产生装置36的过程互逆的过程来提取球谐系数27'(“SHC 27'”,其可表示球谐系数27的修改形式或复制品)的任何装置。在任何情况下,音频回放系统32可接收球谐系数27'且可选择再现器34中的一者。再现器34中的所选者可接着再现球谐系数27'以产生若干扬声器馈入35(对应于电耦合或可能地无线耦合到音频回放系统32的若干扩音器,所述扩音器出于容易说明的目的而未在图3的实例中予以展示)。
通常,当位流产生装置36直接编码SHC 27时,位流产生装置36编码所有SHC 27。针对声场的每一表示所发送的SHC 27的数目取决于阶数且数学上可表达为(1+n)2/样本,其中n再次表示阶数。作为一个实例,为了实现声场的四阶表示,可导出25个SHC。通常,将所述SHC中的每一者表达为32位有正负号浮点数。因此,为了表达声场的四阶表示,在此实例中需要总计25×32位/样本或800位/样本。当使用48kHz的取样率时,此表示800×48,000位/秒或38,400,000位/秒。在一些例子中,SHC 27中的一或多者可不指定突出信息(其可指含有当在内容消费者24处重现时听得见或在描述声场方面重要的音频信息的信息)。编码SHC 27中的这些非突出SHC可导致对经由传输通道的带宽的低效使用(假定内容递送网络类型的发射机构)。在涉及这些系数的存储的应用中,以上情况可表示存储空间的低效使用。
在一些例子中,当识别被包含于位流31中的SHC 27的子集时,位流产生装置36可指定具有多个位的字段,其中所述多个位中的不同者识别SHC 27中的对应者是否被包含于位流31中。在一些例子中,当识别被包含于位流31中的SHC 27的子集时,位流产生装置36可指定具有等于(n+1)2个位的多个位的字段,其中n表示描述声场的阶层元素集合的阶数,且其中所述多个位中的每一者识别SHC 27中的对应者是否被包含于位流31中。
在一些例子中,当识别被包含于位流31中的SHC 27的子集时,位流产生装置36可在位流31中指定具有多个位的字段,其中所述多个位中的不同者识别SHC 27中的对应者是否被包含于位流31中。当指定SHC 27的所识别的子集时,位流产生装置36可直接在具有多个位的字段之后在位流31中指定SHC 27的所识别的子集。
在一些例子中,位流产生装置36可另外确定SHC 27中的一或多者具有与描述声场相关的信息。当识别被包含于位流31中的SHC 27的子集时,位流产生装置36可识别出SHC 27中的具有与描述声场相关的信息的所确定的一或多者被包含于位流31中。
在一些例子中,位流产生装置36可另外确定SHC 27中的一或多者具有与描述声场相关的信息。当识别被包含于位流31中的SHC 27的子集时,位流产生装置36可:在位流31中识别出SHC 27中的具有与描述声场相关的信息的所确定的一或多者被包含于位流31中;及在位流31中识别出SHC 27中的具有与描述声场无关的信息的剩余者未被包含于位流31中。
在一些例子中,位流产生装置36可确定SHC 27值中的一或多者低于阈值。当识别被包含于位流31中的SHC 27的子集时,位流产生装置36可在位流31中识别出SHC 27中的高于此阈值的所确定的一或多者在位流31中被指定。虽然阈值可常为零值,但对于实际实施方案而言,可将阈值设定到表示噪声底限(或环境能量)的值或与当前信号能量成比例的某一值(此可使阈值信号变得具相依性)。
在一些例子中,位流产生装置36可调整或变换声场以减少提供与描述声场相关的信息的SHC 27的数目。术语“调整”可指表示线性可逆变换的任何一或多个矩阵的应用。在这些例子中,位流产生装置36可在位流31中指定描述如何调整(或换句话说,变换)声场的调整信息(其还可称作“变换信息”)。虽然被描述为除识别随后在位流中被指定的SHC 27的子集的信息之外还指定此信息,但可将所述技术的此方面执行作为指定识别被包含于位流中的SHC 27的子集的信息的替代例。因此,在此方面,所述技术不应受限。
在一些例子中,位流产生装置36可旋转声场以减少提供与描述声场相关的信息的SHC 27的数目。在这些例子中,位流产生装置36可在位流31中指定描述如何旋转声场的旋转信息。旋转信息可包括方位角值(能够用信号发送360度)和仰角值(能够用信号发送180度)。在一些例子中,方位角值包括一或多个位,且通常包含10个位。在一些例子中,仰角值包括一或多个位且通常包含至少9个位。在最简单的实施例中,此位选择允许实现180/512度的分辨率(在仰角与方位角两者中)。在一些例子中,变换可包括旋转,且上文所描述的变换信息包含旋转信息。在一些例子中,位流产生装置36可变换声场以减少提供与描述声场相关的信息的SHC 27的数目。在这些例子中,位流产生装置36可在位流31中指定描述如何变换声场的变换信息。在一些例子中,调整可包括变换且上文所描述的调整信息包含变换信息。
在一些例子中,位流产生装置36可调整声场以减少具有高于阈值的非零值的SHC27的数目,且在位流31中指定描述如何调整声场的调整信息。在一些例子中,位流产生装置36可旋转声场以减少具有高于阈值的非零值的SHC 27的数目,且在位流31中指定描述如何旋转声场的旋转信息。在一些例子中,位流产生装置36可变换声场以减少具有高于阈值的非零值的SHC 27的数目,且在位流31中指定描述如何变换声场的变换信息。
通过在位流31中识别被包含于位流31中的SHC 27的子集,位流产生装置36可促进带宽的更有效使用,这是因为不包含与声场的描述相关的信息的SHC 27的子集(例如,SHC 27中的零值者)在位流中未被指定(即,未被包含于位流中)。此外,另外或替代地,通过在产生SHC 27时调整声场以减少指定与声场的描述相关的信息的SHC 27的数目,位流产生装置36可再次或另外提供潜在更有效的带宽使用。以此方式,位流产生装置31可减少需要在位流31中被指定的SHC 27的数目,借此潜在地改进非固定速率系统(举几个实例,其可指不具有目标位速率或不提供每帧或样本的位预算的音频译码技术)中的带宽利用或在固定速率系统中潜在地导致将位分配给与描述声场更相关的信息。
另外或替代地,位流产生装置36可根据本发明中所描述的技术来操作以将不同位速率指派给经变换的球谐系数的不同子集。由于变换(例如,旋转)声场,位流产生装置36可使最突出部分(常经由对在声场的各个空间位置处的能量的分析来识别)与轴(例如,Z轴)对准,从而在声场中有效地将最高能量部分设定于倾听者上方。换句话说,位流产生装置36可分析声场的能量以识别声场的具有最高能量的部分。如果声场的两个或两个以上部分具有高能量,则位流产生装置36可比较这些能量以识别具有最高能量的部分。位流产生装置36可接着识别借以旋转声场以便使声场的最高能量部分与Z轴对准的一或多个角度。
可将此旋转或其它变换视为设定有球面基底函数的参考坐标的变换。可将此Z轴变换一或多个角度到在声场的最高能量部分的方向上的点,而非将Z轴保持(例如,在图2的实例中所示的那些)为笔直的上下。可接着旋转具有某一方向分量的那些基底函数(例如,与Z轴对准的阶数为一且子阶数为零的球面基底函数)。可接着使用这些所变换(例如,经旋转)的球面基底函数来表达声场。位流产生装置36可旋转此参考坐标,使得Z轴与声场的最高能量部分对准。此旋转可导致声场的最高能量主要由那些零子阶基底函数表达,而非零子阶基底函数可能不含有同样多的突出信息。
一旦以此方式经旋转,位流产生装置36便可确定所变换的球谐系数,其指与所变换的球面基底函数相关联的球谐系数。考虑到零子阶球面基底函数可主要表示声场,位流产生装置36可指派第一位速率以用于在位流31中表达这些零子阶经变换的球谐系数(其可指对应于零子阶基底函数的那些所变换的球谐系数),同时指派第二位速率以用于在位流31中表达非零子阶经变换的球谐系数(其可指对应于非零子阶基底函数的那些所变换的球谐系数),其中所述第一位速率大于所述第二位速率。换句话说,由于零子阶经变换的球谐系数描述声场的最突出部分,所以位流产生装置36可指派较高位速率以用于在位流中表达这些所变换的系数,同时指派较低位速率(相对于较高位速率)以用于在位流中表达这些系数。
当将这些位速率指派给可称作所变换的球谐系数的第一子集(例如,零子阶经变换的球谐系数)和所变换的球谐系数的第二子集(例如,非零子阶经变换的球谐系数)的球谐系数时,位流产生装置36可利用开窗函数(例如,汉宁(Hanning)开窗函数、汉明(Hamming)开窗函数、矩形开窗函数或三角形开窗函数)。虽然涉及所变换的球谐系数的第一子集和第二子集加以描述,但位流产生装置36可识别球谐系数的两个、三个、四个和常常多达2*n+1个(其中n指阶数)子集。通常,阶的每一子阶可表示所变换的球谐系数的另一子集,位流产生装置36将不同位速率指派给所述另一子集。
在这个意义上,位流产生装置36可按阶和/或子阶动态地将不同位速率指派给SHC27中的不同者。位速率的此动态分配可促进总目标位速率的更好使用,从而将较高位速率指派给所变换的SHC 27中的描述声场的更突出部分的每一者,而将较低位速率(与较高位速率相比较)指派给所变换的SHC 27中的描述声场的比较而言较不突出部分(或换句话说,环境或背景部分)的每一者。
为了进行说明,再次考虑图2的实例。位流产生装置36可基于开窗函数而将位速率指派给所变换的球谐系数的每一子阶,其中对于四(4)阶而言,位流产生装置36识别所变换的球谐系数的九个(从负四到正四)不同子集。举例来说,位流产生装置36可基于开窗函数来指派用于表达0子阶所变换的球谐系数的第一位速率、用于表达-1/+1子阶所变换的球谐系数的第二位速率、用于表达-2/+2子阶所变换的球谐系数的第三位速率、用于表达-3/+3子阶所变换的球谐系数的第四位速率和用于表达-4/+4子阶所变换的球谐系数的第五位速率。
在一些例子中,位流产生装置36可以粒度甚至更细的方式来指派位速率,其中位速率不但按子阶变化而且按阶变化。考虑到高阶的球面基底函数具有较小波瓣,这些高阶球面基底函数在表示声场的高能量部分方面不那么重要。结果,位流产生装置36可相对于被指派给低阶所变换的球谐系数的此位速率而将较低位速率指派给高阶所变换的球谐系数。再次,位流产生装置36可以与上文关于子阶特定位速率的指派所描述的方式类似的方式来基于开窗函数指派此阶特定位速率。
在此方面,位流产生装置36可基于所变换的球谐系数的所述子集所对应的球面基底函数的阶和子阶中的一或多者而将位速率指派给所变换的球谐系数的至少一个子集,所述所变换的球谐系数已根据变换声场的变换操作而加以变换。
在一些例子中,变换操作包括旋转声场的旋转操作。
在一些例子中,位流产生装置36可识别借以旋转声场以使得声场的具有最高能量的一部分与一轴对准的一或多个角度,其中变换操作可包括旋转操作,所述旋转操作将声场旋转所识别的一或多个角度以便产生所变换的球谐系数。
在一些例子中,位流产生装置36可识别借以旋转声场使得声场的具有最高能量的一部分与Z轴对准的一或多个角度,其中变换操作可包括旋转操作,所述旋转操作将声场旋转所识别的一或多个角度以便产生所变换的球谐系数。
在一些例子中,位流产生装置36可执行关于声场的空间分析以识别借以旋转声场的一或多个角度,其中变换操作可包括旋转操作,所述旋转操作将声场旋转所识别的一或多个角度以便产生所变换的球谐系数。
在一些例子中,当指派位速率时,位流产生装置36可根据开窗函数而基于所述所变换的球谐系数中的每一者对应于的球面基底函数的阶和子阶中的一或多者来动态地将不同位速率指派给所变换的球谐系数的不同子集。开窗函数可包括汉宁开窗函数、汉明开窗函数、矩形开窗函数或三角形开窗函数中的一或多者。
在一些例子中,当指派位速率时,位流产生装置36可将第一位速率指派给所变换的球谐系数的第一子集(对应于球面基底函数的具有零子阶的子集),且将第二位速率指派给所变换的球谐系数的第二子集(对应于球面基底函数的具有正或负子阶的子集),所述第一位速率大于所述第二位速率。在这个意义上,所述技术可提供基于SHC 27所对应于的球面基底函数的子阶的动态位速率指派。
在一些例子中,当指派位速率时,位流产生装置36可将第一位速率指派给所变换的球谐系数的第一子集(对应于球面基底函数的具有一阶的子集),且将第二位速率指派给所变换的球谐系数的第二子集(对应于球面基底函数的具有二阶的子集),所述第一位速率大于所述第二位速率。以此方式,所述技术可提供基于SHC 27所对应于的球面基底函数的阶的动态位速率指派。
在一些例子中,位流产生装置36可产生位流,所述位流使用第一位速率来指定所变换的球谐系数的第一子集且使用第二位速率来指定所变换的球谐系数的第二子集。
在一些例子中,当指派位速率时,当所变换的球谐系数所对应于的球面基底函数的子阶移离零时,位流产生装置36可动态地指派逐渐减小的位速率。
在一些例子中,当指派位速率时,当所变换的球谐系数所对应于的球面基底函数的阶增加时,位流产生装置36可动态地指派逐渐减小的位速率。
在一些例子中,当指派位速率时,位流产生装置36可基于所变换的球谐系数的子集所对应于的球面基底函数的阶和子阶中的一或多者来动态地将不同位速率指派给所变换的球谐系数的不同子集。
在内容消费者24内,提取装置38可接着根据与上文关于位流产生装置36所描述的那些技术互逆的技术的方面来执行一种处理表示音频内容的位流31的方法。提取装置38可:从位流31确定被包含于位流31中且描述声场的SHC 27'的子集;及解析位流31以确定SHC 27'的所识别的子集。
在一些例子中,当确定被包含于位流31中的SHC 27'的子集时,提取装置38可解析位流31以确定一具有多个位的字段,其中所述多个位中的每一者识别SHC 27'中的对应者是否被包含于位流31中。
在一些例子中,当确定被包含于位流31中的SHC 27'的子集时,提取装置38可指定具有等于(n+1)2个位的多个位的字段,其中n再次表示描述声场的阶层元素集合的阶数。再次,所述多个位中的每一者识别SHC 27'中的对应者是否被包含于位流31中。
在一些例子中,当确定被包含于位流31中的SHC 27'的子集时,提取装置38可解析位流31以在位流31中识别具有多个位的字段,其中所述多个位中的不同者识别SHC27'中的对应者是否被包含于位流31中。当解析位流31以确定SHC 27'的所识别的子集时,提取装置38可直接从在具有多个位的字段之后的位流31起解析位流31以确定SHC27'的所识别的子集。
在一些例子中,提取装置38可解析位流31以确定调整信息,所述调整信息描述如何调整声场以减少提供与描述声场相关的信息的SHC 27'的数目。提取装置38可将此信息提供到音频回放系统32,当基于提供与描述声场相关的信息的SHC 27'的子集来重现声场时,所述音频回放系统32基于调整信息来调整声场以反转为了减少多个阶层元素的数目所执行的调整。
在一些例子中,作为所述技术的上文所描述的方面的替代例或结合所述技术的上文所描述的方面,提取装置38可解析位流31以确定旋转信息,所述旋转信息描述如何旋转声场以减少提供与描述声场相关的信息的SHC 27'的数目。提取装置38可将此信息提供到音频回放系统32,当基于提供与描述声场相关的信息的SHC 27'的子集来重现声场时,所述音频回放系统32基于旋转信息来旋转声场以反转为了减少多个阶层元素的数目所执行的旋转。
在一些例子中,作为所述技术的上文所描述的方面的替代例或结合所述技术的上文所描述的方面,提取装置38可解析位流31以确定变换信息,所述变换信息描述如何变换声场以减少提供与描述声场相关的信息的SHC 27'的数目。提取装置38可将此信息提供到音频回放系统32,当基于提供与描述声场相关的信息的SHC 27'的子集来重现声场时,所述音频回放系统32基于调整信息来变换声场以反转为了减少多个阶层元素的数目所执行的变换。
在一些例子中,作为所述技术的上文所描述的方面的替代例或结合所述技术的上文所描述的方面,提取装置38可解析位流31以确定调整信息,所述调整信息描述如何调整声场以减少具有非零值的SHC 27'的数目。提取装置38可将此信息提供到音频回放系统32,当基于具有非零值的SHC 27'的子集来重现声场时,所述音频回放系统32基于调整信息来调整声场以反转为了减少多个阶层元素的数目所执行的调整。
在一些例子中,作为所述技术的上文所描述的方面的替代例或结合所述技术的上文所描述的方面,提取装置38可解析位流31以确定旋转信息,所述旋转信息描述如何旋转声场以减少具有非零值的SHC 27'的数目。提取装置38可将此信息提供到音频回放系统32,当基于具有非零值的SHC 27'的子集来重现声场时,所述音频回放系统32基于旋转信息来旋转声场以反转为了减少多个阶层元素的数目所执行的旋转。
在一些例子中,作为所述技术的上文所描述的方面的替代例或结合所述技术的上文所描述的方面,提取装置38可解析位流31以确定变换信息,所述变换信息描述如何变换声场以减少具有非零值的SHC 27'的数目。提取装置38可将此信息提供到音频回放系统32,当基于具有非零值的那些SHC 27'来重现声场时,所述音频回放系统32基于变换信息来变换声场以反转为了减少多个阶层元素的数目所执行的变换。
在此方面,所述技术的各种方面可允许实现在位流中用信号发送被包含于位流中的那些多个阶层元素,例如高阶立体混响(HOA)系数(其还可称作球谐系数)(其中将被包含于位流中的那些阶层元素可称作“多个SHC的子集”)。考虑到所述HOA系数中的一些可能不提供与描述声场相关的信息,音频编码器可将所述多个HOA系数减少到提供与描述声场相关的信息的HOA系数的子集,借此增大译码效率。结果,所述技术的各种方面可允许实现在包含HOA系数和/或其编码版本的位流中指定实际上被包含于位流中的那些HOA系数(例如,包含所述HOA系数中的至少一者但非全部所述系数的HOA系数的非零子集)。可在如上文所提及的位流中或在一些例子中在旁声道信息中指定识别HOA系数的子集的信息。
图4A和4B为说明位流产生装置36的实例实施的框图。如在图4A的实例中所说明,位流产生装置36的第一实施方案(被表示为位流产生装置36A)包含空间分析单元150、旋转单元154、译码引擎160和多路复用器(MUX)164。
就消费者使用而言,以SHC的形式来表示3D音频数据所需的带宽(以位/秒计)可使得其代价过高。举例来说,当使用48kHz的取样率时且在32位/相同分辨率的情况下,四阶SHC表示会表示36兆位/秒(25×48000×32bps)的带宽。当与用于立体声信号的目前先进技术音频译码(其通常为约100千位/秒)相比时,此为大数字。在图5的实例中所实施的技术可减小3D音频表示的带宽。
空间分析单元150和旋转单元154可接收SHC 27。如在本发明中别处所描述,SHC27可表示声场。在图4A的实例中,空间分析单元150和旋转单元154可针对声场的四阶(N=4)表示来接收二十五个SHC的样本。通常,音频数据的帧包含1028个样本,但可关于具有任何数目的样本的帧来执行所述技术。空间分析单元150和旋转单元154可以下文关于音频数据的帧所描述的方式来操作。虽然被描述为对音频数据的帧操作,但所述技术可关于任何量的音频数据(包含单一样本和多达全部音频数据)加以执行。
空间分析单元150可分析由SHC 27所表示的声场以识别声场的相异分量和声场的扩散分量。声场的相异分量为被察觉为来自可识别方向或以其它方式相异于声场的背景或扩散分量的声音。例如,由个别乐器所产生的声音可被察觉为来自可识别方向。相比而言,声场的扩散或背景分量未被察觉为来自可识别方向。例如,风穿过森林的声音可为声场的扩散分量。在一些例子中,还可将相异分量称作“突出分量”或“前景分量”,而可将扩散分量称作“环境分量”或“背景分量”。
通常,这些相异分量在声场的可识别位置中具有高能量。空间分析单元150可识别声场的这些“高能量”位置,从而分析每一高能量位置以确定声场中具有最高能量的位置。空间分析单元150可接着确定借以旋转声场以使具有最多能量的那些相异分量与例如Z轴的轴(相对于记录此声场的假设麦克风)对准的最佳角。空间分析单元150可识别此最佳角,以便可旋转声场使得这些相异分量更好地与在图1和2的实例中所示的基础球面基底函数对准。
在一些实例中,空间分析单元150可表示一种经配置以执行某种形式的扩散分析从而识别由包含扩散声(其可指具有低方向水平或低阶SHC的声音,其意味着那些SHC 27具有小于或等于一的阶数)的SHC 27表示的声场的百分数的单元。作为一个实例,空间分析单元150可以与维勒·普尔基(Ville Pulkki)在题为“使用方向性音频译码的空间声重现(Spatial Sound Reproduction with Directional Audio Coding)”(公开于J.Audio Eng.Soc.第55卷第6号中,日期为2007年6月)的论文中所描述的方式类似的方式来执行扩散分析。在一些例子中,当执行扩散分析以确定扩散百分数时,空间分析单元150可仅分析SHC 27系数的非零子集(例如SHC 27中的零阶或一阶SHC)。
旋转单元154可基于所识别的最佳角(或任选而定的角)来执行SHC 27的旋转操作。如在本发明中的别处所论述(例如,关于图5A和5B),执行旋转操作可减少表示SHC 27所需的位的数目。旋转单元154可将所变换的球谐系数155(“所变换的SHC 155”)输出到译码引擎160。
译码引擎160可表示一种经配置以带宽压缩所变换的SHC 155的单元。译码引擎160可根据本发明中所描述的技术来将不同位速率指派给所变换的SHC 155的不同子集。如在图4A的实例中所示,译码引擎160包含开窗函数161和AAC译码单元163。译码引擎160可将开窗函数161应用于目标位速率以便将位速率指派给AAC译码单元163中的一或多者。开窗函数161可针对所变换的SHC 155所对应于的球面基底函数的每一阶和/或子阶来识别不同位速率。译码引擎160可接着用所识别的位速率来配置AAC译码单元163,因此译码引擎160可将所变换的SHC 155划分成不同子集且将这些不同子集传递到AAC译码单元163中的对应者。即,如果针对对应于零子阶球面基底函数的那些所变换的SHC 155而将一位速率配置于AAC译码单元163中的一者中,则译码引擎160将对应于零子阶球面基底函数的那些所变换的SHC 127传递到AAC译码单元163中的所述一者。AAC译码单元163可接着执行关于所变换的SHC 155的子集的AAC,从而将所变换的SHC 155的不同子集的压缩版本输出到多路复用器164。多路复用器164可接着将这些子集连同最佳角一起多路复用以产生位流31。
如在图4B的实例中所说明,位流产生装置36B包含空间分析单元150、内容特性分析单元152、旋转单元154、提取相干分量单元156、提取扩散分量单元158、译码引擎160和多路复用器(MUX)164。虽然与位流产生装置36A类似,但位流产生装置36B包含额外单元152、156和158。
内容特性分析单元152可至少部分地基于SHC 27来确定SHC 27是经由对声场的自然记录而产生,还是人工地(即,合成地)从(作为一个实例)音频对象(例如,PCM对象)而产生。此外,内容特性分析单元152可接着至少部分地基于SHC 27是经由对声场的实际记录而产生还是从人工音频对象而产生来确定待包含于位流31中的声道的总数。举例来说,内容特性分析单元152可至少部分地基于SHC 27是从对实际声场的记录而产生还是从人工音频对象而产生来确定位流31将包含十六个声道。所述声道中的每一者可为单声道。内容特性分析单元152可进一步执行基于位流31的输出位速率(例如,1.2Mbps)来确定待包含于位流31中的声道的总数。
另外,内容特性分析单元152可至少部分地基于SHC 27是从对实际声场的记录而产生还是从人工音频对象而产生来确定要将多少声道分配给声场的相干(或换句话说,相异)分量和要将多少声道分配给声场的扩散(或换句话说,背景)分量。举例来说,当SHC27是使用(作为一个实例)Eigenmic从对实际声场的记录而产生时,内容特性分析单元152可将三个声道分配给声场的相干分量且可将剩余声道分配给声场的扩散分量。在此实例中,当SHC 27系从人工音频对象而产生时,内容特性分析单元152可将五个声道分配给声场的相干分量且可将剩余声道分配给声场的扩散分量。以此方式,内容分析块(即,内容特性分析单元152)可确定声场的类型(例如,扩散/定向等)且继而确定待提取的相干/扩散分量的数目。
目标位速率可影响分量的数目和个别AAC译码引擎(例如,译码引擎160)的位速率。换句话说,内容特性分析单元152可进一步执行基于位流31的输出位速率(例如,1.2Mbps)来确定要将多少声道分配给相干分量和要将多少声道分配给扩散分量。
在一些实例中,分配给声场的相干分量的声道可具有大于分配给声场的扩散分量的声道的位速率。举例来说,位流31的最大位速率可为1.2Mb/秒。在此实例中,可存在分配给相干分量的四个声道和分配给扩散分量的16个声道。此外,在此实例中,分配给相干分量的声道中的每一者可具有64kb/秒的最大位速率。在此实例中,分配给扩散分量的声道中的每一者可具有48kb/秒的最大位速率。
如上文所指示,内容特性分析单元152可确定SHC 27是从对实际声场的记录而产生,还是从人工音频对象而产生。内容特性分析单元152可以各种方式来作出此确定。举例来说,位流产生装置36可使用4阶SHC。在此实例中,内容特性分析单元152可译码24个声道且预测第25个声道(其可表示为向量)。内容特性分析单元152可将标量应用于24个声道中的至少一些,且将所得值相加以确定第25个向量。此外,在此实例中,内容特性分析单元152可确定所预测的第25个声道的准确度。在此实例中,如果所预测的第25个声道的准确度为相对高的(例如,准确度超过特定阈值),则SHC 27很可能是从合成音频对象而产生。相比而言,如果所预测的第25个声道的准确度为相对低的(例如,准确度低于特定阈值),则SHC 27更有可能表示所记录的声场。例如,在此实例中,如果第25个声道的信噪比(SNR)超过100分贝(db),则SHC 27更有可能表示从合成音频对象所产生的声场。相比而言,使用Eigenmike所记录的声场的SNR可为5到20db。因此,在由从实际直接记录而产生的SHC 27所表示的声场与从合成音频对象而产生的SHC 27所表示的声场之间可存在SNR比的明显分界。
此外,内容特性分析单元152可至少部分地基于SHC 27是从对实际声场的记录而产生还是从人工音频对象而产生来选择用于量化V向量的码簿。换句话说,内容特性分析单元152可取决于由HOA系数表示的声场是被记录的还是合成的来选择供用于量化V向量的不同码簿。
在一些实例中,内容特性分析单元152可重复地确定SHC 27是从对实际声场的记录而产生还是从人工音频对象而产生。在一些此类实例中,重复可为每帧重复。在其它实例中,内容特性分析单元152可执行此确定一次。此外,内容特性分析单元152可重复地确定声道的总数和相干分量声道与扩散分量声道的分配。在一些此类实例中,重复可为每帧重复。在其它实例中,内容特性分析单元152可执行此确定一次。在一些实例中,内容特性分析单元152可重复地选择供用于量化V向量的码簿。在一些此类实例中,重复可为每帧重复。在其它实例中,内容特性分析单元152可执行此确定一次。
旋转单元154可执行HOA系数的旋转操作。如在本发明中的别处所论述(例如,关于图5A和5B),执行旋转操作可减少表示SHC 27所需的位的数目。在一些实例中,由旋转单元152执行的旋转分析为奇异值分解(SVD)分析的实例。主分量分析(PCA)、独立分量分析(ICA)和卡忽南-拉维变换(KLT)是可适用的相关技术。
在此方面,所述技术可提供一种产生包括描述声场的多个阶层元素的位流的方法,其中,在第一实例中,所述方法包括:将表示声场的多个阶层元素从球谐域变换到另一域以便减少多个阶层元素的数目;及在位流中指定描述如何变换声场的变换信息。
在第二实例(第一实例的方法)中,其中变换多个阶层元素包括执行关于多个阶层元素的基于向量的变换。
在第三实例(第二实例的方法)中,其中执行基于向量的变换包括执行关于多个阶层元素的以下每一者中的一或多者:奇异值分解(SVD)、主分量分析(PCA)和卡忽南-拉维变换(KLT)。
在第四实例中,一种装置包括一或多个处理器,所述一或多个处理器经配置以:将表示声场的多个阶层元素从球谐域变换到另一域以便减少多个阶层元素的数目;及在位流中指定描述如何变换声场的变换信息。
在第五实例(第四实例的装置)中,其中所述一或多个处理器经配置以在变换多个阶层元素时执行关于多个阶层元素的基于向量的变换。
在第六实例(第五实例的装置)中,其中所述一或多个处理器经配置以在执行基于向量的变换时执行关于多个阶层元素的以下每一者中的一或多者:奇异值分解(SVD)、主分量分析(PCA)和卡忽南-拉维变换(KLT)。
在第七实例中,一种装置包括:用于将表示声场的多个阶层元素从球谐域变换到另一域以便减少多个阶层元素的数目的装置;及用于在位流中指定描述如何变换声场的变换信息的装置。
在第八实例(第七实例的装置)中,其中用于变换多个阶层元素的装置包括用于执行关于多个阶层元素的基于向量的变换的装置。
在第九实例(第八实例的装置)中,其中用于执行基于向量的变换的装置包括用于执行关于多个阶层元素的以下每一者中的一或多者的装置:奇异值分解(SVD)、主分量分析(PCA)和卡忽南-拉维变换(KLT)。
在第十实例中,一种非暂时性计算机可读存储媒体具有存储于其上的指令,当执行时,所述指令致使一或多个处理器:将表示声场的多个阶层元素从球谐域变换到另一域以便减少多个阶层元素的数目;及在位流中指定描述如何变换声场的变换信息。
在第十一实例中,一种方法包括:解析位流以确定平移信息,所述平移信息描述描述声场的多个阶层元素如何被从球谐域变换到另一域以减少多个阶层元素的数目;及当基于多个阶层元素来重现声场时,基于所变换的多个阶层元素来重构多个阶层元素。
在第十二实例(第十一实例的方法)中,其中变换信息描述多个阶层元素如何使用向量基分解经变换以减少多个阶层元素的数目,且其中变换声场包括:当基于多个阶层元素来重现声场时,基于经向量基分解的多个阶层元素来重构多个阶层元素。
在第十三实例(第十二实例的方法)中,其中向量基分解包括以下每一者中的一或多者:奇异值分解(SVD)、主分量分析(PCA)和卡忽南-拉维变换(KLT)。
在第十四实例中,一种装置包括一或多个处理器,所述一或多个处理器经配置以:解析位流以确定平移信息,所述平移信息描述描述声场的多个阶层元素如何被从球谐域变换到另一域以减少多个阶层元素的数目;及当基于多个阶层元素来重现声场时,基于所变换的多个阶层元素来重构多个阶层元素。
在第十五实例(第十四实例的装置)中,其中变换信息描述多个阶层元素如何使用向量基分解经变换以减少多个阶层元素的数目,且其中所述一或多个处理器经配置以:当变换声场时且当基于多个阶层元素来重现声场时,基于经向量基分解的多个阶层元素来重构多个阶层元素。
在第十六实例(第十五实例的装置)中,其中向量基分解包括以下每一者中的一或多者:奇异值分解(SVD)、主分量分析(PCA)和卡忽南-拉维变换(KLT)。
在第十七实例中,一种装置包括:用于解析位流以确定平移信息的装置,所述平移信息描述描述声场的多个阶层元素如何被从球谐域变换到另一域以减少多个阶层元素的数目;及用于在基于多个阶层元素来重现声场时基于所变换的多个阶层元素来重构多个阶层元素的装置。
在第十八实例(第十七实例的装置)中,其中变换信息描述多个阶层元素如何使用向量基分解经变换以减少多个阶层元素的数目,且其中用于变换声场的装置包括用于在基于多个阶层元素来重现声场时基于经向量基分解的多个阶层元素来重构多个阶层元素的装置。
在第十九实例(第十八实例的装置)中,其中向量基分解包括以下每一者中的一或多者:奇异值分解(SVD)、主分量分析(PCA)和卡忽南-拉维变换(KLT)。
在第二十实例中,一种非暂时性计算机可读存储媒体具有存储于其上的指令,当执行时,所述指令致使一或多个处理器:解析位流以确定平移信息,所述平移信息描述描述声场的多个阶层元素如何被从球谐域变换到另一域以减少多个阶层元素的数目;及当基于多个阶层元素来重现声场时,基于所变换的多个阶层元素来重构多个阶层元素。
在图4B的实例中,提取相干分量单元156从旋转单元154接收经旋转的SHC 27。此外,提取相干分量单元156从经旋转的SHC 27提取与声场的相干分量相关联的那些经旋转的SHC 27。
另外,提取相干分量单元156产生一或多个相干分量声道。所述相干分量声道中的每一者可包含与声场的相干系数相关联的经旋转的SHC 27的不同子集。在图4B的实例中,提取相干分量单元156可产生1到16个相干分量声道。可通过由内容特性分析单元152分配给声场的相干分量的声道的数目来确定由提取相干分量单元156产生的相干分量声道的数目。可通过内容特性分析单元152来确定由提取相干分量单元156产生的相干分量声道的位速率。
类似地,在图4B的实例中,提取扩散分量单元158从旋转单元154接收经旋转的SHC 27。此外,提取扩散分量单元158从经旋转的SHC 27提取与声场的扩散分量相关联的那些经旋转的SHC 27。
另外,提取扩散分量单元158产生一或多个扩散分量声道。所述扩散分量声道中的每一者可包含与声场的扩散系数相关联的经旋转的SHC 27的不同子集。在图4B的实例中,提取扩散分量单元158可产生1到9个扩散分量声道。可通过由内容特性分析单元152分配给声场的扩散分量的声道的数目来确定由提取扩散分量单元158产生的扩散分量声道的数目。可通过内容特性分析单元152来确定由提取扩散分量单元158产生的扩散分量声道的位速率。
在图4B的实例中,译码引擎160可如上文关于图4A的实例所描述来操作(不过此时涉及扩散分量和相干分量)。多路复用器164(“MUX 164”)可将经编码的相干分量声道和经编码的扩散分量声道连同旁侧数据(例如,由空间分析单元150确定的最佳角)一起多路复用,以产生位流31。
图5A和5B为说明执行本发明中所描述的技术的各种方面以旋转声场40的实例的图。图5A为根据本发明中所描述的技术的各种方面的说明在旋转前的声场40的图。在图5A的实例中,声场40包含两个高压力位置(表示为位置42A和42B)。这些位置42A和42B(“位置42”)位于具有有限斜率(其为参考非垂直线的另一方式,这是因为垂直线具有无限斜率)的线44上。考虑到位置42除x和y坐标之外还具有z坐标,可能需要高阶球面基底函数来正确地表示此声场40(因为这些高阶球面基底函数描述声场的上部和下部或非水平部分)。位流产生装置36可旋转声场40直到连接位置42的线44垂直为止,而非直接将声场40减少到SHC 27。
图5B为说明声场40在被旋转直到连接位置42的线44垂直之后的图。由于以此方式旋转声场40,所以可导出SHC 27使得SHC 27中的非零子阶SHC被指定为零(考虑到经旋转的声场40沿非垂直轴(例如,X轴和/或Y轴)不再具有任何压力(或能量)位置)。以此方式,位流产生装置36可旋转、变换或更一般来说调整声场40以减少具有非零值的经旋转SHC 27的数目。位流产生装置36可接着相对于经旋转的SHC 27中的零子阶SHC而将较低位速率分配给经旋转的SHC 27中的非零子阶SHC,如上文所描述。位流产生装置36还可常通过以上文所描述的方式来表达方位角和仰角而在位流31中指定指示如何旋转声场40的旋转信息。
替代地或另外,位流产生装置36可接着在位流31的字段中用信号发送SHC 27中的这些高阶SHC未被用信号发送,而非用信号发送识别出SHC 27中的这些高阶SHC具有零值的有正负号32位数。在这些例子中,提取装置38暗示经旋转的SHC 27中的这些未用信号发送的SHC具有零值,且当基于SHC 27来重现声场40时执行旋转以旋转声场40使得声场40类似于在图5A的实例中所示的声场40。以此方式,位流产生装置36可减少需要在位流31中被指定的SHC 27的数目或以其它方式减小与经旋转的SHC 27中的非零子阶SHC相关联的位速率。
可使用“空间压缩”算法来确定声场的最佳旋转。在一个实施例中,位流产生装置36可执行所述算法以迭代经过所有可能的方位角和仰角组合(即,在以上的实例中为1024x512个组合),从而针对每一组合来旋转声场和计算高于阈值的SHC 27的数目。可将产生最小数目的高于阈值的SHC 27的方位角/仰角候选者组合视为可称作“最佳旋转”的组合。在此经旋转形式中,声场可能需要最小数目的SHC 27以用于表示声场且可因而被视为压缩的。在一些例子中,调整可包括此最佳旋转且上文所描述的调整信息可包含此旋转(其可称为“最佳旋转”)信息(就方位角和仰角而言)。
在一些例子中,位流产生装置36可以(作为一个实例)欧拉(Euler)角的形式来指定额外角,而非仅指定方位角和仰角。欧拉角指定关于Z轴、以前的X轴和以前的Z轴的旋转角度。虽然在本发明中涉及方位角和仰角的组合加以描述,但本发明的技术不应受限于仅指定方位角和仰角,而是可包含指定任何数目的角(包含上文所提及的三个欧拉角)。在这个意义上,位流产生装置36可旋转声场以减少提供与描述声场相关的信息的多个阶层元素的数目且在位流中将欧拉角指定为旋转信息。如上文所提及,欧拉角可描述如何旋转声场。当使用欧拉角时,位流提取装置38可解析位流以确定包含欧拉角的旋转信息,且当基于提供与描述声场相关的信息的那些多个阶层元素来重现声场时基于欧拉角来旋转声场。
此外,在一些例子中,位流产生装置36可指定与指定旋转的一或多个角度的预定义组合相关联的索引(其可称作“旋转索引”),而非在位流31中显式地指定这些角。换句话说,在一些例子中,旋转信息可包含旋转索引。在这些例子中,旋转索引的给定值(例如,零值)可指示未执行旋转。可关于旋转表来使用此旋转索引。即,位流产生装置36可包含旋转表,所述旋转表包括针对方位角和仰角的组合中的每一者的条目。
或者,旋转表可包含针对表示方位角和仰角的每一组合的每一矩阵变换的条目。即,位流产生装置36可存储旋转表,所述旋转表具有针对用于将声场旋转方位角和仰角的组合中的每一组合的每一矩阵变换的条目。通常,位流产生装置36接收SHC 27且当执行旋转时根据以下等式来导出SHC 27':
在以上等式中,将SHC 27'计算为以下三者的函数:用于依据第二参考坐标来编码声场的编码矩阵(EncMat2);用于将SHC 27恢复到依据第一参考坐标的声场的反矩阵(InvMat1);及SHC 27。EncMat2具有大小25x32,而InvMat2具有大小32x25。SHC 27'与SHC 27两者均具有大小25,其中SHC 27'可归因于移除了不指定突出音频信息的那些SHC而得以进一步减少。EncMat2可针对每一方位角和仰角组合而变化,而InvMat1可关于每一方位角和仰角组合而保持不变。旋转表可包含存储将每一不同EncMat2与InvMat1相乘的结果的条目。
图6为说明根据第一参考坐标所俘获的实例声场的图,所述第一参考坐标接着根据本发明中所描述的技术而旋转以依据第二参考坐标来表达声场。在图6的实例中,在假定第一参考坐标的情况下俘获包围Eigen麦克风46的声场,所述第一参考坐标在图6的实例中由X1、Y1和Z1轴表示。SHC 27依据此第一参考坐标来描述声场。InvMat1将SHC 27变换回到声场,从而在图6的实例中使得能够将声场旋转到由X2、Y2和Z2轴所表示的第二参考坐标。上文所描述的EncMat2可旋转声场并产生依据第二参考坐标来描述此经旋转的声场的SHC 27'。
在任何情况下,可如下导出以上等式。给定用某一坐标系统来记录声场,使得前方被视为X轴的方向,从此参考坐标系统来定义Eigenmike(或其它麦克风配置)的32个麦克风位置。可接着将声场的旋转视为此参考坐标的旋转。对于所假定的参考坐标而言,可如下计算SHC 27:
在以上等式中,表示在第i麦克风(其中在此实例中,i可为1-32)的位置(Posi)处的球面基底函数。mici向量表示时间t的第i麦克风的麦克风信号。位置(Posi)指麦克风在第一参考坐标(即,在此实例中为在旋转前的参考坐标)中的位置。
可替代地依据上文所表示的数学表达式来将以上等式表达为:
为了旋转声场(或在第二参考坐标中),将在第二参考坐标中计算位置(Posi)。只要原始麦克风信号存在,便可任意地旋转声场。然而,原始麦克风信号(mici(t))常不可获得。问题接着可为如何从SHC 27检索麦克风信号(mici(t))。如果使用T设计(如在32麦克风Eigenmike中),则可通过求解以下等式来实现此问题的解决方案:
此InvMat1可指定根据麦克风的位置(如关于第一参考坐标所指定)所计算的球谐基底函数。还可将此方程式表达为如上文所提及。
虽然在上文称作“麦克风信号”,但麦克风信号可指使用32麦克风囊式位置t设计的空间域表示而非“麦克风信号”本身。此外,虽然涉及32麦克风囊式位置加以描述,但所述技术可关于任何数目的麦克风囊式位置(包含16、64或任何其它数目(包含并非2的倍数的那些数目))加以执行。
一旦根据以上等式检索麦克风信号(mici(t)),便可旋转描述声场的所述麦克风信号(mici(t))以计算对应于第二参考坐标的SHC 27',从而产生以下等式:
EncMat2指定来自旋转位置(Posi')的球谐基底函数。以此方式,EncMat2可有效地指定方位角和仰角的组合。因此,当旋转表针对方位角和仰角的每一组合来存储 的结果时,旋转表有效地指定方位角和仰角的每一组合。还可将以上等式表达为:
其中θ2,表示不同于由θ1,表示的第一方位角和仰角的第二方位角和第二仰角。θ1,对应于第一参考坐标,而θ2,对应于第二参考坐标。InvMat1可因此对应于而EncMat2可对应于
以上可表示不考虑滤波操作(上文在表示在频域中导出SHC 27的各种方程式中由jn(·)函数表示,所述jn(·)函数指n阶球面贝塞耳函数)的计算的更简化版本。在时域中,此jn(·)函数表示特定针对特定阶n的滤波操作。在进行滤波的情况下,可按阶执行旋转。为了进行说明,考虑以下等式:
虽然涉及这些滤波操作加以描述,但在各种实例中,所述技术可在无这些滤波的情况下加以执行。换句话说,可在不执行滤波操作或不以其它方式将滤波操作应用于SHC27的情况下执行各种形式的旋转,如上文所提及。由于在此操作中不同“n”SHC彼此并不互动,所以可不需要滤波器(考虑到所述滤波器仅取决于“n”而非“m”)。举例来说,可将Winger d矩阵应用于SHC 27以执行旋转,其中此Winger d矩阵的应用可不需要应用滤波操作。由于未将SHC 27变换回到麦克风信号,所以在此变换中可能需要滤波操作。此外,考虑“n”仅变成“n”,对SHC 27的2m+1个块完成旋转且剩余部分可为零。为了实现更有效的存储器分配(可能在软件中),可按阶完成旋转,如本发明中所描述。此外,由于仅存在n=0处的一个SHC 27,所以情况总是相同的。所述技术的各种实施可利用在n=0处的此单一SHC 27从而提供效率(就计算和/或存储器消耗而言)。
从这些方程式,分开地完成数个阶的经旋转的SHC 27',这是因为对于每一阶而言bn(t)是不同的。结果,可如下变更以上等式以用于计算经旋转的SHC 27'中的一阶者:
给定存在三个一阶SHC 27,在以上等式中SHC 27'和SHC 27向量中的每一者的大小为三。同样地,对于二阶而言,可应用以下方程式:
再次,给定存在五个二阶SHC 27,在以上等式中SHC 27'和SHC 27向量中的每一者的大小为五。对于其它阶(即,三阶和四阶)而言,剩余方程式可类似于上文所描述的方程式,其关于矩阵的大小而遵循相同型式(因为EncMat2的行数、InvMat1的列数以及三阶SHC 27和SHC 27'向量与四阶SHC 27和SHC 27'向量的大小等于三阶球谐基底函数和四阶球谐基底函数中的每一者的子阶的数目(m乘二加1))。虽然被描述为四阶表示,但所述技术可应用于任何阶且不应受限于四阶。
位流产生装置36可因此关于方位角和仰角的每一组合来执行此旋转操作以尝试识别所谓的最佳旋转。在执行此旋转操作之后,位流产生装置36可计算高于阈值的SHC 27'的数目。在一些例子中,位流产生装置36可在持续时间(例如,音频帧)内执行此旋转以导出表示声场的一系列SHC 27'。通过在此持续时间内执行此旋转以导出表示声场的一系列SHC 27',位流产生装置36可在小于一帧或其它长度的持续时间中减少不得不执行的旋转操作的数目(与针对描述声场的每一组SHC 27来完成此旋转操作相比)。在任何情况下,位流产生装置36可贯穿此过程来节省那些SHC 27',从而具有最小数目的大于阈值的SHC 27'。
然而,关于方位角和仰角的每一组合来执行此旋转操作可为处理器密集型或耗时的。结果,位流产生装置36可不执行可被表征为旋转算法的此“蛮力”实施方案的过程。替代性地,位流产生装置36可关于大体提供优良压缩的方位角和仰角的可能已知(按统计而言)组合的子集来执行旋转,关于此子集中的组合周围的组合来执行进一步旋转,从而与子集中的其它组合相比提供更好的压缩。
作为另一替代例,位流产生装置36可仅关于组合的已知子集来执行此旋转。作为另一替代例,位流产生装置36可遵循组合的轨迹(空间上),关于组合的此轨迹来执行旋转。作为另一替代例,位流产生装置36可指定压缩阈值,所述压缩阈值定义具有高于阈值的非零值的SHC 27'的最大数目。此压缩阈值可有效地设定搜寻的停止点,使得当位流产生装置36执行旋转且确定具有高于所设定阈值的值的SHC 27'的数目小于或等于(或在一些例子中小于)压缩阈值时,位流产生装置36停止关于剩余组合来执行任何额外旋转操作。作为又一替代例,位流产生装置36可横越组合的阶层布置树(或其它数据结构),关于当前组合来执行旋转操作且取决于具有大于阈值的非零值的SHC 27'的数目而横越所述树到右边或左边(例如,对于二进制树而言)。
在这个意义上,这些替代例中的每一者涉及执行第一和第二旋转操作且比较执行第一和第二旋转操作的结果以识别产生最小数目的具有大于阈值的非零值的SHC 27'的第一和第二旋转操作中的一者。因此,位流产生装置36可对声场执行第一旋转操作以根据第一方位角和第一仰角来旋转声场,且确定提供与描述声场相关的信息的多个阶层元素的第一数目,所述多个阶层元素表示根据第一方位角和第一仰角所旋转的声场。位流产生装置36还可对声场执行第二旋转操作以根据第二方位角和第二仰角来旋转声场,且确定提供与描述声场相关的信息的多个阶层元素的第二数目,所述多个阶层元素表示根据第二方位角和第二仰角所旋转的声场。此外,位流产生装置36可基于多个阶层元素的第一数目与多个阶层元素的第二数目的比较来选择第一旋转操作或第二旋转操作。
在一些例子中,可关于持续时间来执行旋转算法,其中对旋转算法的后续调用可基于对旋转算法的过去调用来执行旋转操作。换句话说,旋转算法可基于在旋转声场历时先前持续时间时所确定的过去旋转信息而为自适应型的。举例来说,位流产生装置36可旋转声场历时第一持续时间(例如,音频帧)以识别针对此第一持续时间的SHC 27'。位流产生装置36可以上文所描述的方式中的任一者而在位流31中指定旋转信息和SHC27'。可将此旋转信息称作第一旋转信息,这是因为其描述声场在第一持续时间中的旋转。位流产生装置31可接着基于此第一旋转信息来旋转声场历时第二持续时间(例如,第二音频帧)以识别针对此第二持续时间的SHC 27'。当在第二持续时间内执行第二旋转操作时,位流产生装置36可利用此第一旋转信息以初始化对方位角和仰角的“最佳”组合的搜寻(作为一个实例)。位流产生装置36可接着在位流31中指定SHC 27'和针对第二持续时间的对应旋转信息(其可称作“第二旋转信息”)。
虽然上文涉及借以实施旋转算法以减少处理时间和/或消耗的若干不同方式加以描述,但所述技术可关于可减少或以其它方式加速对可称作“最佳旋转”的旋转的识别的任何算法加以执行。此外,可关于识别非最佳旋转但可在其它方面中改进性能(常依据速度或处理器或其它资源利用率来测量)的任何算法来执行所述技术。
图7A到7E各自为说明根据本发明中所描述的技术而形成的位流31A到31E的图。在图7A的实例中,位流31A可表示上图3中所示的位流31的一个实例。位流31A包含SHC存在字段50和存储SHC 27'的字段(其中所述字段被表示为“SHC 27'”)。SHC存在字段50可包含对应于SHC 27中的每一者的位。SHC 27'可表示在位流中被指定的那些SHC 27,SHC 27'的数目可小于SHC 27的数目。通常,SHC 27'中的每一者为具有非零值的那些SHC 27。如上文所提及,对于任一给定声场的四阶表示而言,需要(1+4)2或25个SHC。消除这些SHC中的一或多者并用单一位来代替这些零值SHC可节省31个位,所述位可经分配以更详细地表达声场的其它部分或者被移除以促进高效的带宽利用。
在图7B的实例中,位流31B可表示上图3中所示的位流31的一个实例。位流31B包含变换信息字段52(“变换信息52”)和存储SHC 27'的字段(其中所述字段被表示为“SHC 27'”)。如上文所提及,变换信息52可包括变换信息、旋转信息和/或表示对声场的调整的任何其它形式的信息。在一些例子中,变换信息52还可指定在位流31B中被指定为SHC 27'的SHC 27的最高阶。即,变换信息52可指示阶数三,提取装置38可将所述阶数理解为指示SHC 27'包含多达且包含具有阶数三的那些SHC 27的那些SHC 27。提取装置38可接着经配置以将具有四或更高的阶的SHC 27设定到零,借此潜在地在位流中移除阶数为四或更高的SHC 27的显式信令。
在图7C的实例中,位流31C可表示上图3中所示的位流31的一个实例。位流31C包含变换信息字段52(“变换信息52”)、SHC存在字段50和存储SHC 27'的字段(其中所述字段被表示为“SHC 27'”)。SHC存在字段50可显式地用信号发送SHC 27中的哪些在位流31C中被指定为SHC 27',而非经配置以理解哪一阶的SHC 27未被用信号发送(如上文关于图7B所描述)。
在图7D的实例中,位流31D可表示上图3中所示的位流31的一个实例。位流31D包含阶字段60(“阶60”)、SHC存在字段50、方位角旗标62(“AZF 62”)、仰角旗标64(“ELF 64”)、方位角字段66(“方位角66”)、仰角字段68(“仰角68”)和存储SHC27'的字段(其中,再次,所述字段被表示为“SHC 27'”)。阶字段60指定SHC 27'的阶数(即,以上针对用以表示声场的球面基底函数的最高阶由n表示的阶)。阶字段60经展示为8位字段,但可具有其它各种位大小,例如三(其为指定四阶所需的位的数目)。SHC存在字段50经展示为25位字段。然而,再次,SHC存在字段50可具有其它各种位大小。SHC存在字段50经展示为25位以指示SHC存在字段50可针对对应于声场的四阶表示的球谐系数中的每一者而包含一个位。
方位角旗标62表示1位旗标,其指定方位角字段66是否存在于位流31D中。当方位角旗标62被设定到一时,SHC 27'的方位角字段66存在于位流31D中。当方位角旗标62被设定到零时,SHC 27'的方位角字段66不存在于位流31D中或以其它方式在位流31D中未被指定。同样地,仰角旗标64表示1位旗标,其指定仰角字段68是否存在于位流31D中。当仰角旗标64被设定到一时,SHC 27'的仰角字段68存在于位流31D中。当仰角旗标64被设定到零时,SHC 27'的仰角字段68不存在于位流31D中或以其它方式在位流31D中未被指定。虽然被描述为:一用信号发送对应的字段存在且零用信号发送对应的字段不存在,但可将惯例颠倒,使得零指定对应的字段在位流31D中被指定且一指定对应的字段在位流31D中未被指定。因此,在此方面,本发明中所描述的技术不应受限。
方位角字段66表示10位字段,其当存在于位流31D中时指定方位角。虽然被展示为10位字段,但方位角字段66可具有其它位大小。仰角字段68表示9位字段,其当存在于位流31D中时指定仰角。分别在字段66和68中所指定的方位角和仰角可结合旗标62和64来表示上文所描述的旋转信息。此旋转信息可用以旋转声场以便在原始参考坐标中恢复SHC 27。
SHC 27'字段经展示为具有大小X的可变字段。SHC 27'字段可归因于在位流中被指定的SHC 27'的数目(如由SHC存在字段50所表示)而变化。可将大小X导出作为SHC存在字段50中的一的数目乘32位(其为每一SHC 27'的大小)的函数。
在图7E的实例中,位流31E可表示上图3中所示的位流31的另一实例。位流31E包含阶字段60(“阶60”)、SHC存在字段50和旋转索引字段70,以及存储SHC 27'的字段(其中,再次,所述字段被表示为“SHC 27'”)。阶字段60、SHC存在字段50和SHC27'字段可实质上类似于上文所描述的那些字段。旋转索引字段70可表示用以指定仰角和方位角的1024x512(或换句话说,524288)个组合中的一者的20位字段。在一些例子中,仅可使用19位来指定此旋转索引字段70,且位流产生装置36可在位流中指定额外旗标以指示是否执行旋转操作(且因此旋转索引字段70是否存在于位流中)。此旋转索引字段70指定上文所提及的旋转索引,所述旋转索引可指在为位流产生装置36与位流提取装置38两者所共有的旋转表中的条目。在一些例子中,此旋转表可存储方位角和仰角的不同组合。或者,旋转表可存储上文所描述的矩阵,其有效地以矩阵形式来存储方位角和仰角的不同组合。
图8为说明在图3的实例中所示的位流产生装置36在实施本发明中所描述的技术的旋转方面时的实例操作的流程图。最初,位流产生装置36可根据上文所描述的各种旋转算法中的一或多者来选择方位角和仰角组合(80)。位流产生装置36可接着根据所选的方位角和仰角来旋转声场(82)。如上文所描述,位流产生装置36可首先使用上文所提及的InvMat1从SHC 27导出声场。位流产生装置36还可确定表示经旋转的声场的SHC27'(84)。虽然被描述为分开的步骤或操作,但位流产生装置36可应用表示对方位角和仰角组合的选择的变换(其可表示[EncMat2][InvMat1]的结果),从而从SHC 27导出声场,旋转声场,且确定表示经旋转的声场的SHC 27'。
在任何情况下,位流产生装置36可接着计算大于阈值的所确定的SHC 27'的数目,将此数目与针对关于先前方位角和仰角组合的先前迭代所计算的数目相比较(86、88)。在关于第一方位角和仰角组合的第一迭代中,此比较可相对于预定义的先前数目(其可设定到零)。在任何情况下,如果SHC 27'的所确定的数目小于先前数目(“是”88),则位流产生装置36存储SHC 27'、方位角和仰角,常替换从旋转算法的先前迭代所存储的先前SHC 27'、方位角和仰角(90)。
如果SHC 27'的所确定的数目不小于先前数目(“否”88)或在存储代替先前所存储的SHC 27'、方位角和仰角的SHC 27'、方位角和仰角之后,位流产生装置36可确定旋转算法是否已完成(92)。即,作为一个实例,位流产生装置36可确定是否已评估方位角和仰角的所有可用组合。在其它实例中,位流产生装置36可确定是否满足其它准则(例如,已执行了组合的已定义子集的全部,是否已横越给定轨迹,是否已横越阶层树到叶节点等),使得位流产生装置36已完成执行旋转算法。如果未完成(“否”92),则位流产生装置36可关于另一所选组合来执行以上过程(80-92)。如果已完成(“是”92),则位流产生装置36可以上文所描述的各种方式中的一者而在位流31中指定所存储的SHC 27'、方位角和仰角(94)。
图9为说明在图4的实例中所示的位流产生装置36在执行本发明中所描述的技术的变换方面时的实例操作的流程图。最初,位流产生装置36可选择表示线性可逆变换的矩阵(100)。表示线性可逆变换的矩阵的一个实例可为上文所示的矩阵,其为[EncMat1][IncMat1]的结果。位流产生装置36可接着将矩阵应用于声场以变换声场(102)。位流产生装置36还可确定表示经旋转的声场的SHC 27'(104)。虽然被描述为分开的步骤或操作,但位流产生装置36可应用变换(其可表示[EncMat2][InvMat1]的结果),从而从SHC 27导出声场,变换声场,且确定表示所变换的声场的SHC 27'。
在任何情况下,位流产生装置36可接着计算大于阈值的所确定的SHC 27'的数目,从而将此数目与针对关于变换矩阵的先前应用的先前迭代所计算的数目相比较(106、108)。如果SHC 27'的所确定的数目小于先前数目(“是”108),则位流产生装置36存储SHC 27'和矩阵(或其某一导数,例如与矩阵相关联的索引),常替换从旋转算法的先前迭代所存储的先前SHC 27'和矩阵(或其导数)(110)。
如果SHC 27'的所确定数目不小于先前数目(“否”108)或在存储代替先前所存储的SHC 27'和矩阵的SHC 27'和矩阵之后,位流产生装置36可确定变换算法是否已完成(112)。即,作为一个实例,位流产生装置36可确定是否已评估所有可用变换矩阵。在其它实例中,位流产生装置36可确定是否满足其它准则(例如,已执行了可用变换矩阵的已定义子集的全部,是否已横越给定轨迹,是否已横越阶层树到叶节点等),使得位流产生装置36已完成执行变换算法。如果未完成(“否”112),则位流产生装置36可关于另一所选的变换矩阵来执行以上过程(100-112)。如果已完成(“是”112),则位流产生装置36可接着如上文所提及针对SHC 27'的不同所变换的子集来识别不同位速率(114)。位流产生装置36可接着使用所识别的位速率来译码不同子集以产生位流31(116)。
在一些实例中,变换算法可执行单一迭代,从而评估单一变换矩阵。即,变换矩阵可包括表示线性可逆变换的任何矩阵。在一些例子中,线性可逆变换可将声场从空间域变换到频域。此线性可逆变换的实例可包含离散傅里叶变换(DFT)。DFT的应用可仅涉及单一迭代且因此将不一定包含用以确定是否已完成变换算法的步骤。因此,所述技术不应受限于图9的实例。
换句话说,线性可逆变换的一个实例为离散傅里叶变换(DFT)。可根据DFT对二十五个SHC 27'操作以形成一组二十五个复系数。位流产生装置36还可将二十五个SHC 27'零填补为2的整数倍,以便潜在地增加DFT的区间(bin)大小的分辨率,且潜在地具有DFT的更高效实施(例如,经由应用快速傅里叶变换(FFT))。在一些例子中,未必需要将DFT的分辨率增加超过25个点。在变换域中,位流产生装置36可应用用以确定在特定区间中是否存在任何频谱能量的阈值。在此背景中,位流产生装置36可接着舍弃或置零低于此阈值的频谱系数能量,且位流产生装置36可应用反变换以恢复一或多个SHC27'被舍弃或置零的SHC 27'。即,在应用反变换之后,低于阈值的系数不存在,且结果,可使用较少位来编码声场。
另一线性可逆变换可包括执行称作“奇异值分解”的过程的矩阵。虽然涉及SVD加以描述,但所述技术可关于提供线性不相关数据的集合的任何类似变换或分解来执行。而且,除非特定地陈述为相反情况,否则在本发明中对“集合”或“子集”的参考大体意欲指“非零”集合或子集且并不意欲指包含所谓的“空集”的集合的经典数学定义。
替代性变换可包含主分量分析,其常由首字母缩写词PCA加以缩写。PCA指使用正交变换以将对可能相关的变量的观测的集合转换成线性不相关的变量(称作主分量)的集合。线性不相关的变量表示彼此不具有线性统计关系(或相依性)的变量。可将这些主分量描述为彼此间具有微小程度的统计相关性。在任何情况下,所谓的主分量的数目小于或等于原始变数的数目。通常,以此方式定义变换使得第一主分量具有最大可能的方差(或换句话说,考虑到尽可能多的数据的可变性),且每一相继分量又在此相继分量正交于前一分量(其可重述为与前一分量不相关)的约束条件下具有最高可能的方差。PCA可执行某一形式的阶数减少,其就SHC而言可导致压缩SHC。取决于背景,可通过若干不同名称(例如,举几个例子,离散卡忽南-拉维变换、霍德林变换、适当正交分解(POD)和本征值分解(EVD))来称呼PCA。
在任何情况下,SVD表示被应用于SHC以将SHC变换成经变换球谐系数的两个或两个以上集合的过程。位流产生装置36可关于SHC 27来执行SVD以产生所谓的V矩阵、S矩阵和U矩阵。在线性代数中,SVD可以以下形式来表示m乘n实矩阵或复矩阵X(其中X可表示多声道音频数据,例如SHC 11A)的因式分解:
X=USV*
U可表示m乘m实单式矩阵或复单式矩阵,其中U的m个列常被已知为多声道音频数据的左奇异向量。S可表示在对角在线具有非负实数的m乘n矩形对角线矩阵,其中S的对角线值常被已知为多声道音频数据的奇异值。V*(其可表示V的共轭转置)可表示n乘n实单式矩阵或复单式矩阵,其中V*的n个列常被称为多声道音频数据的右奇异向量。
虽然在本发明中被描述为应用于包括球谐系数27的多声道音频数据,但所述技术可被应用于任何形式的多声道音频数据。以此方式,位流产生装置36可关于表示声场的至少一部分的多声道音频数据来执行奇异值分解以产生以下每一者:U矩阵,其表示多声道音频数据的左奇异向量;S矩阵,其表示多声道音频数据的奇异值;及V矩阵,其表示多声道音频数据的右奇异向量,且将多声道音频数据表示为U矩阵、S矩阵和V矩阵中的一或多者的至少一部分的函数。
一般来说,在上文所参考的SVD数学表达式中的V*矩阵被表示为V矩阵的共轭转置以反映出SVD可被应用于包括复数的矩阵。当应用于仅包括实数的矩阵时,V矩阵的复共轭(或换句话说,V*矩阵)可被视为等于V矩阵。下文出于容易说明的目的而假定SHC 11A包括实数,从而经由SVD输出了V矩阵而非V*矩阵。虽然被假定为V矩阵,但所述技术可以类似的方式应用于具有复系数的SHC 11A,其中SVD的输出为V*矩阵。因此,在此方面,所述技术不应受限于仅提供SVD在产生V矩阵方面的应用,而是可包含将SVD应用于具有复分量的SHC 11A以产生V*矩阵的情况。
在SVD的背景中,位流产生装置36可在位流中将变换信息指定为由一或多个位定义的旗标,所述一或多个位指示是否将SVD(或更一般来说,基于向量的变换)应用于SHC27或是否应用其它变换或变化的译码方案。
因此,在三维声场中,可将声源发源于的那些方向视为最重要的。如上文所描述,提供一种用以通过计算主要能量存在于的方向来旋转声场的方法。可接着以一方式旋转声场使得此能量或最重要的空间位置接着被旋转以在an0球谐系数中。此步骤的原因是简单的,如此,当切掉不必要(即,低于给定阈值)的球谐时,对于任一给定阶N而言将很可能存在最小量的所需球谐系数(其为N球谐)。归因于为了存储甚至这些减少的HOA系数所需的大带宽,则可能需要某一形式的数据压缩。如果跨越所有球谐而使用相同位速率,则一些系数潜在地使用比产生感知上透明译码所必要的位多的位,而其它球谐系数则潜在地不使用足够大的位速率来使系数变得感知上透明。因此,可能需要一种用于跨越HOA系数来智慧地分配位速率的方法。
本发明中所描述的技术可规定:为了实现球谐的音频数据率压缩,首先旋转声场使得(作为一个实例)最大能量发源于的方向被定位到Z轴中。在此旋转的情况下,an0球谐系数可具有最大能量,这是因为Yn0球谐基底函数具有按Z轴(上下轴)指向的最大和最小波瓣。由于球谐基底函数的性质,能量分布将很可能大量地存在于an0系数中,而最少能量将在基于水平an+/-n中且m值(–n<m<n)的其它系数中的能量将在m=-n与m=0之间增加且接着再次在m=0与m=n之间减小。所述技术可接着将较大位速率指派给an0系数且将最小量指派给an+/-n系数。在这个意义上,所述技术可提供按阶和/或按子阶变化的动态位速率分配。对于给定阶而言,中间系数很可能具有中间位速率。为了计算速率,可使用开窗函数(WIN),所述开窗函数对于HOA信号中所包含的每一HOA阶而言可具有p数目的点。作为一个实例,可使用高位速率与低位速率之间的差异的WIN因子来应用速率。可按阶定义HOA信号内所包含的阶的高位速率和低位速率。在三维中,合成窗口将类似于在Z轴中向上指向的某种“马戏团”圆形马戏帐篷和另一圆形马戏帐篷(当其镜像在Z轴中向下指向时),其中所述窗口在水平平面中镜射。
图10为说明提取装置(例如,在图3的实例中所示的提取装置38)在执行本发明中所描述的技术的各种方面时的示范性操作的流程图。最初,提取装置38可确定变换信息52(120),所述变换信息可在位流31中被指定,如在图7A到7E的实例中所示。提取装置38可接着如上文所描述来确定所变换的SHC 27(122)。提取装置38可接着基于所确定的变换信息52来变换所变换的SHC 27以产生SHC 27'。在一些实例中,提取装置38可基于变换信息52来选择有效地执行此变换的再现器。即,提取装置38可根据以下等式来操作以产生SHC 27'。
在以上等式中,可使用[EncMat][Renderer]来将再现器变换相同量使得两个前方向匹配且借此取消或抵销在位流产生装置处所执行的旋转。
图11为说明位流产生装置(例如,在图3的实例中所示的位流产生装置36)和提取装置(例如,还在图3的实例中所示的提取装置38)在执行本发明中所描述的技术的各种方面时的示范性操作的流程图。最初,位流产生装置36可以上文所描述且关于图7A到7E所展示的各种方式中的任一者来识别待包含于位流31中的SHC 27的子集(140)。位流产生装置36可接着在位流31中指定SHC 27的所识别的子集(142)。提取装置38可接着获得位流31,确定在位流31中被指定的SHC 27的子集且解析来自位流的SHC 27的所确定的子集。
在一些实例中,位流产生装置36和提取装置38可结合所述技术的此子集SHC信令方面来执行所述技术的各种其它方面。即,位流产生装置36可关于SHC 27来执行变换以减少在位流31中将被指定的SHC 27的数目。位流产生装置36可接着在位流31中识别在执行此变换之后剩下的SHC 27的子集,且在位流31中指定这些所变换的SHC27,同时还在位流31中指定变换信息52。提取装置38可接着获得位流31,确定所变换的SHC 27的子集且解析来自位流31的所变换的SHC 27的所确定子集。提取装置38可接着通过基于变换信息来变换所变换的SHC 27以产生SHC 27'来恢复SHC 27(其被展示为SHC 27')。因此,虽然被展示为彼此分开,但所述技术的各种方面可彼此结合地加以执行。
应理解,取决于实例,可以不同序列来执行、可添加、合并或完全省去本文中所描述的方法中的任一者的某些动作或事件(例如,并非所有所描述的动作或事件对于实践所述方法而言都是必要的)。此外,在某些实例中,可(例如)经由多线程处理、中断处理或多个处理器同时而非顺序地执行动作或事件。另外,虽然出于清晰的目的而将本发明的某些方面描述为由单一装置、模块或单元执行,但应理解,本发明的技术可由装置、单元或模块的组合来执行。
在一或多个实例中,所描述的功能可实施于硬件、软件、固件或其任何组合中。如果实施于软件中,则功能可作为一或多个指令或代码而存储于计算机可读媒体上或经由计算机可读媒体进行传输,且通过基于硬件的处理单元执行。计算机可读媒体可包含计算机可读存储媒体(其对应于例如数据存储媒体的有形媒体)或通信媒体,通信媒体包含(例如)根据通信协议促进计算机程序从一处传送到另一处的任何媒体。
以此方式,计算机可读媒体大体上可对应于:(1)非暂时性有形计算机可读存储媒体;或(2)例如信号或载波的通信媒体。数据存储媒体可为可由一或多个计算机或一或多个处理器存取以检索用于实施本发明中所描述的技术的指令、程序代码和/或数据结构的任何可用媒体。计算机程序产品可包含计算机可读媒体。
通过实例且非限制,这些计算机可读存储媒体可包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储器、磁盘存储器,或其它磁性存储装置、快闪存储器,或可用以存储呈指令或数据结构的形式的所要程序代码且可由计算机存取的任何其它媒体。而且,将任何连接恰当地称为计算机可读媒体。举例来说,如果使用同轴电缆、光缆、双绞线、数字订户线(DSL)或无线技术(例如,红外线、无线电和微波)而从网站、服务器或其它远程源传输指令,则同轴电缆、光缆、双绞线、DSL或无线技术(例如,红外线、无线电和微波)包含于媒体的定义中。
然而,应理解,计算机可读存储媒体和数据存储媒体不包含连接、载波、信号或其它瞬时媒体,而是改为涉及非瞬时的有形存储媒体。如本文中所使用,磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软性磁盘和蓝光光盘,其中磁盘通常以磁性方式重现数据,而光盘通过激光以光学方式重现数据。以上各物的组合还应包含于计算机可读媒体的范围内。
可由例如一或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效的集成或离散逻辑电路的一或多个处理器来执行指令。因此,如本文中所使用的术语“处理器”可指上述结构或适于实施本文中所描述的技术的任何其它结构中的任一者。另外,在一些方面中,可将本文中所描述的功能性提供于经配置以用于编码和解码的专用硬件和/或软件模块内,或并入于组合式编码解码器中。而且,所述技术可完全实施于一或多个电路或逻辑组件中。
本发明的技术可以广泛多种装置或设备来实施,所述装置或设备包含无线手持机、集成电路(IC)或一组IC(例如,芯片集)。在本发明中描述各种组件、模块或单元以强调经配置以执行所揭示技术的装置的功能方面,但未必要求通过不同硬件单元来实现。相反地,如上文所描述,可将各种单元组合于编码解码器硬件单元中,或通过结合合适的软件和/或固件的互操作性硬件单元(包含如上文所描述的一或多个处理器)的集合来提供所述单元。
已描述所述技术的各种实施例。这些和其它实施例在所附权利要求书的范围内。
Claims (61)
1.一种产生包括描述声场的多个阶层元素的位流的方法,所述方法包括:
变换所述声场以减少提供与描述所述声场相关的信息的所述多个阶层元素的数目;及
在所述位流中指定描述如何变换所述声场的变换信息。
2.根据权利要求1所述的方法,
其中变换所述声场包括旋转所述声场以减少提供与描述所述声场相关的信息的所述多个阶层元素的数目,且
其中指定所述变换信息包括在所述位流中指定描述如何旋转所述声场的旋转信息。
3.根据权利要求1所述的方法,
其中变换所述声场包括平移所述声场以减少提供与描述所述声场相关的信息的所述多个阶层元素的数目,且
其中指定所述变换信息包括在所述位流中指定描述如何平移所述声场的平移信息。
4.根据权利要求1所述的方法,其中变换所述声场包括变换所述声场以减少具有高于阈值的非零值的所述多个阶层元素的数目。
5.根据权利要求1所述的方法,
其中变换所述声场包括旋转所述声场以减少具有高于阈值的非零值的所述多个阶层元素的数目,且
其中指定所述变换信息包括在所述位流中指定描述如何旋转所述声场的旋转信息。
6.根据权利要求1所述的方法,
其中变换所述声场包括旋转所述声场以减少提供与描述所述声场相关的信息的所述多个阶层元素的数目,且
其中指定所述变换信息包括在所述位流中将欧拉角指定为旋转信息,其中所述欧拉角描述如何旋转所述声场。
7.根据权利要求1所述的方法,其中变换所述声场包括:
对所述声场执行第一旋转操作以根据第一方位角和第一仰角来旋转所述声场;
确定提供与描述所述声场相关的信息的所述多个阶层元素的第一数目,所述阶层元素表示根据所述第一方位角和所述第一仰角所旋转的所述声场;
对所述声场执行第二旋转操作以根据第二方位角和第二仰角来旋转所述声场;
确定提供与描述所述声场相关的信息的所述多个阶层元素的第二数目,所述阶层元素表示根据所述第二方位角和所述第二仰角所旋转的所述声场;及
基于所述多个阶层元素的所述第一数目与所述多个阶层元素的所述第二数目的比较来选择所述第一旋转操作或所述第二旋转操作。
8.根据权利要求1所述的方法,其中变换所述声场包括:
旋转所述声场历时第一持续时间以针对所述第一持续时间来减少提供与描述所述声场相关的信息的所述多个阶层元素的数目;及
在所述位流中指定描述如何在所述第一持续时间中旋转所述声场的第一旋转信息;
基于所述第一旋转信息来旋转所述声场历时第二持续时间以减少提供与描述所述第二持续时间的所述声场相关的信息的所述多个阶层元素的所述数目;及
在所述位流中指定描述如何在所述第二持续时间中旋转所述声场的第二旋转信息。
9.根据权利要求1所述的方法,
其中变换所述声场包括关于所述多个阶层元素来执行基于向量的分解以减少所述多个阶层元素的数目,且
其中指定所述变换信息包括在所述位流中指定描述关于所述多个球谐系数执行了所述基于向量的分解的信息。
10.根据权利要求9所述的方法,其中执行所述基于向量的分解包括执行奇异值分解SVD、主分量分析PCA和卡忽南-拉维变换KLT中的一或多者。
11.根据权利要求1所述的方法,
其中变换所述声场包括将所述多个阶层元素从球谐域变换到另一域以便减少所述阶层元素的所述数目,且
其中指定所述变换信息包括在所述位流中指定指示所述多个阶层元素被从所述球谐域变换到所述另一域的信息。
12.根据权利要求1所述的方法,其进一步包括:
基于所变换的球谐系数的至少一个子集所对应的球面基底函数的阶和子阶中的一或多者来将位速率指派给所述所变换的球谐系数的所述子集,所述所变换的球谐系数已根据变换声场的变换操作而加以变换。
13.根据权利要求12所述的方法,其中指派所述位速率包括基于所述所变换的球谐系数中的每一者所对应的所述球面基底函数的所述阶和所述子阶中的一或多者,根据开窗函数来将不同位速率指派给所述所变换的球谐系数的不同子集。
14.根据权利要求13所述的方法,其中所述开窗函数包括汉宁开窗函数、汉明开窗函数、矩形开窗函数和三角形开窗函数中的一或多者。
15.根据权利要求12所述的方法,其进一步包括在所述位流中指定使用第一位速率的所述所变换的球谐系数的第一子集,及使用第二位速率的所述所变换的球谐系数的第二子集。
16.根据权利要求12所述的方法,其中指派所述位速率包括:当所述所变换的球谐系数所对应的所述球面基底函数的所述子阶移离零时,动态地指派逐渐减小的位速率。
17.根据权利要求12所述的方法,其中指派所述位速率包括:当所述所变换的球谐系数所对应的所述球面基底函数的所述阶增加时,动态地指派逐渐减小的位速率。
18.根据权利要求12所述的方法,其中指派所述位速率包括基于所变换的球谐系数的所述子集所对应的所述球面基底函数的所述阶和所述子阶中的一或多者来动态地将不同位速率指派给所述所变换的球谐系数的不同子集。
19.一种经配置以产生包括描述声场的多个阶层元素的位流的装置,所述装置包括:
一或多个处理器,其经配置以:变换所述声场以减少提供与描述所述声场相关的信息的所述多个阶层元素的数目;及在所述位流中指定描述如何变换所述声场的变换信息。
20.根据权利要求19所述的装置,
其中所述一或多个处理器进一步经配置以:当变换所述声场时,旋转所述声场以减少提供与描述所述声场相关的信息的所述多个阶层元素的数目,且
其中所述一或多个处理器进一步经配置以:当指定所述变换信息时,在所述位流中指定描述如何旋转所述声场的旋转信息。
21.根据权利要求19所述的装置,
其中所述一或多个处理器进一步经配置以:当变换所述声场时,平移所述声场以减少提供与描述所述声场相关的信息的所述多个阶层元素的数目,且
其中所述一或多个处理器进一步经配置以:当指定所述变换信息时,在所述位流中指定描述如何平移所述声场的平移信息。
22.根据权利要求19所述的装置,其中所述一或多个处理器进一步经配置以:当变换所述声场时,变换所述声场以减少具有高于阈值的非零值的所述多个阶层元素的数目。
23.根据权利要求19所述的装置,
其中所述一或多个处理器进一步经配置以:当变换所述声场时,旋转所述声场以减少具有高于阈值的非零值的所述多个阶层元素的数目,且
其中所述一或多个处理器进一步经配置以:当指定所述变换信息时,在所述位流中指定描述如何旋转所述声场的旋转信息。
24.根据权利要求19所述的装置,
其中所述一或多个处理器进一步经配置以:当变换所述声场时,旋转所述声场以减少提供与描述所述声场相关的信息的所述多个阶层元素的数目,且
其中所述一或多个处理器进一步经配置以:当指定所述变换信息时,在所述位流中将欧拉角指定为旋转信息,其中所述欧拉角描述如何旋转所述声场。
25.根据权利要求19所述的装置,其中所述一或多个处理器进一步经配置以:当变换所述声场时,对所述声场执行第一旋转操作以根据第一方位角和第一仰角来旋转所述声场;确定提供与描述所述声场相关的信息的所述多个阶层元素的第一数目,所述阶层元素表示根据所述第一方位角和所述第一仰角所旋转的所述声场;对所述声场执行第二旋转操作以根据第二方位角和第二仰角来旋转所述声场;确定提供与描述所述声场相关的信息的所述多个阶层元素的第二数目,所述阶层元素表示根据所述第二方位角和所述第二仰角所旋转的所述声场;及基于所述多个阶层元素的所述第一数目与所述多个阶层元素的所述第二数目的比较来选择所述第一旋转操作或所述第二旋转操作。
26.根据权利要求19所述的装置,其中所述一或多个处理器进一步经配置以:当变换所述声场时,旋转所述声场历时第一持续时间以针对所述第一持续时间来减少提供与描述所述声场相关的信息的所述多个阶层元素的数目;在所述位流中指定描述如何在所述第一持续时间中旋转所述声场的第一旋转信息;基于所述第一旋转信息来旋转所述声场历时第二持续时间以减少提供与描述所述第二持续时间的所述声场相关的信息的所述多个阶层元素的所述数目;及在所述位流中指定描述如何在所述第二持续时间中旋转所述声场的第二旋转信息。
27.根据权利要求19所述的装置,
其中所述一或多个处理器经配置以:当变换所述声场时,关于所述多个阶层元素来执行基于向量的分解以减少所述多个阶层元素的数目,且
其中所述一或多个处理器经配置以:当指定所述变换信息时,在所述位流中指定描述关于所述多个球谐系数执行了所述基于向量的分解的信息。
28.根据权利要求27所述的装置,其中所述一或多个处理器经配置以:当执行所述基于向量的分解时,执行奇异值分解SVD、主分量分析PCA和卡忽南-拉维变换KLT中的一或多者。
29.根据权利要求27所述的装置,
其中所述一或多个处理器经配置以:当变换所述声场时,将所述多个阶层元素从球谐域变换到另一域以便减少所述阶层元素的所述数目,且
其中所述一或多个处理器经配置以:当指定所述变换信息时,在所述位流中指定指示多个阶层元素被从所述球谐域变换到所述另一域的信息。
30.根据权利要求19所述的装置,其中所述一或多个处理器进一步经配置以基于所变换的球谐系数的至少一个子集所对应的球面基底函数的阶和子阶中的一或多者来将位速率指派给所述所变换的球谐系数的所述子集,所述所变换的球谐系数已根据变换声场的变换操作而加以变换。
31.根据权利要求30所述的装置,其中所述一或多个处理器经配置以:当指派所述位速率时,基于所述所变换的球谐系数中的每一者所对应的所述球面基底函数的所述阶和所述子阶中的一或多者,根据开窗函数来将不同位速率指派给所述所变换的球谐系数的不同子集。
32.根据权利要求31所述的装置,其中所述开窗函数包括汉宁开窗函数、汉明开窗函数、矩形开窗函数和三角形开窗函数中的一或多者。
33.根据权利要求30所述的装置,其中所述一或多个处理器进一步经配置以在所述位流中指定使用第一位速率的所述所变换的球谐系数的第一子集和使用第二位速率的所述所变换的球谐系数的第二子集。
34.根据权利要求30所述的装置,其中所述一或多个处理器经配置以:当指派所述位速率时,当所述所变换的球谐系数所对应的所述球面基底函数的所述子阶移离零时,动态地指派逐渐减小的位速率。
35.根据权利要求30所述的装置,其中所述一或多个处理器经配置以:当指派所述位速率时,当所述所变换的球谐系数所对应的所述球面基底函数的所述阶增加时,动态地指派逐渐减小的位速率。
36.根据权利要求30所述的装置,其中所述一或多个处理器经配置以:当指派所述位速率时,基于所变换的球谐系数的所述子集所对应的所述球面基底函数的所述阶和所述子阶中的一或多者来动态地将不同位速率指派给所述所变换的球谐系数的不同子集。
37.一种经配置以产生包括描述声场的多个阶层元素的位流的装置,所述装置包括:
用于变换所述声场以减少提供与描述所述声场相关的信息的所述多个阶层元素的数目的装置;及
用于在所述位流中指定描述如何变换所述声场的变换信息的装置。
38.一种非暂时性计算机可读存储媒体,其上存储有指令,当执行时,所述指令致使一或多个处理器:
变换所述声场以减少提供与描述所述声场相关的信息的所述多个阶层元素的数目;及
在所述位流中指定描述如何变换所述声场的变换信息。
39.一种处理包括描述声场的多个阶层元素的位流的方法,所述方法包括:
解析所述位流以确定变换信息,所述变换信息描述如何变换所述声场以减少提供与描述所述声场相关的信息的所述多个阶层元素的数目;及
当基于提供与描述所述声场相关的信息的所述多个阶层元素中的那些阶层元素来重现所述声场时,基于所述变换信息来变换所述声场以反转为减少所述多个阶层元素的所述数目所执行的所述变换。
40.根据权利要求39所述的方法,
其中解析所述位流以确定所述变换信息包括解析所述位流以确定旋转信息,所述旋转信息描述如何旋转所述声场以减少提供与描述所述声场相关的信息的所述多个阶层元素的数目,且
其中变换所述声场包括:当基于提供与描述所述声场相关的信息的所述多个阶层元素中的那些阶层元素来重现所述声场时,基于所述旋转信息来旋转所述声场以反转为减少所述多个阶层元素的所述数目所执行的所述旋转。
41.根据权利要求39所述的方法,
其中解析所述位流以确定所述变换信息包括解析所述位流以确定平移信息,所述平移信息描述如何平移所述声场以减少提供与描述所述声场相关的信息的所述多个阶层元素的数目,且
其中变换所述声场包括:当基于提供与描述所述声场相关的信息的所述多个阶层元素中的那些阶层元素来重现所述声场时,基于所述平移信息来平移所述声场以反转为减少所述多个阶层元素的所述数目所执行的所述平移。
42.根据权利要求39所述的方法,
其中解析所述位流以确定所述变换信息包括解析所述位流以确定描述如何变换所述声场以减少具有高于阈值的非零值的所述多个阶层元素的数目的变换信息,且
其中变换所述声场包括:当基于具有高于所述阈值的非零值的所述多个阶层元素中的那些阶层元素来重现所述声场时,基于所述变换信息来变换所述声场以反转为减少所述多个阶层元素的所述数目所执行的所述变换。
43.根据权利要求39所述的方法,
其中解析所述位流以确定所述变换信息包括解析所述位流以确定旋转信息,所述旋转信息描述如何旋转所述声场以减少具有高于阈值的非零值的所述多个阶层元素的数目,且
其中变换所述声场包括:当基于具有高于所述阈值的非零值的所述多个阶层元素中的那些阶层元素来重现所述声场时,基于所述旋转信息来旋转所述声场以反转为减少所述多个阶层元素的所述数目所执行的所述旋转。
44.根据权利要求39所述的方法,
其中解析所述位流以确定变换信息包括解析所述位流以确定包含欧拉角的旋转信息,其中所述欧拉角描述如何旋转所述声场;且
其中变换所述声场包括:当基于具有高于所述阈值的非零值的所述多个阶层元素中的那些阶层元素来重现所述声场时,基于所述欧拉角来旋转所述声场。
45.根据权利要求39所述的方法,
其中解析所述位流以确定所述变换信息包括解析所述位流以确定平移信息,所述平移信息描述如何使用基于向量的分解来分解所述多个阶层元素以减少所述多个阶层元素的数目,且
其中变换所述声场包括:当基于所述多个阶层元素中的那些阶层元素来重现所述声场时,基于经基于向量的分解的所述多个阶层元素来重构所述多个阶层元素。
46.根据权利要求45所述的方法,其中所述基于向量的分解包括奇异值分解SVD、主分量分析PCA和卡忽南-拉维变换KLT中的一或多者。
47.根据权利要求39所述的方法,
其中解析所述位流以确定所述变换信息包括解析所述位流以确定平移信息,所述平移信息描述如何将所述多个阶层元素从球谐域变换到另一域以减少所述多个阶层元素的数目,且
其中变换所述声场包括:当基于所述多个阶层元素中的那些阶层元素来重现所述声场时,基于所变换的所述多个阶层元素来重构所述多个阶层元素。
48.一种经配置以处理包括描述声场的多个阶层元素的位流的装置,所述装置包括:
一或多个处理器,其经配置以:解析所述位流以确定变换信息,所述变换信息描述如何变换所述声场以减少提供与描述所述声场相关的信息的所述多个阶层元素的数目;及当基于提供与描述所述声场相关的信息的所述多个阶层元素中的那些阶层元素来重现所述声场时,基于所述变换信息来变换所述声场以反转为减少所述多个阶层元素的所述数目所执行的所述变换。
49.根据权利要求48所述的装置,
其中所述一或多个处理器进一步经配置以:当解析所述位流以确定所述变换信息时,解析所述位流以确定旋转信息,所述旋转信息描述如何旋转所述声场以减少提供与描述所述声场相关的信息的所述多个阶层元素的数目,且
其中所述一或多个处理器进一步经配置以:当变换所述声场时,当基于提供与描述所述声场相关的信息的所述多个阶层元素中的那些阶层元素来重现所述声场时,基于所述旋转信息来旋转所述声场以反转为减少所述多个阶层元素的所述数目所执行的所述旋转。
50.根据权利要求48所述的装置,
其中所述一或多个处理器进一步经配置以:当解析所述位流以确定所述变换信息时,解析所述位流以确定平移信息,所述平移信息描述如何平移所述声场以减少提供与描述所述声场相关的信息的所述多个阶层元素的数目,且
其中所述一或多个处理器进一步经配置以:当变换所述声场时,当基于提供与描述所述声场相关的信息的所述多个阶层元素中的那些阶层元素来重现所述声场时,基于所述平移信息来平移所述声场以反转为减少所述多个阶层元素的所述数目所执行的所述平移。
51.根据权利要求48所述的装置,
其中所述一或多个处理器进一步经配置以:当解析所述位流以确定所述变换信息时,解析所述位流以确定描述如何变换所述声场以减少具有高于阈值的非零值的所述多个阶层元素的数目的变换信息,且
其中所述一或多个处理器进一步经配置以:当变换所述声场时,当基于具有高于所述阈值的非零值的所述多个阶层元素中的那些阶层元素来重现所述声场时,基于所述变换信息来变换所述声场以反转为减少所述多个阶层元素的所述数目所执行的所述变换。
52.根据权利要求48所述的装置,
其中所述一或多个处理器进一步经配置以:当解析所述位流以确定所述变换信息时,解析所述位流以确定旋转信息,所述旋转信息描述如何旋转所述声场以减少具有高于阈值的非零值的所述多个阶层元素的数目,且
其中所述一或多个处理器进一步经配置以:当变换所述声场时,当基于具有高于所述阈值的非零值的所述多个阶层元素中的那些阶层元素来重现所述声场时,基于所述旋转信息来旋转所述声场以反转为减少所述多个阶层元素的所述数目所执行的所述旋转。
53.根据权利要求48所述的装置,
其中所述一或多个处理器进一步经配置以:当解析所述位流以确定变换信息时,解析所述位流以确定包含欧拉角的旋转信息,其中所述欧拉角描述如何旋转所述声场,且
其中所述一或多个处理器进一步经配置以:当变换所述声场时,当基于具有高于所述阈值的非零值的所述多个阶层元素中的那些阶层元素来重现所述声场时,基于所述欧拉角来旋转所述声场。
54.根据权利要求48所述的装置,
其中所述一或多个处理器经配置以:当解析所述位流以确定所述变换信息时,解析所述位流以确定平移信息,所述平移信息描述如何使用基于向量的分解来分解所述多个阶层元素以减少所述多个阶层元素的数目,且
其中所述一或多个处理器经配置以:当变换所述声场时,当基于所述多个阶层元素中的那些阶层元素来重现所述声场时,基于经基于向量的分解的所述多个阶层元素来重构所述多个阶层元素。
55.根据权利要求54所述的装置,其中所述基于向量的分解包括奇异值分解SVD、主分量分析PCA和卡忽南-拉维变换KLT中的一或多者。
56.根据权利要求54所述的装置,
其中所述一或多个处理器经配置以:当解析所述位流以确定所述变换信息时,解析所述位流以确定平移信息,所述平移信息描述如何将所述多个阶层元素从球谐域变换到另一域以减少所述多个阶层元素的数目,且
其中所述一或多个处理器经配置以:当变换所述声场时包括,当基于所述多个阶层元素中的那些阶层元素来重现所述声场时,基于所变换的所述多个阶层元素来重构所述多个阶层元素。
57.一种经配置以处理包括描述声场的多个阶层元素的位流的装置,所述装置包括:
用于解析所述位流以确定变换信息的装置,所述变换信息描述如何变换所述声场以减少提供与描述所述声场相关的信息的所述多个阶层元素的数目;及
用于在基于提供与描述所述声场相关的信息的所述多个阶层元素中的那些阶层元素来重现所述声场时基于所述变换信息来变换所述声场以反转为减少所述多个阶层元素的所述数目所执行的所述变换的装置。
58.一种非暂时性计算机可读存储媒体,其上存储有指令,当执行时,所述指令致使一或多个处理器:
解析所述位流以确定变换信息,所述变换信息描述如何变换所述声场以减少提供与描述所述声场相关的信息的所述多个阶层元素的数目;及
当基于提供与描述所述声场相关的信息的所述多个阶层元素中的那些阶层元素来重现所述声场时,基于所述变换信息来变换所述声场。
59.一种产生包括描述声场的多个阶层元素的位流的方法,所述方法包括:
将表示声场的所述多个阶层元素从球谐域变换到另一域以便减少所述多个阶层元素的数目,及
在所述位流中指定描述如何变换所述声场的变换信息。
60.根据权利要求59所述的方法,其中变换所述多个阶层元素包括关于所述多个阶层元素来执行基于向量的变换。
61.根据权利要求60所述的方法,其中执行所述基于向量的变换包括关于所述多个阶层元素来执行奇异值分解SVD、主分量分析PCA和卡忽南-拉维变换KLT中的一或多者。
Applications Claiming Priority (7)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361771677P | 2013-03-01 | 2013-03-01 | |
US61/771,677 | 2013-03-01 | ||
US201361860201P | 2013-07-30 | 2013-07-30 | |
US61/860,201 | 2013-07-30 | ||
US14/192,829 | 2014-02-27 | ||
US14/192,829 US9685163B2 (en) | 2013-03-01 | 2014-02-27 | Transforming spherical harmonic coefficients |
PCT/US2014/019468 WO2014134472A2 (en) | 2013-03-01 | 2014-02-28 | Transforming spherical harmonic coefficients |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105027200A true CN105027200A (zh) | 2015-11-04 |
CN105027200B CN105027200B (zh) | 2019-04-09 |
Family
ID=51420957
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480011287.6A Active CN105027200B (zh) | 2013-03-01 | 2014-02-28 | 变换球谐系数 |
CN201480011198.1A Active CN105027199B (zh) | 2013-03-01 | 2014-02-28 | 在位流中指定球谐系数和/或高阶立体混响系数 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480011198.1A Active CN105027199B (zh) | 2013-03-01 | 2014-02-28 | 在位流中指定球谐系数和/或高阶立体混响系数 |
Country Status (10)
Country | Link |
---|---|
US (2) | US9685163B2 (zh) |
EP (2) | EP2962297B1 (zh) |
JP (2) | JP2016513811A (zh) |
KR (2) | KR20150123310A (zh) |
CN (2) | CN105027200B (zh) |
BR (1) | BR112015020892A2 (zh) |
ES (1) | ES2738490T3 (zh) |
HU (1) | HUE045446T2 (zh) |
TW (2) | TWI603631B (zh) |
WO (2) | WO2014134472A2 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109661824A (zh) * | 2016-04-26 | 2019-04-19 | 阿嘉米斯 | 广播360°音频信号的方法和系统 |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2665208A1 (en) * | 2012-05-14 | 2013-11-20 | Thomson Licensing | Method and apparatus for compressing and decompressing a Higher Order Ambisonics signal representation |
US9685163B2 (en) | 2013-03-01 | 2017-06-20 | Qualcomm Incorporated | Transforming spherical harmonic coefficients |
US9412385B2 (en) * | 2013-05-28 | 2016-08-09 | Qualcomm Incorporated | Performing spatial masking with respect to spherical harmonic coefficients |
US9854377B2 (en) | 2013-05-29 | 2017-12-26 | Qualcomm Incorporated | Interpolation for decomposed representations of a sound field |
US9466305B2 (en) | 2013-05-29 | 2016-10-11 | Qualcomm Incorporated | Performing positional analysis to code spherical harmonic coefficients |
US9384741B2 (en) * | 2013-05-29 | 2016-07-05 | Qualcomm Incorporated | Binauralization of rotated higher order ambisonics |
WO2014195190A1 (en) * | 2013-06-05 | 2014-12-11 | Thomson Licensing | Method for encoding audio signals, apparatus for encoding audio signals, method for decoding audio signals and apparatus for decoding audio signals |
EP2879408A1 (en) * | 2013-11-28 | 2015-06-03 | Thomson Licensing | Method and apparatus for higher order ambisonics encoding and decoding using singular value decomposition |
US9489955B2 (en) | 2014-01-30 | 2016-11-08 | Qualcomm Incorporated | Indicating frame parameter reusability for coding vectors |
US9922656B2 (en) | 2014-01-30 | 2018-03-20 | Qualcomm Incorporated | Transitioning of ambient higher-order ambisonic coefficients |
US9620137B2 (en) | 2014-05-16 | 2017-04-11 | Qualcomm Incorporated | Determining between scalar and vector quantization in higher order ambisonic coefficients |
US9852737B2 (en) | 2014-05-16 | 2017-12-26 | Qualcomm Incorporated | Coding vectors decomposed from higher-order ambisonics audio signals |
US10770087B2 (en) | 2014-05-16 | 2020-09-08 | Qualcomm Incorporated | Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals |
US9747910B2 (en) | 2014-09-26 | 2017-08-29 | Qualcomm Incorporated | Switching between predictive and non-predictive quantization techniques in a higher order ambisonics (HOA) framework |
CN107112024B (zh) * | 2014-10-24 | 2020-07-14 | 杜比国际公司 | 音频信号的编码和解码 |
US10452651B1 (en) | 2014-12-23 | 2019-10-22 | Palantir Technologies Inc. | Searching charts |
CN104795064B (zh) * | 2015-03-30 | 2018-04-13 | 福州大学 | 低信噪比声场景下声音事件的识别方法 |
MC200186B1 (fr) * | 2016-09-30 | 2017-10-18 | Coronal Encoding | Procédé de conversion, d'encodage stéréophonique, de décodage et de transcodage d'un signal audio tridimensionnel |
US11252524B2 (en) * | 2017-07-05 | 2022-02-15 | Sony Corporation | Synthesizing a headphone signal using a rotating head-related transfer function |
RU2740703C1 (ru) | 2017-07-14 | 2021-01-20 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Принцип формирования улучшенного описания звукового поля или модифицированного описания звукового поля с использованием многослойного описания |
WO2019012131A1 (en) | 2017-07-14 | 2019-01-17 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | CONCEPT FOR GENERATING AN ENHANCED AUDIO FIELD DESCRIPTION OR A MODIFIED AUDIO FIELD DESCRIPTION USING A MULTIPOINT SOUND FIELD DESCRIPTION |
BR112020000779A2 (pt) | 2017-07-14 | 2020-07-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | aparelho para gerar uma descrição de campo sonoro aprimorada, aparelho para gerar uma descrição de campo sonoro modificada a partir de uma descrição de campo sonoro e metadados com relação às informações espaciais da descrição de campo sonoro, método para gerar uma descrição de campo sonoro aprimorada, método para gerar uma descrição de campo sonoro modificada a partir de uma descrição de campo sonoro e metadados com relação às informações espaciais da descrição de campo sonoro, programa de computador e descrição de campo sonoro aprimorada. |
US10075802B1 (en) | 2017-08-08 | 2018-09-11 | Qualcomm Incorporated | Bitrate allocation for higher order ambisonic audio data |
US11281726B2 (en) * | 2017-12-01 | 2022-03-22 | Palantir Technologies Inc. | System and methods for faster processor comparisons of visual graph features |
US10419138B2 (en) | 2017-12-22 | 2019-09-17 | At&T Intellectual Property I, L.P. | Radio-based channel sounding using phased array antennas |
GB2572650A (en) * | 2018-04-06 | 2019-10-09 | Nokia Technologies Oy | Spatial audio parameters and associated spatial audio playback |
KR20200141981A (ko) | 2018-04-16 | 2020-12-21 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 방향성 사운드 소스의 인코딩 및 디코딩을 위한 방법, 장치 및 시스템 |
WO2020008112A1 (en) * | 2018-07-03 | 2020-01-09 | Nokia Technologies Oy | Energy-ratio signalling and synthesis |
US20200402521A1 (en) * | 2019-06-24 | 2020-12-24 | Qualcomm Incorporated | Performing psychoacoustic audio coding based on operating conditions |
US11043742B2 (en) | 2019-07-31 | 2021-06-22 | At&T Intellectual Property I, L.P. | Phased array mobile channel sounding system |
WO2021091769A1 (en) * | 2019-11-04 | 2021-05-14 | Qualcomm Incorporated | Signalling of audio effect metadata in a bitstream |
WO2022096376A2 (en) * | 2020-11-03 | 2022-05-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for audio signal transformation |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101401151A (zh) * | 2006-03-15 | 2009-04-01 | 法国电信公司 | 根据主分量分析的多通道音频信号的可分级编码的设备和方法 |
CN101730832A (zh) * | 2007-05-10 | 2010-06-09 | 法国电信 | 音频编解码方法及相编解码器和计算机程序 |
CN102460573A (zh) * | 2009-06-24 | 2012-05-16 | 弗兰霍菲尔运输应用研究公司 | 音频信号译码器、对音频信号译码的方法、以及使用级联音频对象处理级的计算机程序 |
CN102547549A (zh) * | 2010-12-21 | 2012-07-04 | 汤姆森特许公司 | 编码解码2或3维声场环绕声表示的连续帧的方法和装置 |
US20120314878A1 (en) * | 2010-02-26 | 2012-12-13 | France Telecom | Multichannel audio stream compression |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5594800A (en) | 1991-02-15 | 1997-01-14 | Trifield Productions Limited | Sound reproduction system having a matrix converter |
GB9103207D0 (en) | 1991-02-15 | 1991-04-03 | Gerzon Michael A | Stereophonic sound reproduction system |
AUPO099696A0 (en) | 1996-07-12 | 1996-08-08 | Lake Dsp Pty Limited | Methods and apparatus for processing spatialised audio |
US6021206A (en) | 1996-10-02 | 2000-02-01 | Lake Dsp Pty Ltd | Methods and apparatus for processing spatialised audio |
JPH1118199A (ja) | 1997-06-26 | 1999-01-22 | Nippon Columbia Co Ltd | 音響処理装置 |
EP1275272B1 (en) | 2000-04-19 | 2012-11-21 | SNK Tech Investment L.L.C. | Multi-channel surround sound mastering and reproduction techniques that preserve spatial harmonics in three dimensions |
FR2847376B1 (fr) * | 2002-11-19 | 2005-02-04 | France Telecom | Procede de traitement de donnees sonores et dispositif d'acquisition sonore mettant en oeuvre ce procede |
US7167176B2 (en) | 2003-08-15 | 2007-01-23 | Microsoft Corporation | Clustered principal components for precomputed radiance transfer |
EP1743327A1 (en) | 2004-04-21 | 2007-01-17 | Dolby Laboratories Licensing Corporation | Audio bitstream format in which the bitstream syntax is described by an ordered transveral of a tree hierarchy data structure |
US20060247918A1 (en) | 2005-04-29 | 2006-11-02 | Microsoft Corporation | Systems and methods for 3D audio programming and processing |
US7589725B2 (en) | 2006-06-30 | 2009-09-15 | Microsoft Corporation | Soft shadows in dynamic scenes |
US9493834B2 (en) * | 2009-07-29 | 2016-11-15 | Pharnext | Method for detecting a panel of biomarkers |
US9552840B2 (en) | 2010-10-25 | 2017-01-24 | Qualcomm Incorporated | Three-dimensional sound capturing and reproducing with multi-microphones |
EP2450880A1 (en) | 2010-11-05 | 2012-05-09 | Thomson Licensing | Data structure for Higher Order Ambisonics audio data |
CN102333265B (zh) | 2011-05-20 | 2014-02-19 | 南京大学 | 一种基于连续声源概念的三维局部空间声场重放方法 |
EP2541547A1 (en) | 2011-06-30 | 2013-01-02 | Thomson Licensing | Method and apparatus for changing the relative positions of sound objects contained within a higher-order ambisonics representation |
JP5926377B2 (ja) * | 2011-07-01 | 2016-05-25 | ドルビー ラボラトリーズ ライセンシング コーポレイション | サンプルレートスケーラブル可逆オーディオコーディング |
TW202339510A (zh) * | 2011-07-01 | 2023-10-01 | 美商杜比實驗室特許公司 | 用於適應性音頻信號的產生、譯碼與呈現之系統與方法 |
EP2898506B1 (en) | 2012-09-21 | 2018-01-17 | Dolby Laboratories Licensing Corporation | Layered approach to spatial audio coding |
EP2743922A1 (en) | 2012-12-12 | 2014-06-18 | Thomson Licensing | Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field |
US9685163B2 (en) | 2013-03-01 | 2017-06-20 | Qualcomm Incorporated | Transforming spherical harmonic coefficients |
-
2014
- 2014-02-27 US US14/192,829 patent/US9685163B2/en active Active
- 2014-02-27 US US14/192,819 patent/US9959875B2/en active Active
- 2014-02-28 EP EP14711375.7A patent/EP2962297B1/en active Active
- 2014-02-28 HU HUE14713289A patent/HUE045446T2/hu unknown
- 2014-02-28 WO PCT/US2014/019468 patent/WO2014134472A2/en active Application Filing
- 2014-02-28 BR BR112015020892A patent/BR112015020892A2/pt not_active IP Right Cessation
- 2014-02-28 CN CN201480011287.6A patent/CN105027200B/zh active Active
- 2014-02-28 KR KR1020157026859A patent/KR20150123310A/ko not_active Application Discontinuation
- 2014-02-28 WO PCT/US2014/019446 patent/WO2014134462A2/en active Application Filing
- 2014-02-28 JP JP2015560355A patent/JP2016513811A/ja active Pending
- 2014-02-28 EP EP14713289.8A patent/EP2962298B1/en active Active
- 2014-02-28 KR KR1020157026860A patent/KR101854964B1/ko active IP Right Grant
- 2014-02-28 ES ES14713289T patent/ES2738490T3/es active Active
- 2014-02-28 CN CN201480011198.1A patent/CN105027199B/zh active Active
- 2014-02-28 JP JP2015560352A patent/JP2016510905A/ja not_active Ceased
- 2014-03-03 TW TW103107128A patent/TWI603631B/zh not_active IP Right Cessation
- 2014-03-03 TW TW103107142A patent/TWI583210B/zh not_active IP Right Cessation
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101401151A (zh) * | 2006-03-15 | 2009-04-01 | 法国电信公司 | 根据主分量分析的多通道音频信号的可分级编码的设备和方法 |
CN101730832A (zh) * | 2007-05-10 | 2010-06-09 | 法国电信 | 音频编解码方法及相编解码器和计算机程序 |
CN102460573A (zh) * | 2009-06-24 | 2012-05-16 | 弗兰霍菲尔运输应用研究公司 | 音频信号译码器、对音频信号译码的方法、以及使用级联音频对象处理级的计算机程序 |
US20120314878A1 (en) * | 2010-02-26 | 2012-12-13 | France Telecom | Multichannel audio stream compression |
CN102547549A (zh) * | 2010-12-21 | 2012-07-04 | 汤姆森特许公司 | 编码解码2或3维声场环绕声表示的连续帧的方法和装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109661824A (zh) * | 2016-04-26 | 2019-04-19 | 阿嘉米斯 | 广播360°音频信号的方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
EP2962297A2 (en) | 2016-01-06 |
US20140249827A1 (en) | 2014-09-04 |
CN105027199A (zh) | 2015-11-04 |
WO2014134472A3 (en) | 2015-03-19 |
TWI583210B (zh) | 2017-05-11 |
JP2016513811A (ja) | 2016-05-16 |
KR20150123310A (ko) | 2015-11-03 |
US9959875B2 (en) | 2018-05-01 |
US20140247946A1 (en) | 2014-09-04 |
EP2962298B1 (en) | 2019-04-24 |
KR20150123311A (ko) | 2015-11-03 |
WO2014134472A2 (en) | 2014-09-04 |
ES2738490T3 (es) | 2020-01-23 |
CN105027200B (zh) | 2019-04-09 |
TWI603631B (zh) | 2017-10-21 |
TW201503712A (zh) | 2015-01-16 |
KR101854964B1 (ko) | 2018-05-04 |
EP2962297B1 (en) | 2019-06-05 |
WO2014134462A3 (en) | 2014-11-13 |
EP2962298A2 (en) | 2016-01-06 |
BR112015020892A2 (pt) | 2017-07-18 |
US9685163B2 (en) | 2017-06-20 |
CN105027199B (zh) | 2018-05-29 |
HUE045446T2 (hu) | 2019-12-30 |
WO2014134462A2 (en) | 2014-09-04 |
JP2016510905A (ja) | 2016-04-11 |
TW201446016A (zh) | 2014-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105027200A (zh) | 变换球谐系数 | |
CN105325015B (zh) | 经旋转高阶立体混响的双耳化 | |
US10499176B2 (en) | Identifying codebooks to use when coding spatial components of a sound field | |
CN106104680B (zh) | 将音频信道插入到声场的描述中 | |
US20150127354A1 (en) | Near field compensation for decomposed representations of a sound field | |
CN106575506A (zh) | 高阶立体混响音频数据的中间压缩 | |
CN105340008A (zh) | 声场的经分解表示的压缩 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |