CN104471960A

CN104471960A - 用于向后兼容音频译码的系统、方法、设备和计算机可读媒体

Info

Publication number: CN104471960A
Application number: CN201380037334.XA
Authority: CN
Inventors: D·森; 向佩
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2012-07-15
Filing date: 2013-06-18
Publication date: 2015-03-25
Anticipated expiration: 2033-06-18
Also published as: KR101993587B1; US20160219389A1; JP2015525897A; WO2014014600A1; JP6105062B2; EP2873252B1; IN2014MN02567A; US20140016784A1; CN104471960B; ES2734512T3; KR20150038095A; US9788133B2; EP2873252A1; HUE044246T2; KR101751241B1; KR20170075025A; US9288603B2

Abstract

本发明呈现用于描述声场的基函数系数集合的向后兼容译码的系统、方法和设备。

Description

用于向后兼容音频译码的系统、方法、设备和计算机可读媒体

依据35U.S.C.§119的优先权主张

本专利申请案主张2012年7月15日申请且转让给本受让人的标题为“在使用球谐系数用于空间音频表示时提供向后兼容性(PROVIDING BACKWARD COMPATIBILITYWHEN USING SPHERICAL HARMONICS COEFFICIENTS FOR SPATIAL AUDIOREPRESENTATION)”的第61/671,789号临时申请案的优先权。

技术领域

本发明涉及空间音频译码。

背景技术

环绕声的演进现今已使得许多用于娱乐的输出格式可用。市场上的环绕声格式的范围包含流行的5.1家庭影院系统格式，其在应用于起居室方面已最成功地超越了立体声。此格式包含以下六个通道：前左(L)、前右(R)、中心或前中心(C)、后左或环绕左(Ls)、后右或环绕右(Rs)，以及低频效果(LFE)。环绕声格式的其它实例包含增长的7.1格式和由NHK(日本放送协会(Nippon Hoso Kyokai)或日本广播公司)开发的未来的22.2格式，例如用于与超高清晰度电视标准一起使用。可需要一种环绕声格式以在两个维度中和/或在三个维度中对音频进行编码。

发明内容

描述根据一般配置的处理多个基函数系数的方法。所述多个基函数系数描述在时间间隔期间的声场。此方法包含对所述多个基函数系数的第一群组执行可逆变换以产生多个通道信号，其中所述多个通道信号中的每一者与对应不同空间区相关联。此方法还包含基于所述多个通道信号产生数据结构，所述数据结构包含(A)所述多个基函数系数的第二群组的表示，其中所述第二群组不同于所述第一群组，以及(B)与所述第二群组的所述表示分开的所述多个通道信号的表示。还揭示具有有形特征的计算机可读存储媒体(例如，非暂时性媒体)，所述有形特征致使读取所述特征的机器执行此方法。

描述根据一般配置的用于处理多个基函数系数的设备。所述多个基函数系数描述在时间间隔期间的声场。此设备包含用于对所述多个基函数系数的第一群组执行可逆变换以产生多个通道信号的装置，其中所述多个通道信号中的每一者与对应不同空间区相关联。此设备还包含用于基于所述多个通道信号产生数据结构的装置，所述数据结构包含(A)所述多个基函数系数的第二群组的表示，其中所述第二群组不同于所述第一群组，以及(B)与所述第二群组的所述表示分开的所述多个通道信号的表示。

描述根据另一一般配置的用于处理多个基函数系数的设备。所述多个基函数系数描述在时间间隔期间的声场。此设备包含计算器，其经配置以对所述多个基函数系数的第一群组执行可逆变换以产生多个通道信号，其中所述多个通道信号中的每一者与对应不同空间区相关联。此设备还包含数据格式化器，其经配置以基于所述多个通道信号产生数据结构，所述数据结构包含(A)所述多个基函数系数的第二群组的表示，其中所述第二群组不同于所述第一群组，以及(B)与所述第二群组的所述表示分开的所述多个通道信号的表示。

附图说明

图1A展示不具有向后兼容性考虑的基于场景的译码的实例。

图1B说明用于使用MPEG编解码器的标准化的一般结构。

图1C展示用于单声道/立体声的向后兼容实例。

图2A展示具有向后兼容设计的编码过程的实例。

图2B展示无法对基于场景的数据进行解码的常规解码器上的解码过程的实例。

图3A展示可处置基于场景的数据的新装置的解码过程的实例。

图3B展示根据一般配置的音频信号处理方法M100的流程图。

图3C展示根据一般配置的用于音频信号处理的设备MF100的框图。

图3D展示根据另一一般配置的用于音频信号处理的设备A100的框图。

图4展示阶数0和1的球谐基函数的量值的表面网格绘图的实例。

图5展示阶数2的球谐基函数的量值的表面网格绘图的实例。

图6展示5.1系统的扬声器角度的标准顺应性实例。

图7展示用于5.1目标系统的扬声器角度的均匀间隔布置的实例。

图8展示7.1系统的扬声器角度的标准顺应性实例。

图9展示用于7.1目标系统的扬声器角度的均匀间隔布置的实例。

图10A展示根据一般配置的音频信号处理方法M200的流程图。

图10B展示方法M200的实施方案M210的流程图。

图11A展示根据一般配置的用于音频信号处理的设备MF200的框图。

图11B展示设备MF100的实施方案MF210的框图。

图11C展示根据另一一般配置的用于音频信号处理的设备A200的框图。

图11D展示设备A100的实施方案A210的框图。

图11E展示根据另一一般配置的用于音频信号处理的设备P100的框图。

具体实施方式

除非由其上下文明确限制，否则术语“信号”在此用以指示其普通意义中的任一者，包含如在电线、总线或其它传输媒体上表示的存储器位置(或存储器位置集合)的状态。除非由其上下文明确限制，否则术语“产生”在此用以指示其普通意义中的任一者，例如计算或以其它方式产生。除非由其上下文明确限制，否则术语“计算”在此用以指示其普通意义中的任一者，例如计算、评估、估计和/或从多个值中选择。除非由其上下文明确限制，否则术语“获得”用以指示其普通意义中的任一者，例如计算、推导、接收(例如，从外部装置)和/或检索(例如，从存储元件阵列)。除非由其上下文明确限制，否则术语“选择”用以指示其普通意义中的任一者，例如识别、指示、应用和/或使用两者或两者以上的集合中的至少一者且少于全部。在本发明描述和权利要求书中使用术语“包括”的情况下，其并不排除其它元件或操作。术语“基于”(如“A基于B”中)用以指示其普通意义中的任一者，包含如下情况：(i)“推导自”(例如，“B是A的前体”)，(ii)“至少基于”(例如，“A至少基于B”)，以及在特定上下文中适当的情况下，(iii)“等于”(例如，“A等于B”)。类似地，术语“响应于”用以指示其普通意义中的任一者，包含“至少响应于”。

对多麦克风音频感测装置的麦克风的“位置”的参考指示所述麦克风的声学敏感面的中心的位置，除非上下文另外指示。根据特定上下文，术语“通道”有时候用以指示信号路径且在其它时候用以指示由此路径载运的信号。除非另外指示，否则术语“系列”用以指示两个或两个以上项目的序列。术语“对数”用以指示基于十的对数，但此运算向其它基数的扩展在本发明的范围内。术语“频率分量”用以指示信号的一组频率或频带当中的一者，例如所述信号的频域表示的样本(例如，由快速傅立叶变换产生)或所述信号的子带(例如，巴克(Bark)尺度或梅尔(mel)尺度子带)。

除非另外指示，否则对具有特定特征的设备的操作的任何揭示也明确预期揭示具有类似特征的方法(且反之亦然)，且对根据特定配置的设备的操作的任何揭示也明确预期揭示根据类似配置的方法(且反之亦然)。术语“配置”可参考由其特定上下文指示的方法、设备和/或系统来使用。术语“方法”、“过程”、“程序”和“技术”一般地且可互换地使用，除非特定上下文另外指示。术语“设备”和“装置”也一般地且可互换地使用，除非特定上下文另外指示。术语“元件”和“模块”通常用以指示较大配置的一部分。除非由其上下文明确限制，否则术语“系统”在此用以指示其普通意义中的任一者，包含“相互作用以用于共同目的的元件群组”。

通过引用文档的一部分的任何并入也应当理解为并入了在所述部分内参考的术语或变量的定义，此些定义在文档中的别处出现的地方，以及在所并入部分中参考的任何图式。除非初始通过定冠词介绍，否则用以修改权利要求元素的序数术语(例如，“第一”、“第二”、“第三”等等)本身并不指示所述权利要求元素相对于另一元素的任何优先级或次序，而是仅使所述权利要求元素区别于具有相同名称(但出于序数术语的使用)的另一权利要求元素。除非通过其上下文明确限制，否则术语“多个”和“集合”中的每一者在本文用以指示大于一的整数量。

消费型音频中的当前现有技术是使用基于通道的环绕声的空间译码，所述环绕声有意通过预先指定位置处的扬声器来播放。空间音频译码的另一方法是基于对象的音频，其涉及用于单个音频对象的离散脉码调制(PCM)数据，具有含有所述对象在空间中的位置坐标(以及其它信息)的相关联元数据。

空间音频译码(例如，环绕声译码)的又一方法是基于场景的音频，其涉及使用球谐基函数(spherical harmonic basis function)的系数表示声场。此些系数也称为“球谐系数”或SHC。图1A描绘关于基于场景的方法的直观编码和解码过程。在此实例中，基于场景的编码器SE10产生经发射(和/或存储)且在基于场景的解码器SD10处解码的SHC的描述以接收用于再现的SHC(例如，由SH再现器SR10)。此编码可包含用于带宽压缩的一或多个有损或无损译码技术，例如量化(例如，量化为一或多个码簿索引)、错误校正译码、冗余译码等等。另外或替代地，此编码可包含将音频通道(例如，麦克风输出)编码为环境立体声格式，例如B格式、G格式或较高阶环境立体声(HOA)。大体上，编码器SE10可使用利用系数之间的冗余和/或不相关性(用于有损或无损译码)的技术对SHC进行编码。

可能希望提供空间音频信息到经标准化位流中的编码以及对扬声器几何形状和再现器的位置处的声学条件可适配且无关的后续解码。此方法可提供均匀收听体验的目标，无论最终用于再生的特定设置如何。图1B说明用于使用MPEG编解码器的此标准化的一般结构。在此实例中，对编码器MP10的输入音频源可包含以下各项中的任意一或多者，例如：基于通道的源(例如，1.0(单声道)、2.0(立体声)、5.1、7.1、11.1、22.2)、基于对象的源，以及基于场景的源(例如，高阶球谐、环境立体声)。类似地，由解码器(和再现器)MP20产生的音频输出可包含以下各项中的任意一或多者，例如：用于单声道、立体声、5.1、7.1和/或22.2扬声器阵列的馈送；用于不规则分布扬声器阵列的馈送；用于头戴受话器的馈送；交互式音频。

还可能希望遵循“产生一次，使用多次”基本原理，其中音频材料产生一次(例如，由内容产生器)且经编码为可随后经解码且再现为不同输出和扬声器设置的格式。例如好莱坞工作室(Hollywood studio)等内容产生器将通常可能产生用于电影的声轨一次且不会花费努力来针对每一可能扬声器配置对其进行再混合。

对图1B的标准化实例中的MPEG编码器MP10的输入任选地为基于通道的格式、基于对象的格式和基于场景的格式中的一者。存在使用基于场景的格式的大量优点。然而，使用此格式的一个可能缺点是缺乏对现有消费型音频系统的向后兼容性。当使用SHC时缺乏向后兼容性是由于SHC不是PCM数据的事实。缺乏新的基于场景的解码器的现有接收器(也称为“传统”系统)无法对此些信号进行解码且将不能播放节目。本发明描述可用以解决在使用阶层式系数集合(例如，SHC或其它基函数集合的系数)来表示声场时此向后兼容性的缺乏的方法、系统和设备。

本文描述的方法提供对声场的基于SHC的表示的使用中的潜在缺点的解决方案。在无此解决方案的情况下，基于SHC的表示将难以部署，原因在于由于不能在数百万现有传统重放系统中具有功能性而带来的显著缺点。

向后兼容性即使在首先引入立体声格式时也是问题，因为传统单声道重放系统必须保持兼容性。在此情况下，使用矩阵化来保持单声道-立体声向后兼容性。立体声“M中间”和“S侧面”格式能够通过使用仅M通道来保持与具有单声道能力的系统的兼容性。如图1C所示，具有立体声能力的系统执行简单的2x2矩阵运算以对“L左”和“R右”通道进行解码。

M-S信号可通过使用以上矩阵的逆(碰巧是相同的)从L-R信号计算。以此方式，传统单声道播放器保持功能性，而立体声播放器可准确地对左和右通道进行解码。以类似方式，可添加保持向后兼容性的第三通道，其保留单声道播放器和立体声播放器的功能性且添加三通道播放器的功能性。

传统基于5.1通道的矩阵化音频方法包含额外通道的扩展可通过包含5.1样本作为经扩展通道格式的子集来绕过向后兼容性的问题。举例来说，最现有的消费型音频系统接受5.1通道输入。在向后兼容扩展位流中，5.1样本处于由传统系统辨识的位置中，且额外通道例如位于含有所有通道样本的帧包的扩展部分中。此方法的另一实例是杜比数字加(Dolby Digital Plus)位流(杜比实验室公司，加利福尼亚旧金山)，其包含具有5.1混合的核心包以及具有7.1混合的四个环绕通道的扩展包。替代地，解码器可经配置以通过对较高数目的通道执行矩阵化操作来确定5.1通道数据。

用于在基于对象的格式中解决向后兼容性的问题的一个建议方法是连同对象一起发送经向下混合5.1通道信号。在此情形中，传统基于通道的系统将播放基于经向下混合5.1通道的音频，而较高级的再现器将使用5.1音频与个别音频对象的组合或仅个别对象来再现声场。然而，此向后兼容性的方法可能因为以两个不同格式发送同一音频信息而低效地使用带宽。

本发明包含其中以不同方式处理描述声场的阶层式元素集合(例如，SHC集合)的两个部分的系统、方法和设备的描述。在此方法中，元素的子集经转换(例如，使用如下文详述的变换矩阵)来获得多通道音频信号的集合。此方法可用以将阶层式集合的子集(“基本集合”)转换到与传统多通道音频格式兼容的多个音频通道。此方法还可经配置以获得任何所要数目的通道来维持向后兼容性。此向后兼容系统的方面的实例在图2A、2B和3A中的系统图中概括，具有关于编码器和解码器结构的阐释。

图2A展示此编码方法的一般实例。一个特定用户是将完整SHC集合(在向后兼容性不是问题的情况下原本可能使用)的基本集合转换到表示传统多通道音频格式的多个通道(例如，由变换矩阵TM10和再编码器/转码器TC10产生)。SHC集合的其余部分(例如，不是所述子集的部分的系数)被视为未转换的扩展集合且可单独编码(通过基于场景的编码器SE10的实施方案SE20，例如用于带宽压缩)以用于经由发射通道(例如，有线和/或无线通道)进行发射，和/或用于连同向后兼容多通道音频编码信号一起存储(例如，如本文描述且在此实例中由位流多路复用器MX10产生的包或位流中)。举例来说，这些经编码位可经包化为位流的扩展部分或帧的包的扩展部分(例如，用户定义的部分)。

在接收端，将位流多路分用(例如，由多路分用器DX10)，且仅支持常规解码器(例如，传统解码器LD10)的传统系统将仅使用向后兼容多通道音频内容，因此保持功能性，且忽略帧包或位流的扩展部分，如图2B所示。

支持基于场景的解码的接收器可根据图3A所示的一般实例执行解码过程，其与图2A所示的编码方法互逆。如果通道已经再编码或转码，那么可执行解码的中间步骤。举例来说，转码解码器TC20可用以将向后兼容位流转换为多通道音频信号。随后，使用逆变换矩阵IM10来将多通道音频信号转换到阶层式集合的原始子集(例如，SHC的基本集合)。阶层式集合的其余部分(例如，经扩展SHC集合)由基于场景的解码器SD10的实施方案SD20恢复(例如，从包或位流的经扩展部分)。以此方式，完整的阶层式集合(例如，完整的SHC集合)可恢复且由SH再现器SR10处理以允许进行各种类型的声场再现。

使用SHC的集合来表示声场是使用阶层式元素集合来表示声场的一般方法的特定实例。例如SHC集合等阶层式元素集合是其中元素经排序使得较低阶元素的基本集合提供经建模声场的完整表示的集合。由于所述集合经扩展以包含较高阶元素，因此空间中的声场的表示变得更详细。

源SHC(例如，如图3A中所示)可为由混合工程师在能够基于场景的记录工作室中混合的源信号。源SHC还可从由麦克风阵列俘获的信号或从由扬声器的环绕阵列的声音表示的记录来产生。PCM流和相关联位置信息(例如，音频对象)向SHC源集合的转换也是预期的。

声场可使用例如以下表达式在SHC方面来表示：

此表达式展示在声场的任一点处的压力p_i可由SHC唯一地表示。此处波数c为声速(大约343m/s)，是参考点(或观察点)，j_n(·)是阶数n的球形贝塞尔函数，且是阶数n且子阶数m的球谐基函数(SHC的一些描述将n标记为度数(即，对应勒让德多项式)且将m标记为阶数)。可认识到，在方括号中的项是信号的频域表示(即，)，其可通过各种时间-频率变换来近似，例如离散傅立叶变换(DFT)、离散余弦变换(DCT)或小波变换。

图4展示阶数0和1的球谐基函数的量值的表面网格绘图的实例。函数的量值是球形且全向的。函数具有分别在+y和-y方向上延伸的正和负球瓣。函数具有分别在+z和-z方向上延伸的正和负球瓣。函数具有分别在+x和-x方向上延伸的正和负球瓣。

图5展示阶数2的球谐基函数的量值的表面网格绘图的实例。函数和具有在x-y平面中延伸的瓣。函数具有在y-z平面中延伸的瓣，且函数具有在x-z平面中延伸的瓣。函数具有在+z和-z方向上延伸的正瓣和在x-y平面中延伸的环形负瓣。

集合中SHC的总数目可取决于各种因数。对于例如基于场景的音频，SHC的总数目可受到记录阵列中的麦克风变换器的数目约束。对于基于通道和基于对象的音频，SHC的总数目可由可用带宽决定。在一个实例中，使用针对每一频率涉及25个系数的四阶表示(即，0≤n≤4，-n≤m≤+n)。可与本文描述的方法一起使用的阶层式集合的其它实例包含小波变换系数的集合以及多分辨率基函数的系数的其它集合。

SHC可从使用各种麦克风阵列配置中的任一者(例如四面或球形麦克风阵列)物理上获取(例如，记录)的信号导出。此形式的输入表示对建议编码器的基于场景的音频输入。在非限制性实例中，假定对SHC编码器的输入是麦克风阵列的不同输出通道，例如Eigenmike^R(mh声学有限责任公司，加利福尼亚旧金山)。Eigenmike^R阵列的一个实例是em32阵列，其包含布置于直径8.4厘米的球体的表面上的32个麦克风，使得输出信号p_i(t)中的每一者(i＝1到32)为由麦克风i在时间样本t处记录的压力。替代地，SHC可从声场的基于通道或基于对象的描述导出。举例来说，用于对应于个别音频对象的声场的系数可表达为

其中i为且为阶数n的球形汉克尔函数(第二种)，为对象的位置，且g(ω)为随着频率而变的源能量。

知道随着频率而变的源能量g(ω)允许我们将每一PCM对象及其位置转换为SHC此源能量可例如使用时间-频率分析技术，例如通过对PCM流执行快速傅立叶变换(例如，256、512或1024点FFT)来获得。此外，可展示(由于以上是线性且正交的分解)用于每一对象的系数是加性的。以此方式，大量PCM对象可由系数表示(例如，作为个别对象的系数向量的和)。本质上，这些系数含有关于声场的信息(随着3D坐标而变的压力)，且以上表示在观测点附近从个别对象到总体声场的表示的变换。

所属领域的技术人员将认识到，可使用除了表达式(2)中所示的表示之外的系数(或等效地，对应时域系数)的表示，例如不包含径向分量的表示。所属领域的技术人员将认识到，球谐基函数的若干稍微不同的定义是已知的(例如，实数、复数、正规化(例如，N3D)、半正规化(例如，SN3D)、弗斯-马勒姆(FuMa或FMH)等等)，且因此表达式(1)(即，声场的球谐分解)和表达式(2)(即，由点源产生的声场的球谐分解)可在字面上以稍微不同形式表现。本描述不限于球谐基函数的任何特定形式，且实际上一般也适用于其它阶层式元素集合。

图3B展示用于处理描述在时间间隔期间的声场的多个基函数系数的方法M100的流程图。方法M100包含任务T100和T200。任务T100对所述多个基函数系数的第一群组(“基本集合”)执行可逆变换以产生多个通道信号，其中所述多个通道信号中的每一者与对应不同空间区相关联。基于所述多个通道信号，任务T200产生数据结构，其包含(A)所述多个基函数系数的第二群组(“扩展集合”)的表示，其中所述第二群组不同于所述第一群组，和(B)与所述第二群组的所述表示分开的所述多个通道信号的表示。

方法M100的实施方案的设计可包含选择将转换到多通道音频(例如，常规格式)的原始阶层式集合(即，基本集合)的子集。可预期此方法将实施以维持与至少传统5.1环绕/家庭影院能力的兼容性。对于5.1格式，多通道音频通道是前左(L)、中心(C)、前右(R)、左环绕(Ls)、右环绕(Rs)和低频效果(LFE)。7.1格式增加了左后(Lb)和右后(Rb)通道。在下文的论述中，5.1格式将用作典型的目标多通道音频格式，且将阐述实例性方法。预期且进而揭示相同方法可经一般化到其它多通道音频格式(例如，7.1、22.2等等)。

选择基本集合的各种方法是可能的。由于在5.1格式中五个信号(对应于来自指定位置的全带音频)可用(加LFE信号，其不具有标准化位置且可通过对所述五个通道进行低通滤波来确定)，因此一种方法是使用SHC中的五个来转换为5.1格式。此外，可能希望根据对应基函数的空间定向选择基本集合。由于5.1格式仅能够例如进行2D再现，因此可能希望基本集合仅包含载运一些水平信息的SHC。换句话说，可能希望选择对应于在包含扬声器位置的平面(例如，x-y平面)内沿着至少一个方向集中能量的基函数的SHC。如图4中所见，系数载运关于例如水平方向性的极少信息，且可因此从此子集排除。对于的实部或虚部情况也是这样(例如，参见图5中展示为和的基函数)。针对基本集合选择的特定系数可例如取决于在实施方案中选择的球谐基函数的定义而变化(在文献中存在各种定义：实数、虚数、复数或组合)。

以此方式，可拾取五个系数用于转换。由于系数载运全向信息，因此可希望总是使用此系数。类似地，可希望包含的实部和的虚部，因为其载运大量水平方向性信息。对于最后两个系数，可能的候选包含的实部和虚部。各种其它组合也是可能的。举例来说，可选择基本集合以仅包含三个系数的实部以及的虚部。还可能取决于所要通道的数目还有对下文论述的变换矩阵的可逆性约束，基本集合包含更多或更少系数。

用于如本文描述的5.1兼容系统的设计的细节可针对不同目标格式相应地调整。作为实例，为了实现针对7.1系统的兼容性，将两个额外音频内容通道添加到兼容要求，且可将再两个SHC添加到基本集合，使得所得变换矩阵为正方形且因此可为可逆的。由于用于7.1系统(例如，杜比TrueHD)的主要扬声器布置仍在水平平面上，因此SHC的选择可仍排除具有高度信息的SHC。以此方式，水平平面信号再现将得益于再现系统中的增加的扬声器通道。在包含具有高度分集的扬声器的系统(例如，9.1、11.1和22.2系统)中，可希望在基本集合中包含具有高度信息的SHC。

虽然我们已一般化到多通道，但当前市场上的主要重点是针对5.1通道，因为其为“最小公分母”以确保例如机顶盒等传统消费型音频系统的功能性。对于例如立体声和单声道等较低数目的通道，在许多现有技术中的现存5.1解决方案应当足以涵盖向下混合以维持内容信息。这些情况(即，1.0和2.0)视为不重要的且在本发明中不进一步论述。

可能出现的另一问题是在从(例如，SHC的)基本集合到多通道音频并返回到基本集合的向前和向后转换中产生多少误差。任务T100对基函数系数的基本集合执行可逆变换以产生多个通道信号，其各自与对应不同空间区(例如，对应不同扬声器位置)相关联。可能希望实施任务T100以应用可逆矩阵以将SHC的基本集合(例如，如上所述选择的五个系数)转换为5.1格式的五个全带音频信号。可逆性的需要是允许在极少或无分辨率损失的情况下将五个全带音频信号转换回到SHC的基本集合。

用于确定此变换矩阵(例如，如图2A所示的矩阵TM10)的一个可能方法是称为“模式匹配”的操作。此处，通过假定每一扬声器产生球面波来计算扬声器馈送。在此情形中，由于第l扬声器而在某一位置r，θ，处的压力(随着频率而变)如下给出

其中表示第l扬声器的位置，且g_l(ω)为第l扬声器的扬声器馈送(在频域中)。由于全部五个扬声器的总压力P_t因此如下给出

我们还知道在五个SHC方面的总压力由以下等式给出

使以上两个等式相等允许我们如下使用变换矩阵来在SHC方面表达扬声器馈送：

此表达式展示在五个扬声器馈送与所选SHC之间存在直接关系。变换矩阵可取决于例如在子集(例如，基本集合)中使用了哪些系数以及使用了球谐基函数的哪一定义而变化。以类似方式，可构造用以从选定基本集合转换到不同通道格式(例如，7.1，22.2)的变换矩阵。以上变换矩阵是从“模式匹配”准则导出，但替代变换矩阵也可从其它准则导出，例如压力匹配、能量匹配等等。

虽然如以上表达式中的变换矩阵允许从扬声器馈送到SHC的转换，但我们还希望矩阵为可逆的，使得以SHC开始，我们可解出五个通道馈送且随后在解码器处，我们可任选地转换回到SHC(当高级(即，非传统)再现器存在时)。可希望例如变换矩阵响应于整数输入而产生整数输出。可利用操纵上述框架以确保矩阵的可逆性的各种方式。这些包含(但不限于)数学技术，例如规则化技术(例如，频率相依规则化)和经常起作用以确保满秩和良好界定的特征值的各种其它矩阵操纵技术。

用于确保可逆性的技术还包含(但不限于)改变扬声器中的一或多者的位置。此些技术可包含例如调整5.1系统的五个扬声器中的一或多者的位置以使得它们仍符合指定角度容限(例如，由国际电信联盟(日内瓦CH)的ITU-R BS.775-1建议所指定)。图6展示可使用的5.1系统的扬声器角度的顺应性实例。例如符合T设计的那些变换器的规则间距通常良好表现。

替代地，可实施任务T100以应用变换矩阵，其将基本集合转换为对应于在平面中均匀间隔的扬声器角度的通道信号的集合。针对此变换矩阵通常确保可逆性。图7展示用于5.1目标系统的扬声器角度的此布置的实例。虽然此均匀间隔的布置可能不确切顺应5.1标准，但其仍提供适当向后兼容的扬声器馈送集合且还提供获得用于恢复基本系数集合的可逆变换矩阵的可靠方法。对于任务T100的七通道实施方案，图8和9分别展示用于7.1系统的扬声器角度的标准顺应性集合的类似实例以及在平面中均匀间隔的扬声器角度的对应集合。

对于包含至少一个低频效果(LFE)通道的目标通道格式，例如5.1、7.1和22.2，可希望实施方法M100以同样产生包含此通道的通道信号集合。在一个实例中，方法M100包含通过对由任务T100产生的通道信号进行低通滤波且将所得低通信号进行求和来产生LFE通道的任务。对于其中需要多个LFE通道(例如，用于22.2格式的左和右LFE通道)的情况，此任务可经实施以通过将在空间上最靠近每一目标位置的低通信号进行求和来产生这些通道。虽然以此方式产生的LFE通道是冗余的，但其仍提供用于传统LFE通道的合适信号，且此方法还避免了对变换矩阵的任何改变。

可希望测试(例如，以心理声学方式)由变换矩阵再现的通道信号以确保在所有操纵之后，经修改矩阵确实产生正确和/或可接受的扬声器馈送。只要可逆性保留，确保对SHC的正确解码的逆问题便通常不是问题。可导出允许基本集合(例如，SHC子集)与传统多通道音频之间的变换的矩阵以及还有在操纵(不减少多通道音频的保真度)之后也可公式化同样可逆的经稍微修改的矩阵，通常是足够的。

基于所述多个通道信号，任务T200产生数据结构，其包含(A)所述多个基函数系数的第二群组(例如，“扩展集合”)的表示，其中所述第二群组不同于所述第一群组，和(B)与所述第二群组的所述表示分开的所述多个通道信号的表示。所述数据结构可为时间上的结构(例如，包含包的一或多个现场位流或流)和/或空间上的结构(例如，包含存储在存储媒体上的一或多个位流，或存储在缓冲器中的一或多个包)。

如表达式(6)中所示，任务T100可经实施以在每一频率处将变换矩阵应用于基本集合以在频域中产生通道信号。方法M100可经实施以包含对这些频域通道信号中的每一者执行逆频率变换(例如，逆FFT)以产生对应时域通道信号(例如，线性PCM流)的任务。

所述通道信号可作为线性PCM流由HDMI接口(高清晰度多媒体接口，HDMI许可有限公司，加利福尼亚桑尼维尔市)载运。在另一实例中，通道信号可作为线性PCM流存储在光盘上，例如CD、DVD、DVD-音频或蓝光光盘。蓝光光盘(例如，顺应蓝光光盘应用定义BD-J(2005年3月，蓝光光盘协会，www-dot-blu-raydisc-dot-com)的光学数据存储媒体)可包含含有MPEG-2输送流的文件“zzzzz.m2ts”，其中“zzzzz”是使AV流文件与剪辑信息文件关联的五数位数字。流文件“zzzzz.m2ts”可包含多个基本音频流。任务T200可经实施以产生包含由任务T100产生的通道信号的时域版本的此流文件作为LPCM流。

为了减少带宽和/或存储资源的使用，可希望实施任务T200以压缩LPCM通道流。为了确保SHC的基本集合的可恢复性，可希望使用无损压缩方案执行此压缩。在一个实例中，任务T200经实施以使用Meridian无损包装(Meridian Lossless Packing，MLP)对PCM流进行编码以产生顺应DVD音频的位流。在另一实例中，任务T200经实施以使用对AAC核心编解码器的MPEG-4SLS(可缩放到无损)无损扩展来对PCM流进行编码。在又一实例中，任务T200经实施以产生包含通过使用杜比TrueHD和/或DTS-HD大师音频(DTS公司，加利福尼亚卡拉巴萨斯市)对PCM流进行无损编码产生的基本音频流的流文件(例如，如上所述的蓝光顺应m2ts文件)，所述杜比TrueHD使用MLP的改进版本对7.1音频进行编码，所述DTS-HD大师音频也以无损选项对7.1音频进行编码。

任务T200可另外经实施以将通道信号编码为描述通道信号的向后兼容译码信号(例如，如图2A中由转码器TC10的操作说明)。此编码可包含对通道信号执行有损压缩方案。可在任务T200的此些实施方案中使用的向后兼容编解码器的实例包含AC3(例如，如ATSC标准：数字音频压缩文献A/52：2012(2012年3月23日，高级电视系统委员会，华盛顿，也称为ATSC A/52或杜比数字，其使用有损MDCT压缩)中描述)、杜比TrueHD(包含有损压缩选项)、DTS-HD大师音频(也包含有损压缩选项)，以及MPEG环绕(MPS，ISO/IEC 14496-3，也称为高效高级音频译码或HeAAC，其中5.1格式信号的六个通道经向下混合为单声道或立体声PCM流，具有允许其余通道在再现器处的合成的对应辅助信息，例如耳间声级差、耳间时间差和通道间相干)。这些编解码器通常接受时域通道信号(例如，线性PCM流集合)作为输入。此转码允许通道信号保持与存在于许多消费型装置和机顶盒中的AC3解码器的向后兼容性。举例来说，经编码通道可经包装到顺应所要对应基于通道的格式的包的对应部分中。

在此些情况下，方法M100可经实施以单独地对阶层式集合的其余部分(例如，不是子集的部分的SHC)进行编码以用于在经转码位流的一或多个扩展部分(例如，AC3包的“辅助数据”部分)中发射(和/或存储)。此操作在图2A中例如由位流多路复用器MX10的操作说明。还可能方法M100的此实施方案包含两个或两个以上不同转码操作，其各自将多通道信号译码为不同相应格式(例如，AC3转码和杜比TrueHD转码)，以产生两个不同向后兼容位流用于发射和/或存储。

如上所述，杜比数字加位流包含具有5.1混合的核心(A)包以及具有7.1混合的四个环绕通道的扩展(B)包。用于与此编解码器的兼容性的方法M100的实施方案可包含任务T100的实施方案，其经配置以将七个SHC(用于每一频率)的基本集合变换为七个通道以用于编码为此些A和B包。在此情况下，任务T200可经实施以在扩展集合中包含第八和更高SHC，或者在扩展集合中包含第六和更高SHC，其中扩展集合可经编码为一或多个另外的扩展包。

可希望实施任务T200以产生对应于不同长度的时间间隔的包。举例来说，可使用较短间隔来对音频输入中的瞬时事件进行编码，同时可使用较长间隔来对静态信号进行编码。在一个此类实例中，任务T200经实施以针对向后兼容性对PCM通道中的恒定时间间隔进行编码，但将不同间隔长度编码到扩展集合中。在另一此类实例中，任务T200经实施以将不同长度的间隔连同对应时间间隔的持续时间的指示一起编码到PCM流中。对于其中例如使用AC-3译码的情况，任务T200可经实施以在256和512个样本的两个块长度选项之间切换。

如图2A中说明，扩展系数集合可在与用于发射和/或存储的经编码通道信号关联(例如，多路复用)之前编码。此编码可包含带宽压缩。举例来说，扩展集合可通过应用例如量化(例如，量化为一或多个码簿索引)、错误校正译码、冗余译码等等一或多个有损或无损译码技术和/或包化而编码(例如，由编码器SE20)。另外或替代地，此编码可包含编码为环境立体声格式，例如B格式、G格式或较高阶环境立体声(HOA)。在一个实例中，扩展系数集合经编码为HOA B格式且随后使用高级音频译码对B格式信号进行编码(AAC；例如，如ISO/IEC 14496-3：2009“信息技术--视听对象的译码--部分3：音频”(标准化国际组织，日内瓦，CH)中界定)。可对扩展集合执行(例如，由编码器SE20)的用于对SHC集合进行编码的其它方法的描述可例如参见第2012/0155653A1号(贾克斯(Jax)等人)和第2012/0314878A1号(丹尼尔(Daniel)等人)美国公开专利申请案。可例如将扩展系数集合编码为不同阶数的系数之间的差和/或同一阶数在不同时间的系数之间的差。

可能希望实施如图1B所示的MPEG编码器MP10以执行如本文描述的方法M100的实施方案(例如，以产生用于流式传输、广播、多播、存储和/或媒体原版制作(例如，CD、DVD和/或Blu-Ray^TM光盘的原版制作)的位流)。

从向后兼容数据结构获得完整基函数系数集合可通过以下做法以类似方式执行：移除任何介入译码层和/或域变换(例如，经由多路分用器DX10、转码解码器TC20和基于场景的解码器SD20)以获得通道信号且随后将上述可逆变换的逆(例如，如图3A所示的矩阵IM10)应用于通道信号。图10A展示根据一般配置的获得描述在时间间隔期间的声场的多个基函数系数的方法M200的流程图。如上所述，所述多个基函数系数中的每一者可对应于正交基函数集合的唯一一者(例如，球谐基函数集合的唯一一者)。

方法M200包含任务T300和T400。从数据结构，任务T300获得(A)所述多个基函数系数的第二群组(“扩展集合”)的表示，和(B)与所述第二群组的所述表示分开的多个通道信号的表示。所述多个通道信号的子集中的每一者与对应不同空间区相关联(例如，5.1或7.1的共面方向)，而所述多个通道信号也可包含一或多个非方向性(或全向)信号，例如LFE通道。可希望实施任务T300以对LPCM流集合执行FFT以获得频域中的所述多个通道信号的子集。任务T400对所述多个通道信号的子集执行变换以产生所述多个基函数系数的第一群组(“基本集合”)，其中第一群组不同于第二群组。可希望仅在检测到扩展系数集合的表示存在于数据结构中后即刻执行方法M200，且否则以向后兼容方式(例如，作为扬声器馈送)再现通道信号而不将其变换为基本系数集合。

方法M200可经实施以将基函数系数的完整集合再现到扬声器几何形状，其不同于与从中恢复基本集合的所述多个通道信号相关联的扬声器几何形状。图10B展示包含任务T500的方法M200的此实施方案M210的流程图。基于所述多个基函数系数，任务T500产生第二多个通道信号。在此情况下，所述多个通道信号的子集的每一信号与一组共面方向中的对应不同一者相关联，而所述第二多个通道信号中的每一者与跨越三维空间的一组方向中的对应不同一者相关联。举例来说，第二多个通道信号可包含对应于在参考平面上方的扬声器位置或另外提供高度信息的一或多个通道。在一个实例中，任务T500经实施以应用用于特定扬声器几何形状的再现矩阵，所述矩阵是以与用于将系数的基本集合转换到如上所述的向后兼容通道信号的变换矩阵的导出(例如，参见表达式(3)到(6)，但通常没有任何可逆性约束)类似的方式获得。

以上因此表示用以在阶层式元素集合(例如，SHC集合)与多个音频通道之间转换的无损机制。只要多通道音频信号不经受另外的译码噪声便不会带来误差。在其经受译码噪声(例如，经由有损压缩操作)的情况下，向SHC的转换可带来误差。然而，可通过监视系数的值且采取适当动作来减少其影响而考虑这些误差。这些方法可考虑SHC的特性，包含SHC表示中的固有冗余。

图3C展示用于处理描述在时间间隔期间的声场的多个基函数系数的设备MF100的框图。设备MF100包含用于对所述多个基函数系数的第一群组(“基本集合”)执行可逆变换以产生多个通道信号的装置F100，其中所述多个通道信号中的每一者与对应不同空间区相关联(例如，如本文参考任务T100的实施方案和变换矩阵TM10描述)。设备MF100还包含用于基于多个通道信号产生数据结构的装置F200，所述数据结构包含(A)所述多个基函数系数的第二群组(“扩展集合”)的表示，其中所述第二群组不同于所述第一群组，和(B)与所述第二群组的所述表示分开的所述多个通道信号的表示(例如，如本文参考任务T200的实施方案、转码器TC10、编码器SE20和多路复用器MX10描述)。

图3D展示用于处理描述在时间间隔期间的声场的多个基函数系数的设备A100的框图。设备A100包含计算器100，其经配置以对所述多个基函数系数的第一群组(“基本集合”)执行可逆变换以产生多个通道信号，其中所述多个通道信号中的每一者与对应不同空间区相关联(例如，如本文参考任务T100的实施方案和变换矩阵TM10描述)。设备A100还包含数据格式化器200，其经配置以基于多个通道信号产生数据结构，所述数据结构包含(A)所述多个基函数系数的第二群组(“扩展集合”)的表示，其中所述第二群组不同于所述第一群组，和(B)与所述第二群组的所述表示分开的所述多个通道信号的表示(例如，如本文参考任务T200的实施方案、转码器TC10、编码器SE20和多路复用器MX10描述)。格式化器200可包含包化器。

图11A展示根据一般配置的用于获得描述在时间间隔期间的声场的多个基函数系数的设备MF200的框图。设备MF200包含用于从数据结构获得(A)所述多个基函数系数的第二群组(“扩展集合”)的表示和(B)与所述第二群组的所述表示分开的多个通道信号的表示的装置F300(例如，如本文参考任务T300的实施方案、多路分用器DX10、转码器TC20和解码器SD20描述)。设备MF200还包含用于对所述多个通道信号的子集执行变换以产生所述多个基函数系数的第一群组(“基本集合”)的装置F400，其中所述第一群组不同于所述第二群组(例如，如本文参考任务T400的实施方案和逆变换矩阵IM10所述)。图11B展示设备MF200的实施方案MF210的流程图，所述设备包含用于基于所述多个基函数系数产生第二多个通道信号的装置F500(例如，如本文参考任务T500的实施方案和再现器SR10所述)。

图11C展示根据一般配置的用于获得描述在时间间隔期间的声场的多个基函数系数的设备A200的框图。设备A200包含数据提取器300，其经配置以从数据结构获得(A)所述多个基函数系数的第二群组(“扩展集合”)的表示和(B)与所述第二群组的所述表示分开的多个通道信号的表示(例如，如本文参考任务T300的实施方案、多路分用器DX10、转码器TC20和解码器SD20描述)。提取器300可包含解包化器。设备A200还包含计算器400，其经配置以对所述多个通道信号的子集执行变换以产生所述多个基函数系数的第一群组(“基本集合”)，其中所述第一群组不同于所述第二群组(例如，如本文参考任务T400的实施方案和逆变换矩阵IM10所述)。图11D展示设备A200的实施方案A210的流程图，所述设备包含再现器500，其经配置以基于所述多个基函数系数产生第二多个通道信号(例如，如本文参考任务T500的实施方案和再现器SR10所述)。

在又一实例中，方法M100经实施以包含任务，所述任务将两个或两个以上基函数系数集合进行组合(其中每一集合描述在对应时间间隔期间的对应声场)且提供组合集合作为对任务T100的输入。举例来说，此任务可经实施以添加所述多个系数集合(例如，以执行SHC向量的系数向量加法)以产生组合声场的描述。基函数系数的每一集合可表示例如音频对象。此基函数系数的集合(例如，用于一个对象的SHC向量)可具有比另一基函数系数集合(例如，用于对象中的另一者)高的阶数(例如，较长长度)。举例来说，前景中的对象(例如，主角的话音)可以比背景中的对象(例如，声效)高的阶数的集合来表示。

图11E展示根据一般配置的设备P100的框图。设备P100包含处理器P10，其经配置以对描述在时间间隔期间的声场的多个基函数系数执行如本文所述的方法M100的实施方案以产生对应数据结构。设备P100还包含存储器ME10，其经配置以存储由处理器P10产生的数据结构。

可希望在具有经配置以接收声信号的两个或两个以上麦克风的阵列的便携式音频感测装置内执行如本文描述的方法(例如，方法M100或M200)。可经实施以包含此阵列且可用于音频记录和/或话音通信应用的便携式音频感测装置的实例包含：电话手持机(例如，蜂窝式电话手持机)；有线或无线头戴式耳机(例如，蓝牙头戴式耳机)；手持式音频和/或视频记录器(例如，摄录机)；经配置以记录音频和/或视频内容的个人媒体播放器；个人数据助理(PDA)或其它手持式计算装置；以及笔记本计算机、膝上型计算机、上网本计算机、平板计算机或其它便携式计算装置。

本文揭示的方法和设备可一般应用于任何收发和/或音频感测应用中，包含此些应用的移动或另外便携式实例和/或来自远场源的信号分量的感测。举例来说，本文揭示的配置的范围包含驻留在经配置以采用码分多址(CDMA)空中接口的无线电话通信系统中的通信装置。然而，所属领域的技术人员将了解，具有如本文描述的特征的方法和设备可驻留在采用所属领域的技术人员已知的广泛多种技术的各种通信系统中的任一者中，例如采用有线和/或无线(例如，CDMA、TDMA、FDMA和/或TD-SCDMA)发射信道上的IP话音(VoIP)的系统。

明确预期且在此揭示，本文揭示的通信装置(例如，智能电话、平板计算机)可适于在包交换(例如，经布置以根据例如VoIP等协议载运音频发射的有线和/或无线网络)和/或电路交换的网络中使用。还明确预期且在此揭示，本文揭示的通信装置可适于在窄带译码系统(例如，对大约四或五千赫的音频频率范围进行编码的系统)中使用和/或在宽带译码系统(例如，对大于五千赫的音频频率进行编码的系统)中使用，包含全带宽带译码系统和分带宽带译码系统。

提供所描述配置的前述呈现以使得所属领域的技术人员能够制作或使用本文揭示的方法和其它结构。本文展示和描述的流程图、框图和其它结构仅为实例，且这些结构的其它变体也在本发明的范围内。对这些配置的各种修改是可能的，且在此呈现的一般原理也可应用于其它配置。因此，本发明既定不限于上文展示的配置，而是应被赋予与本文以任何方式(包含所申请的形成原始发明的一部分的所附权利要求书中)揭示的原理和新颖特征一致的最广范围。

所属领域的技术人员将了解，可使用多种不同技艺和技术中的任一者来表示信息和信号。举例来说，贯穿以上描述可参考的数据、指令、命令、信息、信号、位和符号可通过电压、电流、电磁波、磁场或磁粒子、光场或光粒子或其任一组合来表示。

用于如本文揭示的配置的实施的重要设计要求可包含最小化处理延迟和/或计算复杂性(通常以每秒百万指令或MIPS测量)，尤其是针对计算密集型应用，例如经压缩音频或视听信息的重放(例如，根据例如本文识别的实例中的一者的压缩格式编码的文件或流)或用于宽带通信的应用(例如，在高于八千赫的取样率下的话音通信，例如12、16、44.1、48或192kHz)。

多麦克风处理系统的目标可包含实现十到十二dB的总体噪声减少，在所要说话者的移动期间保留话音电平和颜色，获得噪声已移动到背景中的感知而非激进的噪声移除，语音的解混响，和/或实现用于较激进的噪声减少的后处理的选项。

如本文揭示的设备(例如，设备A100、A200、A210、MF100、MF200、MF210和P100中的任一者)可以被视为适合于既定应用的硬件与软件和/或与固件的任一组合来实施。举例来说，此设备的元件可制造为例如驻留在同一芯片上或芯片组中的两个或两个以上芯片当中的电子和/或光学装置。此装置的一个实例是例如晶体管或逻辑门等逻辑元件的固定或可编程阵列，且这些元件中的任一者可实施为一或多个此类阵列。所述设备的元件中的任何两个或两个以上或甚至全部可在相同的一或多个阵列内实施。此一或多个阵列可在一或多个芯片内(例如，在包含两个或两个以上芯片的芯片组内)实施。

本文揭示的设备(例如，设备A100、A200、A210、MF100、MF200、MF210和P100中的任一者)的各种设施方案的一或多个元件也可整体或部分地实施为经布置以在一或多个固定或可编程逻辑元件阵列上执行的一或多个指令集，所述逻辑元件阵列例如为微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA(现场可编程门阵列)、ASSP(专用标准产品)和ASIC(专用集成电路)。如本文揭示的设备的实施方案的各种元件中的任一者也可体现为一或多个计算机(例如，包含经编程以执行一或多个指令集或指令序列的一或多个阵列的机器，也称为“处理器”)，且这些元件中的任何两个或两个以上或甚至全部可在相同的此类一或多个计算机内实施。

如本文揭示的处理器或用于处理的其它装置(例如，处理器P10)可制造为例如驻留在同一芯片上或芯片组中的两个或两个以上芯片当中的一或多个电子和/或光学装置。此装置的一个实例是例如晶体管或逻辑门等逻辑元件的固定或可编程阵列，且这些元件中的任一者可实施为一或多个此类阵列。此一或多个阵列可在一或多个芯片内(例如，在包含两个或两个以上芯片的芯片组内)实施。此些阵列的实例包含固定或可编程逻辑元件阵列，例如微处理器、嵌入式处理器、IP核心、DSP、FPGA、ASSP和ASIC。如本文揭示的处理器或用于处理的其它装置也可体现为一或多个计算机(例如，包含经编程以执行一或多个指令集或指令序列的一或多个阵列的机器)或其它处理器。如本文描述的处理器可用以执行不直接与本文描述的音频译码程序相关的任务或其它指令集，例如与其中嵌入处理器的装置或系统(例如，音频感测装置)的另一操作相关的任务。如本文揭示的方法的部分还可由音频感测装置的处理器执行，且所述方法的另一部分在一或多个其它处理器的控制下执行。

所属领域的技术人员将了解，结合本文揭示的配置描述的各种说明性模块、逻辑块、电路和测试以及其它操作可实施为电子硬件、计算机软件或两者的组合。此些模块、逻辑块、电路和操作可以通用处理器、数字信号处理器(DSP)、ASIC或ASSP、FPGA或其它可编程逻辑装置、离散门或晶体管逻辑、离散硬件组件或其经设计以产生如本文揭示的配置的任一组合来实施或执行。举例来说，此配置可至少部分地实施为硬连线电路、制造于专用集成电路中的电路配置，或者加载到非易失性存储装置中的固件程序或作为机器可读代码从数据存储媒体加载或加载到其中的软件程序，此代码是可由例如通用处理器或其它数字信号处理单元等逻辑元件阵列执行的指令。通用处理器可为微处理器，但在替代例中，处理器可为任何常规处理器、控制器、微控制器或状态机。处理器也可实施为计算装置的组合，例如DSP与微处理器的组合、多个微处理器、结合DSP核心的一或多个微处理器，或任何其它此类配置。软件模块可驻留于非暂时性存储媒体中，例如RAM(随机存取存储器)、ROM(只读存储器)、例如快闪RAM等非易失性RAM(NVRAM)、可擦除可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、寄存器、硬盘、可装卸式磁盘、或CD-ROM，或此项技术中已知的任一其它形式的存储媒体中。说明性存储媒体耦合到处理器，使得处理器可从存储媒体读取信息和向存储媒体写入信息。在替代方案中，存储器媒体可与处理器成一体式。处理器和存储媒体可驻留在ASIC中。ASIC可驻留在用户终端中。在替代方案中，处理器和存储媒体可作为离散组件驻留在用户终端中。

应注意，本文揭示的各种方法(例如，方法M100、M200和M210中的任一者)可由例如处理器等逻辑元件阵列执行，且如本文描述的设备的各种元件可实施为经设计以在此阵列上执行的模块。如本文使用，术语“模块”或“子模块”可指代呈软件、硬件或固件形式的任何方法、设备、装置、单元或包含计算机指令(例如，逻辑表达式)的计算机可读数据存储媒体。应了解，多个模块或系统可组合为一个模块或系统，且一个模块或系统可分离为多个模块或系统以执行相同功能。当以软件或其它计算机可执行指令实施时，过程的元素基本上是用以执行相关任务的代码段，例如例程、程序、对象、组件、数据结构和类似物。术语“软件”应理解为包含源代码、汇编语言代码、机器代码、二进制码、固件、宏码、微码、可由逻辑元件阵列执行的任何一或多个指令集或指令序列，和此些实例的任一组合。程序或代码段可存储在处理器可读存储媒体中或通过体现于载波中的计算机数据信号在传输媒体或通信链路上发射。

本文揭示的方法、方案和技术的实施方案也可有形地体现(例如，在如本文列出的一或多个计算机可读媒体中)为可由包含逻辑元件阵列(例如，处理器、微处理器、微控制器或其它有限状态机)的机器读取和/或执行的一或多个指令集。术语“计算机可读媒体”可包含可存储或传送信息的任何媒体，包含易失性、非易失性、可装卸式和不可装卸式媒体。计算机可读媒体的实例包含电子电路、半导体存储器装置、ROM、快闪存储器、可擦除ROM(EROM)、软磁盘或其它磁性存储装置、CD-ROM/DVD或其它光学存储装置、硬盘、光纤媒体、射频(RF)链路，或可用以存储所要信息且可被存取的任何其它媒体。计算机数据信号可包含可在例如电子网络信道、光纤、空气、电磁、RF链路等等传输媒体上传播的任何信号。代码段可经由例如因特网或内部网等计算机网络下载。在任一情况下，本发明的范围都不应解释为受此些实施例限制。

本文描述的方法的任务中的每一者可直接以硬件、以由处理器执行的软件模块或以两者的组合来体现。在如本文揭示的方法的实施方案的典型应用中，逻辑元件(例如，逻辑门)阵列经配置以执行所述方法的各种任务中的一者、一者以上或甚至全部。所述任务中的一或多者(可能全部)也可实施为代码(例如，一或多个指令集)，体现于计算机程序产品(例如，例如磁盘、快闪或其它非易失性存储器卡、半导体存储器芯片等等一或多个数据存储媒体)中，其可由包含逻辑元件阵列(例如，处理器、微处理器、微控制器或其它有限状态机)的机器(例如，计算机)读取和/或执行。如本文揭示的方法的实施方案的任务也可由一个以上此类阵列或机器执行。在这些或其它实施方案中，所述任务可在例如蜂窝式电话等用于无线通信的装置或具有此通信能力的其它装置内执行。此装置可经配置以与电路交换和/或包交换网络通信(例如，使用例如VoIP等一或多个协议)。举例来说，此装置可包含经配置以接收和/或发射经编码帧的RF电路。

明确地揭示了本文揭示的各种方法可由例如手持机、头戴式耳机或便携式数字助理(PDA)等便携式通信装置执行，且本文描述的各种设备可包含在此装置内。典型的实时(例如，在线)应用是使用此移动装置进行的电话对话。

在一或多个示范性实施例中，本文描述的操作可以硬件、软件、固件或其任一组合实施。如果以软件实施，那么此些操作可作为一或多个指令或代码存储在计算机可读媒体上或经由计算机可读媒体传输。术语“计算机可读媒体”包含计算机可读存储媒体和通信(例如，传输)媒体两者。举例来说而非限制，计算机可读存储媒体可包括：存储元件阵列，例如半导体存储器(可包含(不限于)动态或静态RAM、ROM、EEPROM和/或快闪RAM)或铁电的、磁阻的、双向的、聚合的或相变存储器；CD-ROM或其它光盘存储装置；和/或磁盘存储装置或其它磁性存储装置。此存储媒体可以可由计算机存取的指令或数据结构的形式存储信息。通信媒体可包括可用以用指令或数据结构的形式载运所要程序代码且可由计算机存取的任何媒体，包含促进计算机程序从一处转移到另一处的任何媒体。而且，将任何连接恰当地称为计算机可读媒体。举例来说，如果使用同轴电缆、光纤电缆、双绞线、数字订户线(DSL)或例如红外线、无线电和/或微波等无线技术从网站、服务器或其它远程源发射软件，那么同轴电缆、光纤电缆、双绞线、DSL或例如红外线、无线电和/或微波等无线技术包含于媒体的定义中。如本文所使用，磁盘和光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软磁盘和蓝光光盘^TM(蓝光光盘协会，加利福尼亚环球城)，其中磁盘通常以磁性方式再生数据，而光盘用激光以光学方式再生数据。以上各项的组合也应包含在计算机可读媒体的范围内。

如本文描述的声信号处理设备(例如，设备A100或MF100)可并入到接受语音输入以便控制某些操作或可另外得益于所要噪声与背景噪声的分离的电子装置(例如通信装置)中。许多应用可得益于增强或分离清晰的所要声音与源自多个方向的背景声音。此些应用可包含并入有例如话音辨识和检测、语音增强和分离、话音激活的控制和类似情况的能力的电子或计算装置中的人机接口。可能希望实施此声信号处理设备以适合于仅提供有限处理能力的装置中。

本文描述的模块、元件和装置的各种实施方案的元件可制造为例如驻留在同一芯片上或芯片组中的两个或两个以上芯片当中的电子和/或光学装置。此装置的一个实例为例如晶体管或门等逻辑元件的固定或可编程阵列。本文描述的设备的各种设施方案的一或多个元件也可整体或部分地实施为经布置以在一或多个固定或可编程逻辑元件阵列上执行的一或多个指令集，所述逻辑元件阵列例如为微处理器、嵌入式处理器、IP核心、数字信号处理器、FPGA、ASSP和ASIC。

如本文描述的设备的实施方案的一或多个元件可用以执行不直接与所述设备的操作相关的任务或其它指令集，例如与其中嵌入所述设备的装置或系统的另一操作相关的任务。此设备的实施方案的一或多个元件也可具有共同的结构(例如，用以在不同时间执行对应于不同元件的代码的部分的处理器，经执行以在不同时间执行对应于不同元件的任务的指令集，或在不同时间执行用于不同元件的操作的电子和/或光学装置的布置)。

Claims

1.一种处理描述在时间间隔期间的声场的多个基函数系数的方法，所述方法包括：

对所述多个基函数系数的第一群组执行可逆变换以产生多个通道信号，其中所述多个通道信号中的每一者与对应不同空间区相关联；以及

基于所述多个通道信号产生数据结构，所述数据结构包含(A)所述多个基函数系数的第二群组的表示，其中所述第二群组不同于所述第一群组，以及(B)与所述第二群组的所述表示分开的所述多个通道信号的表示。

2.根据权利要求1所述的方法，其中所述多个基函数系数为球谐基函数的多个系数。

3.根据权利要求1所述的方法，其中所述多个通道信号包含与第一扬声器位置相关联的第一通道信号以及与不同于所述第一扬声器位置的第二扬声器位置相关联的第二通道信号。

4.根据权利要求1所述的方法，其中所述多个通道信号包含与第一空间方向相关联的第一通道信号以及与不同于所述第一空间方向的第二空间方向相关联的第二通道信号。

5.根据权利要求4所述的方法，其中对于所述第一群组的所述系数中的每一者，所述系数对应于至少与沿着第一平面外的任一方向一样多地沿着所述第一平面内的至少一个方向集中能量的基函数，其中所述第一平面包含所述第一和第二空间方向。

6.根据权利要求4所述的方法，其中所述第一群组的第一系数对应于为全向的基函数，且

其中对于所述第一群组的其它系数中的每一者，所述系数对应于沿着第一平面内的至少一个方向集中能量的基函数，其中所述第一平面包含所述第一和第二空间方向。

7.根据权利要求4所述的方法，其中对于所述第二群组的所述系数中的至少一些中的每一者，所述系数对应于沿着包含所述第一和第二空间方向的平面外的至少一个方向集中能量的基函数。

8.根据权利要求1所述的方法，其中所述多个通道信号包含通道信号集合，其中所述通道信号集合中的每一信号与彼此均匀间隔的共面方向的集合中的对应不同一者相关联。

9.根据权利要求1所述的方法，其中所述多个基函数系数当中的每一者具有在所述多个基函数系数内的对应阶数，且

其中对于所述多个基函数系数的所述第一群组当中的每一者，所述系数的所述阶数小于所述多个基函数系数的所述第二群组的所述系数的所述阶数当中的最低者。

10.根据权利要求1所述的方法，其中所述多个基函数系数当中的每一者具有在所述多个基函数系数内的对应阶数，且

其中对于所述多个基函数系数的所述第二群组当中的每一者，所述系数的所述阶数大于所述多个基函数系数的所述第一群组的所述系数的所述阶数当中的最高者。

11.根据权利要求1所述的方法，其中所述执行所述可逆变换包括计算(A)所述多个基函数系数的所述第一群组与(B)可逆矩阵的乘积。

12.根据权利要求1所述的方法，其中所述数据结构包括包含所述第二群组的所述表示的第一流和包含所述多个通道信号的所述表示的第二流。

13.根据权利要求1所述的方法，其中所述方法包含将所述多个通道信号中的每一者变换为时域样本序列，且

其中所述多个通道信号的所述表示是基于所述时域样本序列。

14.根据权利要求1所述的方法，其中所述方法包含对多个音频输入信号进行编码以产生所述多个基函数系数。

15.根据权利要求14所述的方法，其中所述多个音频输入信号中的每一者是基于由麦克风阵列的对应麦克风产生的信号。

16.一种获得描述在时间间隔期间的声场的多个基函数系数的方法，所述方法包括：

从数据结构获得(A)所述多个基函数系数的第二群组的表示和(B)与所述第二群组的所述表示分开的多个通道信号的表示，其中所述多个通道信号的子集中的每一者与对应不同空间区相关联；以及

对所述多个通道信号的所述子集执行变换以产生所述多个基函数系数的第一群组，其中所述第一群组不同于所述第二群组。

17.根据权利要求16所述的方法，其中所述多个基函数系数中的每一者对应于正交基函数集合的唯一一者。

18.根据权利要求16所述的方法，其中所述多个基函数系数中的每一者对应于球谐基函数集合的唯一一者。

19.根据权利要求16所述的方法，其中所述方法包括基于所述多个基函数系数产生第二多个通道信号，

其中所述多个通道信号的所述子集中的每一信号与共面方向集合中的对应不同一者相关联，且

其中所述第二多个通道信号中的每一者与跨越三维空间的方向集合中的对应不同一者相关联。

20.一种用于处理描述在时间间隔期间的声场的多个基函数系数的设备，所述设备包括：

用于对所述多个基函数系数的第一群组执行可逆变换以产生多个通道信号的装置，其中所述多个通道信号中的每一者与对应不同空间区相关联；以及

用于基于所述多个通道信号产生数据结构的装置，所述数据结构包含(A)所述多个基函数系数的第二群组的表示，其中所述第二群组不同于所述第一群组，以及(B)与所述第二群组的所述表示分开的所述多个通道信号的表示。

21.根据权利要求20所述的设备，其中所述多个基函数系数为球谐基函数的多个系数。

22.根据权利要求20所述的设备，其中所述多个通道信号包含与第一空间方向相关联的第一通道信号以及与不同于所述第一空间方向的第二空间方向相关联的第二通道信号。

23.根据权利要求20所述的设备，其中对于所述第二群组的所述系数中的至少一些中的每一者，所述系数对应于沿着包含所述第一和第二空间方向的平面外的至少一个方向集中能量的基函数。

24.根据权利要求20所述的设备，其中所述多个通道信号包含通道信号集合，其中所述通道信号集合中的每一信号与彼此均匀间隔的共面方向的集合中的对应不同一者相关联。

25.根据权利要求20所述的设备，其中所述多个基函数系数当中的每一者具有在所述多个基函数系数内的对应阶数，且

26.根据权利要求20所述的设备，其中所述用于执行所述可逆变换的装置包括用于计算(A)所述多个基函数系数的所述第一群组与(B)可逆矩阵的乘积的装置。

27.根据权利要求20所述的设备，其中所述设备包含用于将所述多个通道信号中的每一者变换为时域样本序列的装置，且

28.根据权利要求20所述的设备，其中所述设备包含用于对多个音频输入信号进行编码以产生所述多个基函数系数的装置。

29.一种用于处理描述在时间间隔期间的声场的多个基函数系数的设备，所述设备包括：

计算器，其经配置以对所述多个基函数系数的第一群组执行可逆变换以产生多个通道信号，其中所述多个通道信号中的每一者与对应不同空间区相关联；以及

数据格式化器，其经配置以基于所述多个通道信号产生数据结构，所述数据结构包含(A)所述多个基函数系数的第二群组的表示，其中所述第二群组不同于所述第一群组，以及(B)与所述第二群组的所述表示分开的所述多个通道信号的表示。

30.根据权利要求29所述的设备，其中所述多个基函数系数为球谐基函数的多个系数。

31.根据权利要求29所述的设备，其中所述多个通道信号包含与第一空间方向相关联的第一通道信号以及与不同于所述第一空间方向的第二空间方向相关联的第二通道信号。

32.根据权利要求29所述的设备，其中对于所述第二群组的所述系数中的至少一些中的每一者，所述系数对应于沿着包含所述第一和第二空间方向的平面外的至少一个方向集中能量的基函数。

33.根据权利要求29所述的设备，其中所述多个通道信号包含通道信号集合，其中所述通道信号集合中的每一信号与彼此均匀间隔的共面方向的集合中的对应不同一者相关联。

34.根据权利要求29所述的设备，其中所述多个基函数系数当中的每一者具有在所述多个基函数系数内的对应阶数，且

35.根据权利要求29所述的设备，其中所述计算器经配置以计算(A)所述多个基函数系数的所述第一群组与(B)可逆矩阵的乘积。

36.根据权利要求29所述的设备，其中所述设备包含第二计算器，所述第二计算器经配置以将所述多个通道信号中的每一者变换为时域样本序列，且

37.根据权利要求29所述的设备，其中所述设备包含编码器，所述编码器经配置以对多个音频输入信号进行编码以产生所述多个基函数系数。

38.一种具有有形特征的非暂时性计算机可读数据存储媒体，所述有形特征致使读取所述特征的机器执行根据权利要求1所述的方法。