CN105766002A

CN105766002A - 用于对区域的声场数据进行压缩和解压缩的方法和装置

Info

Publication number: CN105766002A
Application number: CN201480061929.3A
Authority: CN
Inventors: 约翰内斯·诺瓦克切; 克里斯托弗·斯拉德则克
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV; Technische Universitaet Ilmenau
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV; Technische Universitaet Ilmenau
Priority date: 2013-11-14
Filing date: 2014-11-05
Publication date: 2016-07-13
Anticipated expiration: 2034-11-05
Also published as: WO2015071148A1; JP6329629B2; EP3069530A1; US20160255452A1; JP2017500782A; CN105766002B; DE102013223201B3; EP3069530B1

Abstract

一种用于对区域的声场数据(10)进行压缩的装置，包括：划分器(100)，用于将声场数据划分为第一部分(101)和第二部分(102)，以及转换器(140、180)，用于将第一部分(101)和第二部分(102)转换为谐波分量(141、182)，其中，转换器(140、180)被配置为将第二部分(102)转换为一个或多个第二阶谐波分量(141)，并且将第一部分(101)转换为第一阶谐波分量以获得压缩的声场数据，其中，第一阶高于第二阶。

Description

用于对区域的声场数据进行压缩和解压缩的方法和装置

技术领域

本发明涉及音频技术，具体地，涉及对空间声场数据进行压缩。

背景技术

空间的声学描述对于控制如下形式的重放布置是令人感兴趣的，例如头戴式耳机、具有例如两个至平均数量的扬声器(例如，10个扬声器)的扬声器布置、或者具有更大数量的扬声器的扬声器布置(当在波场合成(WFS)中使用它们时)。

通常，对于空间音频编码，存在不同的方法。一种方法是例如针对预定义的扬声器位置处的不同扬声器产生不同的声道，例如如同在MPEG环绕中的情况一样。由此，位于再现空间中的特定且最佳地中心位置处的收听者获得了再现声场的空间感。

对场所或空间的一种备选描述是通过其脉冲响应来描述空间。例如，如果声音源位于空间或区域中的任意位置，则可以在二维区域的情况下使用圆形麦克风阵列或者在三维区域的情况下使用全向麦克风阵列来测量该空间或区域。例如，如果考虑具有大量麦克风(例如，350个麦克风)的全向麦克风阵列，则将按如下方式执行对空间的测量。在麦克风阵列内部或外部的特定位置处产生脉冲。然后，每一个麦克风测量针对该脉冲的响应，即，输入响应。根据混响特性的强度，将测量到较长或较短的脉冲响应。通过这种方式，关于数量级，在大教堂中的测量显示例如脉冲响应可以持续多于10秒。

这种具有例如350个脉冲响应的集合描述了该空间针对已经产生了脉冲的声源的特定位置的声音特性。换言之，该脉冲响应的集合表示区域的声场数据，确切地针对源位于已经产生脉冲的位置的情况。为了进一步测量空间，即，为了在源位于另一位置时感测空间的声音特性，必须针对每一个其他位置(例如，在阵列之外(但是也可以在阵列之内))重复给出的过程。例如，如果要在例如四重奏音乐家正在演奏(其中，各个音乐家位于四个不同的位置)时关于声场感测音乐厅，则在上述示例中针对四个位置中的每一位置测量350个脉冲响应，并且这4x350＝1400个脉冲响应然后表示区域的声场数据。

因为脉冲响应的持续时间可能呈现出巨大的值并且然后可能期望空间的不仅关于四个位置而是甚至关于更多个位置的声音特性的更详细的表示，因此产生了大量脉冲响应数据，特别是当考虑到脉冲响应可以实际上呈现多于10秒的长度时。

用于空间音频编码的方法是例如空间音频编码(SAC)[1]或空间音频对象编码(SAOC)[2]，其允许对多声道音频信号或基于对象的空间音频场景进行比特率高效的编码。空间脉冲响应呈现(SIRR)[3]和进一步的发展即定向音频编码(DirAc)[4]是参数编码方法并且基于对声音到达方向(DOA)的时间相关估计以及对频带内的扩散的估计。这里，对非扩散声场和扩散声场进行区分。[5]处理对全向麦克风阵列数据的无损压缩和对更高阶环绕声信号的编码。通过使用声道之间的冗余数据(声道间冗余)来获得压缩。

[6]中的检查显示在双耳再现中对早期声场和晚期声场的单独考虑。对于考虑头部移动的动态系统，通过仅实时地对早期声场进行卷积来优化滤波器长度。对于晚期声场，对于所有方向而言仅一个滤波器就足够了，而不会减小感知质量。在[7]中，在球面谐波范围内在球面上表示头部相关传递函数(HRTF)。解析地检查通过不同的球面谐波阶数得到的不同精度对耳间互相关性和时空相关性的影响。这发生在扩散声场中的倍频带中。

[1]Herre，Jetal(2004)SpatialAudioCoding：Next-generationefficientandcompatiblecodingofmulti-channelaudioAESConventionPaper6186presentedatthe117thConvention，SanFrancisco，USA

[2]Engdegard，Jetal(2008)SpatialAudioObjectCoding(SAOC)-TheUpcomingMPEGStandardonParametricObjectBasedAudioCoding，AESConventionPaper7377presentedatthe125thConvention，Amsterdam，Netherlands

[3]MerimaaJandPulkkiV(2003)Perceptually-basedprocessingofdirectionalroomresponsesformultichannelloudspeakerreproduction，IEEEWorkshoponApplicationsofSignalProcessingtoAudioandAcoustics

[4]Pulkki，V(2007)SpatialSoundReproductionwithDirectionalAudioCoding，J.AudioEng.Soc.，Vol.55.No.6

[5]HellerudEetal(2008)EncodingHigherOrderAmbisonicswithAACAESConventionPaper7366presentedatthe125thConvention，Amsterdam，Netherlands

[6]LiindauA，KosankeL，WeinzierlS(2010)PerceptualevaluationofphysicalpredictorsofthemixingtimeinbinauralroomimpulseresponsesAESConventionPaperpresentedatthe128thConvention，London，UK

[7]Avni，AandRafaelyB(2009)InterauralcrosscorrelationandspatialcorrelationinasoundfieldrepresentedbysphericalharmonicsinAmbisonicsSymposium2009，Graz，Austria

在[8]中描述了针对低比特率的编码器-解码器方案。编码器产生描述了要再现的声场的复合音频信息信号和方向矢量或转向控制信号。频谱被分解到子带中。为了进行控制，在每一个子带中对主导方向进行评估。基于感知的空间音频场景，[9]描述了频域中的空间音频编码器框架。时间频率相关方向矢量描述了输入音频场景。

[10]描述了时频域中的基于参数声道的音频编码方法。[11]描述了使用一个或多个基于对象的提示码的双耳提示编码(BCC)。[11]包括听觉场景的方向、宽度和包络。[12]涉及对球面阵列数据进行处理以通过环绕声的方式进行再现。由此，要对由于测量误差(例如，噪声)引起的系统失真进行均衡。在[13]中，描述了基于声道的编码方法，该方法还涉及扬声器的位置以及单独的音频对象。在[14]中，给出了基于矩阵的编码方法，该方法允许对阶数高于3的更高阶环绕声声场进行实时传输。

在[15]中，描述了用于对空间音频数据进行编码的方法，该方法独立于再现系统。由此，输入材料被划分为两组，第一组包括使得高本地化性成为必要的音频，而第二组是使用对于本地化足够低的环绕声阶数来描述的。在第一组中，在单声道集合中使用元数据对信号进行编码。元数据包括要对相应声道进行再现的时间信息以及针对任意时刻的方向信息。在再现时，针对传统的平移算法对音频声道进行解码，其中，必须已知再现系统。在不同环绕声阶数的声道中对第二组中的音频进行编码。在解码期间，使用与再现系统相对应的环绕声阶数。

[8]DolbyRM(1999)Low-bit-ratespatialcodingmethodandsystem，EP1677576A3

[9]GoodwinMandJotJ-M(2007)Spatialaudiocodingbasedonuniversalspatialcues，US8,379,868B2

[10]SeefeldtAandVintonM(2006)Controllingspatialaudiocodingparametersasafunctionofauditoryevents，EP2296142A2

[11]FallerC(2005)Parametriccodingofspatialaudiowithobject-basedsideinformation，US8340306B2

[12]KordonS，BatkeJ-M，KrügerA(2011)Methodandapparatusforprocessingsignalsofasphericalmicrophonearrayonarigidsphereusedforgeneratinganambisonicsrepresentationofthesoundfield，EP2592845A1

[13]CorteelEandRosenthalM(2011)Methodanddeviceforenhancedsoundfieldreproductionofspatiallyencodedaudioinputsignals，EP2609759A1

[14]AbelingSetal(2010)Methodandapparatusforgeneratingandfordecodingsoundfielddataincludingambisonicssoundfielddataofanorderhigherthanthree，EP2451196A1

[15]ArumiPandSoleA(2008)Methodandapparatusforthree-dimensionalacousticfieldencodingandoptimalreconstruction，EP2205007A1

发明内容

本发明的目的是提供用于对区域的声场数据进行处理(例如，压缩或解压缩)的更有效的构思。

该目的是通过根据权利要求1所述的用于对声场数据进行压缩的装置、根据权利要求14所述的用于对声场数据进行解压缩的装置、根据权利要求21所述的用于对声场数据进行压缩的方法、根据权利要求22所述的用于对声场数据进行解压缩的方法或者根据权利要求23所述的计算机程序来解决的。

用于对区域的声场数据进行压缩的装置包括：划分器，用于将声场数据划分为第一部分和第二部分；以及下游的转换器，用于将第一部分和第二部分转换为谐波分量，其中转换发生使得将第二部分转换为一个或多个第二阶谐波分量，并且将第一部分转换为第一阶谐波分量，以获得压缩的声场数据，其中第一阶高于第二阶。

因此，根据本发明，执行对声场数据的转换，例如，一定量的脉冲响应到谐波分量的转换，其中，该转换可以显著节省数据。可以例如通过空间频谱变换的方式获得的谐波分量，以比脉冲响应更紧凑的方式描述了声场。除此之外，可以容易地控制谐波分量的阶数。零阶谐波分量仅是(无方向的)单声道信号。零阶谐波分量不允许任何声场方向描述。与此相反，附加的第一阶谐波分量已经允许与波束成形类似的相对粗略的方向表示。第二阶谐波分量允许附加的甚至更精确的声场描述，包括甚至更多的方向信息。在环绕声中，例如，分量的数量等于2n+1，其中，n是阶数。因此，对于零阶，仅存在单个谐波分量。对于向高达一阶的转换，已经存在三个谐波分量。对于五阶的转换，例如，已经存在11个谐波分量，并且已经发现例如对于350个脉冲响应，阶数14是足够的。换言之，这意味着29个谐波分量描述了空间以及350个脉冲响应。从350个输入声道的值到29个输出声道的这种转换已经实现了压缩增益。此外，根据本发明，执行对声场数据的不同部分(例如，不同阶数的脉冲响应)的转换，这是因为已经发现不必使用相同的精度/阶数来对所有部分进行描述。

其一个示例是人类听觉的方向感知主要是根据稍早反射导出的，而典型的脉冲响应中的稍晚/扩散反射不会对方向感知有任何贡献或仅有非常小的贡献。因此，在该示例中，第一部分是在谐波分量域中使用高阶转换的脉冲响应的稍早部分，而稍晚的扩散部分是使用低阶甚至部分地使用零阶转换的。

另一示例是人类听觉的方向感知是与频率相关的。在低频，人类听觉的方向感知相对较弱。因此，为了对声场数据进行压缩，将具有相对低阶的谐波分量的低频谱域转换到谐波分量域将是足够的，而人类听觉的方向感知非常高的声场数据的频域是使用高阶并且优选地甚至使用最大阶数来转换的。为此，可以通过滤波器组将声场数据分解为单独的子带声场数据，然后使用不同的阶数来对这些子带声场数据进行分解，其中，再次地，第一部分包括处于高频的子带声场数据，而第二部分包括处于低频的子带声场数据，其中，也可以再次使用零阶(即，仅使用单个谐波分量)来表示极低频。

在另一示例中，对时频处理的有利特性进行组合。因此，在任意情况下使用高阶转换的稍早部分可以分解为频谱分量，针对所述频谱分量，然后可以再次获得适于单独的频带的阶数。具体地，当抽取滤波器组用于子带信号时(例如，QMF滤波器组(QMF＝正交镜像滤波器组))，用于进一步减小将子带声场数据转换到谐波分量域的工作量。在此之上，关于要计算的阶数对声场数据的不同部分进行区分提供了计算量的显著减小，特别是因为谐波分量(例如，圆柱形谐波分量或球面谐波分量)的计算在很大程度上依赖于要计算的谐波分量的阶数。与计算高达例如阶数14的谐波分量相比，计算高达例如二阶的谐波分量使得显著更小的计算量(因此分别是计算时间和电池电量(特别是在移动设备中))成为必须。

在所述的实施例中，转换器因此被配置为以比第二部分更高的阶数来对声场数据的对于人类听觉的方向感知更重要的部分(即，第一部分)进行转换，其中，与第一部分相比，第二部分对于声源的方向感知不那么重要。

本发明不仅可以用于声场数据到部分的时间分解或声场数据到部分的频谱分解，而且还可以用于备选方式，例如，部分的空间分解(例如，当考虑人类听觉对声音的方向感知在不同的方位角或俯仰角是不同的时)。当声场数据例如作为脉冲响应或其他声场描述存在时，在向每一个单独的描述分配特定的方位角/俯仰角的情况下，与来自另一方向的声场数据的空间部分相比，可以使用更高阶来对人类听觉的方向感知更大的方位角/俯仰角的声场数据进行压缩。

备选地或此外，可以使单独的谐波“变少”，即，在阶数14的示例(在该示例中存在29个模式)中。根据人类方向感知，节省了针对无关的声音到达方向映射声场的单独模式。在麦克风阵列测量的情况下，因为不知道头部关于阵列球面朝向哪个方向，因此存在不确定性。然而，如果通过球面谐波表示HRTF，则消除了该不确定性。

除了时间、频谱或空间方向上的分解之外，还可以使用对声场数据的进一步分解，例如，在音量类(volumeclass)上将声场数据分解为第一部分和第二部分等等。

在实施例中，在圆柱形或球面坐标系中(即，通过正交特性函数的完备集，所谓的圆柱形或球面谐波分量)描述了声学问题。随着声场的描述的空间精度增加，当处理或操控数据时的数据量和计算时间增加。针对高质量的音频应用，使得高精度成为必要，这导致长计算时间的问题(该问题对于实时系统特别不利)、大数据量的问题(该问题使得空间声场数据的传输复杂)以及由于密集计算量引起的高能耗的问题(特别是在移动设备中)。

通过本发明的实施例减轻或消除了所有这些缺点，其原因在于由于对用于计算谐波分量的阶数的区分，与最高阶的所有部分转换为谐波分量的情况相比，减小了计算时间。根据本发明，减少了大数据量，其具体原因在于通过谐波分量的表示更紧凑并且附加地仍然表示了不同阶数的不同部分，其中，获得了数据量的减少，其原因在于低阶(例如，一阶)仅具有三个谐波分量，而最高阶具有例如29个谐波分量，这里，举例说明，阶数14。

减小的计算量和减小的存储器消耗自动地减小了特别是针对在移动设备中使用声场数据而产生的能耗。

在实施例中，在圆柱形或球面谐波域中基于人类的空间感知来优化空间声场描述。具体地，根据人类听觉的空间感知组合球面谐波的阶数的时频相关计算导致工作量的显著下降，而不会降低声场感知的客观质量。显而易见，减小了客观质量，这是因为本发明表示有损压缩。然而，该有损压缩并不关键，特别是因为最终接收方是人类听觉，不论人类听觉在任何情况下都不会感知的声场分量是否存在于再现的声场中，这对于透明再现甚至是无关紧要的。

换言之，在双耳(即，使用头戴式耳机或使用具有少量扬声器(例如，立体声)或很多扬声器(例如，WFS)的扬声器系统)再现/可听化期间，人类听觉是最重要的质量标准。根据本发明，谐波分量(例如，圆柱形或球面谐波)的精度在时域中和/或在频域中或在其他域中被感知为减小。由此，获得了数据和计算时间的减少。

附图说明

将参照附图更详细地讨论本发明的优选实施例。附图示出了：

图1a根据实施例用于对声场数据进行压缩的装置的框图；

图1b用于对区域的压缩的声场数据进行解压缩的装置的框图；

图1c用于使用时间分解进行压缩的装置的框图；

图1d用于针对时间分解的情况进行解压缩的装置的实施例的框图；

图1e作为图1d的备选方式的用于解压缩的装置；

图1f用于以示例性的350个测量的脉冲响应为声场数据利用时间和频谱分解应用本发明的示例；

图2a用于使用频谱分解进行压缩的装置的框图；

图2b子采样滤波器组和后续对子采样的子频带声场数据的转换的示例；

图2c用于针对图2a中所示的频谱分解的示例进行解压缩的装置；

图2d用于频谱分解的解压缩器的备选实现；

图3a根据本发明的另一实施例的关于特定分析/合成编码器的概览框图；

图3b关于时间和频谱分解的实施例的详细表示；

图4脉冲响应的示意性表示；

图5具有可变阶数的谐波分量域中的时间或频谱域的转换器的框图；以及

图6谐波分量域到时域或频域的示例性转换器以及后续可听化的表示。

具体实施方式

图1a示出了用于当区域的声场数据在输入端10处被输入到划分器100中时对声场数据进行压缩的装置或方法的框图。划分器100被配置为将声场数据划分为第一部分101和第二部分102。在此之上，提供了具有由140或180指示的两个功能的转换器。具体地，转换器被配置为对第一部分101进行转换(如140处所指示的)并且对第二部分102进行转换(如180处所指示的)。具体地，转换器将第一部分101转换为的一个或多个第一阶谐波分量141，而转换器180将第二部分102转换为的一个或多个第二阶谐波分量182。具体地，第一阶(即，谐波分量141潜在的阶数)高于第二阶，换言之，这意味着高阶转换器140比低阶转换器180输出更多谐波分量141。因此，控制转换器141的阶数n₁高于控制转换器180的阶数n₂。转换器140、180可以是可控转换器。备选地，阶数可以被设置并且因此是不可调节的，因此该实施例中不存在由n₁和n₂指示的输入。

图1b示出了用于当包括第一阶的第一谐波分量和第二阶的一个或多个谐波分量在内的压缩的声场数据20例如在图1a的141、182处输出时对压缩的声场数据20进行解压缩的装置。然而，解压缩的声场数据不必是“原始格式的”谐波分量141、142。取而代之地，在图1a中，附加地，可以提供诸如Huffmann编码器或算术编码器等的无损熵编码器，以进一步减小用于表示谐波分量最终所必须的比特数量。馈送到输入接口200中的数据流20然后将由熵编码的谐波分量以及可能的补充信息构成，如将基于图3a说明的。在该情况下，将在输入接口200的输出端处提供适配于编码器侧(即，关于图1a的)熵编码器的相应熵解码器。因此，第一阶的第一谐波分量201和第二阶的第二谐波分量202(如图1b所示)也可能表示熵编码的或已经熵解码的谐波分量或者实际上“原始格式的”谐波分量，如图1a中的141、182处所示。

两组谐波分量被馈送到解码器或转换器/组合器240。块240被配置为通过使用第一部分和第二部分的组合并且通过使用谐波分量表示到时域表示的转换来对压缩的声场数据201、202进行解压缩，以最终获得声场的解压缩的表示，如240处所示。因此，可以被配置为信号处理器的解码器240被配置为一方面执行从球面谐波分量域到时域的转换并且另一方面执行组合。针对不同的示例，转换与组合之间的顺序可以改变，如关于图1d、图1e或图2c、图2d所示。

图1c示出了根据划分器100被配置为时间划分器100a的实施例用于对区域的声场数据进行压缩的装置。具体地，作为图1a的划分器100的实现的时间划分器100a被配置为将声场数据划分为包括区域中的第一反射的第一部分和包括区域中的第二反射的第二部分，其中第二反射在时间上比第一反射稍晚发生。因此，基于图4，块100a输出的第一部分101表示图4的脉冲响应分段310，而第二稍晚部分表示图4的脉冲响应分段320。划分的时间例如可以是在100ms。然而，存在时间划分的不同选项，例如，稍早或稍晚。优选地，在离散反射改变为扩散反射的位置布置划分。根据空间，这可以是改变时间点，并且存在用于提供最佳划分的构思。然而，也可以基于可用的数据率来执行向稍早部分和稍晚部分的划分，其原因在于随着划分时间越来越小，存在更小的比特率。这关于比特率是有利的，其原因在于尽可能大的低阶脉冲响应部分被转换到谐波分量域。

因此，图1c中的块140和180所示的转换器被配置为将第一部分101和第二部分102转换为谐波分量，其中，转换器具体地将第二部分转换为二阶的一个或多个谐波分量182并且将第一部分101转换为一阶的谐波分量141以最终获得压缩的声场，其中，一阶高于二阶，压缩的声场最终可以由输出接口190输出以用于传输和/或存储的目的。

图1d示出了针对时间划分的示例的解压缩器的实现。具体地，解压缩器被配置为通过使用具有第一反射的第一部分201和具有稍晚反射的第二部分202的组合以及从谐波分量域到时域的转换来对压缩的声场数据进行转换。图1d示出了组合在转换之后发生的实现。图1e示出了组合在转换之前发生的备选实现。具体地，转换器241被配置为将高阶的谐波分量转换到时域，而转换器242被配置为将低阶的谐波分量转换到时域。参照图4，转换器241的输出提供了与范围210有关的内容，而转换器242提供了与范围320有关的内容，然而，其中，由于是有损压缩，桥241、242的输出端处的分段与分段310、320不同。然而，具体地，块240的输出端处的分段与图4的分段310至少将存在感知相似性或等同性，而与脉冲响应的稍晚部分320相对应的块242的输出端处的分段将显示出明显区别，因此仅近似地表示脉冲响应的曲线。然而，这些偏差对于人类方向感知并不关键，其原因在于人类方向感知几乎不或根本不基于脉冲响应的稍晚部分或扩散反射。

图1e示出了解码器包括第一组合器245和后续转换器244的备选实现。在图1e所示的实施例中，对单独的谐波分量进行相加，然后对相加的结果进行转换以最终获得时域表示。与此相反，在图1d中的实施例中，组合不是由相加构成而是由串行化构成，其原因在于在解压缩的脉冲响应中块241的输出端将在时间上比块242的输出端布置得更早，以再次获得与图4相对应的脉冲响应，该脉冲响应然后可以用于其他目的，例如，可听化，即，以期望的空间印象呈现声音信号。

图2a示出了执行频域划分的本发明的备选实现。具体地，在图2a的实施例中，图1a的划分器100被实现为滤波器组以对声场数据的至少一部分进行滤波从而获得不同的滤波器组声道101、102中的声场数据。在图1a的未实现时间划分的实施例中，滤波器组得稍早部分和稍晚部分，而在备选实施例中，仅声场数据的稍早部分被馈送到滤波器组中，而未对稍晚部分进行任何进一步的频谱分解。

可以由子转换器140a、140b、140c配置的转换器在分析滤波器组100b的下游。转换器140a、140b、140c被配置为通过针对不同的滤波器组声道使用不同的阶数来对不同滤波器组声道中的声场数据进行转换，以针对每一个滤波器组声道获得一个或多个谐波分量。具体地，转换器被配置为针对具有第一中心频率的第一滤波器组声道执行一阶转换并且针对具有第二中心频率的第二滤波器组声道执行二阶转换以最终获得压缩的声场表示，其中，一阶高于二阶，并且其中，第一中心频率(即，f_n)高于第二中心频率f₁。通常，根据该实施例，与针对中心频带相比，针对最低频带可以使用更低阶。然而，根据该实现，如图2a所示的实施例中的具有中心频率f_n的滤波器组声道，不必与例如中心声道相比使用更高的阶来对最高频带进行转换。取而代之地，在方向感知最高的区域中，可以使用最高阶，而在其他区域(其一部分也可以是特定高频域)中，阶数较低，这是因为在这些区域中，人类听觉的方向感知也较低。

图2b示出了分析滤波器组100b的详细实现。在图2b中所示的实施例中，分析滤波器组100b包括频带滤波器，并且还针对每一个滤波器组声道包括下游抽取器100c。例如，如果使用由频带滤波器和抽取器构成的滤波器组(具有64个声道)，则每一个抽取器可以使用因子1/64进行抽取，使得总体上所有声道相加的抽取器的输出端处的数字样本的数量对应于时域中的声场数据(其已经由滤波器组进行分解)的块的样本数量。示例性的滤波器组可以是实或复QMF滤波器组。然后，与图2a类似，通过转换器140a至140c将每一个子带信号(优选地，脉冲响应的稍早部分的每一个子带信号)转换为谐波分量，以针对声场描述的不同子带信号最终获得关于圆柱形或优选地球面谐波分量的描述，该描述针对不同的子带信号包括不同的阶数，即，不同数量的谐波分量。

图2c和图2d再次示出了如图1b所示的解压缩器的不同实现，即，图2c中的组合和后续转换或者图2d中所示的首先执行的转换和后续组合的不同顺序。具体地，在图2c中所示的实施例中，图1b的解压缩器240再次包括组合器245，组合器245用于对来自不同子带的不同谐波分量进行相加以便然后获得谐波分量的总体表示，所述谐波分量然后由转换器244转换到时域。因此，组合器245中的输入信号处于谐波分量频谱域，而组合器345的输出表示谐波分量域中的表示，然后转换器244获得从谐波分量域到时域的转换。

在图2b所示的备选实施例中，首先通过不同的转换器241a、241b、241c将针对每一个子带的单独的谐波分量转换到频谱域，使得块241a、241b、241c的输出信号对应于图2a或图2b的块140a、140b、140c的输出信号。然后，在编码器侧的下采样的情况下(图2b的块100c)，在也可以包括上采样功能的下游合成滤波器组中对这些子带信号进行处理。然后，合成滤波器组表示图1b的解码器240的组合器功能。因此，在合成滤波器组的输出端处存在解压缩的声场表示，该声场表示可以用于可听化，如下文将给出的。

图1f示出了用于将脉冲响应分解为不同阶数的谐波分量的示例。未对稍晚分段进行频谱分解，而是使用零阶对其进行整体转换。对脉冲响应的稍早分段进行频谱分解。例如，在已经使用五阶对下一个频带进行处理时，使用一阶对最低频带进行处理，并且由于最后一个频带对于方向/空间感知最重要，因此使用最高阶(即，在该示例中，使用阶数14)对最后一个频带进行处理。

图3a示出了本发明的整个编码器/解码器方案或整个压缩器/解压缩器方案。

具体地，在图3a中所示的实施例中，压缩器不仅示出了图1a的由1或PENC指示的功能，而且还示出了可以如图1b中配置的解码器PDEC2。在此之上，压缩器还包括控制块CTRL4，控制块CTRL4被配置为通过考虑心理声学模型(例如，由ITU标准化的模型PEAQ)将解码器2获得的解压缩的声场数据与原始声场数据进行比较。

然后，控制块4针对划分(例如，时间划分、滤波器组中的频率划分)产生优化的参数或者针对声场数据的不同部分的单独的转换器(当这些转换器是以可控的方式被配置时)中的阶数产生优化的参数。

然后，控制参数(例如，划分信息)、滤波器组参数或阶数可以与比特流(包括谐波分量)一起发送到图3a中由2表示的解码器或解压缩器。因此，压缩器11包括用于编解码器控制的控制块CTRL4以及参数编码器PENC1和参数解码器PDEC2。输入10是来自麦克风阵列测量的数据。控制块4对编码器1进行初始化，并且提供用于对阵列数据进行编码的所有参数。在PENC块1中，根据所述时频域中的听觉相关划分的方法来对数据进行处理，并且提供数据以进行数据传输。

图3b示出了数据编码和解码的方案。首先由划分器100a将输入数据10分解为稍早声场101和稍晚声场102。通过小型的n个频带滤波器组100b，稍早声场101被分解为其频谱分量f₁…f_n，其中每一个分解的频谱分量具有适于人类听觉的球面谐波(x阶SHD＝球面谐波分解)的阶数。向球面谐波的这种分解表示优选实施例，然而，其中，可以使用产生谐波分量的任何声场分解。因为向球面谐波分量的分解使得有必要根据阶数计算每一个频带中变化的持续时间，因此优选的是使用延迟块306、304校正延迟线中的时间偏移。因此，在重构块245(也称作组合器)中重构频域，并且在已经使用感知低阶计算出稍晚声场之后，在另一组合器243中将频域再次与稍晚声场进行组合。

图3a的控制块CTRL4包括空间声学分析模块和心理声学模块。这里，控制块对图3a的解码器2的输入数据10和输出数据二者进行分析，以便自适应地采用编码参数，在图3a中也称作辅助信息300，或者直接提供给压缩器11中的编码器PENC1。从输入信号10中提取空间声学参数，空间声学参数提供了编码的初始参数以及所使用的阵列配置的参数。空间声学参数包括稍早声场与稍晚声场之间的分离时间(也称作混合时间)和针对滤波器组的参数(例如，球面谐波的相应阶数)。当输出(可以例如具有双耳脉冲响应的形式)由组合器243输出时，输出被引导至具有听觉模型的心理声学模块，该听觉模型对质量进行评估并且据此采用编码参数。备选地，该构思也可以使用静态参数来操作。然后，可以省略编码器或压缩器侧11上的控制模块CTRL4以及PEDC模块2。

本发明的有利之处在于减小了当根据人类听觉处理和传输圆形和球面阵列数据时的数据量和计算量。另一有利之处在于，以这种方式处理的数据可以集成到现有的压缩方法中，并因而可以实现附加的数据减少。这在频带有限的传输系统中，例如针对移动终端设备，是有利的。另一优点在于可以甚至以高阶在球面谐波域中对数据进行实时处理。本发明可以应用于很多领域，特别是通过圆柱形或球面谐波表示的声学声场的领域。这例如在声场分析中是通过圆形或球面阵列来执行的。当要对分析的声场进行可听化时，可以使用本发明的构思。在用于模拟空间的设备中，使用用于存储现有空间的数据库。这里，本发明构思允许空间节省以及高质量存储。存在基于球面区域功能的再现方法，例如，更高阶环绕声或双耳合成。这里，本发明提供了计算时间和数据量的减少。这对于例如远程电信会议系统中的数据传输特别有利。

图5示出了具有可调节的阶数或至少具有变化阶数(也可以是不可调节的)的转换器140或180的实现方式。

转换器包括时频变换块502和下游空间变换块504。空间变换块504被配置为根据计算规则508操作。在计算规则中，n是阶数。根据阶数，当阶数为0时仅对计算规则508求解一次，或者当阶数高达阶数5或者在上述实施例中高达阶数14时更频繁地对计算规则508进行求解。具体地，时频变换单元502被配置为将输入线101、102上的脉冲响应变换到频域，其中，优选地，使用快速傅里叶变换。此外，仅转发单边频谱以减小计算量。然后，在空间变换块504中执行空间傅里叶变换，如在EarlG.Williams的参考书FourierAcoustics，SoundRadiationandNearfieldAcousticalHolography，AcademicPress，1999中所述的。优选地，空间变换504被优化以进行声场分析，并且同时提供高数值精度和快速计算速度。

图6示出了从谐波分量域到时域的转换器的优选实现方式，其中，作为备选方式，示出了用于分解为平面波并且进行波束成形的处理器602，作为逆空间变换实现方式604的备选方式。两个块602、604的输出信号可以备选地被馈送到块606以用于产生脉冲响应。逆空间变换604被配置为对块504中的正变换求逆。备选地，块606中的分解为平面波和波束成形具有可以统一处理大量分解方向的效果，这对于快速处理(特别是对于可视化或可听化)是有利的。优选地，块602获得径向滤波器系数，并且根据实现方式，获得附加的波束成形系数。块602可以具有恒定的方向性或可以是频率相关的。块602的备选输入信号可以是模态径向滤波器，并且具体地，针对球面阵列或不同的配置，例如，具有全向麦克风的开放球体、具有定向麦克风的开放球体以及具有全向麦克风的刚性球体。用于产生脉冲响应的块606根据块602或块604的数据产生脉冲响应或时域信号。具体地，该块将上述省略的频谱的负部分重新组合，执行快速逆傅里叶变换，并且允许重新采样或向原始采样率的采样率转换(如果输入信号已经在某一位置被下采样的话)。此外，可以使用窗口选项。

在Bernschütz等的专业公开“SofiASoundFieldAnalysisToolbox”ICSA-InternationalConferenceonSpatialAudio，Detmold，10thto13thNov.2011中描述了关于块502、504、602、604、606的功能的细节，其中，该专业公开通过引用的方式完整地并入本文。

块606可以被进一步配置为输出解压缩的脉冲响应(例如，有损脉冲响应)的完整集，其中，块608然后将再次输出例如350个脉冲响应。然而，根据可听化，优选的是仅输出最终对于再现必要的脉冲响应，可以由提供针对特定再现场景的选择或插值的块608来执行这一点。例如，如果期望立体声再现，则如块616所示，根据两个立体声扬声器的定位，从例如350个再现的脉冲响应中选择分别对应于相应立体声扬声器的空间方向的脉冲响应。然后，利用该脉冲响应，调整相应扬声器的前置滤波器，使得前置滤波器具有与该脉冲响应相对应的滤波器特性。然后，要再现的音频信号经由相应的前置滤波器被引导至两个扬声器，并且被再现以最终产生针对立体声可听化期望的空间印象。

如果在可用的脉冲响应中存在沿特定方向(扬声器沿该方向被布置在实际的再现场景中)的脉冲响应，则优选地使用两个或三个最近的脉冲响应并且执行插值。

在其中通过波场合成612进行再现或可听化的备选实施例中，优选的是经由虚拟源对稍早反射和稍晚反射执行再现，例如，如FrankMelchior在PhD文档“SpatialSoundDesignbasedonMeasuredRoomImpulseResponses”2011年TUDelft中详细所述，其中，该专业公开也通过引用的方式完整地并入本文。

具体地，在波场合成再现612中，源的反射针对稍早反射是由特定位置处的四个脉冲响应再现的，并且针对稍晚反射是由特定位置处的八个脉冲响应再现的。然后，选择块608针对12个虚拟位置选择12个脉冲响应。然后，将这些脉冲响应与分配的位置一起提供给波场合成呈现器(其可以被放置在块612中)，并且波场合成呈现器通过使用这些脉冲响应来计算针对实际现有的扬声器的扬声器信号，使得扬声器信号映射相应的虚拟源。因此，针对波场合成再现系统中的每一个扬声器，计算单独的前置滤波器，然后在扬声器输出音频信号之前，前置滤波器对最终要再现的音频信号进行滤波，以获得高质量的空间效果的相应再现。

本发明的备选实现是产生头戴式耳机信号，即，要经由头戴式耳机再现产生区域的空间印象的双耳应用。

尽管主要将脉冲响应示出为上述声场数据，但是也可以在空间中的特定位置处使用任何其他声场数据，例如，基于量和矢量(即，关于声音压力和声音速度)的声场数据。这些声场数据也可以关于人类方向感知被划分为较重要的部分和较不重要的部分，并且可以转换为谐波分量。声场数据也可以包括任意类型的脉冲响应，例如，头部相关传递函数(HRTF)函数或双耳空间脉冲响应(BRIR)函数或脉冲响应，每一个从离散点到区域中的预定位置。

优选地，使用球面阵列对空间进行采样。然后，声场作为脉冲响应的集合而存在。在时域中，声场被分解为其稍早部分和稍晚部分。接下来，两个部分被分解为其球面或圆柱形谐波分量。因为在稍早声场中存在相对方向信息，因此与稍晚声场(其对于低阶是足够的)相比，计算更高阶的球面谐波。稍早部分相对较短，例如，100ms，并且是例如使用很多谐波分量来精确表示的，而稍晚部分的长度例如是100ms至2s或10s。然而，该稍晚部分是用较少谐波分量或仅单个谐波分量来表示的。

由于在表示为球面谐波之前将稍早声场划分到单独的频带中，因此实现了进一步的数据减少。为此，当在时域中分离为稍早声场和稍晚声场之后，通过滤波器组将稍早声场分解为其频谱部分。通过对单独的频带进行子采样而获得数据减少，这显著地加快了谐波分量的计算。附加地，针对每一个频带，使用根据人类方向感知而感知足够的稍早阶数。因此，针对低频带(在低频带中人类方向感知较低)、低阶或者针对最低频带，甚至零阶将是足够的，而在高频带中，需要高达关于测量的声场的精度的最大使用阶数的高阶。在解码器或解压缩器侧，对完整频谱进行重构。接下来，再次对稍早声场或稍晚声场进行组合。现在，数据可以用于可听化。

尽管已经在装置的上下文中描述了一些方面，但是应当清楚的是，这些方面也表示对相应方法的描述，使得装置的块或设备也对应于相应的方法步骤或方法步骤的特征。类似地，在方法步骤的上下文中所述的方面也表示对相应块或项目或者相应装置的特征的描述。方法步骤中的一些或全部可以由硬件装置来执行(或使用硬件装置)，例如，微处理器、可编程计算机或电子电路。在一些实施例中，最重要的方法步骤中的某一些或数个可以由这种装置来执行。

根据特定实现需要，可以在硬件中或在软件中实现本发明的实施例。可以使用其上存储有电子可读控制信号的数字存储介质(例如，软盘、DVD、蓝光光盘、CD、ROM、PROM、EPROM、EEPROM或闪存、硬盘驱动器或另一磁存储器或光学存储器)来执行实现，该电子可读控制信号与可编程计算机系统协作或者能够与之协作从而执行相应方法。因此，数字存储介质可以是计算机可读的。

根据本发明的一些实施例包括具有电子可读控制信号的数据载体，该电子可读控制信号能够与可编程计算机系统协作从而执行本文所述的方法之一。

通常，本发明的实施例可以实现为具有程序代码的计算机程序产品，程序代码可操作以在计算机程序产品在计算机上运行时执行方法之一。

程序代码可以例如存储在机器可读载体上。

其他实施例包括用于执行本文所述的方法之一的计算机程序，其中，该计算机程序存储在机器可读载体上。

换言之，本发明方法的实施例因此是包括程序代码的计算机程序，程序代码用于在计算机程序在计算机上运行时执行本文所述的方法之一。

因此，本发明方法的另一实施例是其上记录有计算机程序的数据载体(或者数字存储介质或计算机可读介质)，计算机程序用于执行本文所述的方法之一。

因此，本发明方法的另一实施例是表示计算机程序的数据流或信号序列，所述计算机程序用于执行本文所述的方法之一。数据流或信号序列可以例如被配置为经由数据通信连接(例如，经由互联网)传递。

另一实施例包括处理装置，例如，计算机或可编程逻辑器件，所述处理装置被配置为或适于执行本文所述的方法之一。

另一实施例包括其上安装有计算机程序的计算机，所述计算机程序用于执行本文所述的方法之一。

根据本发明的另一实施例包括被配置为向接收机传递计算机程序的装置或系统，所述计算机程序用于执行本文所述的方法之一。可以电子地或光学地执行传输。接收机可以是例如计算机、移动设备、存储设备等。装置或系统可以例如包括用于向接收机传递计算机程序的文件服务器。

在一些实施例中，可编程逻辑器件(例如，现场可编程门阵列FPGA)可以用于执行本文所述的方法的功能中的一些或全部。在一些实施例中，现场可编程门阵列可以与微处理器协作以执行本文所述的方法之一。通常，方法优选地由任意硬件装置来执行。这可以是通用硬件，例如，计算机处理器(CPU)或专用于方法的硬件(例如，ASIC)。

上述实施例仅说明本发明的原理。应当理解的是，本文所述的布置和细节的修改和变形对于本领域其他技术人员将是显而易见的。因此，旨在仅由所附专利权利要求的范围而不由通过描述和解释本文的实施例的方式给出的具体细节来限制本发明。

Claims

1.一种用于对区域的声场数据(10)进行压缩的装置，包括：

划分器(100)，用于将所述声场数据划分为第一部分(101)和第二部分(102)；以及

转换器(140、180)，用于将所述第一部分(101)和所述第二部分(102)转换为谐波分量(141、182)，其中所述转换器(140、180)被配置为将所述第二部分(102)转换为一个或多个第二阶谐波分量(141)，并且将所述第一部分(101)转换为第一阶谐波分量，以获得压缩的声场数据，其中所述第一阶高于所述第二阶。

2.根据权利要求1所述的装置，

其中，所述转换器(140、180)被配置为针对所述第一部分计算所述第一阶谐波分量，其中所述第一阶高于所述第二阶，对于人类听觉的方向感知而言所述第一部分比所述第二部分更重要。

3.根据权利要求1或2所述的装置，

其中，所述划分器(100)被配置为将所述声场数据(10)划分为包括所述区域中的第一反射的第一部分和包括所述区域中的第二反射的第二部分，其中所述第二反射在时间上比所述第一反射稍晚发生。

4.根据前述权利要求之一所述的装置，

其中，所述划分器(100)被配置为执行频谱划分，并且包括滤波器组(100b)，所述滤波器组(100b)用于对所述声场数据(10)的至少一部分进行滤波以获得不同滤波器组声道(140a、140b、140c)中的声场数据，以及

所述转换器被配置为针对来自第一滤波器组声道的子带信号计算所述第一阶分量，并且针对来自第二滤波器组声道的子带信号计算所述第二阶谐波分量，其中所述第一滤波器组声道的中心频率高于所述第二滤波器组声道的中心频率。

5.根据前述权利要求之一所述的装置，

其中，所述划分器(100)被配置为将所述声场数据划分为包括所述区域中的第一反射的第一部分和包括所述区域中第二反射的第二部分，其中所述第二反射在时间上比所述第一反射稍晚发生，并且所述划分器(100)被进一步配置为将所述第一部分分解为频谱部分(101、102)并且将所述频谱部分中的每一个转换为不同阶数的一个或多个谐波分量，其中具有较高频带的频谱部分的阶数高于较低频带中的频谱部分的阶数。

6.根据前述权利要求之一所述的装置，还包括：输出接口(190)，用于提供所述一个或多个第二阶谐波分量(182)和所述第一阶谐波分量(141)以及包括关于所述第一阶或所述第二阶的指示的补充信息(300)以进行传输和存储。

7.根据前述权利要求之一所述的装置，

其中，所述声场数据描述了三维区域，并且所述转换器被配置为计算圆柱形谐波分量作为所述谐波分量，或者

所述声场数据(10)描述了三维区域，并且所述转换器(140、180)被配置为计算球面谐波分量作为所述谐波分量。

8.根据前述权利要求之一所述的装置，

其中，所述声场数据作为第一数量的离散信号存在，

针对所述第一部分(101)和所述第二部分(102)的转换器(140、180)提供了第二总数的谐波分量，以及

所述谐波分量的第二总数少于所述离散信号的第一数量。

9.根据前述权利要求之一所述的装置，

其中，所述划分器(100)被配置为使用被分配给所述区域中的不同位置处的多个不同脉冲响应作为声场数据(10)。

10.根据权利要求9所述的装置，

其中，所述脉冲响应是所述区域中的相应离散点到所述区域中的预定位置的头部相关传递函数HRTF或双耳空间脉冲响应BRIR函数或脉冲响应。

11.根据前述权利要求之一所述的装置，还包括：

解码器(2)，用于通过使用所述第一部分和所述第二部分的组合并且通过使用从谐波分量表示到时域表示的转换来对所述压缩的声场数据进行解压缩，以获得解压缩的表示；以及

控制块(4)，用于关于所述第一阶或所述第二阶控制所述划分器(100)或所述转换器(140、180)，其中所述控制块(4)被配置为通过使用心理声学模块将解压缩的声场数据与所述声场数据(10)进行比较并且通过使用所述比较来控制所述划分器(100)或所述转换器(140、180)。

12.根据权利要求11所述的装置，

其中，所述解码器被配置为对所述第二阶谐波分量和所述第一阶谐波分量进行转换(241、242)，然后对转换的谐波分量进行组合，或者

所述解码器(2)被配置为对所述第二阶谐波分量和所述第一阶谐波分量进行组合(245)并且将所述组合器(245)中的组合结果从谐波分量域转换(244)到时域。

13.根据权利要求11所述的装置，

其中，所述解码器被配置为对具有不同阶数的不同频谱部分的谐波分量进行转换(140a、140b)，

针对不同的频谱部分来补偿(304、306)不同的处理时间，以及

通过串行地布置转换到时域的所述第一部分的频谱部分与转换到时域的所述第二部分的频谱分量来对所述第一部分的频谱部分和所述第二部分的频谱分量进行组合。

14.一种用于对压缩的声场数据进行解压缩的装置，所述压缩的声场数据包括高达第一阶的第一谐波分量(141)和高达第二阶的一个或多个第二谐波分量(182)，其中，所述第一阶高于所述第二阶，所述装置包括：

输入接口(200)，用于获得所述压缩的声场数据；以及

处理器(240)，用于通过使用所述第一部分和所述第二部分的组合并且通过使用谐波分量表示到时域表示的转换来对所述第一谐波分量(201)和所述第二谐波分量(202)进行处理以获得解压缩的描述，其中所述第一部分是由所述第一谐波分量表示的，并且所述第二部分是由所述第二谐波分量表示的。

15.根据权利要求14所述的装置，其中，所述处理器(240)包括：

组合器(245)，用于将所述第一谐波分量和所述第二谐波分量进行组合以获得组合的谐波分量；以及

转换器(244)，用于将组合的谐波分量转换到时域。

16.根据权利要求14所述的装置，其中，所述处理器包括：

转换器(241、242)，用于将所述第一谐波分量和所述第二谐波分量转换到时域；以及

组合器(243、245)，用于对转换到时域的谐波分量进行组合以获得解压缩的声场数据。

17.根据权利要求12至16之一所述的装置，

其中，所述处理器(240)被配置为获得关于再现布置(610、612、614)的信息，以及

所述处理器(240)被配置为计算(602、604、606)解压缩的声场数据，并且基于关于再现布置的信息来选择(608)所述解压缩的声场数据的用于再现目的的声场数据的部分，或者

所述处理器被配置为仅计算所述解压缩的声场数据中对于所述再现布置必须的部分。

18.根据权利要求12至17之一所述的装置，

其中，所述第一阶第一谐波分量表示第一频谱域，并且所述一个或多个谐波第二阶分量表示不同的频谱域，

所述处理器(240)被配置为将所述一阶的谐波分量转换到频谱域并且将所述一个或多个第二阶第二谐波分量转换到频谱域，并通过合成滤波器组对转换的谐波分量进行组合(245)以获得声场数据在时域中的表示。

19.根据权利要求12至18之一所述的装置，

其中，所述第一阶第一谐波分量表示所述区域的稍早反射，并且所述第二阶第二谐波分量表示所述区域的稍晚反射，以及

所述处理器(240)被配置为将所述第一谐波分量和所述第二谐波分量进行相加并且将相加的结果转换到时域以获得解压缩的声场数据。

20.根据权利要求12至19之一所述的装置，

其中，所述处理器被配置为针对所述转换执行逆空间变换(604)和逆傅里叶变换(606)。

21.一种用于对区域的声场数据(10)进行压缩的方法，包括以下步骤：

将所述声场数据划分(100)为第一部分(101)和第二部分(102)，以及

将所述第一部分(101)和所述第二部分(102)转换(140、180)为谐波分量(141、182)，其中所述第二部分(102)被转换为一个或多个第二阶谐波分量(141)，并且所述第一部分(101)被转换为第一阶谐波分量，以获得压缩的声场数据，其中所述第一阶高于所述第二阶。

22.一种用于对压缩的声场数据进行解压缩的方法，所述压缩的声场数据包括高达第一阶第一谐波分量(141)和高达第二阶一个或多个第二谐波分量(182)，其中，所述第一阶高于所述第二阶，所述方法包括以下步骤：

获得(200)所述压缩的声场数据；以及

通过使用所述第一部分和所述第二部分的组合并且通过使用从谐波分量表示到时域表示的转换来对所述第一谐波分量(201)和所述第二谐波分量(202)进行处理(240)，以获得解压缩的表示，其中所述第一部分是由所述第一谐波分量来表示的，并且所述第二部分是由所述第二谐波分量来表示的。

23.一种计算机程序，用于当根据权利要求21至22之一所述的方法在计算机上运行时执行所述方法。