CN102422348A

CN102422348A - 音频格式转码器

Info

Publication number: CN102422348A
Application number: CN2010800202893A
Authority: CN
Inventors: 奥利弗·蒂尔加特; 科尔内利娅·法尔克; 法比安·库奇; 乔瓦尼·德尔加尔多; 于尔根·赫莱; 马库斯·卡琳格尔
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2009-05-08
Filing date: 2010-05-07
Publication date: 2012-04-18
Anticipated expiration: 2030-05-07
Also published as: EP2427880B1; AU2010244393A1; US20120114126A1; EP2249334A1; PL2427880T3; JP2012526296A; MX2011011788A; EP2427880A1; CA2761439A1; AU2010244393B2; RU2011145865A; KR20120013986A; ES2426136T3; WO2010128136A1; CN102422348B; CA2761439C; JP5400954B2; US8891797B2; KR101346026B1; RU2519295C2

Abstract

一种用于对输入音频信号进行转码的音频格式转码器(100)，该输入音频信号具有至少两个定向音频分量。音频格式转码器(100)包括用于将输入信号转换为转换信号的转换器(110)，该转换信号具有转换信号表示和转换信号到达方向。音频格式转码器(100)进一步包括用于提供至少两个空间音源的至少两个空间位置的位置提供器(120)，以及用于基于该至少两个空间位置来处理转换信号表示，从而获得至少两个分离音源测量的处理器(130)。

Description

音频格式转码器

技术领域

本发明涉及音频格式转码领域，尤其涉及参数化译码格式的转码。

背景技术

近来，提出用于多声道/多对象音频信号译码的若干参数技术。每个系统都具有关于诸如参数化特性的类型、依赖/独立于特定扬声器设置等特性的独特优点和缺点。不同的参数技术针对不同的译码策略最优化。

作为例子，针对多声道声音表现的定向音频编码(DirAC)格式基于下混信号(downmix signal)和含有针对许多子频带的方向以及扩散参数的边信息。由于该参数化，因此DirAC系统可用来容易地实现例如定向滤波，并且这样隔离来自与用于拾音的传声器阵列成特别方向的声音。这样，DirAC也可被当做实现特定空间处理的声学前端。

作为进一步例子，空间音频对象编码(SAOC)ISO/IEC，“MPEG audiotechnologies-Part.2：Spatial Audio Object Coding(SAOC)”，ISO/IECJTC1/SC29/WG11(MPEG)FCD 23003-2，J.Herre，S.Disch，J.Hilpert，O.Hellmuth：“From SAC to SAOC-Recent Developments in ParametricCoding of Spatial Audio”，22^nd Regional UK AES Conference，Cambridge，UK，2007年4月，J.

B.Resch，C.Falch，O.Hellmuth，J.Hilpert，A.

L.Terentiev，J.Breebaart，J.Koppens，E.Schuijers和W.Oomen：“Spatial Audio Object Coding(SAOC)-The Upcoming MPEG Standard onParametric Object Based Audio Coding”，124^thAES Convention，Amsterdam2008，Preprint 7377，是表现以比特率有效的方式含有多音频对象的音频场景的参数化编码系统。

这里，该表现基于下混信号和参数化边信息。与针对表现由传声器阵列拾音时的原空间声音场景的DirAC相反，SAOC不针对重建自然声音场景。相反，许多音频对象(声源)传输并在SAOC解码器中根据在解码器终端的用户偏好而组合为目标声音场景，即，用户可自由并交互安置并操纵每个声音对象。

通常，在多声道再现和收听中，多个扬声器围绕收听者。存在为特定设置捕捉音频信号的各种方法。再现中的一个通常目标是再现原录制信号的空间组成，即，单独音源的源头，诸如在管弦乐队内的小号位置。若干扬声器设置相当普遍，并可创造不同的空间感。不使用特殊的后期制作技术，普遍已知的两声道立体声设置可仅在两个扬声器之间的线路上再创造听觉事件。这主要通过所谓“振幅平移(panning)”实现，其中关联于一个音源的信号的振幅取决于音源对于扬声器的位置而分布在两个扬声器之间。这通常在录制或随后的混合期间完成。即，来自关于收听位置的最左边的音源主要由左扬声器再现，由此在收听位置前面的音源由两个扬声器以相同振幅(水平)再现。然而，从其它方向发出的声音不可再现。

因此，通过使用在收听者周围放置的更多扬声器，可覆盖更多方向，并且可创造更自然的空间感。或许最为众所周知的多声道扬声器布局为5.1标准(ITU-R775-1)，其由5个扬声器构成，这5个扬声器关于收听位置的方位角被预先确定为0°、±30°和±110°。这意味着，在录制或混合期间，信号剪裁到该特定扬声器配置，并且再现设置与标准的偏离会导致降低的再现质量。

也提出具有定位在不同方向的各种数量扬声器的许多其它系统。专业系统(尤其在剧院和声音设施中)也包括处于不同高度的扬声器。

根据不同的再现设置，已设计并提出针对先前提到的扬声器系统的若干不同的录制方法，以便录制并再现在收听场所中的空间感如同其在录制环境中察觉到的。针对选择的多声道扬声器系统录制空间声音的理论上理想方式是使用与扬声器数量相同的传声器。在此情况下，传声器的方向图也对应扬声器布局，以使来自任何单个方向的声音仅被较小数量的传声器(1、2或更多)录制。每个传声器都关联特定扬声器。在再现中使用的扬声器越多，传声器的方向图必须越狭窄。然而，狭窄的定向传声器相当昂贵，并通常具有不平坦的频率响应，以不期望的方式劣化录制声音的质量。此外，使用具有太宽方向图的若干传声器作为到多声道再现的输入导致歪曲且模糊的听觉感知，其归因于以下事实：由于从单个方向发出的声音总是被关联于不同扬声器的传声器录制，因此该声音被多于必需的扬声器再现。通常，当前可用的传声器最适合两声道录制和再现，即，其在没有以再现环绕空间感为目标的情况下被设计出来。

根据传声器设计观点，已讨论使方向图适应空间音频再现中需求的若干途径。通常，全部传声器取决于声音到达传声器的方向来不同地捕捉声音。即，传声器具有取决于录制声音到达方向的不同灵敏度。在一些传声器中，由于其几乎独立于方向捕捉声音，因此该效果较小。这些传声器通常称为全向传声器。在典型的传声器设计中，缓慢振膜(secular diaphragm)附至小气密外壳。如果该振膜不附至该外壳并且声音从每侧相等到达该外壳，那么其方向图具有两个波瓣。即，这样的传声器以相同灵敏度捕捉来自振膜的前方和后方的声音，然而具有相反的极性。这种传声器不捕捉来自与振膜的平面重合(即，垂直于最大灵敏度方向)的声音。这种方向图称为偶极或八字形。

全向传声器也可使用针对传声器的非气密外壳而更改为定向传声器。该外壳被特别构造为使得允许声波传播通过该外壳并到达振膜，其中一些传播方向是优选的，以使这种传声器的方向图变为在全向和偶极之间的图案。这些图案可以是(例如)具有两个波瓣。然而，波瓣可具有不同强度。一些普遍已知的传声器具有仅有一个单一波瓣的图案。大多数重要例子是心形图案，其中定向函数D可表示为D＝1+cos(θ)，θ是声音的到达方向。定向函数如此量化，进入的声音振幅的哪个部分被捕捉取决于不同的方向。

先前讨论的全向图案也称为零阶图案，并且先前提到的其它图案(偶极和心形)称为一阶图案。由于先前讨论的全部传声器的方向图完全由机械构造确定，因此该传声器设计不允许方向图任意成形。

为部分地克服该问题，已设计了一些专用声学结构，这些专用声学结构可用来创造比一阶传声器的方向图更窄的方向图。例如，当其中具有孔洞的管附至全向传声器时，可创造具有窄方向图的传声器。这些传声器称为猎枪或步枪传声器。然而，其通常不具有平坦的频率响应，即，方向图的缩窄是以录制声音的质量为代价。此外，方向图由几何构造预定，并因此，用这样的传声器执行的录制的方向图在录制之后不能够被控制。

因此，提出部分地允许在实际录制之后更改方向图的其它方法。通常，这依赖于用全向或定向传声器的阵列录制声音然后应用信号处理的基本理念。近来提出各种这样的技术。相当简单的例子是用相互紧密放置的两个全向传声器录制声音，并且使两个信号相减。这创造具有等效于偶极的方向图的虚拟传声器信号。

在其它更复杂的方案中，传声器信号也可在使其相加之前被延迟或滤波。使用成形，通过用特殊设计的滤波器过滤每个传声器信号并在滤波之后使信号相加(滤波-相加波束形成)来形成对应于窄束的信号。然而，这些技术使信号自身难认，即，这些技术不知道声音的到达方向。因此，可定义预定的方向图，其独立于声源在预定方向上的实际存在。通常，对声音的“到达方向”的估计是其自己的任务。

通常，许多不同的空间定向特性可用上面技术形成。然而，形成任意的空间选择性灵敏度图案(即，形成窄方向图)需要大量传声器。

创造多声道录制的可替换方式是靠近要被记录的每个声源(例如，仪器)定位传声器，从而通过在最终混合中控制靠近传声器信号的水平来再创造空间感。然而，这样的系统在创造最终下混时需求大量传声器和许多用户交互。

发明内容

克服上述问题的方法是DirAC，其可被不同的传声器系统使用，并且其能够利用任意扬声器设置来录制用于再现的声音。DirAC的目的是使用具有任意几何设置的多声道扬声器系统尽可能精确地再现现有声学环境的空间感。在录制环境内，环境的响应(其可以是连续录制的声音或脉冲响应)由全向传声器(W)以及允许测量声音到达方向和声音扩散度的一组传声器来测量。

在下面段落中以及在本申请内，术语“扩散度”理解为对于声音的非定向性的测量。即，来自全部方向的、以相等强度到达收听或录制位置的声音被最大扩散。量化扩散的普遍方式是使用来自区间[0，…，1]的扩散度值，其中值1描述最大扩散的声音，并且值0描述理想的定向声音，即，声音仅来自一个清晰可区别的方向。测量声音到达方向的一个普遍已知方法是应用对准笛卡尔坐标轴的3个八字形传声器(X，Y，Z)。设计特殊传声器，所谓“B格式传声器”，其直接产生全部期望的响应。然而，如上面提到，W、X、Y和Z信号也可从一组离散的全向传声器计算。

在DirAC分析中，录制声音信号划分为对应人听觉感知的频率选择性的频道。即，该信号例如由滤波器组或傅里叶变换处理，从而使该信号划分为具有适应人听力的频率选择性的频带的许多频道。然后，分析频带信号从而用预定的时间分辨率确定声音的原方向和每个频道的扩散度值。该时间分辨率不必是固定的，并当然可适应于录制环境。在DirAC中，一个或更多音频声道与分析得到的方向和扩散度数据一起被录制或传输。

在合成或解码中，最终应用于扬声器的音频声道可基于全向声道W(由于使用的传声器的全向方向图，因此以高质量录制)，或针对每个扬声器的声音可计算为W、X、Y和Z的加权和，因此针对每个扬声器形成具有某定向特性的信号。对应于译码，每个音频声道被划分为频道，可选地，频道取决于分析得到的扩散度来进一步划分为扩散和非扩散流。如果扩散度经测量为较高，则可使用产生声音的扩散感知的技术再现扩散流，诸如也在双耳提示编码(Binaual cue coding)中使用的解相关技术。

使用旨在产生点状虚拟音源的技术再现非扩散声音，该点状虚拟音源定位在由分析(即，DirAC信号生成)中发现的方向数据表示的方向上。即，空间再现并不像现有技术(例如5.1)那样被剪裁到一个特定的、“理想的”扬声器设置。特别地，这正如以下情况：使用对用于录制的传声器的方向图的了解来确定声音来源为方向参数(即，由向量描述)的情况。正如已经讨论的，声音来源在3维空间中以频率选择性方式参数化。同样，只要知晓扬声器设置的几何形状，则对于任意扬声器设置能够以高质量再现定向感。因此，DirAC不限于特殊扬声器几何形状，并通常允许更灵活的声音空间再现。

DirAC，参考Pulkki，V.，“Direction audio coding in spatial soundreproduction and stereo upmixing”，In Proceedings of the AES 28^thInternational Conference，pp.251-258，Sweden，2006年6月30日-7月2日，提供基于一个或更多下混信号加上附加的边信息表现空间音频信号的系统。在其它可能方面中，边信息以声场在许多频带中扩散度的程度来描述声场的到达方向，如在图5示出。

图5例示DirAC信号，其由作为(例如)八字形传声器信号X、Y、Z的三个定向分量加全向信号W构成。每个信号都在图5中通过针对每个信号的多个堆叠平面示出的频域中可用。基于四个信号，方向和扩散度的估计可在方框510和520中执行，其例示针对每个频道的方向和扩散度的估计。这些估计的结果通过表现每个频率层的方位角、仰角和扩散度的参数θ(t，f)、

(t，f)和ψ(t，f)给出。

DirAC参数化可用来容易实现具有期望的空间特性的空间滤波，例如仅使源自特别谈话者方向上的声音通过。这可通过将方向/扩散度和任选频率依赖加权应用到下混信号来实现，如在图6和图7中所示。

图6示出重建音频信号的解码器620。解码器620包括方向选择器622和音频处理器624。根据图6的例子，利用若干传声器录制的多声道音频输入626通过定向分析器628分析，该定向分析器得到表示音频声道的一部分的来源方向，即被分析信号部分的来源方向的方向参数。选择大部分能量入射到传声器的方向，并且为每个特定信号部分确定录制位置。这可以例如同样使用先前描述的DirAC-传声器技术完成。基于录制的音频信息的其它定向分析方法可用来实现分析。结果，定向分析器628获得表示部分音频声道的来源方向或部分多声道信号626的来源方向的方向参数630。此外，定向分析器628可以操作地获得针对每个信号部分(例如，针对每个频率间隔或针对信号的每个时间帧)的扩散度参数632。

方向参数630和可选地扩散度参数632传输到方向选择器620，该方向选择器被实现为关于录制位置或重建音频信号的重建部分的来源来选择期望方向。关于期望方向的信息传输到音频处理器624。音频处理器624接收具有获得针对其一部分的方向参数的至少一个音频声道634。由音频处理器修改的该至少一个声道可以是(例如)通过常规多声道下混算法生成的多声道信号626的下混。一个示范性简单情况是多声道音频输入626的信号的直接相加。然而，由于该概念不受输入声道的数量限制，因此全部的音频输入声道626都可由音频解码器620同时处理。

音频处理器624修改音频部分以便获得重建音频信号的重建部分，其中该修改包括增加具有以下方向参数的部分音频声道的强度，该方向参数相对于所具有的方向参数表明来源方向远离来源的期望方向的音频声道的其他部分而言表明来源方向更靠近来源的期望方向。在图6的例子中，通过使比例因数636(q)与要被修改的部分音频信号相乘来执行修改。即，如果部分音频信号经分析为源于靠近选定的期望方向的方向，则大比例因数636与音频部分相乘。因此，在其输出端638，音频处理器输出对应在其输入端提供的部分音频声道的重建音频信号的重建部分。正如还由在音频处理器624的输出端638处以虚线表示的，这不仅可针对单输出信号执行，也可针对输出声道的数量不固定或未预定的多声道输出信号执行。

换言之，音频解码器620从例如在DirAC中使用的这样的定向分析获得其输入。来自传声器阵列的音频信号626可根据人听觉系统的频率分辨率划分为频带。取决于在每个频道的时刻来分析声音的方向和可选地声音扩散度。这些属性进一步表述为例如方位角(azi)和仰角(ele)，并表述为在零和一之间变化的扩散度系数(Ψ)。

然后，通过对获取的信号使用取决于方向角(azi和ele)并可选地取决于扩散度(Ψ)的加权操作，将预计或选定的定向特性施加在获取的信号上。显然，该加权可针对不同频带而不同指定，并通常随时间而变化。

图7示出基于DirAC合成的进一步例子。在该意义上，图7的例子可解释为DirAC再现的增强，其允许取决于分析的方向来控制声级。这使其可能加强来自一个或多个方向的声音，或抑制来自一个或多个方向的声音。当应用于多声道再现时，实现再现声像的后期处理。如果仅一个声道用作输出，那么效果等效于在信号录制期间使用具有任意方向图的定向传声器。如在图7示出，示出方向参数的推导和一个传输的音频声道的推导。分析的执行是基于例如由声场传声器录制的B格式传声器声道W、X、Y和Z。

按照帧来执行该处理。因此，连续音频信号划分为帧，该帧通过窗函数调整从而避免在帧边界处不连续。窗口信号帧在傅里叶变换方框740中经历傅里叶变换，使传声器信号划分为N个频带。为简单，由于其余的频带等效处理，因此在下面段落中描述一个任意频带的处理。傅里叶变换方框740获得描述在所分析的窗口帧内B格式传声器声道W、X、Y和Z的每一个中存在的频率分量强度的系数。这些频率参数742输入到音频编码器744，以便获得音频声道和关联的方向参数。在图7示出的例子中，传输的音频声道被选择为全向声道746，其具有关于来自全部方向的信号的信息。基于针对B格式传声器声道的全向和定向部分的系数742，定向和扩散度分析由定向分析方框748执行。

针对经分析的部分音频声道的声音来源方向被传输到音频解码器750，以使音频信号与全向声道746一起重建。在扩散度参数752存在时，信号通路分为非扩散通路754a和扩散通路754b。非扩散通路754a根据扩散度参数调整，以使在扩散度Ψ为低时，能量的大部分或振幅的大部分保留在非扩散通路中。相反，在扩散度为高时，能量的大部分转移到扩散通路754b。在扩散通路754b中，使用解相关器756a或756b使信号解相关或扩散。解相关可使用常规已知技术执行，诸如关于白噪声信号的卷积，其中白噪声信号可逐频道不同。只要解相关能量守恒，那么由于信号在信号通路处已经调整(如通过扩散度参数Ψ表示)，因此可通过在输出端简单添加非扩散信号通路754a和扩散信号通路754b的信号使最终输出再生。

在针对多声道设置执行重建时，定向信号通路754a与扩散信号通路754b在分裂位置758a和758b处被分裂为对应于各扬声器信号的许多子通路。为此，在分裂位置758a和758b的分裂可解释为等效于至少一个音频声道上混(up-mixing)到多声道以便经具有多个扬声器的扩音器系统回放。

因此，多个声道中的每个都具有音频声道746的声道部分。各音频部分的来源方向由重定向方框760重建，该重定向方框附加地增加或降低对应用来回放的扬声器的声道部分的强度或振幅。为此，重定向方框760通常需要了解关于用来回放的扬声器设置。实际重分布(重定向)和关联加权因数的推导可(例如)使用用作基于向量的振幅平移的技术来实现。通过向重分布方框760供应不同几何形状的扬声器设置，可在实施方式中使用回放扬声器的任意配置而没有再现质量的损失。在处理之后，通过傅里叶逆变换方框762对频域信号执行多个傅里叶逆变换，从而获得可通过各扬声器回放的时域信号。在回放之前，通过求和单元764执行重叠和添加技术以连结各音频帧，从而获得准备好由扬声器回放的连续时域信号。

根据在图7中示出的例子，DirAC的信号处理得到修正在于：引入音频处理器766从而修改被实际处理的部分音频声道，并且其允许提高所具有的方向参数表示靠近期望方向的来源方向的部分音频声道的强度。这通过应用附加的加权因数到直接信号通路来实现。即，如果处理的频率部分源于期望方向，那么通过应用附加的增益到特定信号部分来增强信号。由于效果同等贡献于全部频道部分，因此增益的应用可在分裂点758a之前执行。

附加的加权因数的应用可在重分布方框760内实现，在此情况下该重分布方框应用通过附加的加权因数增加的重分布增益因数。

在多声道信号的重建中使用定向增强时，再现可(例如)以DirAC渲染的形式执行，如在图7示出。要被再现的音频声道划分为以下频带，其等于用来定向分析的频带。然后，这些频带划分为扩散流和非扩散流。再现扩散流，例如通过在对于30ms白噪声脉冲的卷积之后应用声音到每个扬声器。噪声脉冲对于每个扬声器不同。非扩散流应用于从当然取决于时间的定向分析提供的方向。为了在多声道扬声器系统中实现方向感，可使用简单的成对或成三(triplet-wise)振幅平移。此外，每个频道都乘以取决于分析得到的方向的增益因数或比例因数。大体上，可指定函数来定义用于再现的期望方向图。这可以是例如应被加强的仅一个单方向。然而，任意方向图都可按照图7容易实现。

在以下方法中，进一步的例子被描述为处理步骤的列表。该列表基于利用B格式传声器录制声音，然后处理以便用多声道或单声道扬声器设置收听的假设，该设置使用DirAC样式渲染或供应表示音频声道部分的来源方向的方向参数的渲染。

第一，传声器信号可划分为频带，并取决于频率以在每个频带的方向和可选地扩散度分析。作为例子，方向可由方位角和仰角(azi，ele)参数化。第二，可指定描述期望方向图的函数F。该函数可具有任意形状。其通常取决于方向。此外，如果扩散度信息可用，那么该函数也可取决于扩散度。该函数可对于不同频率而不同，并且其也依据于时间而更改。在每个频带，可针对每个时间实例获得源自函数F的定向因数q，其用于随后的音频信号加权(调整)。

第三，音频采样值可与对应每个时刻和频率部分的定向因数的q值相乘，从而形成输出信号。这可在时域和/或频域表示中完成。此外，该处理可以例如实现为对任何数量的期望输出声道的DirAC渲染的部分。

如先前描述，该结果可使用多声道或单声道扬声器系统收听。近来，提出对于含有多音频对象的音频场景的比特率有效传输/存储的参数化技术，例如双耳提示编码(Binaural Cue Coding)(类型1)，参考C.Faller和F.Baumgarte，“Binaural Cue Coding-Part II：Schemes and application”，IEEFTrans.on Speech and Audio Proc.，vol.11，no.6，2003年11月，或联合信源编码(Joint Source Coding)，参考C.Faller，“Parametric Join-Coding ofAudio Sources”，120^th AES Conventiont，Paris，2006，Preprint 6752，以及MPEG空间音频对象编码(SAOC)，参考J.Herre，S.Disch，J.Hilpert，O.Hellmuth：“From SAC to SAOC-Recent Developments in ParametricCoding of Spatial Audio”，22^nd Regional UK AES Conference，Cambridge，UK，2007年4月，J.

B.Resch，C.Falch，O.Hellmuth，J.Hilpert，A.L.Terentiev，J.Breebaart，J.Koppens，E.Schuijers和W.Oomen：“Spatial Audio Object Coding(SAOC)-The Upcoming MPEG Standard onParametric Object Based Audio Coding”，124^thAES Convention，Amsterdam2008，Preprint 7377)。

这些技术针对感知地重建期望的输出音频场景而不通过波形匹配。图8示出这种系统(此处：MPEG SAOC)的系统概述。图8示出MPEG SAOC系统概述。该系统包括SAOC译码器810、SAOC解码器820和渲染器830。通常处理能够以频率选择性方式执行，其中在下面定义的处理可在单独频带的每个中执行。SAOC译码器输入有许多(N)个输入音频对象信号，该信号下混为SAOC译码器处理的一部分。SAOC译码器810输出下混信号和边信息。由SAOC译码器810提取的边信息表现输入音频对象的特性。对于MPEG SAOC，为全部音频对象激励的对象是边信息的最重要组成。实际上，称为对象级差(OLD)的相对功率代替了绝对功率传输。在对象对之间的相干性/相关性称为对象间相干性(IOC)，并可用来进一步描述输入音频对象的性质。

下混信号和边信息可传输或存储。为此，可使用诸如MPEG-1层2或也称为MP3的MPEG-1层3、MPEG高级音频编码(AAC)等众所周知的感知音频编码器压缩下混信号。

在接收末端，SAOC解码器820使用传输的边信息概念上尝试也称为对象分离的恢复原对象信号。然后，使用通过渲染器830应用的渲染矩阵将这些近似的对象信号混合为由M个音频输出声道表现的目标场景。有效地，由于分离步骤和混合步骤结合为单个转码步骤，对象信号的分离不再执行，其导致计算复杂性的大幅降低。

这样的方案在传输比特率和计算复杂性方面可以是非常有效的，在传输比特率方面该方案仅需要传输少量下混声道加一些边信息而非N个对象音频信号加渲染信息或离散系统，在计算复杂性方面，处理复杂性主要涉及输出声道的数量而不是音频对象的数量。对接收末端上用户的进一步优点包括他/她选择渲染设置的自由度，例如单声道、立体声、环绕、虚拟化耳机回放等，以及用户交互性的特征：渲染矩阵，并因此输出场景可由用户根据意愿、个人偏好或其它准则交互设定和改变，例如在一个空间区域中从合起来的一个群体中定位谈话者，从而最大化相对于其余谈话者的辨别力。该交互性通过提供解码器用户界面实现。

对于多声道渲染，将SAOC转码为MPEG环绕(MPS)的常规转码概念在下面考虑。通常，SAOC的解码可通过使用转码处理完成。MPEGSAOC通过使目标音频场景转码为相关的MPEG环绕格式，渲染由全部单独音频对象构成的目标音频场景为多声道声音再现设置，参考J.Herre，K.

J.Breeboaart，C.Faller，S.Disch，H.Purnhagen，J.Koppens，J.Hilpert，J.W.Oomen，K.Linzmeier，K.S.Chong：“MPEGSurround-The ISO/MPEG Standard for Efficient and CompatibleMultichannel Audio Coding”，122^nd AES Convention，Vienna，Austria 2007，Preprint 7084。

根据图9，SAOC边信息被解析910，然后和关于回放配置和对象渲染参数的用户供应的数据一起被转码920。另外，SAOC下混参数由下混预处理器930调节。然后，经处理的下混与MPS边信息这两者都可传到MPS解码器940以便最终渲染。

常规概念具有以下缺陷：或是其容易实施，但对于DirAC情况，用户信息或用户个别渲染不可应用，或是虽然对于(例如)SAOC，可以提供考虑用户信息的优点，但其实现起来更复杂。

本发明的目标是提供易于实现并允许用户单独操纵的音频编码概念。

该目标通过根据权利要求1的音频格式转码器以及根据权利要求14的音频格式转码方法实现。

本发明发现定向音频编码和空间音频对象编码的能力可结合。本发明也发现定向音频分量可转换为分离的音源测量或信号。实施方式可提供手段，其有效结合DirAC和SAOC系统的能力，因此创造使用DirAC作为具有其内建空间滤波能力的声学前端，并使用该系统从而将进入的音频分离为音频目标的方法，然后使用SAOC表现并渲染音频目标。此外，实施方式可提供以下优点：可通过转换两种类型的边信息，并优选在一些实施方式中未涉及下混信号，以非常有效的方式执行从DirAC表示到SAOC表示的转换。

附图说明

使用附图详述本发明的实施方式，其中：

图1示出音频格式转码器的实施方式；

图2示出音频格式转码器的另一实施方式；

图3示出音频格式转码器的另一实施方式；

图4a示出定向音频分量的叠加；

图4b图解在实施方式中使用的示例性权函数；

图4c图解在实施方式中使用的示例性窗函数；

图5图解现有技术的DirAC；

图6图解现有技术的定向分析；

图7图解与DirAC渲染结合的现有技术的定向加权；

图8示出MPEG SAOC系统概述；以及

图9图解现有技术的SAOC转码为MPS。

具体实施方式

图1示出用于对输入音频信号进行转码的音频格式转码器100，该输入音频信号具有至少两个定向音频分量。音频格式转码器100包括用于将输入信号转换为转换信号的转换器110，该转换信号包含转换信号表示和转换信号到达方向。此外，音频格式转码器100包括用于提供至少两个空间音源的至少两个空间位置的位置提供器120。该至少两个空间位置可以是已知先验的，即，例如由用户给出或输入，或基于转换信号确定或检测。此外，音频格式转码器100包括用于基于该至少两个空间位置来处理转换信号表示的处理器130，从而获得至少两个分离的音源测量。

实施方式可提供有效结合DirAC和SAOC系统能力的手段。本发明的另一实施方式在图2示出。图2示出另一音频格式转码器100，其中转换器110实现为DirAC分析级301。在实施方式中，音频格式转码器100可适于根据DirAC信号、B格式信号或来自传声器阵列的信号使输入信号转码。根据在图2示出的实施方式，DirAC可用作声学前端，从而使用B格式传声器或可替换地使用传声器阵列获得空间音频场景，如通过DirAC分析级或方框301示出。

如上面已经提到，在实施方式中，音频格式转码器100、转换器110、位置提供器120和/或处理器130可适于按照子频带和/或时间段或时间帧的数量转换输入信号。

在实施方式中，转换器110可适于将输入信号转换为进一步包含每子频带扩散度和/或可靠度测量的转换信号。

在图2中，转换信号表示也标注“下混信号”。在图2示出的实施方式中，在每个子频带内声学信号基础DirAC参数化为方向和可选地扩散度与可靠度测量可由位置提供器120使用，即，“源数量和位置计算”-方框304，从而检测音源活跃的空间位置。根据在图2中虚线标注的“下混功率”，下混功率可向位置提供器120提供。

在图2示出的实施方式中，为隔离或分离每个音源，处理器130可使用空间位置、可选地其它先验知识，从而实现一组空间滤波器311、312、31N，在方框303中为该空间滤波器计算加权因数。

换言之，在实施方式中，处理器130可适于确定对于至少两个分离音源中每一个的加权因数。此外，在实施方式中，处理器130可适于按照至少两个空间滤波处理转换信号表示，以便接近具有至少两个分离音频信号的至少两个隔离音源作为至少两个分离音源测量。音源测量可以(例如)对应各自的信号或信号功率。

在图2示出的实施方式中，该至少两个音源通过N个音源和对应信号更通常表现。因此在图2中，示出N个滤波器或合成级，即311，312，...，31N。在这N个空间滤波器中，DirAC下混，即全向分量，信号导致可用作SAOC译码器的输入的一组近似分离音源。即，在实施方式中，分离音源可解释为独特的音频对象，并随后在SAOC译码器中译码。因此，音频格式转码器100的实施方式可包含SAOC译码器，以便译码至少两个分离音源信号，从而获得包含SAOC下混分量和SAOC边信息分量的SAOC译码信号。

上面描述的实施方式可执行DirAC定向滤波的离散序列和在下面为其引入结构改善的随后SAOC译码，导致计算复杂度降低。如上面解释，通常，在实施方式中可使用N-DirAC合成滤波器组311到31N来重建N个分离音源信号，然后在SAOC译码器中使用SAOC分析滤波器组随后分析。然后，SAOC译码器可从分离的对象信号再次计算和信号/下混信号。此外，实际信号采样的处理与在参数域中执行的计算相比在计算上更复杂，在参数域中计算可以低得多的采样率发生，并在进一步的实施方式中建立。

实施方式可以此提供非常有效处理的优点。实施方式可包含下面两个简化。第一，在一些实施方式中，都可使用对于DirAC和SAOC这两个方案允许基本相同子频带的滤波器组运行DirAC和SAOC这两者。优选地，在一些实施方式中，同一个滤波器组用于这两个方案。在此情况下，可避免DirAC合成与SAOC分析滤波器组，导致降低的计算复杂度和算法延迟。可替换地，实施方式可使用两个不同的滤波器组，其在可比较的子频带网格(subband grid)上输送参数。这种实施方式的滤波器组计算的节省可能不高。

第二，在实施方式中，分离的效果可仅通过参数域计算而不是显式计算分离源信号来实现。换言之，在实施方式中，处理器130可适于估计至少两个分离音源中每一个的功率信息(例如，功率或归一化功率)作为至少两个分离音源测量。在实施方式中，可计算DirAC下混功率。

在实施方式中，对于每个期望/检测的音源位置，定向加权/滤波加权可取决于方向和可能的扩散度和计划的分离特性确定。在实施方式中，分离信号的每个音源的功率可从下混功率和功率加权因数的乘积来估计。在实施方式中，处理器130可适于将至少两个分离音源的功率转换为SAOCOLD。

实施方式可执行上面描述的流线型测量方法而不再涉及实际下混信号的任何处理。另外，在一些实施方式中，也可计算对象间相干性(IOC)。这可通过考虑定向加权和仍在变换域中的下混信号实现。

在实施方式中，处理器130可适于针对至少两个分离音源计算IOC。通常，处理器130可适于为至少两个分离音源中的每一个计算IOC。在实施方式中，位置提供器120可包含适应基于转换信号检测至少两个空间音源的至少两个空间位置的检测器。此外，位置提供器/检测器120可适于通过多个随后输入信号时间段的结合，检测至少两个空间位置。位置提供器/检测器120也可适应基于对功率空间密度的最大似然估计来检测至少两个空间位置。位置提供器/检测器120可适应基于转换信号来检测多重的空间音源位置。

图3图解音频格式转码器100的另一实施方式。相似于在图2中示出的实施方式，转换器100实现为“DirAC分析”-级401。此外，位置提供器/检测器120实现为“源数量和位置计算”-级404。处理器130包括“加权因数计算”-级403、用于计算分离源功率的级402以及用于计算SAOCOLD与比特流的级405。

再次，在图3示出的实施方式中，使用传声器阵列，或可替换使用B格式传声器获得信号，并且信号送入“DirAC分析”-级401。该分析为包括瞬时下混功率和方向估计的每个处理时间帧输送一个或多个下混信号和子频带信息。另外，“DirAC分析”-级401可提供扩散度测量和/或方向估计可靠度的测量。根据该信息和可能的其它数据(诸如，瞬时下混功率)，音源数量及其位置的估计可由位置提供器/检测器120、级404通过(例如)结合来自时间上连续的若干处理时间帧的测量值来分别计算。

处理器130可适应在级403中根据估计的源位置和方向以及可选地扩散度和/或处理时间帧的可靠度值来获得每个音源的定向加权因数。通过在402中首先组合下混功率估计和加权因数，可在405中获得SAOC OLD。同样，完整SAOC比特流可在实施方式中生成。另外，处理器130可适应通过考虑下混信号并利用在图3实施方式中示出的处理方框405来计算SAOC IOC。在实施方式中，然后，下混信号和SAOC边信息可一起存储或传输，以便SAOC解码或渲染。

“扩散度测量”是为每个时频点(time-frequency bin)描述声场如何“扩散”的参数。不失一般性，其定义在[0，1]的范围内，其中扩散度＝0表示完全相干的声场，例如，理想平面波，由此扩散度＝1表示完全扩散的声场，例如，用发射相互无关噪声的大量空间散布音源获得的声场。若干数学表达式可用作扩散度测量。例如，在Pulkki，V.，“Direction audiocoding in spatial sound reproduction and stereo upmixing”，In Proceedings ofthe AES 28^th International Conference，pp.251-258，

Sweden，2006年6月30日-7月2日中，通过比较有源强度与声场能量、对于输入信号的能量分析来计算扩散度。

在下面，说明可靠度测量。取决于使用的到达方向估计量，可能获得表达每个方向估计在每个时频点中是多么可靠的矩阵。在分别确定来源的数量和位置以及计算加权因数的级403和404这两者中，可利用该信息。

在下面，处理器130的实施方式，即，同样地“源数量和位置计算”-级404详述。针对每个时间帧的音源的数量和位置可以或是先验知识(即，外部输入)，或是自动估计。对于后一种情况，若干方法是可能的。例如，关于功率空间密度的最大似然估计量可在实施方式中使用。后者可计算关于方向的输入信号的功率密度。通过假设声源呈现Von Mises分布，可能通过选择具有最高可能性的解决方案来估计存在多少源及其定位在哪里。示范功率空间分布在图4a示出。

图4a示出通过两个音源示例的功率空间密度的视图。图4a在纵坐标上以dB示出相对功率，并在横坐标上示出方位角。此外，图4a示出三个不同信号，一个表现实际功率空间密度，其通过细线并通过有噪声表征。另外，粗线示出了第一源的理论功率密度，并且虚线示出了第二源的理论功率密度。最适合观察的模型由分别定位在+45°和-135°的两个音源构成。在其它模型中，仰角也可以是可用的。在这种实施方式中，功率空间密度变成三维函数。

在下面，提供关于处理器130进一步实施方式的实现方式的更多细节，尤其关于权重计算级403的更多详情。该处理方框计算针对要被提取的每个对象计算权重。基于在410中通过DirAC分析提供的数据连同来自404的关于源数量及其位置的信息计算该权重。信息可为全部源联合处理或分离处理，以使每个对象的权重相互独立计算。

对于每个时频点定义第i个对象的权重，因此如果γ_i(k，n)表示频率指数k和时间指数n的权重，那么第i个对象的下混信号的复合频谱可通过下面公式简单计算

W_i(k，n)＝W(k，n)×γ_i(k，n)。

如已经提到，以这种方式获得的信号可发送到SAOC译码器。然而，实施方式可通过直接从权重γ_i(k，n)计算SAOC参数而完全避免该步骤。

在下面，简要解释可在实施方式中如何计算权重γ_i(k，n)。如果不另外指定，那么在下面的全部量取决于(k，n)，即频率和时间指数。

可假设扩散度Ψ，或可靠度测量定义在范围[0，1]内，其中Ψ＝1对应完全扩散信号。此外，θ表示到达方向，在下面例子中其表示方位角。对于3D空间的扩展是简单的。

此外，γ_i表示用来调整下混信号从而提取第i个对象的音频信号的权重，W(k，n)表示下混信号的复合频谱，以及W_i(k，n)表示第i个经提取的对象的复合频谱。

在第一实施方式中，二维函数在{θ，Ψ}域中定义。简单的实施方式利用2D高斯函数g(θ，Ψ)，根据

g (θ, Ψ) = A e^{- (\frac{{(θ - α)}^{2}}{2 {σ_{θ}}^{2}} + \frac{{(Ψ)}^{2}}{2 {σ_{Ψ}}^{2}})}

其中，α是对象定位的方向，并且σ² _θ和σ² _Ψ是确定高斯函数宽度的参数，即其关于两个维度的方差的参数。A是在下面可假设为等于1的振幅因数。

权重γ_i(k，n)可通过针对从DirAC处理获得的θ(k，n)和Ψ(k，n)的值计算上面的方程确定，即

γ_i(k，n)＝g(θ(k，n)，Ψ(k，n))

示例性函数在图4b中示出。在图4b中，可以看出针对低扩散度值发生显著权重。对于图4b，假设α＝-π/4rad(或-45deg)，σ² _θ＝0.25并且σ² _Ψ＝0.2。

对于Ψ(k，n)＝0和θ＝α，权重最大。权重对于远离α的方向并对于更高扩散度而下降。通过改变g(θ(k，n)，Ψ(k，n))的参数，可设计从不同方向提取对象的若干函数g(θ(k，n)，Ψ(k，n))。

如果从不同对象获得的权重导致大于下混信号中存在的能量的总能量，即如果

Σ_{i = 1}^{N} γ_{i}^{2} > 1

那么可能在函数g(θ(k，n)，Ψ(k，n))中作用于放大系数A，从而迫使平方和等于或小于1。

在第二实施方式中，针对音频信号的扩散和非扩散部分的加权可用不同加权窗口执行。更多详情可在Markus Kallinger，Giovanni Del Galdo，Fabian Kuech，Dirk Mahne，Richard Schultz-Amling，“SPATIALFILTERING USING DIRECTIONAL AUDIO CODING PARAMETERS”，ICASSP 09中找到。

第i个对象的频谱可通过下面公式获得

W_{i} = γ_{i, di} \sqrt{Ψ} \cdot W + γ_{i, co} \sqrt{1 - Ψ} \cdot W

其中γ_i，di和γ_i，co分别是针对扩散和非扩散(相干)部分的权重。非扩散部分的增益可从诸如以下的一维窗口获得

其中，B是窗口的宽度。α＝-π/4，B＝π/4的示例性窗口在图4c中示出。

扩散部分的增益γ_i，di可用相似方式获得。合适的窗口例如是指向α的心形、亚心形或简单的全向图案。一旦计算出增益γ_i，di和γ_i，co，可简单地获得权重γ_i为

γ_{i} = γ_{i, di} \sqrt{Ψ} + γ_{i, co} \sqrt{1 - Ψ}

因此

W_i＝γ_i·W

Σ_{i = 1}^{N} γ_{i}^{2} > 1

那么可能因此重调整增益γ_i。该处理方框也可提供附加的背景(残余)对象的权重，然后该背景对象的功率在方框402中计算。背景对象含有未分配到任何其它对象的剩余能量。能量可同样分配到背景对象，从而反映方向估计的不确定性。例如，针对某个时频点的到达方向被估计为准确指向某个对象。然而，由于估计不是无误差的，因此一小部分能量可分配到背景对象。

在下面，提供关于处理器130的进一步实施方式，尤其关于“计算分离源功率”-级402的详情。该处理方框获取由403计算的权重，并使用该权重计算每个对象的能量。如果γ_i(k，n)表示通过(k，n)定义的时频点的第i个对象的权重，那么能量E_i(k，n)简单为

E_{i} (k, n) = {| W (k, n) |}^{2} γ_{i}^{2} (k, n),

其中，W(k，n)是下混信号的复合时频表示。

理想地，全部对象的能量之和等于在下混信号中存在的能量，即

W {(k, n)}^{2} = Σ_{i = 1}^{N} E_{i} (k, n)

其中，N是对象的数量。

这可以不同方式实现。一个实施方式可包含使用残余对象，如已经在加权因数计算的背景下提到。残余对象的函数表现输出对象的总功率平衡中任何漏功率，以使输出对象的总功率等于每个时间/频率片中的下混功率。

换言之，在实施方式中，处理器130可适应进一步确定针对附加的背景对象的加权因数，其中加权因数如此以使关联至少两个分离音源和附加的背景对象的能量之和等于转换信号表示的能量。

相关机制在关于如何分配任何漏能量的SAOC标准ISO/IEC中定义，“MPEG audio technologies-Part 2：Spatial Audio Object Coding(SAOC)”，ISO/IECJTC1/SC29/WG11(MPEG)FCD 23003-2)。另一示例性策略可包含适当地重调整权重从而实现期望的总功率平衡。

通常，如果级403提供针对背景对象的权重，那么该能量可映射至残余对象。在下面，提供关于SAOC OLD和可选地IOC与比特流级405的计算的更多详情，如其可在实施方式中执行。

该处理方框进一步处理音频对象的功率并使其转换为SAOC兼容参数，即OLD。为此，对象功率关于具有最高功率的对象归一化，产生针对每个时间/频率片的相对功率值。这些参数可以或是直接用于随后的SAOC解码器处理，或是其可被量化并传输/存储为SAOC比特流的一部分。相似地，IOC参数可输出或传输/存储为SAOC比特流的一部分。

取决于本发明方法的某些实施方式需要，本发明的方法可在硬件或软件中实现。该实现方式可使用数字存储介质执行，特别是具有存储在其上的电子可读控制信号的碟片、DVD或CD，该存储介质与可编程计算机系统协作，以执行本发明的方法。通常，本发明因此是具有存储在机器可读载体上的程序代码的计算机程序产品，该程序代码可操作，以便当该计算机程序产品在计算机上运行时执行本发明的方法。换言之，本发明的方法因此是计算机程序，其具有当该计算机程序在计算机上运行时，执行本发明的方法中至少一个的程序代码。

尽管以参考特别实施方式而特定地示出并描述前述内容，但本领域技术人员应当理解可在不背离本发明精神和范畴的情况下在形式和详情中做出各种其它改变。应当理解，在不背离本文所公开并由下面权利要求包含的更宽概念的情况下，可在适应不同实施方式中做出各种改变。

Claims

1.一种用于转码输入音频信号的音频格式转码器(100)，所述输入音频信号具有至少两个定向音频分量，所述音频格式转码器包括：

转换器(110)，用于将所述输入信号转换为转换信号，所述转换信号具有转换信号表示和转换信号到达方向；

位置提供器(120)，用于提供至少两个空间音源的至少两个空间位置；以及

处理器(130)，用于基于所述至少两个空间位置和所述转换信号到达方向来处理所述转换信号表示，从而获得至少两个分离音源测量。

2.根据权利要求1所述的音频格式转码器(100)，用于根据定向音频编码信号(DirAC)、B格式信号或来自传声器阵列的信号来转码输入信号。

3.根据前述权利要求中任一项所述的音频格式转码器(100)，其中，所述转换器(110)适于按照频带/子频带和/或时间段/帧的数量转换所述输入信号。

4.根据权利要求3所述的音频格式转码器(100)，其中，所述转换器(110)适于将所述输入音频信号转换为进一步包含每频带扩散度和/或可靠度测量的所述转换信号。

5.根据前述权利要求中任一项所述的音频格式转码器(100)，其中，所述处理器(130)适于确定针对所述至少两个分离音源的每一个的加权因数。

6.根据权利要求1到5中任一项所述的音频格式转码器(100)，其中，所述处理器(130)适于按照至少两个空间滤波器来处理所述转换信号表示，以便将具有至少两个分离音源信号的至少两个隔离音源近似作为所述至少两个分离音源测量。

7.根据权利要求6所述的音频格式转码器(100)，进一步包括：SAOC(空间音频对象编码)译码器，用于译码所述至少两个分离音源信号，从而获得包含SAOC下混分量和SAOC边信息分量的SAOC译码信号。

8.根据权利要求1到5中任一项所述的音频格式转码器(100)，其中，所述处理器(130)适于估计针对所述至少两个分离音源的每一个的功率信息作为所述至少两个分离音源测量。

9.根据权利要求8所述的音频格式转码器(100)，其中，所述处理器(130)适于将所述至少两个分离音源的所述功率转换为SAOC-OLD(对象级差)。

10.根据权利要求9所述的音频格式转码器(100)，其中，所述处理器(130)适于计算针对所述至少两个分离音源的对象间相干性(IOC)。

11.根据权利要求3到10中任一项所述的音频格式转码器(100)，其中，所述位置提供器(120)包括检测器，所述检测器用于基于所述转换信号来检测所述至少两个空间音源的所述至少两个空间位置，其中，所述检测器适于通过多个随后输入信号时间段/帧的结合，检测所述至少两个空间位置。

12.根据权利要求11所述的音频格式转码器(100)，其中，所述检测器适于基于关于所述转换信号的功率空间密度的最大似然估计，检测所述至少两个空间位置。

13.根据权利要求5到12中任一项所述的音频格式转码器(100)，其中，所述处理器(130)适于进一步确定针对附加的背景对象的加权因数，其中，所述加权因数如此以使关联所述至少两个分离音源和所述附加的背景对象的能量之和等于所述转换信号表示的能量。

14.一种用于转码输入音频信号的方法，所述输入音频信号具有至少两个定向音频分量，所述方法包含以下步骤：

将所述输入信号转换为转换信号，所述转换信号具有转换信号表示和转换信号到达方向；

提供至少两个空间音源的至少两个空间位置；以及

基于所述至少两个空间位置来处理所述转换信号表示，从而获得至少两个分离音源测量。

15.一种计算机程序，在计算机或处理器上运行所述计算机程序时执行根据权利要求14所述的方法。