CN117397256A

CN117397256A - 用于呈现音频对象的装置与方法

Info

Publication number: CN117397256A
Application number: CN202280031355.XA
Authority: CN
Inventors: 安德烈亚斯·沃尔瑟; 克里斯托夫·法乐; 于尔根·赫勒; 马库斯·施密特; 克里斯蒂安·波尔斯; 朱利安·克拉普; 菲利普·格茨
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2021-02-26
Filing date: 2022-02-25
Publication date: 2024-01-12
Also published as: TWI821922B; EP4298799A2; CA3209747A1; MX2023009914A; AU2022225084A1; KR20230147674A; US20230396950A1; ZA202308151B; WO2022180248A3; BR112023017225A2; JP2024507945A; WO2022179701A1; WO2022180248A2; TW202234385A

Abstract

通过分两个阶段执行3D平移，即导致第一虚拟(扬声器)位置及竖直偏移的第二虚拟或真实(扬声器)位置的至少一个水平层内平移及在两个位置之间的另一竖直平移，来实现允许平移的音频对象的更有效呈现。尽管以此方式行为似乎增大计算复杂度，但此分阶段处理实际上增大呈现的稳定性及预期虚拟位置的定位。此外，根据实施例，分阶段处理使得能够通过仅使用振幅平移增益来执行平移，亦即，相位处理并非必需的，从而使计算复杂度较低。甚至进一步，呈现可灵活地应用于多种扬声器设置。

Description

用于呈现音频对象的装置与方法

技术领域

本发明涉及音频再现的技术领域。特别地，本文中描述再现具有升高或降低高度声音的再现的多声道音频。

背景技术

对于声音再现，存在不同种类的系统，其在其复杂度及再现质量方面不同。电影声音的参考为影院。影院提供多声道环绕声，其中扬声器不仅安装在收听者前方(通常在屏幕后方)，而且额外安装在侧面及后面，且近年来亦安装在天花板上。侧面及后面扬声器使能水平包封声音再现，其可通过使用高度及天花板扬声器竖直地包围声音来进一步增强。

在最新编码技术的情况下，沉浸式、交互式及基于对象的音频内容不仅可在专业环境中使用，而且亦可方便地传输至消费者住宅中，从而添加另外的特征及维度，诸如高度再现。

用于真实声音再现的增强型再现设置使用不仅安装在水平平面中(通常处于或接近于收听者的耳高度处)的扬声器，而且额外使用亦在竖直方向上散布的扬声器。那些扬声器例如被升高(安装在天花板上，或以高于头部高度的某一角度)或置放于收听者耳高度下方(例如在地板上，或以某一中间或特定角度)。

通常，在顶部或底部方向安装扬声器为不方便或不可能的。

在住宅环境中，可能仅爱好者才会安装复制在专业环境、研究实验室或影院中使用的扬声器设置所需的多个扬声器。此处，术语扬声器设置亦包括如条形音箱(soundbar)、具有内置扬声器的TV、立体声音箱(boombox)、超薄音响(sound plate)、扬声器阵列、智能扬声器等的装置及拓朴。

尽管如此，当呈现用于沉浸式声音体验或虚拟现实的声音时，常常需要亦在高度(顶部及底部)方向上呈现声音(在下文中标示为“顶部及底部方向”。当然，未必始终必须处理两个方向，因此，这等效于“顶部或底部方向”或“顶部/底部方向”)。

因此，需要在不具有高度扬声器(例如，顶部扬声器和/或底部扬声器)的情况下在顶部及底部方向上呈现声音。

这些相当复杂的设置的方便替代为使用信号处理构件来产生与增强型扬声器设置相当或类似的空间听觉感知的紧凑型再现系统。此处，术语再现系统包括用于音频再现的所有装置及拓朴，如包括多个个别扬声器、条形音箱、具有内置扬声器的TV、立体声音箱、超薄音响、扬声器阵列、智能扬声器等的设置。

在下文中提出用以达成此目的的实际方法及装置。

发明内容

本发明的目标为提供允许3D平移的音频对象的更有效呈现，其中效率的增加涉及例如呈现稳定性、改良的平移准确度、计算效率和/或对较大数目个扬声器设置、改变的扬声器数目、改变的扬声器位置、改变的收听者位置、改变的对象位置的适合性。

此目标通过独立权利要求的主题来实现。

通过分两个阶段执行3D平移，即导致第一虚拟(扬声器)位置及竖直偏移的第二虚拟或真实(扬声器)位置的至少一个水平层内平移及在两个位置之间的另一竖直平移，来实现允许平移的音频对象的更有效呈现。尽管以此方式行为似乎增大计算复杂度，但此分阶段处理实际上增大呈现的稳定性及定位预期虚拟位置的精度。此外，根据实施例，分阶段处理使得能够通过仅使用振幅平移增益来执行平移，亦即，相位处理并非必需的，由此使计算复杂度较低。甚至进一步，呈现可灵活地应用于多种扬声器设置。

本申请的实施例关于一种用于产生用于多个扬声器的扬声器信号以使得扬声器信号在多个扬声器处的应用在预期虚拟位置处呈现至少一个音频对象的装置。装置包括被配置为接收表示至少一个音频对象的音频输入信号的接口。音频输入信号可为基于声道的音频信号、基于对象的音频信号和/或基于场景的音频信号中的一个。第一平移增益确定器被配置为取决于预期虚拟位置而确定多个扬声器中的布置于一个或多个第一水平层的第一层集合内的扬声器的第一集合的第一平移增益，第一平移增益限定第一部分扬声器信号从至少一个音频输入信号的导出，第一部分扬声器信号与在将第一部分扬声器信号应用于扬声器的第一集合后在第一虚拟位置处呈现至少一个音频对象相关联。这为前文提及的层内平移。竖直平移增益确定器被配置为取决于预期虚拟位置而确定用于第一部分扬声器信号与一个或多个第二部分扬声器信号之间的平移(或衰落)的进一步平移增益，一个或多个第二部分扬声器信号待应用于一个或多个扬声器的第二集合且与至少一个音频对象在相对于第一位置竖直地偏移的第二位置处的呈现相关联，以便在第一虚拟位置与第二位置之间平移。这为竖直平移。一个或多个第二部分扬声器信号可为另一层内平移的结果，在此情况下，第二位置为第二虚拟位置或第二位置可为扬声器中定位为竖直地偏移至扬声器的第一集合的另一扬声器的真实位置。装置被配置为使用第一平移增益及进一步平移增益从第一部分扬声器信号及一个或多个第二部分扬声器信号合成扬声器信号。亦即，在合成中，第一平移增益及进一步平移增益实际上应用于音频输入信号上，由此产生扬声器信号。可能存在仅使用平移增益中的一个产生的一个或多个扬声器信号，诸如对于定位于真实扬声器位置处且馈入第二部分扬声器信号的刚提及的第二扬声器。

根据一些实施例，如上所述，一个或多个扬声器的第二集合包括多于一个扬声器，且一个或多个第二部分扬声器信号包括多于一个第二部分扬声器信号，且装置进一步包括第二平移增益确定器，第二平移增益确定器被配置为取决于预期虚拟位置确定扬声器的第二集合的第二平移增益，第二平移增益限定第二部分扬声器信号从至少一个音频输入信号的导出，其中装置被配置为使用第一平移增益及第二平移增益以及进一步平移增益从第一部分扬声器信号及第二部分扬声器信号合成扬声器信号。此处，根据实施例，第二部分扬声器信号可通过频谱成形从至少一个音频信号导出，使得第二位置为在第二层集合上方或下方的虚拟位置，诸如不在一个或多个第一水平层与扬声器的第二集合布置于的一个或多个第二水平层中的任一个之间或其内，但在相对于这些水平层竖直的一侧上。根据对应实施例，提供一种用于产生用于多个扬声器的扬声器信号以使得扬声器信号在多个扬声器处的应用在预期虚拟位置处呈现至少一个音频对象的装置，其中多个扬声器分布至一个或多个水平层上，装置包括：接口，被配置为接收表示至少一个音频对象的音频输入信号；第一扬声器信号集合确定器，被配置为取决于预期虚拟位置而确定多个扬声器中的扬声器的第一集合的第一平移增益，例如如上所述的纯振幅平移增益，以使得第一虚拟位置在扬声器的第一集合的位置之间，且使用第一平移增益从至少一个音频输入信号导出第一部分扬声器信号，第一部分扬声器信号与在将第一部分扬声器信号应用于扬声器的第一集合上后在第一虚拟位置处呈现至少一个音频对象相关联；第二扬声器信号集合确定器，被配置为通过频谱成形从至少一个音频输入信号导出第二部分扬声器信号，第二部分扬声器信号与在将第二部分扬声器信号应用于扬声器的第二集合上后在第二虚拟位置处呈现至少一个音频对象相关联，第二虚拟位置在一个或多个水平层上方或下方，例如，不在一个或多个水平层之间或其中的任一个内，但在相对于一个或多个水平层竖直的一侧上；及竖直平移增益确定器，被配置为取决于预期虚拟位置而确定第一部分扬声器信号及第二部分扬声器信号的第二平移增益，以便在第一虚拟位置与第二虚拟位置之间平移；及合成器，被配置为使用第二平移增益从第一部分扬声器信号及第二部分扬声器信号合成扬声器信号。

因此，本文中阐述的实施例揭露用于从至少一个音频输入信号将至少一个音频对象呈现至扬声器集合的概念。简言之，音频输入信号可包括关于待由扬声器输出的音频对象的信息。举例而言，此类音频对象可为在电影中飞行的直升机的声音、在交响乐团中弹奏的乐器的声音或语音的声音。音频对象使用扬声器来呈现。音频输入信号被处理以确定如何在个别扬声器处输出音频对象。对于此，每个音频输入信号与至少一个音频对象的位置信息相关联。此类位置信息可为静态的，例如，小提琴位于交响乐团左侧，扬声器位于收听者前方，或动态的，例如，直升机从右至左飞行。用以呈现音频对象的扬声器的集合可包括扬声器的一个或多个群组，每个群组位于一个水平层中。额外扬声器可为位于一个或多个群组上方或下方的实体或虚拟扬声器。

这意味着，对于扬声器的集合，可限定与层的关联及偏移至在层上方或下方的层的位置。举例而言，设置可包括一个层中的四个扬声器(例如，全部处于相同高度)及比四个其他扬声器高(例如升高、在上方)的一个实体或虚拟扬声器。此设置将由此具有一个层。额外一个或多个层亦为可能的。

附图说明

有利实施例为附属权利要求的主题。特别地，下文关于诸图描述本申请的优选实施例，在诸图中：

图1展示根据实施例的用于音频呈现的装置的方块图；

图2展示用于音频呈现的装置的另一实施例，其在本文中描述为包括用于两个部分扬声器信号集合以及用于其中的一个的均衡的水平平移的可能性；

图3示意性地展示定位于扬声器之间的示例扬声器设置及收听者，其另外说明虚拟顶部扬声器用于音频呈现的考虑；

图4展示图3的情境的示意图，其中说明第一(水平)平移；

图5a展示图3的情境，其说明均衡或频谱成形的使用以便提供单耳线索以实现虚拟顶部扬声器；

图5b展示图5a3的情况，其说明经募集以参与呈现虚拟顶部扬声器的扬声器之间的平移与用以定位虚拟顶部扬声器的增益；

图6展示相比于图2的实施例改变的用于音频呈现的装置的方块图，改变之处在于水平平移之间的不同次序及用于呈现顶部/底部虚拟扬声器的均衡；

图7展示用于音频呈现的装置的另一实施例的方块图，或以不同方式展示参与在两个可用扬声器层之间的预期虚拟位置呈现音频对象的图1的装置的组件的方块图；

图8展示除图7的组件以外亦说明考虑收听者位置的可能性的方块图；

图9展示可能扬声器设置(此处为5.0扬声器设置)的示意性俯视图；

图10展示用于扬声器设置(此处为5.0+2H扬声器设置)的另一示例的另一示意性三维视图；

图11、图12展示示意图以便说明在两个可用层之间的预期虚拟位置处执行对象的音频呈现的两阶段过程，此处针对使用5.0+4H扬声器设置的示例；

图13、图14说明对象在竖直地偏移至可用层(此处例示为竖直地偏移至所有层的顶部)的预期虚拟位置处的两阶段呈现，以及

图15展示用于均衡或频谱成形中的成形功能以便形成用于呈现虚拟顶部/底部扬声器信号的单耳线索的示例。

具体实施方式

以下描述以用于产生用于多个扬声器的扬声器信号的装置的实施例的描述开始。本文中在下文连同对可个别地或以群组方式适用于图1的装置的细节的描述一起概述更特定实施例。

图1的装置一般使用附图标记10指示，且用于产生用于多个扬声器14的扬声器信号12以使得扬声器信号12在多个扬声器14处或至多个扬声器的应用在预期虚拟位置处呈现至少一个音频对象。

装置10可被配置用于扬声器14的某一布置，亦即，用于其中定位及定向多个扬声器14的某些位置。然而，装置可替代地能够被配置用于扬声器14的不同扬声器配置。同样，扬声器14的数目可为两个或两个以上，且装置可经设计用于扬声器14的设定数目或可被配置以应对任何数目个扬声器14。

装置10包括接口16，在接口处，装置10接收表示至少一个音频对象的音频信号18。暂且，假定音频输入信号18为表示音频对象的单声道音频信号，诸如直升机的声音等。下文提供额外示例及其他细节。在任何情况下，音频信号18可在时域中、在频域中或在任何其他域中表示音频对象，且其可以以压缩方式或在无压缩情况下表示音频对象。

如图1中所描绘，装置10进一步包括用于接收预期虚拟位置的位置输入。亦即，在位置输入20处，通过在扬声器14处应用扬声器信号12来向装置10通知音频对象应虚拟地呈现至的预期虚拟位置。亦即，装置10在输入20处接收预期虚拟位置的信息，且此信息可相对于扬声器14的布置/位置、相对于收听者的位置和/或头部定向和/或相对于真实世界坐标提供。此信息可例如基于笛卡尔坐标系统或极坐标系统。其可例如基于如笛卡尔或极坐标系统的房间中心坐标系统或收听者中心坐标系统。

如图1中所描绘，装置10包括第一平移增益确定器22，被配置为取决于在输入20处接收的预期虚拟位置21而确定多个扬声器14中的扬声器的第一集合26的第一平移增益24。扬声器的此集合26布置于一个或多个第一水平层的第一层集合内。亦即，扬声器的此集合26大致布置于类似高度处。第一平移增益24限定第一部分扬声器信号28从至少一个音频输入信号18的导出或参与其产生，第一部分扬声器信号28与在将第一部分扬声器信号应用于扬声器的第一集合26上后在第一虚拟位置处呈现至少一个音频对象相关联。如在下文更详细地概述，根据实施例，第一平移增益确定器22可计算振幅增益，针对第一部分扬声器信号28中的每个部分扬声器信号计算一个，以使得第一虚拟位置在集合26的扬声器之间平移，包括以下可能情况：偶尔，第一虚拟位置与扬声器位置中的一个重合，在此情况下，仅在此位置处的扬声器可接收非零平移增益。换言之，第一平移增益确定器22用于计算用于集合26内的水平平移的振幅增益，以使得此水平平移产生扬声器的集合26的第一层集合内的虚拟再现位置。

图1的装置10进一步包括竖直平移增益确定器30，被配置为取决于预期虚拟位置21而确定第一部分扬声器信号28(一方面)与一个或多个第二部分扬声器信号34(另一方面)之间的平移的进一步平移增益。一个或多个第二部分扬声器信号34待应用于扬声器14中的一个或多个扬声器的第二集合36，其仅包括一个扬声器或多于一个扬声器。

图1说明其中第二部分扬声器信号34及集合36内的扬声器的数目多于一的情况，但亦可能在集合36内仅存在一个扬声器且因此仅存在一个第二部分扬声器信号34。在后一情况下，集合36中的单一扬声器将在第一部分扬声器信号28所专用的扬声器的集合26外部。在集合36包括多于一个扬声器的情况下，集合26与36可互相不相交、部分重叠、重合或完全重叠，亦即，一个可为另一个的恰当子集。示例更详细地阐述于下文中。在任何情况下，第二位置相对于第一位置竖直偏移。本文中在下文阐述如何即使在第一集合26与第二集合36重合的情况下亦在第一位置与第二位置之间实现竖直偏移的不同示例。应注意，在关于附图概述的实施例中，每个集合26及集合36由一个层的扬声器组成或甚至对应于一个层，使得在集合26与集合36重合的情况下，层集合，亦即集合26及集合32的层，亦重合。然而，集合与层之间的此对应关系可改变，以使得集合26及集合32中的任一个可由多于一个层的扬声器组成。

通过竖直平移增益确定器30确定的进一步平移增益32最终在第一虚拟位置与第二位置之间产生平移。

如图1中所示，装置10进一步包括合成器40，其被进一步配置为使用第一平移增益24及进一步平移增益32从输入音频信号18合成扬声器信号12。如上所述，第一平移增益可为简单振幅增益，且因此，合成器40可包括用于每个部分扬声器信号28的乘法器42，用于输入音频信号18与对应平移增益24的相乘。因此，平移增益24对于部分扬声器信号28而言为个别的。亦即，每部分输入信号28存在一个平移增益24。类似地，且如下文进一步概述，通过竖直平移增益确定器30输出的平移增益32亦可为简单振幅增益。此处，每集合28及34分别存在一个平移增益32。因此，合成器40可分别包括用于集合28及34中的每一个的一个乘法器44a、44b，其中乘法器44a将集合28的每个扬声器信号乘以与集合28相关联的平移增益32，且乘法器44b将来自集合34的每个部分扬声器信号乘以与集合34相关联的平移增益32。

合成器40的另一任务如下：如上文所提及，扬声器集合26及36可以重叠或可以不重叠。作为合成器40的任务，合成器40将通过使用平移增益24及32平移获得的部分扬声器信号28及34恰当地分布至扬声器14上。对于集合28及34中仅仅属于集合28及34中的一个的那些部分扬声器信号，对应部分扬声器信号变为扬声器信号12中的一个。然而，对于与扬声器14中的相同扬声器相关联的那些一个或多个部分扬声器信号，合成器40使用加法器46将其加在一起，使得分别来自集合28及34的相互对应的部分扬声器信号的总和变成扬声器信号12中的一个。

应注意，由于乘法的关联及交换特性，因此合成器40不限于按图1中描绘的次序执行用于每个部分扬声器信号的乘法。亦即，尽管图1的合成器40描绘为在与集合全局平移增益32相乘之前执行部分扬声器信号与第一平移增益24的个别乘法，但可按不同次序执行乘法。

图1亦说明根据下文进一步描述的实施例使用的细节。特别地，这些细节关于从输入音频信号18导出或产生部分扬声器信号34。两个进一步处理步骤可与从音频输入信号18导出/产生部分扬声器信号34相关联。图1中的这两个处理步骤及对应组件为可选的，且因此，输入音频信号可直接表示一个部分扬声器信号34，其藉助于对应平移增益32经受竖直平移。若存在，仅一个或两个处理步骤可应用且体现于装置10内。

第一处理步骤对应于相对于部分扬声器信号34以实质上对应于通过组件22、24及42相对于部分扬声器信号28实现的水平平移的方式水平平移。亦即，如图1中所示，装置10可包括被配置为取决于预期虚拟位置21而确定用于扬声器的第二集合36的第二平移增益54的第二平移增益确定器52，第二平移增益54限定第二部分扬声器信号34从至少一个音频输入信号18的导出。合成器40将包括对应乘法器56，即每个部分扬声器信号34一个，其将对应平移增益54与音频输入信号相乘。换言之，合成器40将使集合36内的每个扬声器的部分扬声器信号34经受与集合36内的对应扬声器相关联的平移增益54的相乘。此将导致水平平移，且导致与部分扬声器信号34相关联的虚拟扬声器位置。

另外或替代地，相对于组件52至56，装置10可包括频谱成形器58，其由于乘法器56处的水平平移及乘法器44b处的竖直平移而对输入音频信号或中间或最终产物执行频谱成形，使得第二部分扬声器信号34通过此频谱成形从至少一个音频输入信号导出。频谱成形例如对于部分扬声器信号34中的每一个是相等的，亦即，可使用同一频谱成形函数。如下文更详细地概述，通过频谱成形器58使用的频谱成形函数60被选择，以便形成收听者的心理声学线索，使得与第二部分扬声器信号34相关联的第二虚拟位置定位在扬声器的第二集合36上方或下方。

由频谱成形器58执行的频谱成形可藉助于部分扬声器信号频谱与成形函数60的相乘而在谱域中执行，或可在时域中进行，诸如藉助于时域滤波器，诸如IIR或FIR滤波器，时域滤波器接着将具有对应于频谱成形函数60的频率响应。将关于集合26及36进行进一步注释。装置可取决于当前扬声器设置而对其进行选择。换言之，装置可适应于不同设置。装置可取决于预期虚拟位置的水平分量(诸如最接近于预期虚拟位置的那些扬声器所在的一个层(就其至一个层中的竖直投影而言))或取决于预期虚拟位置的水平分量及预期虚拟位置的竖直分量(诸如通过选择最接近于预期虚拟位置的最外层，且接着选择那个层内的扬声器)而从多个扬声器中选择扬声器的第一集合26。另外或替代地，可取决于预期虚拟位置的竖直分量(诸如通过选择最接近于预期虚拟位置的最外层且使用属于那个层的所有扬声器用于集合36)或取决于预期虚拟位置的水平分量及预期虚拟位置的竖直分量(诸如通过选择最接近于预期虚拟位置的最外层，且从层的扬声器中选择集合36，以使其最接近于预期虚拟位置(就其至一个层的竖直投影而言))来从多个扬声器中选择扬声器的第二集合36。

如之前关于第一部分扬声器信号28所提及，合成器40可被配置为按任何次序执行乘法56及44b以及频谱成形58，即，可按任何次序将三个任务应用于音频输入信号18上，以便产生对应部分扬声器信号34。

最后，应注意，根据示例，集合36内的扬声器的数目及因此部分扬声器信号34的数目可分别为一个，甚至在使用频谱成形器58的情况下亦如此。

在进行本申请的某些细节及实施例的描述(其在下文中通过重新使用附图标记及上文提出的描述来描述)之前，应关于合成器40进行以下注释：在图1的情况下，平移增益确定器22、30及52形成用于基于预期虚拟位置21计算平移增益的一种中间模块，而平移增益的实际应用已由合成器40执行。另外，频谱成形器58展示为包括在合成器40内作为其子模块。然而，如上所述，与图1的说明相比，修改是可行的。举例而言，频谱成形器58可置放于组件52、54及56上游以便最终成为在合成器40外部且尤其在合成器上游的模块。就第一扬声器集合36而言，合成器40将接着基于音频输入信号18的预成形版本执行扬声器信号12的合成。另外或替代地，大多数随后解释的实施例利用合成，其中在水平平移之后应用竖直平移，水平平移又藉助于乘法器42和/或56(且若适用，频谱成形58)实现，且在此情况下，合成器40及其合成可仅涉及组件44a、44b及(若适用)加法器46，而组件22、24及42形成第一扬声器信号集合确定器70，且组件52、54、56、58及60(或其部分，若缺失水平平移或频谱成形)形成第二扬声器信号确定器72。

在继续描述宣布的其他细节及另外详述实施例之前，将关于由如图1中所描绘的音频呈现概念产生的所实现优点进行简要通知。特别地，如上文所概述，图1的概念的音频呈现允许音频再现在没有使用以下及相关联的计算复杂任务的情况下进行：应用基于或根据预期虚拟位置21的精确角度变化而精确调整或选择的不同HRTF。所有水平及竖直平移仅通过振幅平移进行，且频谱成形58可使用一个频谱成形或相等频谱成形函数60用于集合36内的所有扬声器的所有部分扬声器信号34。在下文进一步描述的实施例中，装置10可持续使用相同频谱成形函数60而不顾及预期虚拟位置21(诸如在预期虚拟位置21受限于在高度上在收听者位置或扬声器14的层内、之间或上方的位置的情况下，或反之亦然，在受限于在高度上在收听者位置或扬声器14的层内、之间或下方的情况下)，或区分两个频谱成形函数60，一个用于预期虚拟位置21分别高于收听者位置或最高扬声器层的情况，且另一个用于分别低于收听者位置或最低扬声器层的情况。因此，图1的呈现的计算复杂度低。在利用可选的频谱成形58时亦如此。

此外，尽管3D平移与水平平移(一方面)及竖直平移(另一方面)的分解可能看似会产生更复杂的呈现程序，但所得计算复杂度仍较低，而在定位预期虚拟位置方面的呈现准确度甚至在此计算适度复杂度下仍较高。

即，本文中所描述的实施例提供本说明书的介绍性部分中阐述的相当复杂设置的替代方案，且形成使用信号处理构件以产生与更复杂扬声器设置相当或类似的听觉感知的紧凑型再现。上文及下文中所提出的概念能够

(1)通过考虑一个或多个虚拟扬声器在感知上替换3缺失的扬声器/扬声器阵列。这些虚拟扬声器的产生在本文中描述。

(2)在3D扬声器设置中有效呈现声音，其中若使用虚拟扬声器(1)，以及在必要扬声器实体上可用的情境中，则可使用呈现。(2)的益处为灵活性及效率，其使得其亦适用于实时追踪收听者位置，且呈现实时适应于收听者的当前位置的情境。

应注意，本文中所描述的实施例独立于再现环境，且可例如亦用于例如汽车环境中。此外，实施例独立于用于再现的传感器或拓朴的特定类型。即，实施例可应用于例如头戴式耳机再现中以及使用诸如扬声器阵列、条形音箱、智能扬声器等的特定扬声器的再现中。

即，刚提及的注释指出，扬声器14可为头戴式耳机扬声器或立体声扬声器，但亦可从环绕声设置形成扬声器阵列、条形音箱或扬声器集合、智能扬声器或智能扬声器集合，或可为个别扬声器，其中组合亦可为可行的。此外，从描述应清楚，装置10自适应地操作，以便实时地依据预期虚拟位置21调适扬声器信号12的合成，预期虚拟位置可能随时间推移发生变化。

就此而言，应简要地注意，尽管呈现装置的实施例可针对某些扬声器设置被预先配置，即其期望扬声器14的预定义集合定位在预定义位置处，但在装置的初始化方面和/或在用以移动扬声器位置的调适方面，本文中所描述的装置亦可适应于不同扬声器设置、不同扬声器数目和/或扬声器位置。在前一情况下，装置可在初始化之后假定扬声器设置为恒定的。在后一情况下，装置甚至可适应于运行时间期间的扬声器设置变化。甚至扬声器的数目可在运行时间中改变。因此，装置可在此可选情形下接收关于扬声器位置的信息，然而，未在图中明确展示。因此，类似于收听者位置信息的可选接收，图1的装置(及随后展示的实施例)可包括用于接收扬声器设置信息的另一位置输入，扬声器设置信息揭露扬声器14的数目及其位置。此信息可相对于收听者的位置和/或头部定向和/或相对于真实世界坐标而提供。此信息可例如基于笛卡尔坐标系统或极坐标系统。其可例如基于如笛卡尔或极坐标系统的房间中心坐标系统或收听者中心坐标系统。

常用于呈现的方法为振幅平移技术。为在未由扬声器覆盖的位置处(例如，不在两个或更多个扬声器之间)产生听觉对象的感知，可利用诸如串扰消除的呈现技术。串扰消除(XTC)[1至7]具有藉助于扬声器控制收听者的左耳信号及右耳信号的目标。此通过“消除耳间串扰”(其在扬声器信号到达收听者时发生)而达成。一旦可直接控制耳信号，便可应用双耳技术[8,9]以在顶部方向及底部方向处呈现声音。先前提及的技术存在两种主要限制。首先，XTC具有与声音着色、极小最佳收听位置及相对于收听者对扬声器位置的高度依赖性相关的限制。其次，在无头部追踪/收听者追踪和/或个别化头部相关传递函数(HRTF)或双耳室内脉冲响应(BRIR)的情况下，双耳技术在可达成质量/效能上受到限制。这两者皆将为系统增加高复杂度、成本及使用者不便。

已提出对常规振幅平移的增强，在未由扬声器设置覆盖的维度中使用虚拟扬声器，见例如[14，15]。使用此类技术的高度平移并非完全真实的，因为音品偏离在高度处真实呈现的来源。

竖直半球形振幅平移(VHAP)[10，11]使用两个横向扬声器以呈现具有收听者的高度且在收听者顶部的对象。由于扬声器必须处于±90度横向方向，因此VHAP在收听者位置方面是不灵活的。

在本说明书中，术语虚拟扬声器用于在平移对象的过程中考虑的不存在的扬声器。

图1的概念利用用于顶部和/或底部呈现的概念，具有以下优于刚刚提及的目前先进技术的优点：

●均衡(频谱成形58)应用于顶部/底部虚拟扬声器信号以用于较如实的顶部/底部/高度感知

●任何扬声器设置可用于扬声器14，且尽管如此，可达成(虚拟)顶部及底部呈现的增强。举例而言，立体声设置或5.1设置可用作扬声器14的基础。使用图1的概念甚至可增强具有高度扬声器的扬声器设置(例如5.1+4H)，诸如相对于顶部呈现(例如“上帝的声音”扬声器)或下层呈现。与此相比，VHAP需要例如在收听者的各侧(±90度)处具有扬声器的精确且特定的扬声器设置。

●此外，图1的顶部及底部呈现并不依赖于相对于收听者的特定扬声器位置。换言之，图1的方案亦可在收听者移动的情境中应用(例如，追踪呈现)。

本文中所描述的实施例允许虚拟高度呈现的极直接实施。

即，根据图1的对象平移可以以这样的方式实施：导致根据图2的呈现装置或对象平移处理器以两个路径(将部分扬声器信号34(一方面)及部分扬声器信号28(另一方面)提供至合成器40，即一个路径包括接收音频输入信号18及预期虚拟位置21且输出部分扬声器信号28的部分扬声器集合确定器70，且另一路径包括基于两个输入18及21产生部分扬声器信号34的模块72)在合成器40的输出处产生扬声器信号12，且装置等等通过以下以任何扬声器设置在3D空间中呈现对象：

●考虑到竖直(顶部或底部)方向上的至少一个虚拟扬声器(顶部或底部)。这是通过频谱成形58来进行或达成，频谱成形如下文更详细地概述，导致收听者的心理声学线索：由第一部分扬声器信号34再现的声音分别从顶部或底部到达。

●对对象进行振幅平移，考虑扬声器设置加上一个或多个虚拟扬声器。振幅平移通过合成器40内的竖直平移及模块70内及模块72内的水平平移执行。

●将均衡应用于虚拟和/或真实扬声器信号。通过频谱成形器58内的此频谱成形进行均衡。

●在如关于图1解释的设置的子集或所有扬声器上再现每个虚拟扬声器信号，第二扬声器集合36可与集合26重合，且因此涉及所有扬声器14，或可仅与扬声器14的子集相关。

在下文中，本申请的实施例的概念三维地可视化。见图3。在图3中，收听者由附图标记100指示。个别扬声器14通过小写字母区别于彼此。在图3中，扬声器设置包括(例示性)四个扬声器。图3展示收听者100顶部或上方的一个虚拟扬声器102。自然，图3仅为一示例。可替代地，可以考虑在收听者100底部或下方的虚拟扬声器102。此外，虚拟扬声器102可甚至在允许收听者100平移的情况下(即，藉助于跟踪收听者位置)定位在收听者100正上方，或收听者100的位置可默认固定，而不顾及收听者100实际上在虚拟扬声器102正下方/上方。

换言之，图3展示扬声器14，此处例示性的四个扬声器14a至14d，的定位的示例，且解释图1及图2中所示的实施例可涉及定位于虚拟位置处的虚拟扬声器，虚拟位置为与第一部分扬声器信号34相关联的呈现的前述虚拟位置。即，图3说明就利用频谱成形器58而言，图2的实施例以及图1的实施例除可用扬声器14之外另外考虑虚拟扬声器102。

图4、图5a以及图5b分解为个别子概念或步骤展示关于如何使用可用扬声器14a至14d以及虚拟扬声器102在预期虚拟位置104处呈现。

图4说明预期虚拟位置104。此位置104被指示为竖直地在扬声器14a至14d所处的层或平面上方。图4亦展示预期虚拟位置104至扬声器14a至14d的层或平面中的投影，即沿竖直方向至扬声器14a至14d的层或平面中的投影104。所得投影位置106(即，预期虚拟位置104至扬声器14a至14d的层中的投影)使用附图标记106指示。模块70可使用振幅平移以便产生与音频对象在此投影虚拟位置106处的呈现相关联的部分扬声器信号。因此，图4说明尚未关于图1及图2描述的另一情形。特别地，图1及图2的装置分别可被配置为从所有可用扬声器14中或从诸如属于诸如此处在图4中的扬声器14a至14d的某一层的扬声器的群组的扬声器群组中选择26。特别地，如通过使用影线所说明，可仅选择两个扬声器14c及14d，即属于收听者100的水平平面的扬声器群组中的那些扬声器被选择以接收最接近于投影虚拟位置106的对应部分扬声器信号28。根据不同视图，水平平移尽管仅相对于对应扬声器层集合的子集产生非零权重，但连续地关于对应层集合的所有扬声器。此处，仅扬声器14c及14d将与水平平移的非零权重相关联，而其他两个扬声器14a及14b将与零权重相关联，由此不参与水平平移。因此，除了虚拟扬声器102之外，亦使用扬声器设置的两个扬声器14c及14d。图4集中于分别通过模块70或通过确定器22达成的水平平移，而以下诸图集中于模块72及其对最终呈现的贡献。即，以下诸图将揭露扬声器设置的两个扬声器14c及14d以及虚拟顶部扬声器102如何用于使对象在预期虚拟位置104处振幅平移。

应注意，预期虚拟位置104的距离在本申请的上下文中并不起主要作用，且因此，仅出于较容易的视角表示，位置104被描绘为远离收听者。呈现可以可选地仅取决于朝向位置104的方向而操作。

图5a展示子概念或步骤，根据子概念或步骤，均衡或频谱成形58用于或应用于虚拟扬声器102的扬声器信号。再次，图3至图5b集中于此虚拟扬声器102为虚拟顶部扬声器的示例上，但此仅为示例。可同样地使用均衡或频谱成形58以便形成虚拟底部扬声器。

图5b集中于音频对象在虚拟扬声器102的位置处的再现。将直接应用于虚拟扬声器102的扬声器信号(即，音频输入信号)经受均衡或频谱成形58及此处通过对应乘法器56a至56d说明的水平平移。后者乘法器为可选的。其仅在以下情况下为必要的：虚拟扬声器位置102并非静态的，而是被定位以竖直地调整至收听者100的收听者位置，即水平定位以使得其至扬声器14a至14d的平面中的竖直投影与收听者100在扬声器14a至14d的此平面或层内的位置重合。图5b例示性地说明集合36可涵盖所有扬声器14a至14d或至少在一个水平层内的对应群组的所有扬声器。即，5b说明每个第二部分扬声器信号34在设置的扬声器14a至14d的子集(或如图5b中所说明，所有扬声器)上的再现。由于虚拟扬声器102并非实体上可用的，因此对应经均衡信号34经由扬声器的所提及子集再现。将增益总计或针对每个扬声器个别地应用，以针对虚拟方向调整声级及所得方向向量。归因于降低的计算成本而为有益的替代实施已经在上文提及且在图6中描绘。即，图6展示用于呈现的装置的另一示例或用于对象平移处理器的替代实施例，即与图2相比，由模块72内的组件52、54及56在水平平移上游执行均衡或频谱成形58的实施例。即，用以导致收听者的伪声学线索、导致顶部或底部扬声器102的均衡或频谱成形直接应用于音频输入信号18而非个别地应用于每个部分扬声器信号34上。即，音频输入信号18经受均衡或频谱成形，其在平移时可应用(诸如可选地水平平移)以水平地控制虚拟位置102的位置，且使用由竖直平移增益确定器提供的竖直平移因子或增益达成竖直平移。若在扬声器集合36之间的可选水平平移之前应用用于部分扬声器信号34的竖直平移增益，则达成甚至更低的计算复杂度。在后一情况下，经均衡或频率成形及声级对准信号可经复制并分布至已经选择用于虚拟高度扬声器102的再现的扬声器上。

根据上文所阐述的概念，虚拟高度再现的有效产生为允许在任意扬声器设置中使用对应虚拟高度扬声器的平移算法的部分。下文中描述其他细节。

(对象)平移算法/平移处理器或根据图1、图2及图6中的任一个的装置可用于对于静态以及对于移动声源两者在3D再现空间内定位听觉对象的感知位置。

归因于基础概念的效率，其亦可用于静态及移动收听者位置，即亦用于例如其中追踪收听者100的位置的应用，且由装置进行的呈现依据收听者位置进行调适。调适示例在下文中阐述。此外，如本文所描述的装置甚至可应用于静态以及移动扬声器14的情境。

在典型再现情境中，扬声器位置固定，但收听者100的位置可连续改变。在此情况下，收听者100看到扬声器14的角度以及扬声器之间的各个角度随收听者100的位置而变。

常规平移算法(诸如VBAP)通常需要初始化其认为不变的最佳收听位置及扬声器位置。在初始化阶段期间，使用一些复杂操作，诸如将扬声器映射至成对、三元组或四元组平移群组。

由于在追踪情境中，扬声器14与收听者100的相对定位频繁改变，因此不希望具有复杂的初始化阶段及固定映射。根据图1、图2及图6描述的平移解决这些问题，且包括与平移相关的几个其他新颖性，尤其在未处于由扬声器覆盖/环绕的区域内部的位置处。

特别地，以下步骤辅助达成有效呈现且用扬声器14a-d的多于一个层应对扬声器设置，如图3至图5b中例示性地展示，且可作为功能性添加至本文中所描述的装置中：

●计算水平扬声器层的振幅平移增益，诸如在70及72中的水平平移阶段中的任一个中。可能装置响应于扬声器的层的数目是否为一。若仅存在一个层，则组件52、54、56不被使用或仅用于将顶部/底部虚拟扬声器位置102定位在收听者100正上方/正下方。若多于一个层存在，则以下为真。

●若扬声器14的多于一个层存在，则

○可诸如分别针对高度层及底部层使用模块70及72计算用于多于一个扬声器层的振幅平移增益。举例而言，若预期虚拟位置指向在两个层之间竖直的位置，则可进行此操作。应注意，可以以这种方式处理甚至两个以上层。

○在平移中，对象的任何呈现水平/方位角虚拟位置(诸如图4中的106，即在执行水平平移的每一层中)被视为在呈现中，即在竖直平移中。可例如选择两个层，即扬声器14的两个群组，其中的每一个与不同高度处的另一水平层相关联，一个形成集合26，或用于从其选择集合26，另一个形成集合36，或用于从其选择集合36。若干(大于两个)可用层的选择可如下所述进行，即通过获取最接近于预期虚拟位置的层。在层中的每一个上用于其中展示的一个例示性层的“呈现对象位置”(诸如图4中的106)可接着用作虚拟扬声器以使对象在层之间竖直地平移。细节说明于下文中。

○若对象位置在最高层上方或在最低层下方，则对象仅水平地在一个层上(即，分别在最高层上或在最低层上)平移。在此情况下，模块72对于虚拟顶部/底部扬声器102操作，且水平平移仅用于调整顶部/底部扬声器102的水平位置至收听者位置100(若使用此选项)(以下描述替代方案，根据替代方案，不使用此收听者位置自适应性)，且模块70操作以用于在所使用的竖直最外扬声器层或形成水平层的扬声器14的最外群组中的水平平移。模块70及72两者将使其扬声器14的集合26及36被选择以对应于所提及的竖直最外部扬声器层或扬声器14的最外群组或为其部分。

●因此，若对象位置104、21处于最高(最低)扬声器层上方(下方)(或在仅一个扬声器层(例如大致耳高度处)可用的情况下)，则虚拟竖直顶部(竖直底部)扬声器102被视为在感知上将听觉对象呈现在扬声器层上方(下方)。

●将顶部或底部均衡器(即，使用对应函数60的频谱成形58)应用于对象音频信号，且分布至已经选择用于顶部或底部方向再现的扬声器(即，集合36)。

图7描绘参与两个层或两个层的扬声器之间的呈现的步骤/功能/区块。更精确地，图7说明根据额外实施例的能够使音频对象三维平移以在扬声器的两个层之间呈现的装置，或图7说明在以下情况下，图1的装置的参与呈现的那些部分的协作：预期虚拟位置21在两个此类扬声器层之间，而图1中所示的其他组件(诸如频谱成形器/均衡器58)在此情况下(而实际上在预期虚拟位置处于扬声器14的所有扬声器层上方或那些可用扬声器层下方的情况下)并不参与呈现。如所展示，输入为音频输入信号18。水平平移由模块70相对于一个层执行，且组件52、54及56为用于另一层的模块72的部分。对应部分扬声器信号28及34分别通过合成器40合成以产生扬声器信号12，其中额外地使用由确定器30提供的平移增益执行竖直平移。部分扬声器信号34及28分别用于的扬声器集合36与26可彼此不相交，如图7中所说明，因为其属于不同层。然而，应注意，扬声器14至“层”的关联可使得一个扬声器14可与不同层相关联。换言之，扬声器14至扬声器的层群组的分组可使得其重叠。至此，图7的说明仅为示例，且可修改。

图7的个别组件的协作在下文更详细地描述。如所示且如上文解释，藉助于位置信息21控制水平平移及竖直平移两者。其可作为额外信息(诸如呈单独数据流中的额外信息的形式，即相对于音频输入信号18分离)而递送，例如作为包括音频信息的至少一个声道及限定预期位置的相关联元数据的音频对象。若音频输入信号18为不具有元数据的多声道文件，则包括于音频信号中的不同元素的预期位置21可基于信号分析(给定已针对其产生信号的已知目标扬声器布局)而估计及提取。举例而言，音频输入信号18可包括与顶部和/或底部处的扬声器位置相关联的声道，但可用的扬声器14并不具有这种扬声器。在此情况下，预期虚拟位置21为此声道的扬声器位置的位置。自然，其他示例亦为可用的。此可针对所输送的所有声道进行。声道相关的相互扬声器位置可由呈现装置维护。

根据实施例，两个水平平移，即相对于部分扬声器信号28的一个或多个模块70及藉助于组件52至56的关于其他部分扬声器信号34的模块，使用相同方位角用于平移。即，相同方位角用于两个层。换言之，水平平移以使得图4中描绘的投影虚拟位置106在竖直投影上彼此重合的方式进行。自然，此可以以不同方式实施。限制并非必要的，且不同方位角可用于不同层。

本文中所论述的实施例的有益特征为其并不需要广泛初始化的事实。实情为，平移参数直接根据给定或改变收听者及扬声器坐标或位置来计算。呈现的初始化并不取决于扬声器的预定义成对、三元组或四元组。

图8说明以下事实：水平平移及竖直平移两者皆可由关于收听者位置的信息(即信息110)控制。更精确地，设想预期虚拟位置21由指示收听者100应感知待呈现的音频对象所来自的某一方向的立体角表示。取决于收听者位置110，除虚拟顶部/底部扬声器位置依据收听者位置的任何调适(若存在)之外，可应用取决于收听者位置的水平平移，以便使收听者获得此感知方向。在收听者位置信息110不仅在水平位置方面，而且在诸如收听者耳部的位置高度的高度方面指示收听者100的位置的情况下，情况亦如此。

如从以上描述清楚，根据本申请的实施例的装置并不受限于应对其中可用扬声器14仅布置在一个层中的扬声器设置。后一示例已描绘于图3至图5b中。相反，可供用于装置的扬声器14可与不同层相关联。已在上文论述的部分扬声器信号34(一方面)及部分扬声器信号28(另一方面)或换言之，模块70及72分别串联连接至的两个路径可与这些扬声器层中的一个或多个相关联。对于以下描述，我们假定其中的每一个与一个扬声器层相关联。即，每一个与形成一个层的扬声器的一个群组相关联。一些扬声器可与多于一个层相关联，如将从以下描述变得清楚且已经在上文陈述。层对个别路径(即，模块70的路径及模块72的路径)的归属或关联可固定，或可经受对预期虚拟位置21和/或收听者位置110的调适。上文已经论述：若多于两个层可用，则可在预期虚拟位置处于一对这样的层之间的情况下选择二个层，且这些层与两个路径相关联。在预期虚拟位置21超过所有可用层，且不存在可用的实际顶部或底部扬声器的情况下，则最接近于预期虚拟位置的最外层被选择作为扬声器层，对于其使用两个路径。

给定任意扬声器设置，初始化可仅涉及每各扬声器14被分类为属于以下类别中的一个或多个：

层1：

通常，此扬声器层用于使对象水平地平移(大致在就座的收听者的耳部高度)。

层2至N：

可选地，可限定第二层中的扬声器，诸如高度(顶部或底部)层中的扬声器。这些层为竖直地在层1上方或下方的层。因此，扬声器层可多于两个。在耳部高度上的层1与任何一个或多个其他层之间的区别为可选的。

顶部：

再现竖直顶部方向的扬声器。这可为专用扬声器或其他层的扬声器的子集。

底部：

再现竖直底部方向的扬声器。这可为专用扬声器或其他层的子集。

以上描述不限于常规设置，其中规则将(例如)暗示相等数目的扬声器存在于每一层中，在每一层之间具有相等角度/距离，或所有层完全环绕收听者，或所有层具有以与从收听者所见的完全相同竖直角度布置的扬声器。

实际上，如之前所提及，可使用任何任意设置。不同扬声器可以以不同/任意方位角且以不同/任意仰角(即，不同高度)定位。被视为一个层的部分的扬声器未必需要位于一平面内。允许其竖直定位的变化。

图9及图10展示示例实现/示例分类。这些附图应例示分配不同可用扬声器至不同层的程序。这些仅为示例，相同情形中的不同映射将为可能的，且受制于使用者的偏好。

图9展示使用5.0扬声器设置的分类。此处以及在以下附图中，为简单起见而使用以下识别符以指示可用扬声器14：通常将形成安装在收听者的大致耳部高度处的设置的水平配置扬声器以“M_X”的形式标记，其中M为MIDDLE(中间)的指示符，暗示此层通常在上部扬声器层与下部扬声器层之间。因此，这将为上述命名法的层1。X识别此层中的特定扬声器，例如，M_L将为“中间层中的左前扬声器”。类似地，吾我们将上层扬声器识别为“U_X”，因此“U_Rs”将为“上部层中的右环绕扬声器”。下部层中的扬声器将通过“L_X”识别。U及L扬声器因此为以上述命名法的层2...N的扬声器。安装在天花板处(即，在收听者正上方或在扬声器阵列中心正上方)的扬声器被标示为顶部。分别地，术语底部用于在收听者正下方或在扬声器阵列中心正下方的扬声器。在图9中，扬声器的分类将为：

扬声器	类别
		M_L、M_R	层1、顶部、底部
C	层1
		M_Ls、M_Rs	层1、顶部、底部

通过模块70的水平平移将使用所有可用扬声器(层1)进行。使用模块72在除了中心(C)之外的所有扬声器上呈现顶部及底部方向。即，集合36将包括除中心外的所有扬声器，而集合28将涵盖所有扬声器。

请注意，这是此示例的显式决策。当然，中心扬声器亦可用于高度呈现。

使用5.0+2H扬声器设置的另一分类描绘于图10中。此处，两个层存在于可用设置中，且分类或关联将为：

在此示例中，中间层环绕扬声器(M_Ls及M_Rs)用于两个层(层1及层2)，这是由于否则层2将不环绕收听者。即，层1及层2扬声器将用于如图7及图8中所说明的层间平移，例如，用于集合26的层1的层间平移及用于集合36的层2的层间平移或反之亦然，且一旦预期虚拟位置在两个层外部、在其顶部或底部，则属于类别顶部的扬声器用于集合36(具有有效均衡58且使用层2扬声器用于集合26)，或类别底部扬声器用于集合36(具有有效均衡58且使用层1扬声器用于集合26)。

此设置中的替代分类可决定在不具有层2的情况下呈现。顶部可仅使用升高的扬声器U_L及U_R呈现，或替代地，顶部亦可通过如前所描述的U_L、U_R、M_Ls以及M_Rs的组合呈现。

易于导出其他示例。例如，底层扬声器，或者或多或少升高的扬声器，或在中间层中的或多或少的扬声器，或具有较为任意或不规则的扬声器设置。

在下文中，针对对象在位于两个实体上存在的扬声器层(其处于不同高度)之间的方向(如从收听者所见)上平移的示例情况解释在3D中呈现对象的情况。这已在上文关于图7及图8予以了论述，但其在图11及图12中更清楚地说明。此处例示性地说明5.0+4H扬声器设置。指示收听者100的位置及音频对象104的位置的示例。将扬声器分类成使用不同线类型区分的两个独立层，第二层为虚线且第一层为连续线。

对象通过将对象信号以不同增益24给予至此层中的扬声器而在第一层中振幅平移，例如通过将对象信号给予至M_L及M_Ls以使得对象信号振幅平移至图11中的底层灰色点位置106₁。类似地，对象在第二层中振幅平移至图11中的高度层灰色点位置106₂。如可看出，位置106₁及106₂可被选择为使得其竖直地彼此重叠和/或使得预期位置104与位置106₁及106₂的竖直投影亦重合。

图12说明通过在各层之间应用振幅平移而呈现最终对象方向，即说明竖直平移。考虑位置106₁及106₂处的虚拟对象为虚拟扬声器，通过组件30及40的振幅平移被应用以在预期位置104处在出现于对象的方向上的两个层之间呈现虚拟对象。在各层之间的此振幅平移的结果为两个增益因子32，两个层的信号34及28通过两个增益因子进行加权。

用于(真实)扬声器层之间的水平平移的此加权可另外为频率相依的，以补偿在竖直平移中可在不同仰角处感知到不同频率范围的效应[13]。

现在进一步检测在层或最外层上方或下方的呈现对象，作为相对于上文所阐述的描述的额外信息。

对象可具有并不在如图11及12所论述的两个层之间的方向范围内的方向或位置104。此情况在图13及图14中论述。对象的预期位置104在(实体上存在的)层上方或下方，此处在任何可用层上方，且特别地在以虚线指示的上部层上方。作为一示例，对象具有在5.0+4H设置的顶部扬声器层上方的方向/位置104，设置已用作图11及图12中的示例设置。

在此情况下，水平振幅平移由模块70应用于高度层以在那个层中呈现对象。所呈现对象的所得位置1061被指示为图13中的高度层灰色点位置106₁。

接着，在高度层中的位置106₁与竖直方向/位置106₂(图14中指示为灰色点位置106₂)之间应用平移。所得3D平移的虚拟对象指示为灰色点位置104'。

由于在竖直顶部或底部方向处不存在真实扬声器，因此106₂处的竖直信号由模块58均衡以分别模拟顶部或底部声音的着色(见关于均衡的更多细节的后续解释)。竖直信号接着给予至经指定用于顶部/底部方向的扬声器(即，集合36)。

关于虚拟顶部或底部扬声器102的呈现，可指出以下内容。

一般而言，不同方法可被选择以呈现虚拟竖直顶部或底部扬声器。

一般而言，可选择两种不同方法：

(1)虚拟顶部/底部始终呈现于如由110指示的实际收听位置上方。

(2)虚拟顶部/底部扬声器始终呈现在“最佳收听位置”或(主要)扬声器阵列的中心上方。

作为应用示例，若收听者位置可被追踪，则可有利地选择(1)，而若不可能追踪收听者，则可选择(2)。

简单实施针对被选择用于顶部或底部呈现的每个扬声器使用相同增益，即增益54将被选择为相同。此方案良好地起作用。(其可例如用作最简单实施，且当收听者位置未被追踪且尚未知晓时尤其适用。)

尤其当收听者不居中地位于扬声器设置内时，则以下考虑因素可改良顶部及底部呈现：

●若存在高度层且希望平移至高于高度层，则应用于(高度层)扬声器36的增益因子54可用于顶部方向，使得所得平移方向向量竖直指向上(或替代地朝向虚拟顶部扬声器位置102)，即，以使得102在收听者100正上方。

●当存在底部扬声器层时，对于底部方向亦如此。

●若不存在高度层且希望平移至水平层上方，则将增益应用于扬声器以使得振幅平移向量消失(无水平方向偏置)。较简单言之，可将增益54应用于扬声器，使得收听者处的信号振幅或功率对于每个顶部/底部呈现扬声器是相同的。

●当不存在底部扬声器层时，对于底部方向亦如此。

在下文中，使用其他细节进一步例示均衡器(或频谱成形器)58。使得收听者100能够定位水平平面中的声源的主要线索是左耳输入信号与右耳输入信号之间的差异(耳间时间差(ITD)及耳间声级差(ILD))。用于估计声源的竖直位置的主要线索为归因于由收听者的头部、躯干及耳壳产生的反射的频谱变化。此类线索在以上描述中通常称为单声线索(MC)，称为心理声学线索。

归因于每个个体的独特身体特征及所考虑的入射方向而出现的特定ILD、ITD及MC通常根据术语头部相关传递函数(HRTF)而分组求和。尤其，MC为高度个别的。又，通常存在影响高度感知的一些共同特征。

通过成形从一个方向接收的特定源信号的频率内容，可支持此声音实际上来自同一混淆锥上的不同高度和/或前向定向的错觉。这对应于改变MC，且为均衡器(EQ)58的目的。

使用虚拟顶部扬声器/底部扬声器及这些信号的均衡的概念的简单但效果良好的实施分别使用特定静态EQ用于顶部及底部方向。

图15展示作为示例的两个此类探索式确定的均衡器，或换言之，展示用于虚拟顶部扬声器呈现的成形函数60a及用于虚拟底部扬声器呈现的成形函数60b。这些已经通过分析所测量HRTF数据确定，数据对应于意指收听者上方或下方的来源的线索。考虑许多个体的HRTF，且通过忽略个体之间改变过多的频谱改变来确定EQ。

用于顶部方向的均衡器60a通常具有一个或多个陷波和/或峰值。通常，在1kHz以下存在陷波，且在较高频率下存在一个或多个峰值。用于底部方向的均衡器60b包括“本体遮蔽”的效应，即，总体高频率被衰减。换言之，通过函数60a，第二部分扬声器信号34相对于音频输入信号18在200Hz与1000Hz之间的陷波频谱范围120中被抑制，且在1000与10kHz之间的峰值频谱范围122₁及122₂中的一个或多个(此处例示性地为两个)内被放大。通过函数60b，第二部分扬声器信号34相对于至少一个音频信号在高于1000Hz的频谱范围124中被抑制，其中抑制的减小在频谱范围124内的频谱子范围126内，子范围位于5kHz与10kHz之间。另外，如图15中所描绘，函数60b可导致信号34在500Hz与1kHz之间的频谱范围128内被放大。自然，范围及示例可改变。

到达收听者的声学信号的有效总频谱部分地通过未经EQ的信号(在层内振幅平移)28且部分地通过经EQ的信号(来自虚拟顶部/底部的信号)34确定。因此，有效总体EQ为整体与顶部/底部EQ 60a/60b的线性组合。以此方式，收听者处的EQ在源104朝向顶部位置(或相应地朝向底部位置)移动时衰落。

EQ的量的此连续衰落/改变是特别有益的，这是由于人类听觉系统可使用所接收信号的频谱的那些改变来判断其位置。尤其在追踪情境中，此改变可用于区分特定频谱特征是否为实际信号的特性，或在收听者移动时改变，且其由此可被解释为与源位置相关的特征。

总结而言，使能具有升高或降低高度声音(顶部及底部)的再现的基于对象的音频或多声道音频的再现。经由任意扬声器设置播放输入音频信号(特征为意欲用于在升高或降低的扬声器层上再现的声音)是可能的。此处，“扬声器设置”亦包括如条形音箱、具有内置扬声器的TV、立体声音箱、超薄音响、扬声器阵列、智能扬声器等的装置及拓朴。不需要具有升高或降低的扬声器层。因此，使几乎任何任意扬声器设置(甚至在无升高或降低的扬声器的情况下)中的顶部或底部声音的感知效应成为可能。

实施例在计算上有效，以使得其亦可有利地用于(改变的)收听者位置已知和/或(不断地)由播放系统追踪的情境中。

实施例可用于基于声道的音频、基于对象的音频及基于场景的音频(例如立体混响)输入格式信号。

相较于基于HRTF的呈现方法，应强调，实施例并不旨在在所有可能方向上模拟特定对象位置的详细特定双耳线索(其可能难以在广泛范围内达成)。相反，产生引起在一个特定位置/方向处对收听者上方或下方的声源的感知(即，产生上方或下方的虚拟源)的线索的良好模拟。因此，尝试以极好/有说服力的方式模拟这两个方向(顶部/底部102)的感知。所选择的这两个特定方向的益处为除频谱线索外，两个其他主要空间音频线索(即ITD及ILD)是最小的；理论上，对于完全在收听者上方或下方的声源不发生ITD及ILD，即，对于来自声源的直接声音，水平方向上的粒子速度接近于零。因此，水平地及竖直地平移，可能虚拟地呈现顶部/底部扬声器102的两阶段方法为稳定的，且产生高准确度。

在下文中，我们描述多个扬声器中的扬声器可如何自动地指派给扬声器的集合或层以用于再现虚拟扬声器的一些其他示例选择标准。

○用于选择用于集合/层的扬声器的标准：

■选择每个层，使得优选地围绕收听者的360度平移是可能的。

○用于再现虚拟高度声道的扬声器的选择：

■使用多个扬声器，使得

1)优选地选择已经处于升高位置处的扬声器

2)考虑1)，选择(其他)扬声器以达成围绕收听者的阵列

■选定的扬声器应尽可能良好，使得其可再现虚拟高度声道的信号，使得：在收听者位置处产生的声场在水平方向上具有零或小粒子速度。

■若多个合适的扬声器为可用的，则可使用其中的所有，或选择程序可为如下：

■若可能，选择在收听者周围对称的扬声器(理想地，尽可能(旋转)对称)

■若已经朝向预期虚拟高度源的期望高度位置布置于升高位置处(向上或向下)的扬声器可用，则

●扬声器的仰角应尽可能大，即，始终选择具有最大仰角的扬声器(尽可能竖直)。

○理想情况下，选择尽可能少的扬声器以满足上述准则

○当然，扬声器亦可通过使用者“手动地”选择/指派。

用于(可能自适应)呈现的可能输入参数为：

○从收听者位置至扬声器的角度(方位角及仰角)

■这是在所有扬声器同等地远离且在收听位置处产生类似声级的假设下。

■若其并不同等地远离，则声级和/或延迟可被平衡以在收听者位置处达成相等声级/到达时间。

○在追踪收听者的情境中，除角度以外亦需要至每个扬声器的距离，以使得声级和/或延迟可被调适。

■在追踪情境下的此类声级及延迟调适亦可有益于达成上文所提及的针对虚拟高度信号的再现的“在水平方向上的小粒子速度”准则。

总之，本文中所描述的实施例可以可选地由此处所描述的重要点或方面中的任一个补充。然而，应注意，可个别地或组合地使用此处所描述的重要点及方面，且可将其个别地及组合地引入至本文中所描述的实施例中的任一个中。作为后者的结果，尤其以上描述包括一种用于产生用于多个扬声器14的扬声器信号12以使得扬声器信号12在多个扬声器14处的应用在预期虚拟位置104处呈现至少一个音频对象的装置，装置包括：接口16，被配置为接收表示至少一个音频对象的音频输入信号18；第一平移增益确定器22，被配置为取决于预期虚拟位置而确定多个扬声器中的布置于第一水平层内或形成第一水平层的扬声器的第一集合26的第一平移增益24，第一平移增益24限定第一部分扬声器信号28从至少一个音频输入信号18的导出，第一部分扬声器信号与在将第一部分扬声器信号28应用于扬声器的第一集合26上后在第一虚拟位置106处呈现至少一个音频对象相关联；竖直平移增益确定器30，被配置为取决于预期虚拟位置而确定用于第一部分扬声器信号28与一个或多个第二部分扬声器信号34之间的平移的进一步平移增益32，一个或多个第二部分扬声器信号待应用于相对于第一层集合竖直偏移的一个或多个扬声器的第二集合36，以便布置在第二水平层中或形成第二水平层，且与至少一个音频对象在第二位置102处的呈现相关联，以便在第一虚拟位置106与第二位置102之间平移，其中装置被配置为使用第一平移增益24及进一步平移增益32从音频输入信号18合成扬声器信号12。亦包括第二平移增益确定器52，被配置为取决于预期虚拟位置而确定扬声器的第二集合的第二平移增益54，第二平移增益54限定第二部分扬声器信号34从至少一个音频输入信号的导出，且装置被配置为使用第一平移增益及第二平移增益以及进一步平移增益从音频输入信号18合成扬声器信号12。第一平移增益确定器22及第二平移增益确定器52被配置为选择多个扬声器中的扬声器的第一集合26及第二集合36，以使得第一层集合与第二层集合在多个扬声器分布至的水平层当中具有竖直地居于其间的预期虚拟位置104。应注意，扬声器的第一集合26与扬声器的第二集合36可部分重叠，即，一个扬声器可由集合26及36两者含有。更精确地，多个扬声器可以以对于每一水平层，属于水平层的扬声器水平地(即在水平投影中)环绕收听者位置，或换言之，允许水平地围绕收听者位置的360度平移的方式分布至水平层上，且为了达成此情况，例如至少一对水平层可共享其扬声器中的一个或多个。即，水平层的水平及竖直偏移有时可在一定程度上抽象化，诸如对于至少一对水平层，一个或多个扬声器分别属于水平层中的多于一个。又换言之，尤其以上描述包括一种用于产生用于多个扬声器14的扬声器信号12以使得扬声器信号12在多个扬声器14处的应用在预期虚拟位置104处呈现至少一个音频对象的装置，其中多个扬声器分布至一个或多个水平层上，装置包括：接口16，被配置为接收表示至少一个音频对象的音频输入信号18；第一扬声器信号集合确定器70，被配置为取决于预期虚拟位置而确定多个扬声器中的扬声器的第一集合26的第一平移增益24，且使用第一平移增益24从至少一个音频输入信号18导出第一部分扬声器信号28，第一部分扬声器信号与在将第一部分扬声器信号应用于扬声器的第一集合26后在第一虚拟位置106处呈现至少一个音频对象相关联；第二扬声器信号集合确定器72，被配置为通过频谱成形从至少一个音频输入信号18导出第二部分扬声器信号34，第二部分扬声器信号34与在将第二部分扬声器信号34应用于扬声器的第二集合36上后在第二虚拟位置102处呈现至少一个音频对象相关联，第二虚拟位置在一个或多个水平层上方或下方；及竖直平移增益确定器30，被配置为取决于预期虚拟位置而确定用于第一部分扬声器信号及第二部分扬声器信号的进一步平移增益32，以便在第一虚拟位置与第二虚拟位置之间平移；及合成器40，被配置为使用进一步平移增益32从第一部分扬声器信号及第二部分扬声器信号合成扬声器信号。再次，应注意，扬声器的第一集合26与扬声器的第二集合36可部分重叠，即，一个扬声器可由集合26及36两者含有。更精确地，多个扬声器可以以对于每一水平层，属于水平层的扬声器水平地(即在水平投影中)环绕收听者位置，或换言之，允许水平地围绕收听者位置的360度平移的方式分布至水平层上，且为了达成此情况，例如至少一对水平层可共享其扬声器中的一个或多个。即，水平层的水平及竖直偏移有时可在一定程度上抽象化，诸如对于至少一对水平层，一个或多个扬声器分别属于水平层中的多于一个。上文所描述及在后续权利要求中所提及的所有其他修改亦是可行的，诸如使用频谱成形58以便从至少一个音频信号18导出第二部分扬声器信号34，以便得出第二位置为高于水平层中的最高者或低于水平层中的最低者的虚拟位置102。

尽管已在装置的上下文中描述一些方面，但显而易见，这些方面亦表示对应方法的描述，其中装置或其部分对应于方法步骤或方法步骤的特征。类似地，方法步骤的上下文中所描述的方面亦表示对应装置或装置部分或对应装置的对象或特征的描述。可由(或使用)硬件装置(例如，微处理器、可编程计算机或电子电路)执行方法步骤中的一些或所有。在一些实施例中，可由此装置执行最重要的方法步骤中的一个或多个。

取决于某些实施要求，本发明的实施例可在硬件或软件中实施。实施可使用数字存储介质来进行，数字存储介质例如软性磁盘、DVD、Blu-Ray、CD、ROM、PROM、EPROM、EEPROM或闪存，数字存储介质上存储有电子可读控制信号，电子可读控制信号与可编程计算机系统协作(或能够协作)使得各别方法被进行。因此，数字存储介质可为计算机可读的。

根据本发明的一些实施例包括具有电子可读控制信号的数据载体，控制信号能够与可编程计算机系统协作，使得执行本文中所描述的方法中的一个。

通常，本发明的实施例可实施为具有程序代码的计算机程序产品，当计算机程序产品在计算机上执行时，程序代码操作性地用于执行方法中的一个。程序代码可例如存储于机器可读载体上。

其他实施例包括存储于机器可读载体上的用于执行本文中所描述的方法中的一个的计算机程序。

换言之，因此，本发明方法的实施例为具有当计算机程序运行于计算机上时，用于执行本文中所描述的方法中的一个的程序代码的计算机程序。

因此，本发明方法的另一实施例为数据载体(或数字存储介质，或计算机可读介质)，其包括记录于其上的用于执行本文中所描述的方法中的一个的计算机程序。数据载体、数字存储介质或记录介质通常为有形的和/或非暂时性的。

因此，本发明方法的再一实施例为表示用于执行本文中所描述的方法中的一个的计算机程序的数据流或信号序列。数据流或信号序列可(例如)被配置为经由数据通信连接(例如，经由因特网)而传递。

另一实施例包括处理构件，例如，被配置或被调适以执行本文中所描述的方法中的一个的计算机或可编程逻辑装置。

另一实施例包括其上安装有用于执行本文中所描述的方法中的一个的计算机程序的计算机。

根据本发明的另一实施例包括被配置为将用于执行本文中所描述的方法中的一个的计算机程序传送(例如，用电子方式或光学方式)至接收器的装置或系统。接收器可为例如计算机、移动装置、存储装置等。装置或系统可例如包括用于传送计算机程序至接收器的文件服务器。

在一些实施例中，可编程逻辑装置(例如，现场可编程门阵列)可用以执行本文中所描述的方法的功能性中的一些或所有。在一些实施例中，现场可编程门阵列可与微处理器合作，以便执行本文中所描述的方法中的一个。通常，方法优选地由任一硬件装置执行。

本文中所描述的装置可使用硬件装置或使用计算机或使用硬件装置与计算机的组合来实施。

本文中所描述的装置或本文中所描述的装置的任何组件可至少部分地以硬件和/或以软件来实施。

本文中所描述的方法可使用硬件装置或使用计算机或使用硬件装置与计算机的组合来进行。

本文中所描述的方法或本文中所描述的方法的任何部分可至少部分地由硬件和/或由软件执行。

上述实施例仅说明本发明的原理。应理解，对本文中所描述的配置及细节的修改及变化将对熟习此项技术者显而易见。因此，其仅意欲由接下来的权利要求的范围限制，而非由通过本文中实施例的描述及解释所呈现的特定细节限制。

参考文献

[1]A.B.S and S.M.R.Apparent sound source translator.February 1966.USPatent3,236,949.

[2]Philip ANelson,Hareo Hamada,and Stephen J Elliott.Adaptive inversefilters for stereophonic sound reproduction.IEEE Transactions on SignalProcessing,40(7):1621-1632,1992.

[3]P.A.Nelson and J.F.W.Rose.Errors in two-point soundreproduction.The Journal of the Acoustical Society of America,118(1):193,2005.

[4]Takashi Takeuchi and Philip A.Nelson.Optimal source distributionfor binaural syn-thesis over loudspeakers.The Journal of the AcousticalSociety of America,112(6):2786,2002.

[5]Hironori Tokuno,Ole Kirkeby,Philip ANelson,and HareoHamada.Inverse filter of sound reproduction systems usingregularization.IEICE Transactions on Fundamen-tals of Electronics,Communications and Computer Sciences,80(5):809-820,1997.

[6]Ole Kirkeby,Philip A.Nelson,Hareo Hamada,and Felipe Orduna-Bustamante.Fast deconvolution of multichannel systems usingregularization.IEEE Transactions on Speech and Audio Processing,6(2):189-194,1998.

[7]Edgar Y Choueiri.Optimal crosstalk cancellation for binaural audiowith two loud-speakers.Princeton University,page 28,2008.

[8]B.B.Bauer.Stereophonic earphones and binaural loudspeakers.J.AudioEng.Soc.,9:148-151,1961.

[9]J.Huopaniemi.Virtual Acoustics and 3D Sound in Multimedia SignalProcessing.PhD thesis,Laboratory of Acoustics and Audio Signal Processing,Helsinki University of Technology,Finland,1999.Rep.53.

[10]Hyunkook Lee.Sound source and loudspeaker base angledependency ofphantom image elevation effect.J.Audio Eng.Soc,65(9):733-748,2017.

[11]Hyunkook Lee,Dale Johnson,and Maksims Mironovs.Virtualhemisphericalamplitude panning(vhap):Amethod for 3d panning without elevatedloudspeakers.In AudioEngineering Society Convention 144,May 2018.

[12]Young Woo Lee et al.,“Virtual Height Speaker Rendering forSamsung 10.2-channelVertical Surround System”.In Audio Engineering SocietyConvention 131,October 2011.

[13]Reinhard Gretzki and Andreas Silzle,“Anew method for elevationpanning reducing thesize of the resulting auditory events”,TecniAcustica,Bilbao,2003.

[14]Christian Borβ,"A Polygon-Based Panning Method for 3D LoudspeakerSetups,"AudioEngineering Society Convention 137,Oct,2014.

[15]MPEG-H Standard,ISO/IEC 23008-3:2015(E).

Claims

1.一种用于产生用于多个扬声器(14)的扬声器信号(12)以使得扬声器信号(12)在多个扬声器(14)处的应用在预期虚拟位置(104)处呈现至少一个音频对象的装置，所述装置包括：

接口(16)，被配置为接收表示至少一个音频对象的音频输入信号(18)，

第一平移增益确定器(22)，被配置为取决于预期虚拟位置而确定多个扬声器中的布置于一个或多个第一水平层的第一层集合内的扬声器的第一集合(26)的第一平移增益(24)，第一平移增益(24)限定第一部分扬声器信号(28)从至少一个音频输入信号(18)的导出，第一部分扬声器信号与在将第一部分扬声器信号(28)应用于扬声器的第一集合(26)上后在第一虚拟位置(106)处呈现至少一个音频对象相关联，

竖直平移增益确定器(30)，被配置为取决于预期虚拟位置而确定第一部分扬声器信号(28)与一个或多个第二部分扬声器信号(34)之间的平移的进一步平移增益(32)，一个或多个第二部分扬声器信号待应用于相对于第一层集合竖直偏移的一个或多个扬声器的第二集合(36)，且与至少一个音频对象在第二位置(102)处的呈现相关联以便在第一虚拟位置(106)与第二位置(102)之间平移，

其中装置被配置为使用第一平移增益(24)及进一步平移增益(32)从音频输入信号(18)合成扬声器信号(12)。

2.如权利要求1所述的装置，其中一个或多个扬声器的第二集合(36)包括多于一个扬声器，一个或多个第二部分扬声器信号(34)包括多于一个第二部分扬声器信号，且装置进一步包括：

第二平移增益确定器(52)，被配置为取决于预期虚拟位置而确定扬声器的第二集合的第二平移增益(54)，第二平移增益(54)限定第二部分扬声器信号(34)从至少一个音频输入信号的导出，且

其中装置被配置为使用第一平移增益及第二平移增益以及进一步平移增益从音频输入信号(18)合成扬声器信号(12)。

3.如权利要求2所述的装置，

其中扬声器的第二集合(36)在一个或多个水平层的第二层集合内，且第一层集合与第二层集合彼此竖直偏移。

4.如权利要求2至3中任一项所述的装置，

其中扬声器的第二集合(36)在一个或多个水平层的第二层集合内，且第一层集合与第二层集合彼此竖直偏移，其中预期虚拟位置(104)竖直地居于其间。

5.如权利要求2至4中任一项所述的装置，

其中扬声器的第二集合(36)在一个或多个水平层的第二层集内，且第一平移增益确定器(22)及第二平移增益确定器(52)被配置为选择多个扬声器中的扬声器的第一集合(26)及第二集合(36)以使得第一层集合与第二层集合在多个扬声器分布至的水平层中竖直地最接近于预期虚拟位置(104)且彼此竖直偏移，其中预期虚拟位置(104)竖直地居于其间。

6.如权利要求2至5中任一项所述的装置，其中第一平移增益确定器(22)及第二平移增益确定器(52)被配置为导出第一平移增益(24)及第二平移增益(54)，以使得第一虚拟位置(1061)与第二位置(1062)在竖直投影中重合。

7.如权利要求2或3所述的装置，其中装置被配置为：

通过频谱成形(58)从至少一个音频信号(18)导出第二部分扬声器信号(34)，使得第二位置为在第二层集合上方或下方的虚拟位置(102)。

8.如权利要求7所述的装置，其中

频谱成形(58)沿着从第二位置(102)的感知方向模拟头部相关传递函数HRTF的特性。

9.如权利要求7至8中任一项所述的装置，被配置为

使得第二位置竖直地在第二层集合上方，且执行频谱成形(58)，以使得第二部分扬声器信号(34)相对于至少一个音频输入信号在200Hz与1000Hz之间的陷波频谱范围(120)中被抑制，且在1000与10kHz之间的峰值频谱范围(122₁，122₂)中的一个或多个内被放大，或

使得第二位置竖直地在第二层集合下方，且执行频谱成形，以使得第二部分扬声器信号(34)相对于至少一个音频信号在高于1000Hz的频谱范围中被抑制。

10.如权利要求7至9中任一项所述的装置，被配置为

使得第二位置竖直地在第二层集合下方，且执行频谱成形，以使得第二部分扬声器信号(34)相对于至少一个音频信号在高于1000Hz的频谱范围(124)中被抑制，其中抑制的中间减小在频谱范围内的位于5kHz与10kHz之间的频谱子范围(126)内，且在500Hz与1kHz之间被放大(128)。

11.如权利要求7至10中任一项所述的装置，被配置为

若预期虚拟位置(104)竖直地在第二层集合上方，则将第二位置定位为竖直地在第二层集合上方，且执行频谱成形，以使得第二部分扬声器信号相对于至少一个音频输入信号在200Hz与1000Hz之间的陷波频谱范围中被抑制，且在1000与10kHz之间的峰值频谱范围中的一个或多个内被放大，且

若预期虚拟位置竖直地在第二层集合下方，则将第二位置定位为竖直地在第二层集合下方，执行频谱成形，以使得第二部分扬声器信号相对于至少一个音频信号在高于1000Hz的频谱范围中被抑制。

12.如权利要求7至11中任一项所述的装置，

其中多个扬声器(14)形成其中扬声器与水平层相关联的设置，且装置被配置为响应于预期虚拟位置的改变，以便

若预期虚拟位置在两个水平层之间，则

选择第一层集合为两个水平层中的第一个且选择第二层集合为两个水平层中的第二个，且从与第一水平层相关联的扬声器中选择第一集合(26)且从与第二水平层相关联的扬声器中选择第二集合(36)，其中第一平移增益确定器(22)及第二平移增益确定器(52)

被配置为取决于预期虚拟位置而确定第一平移增益及第二平移增益，且频谱成形(58)被断开，以使得第一虚拟位置在第一水平层内，且第二虚拟位置在第二水平层内，且

若预期虚拟位置朝向水平层上方或下方而竖直地偏移至所有水平层，则

选择第一层集合及第二层集合为水平层中最接近于预期虚拟位置的最外层，且从与最外层相关联的扬声器中选择第一集合(26)及第二集合(36)，其中第一平移增益确定器(22)被配置为取决于预期虚拟位置而确定第一平移增益，且使用频谱成形(58)，以使得第二位置为相对于最外层朝向预期虚拟位置(104)所处于的方向竖直地偏移的虚拟位置(102)。

13.如权利要求12所述的装置，

其中装置被配置为响应于预期虚拟位置的改变，以便

若预期虚拟位置在两个水平层之间，则

第一平移增益确定器(22)及第二平移增益确定器(52)被配置为取决于预期虚拟位置而确定第一平移增益及第二平移增益，以使得第一虚拟位置(106₁)与第二位置(106₂)在竖直投影中重合，且频谱成形(58)被断开，和/或

第一平移增益确定器(22)被配置为取决于预期虚拟位置而确定第一平移增益，以使得第一虚拟位置(106)在竖直投影中与预期虚拟位置重合。

14.如权利要求7至13中任一项所述的装置，

其中多个扬声器(14)形成其中扬声器与一个或多个水平层相关联的设置，且装置被配置为响应于一个或多个水平层的数目及预期虚拟位置的改变，以便

若一个或多个水平层的数目大于一，则

若预期虚拟位置在两个水平层之间，则

选择第一层集合为两个水平层中的第一个且选择第二层集合为两个水平层中的第二个，且从与第一水平层相关联的扬声器中选择第一集合(26)且从与第二水平层相关联的扬声器中选择第二集合(36)，其中第一平移增益确定器(22)及第二平移增益确定器(52)被配置为取决于预期虚拟位置而确定第一平移增益及第二平移增益，且频谱成形(58)被断开，以使得第一虚拟位置在第一水平层内，且第二虚拟位置在第二水平层内，且

选择第一层集合及第二层集合为水平层中最接近于预期虚拟位置的最外层，且

从与最外层相关联的扬声器中选择第一集合(26)及第二集合(36)，其中第一平移增益确定器(22)被配置为取决于预期虚拟位置确定第一平移增益，且使用频谱成形(58)，以使得第二位置为相对于最外层朝向预期虚拟位置(104)所处于的方向竖直地偏移的虚拟位置(102)，且

若一个或多个水平层的数目为一，则

若预期虚拟位置在所述一个水平层内，

单纯地从第一部分扬声器信号合成扬声器信号(12)，且

若预期虚拟位置竖直地偏移至所述一个水平层，

选择第一层集合及第二层集合为所述一个水平层，且从与所述一个水平层相关联的扬声器中选择第一集合(26)及第二集合(36)，其中第一平移增益确定器(22)被配置为取决于预期虚拟位置而确定第一平移增益，且使用频谱成形(58)，以使得第二位置为相对于所述一个水平层朝向预期虚拟位置(104)所处于的方向竖直地偏移的虚拟位置(102)。

15.如权利要求14所述的装置，

其中装置被配置为响应于一个或多个水平层的数目及预期虚拟位置的改变，以便

若一个或多个水平层的数目大于一，则

若预期虚拟位置在两个水平层之间，则

第一平移增益确定器(22)及第二平移增益确定器(52)被配置为取决于预期虚拟位置而确定第一平移增益及第二平移增益，以使得第一虚拟位置(106₁)与第二位置(106₂)在竖直投影中重合，和/或

第一平移增益确定器(22)被配置为取决于预期虚拟位置而确定第一平移增益，

以使得第一虚拟位置(106)在竖直投影中与预期虚拟位置重合，和/或

若一个或多个水平层的数目为一，则

若预期虚拟位置竖直地偏移至所述一个水平层，

以使得第一虚拟位置(106)在竖直投影中与预期虚拟位置重合。

16.如权利要求1至15中任一项所述的装置，

其中扬声器的第一集合(26)包括在一个或多个扬声器的第二集合(36)中，和/或

其中一个或多个扬声器的第二集合(36)包括在扬声器的第一集合(26)中，和/或

其中扬声器的第一集合(26)与一个或多个扬声器的第二集合(36)重合，和/或

其中扬声器的第一集合(26)与一个或多个扬声器的第二集合(36)部分地重叠，和/或

其中扬声器的第一集合(26)与一个或多个扬声器的第二集合(36)为不相交集合。

17.如权利要求1至16中任一项所述的装置，

被配置为取决于预期虚拟位置的水平分量或取决于预期虚拟位置的水平分量及预期虚拟位置的竖直分量而从多个扬声器中选择扬声器的第一集合(26)，和/或

被配置为取决于预期虚拟位置的竖直分量或取决于预期虚拟位置的水平分量及预期虚拟位置的竖直分量而从多个扬声器中选择一个或多个扬声器的第二集合(36)。

18.如权利要求1至17中任一项所述的装置，其中一个或多个扬声器的第二集合包括在第二位置处或水平环绕第二位置且水平地布置在扬声器的第一集合之间的一个或多个扬声器。

19.如权利要求1至18中任一项所述的装置，

其中第一平移增益确定器(22)和/或第二平移增益确定器(52)被配置为进一步取决于收听者位置而确定第一平移增益(24)和/或第二平移增益(54)。

20.如任何先前权利要求所述的装置，

其中多个扬声器指一个或多个扬声器阵列、一个或多个条形音箱、一个或多个智能扬声器、一个或多个立体声扬声器、一个或多个环绕声设置或个别扬声器的一个或多个集合中的任一个或组合。

21.如任何先前权利要求所述的装置，

其中音频输入信号为基于声道的音频信号、基于对象的音频信号和/或基于场景的音频信号中的一个。

22.如任何先前权利要求所述的装置，

被配置为从音频输入信号导出预期虚拟位置。

23.如任何先前权利要求所述的装置，

其中平移增益为振幅平移增益。

24.如权利要求1至23中任一项所述的装置，

其中音频输入信号为限定用于信号特定扬声器位置中的每个的音频信号的基于声道的音频信号，

其中装置被配置为将用于信号特定扬声器位置的音频信号中的一个或多个(或全部)的选择中的每一个处理为至少一个音频对象中的一个。

25.如权利要求24所述的装置，被配置为从相应音频信号的扬声器位置导出一个音频对象的预期虚拟位置。

26.如权利要求25所述的装置，被配置为其中一个音频对象的预期虚拟位置以使得维持信号特定扬声器位置之间的相互位置关系的方式从相应音频信号的扬声器位置导出。

27.如权利要求1至26中任一项所述的装置，

其中音频输入信号为限定一个或多个可呈现音频对象的基于对象的音频信号，

其中装置被配置为将一个或多个可呈现音频对象中的一个或多个(或全部)的选择用作至少一个音频对象中的一个。

28.如权利要求1至27中任一项所述的装置，

被配置为接收关于多个扬声器在扬声器位置方面的改变的信息且在扬声器信号的后续产生中考虑到改变，和/或

被配置为接收关于多个扬声器在扬声器的数目方面的改变的信息且在扬声器信号的后续产生中考虑到改变。

29.一种用于产生用于多个扬声器(14)的扬声器信号(12)以使得扬声器信号(12)在多个扬声器(14)处的应用在预期虚拟位置(104)处呈现至少一个音频对象的装置，其中多个扬声器分布至一个或多个水平层上，装置包括：

第一扬声器信号集合确定器(70)，被配置为取决于预期虚拟位置而确定多个扬声器中的扬声器的第一集合(26)的第一平移增益(24)，且使用第一平移增益(24)来从至少一个音频输入信号(18)导出第一部分扬声器信号(28)，第一部分扬声器信号与在将第一部分扬声器信号应用于扬声器的第一集合(26)后在第一虚拟位置(106)处呈现至少一个音频对象相关联，

第二扬声器信号集合确定器(72)，被配置为通过频谱成形从至少一个音频输入信号(18)导出第二部分扬声器信号(34)，第二部分扬声器信号(34)与在将第二部分扬声器信号(34)应用于扬声器的第二集合(36)后在第二虚拟位置(102)处呈现至少一个音频对象相关联，第二虚拟位置在一个或多个水平层上方或下方，以及

竖直平移增益确定器(30)，被配置为取决于预期虚拟位置而确定第一部分扬声器信号及第二部分扬声器信号的进一步平移增益(32)，以便在第一虚拟位置与第二虚拟位置之间平移，以及

合成器(40)，被配置为使用进一步平移增益(32)从第一部分扬声器信号及第二部分扬声器信号合成扬声器信号。

30.如权利要求29所述的装置，

其中扬声器的第一集合在一个或多个水平层内，其在一个或多个水平层中竖直地最接近于预期虚拟位置。

31.如权利要求29或30所述的装置，

其中第一扬声器信号集合确定器(70)被配置为选择多个扬声器中的扬声器的第一集合(26)，以使得扬声器的第一集合在一个或多个水平层内，其在一个或多个水平层中竖直地最接近于预期虚拟位置。

32.如权利要求29或30所述的装置，

其中第一扬声器信号集合确定器(70)被配置为使得扬声器的第一集合在一个水平层内，且进一步取决于扬声器的第一集合在一个水平层内的位置而确定第一平移增益。

33.如权利要求29至32中任一项所述的装置，

其中第一扬声器信号集合确定器(70)被配置为使得第一平移增益实施纯振幅平移，使得第一虚拟位置在第一扬声器的集合的位置之间。

34.如权利要求29至33中任一项所述的装置，

其中第一扬声器信号集合确定器(70)被配置为进一步取决于收听者位置而确定第一平移增益。

35.如权利要求29至34中任一项所述的装置，

其中第二扬声器信号集合确定器(72)被配置为使得频谱成形沿着从第二虚拟位置的感知方向模拟头部相关传递函数HRTF的特性。

36.如权利要求29至35中任一项的装置，

其中第二扬声器信号集合确定器(72)被配置为从至少一个音频信号导出第二部分扬声器信号，

以使得第二部分扬声器信号通过以下而从至少一个音频信号产生：

使用对于所有第二部分扬声器信号相等的振幅增益因子，或

通过使用对应于扬声器的第二集合之间的水平中心位置或最佳收听位置的平移增益的平移，或

通过对应于沿着竖直投影与收听者位置重合的水平位置的平移增益。

37.如权利要求29至36中任一项所述的装置，

其中扬声器的第一集合包括在扬声器的第二集合中，和/或

其中扬声器的第二集合(36)包括在扬声器的第一集合(26)中，和/或

其中扬声器的第一集合与扬声器的第二集合重合，和/或

其中扬声器的第一集合(26)与扬声器的第二集合(36)部分地重叠，和/或

其中扬声器的第一集合与扬声器的第二集合是互斥的。

38.如权利要求29至37中任一项所述的装置，

被配置为取决于预期虚拟位置的竖直分量或取决于预期虚拟位置的水平分量及预期虚拟位置的竖直分量而从多个扬声器中选择扬声器的第二集合(36)。

39.如权利要求29至38中任一项所述的装置，

其中第二扬声器信号集合确定器(72)被配置为使得第二虚拟位置竖直地在一个或多个水平层上方，且执行频谱成形，以使得第二部分扬声器信号相对于至少一个音频输入信号在200Hz与1000Hz之间的陷波频谱范围中被抑制，且在1000与10kHz之间的峰值频谱范围中的一个或多个内被放大，或

其中第二扬声器信号集合确定器(72)被配置为使得第二虚拟位置竖直地在一个或多个水平层下方，执行频谱成形，以使得第二部分扬声器信号相对于至少一个音频信号在高于1000Hz的频谱范围中被抑制。

40.如权利要求29至39中任一项所述的装置，

其中第二扬声器信号集合确定器(72)被配置为使得第二虚拟位置竖直地在一个或多个水平层下方，且执行频谱成形，以使得第二部分扬声器信号相对于至少一个音频信号在高于1000Hz的频谱范围中被抑制，其中抑制的中间减小在频谱范围内的位于5kHz与10kHz之间的频谱子范围内，且在500Hz与1kHz之间被放大。

41.如权利要求29至40中任一项所述的装置，

其中第二扬声器信号集合确定器(72)被配置为，

若预期虚拟位置竖直地在一个或多个水平层上方，则将第二虚拟位置定位为竖直地在一个或多个水平层上方，执行频谱成形，以使得第二部分扬声器信号相对于至少一个音频输入信号在200Hz与1000Hz之间的陷波频谱范围中被抑制，且在1000与10kHz之间的峰值频谱范围中的一个或多个内被放大，且

若预期虚拟位置竖直地在一个或多个水平层下方，则将第二虚拟位置定位为竖直地在一个或多个水平层下方，执行频谱成形，以使得第二部分扬声器信号相对于至少一个音频信号在高于1000Hz的频谱范围中被抑制。

42.如权利要求29至41中任一项所述的装置，

其中合成器被配置为通过以下操作响应于预期虚拟位置从竖直地在一个或多个层内或其间的层内位置至从一个或多个水平层竖直地偏移的位置的改变：

控制进一步平移增益以便从单纯地从第一部分扬声器信号合成扬声器信号渐变为从第一部分扬声器信号及第二部分扬声器信号合成扬声器信号，以使得进一步平移增益从第一虚拟位置朝向第二虚拟位置平移。

43.一种系统，包括：

多个扬声器，及

根据先前权利要求中任一项所述的装置。

44.一种用于产生用于多个扬声器(14)的扬声器信号(12)以使得扬声器信号(12)在多个扬声器处(14)的应用在预期虚拟位置(104)处呈现至少一个音频对象的方法，方法包括：

接收表示至少一个音频对象的音频输入信号(18)，

取决于预期虚拟位置而确定多个扬声器中的布置于一个或多个第一水平层的第一层集合内的扬声器的第一集合(26)的第一平移增益(24)，第一平移增益(24)限定第一部分扬声器信号(28)从至少一个音频输入信号(18)的导出，第一部分扬声器信号与在将第一部分扬声器信号(28)应用于扬声器的第一集合(26)后在第一虚拟位置(106)处呈现至少一个音频对象相关联，

取决于预期虚拟位置而确定用于第一部分扬声器信号(28)与一个或多个第二部分扬声器信号(34)之间的平移的进一步平移增益(32)，一个或多个第二部分扬声器信号待应用于相对于第一层集合竖直偏移的一个或多个扬声器的第二集合(36)，且与至少一个音频对象在第二位置(102)处的呈现相关联以便在第一虚拟位置(106)与第二位置(102)之间平移，

使用第一平移增益(24)及进一步平移增益(32)从音频输入信号(18)合成扬声器信号(12)。

45.一种用于产生用于多个扬声器(14)的扬声器信号(12)以使得扬声器信号(12)在多个扬声器(14)处的应用在预期虚拟位置(104)处呈现至少一个音频对象的方法，其中多个扬声器分布至一个或多个水平层上，方法包括：

接收表示至少一个音频对象的音频输入信号(18)，

取决于预期虚拟位置而确定用于多个扬声器中的扬声器的第一集合(26)的第一平移增益(24)，且使用第一平移增益(24)从至少一个音频输入信号(18)导出第一部分扬声器信号(28)，第一部分扬声器信号与在将第一部分扬声器信号应用于扬声器的第一集合(26)后在第一虚拟位置(106)处呈现至少一个音频对象相关联，

通过频谱成形，从至少一个音频输入信号(18)导出第二部分扬声器信号(34)，第二部分扬声器信号(34)与在将第二部分扬声器信号(34)应用于扬声器的第二集合(36)后在第二虚拟位置(102)处呈现至少一个音频对象相关联，第二虚拟位置在一个或多个水平层上方或下方，以及

取决于预期虚拟位置，确定第一部分扬声器信号及第二部分扬声器信号的进一步平移增益(32)，以便在第一虚拟位置与第二虚拟位置之间平移，以及

使用进一步平移增益(32)从第一部分扬声器信号及第二部分扬声器信号合成扬声器信号。

46.一种其上存储有计算机程序的计算机可读数字存储介质，计算机程序具有程序代码，程序代码当在计算机上执行时执行如权利要求44或45所述的方法。