CN113767650B

CN113767650B - 使用多种类型的渲染器渲染音频对象

Info

Publication number: CN113767650B
Application number: CN202080032250.7A
Authority: CN
Inventors: F·G·热尔曼; A·J·西斐德
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2019-05-03
Filing date: 2020-05-01
Publication date: 2023-07-28
Anticipated expiration: 2040-05-01
Also published as: EP4236378A3; EP3963906A1; CN113767650A; EP3963906B1; JP7157885B2; US11943600B2; EP4236378A2; JP2022173590A; JP2022530505A; JP7443453B2; WO2020227140A1; US20220286800A1

Abstract

一种使用多种类型的渲染器渲染音频对象的装置和方法。所选渲染器之间的权重取决于每个音频对象中的位置信息。由于每种类型的渲染器具有不同的输出覆盖范围，它们的加权输出的组合使得音频根据位置信息在该位置处被感知。

Description

使用多种类型的渲染器渲染音频对象

背景技术

本发明涉及音频处理，并且特别地涉及使用多种类型的渲染器处理音频对象。

除非在此另有说明，本节中描述的方法不是本申请中权利要求的现有技术，并且不能因其包含在本节中而被认为是现有技术。

音频信号通常可以分为两种类型：基于通道的音频和基于对象的音频。

在基于通道的音频中，音频信号包括多个通道信号，每个通道信号对应于扬声器。示例性的基于通道的音频信号包括立体声音频、5.1通道环绕音频、7.1通道环绕音频等。立体声音频包括两个通道，用于左扬声器的左通道和用于右扬声器的右通道。5.1通道环绕音频包括六个通道：前左通道、前右通道、中间通道、左环绕通道、右环绕通道和低频效果通道。7.1通道环绕音频包括八个通道：左前通道、右前通道、中间通道、左环绕通道、右环绕通道、左后通道、右后通道和低频效果通道。

在基于对象的音频中，音频信号包括音频对象，并且每个音频对象包括关于该音频对象的音频将被输出到哪里的位置信息。因此，该位置信息可能与扬声器的配置无关。渲染系统然后使用位置信息渲染音频对象以生成用于扬声器的特定配置的特定信号。基于对象的音频示例包括Atmos^TM音频、DTS:X^TM音频等。

基于通道的系统和基于对象的系统二者都可以包括从通道信号或对象信号生成扬声器信号的渲染器。渲染器可以分为多种类型，包括波场渲染器、波束成形器、平移器(panner)、双耳渲染器等。

发明内容

尽管许多现有系统组合了多个渲染器，但这些现有系统没有认识到渲染器的选择可以基于声音的期望感知位置来进行。在许多收听环境中，可以通过在选择渲染器时考虑声音的期望感知位置来改善收听体验。因此，需要一种系统，该系统在选择渲染器时以及在要在所选渲染器之间分配使用的权重时考虑声音的期望感知位置。

鉴于上述问题和解决方案的缺乏，这里描述的实施例针对使用音频对象的期望感知位置来控制(可选地，具有单个类别或不同类别的)两个或多个渲染器。

根据实施例，一种音频处理方法包括接收一个或多个音频对象，其中一个或多个音频对象中的每一个分别包括位置信息。该方法还包括，对于一个或多个音频对象中的给定音频对象，基于给定音频对象的位置信息选择多个渲染器中的至少两个渲染器，例如至少两个渲染器具有至少两种类别；基于给定音频对象的位置信息，确定至少两个权重；基于位置信息，使用根据至少两个权重加权的至少两个渲染器渲染给定音频对象，以生成多个渲染信号；以及组合多个渲染信号以生成多个扬声器信号。该方法还包括从多个扬声器输出多个扬声器信号。

至少两个类别可以包括声场渲染器、波束成形器、平移器和双耳渲染器。

多个渲染信号中的给定渲染信号可以包括至少一个分量信号，其中至少一个分量信号中的每一个与多个扬声器中的相应一个相关联，并且其中对于多个扬声器中的给定扬声器而言，多个扬声器信号的给定扬声器信号对应于组合至少一个分量信号中与给定扬声器相关联的全部分量信号。

第一渲染器可以生成第一渲染信号，其中第一渲染信号包括与第一扬声器相关联的第一分量信号和与第二扬声器相关联的第二分量信号。第二渲染器可以生成第二渲染信号，其中第二渲染信号包括与第一扬声器相关联的第三分量信号和与第二扬声器相关联的第四分量信号。与第一扬声器相关联的第一扬声器信号可以对应于组合第一分量信号和第三分量信号。与第二扬声器相关联的第二扬声器信号可以对应于组合第二分量信号和第四分量信号。

渲染给定音频对象可以包括，对于多个渲染器中的给定渲染器，应用基于位置信息的增益以生成多个渲染信号中的给定渲染信号。

多个扬声器可以包括扬声器的密集线性阵列。

至少两个类别可以包括声场渲染器，其中声场渲染器执行波场合成过程。

多个扬声器可以布置在指向第一方向的第一组和指向与第一方向不同的第二方向的第二组中。第一方向可包括前向分量，并且第二方向可包括垂直分量。第二方向可以包括垂直分量，其中至少两个渲染器包括波场合成渲染器和向上发射平移渲染器，并且其中波场合成渲染器和向上发射平移渲染器为第二组生成多个渲染信号。第二方向可以包括垂直分量，其中至少两个渲染器包括波场合成渲染器、向上发射(firing)平移渲染器和波束成形器，并且其中波场合成渲染器、向上发射平移渲染器和波束成形器为第二组生成多个渲染信号。第二方向可以包括垂直分量，其中至少两个渲染器包括波场合成渲染器、向上发射平移渲染器和侧向发射平移渲染器，并且其中波场合成渲染器、向上发射平移渲染器和侧向发射平移渲染器为第二组生成多个渲染信号。第一方向可以包括前向分量并且第二方向可以包括侧向分量。第一方向可以包括前向分量，其中至少两个渲染器包括波场合成渲染器，并且其中波场合成渲染器为第一组生成多个渲染信号。第二方向可以包括侧向分量，其中至少两个渲染器包括波场合成渲染器和波束成形器，并且其中波场合成渲染器和波束成形器为第二组生成多个渲染信号。第二方向可以包括侧向分量，其中至少两个渲染器包括波场合成渲染器和侧向发射平移渲染器，并且其中波场合成渲染器和侧向发射平移渲染器为第二组生成多个渲染信号。

该方法还可以包括组合一个或多个音频对象的多个渲染信号以生成多个扬声器信号。

至少两个渲染器可以包括串联的渲染器。

至少两个渲染器可以包括幅度平移器、多个双耳渲染器和多个波束成形器。幅度平移器可以被配置为：基于位置信息，渲染给定音频对象以生成第一多个信号。多个双耳渲染器可以被配置为渲染第一多个信号以生成第二多个信号。多个波束成形器可以被配置为渲染第二多个信号以生成第三多个信号。可以组合第三多个信号以生成多个扬声器信号。

根据另一实施例，一种非暂态计算机可读介质存储计算机程序，该计算机程序在由处理器执行时控制装置以执行包括本文讨论的一个或多个方法步骤的处理过程。

根据另一实施例，一种用于处理音频的装置包括多个扬声器、处理器和存储器。处理器被配置为控制装置以接收一个或多个音频对象，其中一个或多个音频对象中的每一个分别包括位置信息。对于一个或多个音频对象中的给定音频对象，处理器被配置为控制装置以基于给定音频对象的位置信息选择多个渲染器中的至少两个渲染器，其中至少两个渲染器渲染器具有至少两个类别；处理器被配置为控制装置以基于给定音频对象的位置信息确定至少两个权重。处理器被配置为控制装置以基于位置信息使用根据至少两个权重加权的至少两个渲染器渲染给定音频对象，以生成多个渲染信号。处理器被配置为控制装置以组合多个渲染信号以生成多个扬声器信号。处理器被配置为控制装置以从多个扬声器输出多个扬声器信号。

该装置可包括与本文描述的方法相似的更多细节。

根据另一实施例，一种音频处理方法包括接收一个或多个音频对象，其中一个或多个音频对象中的每一个分别包括位置信息。对于一个或多个音频对象中的给定音频对象，该方法还包括基于位置信息使用第一类别的渲染器渲染给定音频对象以生成第一多个信号；使用第二类别的渲染器渲染第一多个信号以生成第二多个信号；使用第三类别的渲染器渲染第二多个信号以生成第三多个信号；以及组合第三多个信号以生成多个扬声器信号。该方法还包括从多个扬声器输出多个扬声器信号。

第一类别的渲染器可以对应于幅度平移器，第二类别的渲染器可以对应于多个双耳渲染器，第三类别的渲染器可以对应于多个波束成形器。

该方法可以包括与关于本文讨论的其他方法所描述类似的更多细节。

根据另一实施例，一种用于处理音频的装置包括多个扬声器、处理器和存储器。处理器被配置为控制装置以接收一个或多个音频对象，其中一个或多个音频对象中的每一个分别包括位置信息。对于一个或多个音频对象中的给定音频对象，处理器被配置为控制装置以基于位置信息使用第一类别的渲染器渲染给定音频对象以生成第一多个信号；处理器被配置为控制装置以使用第二类别的渲染器渲染第一多个信号以生成第二多个信号；处理器被配置为控制装置以使用第三类别的渲染器渲染第二多个信号以生成第三多个信号；处理器被配置为控制装置以组合第三多个信号以生成多个扬声器信号。处理器被配置为控制装置从多个扬声器输出多个扬声器信号。

该装置可包括与本文所描述的方法类似的更多细节。

以下的具体实施方式和附图提供了对各种实施方式的性质和优点的进一步理解。

附图说明

图1是渲染系统100的框图。

图2是音频处理的方法200的流程图。

图3是渲染系统300的框图。

图4是扬声器系统400的框图。

图5A和5B分别是条形音箱500的俯视图和侧视图。

图6A、6B和6C分别是示出条形音箱500(见图5A和5B)在房间中的输出覆盖范围的第一俯视图、第二俯视图和侧视图。

图7是渲染系统700的框图。

图8A和8B分别是示出条形音箱500(见图5A)的源分布的示例的俯视图和侧视图。

图9A和9B是示出基于对象的音频(图9A)到扬声器阵列(图9B)的映射的俯视图。

图10是渲染系统1100的框图。

图11是示出在房间中的条形音箱500(见图5A和5B)中实施的波束成形器1120e和1120f的输出覆盖范围的俯视图。

图12是条形音箱1200的俯视图。

图13是渲染系统1300的框图。

图14是渲染器1400的框图。

图15是渲染器1500的框图。

图16是渲染系统1600的框图。

图17是音频处理的方法1700的流程图。

具体实施方式

这里描述的是用于音频渲染的技术。在以下描述中，为了解释的目的，阐述了许多示例和具体细节以提供对本发明的透彻理解。然而，对于本领域技术人员来说显而易见的是，如权利要求所限定的本发明可以单独或与以下描述的其他特征组合包括这些示例中的部分或全部特征，并且还可以包括修改和这里描述的特征和概念的等同物。

在以下描述中，详细描述了各种方法、过程和步骤。虽然可以按照一定的顺序描述特定的步骤，但是这样的顺序主要是为了方便和清楚。特定步骤可以重复多次，可以在其他步骤之前或之后发生(即使这些步骤以其他顺序另外描述)，并且可以与其他步骤并行发生。仅当第一步必须在第二步开始之前完成时，才需要在第一步之后进行第二步。这种情况在上下文不清楚时会特别指出。

在本文件中，使用了术语“和”、“或”和“和/或”。此类术语应被理解为具有包含性的含义。例如，“A和B”可以至少表示以下内容：“A和B两者”、“至少A和B”。作为另一个例子，“A或B”可以至少意味着以下：“至少A”、“至少B”、“A和B两者”、“至少A和B”。作为另一个例子，“A和/或B”可以至少意味着以下：“A和B”、“A或B”。当打算使用异或时，将特别注明(例如，“A或B”、“至多A和B之一”)。

图1是渲染系统100的框图。渲染系统100包括分配模块110、多个渲染器120(示出三个：120a、120b和120c)和路由模块130。渲染器120被分类为多个不同的类别，将在下面更详细地讨论。渲染系统100接收音频信号150，渲染音频信号150，并生成多个扬声器信号170。每个扬声器信号170驱动扬声器(未示出)。

音频信号150是对象音频信号并且包括一个或多个音频对象。每个音频对象包括对象元数据152和对象音频数据154。对象元数据152包括音频对象的位置信息。位置信息对应于音频对象的对象音频数据154的期望感知位置。对象音频数据154对应于要由渲染系统100渲染并由扬声器(未示出)输出的音频数据。音频信号150可以是多种格式中的一种或多种，包括Atmos^TM格式、环绕立体声(Ambisonics)格式(例如，B格式)、来自XperiCorp.的DTS:X^TM格式等。为简洁起见，为了描述渲染系统100的操作，以下涉及单个音频对象，但可以理解，例如可以通过实例化一个或多个渲染器120的多个实例同时处理多个音频对象。例如，/>Atmos^TM系统的实施可以在音频信号150中再现多达128个同时的音频对象。

分配模块110从音频信号150接收对象元数据152。分配模块110还接收扬声器配置信息156。扬声器配置信息156总体指示连接到渲染系统100的扬声器的配置，例如扬声器的编号、配置或物理位置。当扬声器位置固定时(例如，作为物理附接到包括渲染系统100的设备的组件)，扬声器配置信息156可以是静态的，并且当扬声器位置可以被调整时，扬声器配置信息156可以是动态的。动态信息可以根据需要(例如当扬声器被移动时)更新。扬声器配置信息156可以存储在存储器(未示出)中。

基于对象元数据152和扬声器配置信息156，分配模块110确定选择信息162和位置信息164。给定根据扬声器配置信息156的扬声器的布置，选择信息162选择适合于渲染对象元数据152中的给定位置信息的音频对象的两个或多个渲染器120。位置信息164对应于每个选择的渲染器120要渲染的源位置。通常，位置信息164可以被认为是在所选的渲染器120之间对对象音频数据154进行加权的加权函数。

渲染器120接收对象音频数据154、扬声器配置信息156、选择信息162和位置信息164。渲染器120使用扬声器配置信息156来配置渲染器的输出。选择信息162选择两个或更多个渲染器120来渲染对象音频数据154。基于位置信息164，每个所选的渲染器120渲染对象音频数据154以生成渲染信号166。(例如，渲染器120a生成渲染信号166a，渲染器120b生成渲染信号166b等)。来自每个渲染器120的渲染信号166中的每一个对应于根据扬声器配置信息156配置的扬声器(未示出)之一的驱动器信号。例如，如果渲染系统100连接到14个扬声器，渲染器120a生成多达14个渲染信号166a。(如果给定音频对象被渲染为使得该给定音频对象不会从特定的扬声器输出，那么渲染信号166的那一个渲染信号可以被认为是零或不存在，如扬声器配置信息156所指示的。)

路由模块130从每个渲染器120和扬声器配置信息156接收渲染信号166。基于扬声器配置信息156，路由模块130组合渲染信号166以生成扬声器信号170。为了生成每个扬声器信号170，路由模块130针对每个扬声器组合对应于该扬声器的渲染信号166中的每一个。例如，给定扬声器可能与渲染信号166a中的一个、渲染信号166b中的一个和渲染信号166c中的一个相关；路由模块130组合这三个信号以生成用于该给定扬声器的扬声器信号170中的对应的一个扬声器信号。以此方式，路由模块130执行适当的渲染信号166的混合功能以生成相应的扬声器信号170。

由于声学的线性，叠加原理允许渲染系统100对任何数量的渲染器120同时使用任何给定扬声器。路由模块130通过为每个扬声器求和来自每个渲染器120的贡献来实现这一点。只要这些信号的总和不会使扬声器过载，就听者的印象而言，结果对应于将独立扬声器分配给每个渲染器的情况。

当多个音频对象被渲染以同时输出时，路由模块130以类似于以上讨论的单个音频对象情况的方式组合渲染信号166。

图2是音频处理的方法200的流程图。方法200可以由渲染系统100(见图1)执行。方法200可以由一个或多个计算机程序来实现，例如渲染系统100执行该方法以控制渲染系统的操作。

在步骤202，接收一个或多个音频对象。每个音频对象分别包括位置信息。(例如，两个音频对象A和B可以具有相应的位置信息PA和PB。)作为示例，渲染系统100(见图1)可以接收音频信号150中的一个或多个音频对象。对于每个音频对象，该方法继续执行204。

在步骤204，对于给定音频对象，基于给定音频对象的位置信息选择至少两个渲染器。可选地，至少两个渲染器具有至少两个类别。(当然，可以使用单一类别的渲染器来渲染特定的音频对象；这种情况的操作类似于本文讨论的多个类别的情况。)例如，当位置信息指示特定的(具有特定的两个类别的)两个渲染器将适合渲染该音频对象，然后选择这两个渲染器。可以基于扬声器配置信息156(见图1)来选择渲染器。作为示例，分配模块110可以基于对象元数据152中的位置信息和扬声器配置信息156生成选择信息162以选择渲染器120中的至少两个。

在步骤206，对于给定音频对象，基于位置信息确定至少两个权重。权重与在步骤204选择的渲染器相关。例如，分配模块110(见图1)可以基于对象元数据152和扬声器配置信息156中的位置信息生成(对应于权重的)位置信息164。

在步骤208，基于位置信息，使用根据权重(见步骤206)加权的所选的渲染器(见步骤204)渲染给定音频对象，以生成多个渲染信号。作为示例，(见图1，根据选择信息162选择的)渲染器120从对象音频数据154生成渲染信号166，根据位置信息164加权。继续该示例，当渲染器120a和120b被选择时，生成渲染信号166a和166b。

在步骤210，组合多个渲染信号(见步骤208)以生成多个扬声器信号。对于给定扬声器，将相应的渲染信号166相加以生成扬声器信号。当扬声器信号高于最大信号水平时，可以衰减扬声器信号，以防止给定扬声器过载。作为示例，路由模块130可以组合渲染信号166以生成扬声器信号170。

在步骤212，从多个扬声器输出多个扬声器信号(见步骤210)。

当要同时输出多个音频对象时，方法200以类似的方式操作。例如，可以使用步骤204-206-208的多条路径并行处理多个给定音频对象，其中与多个音频对象相对应的渲染信号被组合(见步骤210)以生成扬声器信号。

图3是渲染系统300的框图。渲染系统300可用于实现渲染系统100(见图1)或执行方法200(见图2)的一个或多个步骤。渲染系统300可以存储和执行一个或多个计算机程序以实现渲染系统100或执行方法200。渲染系统300包括由总线310连接的存储器302、处理器304、输入接口306和输出接口308。渲染系统300可以包括(为简洁起见)未示出的其他组件。

存储器302总体存储由渲染系统300使用的数据。存储器302还可以存储控制渲染系统300的操作的一个或多个计算机程序。存储器302可以包括易失性组件(例如，随机存取存储器)和非易失性组件(例如，固态存储器)。存储器302可以存储扬声器配置信息156(见图1)或对应于图1中的其他信号的数据。例如，对象元数据152、对象音频数据154、渲染信号166等。

处理器304总体控制渲染系统300的操作。当渲染系统300实现渲染系统100(见图1)时，处理器304实现对应于分配模块110、渲染器120和路由模块130的功能。

输入接口306接收音频信号150，并且输出接口308输出扬声器信号170。

图4是扬声器系统400的框图。扬声器系统400包括渲染系统402和多个扬声器404(示出了六个，404a、404b、404c、404d、404e和404f)。扬声器系统400可以被配置为包括所有组件(例如，条形音箱形成因子)的单个设备。扬声器系统400可以被配置为分开的设备(例如，渲染系统402是一个组件，而扬声器404是一个或多个其他组件)。

渲染系统402可以对应于渲染系统100(见图1)，渲染系统接收音频信号150，并且生成对应于扬声器信号170(见图1)的扬声器信号406。渲染系统402的组件可以类似于渲染系统300(见图3)的组件。

扬声器404输出对应于扬声器信号406(示出六个，406a、406b、406c、406d、406e和406f)的听觉信号(未示出)。扬声器信号406可以对应于扬声器信号170(见图1)。扬声器404可以输出如以上关于图3中的312所讨论的扬声器信号。

渲染器的类别：

如上所述，渲染器(例如，图1的渲染器120)被分类为不同的类别。四种常见的渲染器包括声场渲染器、双耳渲染器、平移渲染器和波束成形渲染器。如上所述(见图2中的步骤204)，对于给定音频对象，所选的渲染器具有至少两个类别。例如，基于对象元数据152和基于扬声器配置信息156(见图1)，分配模块110可以选择(渲染器120中的)声场渲染器和波束成形渲染器来渲染给定音频对象。

下面提供了四种常见的渲染器类别的其他详细信息。注意，当类别包括渲染器的子类别时，应当理解，对渲染器的不同类别的引用类似地适用于渲染器的不同子类别。这里描述的渲染系统(例如，图1的渲染系统100)可以实现这些渲染器的类别中的一个或多个。

声场渲染器

通常，声场渲染旨在再现给定空间体积内的特定声压(声)场。声场渲染器的子类别包括波场合成、近场补偿高阶环绕立体声(Ambisonics)和频谱划分。

声场渲染方法的一项重要能力是能够在近场中投射虚拟源，这意味着生成将听众定位在他自己和扬声器之间的位置的源。虽然双耳渲染器(见下文)也能有这种效果，这里的特殊性在于可以在宽广的收听区域内生成正确的定位印象。

双耳渲染器

双耳渲染方法侧重于将携带源信号的信号传送到听者的耳朵，该信号经过处理以模仿与源位置相关的双耳线索。虽然传递这种信号的更简单方法通常是通过耳机，但它也可以通过扬声器系统成功完成，通过使用串扰消除器将单独的左耳和右耳馈送到听众。

平移渲染器

平移方法直接利用基本的听觉机制(例如，改变耳间响度和时间差异)在被馈送到多个扬声器之前通过应用于源信号的延迟和/或增益差异来移动声像(sound image)。仅使用增益差异的幅度平移器因其简单的实现和稳定的感知印象而广受欢迎。幅度平移器已部署在许多消费类音频系统中，例如立体声系统和传统的影院内容渲染。(适用于任意扬声器阵列的幅度平移器设计的示例由V.Pulkki提供，“使用矢量基幅度平移的虚拟声源定位”(“Virtual sound source positioning using vector base amplitude panning”)，音频工程学会杂志，第45卷，第6期，第456–466页，1997。)最后，使用来自再现环境的反射的方法通常依赖于类似的原理来操纵来自系统的空间印象。

波束成形渲染器

波束成形最初是为传感器阵列(例如，麦克风阵列)设计的，作为放大来自一组首选方向的信号的一种手段。由于声学中的互易原理，相同的原理可用于创建定向声学信号。美国专利7,515,719号描述了使用波束成形通过使用聚焦源来创建虚拟扬声器。

渲染系统考虑

上面讨论的渲染系统类别有许多关于要渲染的最佳位置和源位置的考虑。

最佳位置通常对应于根据听者感知度量认为渲染可接受的空间。虽然由于缺乏能够很好地捕捉渲染感知质量的分析度量，这种区域的确切范围通常是不完善的，但通常可以从典型的误差度量(例如，平方误差)中获得定性信息，并在不同的配置中比较不同的系统。例如，常见的观察结果是，在较高频率下，最佳位置较小(对于所有类别的渲染器)。通常，也可以观察到最佳点随着系统中可用扬声器的数量的增加而增加，平移方法除外，为此添加扬声器具有不同的优势。

不同的渲染系统类别也可能在它们必须提供要在不同源位置感知的音频的方式和能力上有所不同。从听者的角度来看，声场渲染方法通常允许在扬声器阵列方向上的任何地方创建虚拟源。这些方法的一个方面是它们允许以透明的方式并从整个收听区域的角度来操纵源的感知距离。双耳渲染方法理论上可以提供最佳位置中的任何源位置，只要与这些位置相关的双耳信息先前已存储。最后，从听者的角度来看，平移方法可以提供足够接近的一对/三个扬声器(例如，大约60度角，例如55-65度之间)可用的任何源方向。(但是，平移方法(panning method)通常不定义处理源距离的特定方法，因此如果需要距离分量，则需要使用其他策略。)

此外，一些渲染系统类别表现出源位置和最佳位置之间的相互依赖性。例如，对于实现(在声场渲染类别中的)波场合成过程的线性阵列扬声器，阵列后面中心的源位置可能会在阵列前面的较大最佳位置中被感知，而位于阵列前面并移位到侧面的源位置可能会在较小的偏心最佳位置被感知。

具体实施例

鉴于上述考虑，实施例倾向于将两种或更多种渲染方法组合使用，其中所选渲染方法之间的相对权重取决于音频对象位置。

随着允许在消费应用中使用大量扬声器的硬件可用性的增加，使用复杂渲染策略的可能性变得越来越有吸引力。事实上，扬声器的数量仍然有限，使得使用单一渲染方法通常会导致通常是关于最佳位置范围方面的较大限制。此外，复杂的策略可能会处理复杂的扬声器设置，例如在某些区域中缺少某些环绕声覆盖，或者只是缺少扬声器密度。然而，这些再现方法的标准限制仍然存在，导致对于给定数量的通道在覆盖范围(可能具有较广泛的可能源位置范围的最大阵列)和密度(尽可能避免由于混叠(aliasing)引起的高频失真的最密阵列)之间必不可少的妥协。

鉴于上述问题，实施例涉及使用共同驱动的多种类型的渲染器来渲染基于对象的音频内容。例如，在渲染系统100(见图1)中，分配模块110基于对象元数据152和扬声器配置信息156处理基于对象的音频内容，以便确定(1)激活渲染器120中的哪一个(选择信息162)，以及(2)每个激活的渲染器要渲染的源位置(位置信息164)。每个所选的渲染器然后根据位置信息164渲染对象音频数据154并生成渲染信号166，路由模块130将渲染信号路由到系统中适当的扬声器。路由模块130允许多个渲染器使用给定扬声器。以这种方式，渲染系统100使用分配模块110来将每个音频对象分配给渲染器120，渲染器120将在期望的收听区域中有效地传达预期的空间印象。

对于具有K个扬声器(k＝1…K)的系统，使用R个不同的渲染器(r＝1…R)渲染O个对象(o＝1…O)，每个扬声器k的输出s由下式给出：

在上面的等式中：

s_k(t)：扬声器k的输出信号

s_o(t)：对象信号

w_r：激活作为对象位置的函数的渲染器r(可以是实标量或实滤波器)

δ_k∈r：指示函数，如果扬声器k附连到渲染器r，则为1，否则为0

由渲染器r引导的扬声器k的驱动函数作为对象位置/>的函数(可以是实标量或实滤波器)

根据其元数据的对象位置

用于驱动对象o的渲染器r的对象位置(可以等于/>)

渲染器r的渲染器类型反映在驱动函数中。给定渲染器的特定行为取决于其类型和其所驱动的扬声器的可用设置(由δ_k∈r确定)。给定对象在渲染器中的分配由分配算法控制，通过激活系数w_r和给定对象o在由渲染器r控制的空间中的映射/>

将以上等式应用于渲染系统100(见图1)，每个s_k对应于扬声器信号170中的一个，s_o对应于给定音频对象的对象音频数据154，w_r对应于选择信息162，δ_k∈r对应于扬声器配置信息156(例如，配置由路由模块130执行的路由)，对应于每个渲染器120的渲染函数，并且/>和/>对应于位置信息164。w_r和/>的组合可以被认为是提供给定音频对象的所选的渲染器之间的相对权重的权重。

尽管上面的等式是在时域中写的，但是示例性实现方式可以在频域中操作，例如使用滤波器组。这样的实现方式可以将对象音频数据154变换到频域，在频域中执行上述等式的运算(例如，卷积变为乘法等)，然后对结果进行逆变换以生成渲染信号166或扬声器信号170。

图5A和5B分别是条形音箱500的俯视图和侧视图。条形音箱500可以实现渲染系统100(见图1)。条形音箱500包括多个扬声器，包括线性阵列502(具有12个扬声器502a、502b、502c、502d、502e、502f、502g、502h、502i、502j、502k和502l)以及向上发射组504(包括2个扬声器504a和504b)。扬声器502a可以称为最左边的扬声器，扬声器502l可以称为最右边的扬声器，扬声器504a可以称为左上扬声器，并且扬声器504b可以称为右上扬声器。扬声器的数量及其排列可以根据需要进行调整。

条形音箱500适合消费者使用，例如在家庭影院配置中，并且可以从连接的电视或音频/视频接收器接收其输入。例如，条形音箱500可以放置在电视屏幕的上方或下方。

图6A、6B和6C分别是示出条形音箱500(见图5A和5B)在房间中的输出覆盖范围的第一俯视图、第二俯视图和侧视图。图6A示出了由线性阵列502生成的近场输出602。该近场输出602通常从线性阵列502的前面向外投射。图6B示出了由线性阵列502使用波束成形生成的虚拟的侧向输出604a和604b。虚拟的侧向输出604a和604b由对着墙壁的波束成形生成。图6C示出了由向上发射组504生成的虚拟的顶部输出606。(还示出了图6A的通常在听者的平面中的近场输出602。)虚拟的顶部输出606由对着天花板的反射生成。对于给定音频对象，条形音箱500可以例如使用诸如路由模块130(见图1)的路由模块来将这些输出中的两个或多个组合在一起，以便使音频对象的感知位置与其位置元数据一致。

图7是渲染系统700的框图。渲染系统700是适用于条形音箱500(见图5A)的渲染系统100(见图1)的具体实施例。渲染系统700可以使用渲染系统300(见图3)的组件来实现。与渲染系统100一样，渲染系统700接收音频信号150。渲染系统700包括分配模块710、四个渲染器720a、720b、720c和720d(统称为渲染器720)以及路由模块730。

分配模块710以类似于分配模块110(见图1)的方式接收对象元数据152和扬声器配置信息156，并生成选择信息162和位置信息164。

渲染器720接收对象音频数据154、扬声器配置信息156、选择信息162和位置信息164，并生成渲染信号766a、766b、766c和766d(统称为渲染信号766)。渲染器720的其他功能类似于渲染器120(见图1)。渲染器720包括波场渲染器720a、左波束成形器720b、右波束成形器720c和垂直平移器720d。波场渲染器720a生成对应于近场输出602(见图6A)的渲染信号766a。左波束成形器720b生成对应于虚拟的侧向输出604a(见图6B)的渲染信号766b。右波束成形器720c生成对应于虚拟的侧输出604b(见图6B)的渲染信号766c。垂直平移器720d生成对应于虚拟的顶部输出606(见图6C)的渲染信号766d。

路由模块730接收扬声器配置信息156和渲染信号766，并以类似于路由模块130(见图1)的方式组合渲染信号766以生成扬声器信号770a和770b(统称为扬声器信号770)。路由模块730组合渲染信号766a、766b和766c以生成提供给线性阵列502(见图5A)的扬声器的扬声器信号770a。路由模块730将渲染信号766d路由到向上发射组504(见图5A)的扬声器作为扬声器信号770b。

随着音频对象的感知位置在整个收听环境中改变，分配模块710(使用位置信息164)在各种渲染器720之间执行交叉衰减以在图6A、6B和6C的不同区域之间生成平滑的感知源运动。

图8A和8B分别是示出条形音箱500(见图5A)的源分布的示例的俯视图和侧视图。对于音频信号150(见图1)中的特定音频对象，对象元数据152定义了大小为1x1x1的虚拟立方体内的期望感知位置。该虚拟立方体映射到收听环境中的立方体，例如由分配模块110(见图1)或分配模块710(见图7)使用位置信息164。

图8A示出了水平面(x,y)，其中点902在(0,0)处，点904在(1,0)处，点906在(0,-0.5)处，以及点908在(1,-0.5)处。(这些点用“X”标记。)然后将音频对象的感知位置从虚拟立方体映射到由这四个点定义的矩形区域920。注意，该平面仅是该维度中虚拟立方体的一半，并且y>0.5(例如，在听者位置910后面)的源被放置在点906和908之间的线上、在听者位置910的前面。点902和点904可以被认为是在收听环境的前壁处。区域920的宽度(例如，在点902和点904之间)与线性阵列502(也见图5A)的侧面大致对齐(或稍微在其内部)。

图8B示出了垂直平面(x,z)，其中点902在(0,0)处，点906在(-0.5,0)处，点912在(0,1)处，以及点916在(-0.5,1)处。然后将音频对象的感知位置从虚拟立方体映射到由这四个点定义的矩形区域930。与图8A一样，在图8B，其中y>0.5(例如，在听者位置910后面)的源被放置在点906和点916之间的线上。点912和点916可以被认为是在收听环境的天花板处。区域930的底部与线性阵列502的水平对齐。

在图8A中，注意水平面中的梯形922，其宽底与点902和点904之间的区域920的一侧对齐，并且其窄底在听者位置910的前面(在点906和点908之间的线上)对齐。系统将梯形922内的具有期望感知位置的源与梯形922外(但仍在区域920内)的源区分开。在梯形922内，不使用波束成形器(例如，图7中的720b和720c)再现源；相反，使用声场渲染器(例如，图7中的720a)来再现源。在梯形922之外，可以在水平面中使用波束成形器(例如，720b和720c)和声场渲染器(例如，720a)来再现源。具体地，声场渲染器720a将源放置在相同坐标y处，在梯形922的最左侧，如果源位于左侧(或者如果源位于右侧，则在最右侧)，而两个波束成形器720b和720c通过平移在彼此之间创建立体声幻象源。两个波束成形器720b和720c之间的左右平移因子可以遵循恒定能量幅度平移规则，将x＝0仅映射到左波束成形器720b并且将x＝1仅映射到右波束成形器720c。(分配模块710可以使用位置信息164来实现这个幅度平移规则，例如使用权重。)系统在声场渲染器720a和波束成形器对720b-720c之间应用恒定能量交叉衰减规则，使得来自波束成形器720b-720c的声能增加，而来自声场渲染器720a的声能随着声源放置得离梯形922更远而减少。(分配模块710可以使用位置信息164来实现这种交叉衰减规则。)

在z的维度中(见图8B)，系统在馈送到波束成形器720b-720c和声场渲染器720a的组合的信号与馈送到向上发射组504的由垂直平移器720d渲染的渲染信号766d之间应用恒定能量交叉衰减规则(见图5A和5B)。交叉衰减因子与z坐标成正比，z＝0对应于通过波束成形器720b-720c和声场渲染器720a渲染的所有信号，而z＝1对应于使用垂直平移器720d渲染的所有信号。由垂直平移器720d生成的渲染信号766d使用恒定能量幅度平移规则分配在两个通道之间(到两个扬声器504a和504b)，仅将x＝0映射到左扬声器504a，而x＝1仅到右扬声器504b。(分配模块710可以使用位置信息164来实现这个幅度平移规则。)

图9A和9B是示出基于对象的音频(图9A)到扬声器阵列(图9B)的映射的俯视图。图9A示出了由(0,0)处的点1002、(1,0)处的点1004、(0,1)处的点1006和(1,1)处的点1008定义的水平正方形区域1000。点1003在(0,0.5)，即在点1002和1006的中点，点1007在(1,0.5)，即在点1004和1008的中点。点1005在(0.5,0.5)，即正方形区域1000的中心。点1002、1004、1012和1014定义梯形1016。与梯形1016的边相邻的是两个区域1020和1022，它们在指定的x方向上具有0.25个单位的宽度。与区域1020和1022的边相邻的是三角形1024和1026。根据其元数据(例如，图1的对象元数据152)，音频对象可以在正方形区域1000内具有期望的感知位置。使用水平方块1000的示例对象音频系统是Dolby系统。

图9B示出了正方形区域1000的一部分(见图9A)到由点1052、1054、1053和1057定义的区域1050的映射。注意，正方形区域1000只有一半(由点1002、1004、1003和1007定义)映射到区域1050；正方形区域1000的另一半中的感知位置被映射在点1053和1057之间的线上。(这类似于上面在图8A中的描述。)扬声器阵列1059在区域1050内；扬声器阵列1059的宽度对应区域1050的宽度L。类似于正方形区域1000(见图9A)，区域1050包括梯形1056、与梯形的边相邻的两个区域1070和1072，以及两个三角形1074和1076。区1070和1072对应于区1020和1022(见图9A)，而三角形1074和1076对应于三角形1024和1026(见图9A)。梯形1056的宽底对应于区域1050的宽度L，而窄底对应于宽度l。梯形1056的高度为(H–h)，其中H对应于包含梯形1056并从宽底(宽度为L)延伸到点1075的大三角形，h对应于从窄底(宽度为l)延伸到点1075的小三角形的高度。如下文将更详细描述的，在区域1070和1072内，系统在渲染器的类别之间实施恒定能量交叉衰减规则。

更准确地说，扬声器阵列1059(见图9B)的输出可描述如下。扬声器阵列1059具有M个扬声器(从左到右m＝1，...，M)。这些扬声器的驱动方式如下：

因子θ_NF/B(x_o,y_o)驱动近场波场合成渲染器720a和波束成形器720b-720c(见图7)之间的平衡。它是使用图9B中呈现的1056梯形的符号来定义的，因此针对

然后，对于

θ_NF/B(x_o，y_o)＝|4x_o-2|-2l/L

使用波场渲染器720a在近场中定位源遵循以下规则：

驱动函数写在频域中。对于阵列平面后面的源(例如，在扬声器阵列1059后面，例如点1052和1054之间的线上)：

其中并且c为声速

并且在阵列平面的前面(例如，在扬声器阵列1059前面)，注意只有最后一项变化：

其中

在这些表达式中，最后一项对应于阵列平面(例如，由扬声器阵列1059定义)前后的局部源的2.5D波场合成理论中的幅度和延迟控制值。(波场合成理论的概述由H.Wierstorf，“声场合成的感知评估”(“Perceptual Assessment of Sound FieldSynthesis”)，柏林工业大学，2014提供。)其他系数定义如下：

ω：频率(以弧度/秒为单位)

α：窗函数，限制截断伪影并实现局部波场合成，作为源和收听位置的函数。

EQ_m：补偿扬声器响应失真的均衡滤波器。

PreEQ：补偿2.5维效果和截断效果的预均衡滤波器。

任意收听位置。

关于波束成形器720b-720c，系统预先计算一组M/2扬声器延迟和振幅，适用于线性扬声器阵列1059的左半部分的配置。在频域中，对于每个扬声器m和频率ω，它为我们提供了滤波器系数B_m(ω)。然后扬声器阵列左半部分(m＝1…M/2)的波束成形器驱动函数是一个在频域中定义的滤波器：

在上述等式中，EQ_m是补偿扬声器响应失真的均衡滤波器(与等式(1)和(2)中的滤波器相同)。该系统是为对称设置而设计的，因此只需为阵列右半部分翻转光束过滤器即可获得另一光束，因此对于m＝M/2…M，有：

对应于提供给两个向上发射扬声器504a-504b(见图5)的扬声器信号770b的渲染信号766d(见图7)以如下方式对应于信号s_UL和s_UR：

根据一个实施例，垂直平移器720d(见图7)包括预过滤阶段。预过滤阶段应用与高度坐标z₀成比例的高度感知滤波器H。在这种情况下，对于给定z₀的应用过滤器是

图10是渲染系统1100的框图。渲染系统1100是适于在条形音箱500(见图5A)中实现的渲染系统700(见图7)的修改。渲染系统1100可以使用渲染系统300(见图3)的组件来实现。渲染系统1100的组件类似于渲染系统700的组件并且使用类似的附图标记。渲染系统1100还包括第二对波束成形器1120e和1120f。左波束成形器1120e生成渲染信号1166d，而右波束成形器1120f生成渲染信号1166e，路由模块730将这些渲染信号与其他渲染信号766a、766b和766c组合以生成扬声器信号770a。当单独考虑波束成形器的输出时，左波束成形器1120e创建虚拟的左后源，而右波束成形器1120f创建虚拟的右后源，如图11所示。

图11是示出在房间中的条形音箱500(见图5A和5B)中实施的波束成形器1120e和1120f的输出覆盖范围的俯视图。(渲染系统1100的其他渲染器的输出覆盖范围如图6A-6C所示。)虚拟的左后输出1206a来自左波束成形器1120e(见图10)，该左波束成形器1120e生成从房间的左墙和后墙反射的信号。虚拟右后输出1206b来自右波束成形器1120f(见图10)，该右波束成形器1120f生成从房间的右墙和后墙反射的信号。(注意1206a和1206b在听众后面重叠的三角形区域。)对于给定音频对象，条形音箱500可以使用图6A-6C中的一个或多个输出覆盖范围组合图11中的输出覆盖范围，例如使用诸如路由模块730(见图10)的路由模块。

图6A-6C和图11的输出覆盖范围显示了如何使用条形音箱500(见图5A和5B)代替传统7.1通道(或7.1.2通道)环绕声系统中的扬声器。7.1通道系统的左、中、右扬声器可由声场渲染器720a(见图7)驱动的线性阵列502代替，生成图6A所示的输出覆盖范围。7.1.2通道系统的顶部扬声器可由垂直平移器720d驱动的向上发射组504代替，从而生成图6C所示的输出覆盖范围。7.1通道系统的左右环绕扬声器可由波束成形器720b和720c驱动的线性阵列502代替，从而生成图6B所示的输出覆盖范围。7.1通道系统的左和右后环绕扬声器可由波束成形器1120e和1120f驱动的线性阵列502代替(见图10)，从而生成图11所示的输出覆盖范围。如上所述，系统使多个渲染器能够根据它们的组合输出覆盖范围来渲染音频对象，以便为音频对象生成适当的感知位置。

总之，本文描述的系统具有以下优点：将分辨率最高的渲染系统(例如近场渲染器)置于预期大多数电影内容所在的前部(因为此位置与屏幕位置相匹配)，而且人的定位精确度最高，而后部、侧部和高度渲染保持较粗糙，这对于典型的电影内容来说可能不太重要。许多这些系统也保持相对紧凑，并且可以明智地与典型的视觉设备(例如，在电视屏幕上方或下方)集成在一起。要记住的一个特点是，由于叠加原理(例如，使用路由模块组合)，扬声器阵列可用于同时生成大量波束，以创建更复杂的系统。

除了上面显示的输出覆盖范围之外，进一步的配置可以使用渲染器的其他组合对其他扬声器设置进行建模。

图12是条形音箱1200的俯视图。条形音箱1200可以实现渲染系统100(见图1)。条形音箱1200类似于条形音箱500(见图5A)，并且包括线性阵列502(具有12个扬声器502a、502b、502c、502d、502e、502f、502g、502h、502i、502j、502k和502l)以及向上发射组504(包括2个扬声器504a和504b)。条形音箱1200还包括两个侧向发射扬声器1202a和1202b，其中扬声器1202a被称为左侧向发射扬声器，而扬声器1202b被称为右侧向发射扬声器。

与条形音箱500(见图5A)相比，条形音箱1200使用侧向发射扬声器1202a和1202b来生成虚拟的侧向输出604a和604b(见图6B)。

图13是渲染系统1300的框图。渲染系统1300是适于在条形音箱1200(见图12)中实现的渲染系统1100(见图10)的修改。渲染系统1300可以使用渲染系统300(见图3)的组件来实现。渲染系统1300的组件与渲染系统1100的组件相似并且使用相似的附图标记。与渲染系统1100相比，渲染系统1300用双耳渲染器1320代替波束成形器720b和720c。

双耳渲染器1320接收扬声器配置信息156、对象音频数据154、选择信息162和位置信息164。双耳渲染器1320对对象音频数据154执行双耳渲染并生成左双耳信号1366b和右双耳信号1366c。仅考虑侧向发射扬声器1202a和1202b(见图12)，左双耳信号1366b通常对应于左侧向发射扬声器1202a的输出，而右双耳信号1366c通常对应于右侧向发射扬声器1202b的输出。(注意到路由模块730然后将双耳信号1366b和1366c与其他渲染信号766组合以生成扬声器信号770到扬声器502、504和1202的整个集合。)

图14是渲染器1400的框图。渲染器1400可以对应于上面讨论的渲染器中的一个或多个，例如渲染器120(见图1)、渲染器720(见图7)、渲染器1120(参见图10)等。渲染器1400示出了渲染器可以包括多于一个渲染器作为其组件。如这里所示，渲染器1400包括与渲染器1404串联的渲染器1402。虽然示出了两个渲染器1402和1404，但是渲染器1400可以包括以各种串行和并行方式配置的附加的渲染器。渲染器1400接收扬声器配置信息156、选择信息162和位置信息164；渲染器1400可以将这些信号提供给渲染器1402和1404中的一个或多个，这取决于它们的特定配置。

渲染器1402接收对象音频数据154以及扬声器配置信息156、选择信息162和位置信息164中的一个或多个。渲染器1402对对象音频数据154执行渲染并生成渲染信号1410。渲染信号1410通常对应于中间渲染信号。例如，渲染信号1410可以是虚拟扬声器馈送信号。

渲染器1404接收渲染信号1410以及扬声器配置信息156、选择信息162和位置信息164中的一个或多个。渲染器1404对渲染信号1410执行渲染并生成渲染信号1412。渲染信号1412对应于以上讨论的渲染信号，例如渲染信号166(见图1)、渲染信号766(见图7)、渲染信号1166(见图10)等。渲染器1400然后可以以类似于上面讨论的方式将渲染信号1412提供给路由模块(例如，图1的路由模块130、图7或图10或图13的路由模块730)等。

通常，渲染器1402和1404以类似于上面讨论的方式具有不同类型。例如，这些类型可以包括幅度平移器、垂直平移器、波场渲染器、双耳渲染器和波束成形器。具体的示例配置在图15中示出。

图15是渲染器1500的框图。渲染器1500可以对应于上面讨论的渲染器中的一个或多个，例如渲染器120(见图1)、渲染器720(见图7)、渲染器1120(见图10)、渲染器1400(见图14)等。渲染器1500包括幅度平移器1502、数量N个双耳渲染器1504(示出了三个：1504a、1504b和1504c)和数量M个波束成形器组，包括多个左波束成形器1506(示出了三个：1506a、1506b和1506c)和右波束成形器1508(示出了三个：1508a、1508b和1508c)。

幅度平移器1502接收对象音频数据154、选择信息162和位置信息164。幅度平移器1502对对象音频数据154执行渲染并生成虚拟扬声器馈送1520(示出了三个：1520a、1520b和1520c)，以类似于这里描述的其他幅度平移器的方式。虚拟扬声器馈送1520可以对应于规范的扬声器馈送信号，例如5.1通道环绕信号、7.1通道环绕信号、7.1.2通道环绕信号、7.1.4通道环绕信号、9.1通道环绕信号等。虚拟扬声器馈送1520被称为“虚拟”，因为它们不需要直接提供给实际扬声器，而是可以提供给渲染器1500中的其他渲染器用于进一步处理。

虚拟扬声器馈送1520的细节在渲染器1500的各种实施例和实现方式中可能不同。例如，当虚拟扬声器馈送1520包括低频效果通道信号时，幅度平移器1502可以将该通道信号直接提供给一个或多个扬声器(例如，绕过双耳渲染器1504和波束成形器1506和1508)。作为另一个示例，当虚拟扬声器馈送1520包括中央通道信号时，幅度平移器1502可以将该通道信号直接提供给一个或多个扬声器，或者可以将该信号直接提供给一组左波束成形器1506中的一个和右波束成形器1508中的一个(例如，绕过双耳渲染器1504)。

双耳渲染器1504接收虚拟扬声器馈送1520和扬声器配置信息156。(通常，双耳渲染器1504的数量N取决于渲染器1500的实施例的细节，例如虚拟扬声器馈送1520的数量、虚拟扬声器馈送的类型等，如上所述。)双耳渲染器1504在虚拟扬声器馈送1520上执行渲染并生成左双耳信号1522(示出了三个：1522a、1522b和1522c)和右双耳信号1524(示出了三个：1524a、1524b和1524c)，其方式类似于此处描述的其他双耳渲染器。

左波束成形器1506接收左双耳信号1522和扬声器配置信息156、右波束成形器1508接收右双耳信号1524和扬声器配置信息156。每个左波束成形器1506可以接收一个或多个左双耳信号1522，并且每个右波束成形器1508可以接收一个或多个右双耳信号1524，同样取决于如上所述的渲染器1500的实施例的细节。(这些一个或多个关系由图15中的1522和1524的虚线指示。)左波束成形器1506对左双耳信号1522执行渲染并生成渲染信号1566(示出了三个：1566a、1566b和1566c)。右波束成形器1508对右双耳信号1524执行渲染并生成渲染信号1568(示出了三个：1568a、1568b和1568c)。波束成形器1506和1508另外以类似于本公开描述的其他波束成形器的方式操作。渲染信号1566和1568对应于上面讨论的渲染信号，例如渲染信号166(见图1)、渲染信号766(见图7)、渲染信号1166(见图10)、渲染信号1412(见图14)等。

渲染器1500然后可以以与上面讨论的类似的方式将渲染信号1566和1568提供给路由模块(例如，图1的路由模块130、图7或图10或图13的路由模块730)等。

如上所述，左波束成形器1506和右波束成形器1508的数量M取决于渲染器1500的实施例的细节。例如，数量M可以基于包括渲染器1500的设备的形状因素、基于连接到渲染器1500的扬声器阵列的数量、基于那些扬声器阵列的能力和布置等而变化。作为一般准则，(波束成形器1506和1508的)数量M可以小于或等于(双耳渲染器1504的)数量N。作为另一一般准则，分开的扬声器阵列的数量可以小于或等于(双耳渲染器1504的)数量N的两倍。作为一个示例形状因素，设备可能具有物理上分开的左右扬声器阵列，其中左扬声器阵列生成所有左波束，右扬声器阵列生成所有右波束。另一个示例形状因素，设备可能具有物理上分离的前后扬声器阵列，其中前扬声器阵列为所有前双耳信号生成左右波束，后扬声器阵列为所有后双耳信号生成左右波束信号。

图16是渲染系统1600的框图。渲染系统1600类似于渲染系统100(见图1)，其中渲染器120(见图1)被与渲染器1500的渲染器布置相似的渲染器布置代替(见图15)；还存在与分配模块110(见图1)有关的差异。渲染系统1600包括幅度平移器1602、数量N个双耳渲染器1604(示出了三个：1604a、1604b和1604c)、数量M个波束成形器组，其包括多个左波束成形器1606(示出了三个：1606a、1606b和1606c)和右波束成形器1608(示出了三个：1608a、1608b和1508c)，以及路由模块1630。

幅度平移器1602接收对象元数据152和对象音频数据154，根据对象元数据152中的位置信息对对象音频数据154进行渲染，并生成虚拟扬声器馈送1620(示出了三个：1620a、1620b和1620c)，以类似于本公开描述的其他幅度平移器的方式。类似地，虚拟扬声器馈送1620的细节在渲染系统1600的各种实施例和实现中可能有所不同，其方式类似于上述关于渲染器1500的描述(见图15)。(与渲染系统100(见图1)相比，渲染系统1600省略了分配模块110，但使用幅度平移器1602来对双耳渲染器1604中的虚拟扬声器馈送1620加权。)

双耳渲染器1604接收虚拟扬声器馈送1620和扬声器配置信息156。(通常，双耳渲染器1604的数量N取决于渲染系统1600的实施例的细节，例如虚拟扬声器馈送1620的数量、虚拟扬声器馈送的类型等，如上所述。)双耳渲染器1604以类似于本公开描述的其他双耳渲染器的方式对虚拟扬声器馈送1620执行渲染并生成左双耳信号1622(示出了三个：1622a、1622b和1622c)和右双耳信号1624(示出了三个：1624a、1624b和1624c)。

左波束成形器1606接收左双耳信号1622和扬声器配置信息156，右波束成形器1608接收右双耳信号1624和扬声器配置信息156。每个左波束成形器1606可以接收一个或多个左双耳信号1622，并且每个右波束成形器1608可以接收一个或多个右双耳信号1624，同样取决于如上所述的渲染系统1600的实施例的细节。(这些一个或多个关系由图16中的1622和1624的虚线指示。)左波束成形器1606对左双耳信号1622执行渲染并生成渲染信号1666(示出了三个：1666a、1666b和1666c)。右波束成形器1608对右双耳信号1624执行渲染并生成渲染信号1668(示出了三个：1668a、1668b和1668c)。波束成形器1606和1608另外以类似于本公开描述的其他波束成形器的方式操作。

路由模块1630接收扬声器配置信息156、渲染信号1666和渲染信号1668。路由模块1630以类似于本公开描述的其他路由模块的方式生成扬声器信号1670。

图17是音频处理的方法1700的流程图。方法1700可以由渲染系统1600(见图16)执行。方法1700可以由一个或多个计算机程序来实现，例如渲染系统1600执行以控制其操作。

在步骤1702，接收一个或多个音频对象。每个音频对象分别包括位置信息。作为示例，渲染系统1600(见图16)可以接收音频信号150，该音频信号包括对象元数据152和对象音频数据154。对于每个音频对象，该方法继续到步骤1704。

在步骤1704，对于给定音频对象，基于位置信息，使用第一类别的渲染器来渲染给定音频对象以生成第一多个信号。例如，幅度平移器1602(见图16)可以基于位置信息(在对象元数据152中)渲染给定音频对象(在对象音频数据154中)以生成虚拟扬声器信号1620。

在步骤1706，对于给定音频对象，使用第二类别的渲染器渲染第一多个信号以生成第二多个信号。例如，双耳渲染器1604(见图16)可以渲染虚拟扬声器馈送1620以生成左双耳信号1622和右双耳信号1624。

在步骤1708，对于给定音频对象，使用第三类别的渲染器渲染第二多个信号以生成第三多个信号。例如，左波束成形器1606可以渲染左双耳信号1622以生成渲染信号1666，并且右波束成形器1608可以渲染右双耳信号1624以生成渲染信号1668。

在步骤1710，组合第三多个信号以生成多个扬声器信号。例如，路由模块1630(见图16)可以组合渲染信号1666和渲染信号1668以生成扬声器信号1670。

在步骤1712，从多个扬声器输出多个扬声器信号(见步骤1708)。

当要同时输出多个音频对象时，方法1700的操作类似。例如，可以使用步骤1704-1706-1708的多条路径并行处理多个给定音频对象，其中多个音频对象对应的渲染信号被组合(见步骤1710)以生成扬声器信号。

作为另一示例，可通过组合在一个或多个渲染阶段的输出处的每个音频对象的渲染信号来处理多个给定音频对象。将此示例应用于渲染系统1600(见图16)，幅度平移器1602可以渲染多个给定音频对象，每个虚拟扬声器信号1620对应于组合多个给定音频对象的组合渲染，并且双耳渲染器1604、波束成形器1606和1608对组合渲染进行操作。

实施细节

实施例可以在硬件、存储在计算机可读介质上的可执行模块或两者的组合(例如，可编程逻辑阵列)中实现。除非另有说明，由实施例执行的步骤不需要固有地与任何特定的计算机或其他装置相关，尽管它们可能在某些实施例中。特别地，各种通用机器可以与根据这里的教导编写的程序一起使用，或者构造更专门的装置(例如，集成电路)来执行所需的方法步骤可能更方便。因此，实施例可以在一个或多个可编程计算机系统上执行的一个或多个计算机程序中实现，每个可编程计算机系统包括至少一个处理器、至少一个数据存储系统(包括易失性和非易失性存储器和/或存储元件)、至少一个输入设备或端口，以及至少一个输出设备或端口。程序代码应用于输入数据以执行此处描述的功能并生成输出信息。输出信息以已知方式应用于一个或多个输出设备。

每个这样的计算机程序优选地存储在或下载到可由通用或专用可编程计算机读取的存储介质或设备(例如，固态存储器或介质，或磁或光介质)，用于在计算机系统读取存储介质或设备以执行此处描述的过程时配置和操作计算机。本发明系统也可以被认为是被实现为配置有计算机程序的计算机可读存储介质，其中如此配置的存储介质使计算机系统以特定和预定义的方式操作以执行这里描述的功能。(软件本身和无形或暂时的信号被排除在非专利主题的范围内。)

上面的描述说明了本发明的各种实施例以及可以如何实施本发明的方面的示例。上述示例和实施例不应被认为是唯一的实施例，而是用来说明由以下权利要求限定的本发明的灵活性和优点。基于上述公开和以下权利要求，在不脱离由权利要求限定的本发明的精神和范围的情况下，其他布置、实施例、实施方式和等同物对于本领域技术人员将是显而易见的并且可以被采用。

可以从以下列举的示例实施例(EEEs)中理解本发明的各个方面：

1、一种音频处理的方法，所述方法包括：

接收一个或多个音频对象，其中所述一个或多个音频对象中的每一个分别包括位置信息；

对于所述一个或多个音频对象中的给定音频对象：

基于所述给定音频对象的所述位置信息，选择多个渲染器中的至少两个渲染器，其中所述至少两个渲染器具有至少两个类别；

基于所述给定音频对象的所述位置信息，确定至少两个权重；

基于所述位置信息，使用根据所述至少两个权重加权的所述至少两个渲染器渲染所述给定音频对象，以生成多个渲染信号；以及

组合所述多个渲染信号以生成多个扬声器信号；以及

从多个扬声器输出所述多个扬声器信号。

2、根据EEE 1所述的方法，其中，所述至少两个类别包括声场渲染器、波束成形器、平移器和双耳渲染器。

3、根据EEE 1-2中任一项所述的方法，其中，所述多个渲染信号中的给定渲染信号包括至少一个分量信号，

其中，所述至少一个分量信号中的每一个与所述多个扬声器中的各自一个相关联；以及

其中，对于所述多个扬声器中的给定扬声器，所述多个扬声器信号中的给定扬声器信号对应于组合所述至少一个分量信号中的与所述给定扬声器相关联的全部分量信号。

4、根据EEE 3所述的方法，其中，第一渲染器生成第一渲染信号，其中，所述第一渲染信号包括与第一扬声器相关联的第一分量信号和与第二扬声器相关联的第二分量信号，

其中，第二渲染器生成第二渲染信号，其中所述第二渲染信号包括与所述第一扬声器相关联的第三分量信号和与所述第二扬声器相关联的第四分量信号，

其中，与所述第一扬声器相关联的第一扬声器信号对应于组合所述第一分量信号和所述第三分量信号，以及

其中，与所述第二扬声器相关联的第二扬声器信号对应于组合所述第二分量信号和所述第四分量信号。

5、根据EEE 1-4中任一项所述的方法，其中，渲染所述给定音频对象包括：对于所述多个渲染器中的给定渲染器，应用基于所述位置信息的增益以生成所述多个渲染信号中的给定渲染信号。

6、根据EEE 1-5中任一项所述的方法，其中，所述多个扬声器包括扬声器的密集线性阵列。

7、根据EEE 1-6中任一项所述的方法，其中，所述至少两个类别包括声场渲染器，其中所述声场渲染器执行波场合成过程。

8、根据EEE 1-7中任一项所述的方法，其中，所述多个扬声器被布置在指向第一方向的第一组和指向与所述第一方向不同的第二方向的第二组中。

9、根据EEE 8所述的方法，其中，所述第一方向包括前向分量，所述第二方向包括垂直分量。

10、根据EEE 8所述的方法，其中，所述第二方向包括垂直分量，其中所述至少两个渲染器包括波场合成渲染器和向上发射平移渲染器，并且其中所述波场合成渲染器和所述向上发射平移渲染器为所述第二组生成所述多个渲染信号。

11、根据EEE 8所述的方法，其中，所述第二方向包括垂直分量，其中，所述至少两个渲染器包括波场合成渲染器、向上发射平移渲染器和波束成形器，并且其中所述波场合成渲染器、所述向上发射平移渲染器和所述波束成形器为所述第二组生成所述多个渲染信号。

12、根据EEE 8所述的方法，其中，所述第二方向包括垂直分量，其中，所述至少两个渲染器包括波场合成渲染器、向上发射平移渲染器和侧向发射平移渲染器，并且其中所述波场合成渲染器、所述向上发射平移渲染器和所述侧向发射平移渲染器为所述第二组生成所述多个渲染信号。

13、根据EEE 8所述的方法，其中，所述第一方向包括前向分量，并且所述第二方向包括侧向分量。

14、根据EEE 8所述的方法，其中，所述第一方向包括前向分量，其中，所述至少两个渲染器包括波场合成渲染器，并且其中所述波场合成渲染器为所述第一组生成所述多个渲染信号。

15、根据EEE 8所述的方法，其中，所述第二方向包括侧向分量，其中，所述至少两个渲染器包括波场合成渲染器和波束成形器，并且其中所述波场合成渲染器和所述波束成形器为所述第二组生成所述多个渲染信号。

16、根据EEE 8所述的方法，其中，所述第二方向包括侧向分量，其中，所述至少两个渲染器包括波场合成渲染器和侧向发射平移渲染器，并且其中所述波场合成渲染器和所述侧向发射平移渲染器为所述第二组生成所述多个渲染信号。

17、根据EEE 1-16中任一项所述的方法，进一步包括：

组合用于所述一个或多个音频对象的所述多个渲染信号，以生成所述多个扬声器信号。

18、根据EEE 1-17中任一项所述的方法，其中，所述至少两个渲染器包括串联的渲染器。

19、根据EEE 1-18中任一项所述的方法，其中，所述至少两个渲染器包括幅度平移器、多个双耳渲染器和多个波束成形器；

其中，所述幅度平移器被配置为基于所述位置信息渲染给定音频对象以生成第一多个信号；

其中，所述多个双耳渲染器被配置为渲染所述第一多个信号以生成第二多个信号；

其中，所述多个波束成形器被配置为渲染所述第二多个信号以生成第三多个信号；以及

其中，组合所述第三多个信号以生成所述多个扬声器信号。

20、一种音频处理装置，所述装置包括：

多个扬声器；

处理器；和

存储器，

其中，所述处理器被配置为控制所述装置以接收一个或多个音频对象，其中所述一个或多个音频对象中的每一个分别包括位置信息；

对于所述一个或多个音频对象中的给定音频对象：

所述处理器被配置为控制所述装置以基于所述给定音频对象的所述位置信息选择多个渲染器中的至少两个渲染器，其中所述至少两个渲染器具有至少两个类别；

所述处理器被配置为控制所述装置以基于所述给定音频对象的所述位置信息确定至少两个权重；

所述处理器被配置为控制所述装置以基于所述位置信息使用根据所述至少两个权重加权的所述至少两个渲染器渲染所述给定音频对象，以生成多个渲染信号；以及

所述处理器被配置为控制所述装置以组合所述多个渲染信号以生成多个扬声器信号；以及

其中，所述处理器被配置为控制所述装置以从所述多个扬声器输出所述多个扬声器信号。

21、一种音频处理的方法，所述方法包括：

对于所述一个或多个音频对象中的给定音频对象：

基于所述位置信息，使用第一类别的渲染器渲染所述给定音频对象以生成第一多个信号；

使用第二类别的渲染器渲染所述第一多个信号以生成第二多个信号；

使用第三类别的渲染器渲染所述第二多个信号以生成第三多个信号；以及

组合所述第三多个信号以生成多个扬声器信号；以及

从多个扬声器输出所述多个扬声器信号。

22、根据EEE 21所述的方法，其中，所述第一类别的渲染器对应于幅度平移器，其中，所述第二类别的渲染器对应于多个双耳渲染器，并且其中所述第三类别的渲染器对应于多个波束成形器。

23、一种存储计算机程序的非暂态计算机可读介质，所述计算机程序在由处理器执行时控制装置以执行包括EEE 1-19、21或22中任一项的方法的处理。

24、一种音频处理装置，所述装置包括：

多个扬声器；

处理器；和

存储器，

对于所述一个或多个音频对象中的给定音频对象：

所述处理器被配置为控制所述装置，基于所述位置信息，使用第一类别的渲染器渲染所述给定音频对象以生成第一多个信号；

所述处理器被配置为控制所述装置，使用第二类别的渲染器渲染所述第一多个信号以生成第二多个信号；

所述处理器被配置为控制所述装置，使用第三类别的渲染器渲染所述第二多个信号以生成第三多个信号；以及

所述处理器被配置为控制所述装置，以组合所述第三多个信号以生成多个扬声器信号；以及

其中，所述处理器被配置为控制所述装置，以从所述多个扬声器输出所述多个扬声器信号。

参考文献

美国申请公开号2016/0300577

美国申请公开号2017/0048640

国际申请公开号WO 2017/087564 A1

美国申请公开号2015/0245157

H.Wittek,F.Rumsey和G.Theile的“使用立体声方法的波场合成感知增强(Perceptual Enhancement of Wavefield Synthesis by Stereophonic Means)”，音频工程学会杂志，第55卷，第9期，第723–751页，2007

美国专利号7,515,719

美国申请公开号2015/0350804

M.N.Montag的“使用多重线列阵的三维波场合成(Wave field synthesis inThree Dimensions by Multiple Line Arrays)”，迈阿密大学，2011

R.Ranjan and W.S.Gan的“用于沉浸式3D音频再现的混合扬声器阵列耳机系统(Ahybrid speaker array-headphone system for immersive 3D audioreproduction)”，2015年IEEE声学、语音和信号处理国际会议论文集(ICASSP)，第1836-1840页，2015年4月

V.Pulkki的“使用矢量基振幅平移的虚拟声源定位(Virtual sound sourcepositioning using vector base amplitude panning)”，音频工程学会杂志，第45卷，第6期，第456–466页，1997

美国专利号7,515,719

H.Wierstorf的“声场合成的感知评价(Perceptual Assessment of Sound FieldSynthesis)”，柏林工业大学，2014

Claims

1.一种音频处理的方法，所述方法包括：

对于所述一个或多个音频对象中的给定音频对象：

基于所述给定音频对象的所述位置信息，选择多个渲染器中的至少两个渲染器；

组合所述多个渲染信号以生成多个扬声器信号；以及

从多个扬声器输出所述多个扬声器信号。

2.根据权利要求1所述的方法，其中，所述至少两个渲染器被分类为至少两个类别。

3.根据权利要求2所述的方法，其中，所述类别包括声场渲染器、波束成形器、平移渲染器和双耳渲染器。

4.根据权利要求1所述的方法，其中，所述多个渲染信号中的给定渲染信号包括至少一个分量信号，

其中，所述至少一个分量信号中的每一个分量信号与所述多个扬声器中的相应一个扬声器相关联；以及

5.根据权利要求4所述的方法，其中，第一渲染器生成第一渲染信号，其中所述第一渲染信号包括与第一扬声器相关联的第一分量信号和与第二扬声器相关联的第二分量信号，

6.根据权利要求1-5中任一项所述的方法，其中，渲染所述给定音频对象包括：对于所述多个渲染器中的给定渲染器，应用基于所述位置信息的增益以生成所述多个渲染信号中的给定渲染信号。

7.根据权利要求1-5中任一项所述的方法，其中，所述多个扬声器被布置在指向第一方向的第一组中和指向与所述第一方向不同的第二方向的第二组中。

8.根据权利要求7所述的方法，其中，所述第二方向包括垂直分量，其中所述至少两个渲染器包括波场合成渲染器、向上发射平移渲染器和波束成形器，并且其中所述波场合成渲染器、所述向上发射平移渲染器和所述波束成形器为所述第二组生成所述多个渲染信号。

9.根据权利要求7所述的方法，其中，所述第二方向包括垂直分量，其中所述至少两个渲染器包括波场合成渲染器、向上发射平移渲染器和侧向发射平移渲染器，并且其中所述波场合成渲染器、所述向上发射平移渲染器和所述侧向发射平移渲染器为所述第二组生成所述多个渲染信号。

10.根据权利要求7所述的方法，其中，所述第二方向包括侧向分量，其中所述至少两个渲染器包括波场合成渲染器和波束成形器，并且其中所述波场合成渲染器和所述波束成形器为所述第二组生成所述多个渲染信号。

11.根据权利要求7所述的方法，其中，所述第二方向包括侧向分量，其中所述至少两个渲染器包括波场合成渲染器和侧向发射平移渲染器，并且其中所述波场合成渲染器和所述侧向发射平移渲染器为所述第二组生成所述多个渲染信号。

12.根据权利要求1-5中任一项所述的方法，其中，所述至少两个渲染器包括串联的渲染器。

13.根据权利要求1-5中任一项所述的方法，其中，所述至少两个渲染器包括幅度平移器、多个双耳渲染器和多个波束成形器；

其中，所述幅度平移器被配置为基于所述位置信息渲染所述给定音频对象以生成第一多个信号；

其中，组合所述第三多个信号以生成所述多个扬声器信号。

14.一种用于音频处理的装置，所述装置包括：

多个扬声器；

处理器；和

存储器，

其中，所述处理器被配置为控制所述装置以接收一个或多个音频对象，其中所述一个或多个音频对象中的每一个音频对象分别包括位置信息；

其中，对于所述一个或多个音频对象中的给定音频对象：

所述处理器被配置为控制所述装置以基于所述给定音频对象的所述位置信息选择多个渲染器中的至少两个渲染器；

15.一种计算机可读存储介质，存储有指令，当所述指令由一个或多个处理器执行时，使得所述一个或多个处理器执行根据权利要求1-13中任一项所述的方法。