CN115706895A

CN115706895A - 使用多个换能器的沉浸式声音再现

Info

Publication number: CN115706895A
Application number: CN202210933424.8A
Authority: CN
Inventors: A.F.弗兰考; J.里格斯
Original assignee: Harman International Industries Inc
Current assignee: Harman International Industries Inc
Priority date: 2021-08-09
Filing date: 2022-08-04
Publication date: 2023-02-17
Also published as: EP4135349A1; US11736886B2; US20230042762A1

Abstract

一个或多个实施方案包括用于为声学系统生成沉浸式音频的技术。所述技术包括确定与音频的一部分相关联的表观位置；针对包括在所述声学系统的多个扬声器中的每个扬声器计算所述扬声器与所述表观位置之间的感知距离；基于所述多个扬声器与所述表观位置之间的所述感知距离来选择包括在所述多个扬声器中的扬声器的子集；基于扬声器的所述子集和所述声学系统的一个或多个目标特性生成一组滤波器；以及针对包括在扬声器的所述子集中的每个扬声器使用包括在所述一组滤波器中的一个或多个滤波器生成扬声器信号。

Description

使用多个换能器的沉浸式声音再现

技术领域

本公开的实施方案总体上涉及音频处理系统，并且更具体地涉及用于使用多个换能器的沉浸式声音再现的技术。

背景技术

商业娱乐系统，诸如在电影院、高级家庭影院、音乐场所等中实现的音频/视频系统，提供越来越沉浸式体验，其包括高分辨率视频和多声道音频配乐。例如，电影院系统通常启用多个不同的音频通道，这些通道被传输到放置在收听者的多个不同侧面(例如前面、后面、到每一侧、上面和下面)的单独扬声器。因此，收听者会体验到全定向环绕收听者的全三维(3D)声场。

在通过非商业音频系统收听音频时，收听者可能也想体验沉浸式3D声场。一些先进的家用音频装备，诸如耳机和头戴式耳机，实现了头部相关传递函数(HRTF)，其以收听者解释为位于收听者周围特定位置的方式再现声音。因此，在支持系统上收听音频时，HRTF和其他类似技术提供沉浸式收听体验。

然而，一些音频系统无法提供类似的沉浸式收听体验。例如，包括在汽车中的扬声器通常具有较差的声音成像，并且缺乏以沉浸式方式再现声音的能力。此外，即使使用可以实现HRTF的系统，其他收听者和收听者周围的对象也可能阻挡或改变由音频系统的扬声器发出的声音。例如，在汽车中，来自扬声器的声音可能会被座椅靠背、头枕和收听者的头部阻挡或减弱。此外，不同扬声器发出的声音也可能相互干扰。这种干扰在本文中被称为“串扰”。由于人、对象导致的干扰，和/或串扰，收听者可能无法将由音频系统产生的声音准确地感知为位于所需位置，并且声音也可能失真或以其他方式使质量降低。此外，如果收听者移动和/或将头转向其他方向，则收听者也可能无法将音频系统产生的声音准确地感知为位于所需位置。

如前所述，本领域需要更有效的技术来为扬声器系统生成沉浸式音频。

发明内容

本公开的各种实施方案阐述了一种用于为声学系统生成沉浸式音频的计算机实现的方法。该方法包括确定与音频的一部分相关联的表观位置；针对包括在声学系统的多个扬声器中的每个扬声器计算扬声器与表观位置之间的感知距离；基于多个扬声器与表观位置之间的感知距离选择包括在多个扬声器中的扬声器的子集；基于扬声器的子集和声学系统的一个或多个目标特性生成一组滤波器；以及针对包括在扬声器的子集中的每个扬声器使用包括在该组滤波器中的一个或多个滤波器生成扬声器信号。

其它实施方案包括但不限于实现所公开技术的一个或多个方面的系统，以及包括用于执行所公开技术的一个或多个方面的指令的一个或多个计算机可读介质。

所公开技术相对于现有技术的至少一个技术优势在于音频系统创建三维声音体验，同时减少串扰和由收听环境内的人和/或对象引起的其他干扰。此外，音频系统能够基于收听者的位置和/或定向调整三维声音体验，以考虑收听者的位置和/或定向的改变。因此，相对于现有方法，所述音频系统生成更加沉浸式和准确的声音。这些技术优点提供了优于现有技术方法的一个或多个技术进步。

附图说明

为了能够详细地理解各种实施方案的上述特征，可通过参考各种实施方案来对以上简要概述的创造性概念进行更具体的描述，附图中示出了所述各种实施方案中的一些。然而，应当注意，附图只示出了创造性概念的典型实施方案，且因而不应被视为以任何方式限制其范围，并且存在其它等效实施方案。

图1A和图1B示出了根据各种实施方案的通过声学系统收听音频的收听者；

图2示出了根据各种实施方案的声学系统的示例性扬声器布置；

图3示出了根据各种实施方案的图2的声学系统的示例性图表示；

图4示出了根据各种实施方案的图2的声学系统的扬声器之间的感知距离；

图5示出了根据各种实施方案的用于与声学系统一起使用或联接到声学系统的示例性计算装置的框图；

图6A示出了根据各种实施方案的用于产生沉浸式声音的示例性声学系统；

图6B示出了根据各种其他实施方案的用于产生沉浸式声音的示例性声学系统；

图7示出了根据各种实施方案的用于生成声学系统的沉浸式音频的方法步骤的流程图；并且

图8示出了根据各种实施方案的总分数和混合比之间的示例性映射。

具体实施方式

在以下描述中，阐述了许多特定细节以提供对各种实施方案的更加透彻的理解。然而，对本领域技术人员而言将明显的是，可以在没有这些具体细节中的一个或多个的情况下实践这些创造性概念。

图1A和图1B示出了根据各种实施方案的通过声学系统100收听音频的收听者120。如图1A所示，声学系统100包括扬声器102(1)、102(2)和102(3)。每个扬声器102接收扬声器信号104并发出声波106。扬声器102(1)接收扬声器信号104(1)并发出声波106(1)(A)和106(1)(B)。扬声器102(2)接收扬声器信号104(2)并发出声波106(2)(A)和106(2)(B)。扬声器102(3)接收扬声器信号104(3)并发出声波106(3)(A)和106(3)(B)。

扬声器102(1)、102(2)和102(3)位于收听环境内围绕收听者120的不同位置处。如图1A所示，收听者120位于扬声器102的中心。收听者120面向扬声器102(3)定向，使得扬声器102(3)位于收听者120前面，并且扬声器102(1)和102(2)位于收听者120后面。

由扬声器102发出的声波106作为感知声音信号110(A)和110(B)到达收听者120的耳部。如图1A所示，感知声音信号110(A)包括声波106(1)(A)、106(2)(A)和106(3)(A)的组合。感知声音信号110(B)包括106(1)(B)、106(2)(B)和106(3)(B)的组合。在收听者120的左耳处接收到感知声音信号110(A)，并且在收听者120的右耳处接收到感知声音信号110(B)。

为了产生沉浸式声音体验，每个扬声器102可以接收不同的扬声器信号104以发出不同的声波106。例如，扬声器102(1)可以接收扬声器信号104(1)，该扬声器信号104(1)对应于指向收听者的左耳的声音，而扬声器102(2)可以接收扬声器信号104(2)，该扬声器信号104(2)对应于指向收听者的右耳的声音。表示声学系统100的示例性方程由方程(1)给出：

w＝v·C (1)

在方程(1)中，w表示在收听者120的耳部处接收到的音频信号(例如，感知声音信号110(A)和110(B))，v表示提供给扬声器102的输入音频信号(例如，扬声器信号104(1)-(3))，C表示包括从扬声器102到收听者120的耳部的传输路径(例如，声波106的路径)的声学系统100。

然而，扬声器102(1)发出的声波106(1)在收听者的左耳(声波106(1)(A))和收听者的右耳(声波106(1)(B))两者处接收。类似地，扬声器102(2)发出的声波106(2)在收听者的左耳(声波106(2)(A))和收听者的右耳(声波106(2)(B))两者处接收。

图1B示出了经由目标声学系统150收听音频的收听者120。如图1B所示，目标声学系统150包括多个扬声器，即扬声器132(1)-(N)。多个扬声器132(1)-(N)可以位于收听环境内的不同位置，类似于上面关于图1A中的扬声器102所示。目标声学系统150接收输入音频信号130并发出声波134(A)和134(B)。声波134(A)和134(B)通常表示由多个扬声器132(1)-(N)中的一个或多个扬声器发出的声波。

目标声学系统150的目标是以使得声波134(A)和134(B)作为目标感知音频信号140(A)和140(B)到达收听者120的耳部的方式渲染输入音频信号130。目标感知音频信号140(A)和140(B)分别表示收听者120的左耳和右耳要听到的目标声音。作为示例，目标声音可以是被收听者120感知为位于收听环境中的目标位置处且串扰或其他音频干扰最小的声音。为了成功地产生目标感知音频信号140(A)和140(B)，目标声学系统150生成具有一组目标特性的声波134(A)和134(B)。目标特性可以包括，例如，串扰消除、HRTF(头部相关传递函数)位置或BRIR(双耳房间脉冲响应)位置。表示目标声学系统150的示例性方程由方程(2)给出：

d＝a·u (2)

在方程(2)中，d表示要在收听者的耳部处接收到的期望音频信号(例如，目标感知声音信号140(A)和140(B))，u表示要处理的输入音频信号(例如，输入音频信号130)，并且a表示期望目标特性(例如，声波134(A)和134(B)的期望目标特性)。表示目标特性的示例性方程由方程(3A)-(3C)给出。

a₁＝δ(n)，a₂＝0 (3A)

a₁＝HRTE_L(pos)，a₂＝HRTE_R(pos) (3B)

a₁＝BRIR_L(pos)，a₂＝BRIR_R(pos) (3C)

在方程(3A)-(3C)中，a₁表示针对收听者120左侧的声波(例如，声波134(A))的目标特性，并且a₂表示针对收听者120右侧的声波(例如，声波134(B))的目标特性。如图所示，方程(3A)表示串扰消除的目标特性，并且方程(3B)和(3C)表示双耳声定位的目标特性。

要使用给定声学系统(例如，声学系统100)生成一组期望音频信号(例如，目标感知声音信号140(A)和140(B))，将一组滤波器应用于输入音频信号130。该特定组的滤波器可以根据目标特性以及声学系统的属性而变化。方程(4)给出了用于从声学系统获得期望音频信号的示例性方程：

d＝((h·C)·a)·u (4)

如方程(4)所示，h表示该组滤波器，C表示声学系统(例如，声学系统100)，u表示要处理的输入音频信号，并且a表示期望目标特性，诸如由上述方程(3A)-(3C)表示的那些。

在实践中，如果声学系统没有优化配置，声学系统的动态范围就会减小。因此，如下文进一步详细描述的，从包括在声学系统中的该组扬声器中选择扬声器的最佳子集，用于渲染要在收听者的耳部处接收的期望音频信号，诸如目标感知声音信号140(A)和140(B)。

图2示出了根据各种实施方案的声学系统200的示例性扬声器布置。如图2所示，声学系统200包括多个扬声器202(1)-(5)。每个扬声器202物理上位于声学系统200的收听环境内的不同位置。收听者220位于扬声器202附近。收听者220被定向为使得收听者220的前面面向扬声器202(2)。扬声器202(1)和202(3)分别位于收听者220的左前方和右前方。扬声器202(4)和202(5)位于收听者220的后面。在一些实施方案中，扬声器202(4)和202(5)形成偶极子组。

收听者220经由扬声器202收听声学系统200发出的声音。为了提供沉浸式收听体验，声学系统200渲染音频，使得收听者220将音频感知为位于收听环境内的特定位置。如图2所示，音频的一部分与目标位置210相关联。目标位置210与收听环境内的收听者220相距距离212。当收听者220听到时，由声学系统200产生的期望音频信号应该被感知为源自目标位置210。

在一些实施方案中，包括在多个扬声器202中的扬声器的子集被选择用于产生期望音频信号。即，选择能够更好地再现具有期望目标行为的沉浸式音频的扬声器202的子集。在一些实施方案中，扬声器202的子集包括至少三个扬声器。在一些实施方案中，扬声器的子集至少包括相对于扬声器所定向的方向定位在收听者的左侧的第一扬声器202和定位在收听者的右侧的第二扬声器202。例如，子集可以包括扬声器202(1)或202(4)中的至少一者和扬声器202(3)或202(5)中的至少一者。在一些实施方案中，扬声器的子集至少包括相对于扬声器所定向的方向定位在收听者的前面的第一扬声器和定位在收听者的后面的第二扬声器。例如，子集可以包括扬声器202(1)、202(2)或202(3)中的至少一者和扬声器202(4)或202(5)中的至少一者。

在一些实施方案中，为了选择扬声器202的子集，确定每个扬声器202与目标位置210之间的感知距离。感知距离指示在感知意义上，扬声器202距目标位置210有多远。在感知上最接近目标位置210的扬声器202被选择为扬声器的子集。

图3示出了根据各种实施方案的图2的声学系统200的图表示300。如图3所示，每个扬声器202(1)-(5)和目标位置210在图表示300中被表示为不同的节点。表示扬声器202的每个节点通过图表示300的边(诸如边310(1)-(5))连接到表示目标位置210的节点。表示扬声器202的每个节点还通过图表示300的边连接到表示另一个扬声器202的每个其他节点。例如，表示扬声器202(3)的节点分别通过边312(1)-(4)连接到表示扬声器202(1)、202(2)、202(4)和202(5)的节点。

在一些实施方案中，第一感知函数(λ₁)用于针对图表示300的每个边计算与边相关联的权重。权重指示连接到边的节点之间的感知距离，即，一对扬声器202之间或扬声器202与目标位置210之间的感知距离。

在一些实施方案中，第一感知函数是使用一组一个或多个启发法和/或规则来实现的。该组一个或多个启发法和/或规则可以考虑，例如，收听环境内收听者的数量、收听者的位置、收听者的定向、声学系统中扬声器的数量、扬声器的位置、是否一对扬声器形成偶极子组、扬声器相对于收听者位置的位置、目标位置相对于收听者位置的位置、目标位置相对于收听者定向的定向、收听环境的类型和/或收听环境和/或声学系统的其他特性。具体启发法和/或规则可能会例如取决于给定的声学系统、声学系统所在的给定收听环境、正在播放的音频类型、用户指定的偏好等而有所不同。

在一些实施方案中，基于给定声学系统的特性，生成描述给定声学系统中的扬声器的特征向量集X＝{x₁,x₂,…,x_n}，其中n表示给定声学系统中的扬声器的数量，并且特征向量集中的每个特征向量x根据该组一个或多个启发法来表征对应的扬声器。在一些实施方案中，特征向量中的每个特征对应于该组启发法考虑的不同特征和/或因素。例如，一组启发法可以考虑从扬声器到目标位置的角距离、从扬声器到目标位置的物理距离、为偶极子组的一部分的扬声器、从扬声器到收听者的角距离、从扬声器到收听者的物理距离和/或与源的定向相比的收听者的定向。在一些实施方案中，从扬声器到目标位置的角距离表示相对于收听者的扬声器的定向与目标位置的定向之间的差异。在一些实施方案中，从扬声器到收听者的角距离表示相对于目标位置的扬声器的定向与收听者的定向之间的差异。在一些示例中，特征向量x_i可以包括以下中的一者或多者：与从第i个扬声器到目标位置210的角距离相对应的第一特征x_i,1、与从第i个扬声器到目标位置210的物理距离相对应的第二特征x_i,2、与第i个扬声器是否是偶极子组的一部分相对应的第三特征x_i,3、与从第i个扬声器到收听者220的角距离相对应的第四特征x_i,4、与从第i个扬声器到收听者220的物理距离相对应的第五特征x_i,5，或与相对于目标位置210的定向的收听者220的定向相对应的第六特征x_i,6。此外，在一些实施方案中，为目标位置生成特征向量。在一些实施方案中，目标位置的该组启发法考虑的特征和/或因素与上面讨论的关于声学系统中的扬声器的特征和/或因素相似或相同。

参考图3，生成对应于扬声器202(1)-(5)的特征向量集。每个特征向量根据该组一个或多个启发法描述扬声器202的特性。在一些实施方案中，生成图表示300包括生成与扬声器202相对应的特征向量集并将每个特征向量与图中的对应节点相关联。对应于边的权重是基于与边连接的节点相关联的特征向量计算的。用于计算与图表示300的边相对应的权重的示例性函数λ₁由方程(5)给出：

在方程(5)中，W_ij表示图表示300中第i个节点和第j个节点之间的边的权重。x_i表示与第i个节点相关联的特征向量，并且x_j表示与第j个节点相关联的特征向量。σ表示特征值的标准偏差。

图4示出了根据各种实施方案的扬声器202和目标位置210之间的感知距离402的表示400。如图4所示，扬声器202(1)-(5)距目标位置210分别是感知距离402(1)-(5)。每个感知距离402是基于根据一组规则和/或启发法评估连接节点的特征来计算的。例如，感知距离402(1)对应于基于扬声器202(1)和目标位置210的特征针对边310(1)计算的权重。

从扬声器202到目标位置210的感知距离可以不同于在收听环境中从扬声器202到目标位置210的物理距离。如图4所示，扬声器202(2)、扬声器202(4)和扬声器202(5)在感知上离目标位置210最近，而扬声器202(1)离目标位置210最远。然而，参考图2，扬声器202(1)和202(2)在物理上最接近目标位置210。类似地，扬声器202(4)和202(5)在物理上更远离目标位置210定位，但是感知距离402(4)和402(5)指示扬声器202(4)和202(5)在感知上接近目标位置210。

如图4所示，扬声器的子集410基于到目标位置210的感知距离(例如，感知距离402(1)-(5))来选择。可以使用用于从图中选择或识别附近节点的任何技术上可行的算法来执行选择。在一些实施方案中，使用聚类算法(诸如Kruskal算法)基于图表示300来选择扬声器202的子集。聚类算法将图表示300的节点划分为一个或多个子图，其中子图中的节点在感知上接近子图中的其他节点，即与子图中的其他节点具有最短感知距离。所选择的扬声器202的子集包括属于与目标位置210相同的子图中的扬声器(例如，扬声器202(2)、202(4)和202(5))。

在选择扬声器202的子集之后，使用所选择的扬声器202的子集生成一组滤波器以渲染音频。参考方程(4)，基于表示扬声器202的子集的声学属性的矩阵C生成一组滤波器h。计算该组滤波器h使得该组滤波器h是矩阵C的逆矩阵。当h是C的逆矩阵时，方程(4)计算为方程(2)中所示的方程，即，声学系统被配置为产生期望音频信号的目标声学系统。如上所述，如果由C表示的声学系统是病态的，则基于C计算h会导致声学系统的动态范围减小。在一些实施方案中，为了改善声学系统生成的声音，基于表示所选择的扬声器的子集而不是整个声学系统的矩阵C计算该组滤波器h。

图5示出了根据各种实施方案的用于与声学系统一起使用或联接到声学系统的示例性计算装置500的框图。如图所示，计算装置500包括处理单元510、输入/输出(I/O)装置520和存储器装置530。存储器装置530包括被配置为与数据库534交互的音频处理应用532。计算装置500联接到一个或多个传感器540和多个扬声器550。

处理单元510可以包括一个或多个中央处理单元(CPU)、一个或多个数字信号处理单元(DSP)等。处理单元510被配置为执行音频处理应用532以执行本文描述的音频处理功能中的一者或多者。

I/O装置520可包括输入装置、输出装置以及既能够接收输入又能够提供输出的装置。例如，但不限于，I/O装置520可以包括有线和/或无线通信装置，所述有线和/或无线通信装置向声学系统可以联接到的传感器540、扬声器550和/或各种类型的音视频装置(例如，移动装置、DSP、放大器、音视频接收器等)发送数据和/或从其接收数据。此外，在一些实施方案中，I/O装置520包括接收将由扬声器550再现的声音分量(例如，经由网络，诸如局域网和/或互联网)的一个或多个有线或无线通信装置。

存储器装置530可以包括存储器模块或存储器模块的集合。存储器装置530内的音频处理应用532可以由处理单元510执行以实现计算装置500的音频处理功能，诸如确定与输入音频信号相关联的目标位置、确定与声学系统相关联的特征数据、选择声学系统的扬声器、生成音频滤波器等。数据库534可以存储数字信号处理算法、多组启发法和规则、声音分量、扬声器特征数据、对象识别数据、位置数据、定向数据等。

计算装置500作为一个整体可以是微处理器、片上系统(SoC)、诸如平板电脑或手机的移动计算装置、媒体播放器等。在一些实施方案中，计算装置500可以联接到声学系统，但与声学系统分离。在此类实施方案中，声学系统100可以包括从计算装置500接收数据(例如，扬声器信号)和向计算装置500传输数据(例如，传感器和系统数据)的单独处理器，计算装置500可以包括在消费电子装置(诸如智能手机、便携式媒体播放器、个人电脑、车载主机单元、导航系统等)中。例如，但不限于，计算装置500可以与提供附加处理能力的外部装置通信。然而，本文公开的实施方案预期被配置为实现本文所述的声学系统中的任一者的功能的任何技术上可行的系统。

在一些实施方案中，计算装置500被配置为分析由传感器540获取的数据以确定一个或多个收听者在声学系统的收听环境内的位置和/或定向。在一些实施方案中，计算装置500从另一计算装置接收指示一个或多个收听者的位置的位置数据和/或指示一个或多个收听者的定向的定向数据。在一些实施方案中，计算装置500将指示一个或多个收听者的位置的位置数据存储在数据库534中和/或将指示一个或多个收听者的定向的定向数据存储在数据库534中。

在一些实施方案中，计算装置500被配置为分析由传感器540获取的数据以确定声学系统的一个或多个收听者的位置和/或定向。在一些实施方案中，计算装置500从另一计算装置和/或从声学系统接收指示一个或多个扬声器的位置的位置数据和/或指示一个或多个扬声器的定向的定向数据。在一些实施方案中，计算装置500将指示一个或多个扬声器的位置的位置数据存储在数据库534中和/或将指示一个或多个扬声器的定向的定向数据存储在数据库534中。

在一些实施方案中，计算装置500被配置为分析由传感器540获取的数据以确定收听环境的一个或多个属性，诸如收听环境的类型、收听环境的声学属性、一个或多个对象在收听环境内的位置、一个或多个对象在收听环境内的定向、一个或多个对象在收听环境内的反射率等。在一些实施方案中，计算装置500从另一计算装置和/或从用户输入(例如经由I/O装置520)接收指示收听环境的一个或多个属性的环境数据。在一些实施方案中，计算装置500将指示收听环境的一个或多个属性的环境数据存储在数据库534中。

如以下进一步详细解释的，计算装置500被配置为接收音频输入信号。音频输入信号的一部分与收听环境内的特定位置相关联。计算装置500选择包括在声学系统中的用于播放音频输入信号的部分的扬声器的子集。计算装置500基于音频输入信号的部分针对子集中的每个扬声器生成扬声器信号。生成扬声器信号可以基于例如扬声器相对于用户的位置和/或定向的位置和/或定向、扬声器相对于特定位置的位置和/或定向、扬声器相对于子集中其他扬声器的位置和/或定向的位置和/或定向和/或收听环境的一个或多个属性。当计算装置500生成的扬声器信号由扬声器的子集发出时，收听者听到的声音被收听者感知为位于特定位置处。

在一些实施方案中，计算装置500将生成的扬声器信号传输到声学系统。在一些实施方案中，计算装置500将生成的扬声器信号传输到一个或多个其他计算装置以供进一步处理。例如，计算装置500可以将扬声器信号传输到混合器。混合器确定使用由计算装置500确定的扬声器信号和扬声器选择与使用由其他计算装置和/或使用其他方法确定的扬声器信号和扬声器选择之间的混合比。

图6A示出了根据各种实施方案的用于产生沉浸式声音的示例性声学系统600。如图6A所示，声学系统600包括系统分析模块620、双耳音频渲染器630、混合器650、BRIR选择模块660和多个扬声器550。声学系统600接收源信号610。源信号610包括与位置614相关联的音频612。

双耳音频渲染器630接收源信号610并生成一组扬声器信号，该组扬声器信号可以提供给扬声器550的至少子集。双耳音频渲染器630可以作为音频处理应用532的一部分被包括在内。在一些实施方案中，系统分析模块620、双耳音频渲染器630、混合器650和BRIR选择模块660每个都包括在音频处理应用532中。在一些实施方案中，系统分析模块620、混合器650或BRIR选择模块660中的一者或多者包括与音频处理应用532分离和/或在计算装置500和/或与计算装置500分离的计算装置上单独实现的应用。如图所示，双耳音频渲染器630包括双耳音频发生器632、扬声器选择器634和滤波器计算器636。

在一些实施方案中，如果源信号610包括非双耳音频，则双耳音频渲染器630将非双耳音频转换为双耳音频。在操作中，双耳音频发生器632接收包括在源信号610中的音频612和位置614，并且基于音频612和位置生成双耳音频。双耳音频发生器632可以使用用于基于非双耳音频生成双耳音频的任何技术上可行的方法来生成双耳音频。

扬声器选择器634接收包括在源信号610中的位置614并从扬声器550中选择扬声器的子集。扬声器选择器634基于一组一个或多个启发法和/或规则从扬声器550选择扬声器的子集，诸如图3和图4的示例中所示。该组一个或多个启发法和/或规则可以考虑，例如，收听环境内收听者的数量、收听者的位置、收听者的定向、声学系统中扬声器的数量、扬声器的位置、是否一对扬声器形成偶极子组、扬声器相对于收听者位置的位置、目标位置相对于收听者位置的位置、目标位置相对于收听者定向的定向、收听环境的类型和/或收听环境和/或声学系统的其他特性。

在一些实施方案中，扬声器选择器634基于与收听环境中的一个或多个收听者以及扬声器550相关联的位置和/或定向数据来评估该组启发法和/或规则。此外，扬声器选择器634可以基于收听环境和/或声学系统的属性来评估该组启发法和/或规则。

在一些实施方案中，扬声器选择器634从数据库534检索位置数据、定向数据和/或环境数据。在一些实施方案中，扬声器选择器634从系统分析模块620接收位置数据、定向数据和/或环境数据。系统分析模块620被配置为分析例如来自传感器540的传感器数据，并生成位置数据、定向数据和/或环境数据。此外，在一些实施方案中，当生成位置数据、定向数据和/或环境数据时，系统分析模块620还被配置为分析与声学系统600相关联的信息，诸如系统属性、扬声器配置信息、用户配置信息、用户输入数据等。

如图所示，系统分析模块620生成指示收听者位置622、收听者定向624和扬声器位置626的数据。收听者位置622针对收听环境中的每个收听者指示收听者在收听环境内的位置。收听者定向624针对收听环境中的每个收听者指示收听者在收听环境内的定向。扬声器位置626针对声学系统600中的每个扬声器550指示扬声器在收听环境内的位置。在各种实施方案中，系统分析模块620生成的数据可以包括较少类型的数据或可以包括图6A至图6B中未示出的附加类型的数据，诸如指示声学系统和/或收听环境的其他属性的数据。

在一些实施方案中，扬声器选择器634计算每个扬声器550与位置614之间的感知距离。扬声器550与位置614之间的感知距离基于评估该组启发法和/或规则来指示扬声器550与位置614的接近程度。在一些实施方案中，扬声器选择器634生成对应于多个扬声器550的特征向量集。特征向量集包括针对多个扬声器550中包括的每个扬声器的不同特征向量。每个特征向量包括一个或多个特征值，其中每个特征值对应于由该组启发法和/或规则中的启发法或规则考虑的不同特征和/或因素。扬声器选择器634基于对应于扬声器550的特征向量计算每个扬声器550与位置614之间的感知距离。上面参考方程(5)描述了用于计算扬声器550与位置614之间的感知距离的示例性方程。

扬声器选择器634基于从扬声器550到位置614的感知距离来选择扬声器550的子集。在一些实施方案中，扬声器选择器634选择在感知上最接近位置614的扬声器550的子集。

在一些实施方案中，选择扬声器550的子集进一步基于子集中扬声器的阈值数量。扬声器选择器634至少选择在感知上最接近位置614的阈值数量的扬声器。例如，如果扬声器的阈值数量是三个，则扬声器选择器634选择与位置614的感知距离最短的三个扬声器550。

在一些实施方案中，选择扬声器550的子集进一步基于阈值感知距离。扬声器选择器634选择到位置614的感知距离小于阈值感知距离的扬声器550。

在一些实施方案中，选择扬声器550的子集进一步基于扬声器550相对于收听者位置的位置。例如，扬声器550的子集可能需要包括位于收听者左侧的至少一个扬声器和位于收听者右侧的至少一个扬声器。扬声器选择器634选择位于收听者左侧的与位置614具有最短感知距离的第一扬声器550，以及位于收听者右侧的与位置614具有最短感知距离的第二扬声器550。又如，扬声器550的子集可能需要包括位于收听者前面的至少一个扬声器和位于收听者后面的至少一个扬声器。扬声器选择器634选择位于收听者前面的与位置614具有最短感知距离的第一扬声器550，以及位于收听者后面的与位置614具有最短感知距离的第二扬声器550。

在一些实施方案中，扬声器选择器634生成包括多个节点和多个节点之间的多条边的图表示。每个节点对应于包括在多个扬声器550中的不同扬声器。另外，图表示包括对应于位置614的节点。扬声器选择器634基于由边连接的节点计算与每个边相关联的权重，其中权重指示由连接的节点表示的声学系统600的元素(例如，扬声器550或源信号610的位置614)之间的感知距离。

在一些实施方案中，扬声器选择器634生成特征向量集并且为包括在特征向量集中的每个特征向量生成图表示的节点。扬声器选择器634使用对应于连接的节点的特征向量来计算图表示的每条边的权重。

在一些实施方案中，扬声器选择器634基于与图表示的边相关联的权重来选择扬声器550的子集。例如，扬声器选择器634可以应用聚类算法来识别图表示中的节点集群。扬声器选择器634选择包括在也包括位置614的集群中的扬声器550的子集。

滤波器计算器636基于由扬声器选择器634选择的扬声器550的子集生成一组滤波器。对于每个扬声器550，该组滤波器包括一个或多个滤波器以应用于源信号610以生成用于扬声器550的扬声器信号。在一些实施方案中，滤波器计算器636基于扬声器550的子集的属性和与目标声音相关联的一个或多个目标特性来生成该组滤波器。该组滤波器应用于源信号610以生成扬声器信号，当由扬声器550的子集发出时，所述扬声器信号产生目标声音。在一些实施方案中，滤波器计算器636确定表示扬声器550的子集的属性和一个或多个目标特性的方程。滤波器计算器636评估该方程以生成该组滤波器。

在一些实施方案中，BRIR(双耳房间脉冲响应)选择模块660基于收听环境的混响特性来选择双耳房间脉冲响应。双耳房间脉冲响应可用于修改扬声器信号，以考虑收听环境的混响特性。在一些实施方案中，将双耳房间脉冲响应与该组滤波器一起应用于源信号610。在一些实施方案中，在选择该组扬声器和/或生成该组滤波器时使用双耳房间脉冲响应。例如，BRIR可以用作用于生成该组滤波器的目标特性，如上面关于方程(3C)所讨论的。

如图6A所示，由双耳音频渲染器630生成的扬声器信号被传输到混合器650。混合器650确定使用由双耳音频渲染器630产生的双耳渲染和使用其他音频渲染技术之间的混合比。如图所示，混合器650确定双耳音频渲染器630和振幅平移640之间的混合比。振幅平移640将源信号610同等地应用到多个扬声器550。在振幅平移640的情况下，当每个相应的扬声器550输出源信号610时，通过修改源信号的振幅来改变收听者感知到的声音所在的位置。混合器650根据确定的混合比将扬声器信号传输到扬声器550。

在一些实施方案中，混合器650使用第二感知函数(_λ2)来确定双耳音频渲染器630和振幅平移640之间的混合比。第二感知函数是使用一组一个或多个启发法和/或规则实现的函数。该组一个或多个启发法和/或规则可以例如考虑收听环境内的收听者的数量、收听者的位置、收听者的定向、多个扬声器550中的扬声器的数量、期望声音区性能、收听环境的类型或收听环境的其他特性，和/或用户偏好。由λ₂函数实现的该组启发法和/或规则可根据由λ₁函数实现的该组启发法和/或规则而变化。另外，具体启发法和/或规则可能会例如取决于混合的渲染方法、给定的声学系统、声学系统所在的给定收听环境、正在播放的音频类型、用户指定的偏好等而有所不同。

在一些实施方案中，混合器650使用第二感知函数来生成与双耳渲染相关联的分数。例如，该组启发法和/或规则中的每个启发法或规则可以与正值或负值(例如，+1、-1、+5、-5等)相关联。混合器650评估每个启发法或规则，并且如果声学系统600满足启发法或规则，则包括与启发法或规则相关联的值。混合器650基于与该组启发法和/或规则相关联的值来生成总分数。混合器650基于总分数来确定要相对于振幅平移的量使用的双耳渲染的量。

在一些实施方案中，一组总分数被映射到双耳渲染和振幅平移的不同比率。混合器650基于映射确定对应于总分数的比率。图8示出了根据各种实施方案的总分数和混合比之间的示例性映射。如图8所示，图800映射了由λ₂函数生成的不同总分数以及不同量的双耳渲染和振幅平移。尽管图8所示的图800描绘了总分数和混合比之间的非线性关系，但也可以使用其他类型的关系。

例如，表(1)示出了与感知函数λ₂相关联的一组示例性规则：

值	规则
		5	偏好声音区性能
-5	只有一个乘员
		-10	没有头枕扬声器
10	车内多偶极子CTC(串扰消除)
		-10,…,10	用户偏好

表(1)

如表(1)所示，每个规则都与整数值相关联。与每个规则相关联的值与规则的重要性相关联。例如，规则包括一个或多个用户偏好。用户偏好可以与更大的值相关联，使得在评估该组规则时用户偏好的权重更大。

混合器650评估每个规则以确定与规则相关联的值是否应该包括在λ₂函数中。方程(6)给出了用于基于值计算总分数的示例性λ₂函数：

在方程(6)中，val表示与该组规则相关联的值的总和。k表示用于改变系统在双耳和振幅平移模式之间转换的速度的参数。k的值可以根据给定的声学系统进行调整。θ表示渲染系统使用等量的双耳渲染和振幅平移的分数。参考图8，λ₂(val)＝1将指示使用仅具有完全双耳渲染的混合比，并且λ₂(val)＝0将指示使用仅具有振幅平移的混合比。

混合器650根据混合比将扬声器信号传输到扬声器550。扬声器550发出扬声器信号并生成对应于音频612的声音。在一些实施方案中，双耳音频渲染器630不是将该组扬声器信号传输到混合器650，而是将扬声器信号传输到扬声器550的子集。

图6B示出了根据各种其他实施方案的用于产生沉浸式声音的示例性声学系统670。如图6B所示，声学系统670包括系统分析模块620、双耳音频渲染器630、混合器650、3D音频渲染器680和多个扬声器550。声学系统600接收源信号610。源信号610包括与位置614相关联的音频612。

如图6B所示，3D(三维)音频渲染器680接收源信号610并将3D音频(诸如双耳音频)提供给双耳音频渲染器630。在一些实施方案中，3D音频渲染器680接收源信号610并将源信号610转换为3D音频。在一些实施方案中，3D音频渲染器680接收源信号610并确定与音频612相关联的位置614。确定位置614可以包括例如分析包括在源信号610中的一个或多个音频通道以确定位置614。例如，3D音频渲染器680可以分析一个或多个音频通道以确定音频612在其中可听到的通道，并且基于音频612在其中可听到的通道确定与音频612相对应的位置614。3D音频渲染器680基于位置614生成与音频612相对应的3D音频信号。

双耳音频渲染器630从3D音频渲染器680接收3D音频并生成一组扬声器信号，该组扬声器信号可以提供给扬声器550的至少子集。如上所述，双耳音频渲染器630可以作为音频处理应用532的一部分被包括在内。在一些实施方案中，系统分析模块620、双耳音频渲染器630、混合器650和3D音频渲染器680每个都包括在音频处理应用532中。在一些实施方案中，系统分析模块620、混合器650或3D音频渲染器680中的一者或多者包括与音频处理应用532分离和/或在计算装置500和/或与计算装置500分离的计算装置上单独实现的应用。

如图所示，双耳音频渲染器630包括扬声器选择器634和滤波器计算器636。双耳音频渲染器630选择扬声器550的子集，并针对子集中包括的每个扬声器550生成用于扬声器550的扬声器信号。以与上文参考图6A所讨论的方式类似的方式来执行选择扬声器550的子集并生成扬声器信号。

由双耳音频渲染器生成的扬声器信号被传输到混合器650。混合器650确定使用由双耳音频渲染器630产生的双耳渲染和使用其他音频渲染技术之间的混合比。如图所示，混合器650确定双耳音频渲染器630和振幅平移640之间的混合比。混合器650根据确定的混合比将扬声器信号传输到扬声器550，例如，由双耳音频渲染器630、振幅平移640或其组合生成的扬声器信号。以与上文参考图6A所讨论的方式类似的方式执行确定混合比。

在一些实施方案中，声学系统600被配置为产生以BRIR作为目标特性的声音，并且声学系统670被配置为产生以串扰消除作为目标特性的声音。可以选择声学系统的特定配置以基于期望的目标特性来渲染音频。

图7示出了根据各种实施方案的用于生成声学系统的沉浸式音频的方法步骤的流程图。尽管结合图5至图6B的系统描述了方法步骤，但是本领域技术人员将理解，被配置为以任何顺序执行方法步骤的任何系统在本公开的范围内。

如图所示，方法700开始于步骤702，其中音频处理应用532确定与音频的一部分相关联的表观位置。在一些实施方案中，音频的该部分与指示表观位置的元数据相关联和/或包括指示表观位置的元数据，并且音频处理应用532基于元数据确定表观位置。在一些实施方案中，音频的该部分包括多个音频通道。音频处理应用532确定音频的该部分在其中可听到的一个或多个音频通道，并且基于音频的该部分在其中可听到的通道来确定表观位置。

在步骤704中，音频处理应用532确定收听环境中一个或多个收听者的位置。在一些实施方案中，音频处理应用532根据存储的数据(诸如存储在数据库534中的位置数据和/或定向数据)来确定一个或多个收听者的位置。在一些实施方案中，音频处理应用532通过从传感器540获取传感器数据并分析所述传感器数据来确定一个或多个收听者的位置。可以使用任何技术上可行的场景分析或传感技术来执行基于传感器数据确定收听者的位置和/或定向。在一些实施方案中，音频处理应用532从一个或多个其他应用和/或被配置为确定收听者位置的计算装置接收一个或多个收听者的位置，例如位置和/或定向数据。

在步骤706中，音频处理应用532分析声学系统以选择扬声器的子集，用于在相对于一个或多个收听者的位置的表观位置处渲染音频信号的部分。以与上文关于扬声器选择器634所讨论的方式类似的方式来执行选择扬声器的子集。在一些实施方案中，音频处理应用532计算每个扬声器550与音频的部分的表观位置之间的感知距离。音频处理应用532选择在感知上最接近表观位置的扬声器的子集。

在一些实施方案中，音频处理应用532生成对应于多个扬声器550的特征向量集。特征向量集包括针对多个扬声器550中包括的每个扬声器的不同特征向量。每个特征向量包括一个或多个特征值，其中每个特征值对应于由该组启发法和/或规则中的启发法或规则考虑的不同特征。音频处理应用532基于对应于扬声器550的特征向量来计算每个扬声器550与音频的部分的表观位置之间的感知距离。

在一些实施方案中，音频处理应用532生成与多个扬声器550和音频的部分的表观位置相对应的图表示。音频处理应用532针对每个扬声器550并针对表观位置生成图表示中的对应节点。音频处理应用532针对每个扬声器550在表示扬声器550的节点与表示表观位置的节点之间生成边，并将该边与扬声器550和表观位置之间的感知距离相关联。在一些实施方案中，音频处理应用532还针对每个扬声器550在表示扬声器550的节点与表示每个其他扬声器550的节点之间生成边，并将每个边与扬声器550和另一个扬声器550之间的感知距离相关联。音频处理应用532对图表示执行一个或多个图聚类操作以识别在感知上最接近音频的部分的表观位置的扬声器的子集。

在步骤708中，音频处理应用532使用扬声器的子集确定与渲染音频信号的部分相关联的一组滤波器。以与上文关于滤波器计算器636所讨论的方式类似的方式来执行确定一组滤波器。在一些实施方案中，音频处理应用532基于所选择的扬声器的子集的一个或多个属性以及与声学系统相关联的一个或多个目标特性来确定该组滤波器。一个或多个目标特性可以包括例如串扰消除或双耳音频位置精度。

在步骤710中，音频处理应用532针对扬声器的子集中的每个扬声器基于该组滤波器和音频信号的部分来生成对应的扬声器信号。在一些实施方案中，扬声器的子集中的每个扬声器对应于该组滤波器中的一个或多个滤波器。音频处理应用532将对应于每个扬声器的一个或多个滤波器应用于音频的部分以生成用于该扬声器的扬声器信号。

在一些实施方案中，音频处理应用532将扬声器信号传输到混合器。混合器确定使用上述步骤702-710生成的扬声器信号与使用一种或多种其他技术生成的扬声器信号之间的混合比。混合器基于混合比将对应的扬声器信号传输到每个扬声器。以与上文关于混合器650描述的方式类似的方式执行确定混合比。

在一些实施方案中，混合器基于一组一个或多个启发法和/或规则来确定混合比。混合器基于该组启发法和/或规则来评估声学系统和收听环境以生成与声学系统和收听环境相对应的分数。混合器将分数映射到特定的混合比。

在步骤712中，音频处理应用532使对应的扬声器信号被传输到扬声器的子集中的每个扬声器。在一些实施方案中，音频处理应用532将扬声器信号传输到混合器。混合器确定混合比并基于混合比将对应的扬声器信号传输到每个扬声器。在一些实施方案中，音频处理应用532在不使用混合器的情况下将对应的扬声器信号传输到每个扬声器。

在一些实施方案中，音频处理应用532可以确定扬声器信号与其他扬声器信号之间的混合比，并基于该混合比将对应的扬声器信号传输到每个扬声器，而不是将扬声器信号传输到确定扬声器信号与其他扬声器信号之间的混合比的混合器。音频处理应用532可以与上文关于混合器650描述的方式类似的方式来确定混合比。

总之，一种声学系统包括多个扬声器，其中每个扬声器位于收听环境内的不同位置。所述声学系统包括分析与输入音频信号的一部分相关联的数据以确定与输入音频信号的部分相关联的位置的处理单元。处理单元基于与输入音频信号的部分相关联的位置、多个扬声器的位置和收听者在收听环境内的位置和/或定向来选择扬声器的子集以渲染输入音频信号的部分。处理单元基于扬声器的子集和一个或多个目标声音特性(诸如串扰消除和声音位置精度)来确定一组滤波器以应用于输入音频信号的部分。处理单元将该组滤波器应用于输入音频信号的部分以生成用于扬声器的子集的扬声器信号。处理单元确定使用扬声器信号或使用使用其他技术(例如振幅平移)生成的扬声器信号之间的混合比。处理单元将每个扬声器信号传输到扬声器的子集中的对应扬声器。当由扬声器的子集播放时，扬声器信号使得与输入音频信号的部分相对应的声音被感知为从与输入音频信号的部分相关联的位置发出。

所公开技术相对于现有技术的至少一个技术优势在于所述音频系统创建三维声音体验，同时减少串扰和由收听环境内的人和/或对象引起的其他干扰。此外，所述音频系统能够基于收听者的位置和/或定向调整三维声音体验，以考虑收听者的位置和/或定向的改变。因此，相对于现有方法，所述音频系统生成更加沉浸式和准确的声音。这些技术优点提供了优于现有技术方法的一个或多个技术进步。

1.各种实施方案包括用于为声学系统生成沉浸式音频的计算机实现的方法，所述方法包括：确定与音频的一部分相关联的表观位置；针对包括在所述声学系统的多个扬声器中的每个扬声器计算所述扬声器与所述表观位置之间的感知距离；基于所述多个扬声器与所述表观位置之间的所述感知距离来选择包括在所述多个扬声器中的扬声器的子集；基于扬声器的所述子集和所述声学系统的一个或多个目标特性生成一组滤波器；以及针对包括在扬声器的所述子集中的每个扬声器使用包括在所述一组滤波器中的一个或多个滤波器生成扬声器信号。

2.如条款1所述的方法，其中计算所述扬声器与所述表观位置之间的所述感知距离基于一组一个或多个启发法，其中每个启发法与相应扬声器的一个或多个属性相关联。

3.如条款1或条款2所述的方法，其中选择扬声器的所述子集包括选择包括在所述多个扬声器中的与所述表观位置具有最短感知距离的两个或更多个扬声器。

4.如条款1至3中任一项所述的方法，其中选择扬声器的所述子集包括：确定收听者的位置和收听者的定向；以及基于所述收听者的所述位置和所述收听者的所述定向，选择位于所述收听者左侧的至少第一扬声器和位于所述收听者右侧的至少第二扬声器。

5.如条款1至4中任一项所述的方法，其中选择扬声器的所述子集包括：确定收听者的位置和收听者的定向；以及基于所述收听者的所述位置和所述收听者的所述定向，选择位于所述收听者前面的至少第一扬声器和位于所述收听者后面的至少第二扬声器。

6.如条款1至5中任一项所述的方法，其中计算所述扬声器与所述表观位置之间的所述感知距离包括：生成多个节点，所述多个节点包括：针对包括在所述多个扬声器中的每个扬声器，对应于所述扬声器的第一节点和对应于所述表观位置的第二节点；生成连接所述多个节点的多个边；以及针对包括在所述多个边中的每个边基于连接到所述边的第一节点和连接到所述边的第二节点来计算对应于所述边的权重，其中所述权重指示所述第一节点与所述第二节点之间的感知距离。

7.如条款1至6中任一项所述的方法，其中选择扬声器的子集包括：基于对应于所述多个边的所述多个权重，识别包括在所述多个节点中的最接近所述第二节点的节点的子集；以及针对节点的所述子集中的每个节点选择对应于所述节点的所述扬声器。

8.如条款1至7中任一项所述的方法，其中所述一个或多个目标特性包括串扰消除或声音位置精度中的至少一者。

9.如条款1至8中任一项所述的方法，其中所述方法与第一渲染器相关联，所述方法还包括：确定使用由所述第一渲染器生成的音频和由第二渲染器生成的音频之间的混合比；以及针对包括在扬声器的所述子集中的每个扬声器基于所述混合比将所述扬声器信号传输到所述扬声器。

10.如条款1至9中任一项所述的方法，其中确定所述混合比基于一组一个或多个启发法，其中每个启发法与所述声学系统的一个或多个属性相关联。

11.如条款1至10中任一项所述的方法，其中所述第一渲染器使用双耳音频渲染并且所述第二渲染器使用振幅平移。

12.如条款1至11中任一项所述的方法，其中：生成所述扬声器信号包括接收双耳房间脉冲响应(BRIR)选择；并且生成所述扬声器信号基于所述BRIR选择。

13.各种实施方案包括一种或多种非暂时性计算机可读介质，其存储指令，所述指令在由一个或多个处理器执行时，致使所述一个或多个处理器执行以下步骤：确定与音频的一部分相关联的表观位置；针对包括在声学系统的多个扬声器中的每个扬声器计算所述扬声器与所述表观位置之间的感知距离；基于所述多个扬声器与所述表观位置之间的所述感知距离来选择包括在所述多个扬声器中的扬声器的子集；基于扬声器的所述子集和所述声学系统的一个或多个目标特性生成一组滤波器；以及针对包括在扬声器的所述子集中的每个扬声器使用包括在所述一组滤波器中的一个或多个滤波器生成扬声器信号。

14.如条款13所述的一种或多种非暂时性计算机可读介质，其中计算所述扬声器与所述表观位置之间的所述感知距离基于一组一个或多个启发法，其中每个启发法与相应扬声器的一个或多个属性相关联。

15.如条款13或条款14所述的一种或多种非暂时性计算机可读介质，其中选择扬声器的所述子集包括选择包括在所述多个扬声器中的与所述表观位置具有最短感知距离的两个或更多个扬声器。

16.如条款13至15中任一项所述的一个或多个非暂时性计算机可读介质，其中计算所述扬声器与所述表观位置之间的所述感知距离包括：生成对应于所述扬声器的一个或多个特征的第一特征向量；生成对应于所述表观位置的一个或多个特征的第二特征向量；以及基于所述第一特征向量与所述第二特征向量之间的差异来计算所述感知距离。

17.如条款13至16中任一项所述的一个或多个非暂时性计算机可读介质，其中选择扬声器的子集包括：生成多个节点，所述多个节点包括：针对包括在所述多个扬声器中的每个扬声器，对应于所述扬声器的第一节点和对应于所述表观位置的第二节点；生成连接所述多个节点的多个边；针对包括在所述多个边中的每个边基于连接到所述边的第一节点和连接到所述边的第二节点来计算对应于所述边的权重；基于对应于所述多个边的所述多个权重，识别包括在所述多个节点中的最接近所述第二节点的节点的子集；以及针对节点的所述子集中的每个节点选择对应于所述节点的所述扬声器。

18.如条款13至17中任一项所述的一种或多种非暂时性计算机可读介质，其中所述指令在由所述一个或多个处理器执行时进一步使得所述一个或多个处理器执行以下步骤：确定使用双耳渲染和振幅平移之间的混合比；并且针对包括在扬声器的子集中的每个扬声器，基于混合比将扬声器信号传输到扬声器。

19.如条款13至18中任一项所述的一种或多种非暂时性计算机可读介质，其中确定所述混合比基于一组一个或多个启发法，其中每个启发法与所述声学系统的一个或多个属性相关联。

20.各种实施方案包括一种系统，所述系统包括：一个或多个存储器，其存储指令；一个或多个处理器，其联接到所述一个或多个存储器，并且在执行所述指令时：确定与音频的一部分相关联的表观位置；针对包括在声学系统的多个扬声器中的每个扬声器计算所述扬声器与所述表观位置之间的感知距离；基于所述多个扬声器与所述表观位置之间的所述感知距离来选择包括在所述多个扬声器中的扬声器的子集；基于扬声器的所述子集和所述声学系统的一个或多个目标特性生成一组滤波器；以及针对包括在扬声器的所述子集中的每个扬声器使用包括在所述一组滤波器中的一个或多个滤波器生成扬声器信号。

权利要求中任一项所述的权利要求要素中的任一个和/或本申请中描述的任何要素的呈任何形式的任何和所有组合均落入本发明和保护的预期范围内。

对各种实施方案的描述已出于图解说明目的而呈现，而非旨在详尽或仅限于所公开的实施方案。本领域一般技术人员将明了许多修改和变化，而此并不背离所述实施方案的范围和精神。

本实施方案的各方面可体现为系统、方法或计算机程序产品。因此，本公开的各方面可采用以下形式：完全硬件实施方案、完全软件实施方案(包括固件、常驻软件、微代码等)或组合了软件方面与硬件方面的实施方案，所述各实施方案在本文中一般都可称为“模块”、“系统”或“计算机”。另外，本公开中描述的任何硬件和/或软件技术、过程、功能、部件、引擎、模块或系统可被实现为电路或电路的集合。此外，本公开的各方面可采用计算机程序产品的形式，所述计算机程序产品在其上实施有计算机可读程序代码的一个或多个计算机可读介质中实施。

可利用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是例如但不限于电子、磁性、光学、电磁、红外或半导体系统、设备或装置或前述介质的任何合适组合。计算机可读存储介质的更具体示例(非详尽列表)将包括以下介质：具有一个或多个导线的电气连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦可编程只读存储器(EPROM或快闪存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光学存储装置、磁存储装置或前述介质的任何合适的组合。在此文档的上下文中，计算机可读存储介质可以是可含有或存储程序以供指令执行系统、设备或装置使用或与指令执行系统、设备或装置连接的任何有形介质。

参考根据本公开的实施方案的方法、设备(系统)和计算机程序产品的流程图图解和/或框图来描述本公开的各方面。应理解，流程图图解和/或框图中的每个框以及流程图图解和/或框图中的框组合能够通过计算机程序指令来实现。可以将这些计算机程序指令提供给通用计算机、专用计算机或其他可编程数据处理设备的处理器以产生机器。当经由计算机或其他可编程数据处理设备的处理器执行指令时，使得能够实现流程图和/或框图的一个或多个框中所指定的功能/动作。这种处理器可为但不限于通用处理器、专用处理器、应用特定处理器或现场可编程门阵列。

附图中的流程图和框图示出根据本公开的各种实施方案的系统、方法和计算机程序产品的可能实现方式的体系结构、功能性和操作。在这个方面，流程图或框图中的每个框可以表示代码的模块、区段或部分，所述代码包括用于实现所指定的逻辑功能的一个或多个可执行指令。还应注意，在一些替代实现方式中，框中所提出的功能可不按附图中提出的顺序发生。举例来说，连续示出的两个框事实上可基本上同时地执行，或所述框有时可以相反的次序执行，具体情形要取决于所涉及的功能。还应当指出的是，框图和/或流程图图解的每个框以及框图和/或流程图图解中的框的组合可以由执行规定的功能或动作的基于专用硬件的系统或者专用硬件和计算机指令的组合来实现。

尽管前述内容针对本公开的实施方案，但是可在不背离其基本范围的情况下设计出本公开的其它和另外的实施方案，且所述基本范围由以下权利要求确定。

Claims

1.一种用于为声学系统生成沉浸式音频的计算机实现的方法，所述方法包括：

确定与音频的一部分相关联的表观位置；

针对包括在所述声学系统的多个扬声器中的每个扬声器计算所述扬声器与所述表观位置之间的感知距离；

基于所述多个扬声器与所述表观位置之间的所述感知距离来选择包括在所述多个扬声器中的扬声器的子集；

基于扬声器的所述子集和所述声学系统的一个或多个目标特性生成一组滤波器；以及

针对包括在扬声器的所述子集中的每个扬声器使用包括在所述一组滤波器中的一个或多个滤波器生成扬声器信号。

2.如权利要求1所述的方法，其中计算所述扬声器与所述表观位置之间的所述感知距离基于一组一个或多个启发法，其中每个启发法与相应扬声器的一个或多个属性相关联。

3.如权利要求1所述的方法，其中选择扬声器的所述子集包括选择包括在所述多个扬声器中的与所述表观位置具有最短感知距离的两个或更多个扬声器。

4.如权利要求1所述的方法，其中选择扬声器的所述子集包括：

确定收听者的位置和收听者的定向；以及

基于所述收听者的所述位置和所述收听者的所述定向，选择位于所述收听者左侧的至少第一扬声器和位于所述收听者右侧的至少第二扬声器。

5.如权利要求1所述的方法，其中选择扬声器的所述子集包括：

确定收听者的位置和收听者的定向；以及

基于所述收听者的所述位置和所述收听者的所述定向，选择位于所述收听者前面的至少第一扬声器和位于所述收听者后面的至少第二扬声器。

6.如权利要求1所述的方法，其中计算所述扬声器与所述表观位置之间的所述感知距离包括：

生成多个节点，所述多个节点包括：

针对包括在所述多个扬声器中的每个扬声器，对应于所述扬声器的第一节点和

对应于所述表观位置的第二节点；

生成连接所述多个节点的多个边；以及

针对包括在所述多个边中的每个边基于连接到所述边的第一节点和连接到所述边的第二节点来计算对应于所述边的权重，其中所述权重指示所述第一节点与所述第二节点之间的感知距离。

7.如权利要求6所述的方法，其中选择扬声器的所述子集包括：

基于对应于所述多个边的所述多个权重，识别包括在所述多个节点中的最接近所述第二节点的节点的子集；以及

针对节点的所述子集中的每个节点选择对应于所述节点的所述扬声器。

8.如权利要求1所述的方法，其中所述一个或多个目标特性包括串扰消除或声音位置精度中的至少一者。

9.如权利要求1所述的方法，其中所述方法与第一渲染器相关联，所述方法还包括：

确定使用由所述第一渲染器生成的音频和由第二渲染器生成的音频之间的混合比；以及

针对包括在扬声器的所述子集中的每个扬声器基于所述混合比将所述扬声器信号传输到所述扬声器。

10.如权利要求9所述的方法，其中确定所述混合比基于一组一个或多个启发法，其中每个启发法与所述声学系统的一个或多个属性相关联。

11.如权利要求9所述的方法，其中所述第一渲染器使用双耳音频渲染并且所述第二渲染器使用振幅平移。

12.如权利要求1所述的方法，其中：

生成所述扬声器信号包括接收双耳房间脉冲响应(BRIR)选择；并且

生成所述扬声器信号基于所述BRIR选择。

13.一种或多种非暂时性计算机可读介质，其存储指令，所述指令当由一个或多个处理器执行时，致使所述一个或多个处理器执行以下步骤：

确定与音频的一部分相关联的表观位置；

针对包括在声学系统的多个扬声器中的每个扬声器计算所述扬声器与所述表观位置之间的感知距离；

14.如权利要求13所述的一种或多种非暂时性计算机可读介质，其中计算所述扬声器与所述表观位置之间的所述感知距离基于一组一个或多个启发法，其中每个启发法与相应扬声器的一个或多个属性相关联。

15.如权利要求13所述的一种或多种非暂时性计算机可读介质，其中选择扬声器的所述子集包括选择包括在所述多个扬声器中的与所述表观位置具有最短感知距离的两个或更多个扬声器。

16.如权利要求15所述的一种或多种非暂时性计算机可读介质，其中计算所述扬声器与所述表观位置之间的所述感知距离包括：

生成对应于所述扬声器的一个或多个特征的第一特征向量；

生成对应于所述表观位置的一个或多个特征的第二特征向量；以及

基于所述第一特征向量与所述第二特征向量之间的差异来计算所述感知距离。

17.如权利要求13所述的一种或多种非暂时性计算机可读介质，其中选择扬声器的所述子集包括：

生成多个节点，所述多个节点包括：

对应于所述表观位置的第二节点；

生成连接所述多个节点的多个边；

针对包括在所述多个边中的每个边基于连接到所述边的第一节点和连接到所述边的第二节点来计算对应于所述边的权重；

18.如权利要求13所述的一种或多种非暂时性计算机可读介质，其中所述指令在由所述一个或多个处理器执行时进一步致使所述一个或多个处理器执行以下步骤：

确定使用双耳渲染和振幅平移之间的混合比；以及

19.如权利要求18所述的一种或多种非暂时性计算机可读介质，其中确定所述混合比基于一组一个或多个启发法，其中每个启发法与所述声学系统的一个或多个属性相关联。

20.一种系统，其包括：

一个或多个存储器，其存储指令；

一个或多个处理器，其联接到所述一个或多个存储器，并且在执行所述指令时：

确定与音频的一部分相关联的表观位置；