CN110574398B

CN110574398B - 使用定向分解和路径距离估计的环境立体声声场导航

Info

Publication number: CN110574398B
Application number: CN201880027598.XA
Authority: CN
Inventors: 安德鲁·艾伦
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2017-07-12
Filing date: 2018-06-15
Publication date: 2021-07-27
Anticipated expiration: 2038-06-15
Also published as: US20190373392A1; KR20190140022A; US10182303B1; US20190020967A1; WO2019013924A1; KR102311004B1; EP3652965A1; US20210160643A1; US10715944B2; JP2020522171A; CN110574398A; EP3652965B1

Abstract

向收听者渲染声音的技术包含在第一位置处确定方向集合，一些指定的分数的声场能量起源于所述方向集合，并且所述技术包含基于所述方向集合在第二位置处重建所述声场。按照这种方式，声音渲染计算机可以接收表示从以麦克风为中心的球面上的位置发出的声音的声音数据。然而，球面上的这些点中只有一小部分有助于针对所述收听者的大部分声场能量。所述声音渲染计算机使用定向分解来确定这些方向，在所述定向分解中，识别具有最高分数的声能量的那些方向。当所述收听者离开所述麦克风的位置时，所述声音渲染计算机在识别这些方向之后将振幅因数和相位因数应用于与那些方向对应的所述声场。

Description

使用定向分解和路径距离估计的环境立体声声场导航

相关申请的交叉引用

本申请要求2017年7月12日提交的名称为“AMBISONICS SOUND FIELD NAVIGATIONUSING DIRECTIONAL DECOMPOSITION AND PATH DISTANCE ESTIMATION”的美国非临时专利申请No.15/647,741的优先权并且是该案的接续案，其公开内容以引用方式全部并入本文中。

技术领域

本说明书涉及虚拟现实(VR)和相似环境中的声场渲染。

背景技术

环境立体声是完全球面的环绕声技术：除了水平面之外，其覆盖收听者上方和下方的声源。与其它多声道环绕格式不同，其传输声道不携带扬声器信号。相反，这些传输声道包含声场的与扬声器无关的表示(被称为B格式)，然后将其解码成收听者的扬声器设置。该额外步骤允许制作者根据源方向而非定向信号位置进行思考，并且就用于播放的扬声器的布局和数量而言为收听者提供了相当大程度的灵活性。

在环境立体声中，环绕收听者的虚拟定向信号阵列通过从各向同性记录的声源对以被认为是B格式的方案编码的声音文件进行解码来生成声场。在虚拟定向信号阵列处生成的声场可以从相对于收听者的任何有利地点再现声源的效果。这种解码可以用于在虚拟现实(VR)系统中通过耳机扬声器的音频传送中。双耳渲染的高阶环境立体声(HOA)是指创建许多定向信号，其组合起来以向左右耳机扬声器提供一对信号。

发明内容

在一个总体方面中，一种方法可以包括：通过控制被配置为向收听者渲染声场的声音渲染计算机的电路接收由定向信号源在空间中的第一位置处产生的声场造成的声音数据，每个定向信号源都产生对声场有帮助的定向信号。该方法还可以包括：通过控制电路，基于声音数据来识别定向信号源的多个方向，该多个方向是在第一位置处产生至少指定的分数的声场能量所以的方向。该方法还可以包括：通过控制电路获得定向信号源距空间中的第一位置的多个距离。该方法还可以包括：通过控制电路，基于多个方向和多个距离在第二位置处产生声场，该第二位置与第一位置不同。

在附图和以下描述中阐述了一种或多种实施方式的细节。其它特征将通过说明书、附图和权利要求书而变得显而易见。

附图说明

图1是图示了用于实施本文中所描述的改进技术的示例电子环境的示意图。

图2是图示了根据本文中所描述的改进技术的示例定向信号源方向和距离的示意图。

图3是图示了根据本文中所描述的改进技术的在声场导航期间的示例定向信号源方向和距离的示意图。

图4是图示了根据本文中所描述的改进技术的在房间中具有反射的示例声场导航的示意图。

图5是图示了在图1中所示的电子环境内执行改进技术的示例方法的流程图。

图6图示了可与此处描述的电路一起使用的计算机装置和移动计算机装置的示例。

具体实施方式

用于渲染HOA声场的常规方法包含将收听者置于记录声场的精确位置处。当收听者导航离开记录的位置时，这些常规方法引起再现错误。此外，常规导航方法在反射环境中对源进行不良地模型化。

根据本文中所描述的实施方式并且与上述用于渲染HOA声场的常规方法相反，改进技术包含在第一位置处确定方向集合，一些指定的分数的声场能量起源于该方向集合，并且该技术包含基于此方向集合在第二位置处重建声场。按照这种方式，声音渲染计算机可以接收表示从以麦克风为中心的球面上的过多位置发出的声音的声音数据。在一些实施方式中，表示从每个点发出的声音的声音数据包括该点的声场的球谐函数表示的系数。该声场是麦克风的位置处的收听者可以听到的声音。然而，这些定向信号中只有一小部分实际上有助于针对收听者的大部分声场能量。声音渲染计算机使用定向分解来确定这些方向，在该定向分解中，识别具有最高分数的声能量的那些方向。当收听者离开麦克风的位置时，声音渲染计算机在识别这些方向之后将振幅因数和相位因数应用于与那些方向对应的声场。声音渲染计算机还可以在那些方向上接收定向信号距麦克风的距离的测量。此外，通过构建定向信号的相似度矩阵，声音渲染计算机可以确定定向信号是直接声源还是来自另一声音源的反射。

有利地，这种声音渲染计算机可以在考虑到房间中的反射的同时对声场执行实时更新。这些实时更新避免了某些技术的密集计算要求以及其它技术上的不准确性，这些不准确性可以导致例如低通错误和定向错误。

图1是图示了示例电子环境100的示意图，在该示例电子环境中可以实现上述改进技术。如图1所示，示例电子环境100包括声音渲染计算机120。

声音渲染计算机120配置成针对收听者渲染声场。声音渲染计算机120包括网络接口122、一个或多个处理单元124和存储器126。网络接口122包括例如用于将从网络170接收到的电子信号和/或光信号转换成电子形式以供声音渲染计算机120使用的以太网适配器、令牌环适配器等。这组处理单元124包括一个或多个处理芯片和/或组件。存储器126包括易失性存储器(例如，RAM)和非易失性存储器(诸如，一个或多个ROM、磁盘驱动器、固态驱动器等)二者。这组处理单元124和存储器126共同形成控制电路，该控制电路被配置且布置成实施如本文中所描述的各种方法和功能。

在一些实施例中，声音渲染计算机120的部件中的一个或多个可以是或可以包括被配置为处理存储在存储器126中的指令的处理器(例如，处理单元124)。如图1中所描绘的这些指令的示例包括声音获取管理器130、距离获取管理器140、定向分解管理器150、声场导航管理器160和定向信号标记管理器170。此外，如图1中所图示，存储器126被配置为存储各种数据，这些数据是相对于使用这种数据的相应管理器来描述的。

声音获取管理器130被配置为从各种源获取声音数据132。例如，声音获取管理器130可以从光驱动器或通过网络接口122来获得声音数据132。一旦其获取声音数据132，声音获取管理器还被配置为将声音数据132存储在存储器126中。在一些实施方式中，声音获取管理器130通过网络接口122来流传输声音数据132。

在一些实施方式中，用四个部件或环境立体声声道将声音数据132编码为B格式或一阶环境立体声。在一些实施方式中，将声音数据132编码为高阶环境立体声，例如，编码成阶L。在这种情况下，其为(L+1)²环境立体声声道，每个声道与从定向信号源发出的声场的球谐函数(SH)展开中的项对应。在一些实施方式中，将声音数据132表示为矩阵，其中，每个采样表示为行，且每个HOA声道表示为列。

距离获取管理器140可以被配置为获取球面上的一组选定的点的距离数据144。可以将这些点包括在方向数据152中，并且可以经由定向分解管理器150来确定这些点。在一些实施方式中，可以使用球面相机来获取距离数据144。

定向分解管理器150可以被配置为生成主导方向(即，定向信号方向)(指定的分数(例如，50％)的声场能量起源于该主导方向)并且被配置为将那些方向存储在方向数据152中。定向分解管理器150可以被配置为对声音数据132执行定向分解操作以确定那些方向。在一些实施方式中，定向分解管理器150还可以被配置为以声能量分数的顺序将与主导方向相关联的声场数据存储在阵列中。针对图2更详细地讨论了定向分解操作。

声场导航管理器160可以被配置为生成对声音数据132的校正，该校正可以在考虑到收听者根据平移数据162的平移的情况下表达为平移的声音数据166。例如，当收听者离开麦克风位置(即，球面的从其测量方向数据的中心)时，追踪系统可以在任何给定时间处提供平移数据162。作为响应，声场导航管理器160可以沿着方向数据152中所包括的各种主导方向将振幅和相位校正应用于声音数据，以产生如表达为平移的声音数据166的平移的声场。在一些实施方式中，将平移的声音数据166表示为针对每个主导方向的SH展开。针对图3更详细地描述了由声场导航管理器160应用的振幅和相位校正。

在一些实施方式中，在收听者导航到的空间中可能存在如下位置，这些位置可存在用于再现声音的困难，即，定向信号可能无法在这些位置中忠实地再现声音。在一些实施方式中，可以通过由如图1所示的定向信号源位置数据142定义的定向信号源位置的凸包来确定这些位置。在这种情况下，声场导航管理器160进一步被配置为生成定向信号源位置的凸包并且将凸包作为凸包数据164进行存储。声场导航管理器160然后被配置为确定来自平移数据162的平移是在表示为凸包数据的凸包的内部还是在外部，并且如果在外部，那么产生可以无法在由该平移定义的点处准确地再现声场的指示。

定向信号标记管理器170被配置为产生定向信号标记数据172，该定向信号标记数据指示在特定方向上传播的定向信号是正在直接产生声音还是正在产生由来自另一定向信号的声音反射而生成的声音。定向信号标记管理器170被配置为执行定向信号标记操作以产生定向信号标记数据172。在一些实施方式中，定向信号标记操作包含执行来自成对方向的声场之间的互相关。在由已知的直接定向信号环另一定向信号生成的声场之间的互相关大于一些阈值(例如，0.5)的这种情况下，来自另一定向信号的声场被视为对来自已知的直接定向信号的声音的反射。

在一些实施方式中，存储器126可以是任何类型的存储器，诸如随机存取存储器、硬盘驱动器存储器、闪速存储器等。在一些实施方式中，可以将存储器126实施为与声音渲染计算机120的部件相关联的一个以上的存储器部件(例如，一个以上的RAM部件或磁盘驱动器存储器)。在一些实施方式中，存储器126可以是数据库存储器。在一些实施方式中，存储器126可以是或可以包括非本地存储器。例如，存储器126可以是或可以包括由多个装置(未示出)共享的存储器。在一些实施方式中，存储器126可以与网络内的服务器装置(未示出)相关联并且被配置成为声音渲染计算机120的部件服务。

声音渲染计算机120的部件(例如，模块、处理单元124)可以被配置为基于一个或多个平台(例如，一个或多个相似或不同的平台)来操作，该一个或多个平台可以包括一种或多种类型的硬件、软件、固件、操作系统、运行时间库等。在一些实施方式中，声音渲染计算机120的部件可以被配置为在装置集群(例如，服务器场)内操作。在这种实施方式中，声音渲染计算机120的部件的功能性和处理可以分布至装置集群中的若干个装置。

声音渲染计算机120的部件可以是或可以包括被配置为处理属性的任何类型的硬件和/或软件。在一些实施方式中，图1中的声音渲染计算机120的部件中所示的部件的一个或多个部分可以是或可以包括基于硬件的模块(例如，数字信号处理器(DSP)、现场可编程门阵列(FPGA)、存储器)、固件模块和/或基于软件的模块(例如，计算机代码模块、可以在计算机处执行的计算机可读指令集合)。例如，在一些实施方式中，声音渲染计算机120的部件的一个或多个部分可以是或可以包括被配置为由至少一个处理器(未示出)执行的软件模块。在一些实施方式中，可以将部件的功能性包括在与图1所示的模块和/或部件不同的模块和/或不同的部件中。

尽管未示出，但在一些实施方式中，声音渲染计算机120的部件(或其部分)可以被配置为在例如数据中心(例如，云计算环境)、计算机系统、一个或多个服务器/主机装置等内操作。在一些实施方式中，声音渲染计算机120的部件(或其部分)可以被配置为在网络内操作。因此，声音渲染计算机120的部件(或其部分)可以被配置为在各种类型的网络环境内运行，这些网络环境可以包括一个或多个装置和/或一个或多个服务器装置。例如，网络可以是或可以包括局域网(LAN)、广域网(WAN)等。网络可以是或可以包括无线网络和/或使用例如网关装置、桥接器、交换机等来实施的无线网络。网络可以包括一个或多个区段和/或可以具有基于各种协议(诸如互联网协议(IP)和/或专有协议)的部分。网络可以包括互联网的至少一部分。

在一些实施例中，声音渲染计算机120的部件中的一个或多个可以是或可以包括被配置为处理存储在存储器中的指令的处理器。例如，声音获取管理器130(和/或其一部分)，距离获取管理器140(和/或其一部分)、定向分解管理器150(和/或其一部分)、声场导航管理器160(和/或其一部分)和定向信号标记管理器170(和/或其一部分)可以是处理器和存储器的组合，其被配置为执行与用于实现一个或多个功能的过程有关的指令。

图2图示了根据改进技术的示例声场环境200。在该环境200内，在一组定向信号源(例如，定向信号源220(填充磁盘))的中心处存在麦克风210(开磁盘)。每个定向信号源(例如，第j个)是距麦克风210的距离d_j并且在方向

上。

声音渲染计算机120使用定向分解操作从声音数据132中确定例如来自定向信号源220的定向信号的方向。定向分解操作包含将声音数据132定义为矩阵b，该矩阵将以麦克风210为中心的M个采样的声场的SH展开系数作为行，且将SH展开的声道作为列(矩阵b是所要求的“第一矩阵”的示例)。例如，

其中，

是

的系数，(m，n)SH具有n∈{0，...，N}和m∈{-n，...，n}。按照这种方式，对于以8kHz采样的1秒长的音频，当N＝1时，b具有4行，且例如，针对8000个采样为8000列。

定向分解操作采用递归形式，其包含具有初始值b的残差矩阵r和针对球面上的每个点的球谐函数

的矩阵Y(所要求的“第二矩阵”的示例)。在一些实施方式中，定向分解操作包括以下过程：

当||r||＞ε||b||{时

j＝argmax(||column(rY^T，k)||,k)；

(所要求的“第三矩阵”的示例)；

(所要求的“第四矩阵”的示例)；

S＝append(S，S_j)；

J＝append(J，j)；

E＝append(E，Y_j)}

其中，argmax(·，k)是k范围内的索引，其中，第一自变量的值是最大值，||column(rY^T，k)||(所要求的“第五矩阵”的示例)是矩阵rY^T的第k列的范数，

是Y的第j列的转置，Y_j是Y的第j列，

是Y的第j列的复数共轭，ε是指定公差，S是其列为麦克风处的来自主导方向的声场的矩阵，S_j是S的第j列，J是与主导方向对应的列索引的向量，且E是其列为主导方向上的球鞋函数的矩阵。因此，b＝SE+r。假设残差r在内容上是充分环境的，使得r独立于平移。在一些实施方式中，范数是弗罗贝尼乌斯范数，即，矩阵元素的平方之和。

在图2中，声场包括简单的单极源，使得可以经由如下格林函数确定在源X_j处的沿着方向

的声场：

其中，k是波数。

图3图示了在从麦克风平移到位置t的位置310处的示例声场b_t。在这种平移后，声场导航管理器160生成从平移的位置到第j个定向信号源(例如，定向信号源220)的距离d_jt。声场导航管理器160然后根据以下公式从例如来自定向信号源220(S_t)_j的第j个定向信号计算该平移的位置310处的声场：

因为假定残差独立于平移，所以还可以针对平移点处的声场编写以下关系式：

b_t＝S_tE_t+r，

其中，E_t是平移的球谐函数的编码矩阵。

在一些实施方式中，声场导航管理器160确定平移点310是在由定向信号源(例如，定向信号源220)定义的凸包230的内部还是在外部。在一些实施方式中，如果声场导航管理器160确定平移点310是在凸包230的外部，那么声场导航管理器160可以返回不准确地渲染平移点处的声场的指示。然而，在一些实施方式中，可以利用足够数量的定向信号源来准确地渲染凸包230外部的平移点处的声场。

图4是图示了在具有墙壁440的房间中相对于源部分410在麦克风位置420处的示例声场的示意图。在这种场景中，上文所图示的单极源方法是不充分的。相反，假设在特定条件下，来自源410的点420处的声场是直接路径450(即，在无反射的情况下)上的距离λ₀和反射路径460上的距离λ₁+λ₂的贡献之和。在一些实施方式中，假设墙壁440是理想的反射器，尽管这并不是必须的。当墙壁是理想的反射器时，可以将反射路径视为在相同距离上直接来自幻象源430。对于多个反射，可以存在多个幻象源。

图4还图示了将收听者平移至具有对应幻象源432的位置422的示例场景。在这种情况下，直接路径的长度为η_0t，反射(幻象)路径的长度为η_1t。声场导航管理器160在给定平移t的情况下计算这些路径长度。

声场导航管理器160然后可以根据以下关系式针对平移的收听者

生成反射声场：

其中，η_j＝d_j+μ_j，其中，μ_j是S_j的所有幻象路径之和，且η_jt是来自幻象源的平移的距离。

在其下假设反射的条件描述如下。矩阵S将来自每个源的在由上文详述的定向分解操作确定的方向上的声场贡献作为列。假设如果第一列与不存在反射的源(即，直接源)对应，那么如果该列与第二列的互相关大于指定阈值(例如，0.5)，则第二列表示反射声场。在一些实施方式中，互相关ρ采用以下形式：

其中，

是S在第i行和第p列中的元素，且q＞p。

更一般地，定向信号标记管理器170被配置为构造相似度矩阵，该相似度矩阵包括指示定向信号之间的相似度程度的相似度测量作为元素。上述互相关仅是这种相似度测量的一个示例。可以根据频谱聚类或仿射传播过程对这种相似度测量进行聚类，以识别定向信号是直接信号还是反射信号。

为了估计量μ_j，声场导航管理器160计算上述互相关ρ，其中，例如，q＝j。如果ρ小于指定阈值(例如，0.5)，那么声场导航管理器160设置μ_j＝0。如果ρ大于指定阈值，那么声场导航管理器160将第j个声场与先前声场(例如，第p个声场)进行比较，并且经由最小二乘解计算最佳拟合

至S_j的复数值标量。例如，定义α＝S·(S^refl)^-1，其中，逆是伪逆。假设反射声场的上述关系式为真，声场导航管理器160可以从量α确定距离μ_j。

图5是图示了执行声音的双耳渲染的示例方法500的流程图。可以通过结合图1中所描述的软件构造来执行方法500，这些软件构造驻留在声音渲染计算机120的存储器126中并且由一组处理单元124运行。

在502中，被配置为向收听者渲染声场的声音渲染计算机的控制电路接收由空间中的第一位置处产生的声场生成的声音数据。

在504中，控制电路基于声音数据来识别定向信号的多个方向，该多个方向是在第一位置处产生至少指定的分数的声场能量所以的方向。

在506中，控制电路获得定向信号源距空间中的第一位置的多个距离。

在508中，控制电路基于多个方向和多个距离在第二位置处生成声场，该第二位置与第一位置不同。

图6示出了可以与此处所描述的技术一起使用的通用计算机装置P00和通用移动计算机装置P50的示例。计算装置P00旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、平板计算机、工作站、个人数字助理、电视、服务器、刀片式服务器、大型计算机和其它适合的计算装置。计算装置P50旨在表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话和其它相似的计算装置。本文中所示的部件、它们的连接和关系以及它们的功能仅仅旨在作为示例，并且不旨在限制本文档中所描述的和/或要求的本发明的实施方式。

计算装置P00包括处理器P02、存储器P04、存储装置P06、连接至存储器P04和高速扩展端口P10的高速接口P08和连接至低速总线P14和存储装置P06的低速接口P12。处理器P02可以是基于半导体的处理器。存储器P04可以是基于半导体的存储器。各个部件P02、P04、P06、P08、P10和P12通过使用各种总线相互连接，并且可以安装在公共主板上或视需要以其它方式安装。处理器P02可以处理用于在计算装置P00内执行的指令，该计算装置包括存储在存储器P04中或存储装置P06上的指令，以在外部输入/输出装置(诸如，耦合至高速接口P08的显示器P16)上显示GUI的图形信息。在其它实施方式中，视需要，可以使用多个处理器和/或多个总线以及多个存储器和存储器类型。同样，可以连接多个计算装置P00，各个装置提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器或多处理器系统)。

存储器P04存储计算装置P00内的信息。在一种实施方式中，存储器P04是一个或多个非易失性存储器单元。在另一实施方式中，存储器P04是一个或多个非易失性存储器单元。存储器P04还可以是另一种形式的计算机可读介质，诸如，磁盘或者光盘。

存储装置P06能够为计算装置P00提供海量存储。在一种实施方式中，存储装置P06可以是或包含计算机可读介质，诸如，软盘装置、硬盘装置、光盘装置或者磁带装置、闪速存储器或者其它相似的固态存储器装置或者装置阵列，包括存储区域网络或者其它配置中的装置。计算机程序产品可以有形地体现为信息载体。计算机程序产品还可以包含指令，该指令在被执行时执行一种或多种方法，诸如，上文所描述的那些方法。信息载体是计算机或者机器可读介质，诸如，存储器P04、存储装置P06或在处理器P02上的存储器。

高速控制器P08管理计算装置P00的带宽密集型操作，而低速控制器P12管理较低的带宽密集型操作。这种功能分配仅仅是示例性的。在一种实施方式中，高速控制器P08耦合至存储器P04、显示器P16(例如，通过图形处理器或者加速器)和高速扩展端口P10，该高速扩展端口可以接受各种扩展卡(未示出)。在实施方式中，低速控制器P12耦合至存储装置P06和低速扩展端口P14。可以包括各种通信端口(例如，USB、蓝牙、以太网、无线以太网)的低速扩展端口可以例如通过网络适配器耦合至一个或多个输入/输出装置，诸如，键盘、指向装置、扫描仪或联网装置，诸如，交换机或路由器。

如图所示，可以利用多种不同的形式来实施计算装置P00。例如，可以将计算装置P00实施为标准服务器P20或者多次实施在一组这种服务器中。还可以将计算装置P00实施为机架式服务器系统P24的部分。此外，计算装置P00可以实施在个人计算机(诸如，膝上型计算机P22)中。可替代地，可以将来自计算装置P00的部件与移动装置(未示出)(诸如，装置P50)中的其它部件组合。这些装置中的每一个可以包含计算装置P00、P50中的一个或多个，并且整个系统可以由彼此通信的多个计算装置P00、P50组成。

除了其它部件之外，计算装置P50包括处理器P52、存储器P64、输入/输出装置(诸如，显示器P54)、通信接口P66和收发器P68。装置P50还可以设置有用于提供额外存储的存储装置，诸如，微型硬盘或其它装置。各个部件P50、P52、P64、P54、P66和P68通过使用各种总线相互连接，并且若干部件可以安装在公共主板上或者视需要以其它方式安装。

处理器P52可以执行计算装置P50内的指令，包括存储在存储器P64中的指令。可以将处理器实施为包括单独或多个模拟和数字处理器的芯片的芯片集。处理器可以提供例如，对装置P50的其它部件的协调，诸如，对用户界面的控制、由装置P50运行的应用和由装置P50进行的无线通信。

处理器P52可以通过耦合至显示器P54的控制接口P58和显示接口P56与用户进行通信。显示器P54可以是例如TFT LCD(薄膜晶体管液晶显示器)或OLED(有机发光二极管)显示器或其它适合的显示技术。显示接口P56可以包括用于驱动显示器P54向用户呈现图形和其它信息的适合的电路。控制接口P58可以接收来自用户的命令，并且转换这些命令以提交至处理器P52。此外，可以提供与处理器P52通信的外部接口P62，以支持装置P50与其它装置的附近区域通信。在一些实施方式中，外部接口P62可以提供例如，有线通信，或在其它实施方式中可以提供无线通信，并且还可以使用多个接口。

存储器P64存储计算装置P50内的信息。可以将存储器P64实施为一种或多种计算机可读介质、一个或多个易失性存储单元或一个或多个非易失性存储单元中的一个或多个。还可以提供扩展存储器P74并且通过扩展接口P72将扩展存储器P74连接至装置P50，该扩展接口P72可以包括例如，SIMM(单列直插式存储器模块)卡接口。这种扩展存储器P74可以为装置P50提供额外存储空间，或者还可以为装置P50存储应用或其它信息。具体地，扩展存储器P74可以包括用于实施或补充上述过程的指令，并且还可以包括安全信息。因此，例如，扩展存储器P74可以提供作为装置P50的安全模块，并且可以用允许安全使用装置P50的指令进行编程。此外，可以经由SIMM卡与附加信息(诸如，将识别信息以不可侵入的方式放在SIMM卡上)一起来提供安全应用。

如下文所描述的,存储器可以包括例如，闪速存储器和/或NVRAM存储器。在一种实施方式中，计算机程序产品有形地体现为信息载体。计算机程序产品包含指令，该指令在被执行时执行一种或者多种方法，诸如，上文所描述的那些方法。信息载体是计算机可读介质或者机器可读介质(诸如，存储器P64、扩展存储器P74或在处理器P52上的存储器)，可以通过例如，收发器P68或外部接口P62来接收该信息载体。

装置P50可以通过通信接口P66来无线地进行通信，若需要，该通信接口可以包括数字信号处理电路。通信接口P66可以提供在各种模式或者协议下的通信，诸如，GSM语音呼叫、SMS、EMS或MMS消息传送、CDMA、TDMA、PDC、WCDMA、CDMA2000或GPRS等。这种通信可以例如，通过射频收发器P68发生。此外，短程通信可以使用诸如蓝牙、Wi-Fi或其它这种收发器(未示出)而发生。此外，GPS(全球定位系统)接收器模块P70可以将附加的与导航或者位置相关的无线数据提供给装置P50，视需要，该无线数据可以供在装置P50上运行的应用使用。

装置P50还可以使用音频编解码器P60来进行可听地通信，该音频编解码器可以接收来自用户的口头信息，并且将该口头信息转换为可用的数字信息。音频编解码器P60同样可以(诸如，通过扬声器，例如，在装置P50的听筒中的扬声器)为用户生成可听见的声音。这种声音可以包括来自语音电话呼叫的声音，可以包括录制的声音(例如，语音消息、音乐文件等)，并且还可以包括通过在装置P50上运行的应用生成的声音。

如图所示，可以利用多种不同的形式来实施计算装置P50。例如，可以将计算装置P50实施为蜂窝电话P80。还可以将计算装置P50实施为智能电话P82、个人数字助理或其它相似的移动装置的部分。

此处所描述的系统和技术的各种实施方式可以在数字电子电路、集成电路、专用ASIC(专用集成电路)、计算机硬件、固件、软件和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或多个计算机程序中，该一个或多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或通用可编程处理器，可以从存储系统、至少一个输入装置和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置和该至少一个输出装置。

这些计算机程序(也称作程序、软件、软件应用或代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言和/或利用汇编/机器语言来实施这些计算机程序。如本文中所使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处所描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈或触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)或包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的客户端计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处所描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(“LAN”)、广域网(“WAN”)和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

在本说明书和随附权利要求书中，除非上下文另外明确规定，否则单数形式“一”、“一个”和“该”不排除复数参考。此外，除非上下文另外明确规定，否则连词(诸如，“和”、“或”以及“和/或”)是包括性的。例如，“A和/或B”仅包括A、仅包括B和包括A与B此外，在所呈现的各个附图中示出的连接线或连接器旨在表示各个元件之间的示例性功能关系和/或物理耦合或逻辑耦合。在实际装置中可以存在许多替代或附加功能关系、物理连接或逻辑连接。此外，除非将元件具体地描述为“必要的”或“关键的”，否则没有项或部件对于实践本文中所公开的实施例是必要的。

在本文中使用诸如但不限于、大约、基本上、大体上等的术语来指示不需要并且不需要指定其精确值或范围。如本文中所使用的，上文所讨论的术语对于本领域的普通技术人员将具有预先且即时意义。

此外，在本文中参考当前所考虑或图示的定向来使用诸如上、下、顶部、底部、侧面、端部、前部、后部等术语的使用。如果相对于另一定向考虑这些术语，但应该理解，必须相应地修改这些术语。

此外，在本说明书和随附权利要求书中，除非上下文另外明确规定，否则单数形式“一”、“一个”和“该”不排除复数参考。此外，除非上下文另外明确规定，否则连词(诸如，“和”、“或”以及“和/或”)是包括性的。例如，“A和/或B”仅包括A、仅包括B和包括A与B。

尽管本文中已经描述了特定示例方法、设备和制品，但本专利的覆盖范围不限于此。应理解，本文中所采用的术语是出于描述特定方面之目的，而不旨在作为限制。相反，本专利涵盖了完全落入本专利的权利要求书的范围内的所有方法、设备和制品。

Claims

1.一种用于产生声场的方法，包括：

通过被配置为向收听者渲染声场的声音渲染计算机的控制电路接收声音数据，所述声音数据由定向信号源在空间中的第一位置处产生的声场造成，每个定向信号源都产生对所述声场做出贡献的定向信号；

通过所述控制电路基于所述声音数据来识别所述定向信号源的多个方向，其中，所述声场的能量的至少指定部分起源于所述第一位置处的所述多个方向；

通过所述控制电路获得所述定向信号源距空间中的所述第一位置的多个距离；以及

通过所述控制电路基于所述多个方向和所述多个距离在第二位置处产生所述声场，所述第二位置与所述第一位置不同。

2.根据权利要求1所述的方法，其中，所述声音数据包括第一矩阵，所述第一矩阵中的每个元素是在以所述第一位置为中心的单位球面上的多个点处的所述声场的球谐函数展开的系数，

其中，识别所述多个方向包括：

产生第二矩阵，所述第二矩阵具有在以所述第一位置为中心的所述单位球面上的所述多个点处评估的球谐函数项作为元素；

将所述第一矩阵和所述第二矩阵相乘以产生第三矩阵，所述第三矩阵的每一列与所述单位球面上的所述多个点中的点对应并且表示所述单位球面上的所述多个点中的所述点处的所述声场；以及

将与所述第三矩阵中的列对应的所述单位球面上的所述多个点中的点识别为所述多个方向中的方向，所述第三矩阵中的所述列具有所述第三矩阵中的所述列的向量范数的最大值。

3.根据权利要求2所述的方法，其中，所述向量范数是弗罗贝尼乌斯范数。

4.根据权利要求2所述的方法，其中，识别所述多个方向还包括：

将所述第三矩阵中的所述列和所述第二矩阵的转置相乘以产生第四矩阵；

从所述第一矩阵减去所述第四矩阵以产生残差矩阵；以及

将与通过将所述残差矩阵和所述第二矩阵相乘而形成的第五矩阵中的列对应的所述单位球面上的所述多个点中的点识别为所述多个方向中的第二方向，所述第五矩阵中的所述列具有所述第五矩阵中的列的向量范数的最大值。

5.根据权利要求2所述的方法，其中，在具有墙壁的房间中接收所述声场，以及

其中，所述方法还包括：

对于所述定向信号源的所述多个方向中的每个方向，执行定向信号标记操作以产生通过具有所述方向的所述定向信号源产生的定向信号是否为另一定向信号的声音从所述房间的墙壁反射出的结果的指示。

6.根据权利要求5所述的方法，其中，针对所述多个方向中的每个方向执行所述定向信号标记操作包括：

对在所述多个方向中的第一方向上的第一声场和在所述多个方向中的第二方向上的第二声场执行互相关操作以产生互相关结果，所述第一声场是直接声场，在所述直接声场中，所述第一声场是在所述多个距离中的一距离处由定向信号源在所述第一方向上产生的定向信号的所述结果；

响应于所述互相关结果小于阈值，产生指示所述第二声场是直接声场的第一指示符；以及

响应于所述互相关结果大于所述阈值，产生指示所述第二声场是另一定向信号从所述房间的墙壁反射出的结果的第二指示符。

7.根据权利要求2所述的方法，其中，基于所述多个方向和所述多个距离在所述第二位置处产生所述声场包括：对于所述多个方向中的每个方向，将所述方向上的声场乘以振幅因数和相位因数，所述相位因数的相位是基于从空间中的所述第二位置到所述方向上的所述定向信号源的所述距离与从空间中的所述第一位置到所述方向上的所述定向信号源的所述距离之差。

8.根据权利要求7所述的方法，其中，将方向集合中的每个方向上的所述声场乘以振幅因数包括：

响应于具有所述方向的所述定向信号源是直接源，将所述振幅因数设置为从空间中的所述第二位置到具有所述方向的所述定向信号源的所述距离与从空间中的所述第一位置到具有所述方向的所述定向信号源的所述距离之比；以及

响应于具有所述方向的所述定向信号是反射的结果，将所述振幅因数设置为从空间中的所述第二位置到所述方向上的幻象源的距离之和与从空间中的所述第一位置到所述方向上的所述幻象源的距离之和的比。

9.根据权利要求1-8中的任一项所述的方法，其中，获得所述定向信号源距空间中的所述第一位置的所述多个距离包括：从球面相机接收所述多个距离。

10.根据权利要求1-8中的任一项所述的方法，还包括：

从所述定向信号源的所述多个方向和所述多个距离产生凸包，以及

其中，在所述第二位置处产生所述声场包括：

确定第二点是否位于所述凸包的外部；以及

响应于所述第二点位于所述凸包的外部，返回不能够在所述第二点处准确地再现所述声场的指示。

11.一种存储指令的非暂时性计算机可读存储介质，所述指令在由被配置为向收听者渲染声场的声音渲染计算机的处理电路执行时使所述处理电路执行方法，所述方法包括：

接收声音数据，所述声音数据由定向信号源在空间的第一位置处产生的声场造成，每个定向信号源产生对所述声场做出贡献的定向信号；

基于所述声音数据来识别所述定向信号源的多个方向，其中，所述声场的能量的至少指定部分起源于所述第一位置处的所述多个方向；

获得所述定向信号源距空间中的所述第一位置的多个距离；以及

基于所述多个方向和所述多个距离在第二位置处产生所述声场，所述第二位置与所述第一位置不同。

12.根据权利要求11所述的非暂时性计算机可读存储介质，其中，所述声音数据包括第一矩阵，所述第一矩阵中的每个元素是在以所述第一位置为中心的单位球面上的多个点处的所述声场的球谐函数展开的系数，

其中，识别所述多个方向包括：

13.根据权利要求12所述的非暂时性计算机可读存储介质，其中，识别所述多个方向还包括：

从所述第一矩阵减去所述第四矩阵以产生残差矩阵；以及

14.根据权利要求12所述的非暂时性计算机可读存储介质，其中，在具有墙壁的房间中接收所述声场，以及

其中，所述方法还包括：

15.根据权利要求14所述的非暂时性计算机可读存储介质，其中，针对所述多个方向中的每个方向执行所述定向信号标记操作包括：

对在所述多个方向中的第一方向上的第一声场和在所述多个方向中的第二方向上的第二声场执行互相关操作以产生互相关结果，所述第一声场是直接声场，在所述直接声场中，所述第一声场是在所述多个距离中的距离处由定向信号源在所述第一方向上产生的定向信号的所述结果；

16.根据权利要求12所述的非暂时性计算机可读存储介质，其中，基于所述多个方向和所述多个距离在所述第二位置处产生所述声场包括：对于所述多个方向中的每个方向，将所述方向上的声场乘以振幅因数和相位因数，所述相位因数的相位是基于从空间中的所述第二位置到所述方向上的所述定向信号源的所述距离与从空间中的所述第一位置到所述方向上的所述定向信号源的所述距离之差。

17.根据权利要求16所述的非暂时性计算机可读存储介质，其中，将方向集合中的每个方向上的所述声场乘以振幅因数包括：

18.根据权利要求11至17中的任一项所述的非暂时性计算机可读存储介质，其中，获得所述定向信号源距空间中的所述第一位置的所述多个距离包括：从球面相机接收所述多个距离。

19.根据权利要求11至17中的任一项所述的非暂时性计算机可读存储介质，其中，所述方法还包括：

其中，在所述第二位置处产生所述声场包括：

确定第二点是否位于所述凸包的外部；以及

20.一种被配置为向收听者渲染声场的电子设备，所述电子设备包括：

存储器；以及

控制电路，所述控制电路耦合至所述存储器，所述控制电路被配置为：

基于所述多个方向和所述多个距离在第二位置处生成所述声场，所述第二位置与所述第一位置不同。