CN112005556A

CN112005556A - 定位声源

Info

Publication number: CN112005556A
Application number: CN201980027342.3A
Authority: CN
Inventors: 奥登·索旺
Original assignee: Nomono AS
Current assignee: Nomono AS
Priority date: 2018-02-22
Filing date: 2019-02-22
Publication date: 2020-11-27
Anticipated expiration: 2039-02-22
Also published as: CN112005556B; EP3756359A1; WO2019162690A1; US20200396537A1; JP2021520760A; CA3091880A1; US11388512B2; JP7469235B2; GB201802850D0

Abstract

提供了一种确定声源(4)的位置的方法，该方法包括使用包括至少两个麦克风的声场麦克风系统(2)生成空间编码的声场信号，其中，空间编码的声场信号包括多个分量，每个分量包括来自声源(4)的声音。该方法还包括使用靠近声源(4)定位的本地麦克风(8)生成对应于来自声源(4)的声音的本地麦克风信号；将本地麦克风信号与多个分量中的每一个分量进行比较以生成多个比较结果；并且使用多个比较结果来确定声源(4)相对于声场麦克风系统(2)的位置。

Description

定位声源

技术领域

本申请涉及声场记录系统，具体地，但非排他地，涉及适用于空间音频内容或虚拟现实制作(virtual reality productions)的声场记录系统。

背景技术

声场或空间音频系统和格式(例如，高保真立体声(ambisonics)、Dolby Atmos^TM、Auro-3D^TM、DTS：X^TM)提供了一种存储与给定声音场景相关的空间编码的声音信息的方法。换句话说，它们提供了一种将位置信息分配给声音场景内的声源的方式。空间编码的声音信息(或“声场”)可以使用位置信息被手动归属(例如，当创建计算机生成的视频游戏声音场景时)的单独记录的声轨(soundtracks)来产生，或者可选地，可以使用例如多向高保真立体声麦克风来完全现场捕获。捕获现场“声场”数据通常已经用于使常规的录音更沉浸(例如，通过创建置身于管弦乐队中的错觉)，但是最近技术已经开始应用于虚拟现实制作。

虚拟现实(VR)制作通常包括360°立体视频信号和对应的声轨。这些制作在支持第一人视角的平台上播放给用户以便产生临场感。这样的平台的示例是双目头戴式耳机和立体声耳机、桌面360视频播放器和360影院。双目头戴式耳机通常能够跟踪用户头部的位置和取向(使用例如IMU/加速度计)，使得可以分别相应地调整播放到头戴式耳机和耳机的视频和音频以维持虚拟现实错觉。例如，在给定时刻，仅向用户显示360°视频信号的一部分，其对应于用户在虚拟环境中的当前视野。当用户移动或转动他们的头部时，显示给用户的360°信号的部分改变以反映该移动将如何改变用户在虚拟世界中的视野。类似地，当用户移动时，从虚拟场景中的不同位置发出的声音可以经受左耳机声道和右耳机声道的自适应滤波，以模拟由于耳朵与人类头部之间的空间偏移和上身散射而在现实生活中发生的声音的频率相关的相位和振幅改变。

一些VR制作完全由计算机生成的图像和单独预先记录或合成的声音组成。然而，使用能够记录360°视野的相机和可以记录空间编码的声轨的声场麦克风来产生“现场活动”VR记录正变得越来越流行。然后处理所记录的声音和视频以产生能够经由如上所述的头戴式耳机和耳机播放的VR记录。

使用声场麦克风系统来记录VR声轨允许所记录的声音被容易地实现到VR应用中，因为所记录的声音是用空间信息本地编码的。所记录的视频和声音信号仅需要“对准”以产生最终的VR记录，准备经由如上所述的系统播放。许多可商购的视频制作工具和计算机软件应用已经包含VR制作特征，包括将空间编码的音频文件结合到制作中的能力。

空间音频麦克风虽然是用于从空间中的特定点捕获现场声场信息的有用工具，但是在其输出的质量和灵活性方面确实具有一些限制。例如，位于距麦克风较大距离处的人的声音质量可以显著降低。出于增加效果或调整水平的目的，在声场记录内隔离单个声源也是困难的。本申请寻求减轻这些问题中的至少一些问题。

发明内容

从第一方面，本发明提供了一种确定声源的位置的方法，包括：

使用包括至少两个麦克风的声场麦克风系统生成空间编码的声场信号，其中，空间编码的声场信号包括多个分量，每个分量包括来自声源的声音；

使用靠近声源定位的本地麦克风生成对应于来自声源的声音的本地麦克风信号；

将本地麦克风信号与多个分量中的每一个分量进行比较以生成多个比较结果；并且

使用多个比较结果来确定声源相对于声场麦克风系统的位置。

因此，本领域技术人员将看到，根据本发明，可以产生更高声音质量和/或隔离的本地麦克风信号可以容易地与声场麦克风信号一起使用和集成。

因此，本发明可以促进包括仅音频制作(例如，音乐或戏剧表演、口语制作、无线电广播、播客等)的高质量、精确和沉浸式的空间音频记录或现场广播。

此外，在常规的声音和视频制作中，远离相机的声源可以用近麦克风(例如，夹到人的衣服上的领夹式麦克风)捕获，以改进声音质量和隔离水平。通过同步两者的定时(通常通过将记录设备连接到为单元提供相同的字时钟和时间码的时间码和同步发生器来实现)，所产生的声音信号可以与视频馈送结合，然而该方法并不容易应用于VR制作。尽管同步视频和音频轨道的定时可能相对简单，但是将声音定位在VR世界内使得其看起来从视频馈送内的特定方向发出需要关于声源的位置的额外信息。如果声源在部分或整个场景期间移动和/或部分或完全隐藏在相机的视野之外，则该过程进一步复杂。

可以用于定位声源的一种技术是手动跟踪，由此，在后期制作期间，用户回看视频记录，并且手动跟踪声源的位置和/或路径。然后将声源的近麦克风记录分配给手动跟踪的位置/移动，并且然后可以产生具有正确空间音频的最终VR制作。然而，该方法是高劳动密集型的，可能是不精确的，并且也仅对于相机可见的声源是可能的。此外，它被有效地限制为在二维在定位源。距离信息还可能必须被估计和/或设置为恒定值。所有这些问题导致最终VR声轨中的较不精确的声场再现和较不沉浸式的VR体验。该方法根本不适用于没有视频记录可用的仅音频制作。

典型的现场动作场景可以包含数十或数百个单独声源。尽管出于隔离和声音质量的原因，为受关注的声源中的每一个提供单独的近麦克风将是有益的，但是出于以上给出的原因，这将需要大量额外的制作资源和时间。

相比之下，因为根据本发明，来自声源的声音将由近麦克风和声场麦克风系统(尽管处于较低的强度和质量)两者检测到，所以申请人已经认识到，可以使用多个比较结果来确定声源相对于声场麦克风系统的位置。这意味着用户(例如，制作者)不必使用缓慢且不精确的技术来手动地定位声源。相反，可以用最小的用户输入自动确定声源的位置。该方法具有更高的精确性的可能性和在仅音频制作中或与相机不可辨别的声源(例如，在低亮或暗场景期间，或当声源包含在较大对象中但不能与较大对象区分时)一起使用它的能力的额外优点。

通常假设本地麦克风信号准确地表示由声源产生的声音，并且本地麦克风优选地被放置为尽可能靠近声源，使得确定声源的位置有效地等同于确定本地麦克风的位置。

术语“空间编码的”在本文中用于指可以从中确定位置信息的数据。这可以包括与声音数据一起存储的显式位置元数据，但是还应理解为包含位置信息可以从其恢复的数据，例如，与来自所述麦克风的声音数据一起的麦克风的已知位置和/或方向性。空间编码的声音信号的示例包括高保真立体声A格式或B格式。

声场麦克风系统可以包括可以从其生成空间编码的声场信号的麦克风的任何布置，例如平面阵列、正交阵列或更复杂的布置。

尽管申请人认识到，在三维中明确地确定位置信息在理论上可能需要声场麦克风系统包括四个或更多个麦克风，但是申请人已经认识到，在许多情况下，仅两个麦克风可能足以准确地确定位置。例如，诸如对声源的位置或移动的已知物理限制或结合跟踪技术的已知起始位置的额外信息可以用于帮助解析声源的位置。然而，在一组实施方式中，声场麦克风系统包括至少三个麦克风，并且在一些这样的实施方式中，声场麦克风系统包括至少四个麦克风。

在一组实施方式中，声场麦克风系统还包括处理模块。处理模块可以被配置为用位置数据编码多个麦克风的输出。

优选地，声场麦克风系统的至少两个麦克风彼此相邻，尽管通常它们可以彼此间隔开。声场麦克风系统可以包括相互正交布置的多个麦克风，即，具有最大响应的每个麦克风的相应轴线彼此相互正交。

在一些组实施方式中，将本地麦克风信号与多个分量中的每一个分量进行比较包括确定本地麦克风信号与多个分量中的每一个分量之间的相关性度量。可以使用任何合适的相关性度量，但是在一组实施方式中，相关性度量包括本地麦克风信号与空间编码的声场信号的多个分量中的每一个分量之间的互谱(cross spectrum)。在一些这样的实施方式中，在确定相关性度量之前预处理本地麦克风信号和空间编码的声场信号。例如，本地麦克风信号和多个分量中的每一个分量可以被傅里叶变换。

在一些实施方式中，空间编码的声场信号的多个分量中的每一个分量仅由来自麦克风中的一个麦克风的输出组成。在这样的实施方式中，麦克风中的每一个麦克风的位置和取向通常是已知的，从中可以实现空间编码。在一些这样的实施方式中，空间编码的声场信号包括一组高保真立体声A格式信号。

在一些这样的实施方式中，所确定的相关性度量可以用于计算本地麦克风信号与多个分量中的至少一个分量之间的一个或多个传播延迟(例如，本地麦克风信号与多个分量中的每一个分量之间的传播延迟)。在这样的实施方式中，确定声源相对于声场麦克风系统的位置可以包括使用传播延迟中的两个或更多个传播延迟之间的差来确定从声场麦克风系统到本地麦克风的方向。

由于麦克风中的每一个麦克风的位置是已知的，因此这些计算出的传播延迟可以与声速的估计一起用于确定从声源到麦克风中的每一个麦克风的距离。通过识别这些距离重合的点，可以确定声源的位置。该“三边测量”方法依赖于所确定的距离之间的差大于单独的范围测量的不确定性。因此，该方法特别适合于麦克风间隔相当远的声场麦克风系统，以便在相应麦克风与声源之间的确定距离中生成更大的差。

计算本地麦克风信号与多个分量中的每一个分量之间的传播延迟可以包括计算所确定的相关性度量中的每一个相关性度量(例如，互谱中的每一个互谱)的互相关性。

确定声源相对于声场麦克风系统的位置可以包括使用传播延迟中的至少一个传播延迟(例如，传播延迟的平均值)以及声速的估计来确定从声场麦克风系统到本地麦克风的距离，以确定从声场麦克风系统到本地麦克风的距离。

假设在多个分量中的每一个分量与本地麦克风信号之间存在足够的时间同步，则可以以高精度(例如，到几厘米)来测量每个发送器与麦克风之间的距离范围。

即使在多个分量中的每一个分量与本地麦克风信号之间的时间同步不准确或不可用的情况下，仍然可以确定从声场麦克风系统到本地麦克风的距离随时间的变化，该变化可以用于例如通过将其与声源的已知初始位置结合来确定声源相对于声场麦克风系统的位置。

在可选实施方式中，处理来自至少两个麦克风的输出以产生空间编码的声场信号。这可以涉及组合来自麦克风信号的输出以产生多个分量。在这样的实施方式中，多个分量中的每一个分量可以对应于具有指定位置、取向和灵敏度区域的虚拟麦克风输出。例如，多个分量中的每一个分量可以对应于具有对应于球谐函数(spherical harmonicfunctions)中的一个球谐函数的灵敏度区域的麦克风。在一组实施方式中，空间编码的声场信号包括一组高保真立体声B格式信号。在一些这样的实施方式中，声场麦克风系统包括麦克风阵列和编码器。编码器可以被布置为处理来自麦克风阵列的输出以产生空间编码的声场信号。

在一些这样的实施方式中，所确定的相关性度量用于计算从声场麦克风系统到声源的方向和范围。如上所述，B格式信号和本地麦克风信号可以被傅里叶变换，并且相关性度量可以包括本地麦克风信号与多个分量中的每一个分量之间的互谱。

所计算的本地麦克风信号与多个分量中的每一个分量之间的互谱可以用于确定包括声源和麦克风的环境的脉冲响应。然后时间窗口可以应用于该脉冲响应以提取由球谐函数加权的直接声音。球谐函数分量中的每一个分量的权重可以用于提取声源的方位角和仰角(即，方向)。

在一些实施方式中，相关性度量可以用于确定由球谐函数加权的直接声音自相关。在这样的实施方式中，可以通过评估直接声音自相关的分量来提取从声场麦克风系统到本地麦克风的方向。

可以通过检查脉冲响应的零阶分量(即，0、0球谐函数)并提取本地麦克风信号与空间编码的声音信号之间的传播延迟来计算从声源到声场麦克风系统的范围。然后可以通过将传播延迟乘以声速的估计来计算从声源到声场麦克风系统的范围。将该计算出的范围与所确定的声源的方向组合完全限定了声源的位置。当从一阶球谐函数分量的相对权重确定方位角和仰角时，传播延迟还可以用于对准用于提取直接声音的时间窗口。

如从上面将理解的，在本发明的许多实施方式中，必须高精度地估计声速，以便准确地确定声源相对于声场麦克风系统的位置。因此，在一些实施方式中，环境温度测量用于计算或细化用于确定声源的位置的声速的估计。

如上所述，在VR制作中，声源经常在场景周围移动。本发明可以特别适用于声源包括移动声源的场景，因为它可以减轻在制作期间对移动声源的劳动密集型手动跟踪的要求。

在以移动声源为特征的实施方式中，本地麦克风优选地被配置为与声源一起移动，以确保其继续生成对应于来自声源的声音的本地麦克风信号。这可以通过将本地麦克风附接或以其他方式连接到声源来实现。例如，声源可以包括讲话的人，并且本地麦克风可以包括夹到人的衣服的物品上的领夹式麦克风。

申请人已经认识到，本文公开的定位技术还可以应用于存在多于一个受关注的声源的场景。如上所述，在以多个声源为特征的制作中，手动跟踪每个声源的位置可能是高劳动密集型的。因此，在一些实施方式中，多个分量中的每一个分量包括来自第二声源的声音，并且该方法还包括：

使用靠近第二声源定位的第二麦克风来捕获第二麦克风信号，其中，第一麦克风信号包括来自第二声源的声音；

将第二麦克风信号与多个分量中的每一个分量进行比较以生成多个第二比较结果；并且

使用多个第二比较结果来确定第二声源相对于声场麦克风系统的位置。

使用本文描述的方法确定的声源的位置具有多个不同的应用。在一些实施方式中，该方法还包括产生空间编码的声轨，其中，利用声源相对于声场麦克风系统的位置编码本地麦克风信号。这使得用户能够进行精确的沉浸式播放而无需与在制作期间手动跟踪声源相关联的额外工作负载。

申请人还已经认识到，在一些实施方式中，该位置可以有利地用于控制进一步的动作。可以实时确定该位置，其中，在生成空间编码的声场信号和本地麦克风信号的同时确定该位置。在一些这样的实施方式中，声源的位置可以用于例如自动触发声音效果、相机移动和/或照明变化。

在一些实施方式中，声源的位置可以用于触发和/或控制声音效果或声音处理技术，诸如：增益水平和/或自动增益控制(AGC)、压缩器、混合、延迟和混响(包括干湿混合)、滤波(包括均衡、颤音、调制、合音、镶边、哇音、相位器、时间拉伸和音调偏移、降噪和恢复)、声音编码、自动调谐和声音合成。

这样的声音效果或处理技术可以应用于和/或执行于剧情或非剧情声音信号。声音效果和/或处理技术可以应用于和/或执行于由经受定位的声源发出的声音，尽管它们也可以或替代地应用于从其他声源发出的声音。

声音效果和处理可以是单声道的，或者它们可以是空间的。如上所述，本发明特别适合于在包括视频以及对应声轨的虚拟现实(VR)制作内使用。因此，在一些组实施方式中，该方法还包括使用相机系统来捕获视频信号，其中，在视频信号内捕获声源。视频信号可以包括360°视频信号。

声源的位置还可以用于触发和/或控制视频效果或处理技术，诸如，重新构造、过滤、文本和字幕或计算机生成的图像(CGI)。

在一些这样的实施方式中，声场麦克风系统与相机系统并置。声场麦克风系统和相机系统可以设置为单个视频和声音记录装置的一部分，以便为终端用户提供便利的VR制作解决方案。然而，在可选实施方式中，声场麦克风系统可以单独地提供给相机系统(即，不与相机系统并置)。

在这些实施方式中的任一个中，该方法还可以包括使用视频信号内的光学图像跟踪技术来确定和细化声源的位置。这可以是自动的，尽管它可能需要一些用户输入。通过组合两个独立的定位技术，可以减少所确定位置中的不确定性。可以通过使用视频信号内的光学对象跟踪估计定位偏差来细化用于确定声源的位置的声速的估计。

在单独设置声场麦克风的实施方式中，视频信号内的光学图像跟踪技术可以用于对准空间编码的声场信号和视频信号。

在声场麦克风和相机系统间隔开的实施方式中，两个系统的空间取向可能未对准。通过组合两个独立的定位技术，可以对准两个系统的空间取向。

在一些实施方式中，将本地麦克风信号与多个分量中的每一个分量进行比较包括将本地麦克风信号和多个分量中的每一个分量输入到神经网络，并且接收声源相对于声场麦克风系统的位置作为来自所述神经网络的输出。在一些这样的实施方式中，使用先前捕获的本地麦克风信号、空间编码的声场信号和关于声源位置的信息来训练神经网络。

本领域技术人员将理解，本文所描述的用于确定声源的位置的方法可以用作捕获对其执行该方法的相应信号的系统的一部分。然而，这不是必需的，并且它们可以同样地对先前捕获的或其他地方捕获的信号执行。因此，当从第二方面看时，本发明提供了一种确定声源的位置的方法，包括：

提供包括多个分量的空间编码的声场信号，每个分量包括来自声源的声音；

提供对应于来自声源的声音的本地麦克风信号；

使用多个比较结果来确定声源的位置。

本发明的第二方面延伸到包括软件的计算机软件工具/非暂时性计算机可读介质，该软件被配置为：

接收包括多个分量的空间编码的声场信号，每个分量包括来自声源的声音；

接收对应于来自声源的声音的本地麦克风信号；

使用多个比较结果来确定声源的位置。

应当理解，本发明的第一方面的方法的许多实施方式也是以上阐述的第二方面的方法/软件的实施方式。例如，以上阐述的第二方面的方法/软件可以包括提供用于生成空间编码的声轨的数据或用于控制诸如声音效果、相机移动和/或照明变化的进一步动作的控制信号。

本发明通常还延伸到被配置为执行本文描述的方法的设备，例如，声源定位系统，包括：

声场麦克风系统，被布置为输出包括多个分量的声场信号，每个分量包括来自声源的声音；

近麦克风，靠近声源定位并且被布置为输出对应于来自声源的声音的近麦克风信号；以及

处理器，被布置为接收近麦克风信号和声场信号；

其中，该处理器被配置为将近麦克风信号与多个分量中的每一个分量进行比较以生成多个比较结果，并且使用多个比较结果来确定声源相对于声场麦克风系统的位置。

附图说明

现在将仅通过示例的方式并参考附图来描述本发明的某些实施方式，其中：

图1是根据本发明的实施方式操作的声场记录系统的示意图；

图2是示出简化的三边测量定位技术的示意图；

图3是根据本发明的实施方式操作的具有移动源的声场记录系统的示意图；以及

图4是根据本发明的实施方式的虚拟现实制作系统的示意图。

具体实施方式

图1示出了来自以声场麦克风阵列2(例如，高保真立体声麦克风)以及第一人4和第二人6为特征的虚拟现实制作的场景。尽管未在图1中示出，但是麦克风阵列2包括被布置为捕获从任何方向到达麦克风阵列2的声音的多个麦克风。预先精确地选择多个麦克风中的每一个麦克风的位置和取向。麦克风阵列2被配置为将多个声音信号输出到处理模块10。

由于声场麦克风阵列2与第一人4之间的距离以及因此降低的信噪比，记录来自第一人的语音的声音质量可能不适用于特定应用。

为了提高所产生的声轨上的第一人的语音的声音质量，本地麦克风8靠近第一人4定位。这可以是例如固定在衣物的分立领夹式麦克风或者正好避开镜头放置的定向吊杆式麦克风。本地麦克风8输出单个(单声道)本地麦克风信号，该信号被传递到处理模块10。

尽管示出了麦克风2、8与处理模块10之间的物理连接，但是可以同样地为它们中的一个或两个提供无线(例如，射频)连接。

因为本地麦克风8被定位为如此靠近第一人4，所以可以实现高信噪比并且来自该本地麦克风8的信号由来自第一人4的声音支配。

如图1所描绘的，第一人4正在讲话，并且由此充当场景内的声源。第二人6也正在讲话，并且充当另一声源。由第一人4和第二人6两者创建的声音被麦克风阵列2捕获。因此，由麦克风阵列2输出的多个声音信号表示来自第一人4和第二人6两者的声音。

这里所示的系统能够产生包括来自第一人4和第二人6两者的由麦克风阵列2捕获的声音的常规的空间编码的声轨。具体地，处理模块10使用来自麦克风阵列2的多个信号以及单个麦克风的已知位置和取向来创建包括多个分量的空间编码的声场信号，每个分量包括来自第一人4和第二人6的声音。

然而，根据本发明，来自本地麦克风8的较高质量的信号也可以并入空间编码的声轨中。

为了做到这一点，必须确定第一人4相对于声场麦克风阵列2的位置。处理模块10通过将来自本地麦克风8的信号与来自麦克风阵列2的多个分量中的每一个分量进行比较以生成多个比较结果来做到这一点。

除了将来自本地麦克风8的较高质量的信号并入空间编码的声轨中，或者可选地，第一人4相对于声场麦克风阵列2的位置可以用于在制作期间或制作之后触发进一步动作，例如，控制声音效果的应用或自动声音水平控制。

存在处理模块10可以通过其确定第一人4(即，声源)的位置的若干种方法，以下针对一般情况详细描述其中的两种方法。尽管处理模块10在图1中示出为在物理上位于麦克风阵列2和本地麦克风8附近并且连接到麦克风阵列2和本地麦克风8，但是处理模块10可以位于远程，例如，设置在远程服务器上。

处理模块10可以用于在声音捕获正在进行的同时“实时”确定第一人4的位置，从而使得在制作期间能够触发进一步的动作，例如，以上讨论的动作。然而，可选地，可以在稍后的时间(例如，在后期制作期间)执行位置的确定。

图1中描述的场景的一般情况用于描述两种不同的定位方法。

在第一种方法中，麦克风阵列由q个麦克风组成，并且输出一组高保真立体声A格式信号(即，来自每个麦克风的原始输出)

每个信号包括来自声源的声音。本地麦克风捕获对应于来自声源的声音的本地麦克风信号s_s(t)。

如果假设A格式信号由位于具有反射墙的房间中的I个独立声源组成，则第q个麦克风的信号可以表示为：

其中，n_q(t)为噪声，并且h_i，q(t)为第i个源与第q个麦克风之间的房间脉冲响应。假设该房间脉冲响应由L个延迟反射组成，使得：

在离散时频傅里叶域中，第q个麦克风在时间T的信号可以表示为：

F_s为采样频率。为了便于阅读，本说明书的其余部分省略下标T。为了估计位置，对直接声音的到达时间Δt_i，q，1进行估计。PHAse变换(PHAT)算法用于本地麦克风信号s_s(k)和A格式信号

因此，可以估计从麦克风q到源s的距离等于r_s＝cΔt_s，q，1，其中，c是声速。

一旦已经确定了从麦克风中的每一个麦克风到源的距离，则使用这些距离以及麦克风的位置的简单代数运算是确定声源的位置所需的全部内容。图2是以二维演示该过程的简化图，尽管该理论同样适用于完全3D实现方式。

图2示出了构成与图1所示的麦克风阵列相似的麦克风阵列的三个麦克风202、204、206的位置。声源208产生由三个麦克风202、204、206以及紧密定位的本地麦克风(未示出)捕获的声音。使用与以上所描述的方法相似的方法，确定从三个麦克风202、204、206中的每一个到声源的距离。所确定的距离中的每一个距离限定以声源位于其上的对应麦克风为中心的圆的半径。可以通过识别三个圆重合的点来确定声源208的位置。

现在描述用于确定声源的位置的第二种方法。包括多个麦克风的麦克风阵列输出一组高保真立体声A格式信号，每个信号包括来自声源的声音。处理A格式信号以产生一组高保真立体声B格式信号，包括分解为球谐函数的房间的声场。B格式信号中的每一个被标记为

其中，m和n标记球谐函数。在优选示例中，高保真立体声麦克风输出四个信号，对应于n＝m＝0和n＝1，m＝-1，0，1的情况。这在概念上等效于从全向麦克风(n＝m＝1)发出的A格式信号，该全向麦克风与3个正交定位的八字形麦克风(n＝1，m＝-1，0，1)一致。在其他示例中，可以使用较高阶的球谐函数(增加B格式信号的数量)。

如前所述，本地麦克风捕获对应于来自声源的声音的本地麦克风信号s_s(t)。

再次，在具有反射墙的房间中对I个不相关的声源s_i进行建模。在这种情况下所产生的高保真立体声B格式信号可以写为：

其中，h_i为房间脉冲响应，

为球谐函数，并且

表示噪声。

假设房间脉冲响应h_i由L个延迟反射组成，使得：

因此，B格式信号的傅里叶变换可以写为：

计算经受定位的B格式信号

与麦克风信号s_s(k)之间的互谱：

对互谱执行傅里叶逆变换产生与利用针对第s′个源的估计的自相关函数卷积的麦克风信号的房间脉冲响应的高保真立体声B格式表示(即，分解为球谐函数)，

该高保真立体声表示的截断求和(truncated summation)提取由对应于源的方位角和仰角的球谐函数加权的直接声音自相关(即，排除任何反射)的截断和：

可以以与A格式信号相同的方式提取截断限制分量Δt_s，1；通过对本地麦克风信号和

(全向B格式分量)采用PHAT算法。假设L小于

并且被选择，使得

可以通过评估

的分量来提取相对于高保真立体声麦克风的源方向(方位角和仰角)，如下所示：

为了完全限定声源的位置，还必须确定从麦克风阵列到声源的距离(或范围)。这可以使用r_s＝Δt_s，1c来计算，其中，c是声速。

图3示出了与图1所示的场景相似的场景，其中，声场麦克风阵列302和本地麦克风308用于记录包括来自第一人304和第二人306两者的声音的空间编码的声轨。然而，与图1相比，该场景中的第一人304在讲话的同时移动(用虚线示出)。在现有技术系统中，确定移动声源的位置需要劳动密集型手动跟踪，然而，参考图1和图2描述的技术与移动源完全兼容，并且因此可以在该场景中用于贯穿任何移动定位第一人4。可以由此更容易且快速地产生包括高质量的本地麦克风信号的空间编码的声轨。

图4示出了与图1和图3所示的场景相似的来自虚拟现实制作的场景，其中，声场麦克风阵列402、本地麦克风408和处理器410用于记录包括来自第一人404和第二人406两者的声音的空间编码的声轨。然而，图4还示出了360°相机403，其可操作为捕获包含第一人404和第二人406两者的360°视频信号。360°视频信号可以与空间编码的声轨一起播放给用户，以产生包括来自第一人404的高质量声音的沉浸式且精确的VR体验，而无需在制作期间进行密集的手动跟踪。

如上所述，使用本文公开的方法确定的第一人404的位置可以用于除了促进制作期间和制作之后两者的高质量声音之外的目的。例如，第一人404的位置可以用于引导相机403的移动和/或对照明的调整。本文所公开的方法还可以实现高质量、沉浸式和精确的仅音频制作(即，没有伴随360°视频)，诸如播客或音乐表演。

Claims

1.一种确定声源的位置的方法，包括：

使用包括至少两个麦克风的声场麦克风系统生成空间编码的声场信号，其中，所述空间编码的声场信号包括多个分量，每个分量包括来自所述声源的声音；

使用靠近所述声源定位的本地麦克风生成对应于来自所述声源的声音的本地麦克风信号；

将所述本地麦克风信号与所述多个分量中的每一个分量进行比较以生成多个比较结果；并且

使用所述多个比较结果来确定所述声源相对于所述声场麦克风系统的位置。

2.根据权利要求1所述的方法，其中，将所述本地麦克风信号与所述多个分量中的每一个分量进行比较包括确定所述本地麦克风信号与所述多个分量中的每一个分量之间的相应的相关性度量。

3.根据权利要求2所述的方法，其中，确定所述声源相对于所述声场麦克风系统的位置包括：

使用所述相关性度量来确定由球谐函数加权的直接声音自相关；并且

通过评估所述直接声音自相关的分量提取从所述声场麦克风系统到所述本地麦克风的方向。

4.根据权利要求2或3所述的方法，包括使用所确定的相关性度量来计算所述本地麦克风信号与所述多个分量中的至少一个分量之间的一个或多个传播延迟。

5.根据权利要求4所述的方法，其中，使用所述多个比较结果来确定所述声源相对于所述声场麦克风系统的位置包括使用所述传播延迟中的两个或更多个传播延迟之间的差来确定从所述声场麦克风系统到所述本地麦克风的方向。

6.根据权利要求4或5所述的方法，其中，使用所述多个比较结果来确定所述声源相对于所述声场麦克风系统的位置包括使用所述传播延迟中的至少一个传播延迟来确定从所述声场麦克风系统到所述本地麦克风的距离或距离变化。

7.根据前述权利要求中任一项所述的方法，其中，所述声源在移动。

8.根据前述权利要求中任一项所述的方法，其中，所述多个分量中的每一个分量包括来自第二声源的声音，并且所述方法还包括：

使用靠近所述第二声源定位的第二麦克风来捕获第二麦克风信号，其中，第一麦克风信号包括来自所述第二声源的声音；

将所述第二麦克风信号与所述多个分量中的每一个分量进行比较以生成多个第二比较结果；并且

使用所述多个第二比较结果来确定所述第二声源相对于所述声场麦克风系统的位置。

9.根据前述权利要求中任一项所述的方法，还包括产生空间编码的声轨，其中，利用所述声源相对于所述声场麦克风系统的位置编码所述本地麦克风信号。

10.根据前述权利要求中任一项所述的方法，其中，所述方法还包括使用所确定的所述声源的位置来控制进一步的动作。

11.根据前述权利要求中任一项所述的方法，还包括使用相机系统来捕获视频信号，其中，在所述视频信号内捕获所述声源。

12.根据权利要求11所述的方法，其中，所述声场麦克风系统与所述相机系统并置。

13.根据权利要求11或12所述的方法，其中，所述方法还包括使用光学图像跟踪技术利用所述视频信号来细化所述声源的位置。

14.根据权利要求11所述的方法，其中，所述方法还包括使用光学图像跟踪技术来对准所述空间编码的声场信号和所述视频信号。

15.根据前述权利要求中任一项所述的方法，其中，所述声场麦克风系统包括至少四个麦克风。

16.根据前述权利要求中任一项所述的方法，其中，所述声场麦克风系统包括麦克风阵列和编码器。

17.根据前述权利要求中任一项所述的方法，其中，所述空间编码的声场信号包括高保真立体声B格式信号。

18.根据前述权利要求中任一项所述的方法，其中，所述声场麦克风系统中的所述至少两个麦克风彼此相邻。

19.根据前述权利要求中任一项所述的方法，其中，将所述本地麦克风信号与所述多个分量中的每一个分量进行比较包括将所述本地麦克风信号和所述多个分量中的每一个分量输入到神经网络，并且接收所述声源相对于所述声场麦克风系统的位置作为来自所述神经网络的输出。

20.根据权利要求19所述的方法，还包括利用先前捕获的本地麦克风信号、空间编码的声场信号和关于声源位置的信息来训练所述神经网络。

21.一种确定声源的位置的方法，包括：

提供包括多个分量的空间编码的声场信号，每个分量包括来自所述声源的声音；

提供对应于来自所述声源的声音的本地麦克风信号；

使用所述多个比较结果来确定所述声源的位置。

22.一种计算机软件工具，被配置为：

接收对应于来自所述声源的声音的本地麦克风信号；

使用所述多个比较结果来确定所述声源的位置。

23.一种声源定位系统，包括：

近麦克风，靠近所述声源定位并且被布置为输出对应于来自所述声源的声音的近麦克风信号；以及

处理器，被布置为接收所述近麦克风信号和所述声场信号；

其中，所述处理器被配置为将所述近麦克风信号与所述多个分量中的每一个分量进行比较以生成多个比较结果，并且使用所述多个比较结果来确定所述声源相对于所述声场麦克风系统的位置。