CN110089131A

CN110089131A - 分布式音频捕获和混合控制

Info

Publication number: CN110089131A
Application number: CN201780077028.7A
Authority: CN
Inventors: S·S·马特; J·莱帕宁
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2016-11-16
Filing date: 2017-11-10
Publication date: 2019-08-02
Anticipated expiration: 2037-11-10
Also published as: US10785565B2; GB2556058A; WO2018091777A1; US20190349677A1; EP3542549A4; CN110089131B; EP3542549A1

Abstract

一种装置，包括处理器，其被配置为：接收来自近场麦克风的音频信号，其中，音频信号是空间音频混合中的输入，近场麦克风与第一声源相关联；接收来自麦克风阵列的波束成形的音频信号，其中，波束成形的音频信号是形成从麦克风阵列指向近场麦克风的麦克风阵列的波束的结果以便增强音频信号；确定在包括第一声源的声音场景内没有其它声源是活动的时长；以及确定在所述时长期间音频信号与波束成形的音频信号之间的时间差，以使得音频信号和波束成形的音频信号能够对齐。

Description

分布式音频捕获和混合控制

技术领域

本申请涉及用于分布式音频捕获和混合的装置和方法。本发明还涉及但不限于用于音频信号的空间处理的分布式音频捕获和混合以实现音频信号的空间再现的装置和方法。

背景技术

来自在空间场中移动的多个源的音频信号的捕获以及那些音频信号的混合需要大量的人工操作。例如，在诸如剧院或演讲厅的音频环境内诸如演讲者或艺术家的音频信号源的捕获和混合以向收听者呈现并产生有效的音频氛围需要对设备和培训进行大量投资。

通常实现的系统是这样一个系统，其中，一个或多个近场或外部麦克风(例如，由用户佩戴或附接到挑杆以捕获音频信号的Lavalier麦克风)生成将与空间(或环境或音频场)音频信号混合的音频信号，使得所产生的源看起来来自预期的方向。如所预期的那样，人工将声源定位在空间音频场内需要大量时间和精力来人工完成。混合是至少部分自动化的另一个问题是近场和空间音频信号的对齐。

关于图1示出了这个问题。在图1中，示出了近场麦克风(具有可选的高精度室内定位HAIP标签)103生成第一音频信号105。诸如诺基亚OZO设备(也具有可选的高精度室内定位HAIP接收机)的空间音频信号捕获设备101(或空间捕获设备)被示出已生成空间音频信号107。混合器的目的是产生近场麦克风音频信号105与空间音频信号107的混合，以使得由近场麦克风音频信号和空间音频信号两者捕获的音频或声源听起来像来自正确的方向。

可以使用诸如诺基亚的高精度室内定位(HAIP)系统的定位方法和混合的音频信号来确定近场麦克风位置以生成音频信号，其中，近场麦克风看起来是从所确定的位置到达的。然而，由音频处理和从近场麦克风到空间捕获设备麦克风阵列的距离引起的时间延迟在近场麦克风音频信号与空间捕获设备音频信号之间产生时间失配Δt 109。因此，这两个音频信号需要在混合之前进行时间对齐。当由近场麦克风捕获的声音在空间捕获设备处也可清晰听到时，可使用诸如具有PHAse变换的广义互相关(GCC-PHAT)方法的已有的音频对齐方法来确定延迟，该延迟需要被应用到近场麦克风音频信号或空间捕获设备音频信号中的一个或另一个，以在混合之前对齐音频信号。

图2示出了使用用于音频信号对齐的已知方法而可能发生的问题。图2中所示的系统示出了生成第一音频信号105的近场麦克风103和生成空间音频信号105的空间捕获设备101。然而，随着近场麦克风103和空间捕获设备101之间的距离增加，对齐变得更加困难。这是因为当它们之间的距离增加时，由近场麦克风清楚地记录的音频信号在空间捕获设备麦克风处变得更安静。随着该距离增加到超过阈值点，已知的对齐方法完全失败，因为诸如来自周围环境的音频信号的“噪声”主导空间捕获设备音频信号。该距离取决于麦克风的灵敏度、声源的幅度以及任何“噪声”源的幅度和频率。这些“噪声”源可能是其它附近的音频或声源。

可以在空间捕获设备麦克风和/或近场麦克风处听到这些附近的音频源，从而使对齐甚至更加困难，因为用于对齐音频信号的方法试图对齐干扰或无关的音频源而不是对齐来自近场麦克风音频源的信号。例如，如图2中所示，位于近场麦克风103和空间捕获设备麦克风101之间的中间位置处的干扰大声的音频源201可以产生与近场麦克风103相关联的音频信号205和与空间捕获设备麦克风101相关联的音频信号207之间的时间差Δt_x 209，其不反映对应于预期声源(在这种情况下是近场麦克风声源)的时间差。

需要确定延迟估计是否是正确的延迟估计。

发明内容

根据第一方面，提供了一种装置，包括处理器，其被配置为：接收来自近场麦克风的音频信号，其中，音频信号是空间音频混合中的输入，近场麦克风与第一声源相关联；接收来自麦克风阵列的波束成形的音频信号，其中，波束成形的音频信号是形成从麦克风阵列指向近场麦克风的麦克风阵列的波束的结果以便增强音频信号；确定在包括第一声源的声音场景内没有其它声源是活动的时长；以及确定在所述时长期间音频信号与波束成形的音频信号之间的时间差，以使得音频信号和波束成形的音频信号能够对齐。

被配置为接收来自麦克风阵列的波束成形的音频信号的处理器可以被配置为：确定从麦克风阵列到近场麦克风的方位角；以及基于所确定的方位角，生成波束成形的音频信号。

被配置为确定从麦克风阵列到近场麦克风的方位角的处理器可以被配置为基于以下中的至少一个来确定方位角：近场麦克风和/或麦克风阵列的卫星定位系统估计；近场麦克风和/或麦克风阵列的惯性定位系统估计；近场麦克风和/或麦克风阵列的射频信标系统估计；与近场麦克风和/或麦克风阵列相关联的定位(HAIP)标签的高精度室内定位(HAIP)系统估计；以及与近场麦克风和/或麦克风阵列相关联的对象的视觉对象跟踪系统估计。

被配置为生成波束成形的音频信号的处理器可以进一步被配置为：自适应地改变波束成形的音频信号的波束宽度。

被配置为自适应地改变波束成形的音频信号的波束宽度的处理器可以进一步被配置为基于以下中的至少一个来自适应地改变波束成形的音频信号的波束宽度：近场麦克风音频信号的幅度；麦克风阵列音频信号的幅度；声源的位置；以及近场麦克风的位置的变化。

被配置为确定在麦克风阵列与近场麦克风的位置之间没有其它声源存在的时长的处理器可以被配置为：确定在包括第一声源的音频场景内没有其它声源存在的时长。

被配置为确定在麦克风阵列与近场麦克风的位置之间没有其它声源存在的时长的处理器可以被配置为：确定在包括第一声源的音频场景内的至少一个其它声源；确定至少一个其它声源的位置；以及确定在所述时长内至少一个其它声源的位置不在麦克风阵列与第一声源之间。

被配置为确定在所述时长期间音频信号与波束成形的音频信号之间的时间差的处理器可以进一步被配置为：基于确定在来自麦克风阵列信号的波束成形的音频信号的第二时长内在波束成形的音频信号内存在至少一个其它声源，从音频信号和/或波束成形的音频信号中移除片段。

被配置为从音频信号和波束成形的音频信号中选择性地移除片段的处理器可以被配置为：确定第二时长；通过在音频信号内识别与波束成形的音频信号的第二时长内的存在相匹配的至少一个其它声源的存在，确定波束成形的音频信号与音频信号之间的另一声源时间差；从波束成形的音频信号中移除与第二时长相关联的时间片段；以及从音频信号中移除由另一声源时间差调整的与第二时长相关联的时间片段。

被配置为确定在麦克风阵列与近场麦克风的位置之间没有其它声源存在的时长的处理器可以被配置为执行以下中的至少一个：视觉地确定其它声源的存在；基于来自与其它声源相关联的定位系统的位置估计，确定其它源的存在；以及通过确定基于波束成形的音频信号的方向分析的方位与近场麦克风的位置的估计显著不同，确定其它声源的存在。

处理器可以进一步被配置为：基于使用所述时间差以对齐音频信号和波束成形的音频信号，混合和/或处理音频信号。

根据第二方面，提供了一种方法，其包括：接收来自近场麦克风的音频信号，其中，音频信号是空间音频混合中的输入，近场麦克风与第一声源相关联；接收来自麦克风阵列的波束成形的音频信号，其中，波束成形的音频信号是形成从麦克风阵列指向近场麦克风的麦克风阵列的波束的结果以便增强音频信号；确定在包括第一声源的声音场景内没有其它声源是活动的时长；以及确定在所述时长期间音频信号与波束成形的音频信号之间的时间差，以使得音频信号和波束成形的音频信号能够对齐。

接收来自麦克风阵列的波束成形的音频信号可以包括：确定从麦克风阵列到近场麦克风的方位角；以及基于所确定的方位角，生成波束成形的音频信号。

确定从麦克风阵列到近场麦克风的方位角可以包括以下中的至少一个：确定近场麦克风和/或麦克风阵列的卫星定位系统估计；确定近场麦克风和/或麦克风阵列的惯性定位系统估计；确定近场麦克风和/或麦克风阵列的射频信标系统估计；确定与近场麦克风和/或麦克风阵列相关联的定位(HAIP)标签的高精度室内定位(HAIP)系统估计；以及确定与近场麦克风和/或麦克风阵列相关联的对象的视觉对象跟踪系统估计。

生成波束成形的音频信号还可以包括：自适应地改变波束成形的音频信号的波束宽度。

自适应地改变波束成形的音频信号可以包括基于以下中的至少一个来自适应地改变波束成形的音频信号的波束宽度：近场麦克风音频信号的幅度；麦克风阵列音频信号的幅度；声源的位置；以及近场麦克风的位置的变化。

确定在麦克风阵列与近场麦克风的位置之间没有其它声源存在的时长可以包括：确定在包括第一声源的音频场景内没有其它声源存在的时长。

确定在麦克风阵列与近场麦克风的位置之间没有其它声源存在的时长可以包括：确定在包括第一声源的音频场景内的至少一个其它声源；确定至少一个其它声源的位置；以及确定在所述时长内至少一个其它声源的位置不在麦克风阵列与第一声源之间。

确定在所述时长期间音频信号与波束成形的音频信号之间的时间差可以包括：基于确定在来自麦克风阵列信号的波束成形的音频信号的第二时长内在波束成形的音频信号内存在至少一个其它声源，从音频信号和/或波束成形的音频信号中移除片段。

从音频信号和波束成形的音频信号中选择性地移除片段可以包括：确定第二时长；通过在音频信号内识别与波束成形的音频信号的第二时长内的存在相匹配的至少一个其它声源的存在，确定波束成形的音频信号与音频信号之间的另一声源时间差；从波束成形的音频信号中移除与第二时长相关联的时间片段；以及从音频信号中移除由另一声源时间差调整的与第二时长相关联的时间片段。

确定在麦克风阵列与近场麦克风的位置之间没有其它声源存在的时长可以包括以下中的至少一个：视觉地确定其它声源的存在；基于来自与其它声源相关联的定位系统的位置估计，确定其它源的存在；以及通过确定基于波束成形的音频信号的方向分析的方位与近场麦克风的位置的估计显著不同，确定其它声源的存在。

所述方法还可以包括：基于使用所述时间差以对齐音频信号和波束成形的音频信号，混合和/或处理音频信号。

根据第三方面，提供了一种装置，包括：用于接收来自近场麦克风的音频信号的装置，其中，音频信号是空间音频混合中的输入，近场麦克风与第一声源相关联；用于接收来自麦克风阵列的波束成形的音频信号的装置，其中，波束成形的音频信号是形成从麦克风阵列指向近场麦克风的麦克风阵列的波束的结果以便增强音频信号；用于确定在包括第一声源的声音场景内没有其它声源是活动的时长的装置；以及用于确定在所述时长期间音频信号与波束成形的音频信号之间的时间差，以使得音频信号和波束成形的音频信号能够对齐的装置。

用于接收来自麦克风阵列的波束成形的音频信号的装置可以包括：用于确定从麦克风阵列到近场麦克风的方位角的装置；以及用于基于所确定的方位角来生成波束成形的音频信号的装置。

用于确定从麦克风阵列到近场麦克风的方位角的装置可以包括以下中的至少一个：用于确定近场麦克风和/或麦克风阵列的卫星定位系统估计的装置；用于确定近场麦克风和/或麦克风阵列的惯性定位系统估计的装置；用于确定近场麦克风和/或麦克风阵列的射频信标系统估计的装置；用于确定与近场麦克风和/或麦克风阵列相关联的定位(HAIP)标签的高精度室内定位(HAIP)系统估计的装置；以及用于确定与近场麦克风和/或麦克风阵列相关联的对象的视觉对象跟踪系统估计的装置。

用于生成波束成形的音频信号的装置还可以包括：用于自适应地改变波束成形的音频信号的波束宽度的装置。

用于自适应地改变波束成形的音频信号的装置可以包括用于基于以下中的至少一个来自适应地改变波束成形的音频信号的波束宽度的装置：近场麦克风音频信号的幅度；麦克风阵列音频信号的幅度；声源的位置；以及近场麦克风的位置的变化。

用于确定在麦克风阵列与近场麦克风的位置之间没有其它声源存在的时长的装置可以包括：用于确定在包括第一声源的音频场景内没有其它声源存在的时长的装置。

用于确定在麦克风阵列与近场麦克风的位置之间没有其它声源存在的时长的装置可以包括：用于确定在包括第一声源的音频场景内的至少一个其它声源的装置；用于确定至少一个其它声源的位置的装置；以及用于确定在所述时长内至少一个其它声源的位置不在麦克风阵列与第一声源之间的装置。

用于确定在所述时长期间音频信号与波束成形的音频信号之间的时间差的装置可以包括：用于基于确定在来自麦克风阵列信号的波束成形的音频信号的第二时长内在波束成形的音频信号内存在至少一个其它声源，从音频信号和/或波束成形的音频信号中移除片段的装置。

用于从音频信号和波束成形的音频信号中选择性地移除片段的装置可以包括：用于确定第二时长的装置；用于通过在音频信号内识别与波束成形的音频信号的第二时长内的存在相匹配的至少一个其它声源的存在，确定波束成形的音频信号与音频信号之间的另一声源时间差的装置；用于从波束成形的音频信号中移除与第二时长相关联的时间片段的装置；以及用于从音频信号中移除由另一声源时间差调整的与第二时长相关联的时间片段的装置。

用于确定在麦克风阵列与近场麦克风的位置之间没有其它声源存在的时长的装置可以包括以下中的至少一个：用于视觉地确定其它声源的存在的装置；用于基于来自与其它声源相关联的定位系统的位置估计，确定其它源的存在的装置；以及用于通过确定基于波束成形的音频信号的方向分析的方位与近场麦克风的位置的估计显著不同，确定其它声源的存在的装置。

所述装置还可以包括：用于基于使用所述时间差以对齐音频信号和波束成形的音频信号，混合和/或处理音频信号的装置。

存储在介质上的计算机程序产品可以使所述装置执行如本文所描述的方法。

电子设备可以包括如本文所描述的装置。

芯片组可包括如本文所描述的装置。

本申请的实施例旨在解决与现有技术相关的问题。

附图说明

为了更好地理解本申请，现在将通过示例的方式参考附图，其中：

图1和图2示意性地示出示例性现有技术的延迟估计场景；

图3示意性地示出可以在其中实现实施例的系统；

图4示意性地示出根据一些实施例的波束成形的延迟估计。

图5a至5c示意性地示出根据一些实施例的如图4中所示的波束成形的延迟估计对齐切换；

图6a至6c示意性地示出根据一些实施例的如图4中所示的可变波束成形的延迟估计对齐；

图7示出来自近场麦克风和空间捕获设备的音频信号轨迹的示例，其中，存在干扰音频源；

图8示出来自近场麦克风和空间捕获设备的音频信号轨迹的示例，其中，干扰音频源分量被识别；

图9示出来自近场麦克风和空间捕获设备的音频信号轨迹的示例，其中，干扰音频源在如图8所示地被识别之后被对齐；

图10示出来自近场麦克风和空间捕获设备的音频信号轨迹的示例，其中，在图9中的干扰源对齐之后从音频信号中裁剪干扰音频源分量；

图11示出来自近场麦克风和空间捕获设备的音频信号轨迹的示例，其中，在图10中所示的裁剪干扰音频源分量之后音频源被对齐；

图12示出在图11中所示的对齐之后来自近场麦克风和空间捕获设备的音频信号轨迹的示例；

图13示出根据一些实施例的对齐的方法的流程图。

具体实施方式

以下进一步详细描述了用于在与近场麦克风相关联的音频信号和与空间捕获设备麦克风相关联的音频信号之间提供有效音频信号对齐的适合装置和可能机制。在以下示例中，描述了音频信号和音频捕获信号。然而，应当理解，在一些实施例中，所述装置可以是任何适合的被配置为捕获音频信号或接收音频信号和其它信息信号的电子设备或装置的一部分。

在本文中进一步详细描述的概念是使用空间捕获设备麦克风阵列来执行音频波束成形，以从近场麦克风源的方向来增强声音，以改进对齐。这可以通过以下操作来进一步实现：

首先，获得近场麦克风的位置或地点的估计并确定其相对于空间捕获设备麦克风阵列的方位角。如本文所述，可以使用HAIP或者视觉对象跟踪和HAIP定位的组合来确定近场麦克风音频源的位置。

其次，确定适合的对齐时隙或时段，在所述对齐时隙或时段中不存在潜在的干扰音频源。在一些实施例中，这可以通过HAIP跟踪和视觉分析的组合来执行。干扰音频或声源可以是在包括与近场麦克风相关联的声源的声音场景内任何其它活动的声源。活动声源是能够干扰诸如音频信号之间的时间对齐的通常正在执行的过程的声源。例如，声源可以位于麦克风阵列与近场麦克风之间，并且具有足够大的幅度以被麦克风阵列和/或近场麦克风接收。在一些其它示例中，声源可以不位于麦克风阵列与近场麦克风之间，但是非常大声以被麦克风阵列和/或近场麦克风接收。

第三，使用空间捕获设备麦克风阵列，在确定的方向上构造音频波束并记录波束成形的音频信号。在一些实施例中，所构造的波束的宽度是可变的，并且可以基于场景的视觉分析和被跟踪源的HAIP位置来确定。

第四，时间对齐近场麦克风音频信号和波束成形的空间捕获设备音频信号以确定信号之间的时间差。在一些实施例中，仅针对在第二步骤中确定的对齐时隙来执行时间对齐。

此外，在一些实施例中，可以进一步改进所述方法以通过使用来自空间捕获设备麦克风阵列的音频信号来执行到达方向(DOA)估计来增加对齐的准确度，从而确定最主导的音频源的方向。然后，当根据音频信号确定的主导音频源到达方向与根据HAIP确定的角度匹配时，则执行与近场麦克风相关联的音频信号和与空间捕获设备麦克风相关联的音频信号之间的时间对齐。

关于图3示出了包括可以在实施例中使用以执行本文描述的方法的装置的系统。所述系统示出了包括近场麦克风103和具有“可变的”延迟元素的近场麦克风音频信号321。近场麦克风103被配置为向处理器351发送近场麦克风信号321。

此外，所述系统被示出为包括空间捕获设备101(在该示例中被示为诺基亚OZO)。空间捕获设备101可以包括麦克风阵列，其被配置为生成空间捕获设备音频信号311。空间捕获设备音频信号可被认为是“固定的”延迟元素。空间捕获设备101可被配置为向处理器351发送空间捕获设备音频信号311。空间捕获设备101还可以包括被配置为生成视觉定位数据的至少一个摄像头，视觉定位数据例如是由空间捕获设备麦克风阵列捕获的场景的图像。

在一些实施例中，所述系统包括位置确定器301。在所示的示例中，使用高精度室内位置(HAIP)接收机阵列来执行位置确定器操作，该接收机阵列被配置为接收来自位于将要定位的设备上或其附近的HAIP标签或定位标签的信号。然后由处理器351进行位置估计。然而，在一些实施例中，位置确定器操作可以由任何适合的位置或地点确定装置或系统来执行。例如，在一些实施例中，位置确定器功能在设备(例如，包括近场麦克风和/或空间捕获设备的设备)内执行，并且所确定的位置被直接输出到处理器。因此，在一些实施例中，近场麦克风设备和/或空间捕获设备使用射频信标设备定位系统、卫星定位系统、基于陀螺仪的惯性系统或类似的系统来生成位置估计。在一些实施例中，位置确定器可以是空间捕获设备101的一部分或者处理器351的一部分。

在一些实施例中，所述系统包括处理器351，其被配置为接收空间捕获设备音频信号311和近场麦克风设备音频信号321，并基于以下方法来执行音频信号的对齐。在一些实施例中，空间捕获设备音频信号311和近场麦克风设备音频信号321具体由处理器351内的时间对齐器361(其可以是功能或模块)接收，该时间对齐器361被配置为在控制器381的控制下进行对齐。

处理器351可以包括被配置为控制时间对齐器361的控制器381。在一些实施例中，控制器381被配置为基于定位器371的输出来控制时间对齐器361。处理器351可以包括定位器371，其被配置为从空间捕获设备101接收视觉定位数据313，并且还从位置确定器301接收近场麦克风103(以及空间捕获设备101)的确定的位置。

在图4中示出了在本文中示出的实施例的概念的实现，其中，与近场麦克风103相关联的音频信号305和与空间捕获设备101麦克风相关联的音频信号307被对齐。然而，与用于对齐操作的空间捕获设备101麦克风相关联的音频信号307是音频波束成形308音频信号，而不是通常在已知示例中使用的全向301音频信号。通过定向聚焦于与近场麦克风音频源相关联的位置，对空间捕获设备101麦克风进行音频波束成形减少了空间捕获设备音频信号307内的背景噪声量，并且进一步降低了噪声/干扰音频源被近场麦克风和空间捕获设备麦克风两者捕获到并且发生不正确的对齐的可能性。

对空间捕获设备101麦克风进行音频波束成形的实现需要准确了解近场麦克风相对于空间捕获设备的位置。在一些实施例中，这可以通过首先确定或获得近场麦克风103的位置，然后确定其相对于空间捕获设备麦克风阵列的角度来实现。可以根据任何适合的方式来执行近场麦克风源的位置的确定。在一些实施例中，可以使用来自HAIP接收机阵列301的高精度室内定位(HAIP)系统信息来执行该位置确定，HAIP接收机阵列301接收来自位于近场麦克风上的定位(HAIP)标签的无线电信号，并且通过这些信号能够定位无线电信号的源。在一些实施例中，可以使用视觉对象跟踪和HAIP定位信息的组合来执行位置确定。

例如，处理器351内的定位器371可被配置为接收HAIP确定的近场麦克风的位置，然后使用例如来自位于空间捕获设备上的摄像头(例如，诺基亚OZO上的摄像头)的摄像头图像，定位器371被配置为执行图像处理以确定HAIP位置周围区域的视觉识别(并且在预期位置处生成对象/人的“视觉指纹”)。然后，可以使用视觉跟踪方法来跟踪由“视觉指纹”表示的对象/人。在一些实施例中，定位器还可以使用基于粒子滤波器的HAIP位置信息和视觉跟踪器信息的组合来生成位置估计。在某些情况下，例如在低光条件下，视觉跟踪可能失败或者来自墙壁的反射可能影响HAIP位置估计。为了尝试允许这些条件，在一些实施例中，根据位置估计来计算统计数据。这些统计数据，例如时间窗内的变化，可用于确定估计有噪声或稳定的时间。

已确定近场麦克风的位置并执行空间捕获设备101麦克风的音频波束成形以聚焦在近场麦克风的位置上。空间捕获设备101麦克风音频信号和近场麦克风音频信号的对齐可以通过降低了背景噪声的基于传统对齐过程的改进来执行。

在一些实施例中，这可以通过在适当的时隙或时间执行音频信号之间的对齐来进一步改进。所述系统以及在一些实施例中处理器可被配置为确定时间对齐估计可能是错误的或不可靠的时间。例如，在一些实施例中，所述系统被配置为确定干扰或“噪声”音频信号源201是否位于近场麦克风103与空间捕获设备101之间。这可以通过搜索潜在地包含干扰音频源的时间片段来实现。

例如，图5a至5c示出了表示干扰音频信号源201的对象在近场麦克风103与空间捕获设备101麦克风阵列之间移动，尤其是在空间捕获设备101的音频波束内移动。当“噪声”音频信号源201位于近场麦克风与空间捕获设备麦克风阵列之间时，它将使时间对齐更困难或不可能。

在一些实施例中，“噪声”音频信号源201对象是配备有定位标签(例如，HAIP标签)的人或对象，并且因此“噪声”音频信号源201对象的位置是已知的(例如，通过HAIP阵列301)。在这样的实施例中，处理器351内的定位器371可以传递近场麦克风103和“噪声”音频信号源201对象的位置信息，并且控制器381被配置为控制音频信号的对齐，以使得在所确定的“噪声”音频信号源201对象的位置是在空间捕获设备101与近场麦克风103之间时，则不执行对齐。在这样的实施例中，可以使用先前的对齐值，直到“噪声”音频信号源201对象移动远离波束为止。

在一些实施例中，其中“噪声”音频信号源201对象未被信标(HAIP)或其它定位系统跟踪，“噪声”音频信号源201对象的位置可通过视觉装置来确定。可以执行用于对象的视觉识别的任何适合的装置和方法。例如，http://papers.nips.cc/paper/5207-deep-neural-networks-for-object-detectin.pdf描述了一种用于识别图像内的对象的基于神经网络的系统。基于对象识别/检测，系统(例如，控制器381)可能够检测到物体移动靠近近场麦克风103的时间。然后，控制器381可被配置为标记或识别这些时间并控制时间对齐器361，以阻止执行对齐或者丢弃在所识别的时间执行的任何对齐操作的结果。

在图5a至5c中示出了这种情况的示例，其中，“噪声”音频信号源201对象移动跨越音频波束成形的音频信号的波束。图5a示出了近场麦克风103在时间t1相对于空间捕获设备101的位置(或方向)。在时间t1，近场麦克风103和“噪声”音频信号源201对象相对于空间捕获设备101的位置在限定的阈值之外。因此，波束成形的音频信号308和来自近场麦克风103的音频信号可用于执行时间对齐。

“噪声”音频信号源201对象移动，如此图5b示出了近场麦克风103在时间t2相对于空间捕获设备101的位置(或方向)。在时间t2，近场麦克风103和“噪声”音频信号源201对象相对于空间捕获设备101的位置在限定的阈值内。因此，不执行时间对齐，因为在尝试对齐近场麦克风103音频信号和空间捕获设备麦克风阵列音频信号时，来自“噪声”音频信号源201对象的音频信号会进行干扰并导致错误。

“噪声”音频信号源201对象进一步移动，如此图5c示出了近场麦克风103在时间t3相对于空间捕获设备101的位置(或方向)。在时间t3，近场麦克风103和“噪声”音频信号源201对象相对于空间捕获设备101的位置在限定的阈值之外并且可以执行时间对齐，因为在尝试对齐近场麦克风103音频信号和空间捕获设备麦克风阵列音频信号时，来自“噪声”音频信号源201对象的音频信号不会干扰并导致错误。

在一些实施例中，为了进一步改进时间对齐性能，系统(例如，控制器381或者常规的处理器)可被配置为从其对齐可能失败的音频信号中移除这些部分。这可以通过对全向或波束成形的空间捕获设备麦克风阵列音频信号执行到达方向(DOA)估计以确定最主导的音频源的方向来实现。在一些实施例中，可以使用SRP-PHAT方法来确定主导音频源。因此，在一些实施例中，可以确定在麦克风阵列周围的方向上的空间音频信号能量的量。然后，该空间音频信号能量信息可以与所确定的(例如使用HAIP系统)近场麦克风的位置一起使用，以仅在主导音频源与近场麦克风的HAIP确定的角度对齐时控制时间对准的实现。

因此，在这样的实施例中，避免了在近场麦克风语音或音频方向上与一些其它声源的对齐。

例如，如果空间捕获设备周围的方向的集合被定义为o＝1...O。使用具有PHAT加权的转向响应功率(SRP)来计算在所有方向o上和麦克风阵列周围观察到的空间能量Z_n0。在其它实施例中，可以使用其它方法。观察到的空间能量Z_n0可以是：

Z_n0是在不同时间n在每个方向o上在设备周围的空间能量的量。

对于每个时间n，确定最大Z_n0并将最大能量方向存储为maxZ_n。

根据所确定的定位，H_n被定义为近场麦克风在时间n的位置方向。

当maxZ_n和H_n在时间n在彼此的阈值内时，则控制器可被配置为控制时间对齐器361将该时间内的音频信号用于时间对齐。

在一些实施例中，为了进一步改进对齐操作的性能，所述系统可被配置为调整在空间捕获设备麦克风阵列音频信号的波束成形中使用的音频波束的宽度。

图6a至6c示出了调整在波束成形中使用的波束宽度是有益的示例性情况。

因此，例如，图6a示出了“噪声”音频信号源201对象相对于空间捕获设备101位于远离近场麦克风103并且使用“标准波束”或默认波束615的示例。

图6b示出了“噪声”音频信号源201对象相对于空间捕获设备101位于近场麦克风103附近并且使用“窄波束”617以使得来自“噪声”音频信号源201的音频信号的能量不会污染对齐的示例。

图6c示出了定位数据有噪声的示例(例如，所确定的位置在时间窗口～1s内具有很大的变化)。由于定位信息不能准确地确定近场麦克风的精确位置以便尽可能多地在空间捕获设备麦克风阵列处捕获近场麦克风音频源能量，所以空间捕获设备音频信号波束625的音频波束成形可被设置为比默认波束宽。

已知在执行音频波束成形中，麦克风阵列(L)的有效长度控制波束宽度。阵列的有效长度越长，可能产生的波束宽度越窄。因此，在一些实施例中，可以基于时间窗口中的位置的变化来确定阵列的期望长度。

L＝K*1/var(Hn),n＝i..i+window_length

其中，Hn是近场麦克风信号的位置(方位)，var(Hn)是其变化，K是适当选择的常数。

通过从阵列中选择(接通/断开)第一个或最后一个麦克风以改变其有效长度，可以在阵列中对L进行调整。

在一些实施例中，麦克风阵列可以形成在可扩展的框架上或者由可扩展的框架支撑，可扩展的框架可以由控制器控制以允许增加或减少有效麦克风阵列长度。基于干扰声源的相对位置，可以在垂直或水平方向上增加或减小长度。

关于图7至12，示出了一系列的示例性时间对齐操作，其可以使用在图3中所示的系统来实现，其中，序列内的音频信号从对齐过程中被裁剪。此外，还可以在图13的流程图内示出可以在图3所示的系统上实现的操作。

图7示出了将要对齐的音频信号。示出了示例性的近场麦克风音频信号(近场麦克风信号)703和空间捕获设备麦克风音频信号(OZO麦克风信号)701。在所示的示例中，Δt1711是我们感兴趣的两个音频信号之间的时间差。然而，在音频信号内存在可在两个音频信号记录中都看到的由干扰音频源721主导的序列。该源被示出为比空间捕获设备更靠近近场麦克风，并且因此在近场麦克风音频信号记录中更早出现。可以进一步看出，如果我们直接对信号进行时间对齐，则使用来自具有时间差Δt2713的干扰音频源信号的信号可能会估计出错误的时间差。

可以看出，为了消除干扰的影响，在执行对齐操作之前要从这两个音频信号中移除干扰。基于上面解释的步骤，已知空间捕获设备(OZO)麦克风信号中的干扰的时间。换句话说，使用近场麦克风和干扰音频源的位置估计来确定将要从对齐中排除的时间片段。

在图13中由步骤1301示出了确定将要从关于空间捕获设备的对齐中排除的时间片段的操作。

此外，所述系统可被配置为通过比较来自阵列音频的主导源到达方向与近场麦克风源位置重叠来确定用于干扰源移除的时间片段。

通过比较来自阵列音频的主导源到达方向与近场麦克风源位置重叠来确定用于干扰源移除的时间片段的操作在图13中由步骤1303示出。

然而，近场麦克风中的干扰的时间是未知的。

第一个步骤是从空间捕获设备(OZO)麦克风信号中裁剪出除了干扰部分以外的所有内容。

为了实现这一点，要确定空间捕获设备麦克风音频信号中存在潜在的干扰音频源的时间片段。

在空间捕获设备麦克风音频信号内确定潜在干扰音频源分量的操作在图13中由步骤1305示出。

在图8中示出的潜在干扰音频源分量721从空间捕获设备麦克风阵列音频信号701中被裁剪。

在麦克风阵列音频中仅保留干扰音频的操作(裁剪)在图13中由步骤1307示出。

然后，将干扰部分与近场麦克风信号对齐。这可以使用GCC-PHAT来实现。这在图8中示出，其中示出了空间捕获设备麦克风阵列音频信号的裁剪811部分与近场麦克风音频信号的类似813部分之间的对齐时间差811。

该对齐时间差可被应用于近场麦克风音频信号703以产生“干扰”对齐的903近场麦克风音频信号，其中，干扰被对齐911。

将剩余(仅干扰)的空间捕获设备麦克风阵列音频信号与近场麦克风音频信号对齐的操作在图13中由步骤1309示出。

已经将剩余(仅干扰)的空间捕获设备麦克风阵列音频信号与近场麦克风音频信号对齐，可以从近场麦克风音频信号并且也可以从空间捕获设备麦克风阵列音频信号中裁剪干扰。这在图10中通过包含了空间捕获设备麦克风阵列音频信号的仅干扰部分的裁剪片段1011示出，当其从空间捕获设备麦克风阵列音频信号中被移除时生成无干扰的空间捕获设备麦克风阵列音频信号1001。图10中还示出了包含近场麦克风音频信号的仅干扰部分的裁剪片段1011，当其从近场麦克风音频信号中被移除时生成无干扰的近场麦克风音频信号1003。

确定仅干扰对齐是否成功的操作在图13中由步骤1311示出。

在仅干扰对齐失败的情况下，仅执行空间捕获设备麦克风阵列音频信号的裁剪，然后对未裁剪的近场麦克风音频信号和裁剪的空间捕获设备麦克风阵列音频信号执行对齐。对齐未裁剪的近场麦克风音频信号和裁剪的空间捕获设备麦克风阵列音频信号的操作在图13中由步骤1313示出。

然而，当仅干扰对齐成功时，则执行这两个音频信号的裁剪。

从近场麦克风信号中移除干扰音频(以及从空间捕获设备麦克风阵列音频信号中移除干扰音频)的操作在图1315中示出。

图11示出了可以使用GCC-PHAT来实现对齐的确定。在图11中示出了裁剪的空间捕获设备麦克风阵列音频信号1001与裁剪的近场麦克风音频信号1003之间的对齐时间差1111。

该对齐时间差可被应用于裁剪的近场麦克风音频信号1003，以对齐1213音频信号并产生对齐的近场麦克风音频信号1203。

将裁剪的空间捕获设备麦克风阵列音频信号与近场麦克风音频信号对齐的操作在图13中由步骤1317示出。

麦克风可以是被配置为将声波转换成适合的电音频信号的转换器。在一些实施例中，麦克风可以是固态麦克风。换句话说，麦克风可能够捕获音频信号并输出适合的数字格式信号。在一些其它实施例中，麦克风或麦克风阵列可以包括任何适合的麦克风或音频捕获装置，例如，电容式麦克风、电容麦克风、静电式麦克风、驻极体电容式麦克风、动态麦克风、带状麦克风、碳式麦克风、压电式麦克风或微电子机械系统(MEMS)麦克风。

处理器可配置为执行各种程序代码。实现的程序代码可以包括诸如本文所描述的音频信号处理。

在一些实施例中，所述设备包括存储器。在一些实施例中，至少一个处理器被耦接到存储器。存储器可以是任何适合的存储装置。在一些实施例中，存储器包括程序代码部分，用于存储可在处理器上实现的程序代码。此外，在一些实施例中，存储器还可以包括用于存储数据的存储数据部分，例如，根据本文中描述的实施例已处理或将要处理的数据。存储在程序代码部分中的实现的程序代码和存储在存储数据部分中的数据可以由处理器在需要时经由存储器-处理器耦合来获取。所述设备可以包括收发机，其被耦接到处理器并且被配置为例如经由无线通信网络来实现与其它装置或电子设备的通信。在一些实施例中，收发机或任何适合的收发机或发射机和/或接收机装置可被配置为经由有线或有线耦合与其它电子设备或装置通信。

收发机可以通过任何适合的已知通信协议与其它装置通信。例如，在一些实施例中，收发机或收发机装置可以使用适合的通用移动电信系统(UMTS)协议、诸如IEEE 802.X的无线局域网(WLAN)协议、诸如蓝牙的适合的短距离射频通信协议、或者红外数据通信路径(IRDA)。

通常，本发明的各种实施例可以采用硬件或专用电路、软件、逻辑或其任何组合来实现。例如，一些方面可以采用硬件实现，而其它方面可以采用固件或软件实现，固件或软件可以由控制器、微处理器或其它计算设备执行，然而本发明不限于此。虽然本发明的各个方面可被图示和描述为框图、流程图，或者使用一些其它图形来表示，但是应当充分理解，作为非限制性的示例，本文所描述的这些框、装置、系统、技术或方法可以采用硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其它计算设备、或其某些组合来实现。

本发明的实施例可以由计算机软件来实现，计算机软件可由电子设备的数据处理器诸如在处理器实体中、或者通过硬件，或者通过软件和硬件的组合来执行。此外，在此方面，应注意，如附图中的逻辑流程的任何框可以表示程序步骤、或者互连的逻辑电路、块和功能，或者程序步骤和逻辑电路、块和功能的组合。软件可以存储在物理介质上，诸如存储器芯片或者在处理器内实现的存储器块、诸如硬盘或软盘的磁介质，以及诸如DVD及其数据变形、CD的光学介质。

存储器可以具有适合于本地技术环境的任何类型，并且可以使用任何适合的数据存储技术来实现，诸如基于半导体的存储器设备、磁存储器设备和系统、光存储器设备和系统、固定存储器和可移动存储器。作为非限制性示例，数据处理器可以具有适合于本地技术环境的任何类型，并且可以包括通用计算机、专用计算机、微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、门级电路、基于多核处理器架构的处理器中的一个或多个。

可以在诸如集成电路模块的各种组件中实践本发明的实施例。集成电路的设计基本上是高度自动化的过程。复杂且功能强大的软件工具可用于将逻辑级设计转换为准备在半导体衬底上蚀刻和形成的半导体电路设计。

使用完善的设计规则以及预先存储的设计模块库，诸如加利福尼亚州山景城的Synopsys公司和加利福尼亚州圣何塞的Cadence Design公司提供的程序在半导体芯片上自动地布线导体和定位组件。一旦完成半导体电路的设计，就可以将采用标准化电子格式(例如，Opus，GDSII等)的设计结果传送到半导体制造设备或“fab”以进行制造。

以上描述已经通过示例性和非限制性示例提供了对本发明的示例性实施例的完整并且信息丰富的描述。然而，当结合附图和所附权利要求进行阅读时，鉴于前文的描述，各种修改和调整对于相关领域的技术人员而言将变得显而易见。然而，对本发明的教导的所有这些和类似的修改仍将落入所附权利要求中限定的本发明的范围内。

Claims

1.一种装置，包括处理器，所述处理器被配置为：

接收来自近场麦克风的音频信号，其中，所述音频信号是空间音频混合中的输入，所述近场麦克风与第一声源相关联；

接收来自麦克风阵列的波束成形的音频信号，其中，所述波束成形的音频信号是形成从所述麦克风阵列指向所述近场麦克风的所述麦克风阵列的波束的结果以便增强所述音频信号；

确定在包括所述第一声源的声音场景内没有其它声源是活动的时长；以及

确定在所述时长期间所述音频信号与所述波束成形的音频信号之间的时间差，以使得所述音频信号和所述波束成形的音频信号能够对齐。

2.根据权利要求1所述的装置，其中，被配置为接收来自麦克风阵列的所述波束成形的音频信号的所述处理器被配置为：

确定从所述麦克风阵列到所述近场麦克风的方位角；以及

基于所确定的方位角，生成所述波束成形的音频信号。

3.根据权利要求2所述的装置，其中，所述处理器被配置为基于以下中的至少一个来确定从所述麦克风阵列到所述近场麦克风的所述方位角：

所述近场麦克风和/或所述麦克风阵列的卫星定位系统估计；

所述近场麦克风和/或所述麦克风阵列的惯性定位系统估计；

所述近场麦克风和/或所述麦克风阵列的射频信标系统估计；

与所述近场麦克风和/或所述麦克风阵列相关联的定位(HAIP)标签的高精度室内定位(HAIP)系统估计；以及

与所述近场麦克风和/或所述麦克风阵列相关联的对象的视觉对象跟踪系统估计。

4.根据权利要求2至3中任一项所述的装置，其中，被配置为生成所述波束成形的音频信号的所述处理器进一步被配置为：自适应地改变所述波束成形的音频信号的波束宽度。

5.根据权利要求4所述的装置，其中，被配置为自适应地改变所述波束成形的音频信号的所述波束宽度的所述处理器被配置为基于以下中的至少一个来自适应地改变所述波束成形的音频信号的所述波束宽度：

所述近场麦克风的音频信号的幅度；

所述麦克风阵列的音频信号的幅度；

声源的位置；以及

所述近场麦克风的位置的变化。

6.根据权利要求1至5中任一项所述的装置，其中，被配置为确定在所述麦克风阵列与所述近场麦克风的位置之间没有其它声源存在的所述时长的所述处理器被配置为：确定在包括所述第一声源的音频场景内没有其它声源存在的时长。

7.根据权利要求1至5中任一项所述的装置，其中，被配置为确定在所述麦克风阵列与所述近场麦克风的位置之间没有其它声源存在的所述时长的所述处理器被配置为：

确定在包括所述第一声源的音频场景内的至少一个其它声源；

确定所述至少一个其它声源的位置；以及

确定在所述时长内所述至少一个其它声源的位置不在所述麦克风阵列与所述第一声源之间。

8.根据前述权利要求中任一项所述的装置，其中，被配置为确定在所述时长期间所述音频信号与所述波束成形的音频信号之间的时间差的所述处理器进一步被配置为：基于确定在来自麦克风阵列信号的所述波束成形的音频信号的第二时长内在所述波束成形的音频信号内存在至少一个其它声源，从所述音频信号和/或所述波束成形的音频信号中移除片段。

9.根据权利要求8所述的装置，其中，被配置为从所述音频信号和所述波束成形的音频信号中选择性地移除片段的所述处理器被配置为：

确定所述第二时长；

通过在所述音频信号内识别与所述波束成形的音频信号的所述第二时长内的存在相匹配的至少一个其它声源的存在，确定所述波束成形的音频信号与所述音频信号之间的另一声源时间差；

从所述波束成形的音频信号中移除与所述第二时长相关联的时间片段；以及

从所述音频信号中移除由所述另一声源时间差调整的与所述第二时长相关联的时间片段。

10.根据权利要求7至9中任一项所述的装置，其中，被配置为确定在所述麦克风阵列与所述近场麦克风的位置之间没有其它声源存在的所述时长的所述处理器被配置为执行以下中的至少一个：

视觉地确定所述其它声源的存在；

基于来自与所述其它声源相关联的定位系统的位置估计，确定所述其它源的存在；以及

通过确定基于所述波束成形的音频信号的方向分析的方位与所述近场麦克风的位置的估计显著不同，确定所述其它声源的存在。

11.根据前述权利要求中任一项所述的装置，其中，所述处理器进一步被配置为：基于使用所述时间差以对齐所述音频信号和所述波束成形的音频信号，混合和/或处理所述音频信号。

12.一种方法，包括：

13.根据权利要求12所述的方法，其中，接收来自所述麦克风阵列的所述波束成形的音频信号包括：

确定从所述麦克风阵列到所述近场麦克风的方位角；以及

基于所确定的方位角，生成所述波束成形的音频信号。

14.根据权利要求13所述的方法，其中，确定从所述麦克风阵列到所述近场麦克风的所述方位角包括以下中的至少一个：

确定所述近场麦克风和/或所述麦克风阵列的卫星定位系统估计；

确定所述近场麦克风和/或所述麦克风阵列的惯性定位系统估计；

确定所述近场麦克风和/或所述麦克风阵列的射频信标系统估计；

确定与所述近场麦克风和/或所述麦克风阵列相关联的定位(HAIP)标签的高精度室内定位(HAIP)系统估计；以及

确定与所述近场麦克风和/或所述麦克风阵列相关联的对象的视觉对象跟踪系统估计。

15.根据权利要求13至14中任一项所述的方法，其中，生成所述波束成形的音频信号还包括：自适应地改变所述波束成形的音频信号的波束宽度。

16.根据权利要求15所述的方法，其中，自适应地改变所述波束成形的所述音频信号包括基于以下中的至少一个来自适应地改变所述波束成形的音频信号的所述波束宽度：

所述近场麦克风的音频信号的幅度；

所述麦克风阵列的音频信号的幅度；

声源的位置；以及

所述近场麦克风的位置的变化。

17.根据权利要求12至16中任一项所述的方法，其中，确定在所述麦克风阵列与所述近场麦克风的位置之间没有其它声源存在的所述时长包括：确定在包括所述第一声源的音频场景内没有其它声源存在的时长。

18.根据权利要求12至16中任一项所述的方法，其中，确定在所述麦克风阵列与所述近场麦克风的位置之间没有其它声源存在的所述时长包括：

确定所述至少一个其它声源的位置；以及

19.根据权利要求12至18中任一项所述的方法，其中，确定在所述时长期间在所述音频信号与所述波束成形的音频信号之间的时间差包括：基于确定在来自麦克风阵列信号的所述波束成形的音频信号的第二时长内在所述波束成形的音频信号内存在至少一个其它声源，从所述音频信号和/或所述波束成形的音频信号中移除片段。

20.根据权利要求19所述的方法，其中，从所述音频信号和所述波束成形的音频信号中选择性地移除片段包括：

确定所述第二时长；

21.根据权利要求18至20中任一项所述的方法，其中，确定在所述麦克风阵列与所述近场麦克风的位置之间没有其它声源存在的所述时长包括以下中的至少一个：

视觉地确定所述其它声源的存在；

22.根据权利要求12至21中任一项所述的方法，还包括：基于使用所述时间差以对齐所述音频信号和所述波束成形的音频信号，混合和/或处理所述音频信号。