CN105793723B

CN105793723B - 使用移动声源的麦克风自定位

Info

Publication number: CN105793723B
Application number: CN201480065555.2A
Authority: CN
Inventors: 尼古拉·D·高比奇; 威廉·巴斯蒂安·克雷杰; 理查德·霍伊斯登斯
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2013-12-31
Filing date: 2014-12-16
Publication date: 2018-10-19
Anticipated expiration: 2034-12-16
Also published as: US20150185312A1; EP3090275B1; US9488716B2; WO2015102883A1; EP3090275A1; CN105793723A

Abstract

提供了用于使用传感器处的多个空间分布的声学事件的飞行时间(TOF)测量值来校准分布式传感器(例如麦克风)阵列的方法和系统。所述校准包括传感器的定位和增益均衡。使用由移动声源按已知间隔发射的受控信号从空间分布的声学事件来获得TOF的精确测量值。能够播放音频的便携式用户设备被用于按已知时间间隔并且在不同且任意的位置产生多个声学事件(例如点击声音)，所述位置基于在产生声学事件的同时正由用户在空间上移动的设备。由声源发射的校准信号被设计用以提供对于噪声和混响的鲁棒性。

Description

使用移动声源的麦克风自定位

背景技术

为了使(例如，在诸如蜂窝电话的便携式用户设备上安装的)麦克风能够确定其自身位置(例如相对于另一个声音源以及相对于一个或多个声音源)，有必要具有声学事件组。在现有的麦克风自定位的方法中，声学事件被独立于设备而创建，例如，通过用户拍手。这样的方法对每个声学事件引入了四个未知量(事件的三个空间坐标和时间)。由于计算这些未知量的问题是高度非线性的，很难处理所有这些附加的未知量。具体地，声学事件的未知事件时间拖延了现有自定位算法的收敛。

发明内容

本发明内容以简化的形式介绍了概念的选择，以便提供对本公开的一些方面的基本理解。本发明内容不是对本公开的详尽概述，并且不旨在标识本公开的关键或重要元素，也不旨在描绘本公开的范围。本发明内容仅仅呈现了本公开的一些概念，以作为以下提供的具体实施方式的序言。

本公开一般地涉及用于信号处理的方法和系统。更具体地，本公开的方面涉及使用空间分布的声学事件的到达时间的测量值来校准分布式传感器。

本公开的一个实施例涉及计算机实现的方法，所述方法包括测量在传感器组处的声学事件组的到达时间，其中按所述传感器已知的间隔来生成所述声学事件；以及基于在所述传感器处的所述声学事件的记录的到达时间来估计所述传感器的内部延迟。

在另一个实施例中，所述方法进一步包括基于在所述传感器处的所述声学事件的记录的到达时间和所述声学事件的事件生成时间来计算所述声学事件到达所述传感器的飞行时间；以及使用所述声学事件到达所述传感器的所述飞行时间来确定所述传感器的位置。

在另一个实施例中，所述方法进一步包括选择所生成的第一声学事件作为用于计算所述声学事件到达所述传感器的所述飞行时间的基准时间。

在另一个实施例中，所述方法进一步包括使用计算的所述传感器的位置和在所述传感器处的所述事件的记录的到达时间来对所述传感器中的每一个确定相对增益。

本公开的另一个实施例涉及一种方法，其包括：基于在传感器处的声学事件的记录的到达时间和所述声学事件的事件生成时间来计算所述声学事件组到达所述传感器组的飞行时间，其中按所述传感器已知的时间间隔来生成所述声学事件；使用所述声学事件到达所述传感器的所述飞行时间来计算所述传感器的位置；以及使用计算的所述传感器的位置和在所述传感器处的所述事件的记录的到达时间来对所述传感器中的每一个确定相对增益。

在另一个实施例中，所述方法进一步包括测量在所述传感器组处的所述声学事件组的到达时间；以及基于在所述传感器处的所述声学事件的记录的到达时间来估计所述传感器的内部延迟。

在一个或多个其他实施例中，本文所述的方法和系统可任选地包括以下附加特征中的一个或多个：迭代地执行计算所述声学事件到达所述传感器的所述飞行时间，以精化所述飞行时间；所述声学事件中的每一个是作为高斯调制正弦脉冲的校准信号；所述声学事件中的每一个是时域扩展脉冲的校准信号；所述声学事件中的每一个是作为单位脉冲的校准信号；所述传感器组为麦克风组；所述事件组由具有扬声器的设备从相对于所述传感器的多个不同位置生成；所述传感器中的一个或多个为位于移动电话上的麦克风；以及/或者基于所述传感器处的信噪比(SNR)的估计来对所述传感器中的每一个确定相对增益。

本公开所适用的进一步范围将从下述的具体实施方式中变得明显。然而，应当理解，由于落入本公开的精神和范围内的各种变型和修改对于本领域的技术人员而言从具体实施方式将变得显而易见，所以尽管指出了优选实施例，但仅是以示例的方式给出该具体实施方式和具体示例。

附图说明

本公开的这些和其他目标、特征和特性，从对以下结合所附的权利要求书和附图的具体实施方式的研究中，对于本领域的技术人员而言将变得显而易见，其中具体实施方式、权利要求以及附图形成了本说明书的一部分。在附图中：

图1为图示了根据本文所述的一个或多个实施例的在信令环境中传感器的自定位的示例应用的示意图；

图2为图示了根据本文所述的一个或多个实施例的示例移动声源按已知间隔发出校准信号的示例的示意图；

图3为图示了根据本文所述的一个或多个实施例的用于使用飞行时间测量值来校准分布式传感器阵列的示例方法的流程图；

图4为图示了根据本文所述的一个或多个实施例的提取在传感器组处的多个单位脉冲校准信号的飞行时间测量值的示例估计误差结果的图形表示；

图5为图示了根据本文所述的一个或多个实施例的提取在传感器组处的多个高斯调制正弦脉冲(GMSP)校准信号的飞行时间测量值的示例估计误差结果的图形表示；

图6为图示了根据本文所述的一个或多个实施例的提取在传感器组处的多个时域扩展脉冲(TSP)校准信号的飞行时间测量值的示例估计误差结果的图形表示；

图7为图示了根据本文所述的一个或多个实施例的用于使用估计的飞行时间测量值来确定传感器组的相对增益的示例结果的图形表示；

图8为图示了根据本文所述的一个或多个实施例的用于基于传感器组处的多个校准信号的到达时间测量值来确定传感器组的位置的示例结果的图形表示；

图9为图示了根据本文所述的一个或多个实施例的用于基于传感器组处的多个校准信号的到达时间测量值来确定处于特定环境中的特定类型传感器组的位置的示例结果的图形表示；

图10为图示了根据本文所述的一个或多个实施例的被布置用于使用到达时间测量值来校准分布式传感器阵列的示例计算设备的框图。

本文所提供的标题仅出于方便起见，而对本公开所要求保护的范围或者含义没有必然的影响。

附图中，为便于理解和方便起见，相同的附图标号以及任何缩略语标识了具有相同或相似的结构或功能的元素或行为。将在下面的具体实施方式中详细描述附图。

具体实施方式

概述

现在将描述各种示例和实施例。以下描述提供了用于全面理解这些示例的描述并且促成这些示例的描述的具体细节。然而，相关领域的技术人员可理解，本文所述的一个或多个实施例可以在没有许多这些细节的情况下而实施。同样，相关领域的技术人员也可理解，本公开的一个或多个实施例能够包括本文未详细描述的许多其他明显特征。此外，下文可能不会详细示出或描述一些公知的结构或功能，以使得避免不必要地模糊相关描述。

本公开的实施例涉及用于使用在传感器(例如，诸如麦克风的音频输入设备)处的多个空间分布的声学事件的飞行时间(TOF)测量值来校准分布式传感器阵列的方法和系统。依据一个或多个实施例，所述校准可以包括传感器的定位和增益均衡。生成的传感器的定位和增益均衡信息可以被用于例如近场波束成形，所述近场波束成形允许在不同讲话者之间进行选择以及降低环境的声学噪声。本文所述的方法和系统的示例应用包括自组(ad-hoc)会议通话、群组视频聊天等。

TOF的精确估计对于分布式传感器阵列的成功校准是重要的要素。因此，本公开提供了一种方法，所述方法使用由移动声源按已知间隔发出的受控信号从空间分布的声学事件中对TOF进行实践和精确的测量。如本文将更具体描述的，所述信号可以被设计用以提供对噪声和混响的鲁棒性。此外，本公开将证明所测量的TOF可以被用于精度为1-3cm的精确确的传感器定位，并且还将描述基于所测量的TOF来进行增益均衡的新方法。利用本文所述方法的示例将说明，即使在存在噪声和混响的情况下也可以实现精确的传感器定位和增益均衡。

本文所述的一个或多个实施例可以利用按已知间隔发出校准信号的移动声源。例如，能够播放音频的便携式用户设备(例如移动电话、智能手机等)可以被用于按已知时间间隔(例如每0.5秒、每1秒等)并且在不同且任意的位置产生多个声学事件(例如点击声音)，所述位置基于在产生声学事件的同时正在空间上(例如，由设备的用户或操作者)移动的设备。因此，声学事件生成的时间是已知的而且在空间上是不同的。如下面将更具体描述的，在麦克风组处的这些发出的校准信号的TOF以及在这些麦克风处的所观测的信号，除了被用于执行麦克风定位以外，还可以被用于估计麦克风之间的增益差。

图1图示了根据本文所述的一个或多个实施例的在信令环境中传感器的自定位的示例应用。多个信号源105(例如讲话者、扬声器等)可位于多个传感器120(例如麦克风或其他音频输入设备)之间。

麦克风阵列便于使用广泛的语音和音频处理的算法。为了使许多这些算法正确操作，对麦克风阵列存在两个要求：(i)麦克风的相对位置必须已知；(ii)必须对麦克风进行校准，以使其具有相同的增益并且降低与理想(例如平坦的)传递函数的偏差。这些可通过谨慎选择麦克风以及使得相对距离已知的由麦克风配置定义的先验来实现。然而，这样的方法具有若干缺点：固定式阵列着实需要专门的硬件，麦克风特性会随时间变化，以及取决于阵列的结构，麦克风的位置也可能变化。因此，自动配置方案将是有用的。这样的自动例程也会便于使用更灵活的自组麦克风阵列，该麦克风阵列中部署了诸如移动电话、平板电脑或者膝上型计算机的含有麦克风的设备。

本公开提供了使用移动受控声(例如声音)源来解决麦克风定位和校准这两个问题的方法。如下面将更具体描述的，该方法形成了完整的麦克风阵列配置系统。

麦克风阵列能够被用于在不利的声学环境中捕获语音和音频信号。为了聚焦源自相对于麦克风的特定位置的信号而同时抑制来自所有其他位置的信号，可处理并结合麦克风信号。这样的技术导致与未处理的单麦克风观测相比降低的噪声和混响。

麦克风阵列处理的常规方法是波束成形。尽管存在若干现有的波束成形技术，为了使这些技术正确操作通常存在两个常规要求：(i)麦克风的相对位置必须已知；(ii)必须对麦克风进行校准。一种直接方案是手动测量麦克风之间的距离并且谨慎选择和校准麦克风。然而，这样的方法在例如涉及自组麦克风阵列的情况下可能不可行。在这样的情景中，自动例程可以是优选的。

虽然用于麦克风和声源定位的一些现有方法依赖于TOF的测量，或等效地，依赖于从空间分布的声学事件在传感器处的到达时间(TOA)的测量，但是也已经探索了其他替代性方法，这些方法包括例如到达时间差(TDOA)、信号能量和扩散噪声场相干。也显示出增益校准对于若干波束成形算法是重要的，并且已经提出了用于自动增益校准的一些算法。

尽管存在基于TOF的定位方法，仍然存在相当少量的如何在实践中获取精确的TOF测量值的讨论，而这样的测量中的误差通常被建模为附加测量噪声。然而，如下面将更详细描述的，本公开的方法和系统被设计用于通过虑及包括其他事项的以下考虑来获得精确的TOF测量值。第一，需要对于所有麦克风正确识别(例如从诸如便携式用户设备的扬声器的声源生成的)具体声学事件的记录到达时间(RTOA)。依据本文所述的实施例，RTOA可被视为信号到达传感器以及由于例如缓冲和/或处理引起的设备内部延迟的时间总和。第二，需要识别声学事件的起效时间(例如声学源开始传输声音的时间)。第三，需要识别每个麦克风的内部延迟(例如，从声音到达麦克风的时间到该声音由安装麦克风的用户设备所接收时所记录的时间)。如下面将更详细描述的，对于给定的麦克风，从对于麦克风所识别的RTOA减去麦克风的内部延迟和声学事件的起效时间给出了对于麦克风的TOF。应当注意到如果与声学事件相关联的内部延迟是恒定的，可以不将这样的延迟考虑进上述的计算之中。

麦克风定位的一个现有方法提出使用啁啾(chirp)或最大长度序列(MLS)来识别声学事件。在这样的方法中，在假设每个麦克风与在其附近发生的声学事件相关联且同时手动测量内部延迟的情况下，来估计起效时间。

以下公开说明了只要能获取精确的TOF测量值就可以实现分布式声音采集系统的完全校准。依据至少一个实施例，便携式用户设备(例如移动电话、智能手机等)可以被用于发射校准信号，从该校准信号可以获得TOF测量值。可以按已知时间间隔发送校准信号，该已知时间间隔可以确定源起效时间。图2图示了根据本文所述的一个或多个实施例的这样的移动声源250按已知间隔发射校准信号215的示例。声源250可以包括输出设备(例如扬声器)255，该扬声器255被配置为在正被移动到相对于多个传感器220(例如麦克风或其他音频输入设备)的不同位置的同时生成和输出校准信号215。应当理解，除了图2所示的示例方式以外或者代替图2所示的示例方式，还可以以各种方式中的任何一种，和/或以相对于传感器220的方向中的任何一个来移动用于生成校准信号215的声源250。

如下面将更详细描述的，导出了算法以估计麦克风的内部延迟。还显示出，这样的受控源便于对噪声和混响具有鲁棒性的校准信号的设计。测量的TOF可被用于定位麦克风，并且可以进一步被用于结合观测到的校准信号来估计麦克风之间的相对增益差。因此，本文所述的方法提供了分布式麦克风阵列的完全校准。

图3图示了根据本文所述的一个或多个实施例的使用飞行时间测量值来校准分布式传感器阵列的示例过程。在块305处，可以测量多个传感器处的(例如从诸如便携式用户设备的扬声器的声源生成的)特定声事件的RTOA，并且测量的RTOA被用作声学事件到达传感器的初始TOF测量值。在块310处，可以使用在块305处确定的初始TOF测量值来获得更新的声学事件到达传感器的TOF测量值。

在块315处，可以确定对于每个传感器，来自块305的初始TOF测量值与在块310处计算的更新的TOF测量值之间的变化是否足够小(例如，出于源定位的目的，初始TOF测量值与更新的TOF测量值之间的变化是否足够小以使得更新的TOF测量值能够被视为是精确的)。如果在块315处确定对于每个传感器初始TOF测量值(例如来自块305)与更新的TOF测量值(例如来自块310)之间的变化都足够小，则在块325处对于传感器的更新的TOF测量值可以被用于计算传感器和源的位置。另一方面，如果在块315处确定对于每个传感器初始TOF测量值(例如来自块305)与更新的TOF测量值(例如来自块310)之间的变化不足够小，则在块320处可以进行确定：是否已达到将执行的迭代次数的预定限制。

如果在块320处确定已经达到迭代限制，则过程可返回块310，在该处可以使用在块305处确定的初始TOF测量值来获得声学事件到达传感器的进一步更新的(例如完善的)TOF测量值。然而，如果相反在块320处确定已经达到迭代限制，则过程可以移至块325，在该处如上所述，对于传感器的更新的TOF测量值可以被用于计算传感器和源的位置。

在块330处，可以使用块325处计算的传感器位置和在传感器处观测的校准信号来确定传感器之间的相对增益差。

下面的段落中将更详细地描述组成示例过程300的每个块。

问题公式化

考虑，例如三维空间，其中源自不同且未知的位置s_j＝[s_x，j s_y，j s_z，j]^T的J校准信号s_j(n)(例如声学事件)在未知位置r_i＝[r_x，i r_y，i r_z，i]^T处被I麦克风获取。从源j到麦克风i的信号能够被记为：

x_ij(n)＝G_i(h_ij(n)*s_j(n)+v_ij(n)) (1)

其中h_ij(n)为声脉冲响应(AIR)，以及v_ij(n)为附加测量噪声而*表示卷积。每个麦克风具有关联的未知增益G_i。

依据本文所述的至少一个实施例，提供了一种方法，用以从观测到的信号x_ij(n)精确地提取对于每个校准信号和每个麦克风的TOF，使用该TOF来计算麦克风的相对位置r_i，以及使用该TOF和观测到的信号x_ij(n)来估计麦克风增益G_i。

RTOA测量值

获得精确的STOA测量值对于许多麦克风定位算法而言是很重要的。可从观测的信号x_ij(n)完全停止来获得STOA测量值。在麦克风r_i处的声学事件s_j的测量的RTOA可以被确定为：

t_ij＝c^-1||r_i-s_j||+τ_j+δ_i+∈_ij (2)

其中c为音速，||·||表示Euclidean范数，∈_ij为测量噪声，δ_i为第i麦克风的内部延迟，而τ_j表示第j声学事件的起效时间。此外，c^-1||r_i-s_j||+τ_j为STOA。如本文所使用的，“内部延迟”指代从声音(例如声学事件)到达音频捕获设备(例如麦克风)的时间到该声音由捕获设备所接收时所记录的时间。精确的定位取决于TOFc^-1||r_i-s_j||，并且因此应对源起效时间和内部延迟进行补偿，并且应将测量误差保持在最小。如下面将进一步描述的，本公开的一个或多个实施例呈现了用于定位的鲁棒性方法，该方法通过使用来自移动源的受控信号实现了这些目标。

激励信号

依据本文所述的至少一个实施例，可通过能够进行音频回放的便携式用户设备(例如移动电话、智能手机等)来生成声学事件，该便携式用户设备可以被视为“音频源设备”。可假定安装在涉及音频通信会话(例如音频会议)的其他用户设备中的麦克风具有到音频源设备的直线视野。音频源设备可以被用于播放(例如产生、生成等)信号τ_j，该信号可以是完全相同的播放信号，其每一个以唯一的起效时间来播放。音频源设备的总输出信号可以是单个信号s_j(n)的总和，即s_j(n)＝∑_js_j(n)，其中该总和涵盖所有播出的激励信号。至少在本示例中，可以假定以T_p秒(s)的固定周期在时间上分离信号s_j(n)。在这种情况下，s_j(n)＝s₀(n-jT_p)。这样的固定时间分离使得总输出信号s(n)在校准信号生成过程期间是周期性的，所述总输出信号s(n)表示信号s_j(n)的总和。

然而，应当注意到上述假设固定的时间分离并不是本文所述的实施例的必要条件。相反，依据一个或多个实施例，在发射的校准信号s_j(n)之间的时间间隔可以是不固定的，和/或者发射的信号可以不必相同。然而依据任何这样的实施例，所述发射的信号应当是已知的。

如上所述，在通过音频源设备播出激励信号的同时，该设备可(例如，由设备的操作者)按照起伏运动的方式来移动，并且可以在正被用于通信会话的每个适用的麦克风处捕获所生成的音频。如果激励信号s_j(n)中的每一个的持续时间相对于移动音频源设备的速度而言较短，则每个信号可以被视为具有起效时间τ_j＝τ₀+jT_P的不同的声学事件s_j(n)。通过将上文式(2)中的τ_j替换为τ₀+jT_P，实现了可以通过从观测到的RTOA中减去已知的jT_P来校正源起效时间。进一步地，将第一声学事件的起效时间设置为时间原点τ₀＝0，则得到下式：

t_ij＝c^-1||r_i+s_j||+δ_i+v_ij (3)

应当注意到上述逻辑的应用与传输设备(例如音频源设备)处的任何内部延迟无关。

诸如上文所述的受控信号具有改善麦克风及源定位的精度的若干特性。例如，使用这样的信号消除了未知的声源起效时间，允许在短时间内生成大量的声学事件，并且可选择激励信号s_j(n)以便于精确的RTOA测量。

依据至少一个实施例，可基于测量对噪声和混响应当具有鲁棒性的标准来选择可以被用于s_j(n)的信号，而且该信号(例如，相比于声音源的速度)应当是短持续时间的。例如，以下三种候选信号可被视为可能情况：(i)单位脉冲；(ii)时域扩展脉冲(TSP)，其在一些现有方法中被用于测量AIR并且具有脉冲能够远远短于AIR长度的所期望特征；以及(iii)高斯调制正弦脉冲(GMSP)，其被本领域的技术人员理解为根据通常所利用的测量方法具有时域和频域局部化之间的最佳平衡。GMSP的局域化频率的一个示例优点为脉冲可以集中在可将麦克风特征假设为有利的谱区。依据至少一个实施例，激励信号s_j(n)可被选择为脉冲信号，使得可基于其峰值来测量RTOA。

可使用匹配的滤波器h_mf，j(n)对接收的信号进行后处理，该滤波器是激励信号的时间反演版本h_mf，j(n)＝s_j(-n)，并且可使用峰值拾取算法来提取RTOAt_ij。例如，依据至少一个实施例，峰值拾取算法可以包括在T_P的非重叠帧中处理输入信号x_ij(n)并且可以将具有最高能量的每个帧的峰值选为候选RTOA。然后可以从所识别的候选中选择具有最高能量的J峰值。

在TSP的情况下，匹配的滤波器等效于序列的逆滤波器并且其导致(留下AIR的)脉冲。对于GMSP以及单位脉冲，该滤波器导致在两信号之间的最大相关处的峰值。通常，匹配的滤波器还会有效地抑制不相关的附加噪声；噪声抑制的量随着采样频率和滤波长度的增加而增加。因此，所述滤波器不会影响单位脉冲。

内部延迟估计

以上述的方式获得的RTOA可以被视为TOF的精确估计，该TOF的精确估计取决于与每个设备相关联的内部延迟。因为如上所述已经通过利用受控音频源解决了与未知源起效时间相关联的问题，所以仅需要估计设备的内部延迟(可将生成的第一起效时间任选为零)。这引出了如下更具体描述的简化算法。

为了不失一般性，可假设c＝1以及RTOA已经被正确提取(取决于内部延迟)由此∈_ij＝0。对式(3)的两边取平方，减去该式取i＝1时的等式，然后减去该式取j＝1时的等式，得到下式：

其中i＝2，...，I，j＝2，...，J。可以进一步将式(4)表示为：

其中是麦克风相对于r₁的位置矩阵(I–1)x3，为声学事件相对于s₁的位置矩阵(J–1)x3，vec{A(δ)}＝Wδ，δ＝[δ₁ δ₂...δ_I]^T，而W是由(t_ij-t_i1)和(t_1j-t₁₁)项组成的矩阵。应当注意到vec{X}定义了将矩阵的列堆栈成列向量的运算符。

从上文的式(5)可以看出矩阵的秩最多为3。因此，可以使用两级迭代算法来估计内部延迟δ，由此的秩为3。依据至少一个实施例，在第一级迭代中可使用δ、δⁿ的当前估计。保持此估计固定不变，可根据下面的优化问题来确定的估计。

满足rank (6)

其中为的最佳(根据Frobenius范数)秩3逼近，而由此为的最佳逼近。可使用例如Eckhart-Young-Mirsky低秩逼近定理来获得式(6)的解。考虑例如的奇异值分解(SVD)其被可写为：

其中Σ₁含有三个最大的奇异值而U₁和V₁为相应的左奇异向量和右奇异向量。可以获得根据Frobenius范数的最佳秩3逼近为：

在第二次迭代中，内部延迟的估计可被更新为：

其中而W⁺为W的伪逆。为了强制使解具有合理的延迟值而引入了附加的约束项其加快了初始收敛速度。然而，根据允许算法完全收敛的一些准则，应当在解已经变得合理时将λ设定为零。依据至少一个实施例，这可以通过监测并且在一个迭代到下一个的变化低于阈值时设置λ＝0来完成。应当注意到该阈值的精确值仅影响收敛速度，并且可以通过注意到Frobenius范数具有一次方来选择该阈值的合理取值。因此，可将阈值设置为相比于典型飞行时间的平方的较小值。例如，依据至少一个实施例，可以将阈值选择为0.01ms²。

类似地，当一个迭代到下一个的变化低于阈值时可监测到并可停止算法。可再次将该阈值设置为相比于典型飞行时间的平方的较小值。例如，可将阈值设定得足够小，使得其取值可以不影响算法输出的精度。依据本文所述的至少一个实施例，该阈值还可以被选择为0.01ms²。

依据至少一个实施例，本算法对于λ＝0可根据Frobenius范数来进行收敛。应当注意到，不同于一些现有方法，上述的算法不包括需要非线性优化的任何步骤。因此，本文所述的两步算法的收敛比其他现有方法更为改善。

麦克风定位

如上所述，给出了麦克风的内部延迟的精确估计，相关的TOA的校正矩阵可以被用于估计源和麦克风的位置。首先，可以将转换为平方距离矩阵其中c＝343m/s，并且其中式(5)写作对D进行SVD得到D＝UΣV^T，而由于是秩3的矩阵，类似于上文式(7)，仅仅需要考虑Σ中的三个最大的奇异值。Σ中的残值应为零或接近零。因此，下面给出：

其中C为3x3可逆矩阵(待估计)。定位的最小解对于源-麦克风配置的旋转或平移是不变的。因此，可以将第一麦克风的坐标约束为原点r₁＝[0 0 0]^T，而将第一源的坐标约束在x轴上：s₁＝[s_x,1 0 0]^T。然后能够使用非线性最小二乘(LS)优化准则来估计矩阵C和s_x,1，如下：

其中d_ij＝c(t_ij-δ_i)。可通过将和s_x,1替换到式(10)中来确定估计的源和麦克风的位置。这样的方法导致了独立于声学事件和麦克风的数量，对10个参数进行估计。已知增加声学事件或者麦克风数量提高了估计的精度。依据至少一个实施例，所有估计的参数可以被用作用于基于式(3)使用非线性LS准则来最终完善估计的初值。

麦克风增益计算

依据本文所述的一个或多个实施例，估计的TOF可以与接收的校准信号一同被用于确定每个麦克风处的未知增益G_i。可考虑自由场AIR并且可假设噪声与激励信号不相关。根据式(1)，包括麦克风增益的由第j声学事件引起的第i麦克风处的能量可被写为：

其中为在第j位置的声源处的信号能量，为测量噪声的能量，以及d_ij＝||r_i-s_j||＝ct_ij为第j声源与第i麦克风之间的距离。应当注意到TOF测量值或者估计的源-麦克风位置可被用于距离估计。

鉴于以上所述，可选择任意的参考麦克风，例如第一I＝1，其引出了相对于参考麦克风的麦克风增益的以下表达式：

其中为对于第i麦克风处的第j源的信噪比(SNR)。从下面呈现的式(16)中，可理解观测噪声将对用于麦克风的估计的相对增益增加偏差，而且此偏差将依赖于观测的SNR。对于空间上扩散的噪声或者对于以紧密间隔排列的麦克风的情况下，其中可期望跨越麦克风SNR相同，噪声将具有较小影响。然而，对于其他情景，如果对麦克风处的SNR进行了估计则可校正偏差。尽管没有明确考虑混响，实践中可以通过使激励间隔Tp大于混响时间来使混响的影响最小化。

相对麦克风增益可以被确定为：

其中测量的TOF和发射的校准信号持续时间的先验知识可以被用于评价信号能量。应当注意到依据本文所述的各种实施例，TOF的估计独立于麦克风之间的增益差。

示例计算

下文呈现了一些附加示例以进一步说明本文所述的麦克风阵列校准方法。在下面提供的一个示例中，使用不同的校准信号来评价RTOA。在第二和第三示例中，测量的TOF被用于麦克风定位和增益校准。如下详细描述了这些示例过程中的每一个。

所有以下示例都基于相同的初始条件和设置。如上所述，通过根据式(1)生成观测的信号来开始设置。可使用本领域的技术人员已知的源图像方法来模拟声学环境。说明性示例是对于具有以下示例尺寸的房间：6m(米)×5m×4m。混响时间T₆₀以0.15s的步长在0s(例如自由场)与0.6s之间变化。I＝8的麦克风被随机置于房间中心处的2m×2m×1m矩形空间内，而J＝30的源随机分布在位于房间中随机位置处的一立方米(1m³)的空间中。然后生成了十种不同的源-麦克风配置。通过AIR h_ij(n)来定义每个源点并且模拟移动声源的瞬时位置。所使用的校准信号s_j(n)可以是具有T_p＝0.1s的播放间隔的脉冲、1.3ms的TSP、或者1ms的GMSP。

可以对于v_ij(n)假设附加高斯白噪声。根据所期望的SNR参考自由场单位脉冲来调节该噪声水平，并且该噪声水平对于其他激励信号保持恒定。本示例考虑-25dB与-5dB之间的SNR(发现对于高于–5dB的SNR性能不受影响)。此外，在0.5与1之间变化的随机增益因子G_i和在0与1之间的随机内部延迟被应用于每个麦克风。采样率被设置为f_s＝48kHz。

示例1

在第一示例中，可对用于依据上述(例如在3.1段中)方法提取TOF的不同校准信号进行评价。在本示例中，出于评价的目的假设内部延迟是已知的。对于每种情况，可计算±1内的样本中正确识别的TOF的百分比。图4-6图示了对于不同校准信号执行此计算的示例结果，其中所使用的采样率为48kHz。图4为示出对于单位脉冲作为校准信号的示例估计误差(以％表示的正确TOF与±1内的样本的比值)的图形表示400。图5为示出将GMSP用作校准信号的示例估计误差的图形表示500。此外，图6为示出将TSP用作校准信号的示例估计误差的图形表示600。从图4-6所示的示例结果可看出与其他两种校准信号类型相比，TSP对噪声和混响具有最大的容差，而且所有的TOF都被精确地提取了。

示例2

在另一个示例中估计的TOF可以被用于依据上述方法(例如在―麦克风增益校准”中)来找出关于麦克风i＝1的增益。图7为图示了对于不同的噪声水平和不同的混响级别的示例结果的图形表示700。

示例3

在另一个示例中，可依据上述方法(例如在―麦克风定位”中)使用更新的TOF来找出麦克风和源的位置。图8为图示了使用确切已知的内部延迟830、估计的内部延迟820以及不考虑内部延迟810的示例结果的图形表示800。

示例4

在另一个示例中，可以使用通过RME Octamic II麦克风前置放大器连接到RMEFireface 800的AKG C417领夹式麦克风来执行之前示例中所述的所有过程。在这样的示例中，麦克风可以被随机置于安静、轻度混响的房间中的尺寸为0.75m×1.5m的桌上。移动电话可以被用作声源并且在其正以起伏运动的方式(例如由用户)移动的同时可以由该电话产生具有间隔为T_p＝0.1s的50脉冲的脉冲序列。在0与100ms之间的附加随机延迟可以被加入每个麦克风信号以模拟不同的内部延迟。图9为图示了麦克风定位的示例结果的图形表示900。可以将麦克风定位到2.9cm的精度，而使用集中式时钟仅导致1.4cm的均方根误差(RMSE)。

图10为根据本文所述的一个或多个实施例的被布置用于校准分布式传感器(例如麦克风)阵列的示例性计算机(1000)的高层次框图，其中所述校准分布式传感器阵列是使用在传感器处的多个空间分布的声学事件的TOF测量值来进行的。在非常基本配置(1001)中，计算设备(1000)通常包括一个或多个处理器(1010)和系统存储器(1020)。存储器总线(1030)能够被用于处理器(1010)与系统存储器(1020)之间的通信。

取决于所期望的配置，处理器(1010)可以是任何类型，包括但不限于：微处理器(μP)、微控制器(μC)、数字信号处理器(DSP)或者其任何组合。处理器(1010)可以包括一个诸如层1缓存(1011)和层2缓存(1012)的多层缓存、处理器核(1013)和寄存器(1014)。该处理器核(1013)可以包括算法逻辑单元(ALU)、浮点单元(FPU)、数字信号处理核(DSP核)或者其任何组合。存储器控制器(1016)还可以与处理器(1010)—起使用，或者在一些实施方式中，存储器控制器(1015)可以是处理器(1010)的内部部分。

取决于所期望的配置，系统存储器(1020)可以是任何类型，包括但不限于：易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者其任何组合。系统存储器(1020)通常包括操作系统(1021)、一个或多个应用(1022)以及程序数据(1024)。应用(1022)可以包括用于根据本文所述的一个或多个实施例使用在传感器处的多个空间分布的声学事件的TOF测量值来校准多个传感器的定位和增益校准算法(1023)。程序数据(1024)可以包括储存指令，其当由一个或多个处理设备执行该储存指令时，该储存指令执行用于根据本文所述的一个或多个实施例使用在传感器处的多个空间分布的声学事件的TOF测量值来校准分布式传感器(例如麦克风)阵列的方法。

此外，依据至少一个实施例，程序数据(1024)可包括校准信号数据(1025)，该信号数据(1025)可以包括与特定信号的特性和/或特性有关的数据，该特定信号被用作从音频源设备发射的用以改善麦克风和源定位的精度的激励信号(例如，如在上文“激励信号”段落中所述的激励信号s_j(n))。例如，校准信号数据(1025)可以包括关于被选择用以便于精确的RTOA测量的如下示例信号中的任何一个的各种特性数据：(i)单位脉冲；(ii)时域扩展脉冲(TSP)；以及(iii)高斯调制正弦脉冲(GMSP)。在一些实施例中，应用(1022)能够被布置为在操作系统(1021)上以程序数据(1024)进行操作。

计算设备(1000)能够具有附加特性或功能，以及便于基本配置(1001)与任何所需设备和接口之间的通信的附加接口。

系统存储器(1020)是计算机存储介质的示例。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其它存储技术、CD-ROM、数字通用盘(DVD)或其它光学存储器、磁带盒、磁带、磁盘存储或其它磁性存储设备、或者能够用于储存所期望的信息并且能够由计算设备1000访问的任何其它介质。任何这样的计算机存储介质能够是计算设备(1000)的一部分。

计算设备(1000)能够被实现为小型便携式(或移动)电子设备的一部分，诸如，蜂窝电话、个人数据助理(PDA)、个人媒体播放器设备、平板式计算机(平板)、无线网络收看设备、个人耳机设备、专用设备或者包括任何上述功能的混合设备。计算设备(1000)还能够被实现为包括膝上型计算机和非膝上型计算机配置这二者的个人计算机。

经由使用框图、流程图和/或示例，前述详细的描述已阐述了设备和/或处理的各种实施例。在这样的框图、流程图和/或示例包含一个或多个功能和/或操作的范围内，本领域的技术人员将理解，能够由广泛的硬件、软件、固件或实际上其任何组合单独地和/或共同地实现这样的框图、流程图或示例内的各个功能和/或操作。在一个实施例中，可以经由专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)或者其它集成的形式来实现本文所描述的主题的若干部分。然而，本领域的技术人员将认识到，本文所公开的实施例的一些方面能够整体或部分地作为在一个或多个计算机上运行的一个或更多个计算机程序、作为在一个或更多个处理器上运行的一个或更多个程序、作为固件、或者作为实际上其任何组合，来等效地实现在集成电路中，并且根据该公开，针对软件或固件设计电路和/或编写代码将完全在本领域的技术人员的技能之内。

此外，本领域的技术人员将理解的是，本文所述的主题的机制能够以各种形式分布在程序产品中，并且，本文所述的主题的说明性实施例的应用与用于实际执行分布的非瞬时性信号承载介质的特定类型无关。非瞬时性信号承载介质的示例包括但不限于以下：诸如软盘、硬盘驱动器、光盘(CD)、数字通用盘(DVD)、数字磁带、计算机存储器等的可记录型介质；以及诸如数字和/或模拟通信介质(例如，光缆、波导、有线通信链路、无线通信链路等)的传输型介质。

对于本文使用的相对多的任何复数和/或单数术语，只要其适合于上下文和/或应用，则本领域的技术人员能够将复数转化为单数和/或将单数转化为复数。为清楚起见，本文明确阐述了各种单数/复数的变换。

因此，已经描述了本主题的特定实施例。其他实施例落入以下权利要求书的范围内。在一些情况下，权利要求书中引用的动作能够按不同的顺序执行且依然能够获得所需的结果。此外，附图中描绘的过程未必要求所示的特定顺序或依次顺序，以获得所期望的结果。在某些实施方式中，多任务和并行处理可以是有利的。

Claims

1.一种用于校准分布式传感器的计算机实现的方法，包括：

确定在传感器组处的声学事件组的记录的到达时间，其中按传感器已知的时间间隔来生成声学事件；

基于在所述传感器处的所述声学事件的记录的到达时间、所述声学事件的事件生成时间和所述传感器的估计的内部延迟来计算所述声学事件到达所述传感器的飞行时间；以及

使用所计算的飞行时间来确定所述传感器的位置。

2.根据权利要求1所述的方法，其中，对于每个传感器，通过从针对该传感器的记录的到底时间减去该传感器的内部延迟和所述声学事件的事件生成时间来计算所述声学事件到达所述传感器的飞行时间。

3.根据权利要求1所述的方法，其中，迭代地执行计算所述声学事件到达所述传感器的所述飞行时间，以精化所述飞行时间。

4.根据权利要求1所述的方法，进一步包括选择所述声学事件组中的第一声学事件，所述第一声学事件被生成为用于计算所述声学事件到达所述传感器的所述飞行时间的基准时间。

5.根据权利要求1所述的方法，进一步包括使用确定的所述传感器的位置和在所述传感器处的所述声学事件的记录的到达时间来对所述传感器中的每一个确定相对增益。

6.根据权利要求1所述的方法，其中，所述声学事件中的每一个是作为高斯调制正弦脉冲的校准信号。

7.根据权利要求1所述的方法，其中，所述声学事件中的每一个是作为时域扩展脉冲的校准信号。

8.根据权利要求1所述的方法，其中，所述声学事件中的每一个是作为单位脉冲的校准信号。

9.根据权利要求1所述的方法，其中，所述传感器组为麦克风组。

10.根据权利要求1所述的方法，其中，所述声学事件组由具有扬声器的设备从相对于所述传感器的多个不同位置生成。

11.根据权利要求1所述的方法，其中，所述传感器中的一个或多个为位于移动电话上的麦克风。

12.一种用于校准分布式传感器的计算机实现的方法，包括：

基于在传感器处的声学事件的记录的到达时间、所述声学事件的事件生成时间和所述传感器的估计的内部延迟来计算(310)声学事件组到达传感器组的飞行时间，其中按所述传感器已知的时间间隔来生成所述声学事件；

使用所述声学事件到达所述传感器的所述飞行时间来计算(325)所述传感器的位置；以及

使用计算的所述传感器的位置和在所述传感器处的所述声学事件的记录的到达时间来对所述传感器中的每一个确定(330)相对增益。

13.根据权利要求12所述的方法，进一步包括：

测量(305)在所述传感器组处的所述声学事件组的到达时间；以及

基于在所述传感器处的所述声学事件的记录的到达时间来估计所述传感器的内部延迟。

14.根据权利要求12所述的方法，其中，迭代地执行计算所述声学事件到达所述传感器的所述飞行时间，以精化所述飞行时间。

15.根据权利要求12所述的方法，进一步包括选择所述声学事件组中的第一声学事件，所述第一声学事件被生成为用于计算所述声学事件到达所述传感器的所述飞行时间的基准时间。

16.根据权利要求12所述的方法，其中，基于所述传感器处的信噪比(SNR)的估计来对所述传感器中的每一个确定相对增益。

17.根据权利要求12所述的方法，其中，所述声学事件中的每一个是作为高斯调制正弦脉冲的校准信号。

18.根据权利要求12所述的方法，其中，所述声学事件中的每一个是作为时域扩展脉冲的校准信号。

19.根据权利要求12所述的方法，其中，所述声学事件中的每一个是作为单位脉冲的校准信号。

20.根据权利要求12所述的方法，其中，所述传感器组为麦克风组(220)，以及所述声学事件组(215)由具有扬声器(255)的设备(250)从相对于所述传感器的多个不同位置生成。