CN103797821A

CN103797821A - 使用直接声的到达时间差确定

Info

Publication number: CN103797821A
Application number: CN201280031280.1A
Authority: CN
Inventors: K·瓦卢萨米
Original assignee: Rawles LLC
Current assignee: Amazon Technologies Inc
Priority date: 2011-06-24
Filing date: 2012-06-22
Publication date: 2014-05-14
Anticipated expiration: 2032-06-22
Also published as: US20120327746A1; EP2724554A4; EP2724554B1; JP2015502519A; US9194938B2; EP2724554A1; CN103797821B; JP6150793B2; WO2012178061A1

Abstract

声信号可被定位使得它们在空间中的位置被确定。来自多个麦克风的到达时间差数据可用于这个定位。来自麦克风的信号数据可通过回响和其它环境失真而降级，从而导致错误的定位。通过检测由直接到达麦克风的声音而不是由回响产生的信号的一部分，提高定位的准确度。

Description

使用直接声的到达时间差确定

优先权要求和相关申请

本申请要求特此通过引用被并入的于2011年6月24日提交的美国非临时申请No.13/168,759的优先权并与其相关。

背景技术

声信号诸如拍手声或打响指声可用作在增强的现实环境内的输入。在一些实例中，系统和技术可试图确定这些声信号在这些环境内的位置。定位或确定声源的空间坐标的传统方法对环境所引入的失真是敏感的，并频繁地产生错误结果。所期望的是有效和准确地确定声信号的空间坐标的方式。

附图说明

参考附图来描述详细描述。在附图中，参考数字的最左边的数字标识参考数字首次出现的附图。不同附图中的相同参考数字的使用指示相似或相同的部件或特征。

图1示出具有传感器节点的说明性场景，传感器节点被配置成确定声信号的空间坐标，声信号被部署在可包括如本文所述的增强的现实环境的示例性房间中；

图2示出包括被部署在图1的示例性房间内的预定位置处的多个麦克风的说明性传感器节点；

图3描绘包括声源和所计算的声源位置的说明性房间；

图4描绘示出直接声和间接声的图3的说明性房间的平面图；

图5是信号和相应回响的说明性曲线图；

图6是基于来自产生瞬态信号的声源的直接声来确定TDOA的说明性过程；

图7是基于来自声源（诸如人类语音）的直接声来确定TDOA的说明性过程；

图8是确定直接声并定位直接声源的说明性过程。

具体实施方式

增强的现实环境可利用声信号（诸如可听得见的手势、人类语音、与物理环境中的物体的可听得见的交互等）作为输入。这些声信号的检测提供最低限度的输入，但更丰富的输入模式是可能的，其中声信号可被定位或位于空间中。例如，在胸部高度处的拍手声作为掌声可被忽略，而在用户头上的拍手声可能要求特殊功能的执行。在另一例子中，在站着时讲话的人可被给予高于讲话时坐着的人的对语音识别的优先级。在一个例子中，定位可以是穿过具有小于每立方米1000千克的密度的介质传播的声信号的定位。例如，在大约1个标准大气压（大约100千帕斯卡）下的气态空气。

多个麦克风可用于检测声信号。通过测量声信号在麦克风中每一个处的到达时间，且给出每个麦克风相对于彼此的已知位置，来产生到达时间差数据。这个到达时间差（TDOA）数据可用于双曲线定位以计算声信号的位置。声环境（特别是具有可听得见的频率（包括从大约300Hz延伸到大约3KHz的那些频率））是富含信号和噪声的。此外，声信号与物理环境中的各种物体（包括用户、家具、墙壁等）交互。这个交互可导致直接声以及间接声。直接声是在没有障碍或没有与其它物体或表面交互的情况下从声源直接行进到感测麦克风的声音。相反，间接声经由一个或多个间接路线诸如经由反射、折射等行进。间接声诸如回响可表现为在相对短的时间跨度上接收的直接信号的一系列回声。

通常，在声源和传感器之间的路径长度对于间接声比对于直接声更长。换句话说，直接声通常从源到传感器行进一段较短的距离。给出用于信号传输的合理均匀介质，与直接声比较，较长的路径长度导致间接声花费更多的时间来从源过渡到传感器。给出双曲线定位中的准确时间差的重要性，在定时中的此类方差可导致在所计算的位置中的显著误差。多个相似信号的存在诸如在回响的情况下可因此引起所计算的时间延迟中的显著方差和在所计算的位置中的误差的相应引入。

本文公开的是用于产生适合用于确定信号源在可引起信号回响的环境内的位置的到达时间差（TDOA）数据的设备和技术。在这样的环境内，获取来自声源的信号的麦克风被布置在具有彼此的相对位置的预定物理布置，这些相对位置是已知的。在这个方面，可相对于麦克风规定原点。然后，可相对于原点定义声信号的空间坐标。时间差TDOA模块被配置成从信号产生适合于在确定声信号的空间坐标时由TDOA定位模块使用的一组时间延迟。

如本文所述的，TDOA模块被配置成处理音频信号以确定从声源发出的直接声，并提供到达时间差延长间隔。TDOA模块被配置成寻找信号的直接声分量，并丢弃回响、回声等。信号的一部分可用于确定直接声。例如，所关注事件的前两毫秒可用于确定信号是直接声还是间接声。

在一些实现中，已知的物理属性可用于抑制或过滤可能的TDOA结果。物理属性可包括麦克风的间距和定位、房间尺寸等。例如，在麦克风间距已知的情况下，将导致声音超过在两个麦克风之间行进时的声速的TDOA结果可被丢弃。

说明性环境

图1示出具有传感器节点102的房间的说明性场景100。传感器节点102被配置成确定声信号在房间中的空间坐标，诸如可用在增强的现实环境中。传感器节点102可位于房间里的各种位置处，诸如安装在天花板上、墙上、桌子上、地板上等。

如这里示出的，传感器节点102合并或耦合到被配置成接收声信号的多个麦克风104。也可存在测距系统106，其提供测量到房间内的物体的距离的另一方法。测距系统106可包括激光测距器、声学测距器、光学测距器、结构光模块等。结构光模块可包括结构光源和摄像机，摄像机被配置成至少部分地基于来自结构光源的结构光和摄像机所获取的图像的交互作用来确定环境或其中的物体的位置、地形或其它物理特性。

网络接口108可被配置成使传感器节点102与放置在本地诸如同一房间内、本地网络上诸如同一房屋或企业内的其它设备或诸如经由互联网访问的远程资源耦合。在一些实现中，传感器节点102的部件可被分布在整个房间中，并被配置成经由电缆或无线连接彼此通信。

传感器节点102可包括计算设备110。计算设备110可包括一个或多个处理器112、一个或多个输入/输出接口114和存储器116。存储器116可存储操作系统118、到达时间差（TDOA）模块120和TDOA定位模块122。在一些实现中，可在多个计算设备110之间共享资源。这些资源可包括输入/输出设备、处理器112、存储器116等。存储器116可包括计算机可读存储介质（“CRSM”）。CRSM可以是计算设备可访问以实现存储在其上的指令的任何可用物理介质。CRSM可包括但不限于随机存取存储器（“RAM”）、只读存储器（“ROM”）、电可擦除可编程只读存储器（“EEPROM”）、闪存或其它存储器技术、光盘只读存储器（“CD-ROM”）、数字通用盘（“DVD”）或其它光盘存储器、盒式磁带、磁带、磁盘存储器或其它磁性存储设备或可用于存储期望信息并可由计算设备访问的任何其它介质。

输入/输出接口114可被配置成将计算设备110耦合到麦克风104、测距系统106、网络接口108或其它设备诸如大气压力传感器、温度传感器、湿度计、气压计、图像投影仪、摄像机等。在计算设备110和外部设备（诸如麦克风104和网络接口108）之间的耦合可经由电线、光纤电缆、无线地等等。

TDOA模块120被配置成使用由麦克风104接收的直接声的声信号来确定到达时间差延迟值。在一些实现中，TDOA模块120可被配置成从输入/输出接口114可访问的传感器接受数据。例如，TDOA模块120可至少部分地基于温度和湿度数据来确定到达时间差。如下面关于图6-图8更详细地描述的，TDOA模块120被配置成接受信号输入并确定与声信号的原始源相关的TDOA延迟。直接声的使用使由于房间内的回响而产生的误差最小化，用于更准确的定位。

一旦TDOA模块120可用，TDOA定位模块122就被配置成使用TDOA数据来确定声信号的源位置。这个确定可包括基于TDOA数据和麦克风的已知位置的双曲线定位。

图2示出传感器节点102的图示200。在这个图示中，支撑结构202包括具有垂直于彼此布置的两个线状构件的十字架，每个构件具有D1和D2的长度。支撑结构202帮助维持麦克风之间的已知预定距离，麦克风可接着在声信号的空间坐标的确定中使用。五个麦克风104（1）-（5）被布置在十字架的中心处以及十字架的每个臂的端部处。应理解，麦克风104的数量和放置以及支撑结构202的形状可变化。例如，在其它实现中，支撑结构可描述三角形、圆形或另一几何形状。在一些实现中，可使用非对称支撑结构形状、麦克风的分布或这两者。

支撑结构202可包括房间的结构的部分。例如，麦克风104可被安装到房间内的已知位置处的墙壁、天花板、地板等。在一些实现中，可安放麦克风104，以及通过其它感测装置诸如经由测距系统106、结构光扫描、人工输入等确定它们相对于彼此的位置。

测距系统106也被描述为传感器节点102的部分。如上所述，测距系统106可利用光、声、无线电或其它测距技术和设备。测距系统106可被配置成确定物体、用户、麦克风104等之间的距离、位置或这两者。例如，在一个实现中，麦克风104可被放置在房间内的各种位置处，并且它们相对于彼此的精确位置使用被配置成检测布置在每个麦克风上的光学标签的光学测距器来确定。

在另一实现中，测距系统106可包括声换能器，且麦克风104可被配置成检测声换能器所产生的信号。例如，一组超声换能器可被布置成使得每个超声换能器将超声波投影到房间的特定扇区中。麦克风104可被配置成接收超声信号，或专用超声麦克风可被使用。给定麦克风相对于彼此的已知位置，主动声纳测距和定位可被提供。

图3描绘说明性体积300诸如房间。在这个图示中，传感器节点102被布置在天花板上，而声源302诸如在桌面上的拳头敲击产生声信号。这个声信号在整个房间中传播，并被麦克风104接收。来自麦克风104的关于信号的数据接着经由输入/输出接口114传递到计算设备110中的TDOA估计模块120。TDOA估计模块120使用数据来产生TDOA值。然而，由于环境条件诸如噪声、回响等，TDOA值可变化。TDOA定位模块122使用TDOA值来计算位置。因此，当TDOA值不正确时，所计算的声源位置不正确。例如声音在房间内的回响在被传感器节点102中的麦克风检测到时可能导致具有不同的时间延迟的几个声信号。基于具有不同时间延迟的这些不同的声信号的确定将导致所计算的位置在体积内的移位。使用本文描述的方法和技术的所计算的位置304（1）紧密地对应声源302，因为TDOA估计避免回响的影响。相反，在没有本文描述的方法和技术的情况下，由于来自桌面、墙壁306、地板、天花板等的声信号的回响，另一所计算的位置304（2）是错误的。

图4描绘示出直接声和间接声的图3的说明性房间的平面图400。如上所述，声源302产生声信号。这个信号向外传播。直接声402是由声源302和麦克风104之间的最短无阻碍路径产生的信号。相反，如所示的间接声404采用从声源302到麦克风的较长路径。例如，如这里所示的，间接声402被示为从声源302发出并从墙壁306然后朝着麦克风104（5）反射。因为间接声404沿较长的路径而行，所以间接声404比直接声402信号稍迟到达。

图5是信号和相应回响的说明性曲线图500。在这个曲线图中，横轴502指示消逝的时间，而纵轴504指示信号振幅。在时间上绘制的是两个信号的振幅，每个信号在不同的麦克风处被接收。为了便于说明而不是作为限制在这里示出两个直接信号。

由在第一麦克风104处接收的直接声产生的第一直接信号506由实线指示。来自在第二麦克风104处接收的直接声的第二直接信号508由虚线指示。在第一直接信号506和第二直接信号508的第一峰值之间的时间差是到达时间差间隔510。例如，这可以是中央麦克风104（5）和另一麦克风（诸如104（2））之间比较的信号接收中的时间差。其它方法（包括一般化交叉关联）也可用于确定到达时间差。

曲线图500也示出麦克风拾取间接信号512。为了便于说明而不是作为限制，在这里示出单个间接信号。例如，在具有硬墙壁和地板的小房间中，几个间接回响的声信号可在麦克风104处被检测到。由麦克风104接收的信号是这些直接和间接信号的组合。因此，所接收的信号在任何麦克风104处的振幅可大于或小于不被间接信号干扰的直接信号的振幅。例如，破坏性干扰可导致直接信号在特定麦克风处具有比间接信号低的振幅。

如果TDOA数据基于如被间接信号512破坏的接收到的信号，则不正确的TDOA间隔510可被确定。这个不正确的TDOA间隔将接着导致信号的不正确的定位。

曲线图500也示出系统的本底噪声514。这个本底噪声可包括由传感器检测的环境噪声。在传感器是麦克风104的情况下，这可包括空气调节系统的声音、在冰箱中运行的电机、外部风声等。本底噪声514也可包括由感测设备的操作产生的噪声、在固态设备中的热噪声等。在这个上下文中，当信号的振幅超过本底噪声514的振幅时，信号可被考虑为有意义的。本底噪声514可以是静态或动态可调节的。

曲线图500还示出平静期516，其中来自传感器的信号（如果有的话）在本底噪声514处或之下。继续这个例子，来自第一直接信号506的信号被示为在平静期516中，但在平静期516期间在本底噪声514之下。在一些实现中，平静期516可从大约10ms变化到大约150ms。

如在本例中示出的，声源产生具有随着时间增加的振幅的信号。在这里，示出第一直接信号506的初始峰值518，其中信号的振幅超过本底噪声514。如下所述，第一直接信号506和第二直接信号508的初始峰值518可与间接信号512的峰值分离。通过测量直接信号之间的TDOA间隔510，总TDOA数据质量被提高，从而提高了定位的准确度。

一个传感器的直接信号的总持续时间520被指示。一些信号可以是瞬态的或持久的。瞬态直接信号可具有250毫秒（ms）或更小的持续时间。瞬态信号包括用户手指的轻叩声、拍手声、个人脚步声、咔哒声等。持久信号在超过瞬态信号的总持续时间内延续。在一些实例中，持续多于250ms的信号可被认为是持久信号，而小于这个阈值的信号可被认为是瞬态的。当然，虽然给出了一个示例性持续时间阈值，但是其它实施方案可利用任何其它阈值。持久信号包括人类语音、口哨声、呼吸噪声、音频灯标等。

说明性过程

下面的过程可由本文的体系结构或由其它体系结构实现。这些过程被示为逻辑流程图中块的集合。块中的一些代表可在硬件、软件或其组合中实现的操作。在软件的上下文中，块代表存储在一个或多个计算机可读存储介质上的计算机可执行指令，当所述指令由一个或多个处理器执行时执行所叙述的操作。通常，计算机可执行指令包括执行特定的功能或实现特定的抽象数据类型的例程、程序、对象、部件、数据结构等。操作被描述的顺序并不预期被解释为限制，且任何数量的所述块可以按任何顺序或并行地组合以实现过程。此外，虽然下面的过程描述了声信号的TDOA估计，但是非声信号可如本文所述的那样被处理。

图6是确定来自产生瞬态信号的声源的直接声的说明性过程600。在602，从多个麦克风获取与声源相关的多个音频信号。例如，在房间中的麦克风104（1）-（5）可收集来自用户敲桌子的声源302的音频信号。

在604，可从音频信号移除噪声。噪声移除可使用模拟设备、数字处理或其组合来进行。在606，使用窄带通滤波器过滤音频信号。例如，带通滤波器可具有从大约800赫兹（Hz）延伸到大约2千赫兹（KHz）的带宽。在一些实现中，可使用其它带通滤波器带宽。带宽被选择以使所关注的事件通过，同时移除不需要的频带。

在608，经滤波的信号的本底噪声被静态或动态地估计。静态本底噪声估计可设定预定的本底噪声电平。相反，动态本底噪声可被配置成在时间上跟踪并调节。在一个实现中，可使用向上平均/向下跟踪（average-up/trackdown）的方法，使得当信号上升到所估计的本底噪声之上时，本底噪声缓慢增加，但当信号下降到所估计的本底噪声之下时，本底噪声可更快速地下降。因此，本底噪声可缓慢上升和快速下降。

在610，在经过滤的信号内的所关注的事件被确定为在特定的时间出现。例如，对应于与用户在桌子上轻叩手指相关的声音的部分的尖锐峰值可在时间150毫秒处被确定。在一些实现中，追溯可发生以确定信号超过本底噪声的地方。在其它情况下，具有超过预定SNR的信噪比（SNR）的任何信号可被指定为所关注的事件。

在612，当平静期在所关注的事件之前存在时，过程继续进行到614。平静期可以被静态或动态地调节，如上所述。当没有平静期存在时，过程可返回到610，并继续试图识别所关注的事件。

在614，确定当所关注的事件的信号开始上升到本底噪声之上时的时间。在616，检测与对应于超过本底噪声的所关注的事件的信号相关的初始峰值。可选择对应于直接声的初始峰值的预定数量或持续时间。可静态或动态地设置预定数量或持续时间。例如，在静态地设置的情况下，在一些实现中，前三个峰值可被认为是直接声。由于间接声的较长路径长度中涉及的增加的传播时间，随后的峰值被丢弃。

在618，至少部分地基于多个信号的第一峰值来确定TDOA值。由于没有回响或其它失真信号，基于直接声的TDOA值更准确。

在620，至少部分地基于一个或多个物理属性来过滤TDOA值。这些物理属性可包括麦克风104的已知位置、房间的尺寸、温度、大气压力等。例如，对应于由测距系统106确定的界限之外的位置的TDOA值可被过滤和移除。

图7是确定来自持久声源（诸如人类语音）的直接声的说明性过程700。人类语音的信号特性包括持久的持续时间、频域和时域中的可变性、低平均功率等。这些特性具有传统上复杂的人类语音跟踪，特别是在间接信号存在的环境中。

在702，从多个麦克风获取与声源相关的多个音频信号。例如，房间中的麦克风104（1）-（5）可从包括大声讲话的用户的声源收集音频信号。

在704，可从音频信号移除噪声。在一些实现中，可应用带通滤波器。例如，带通滤波器可具有从大约2千赫兹（KHz）延伸到大约8千赫兹（KHz）的带宽。在706，静态地或动态地估计信号的本底噪声。静态本底噪声估计可设定预定的本底噪声水平。相反，动态本底噪声可被配置成在时间上跟踪并调节，诸如上面描述的。

在708，在特定的时间识别所关注的事件。例如，所关注的事件可包括用户讲话。这个所关注的事件可在信号超过预定的SNR时被确定。

在710，当平静期在所关注的事件之前存在时，过程继续进行到712。平静期可以被静态或动态地调节，如上所述。当没有平静期存在时，过程可返回到708，并继续试图识别所关注的事件。

在712，当信号开始上升到平静期的本底噪声之上时，确定信号上升时间。在714，指定在信号上升时间处或左右开始的样本的时间窗口。在716，至少部分地基于窗口内的样本来确定一组TDOA值。在718，将样本的窗口向前滑动时间t。例如，在一些实现中，窗口可前进大约2毫秒。

在720，当样本在包含直接信号的至少一部分的所关注的区域内时，过程继续进行到722。当样本不在所关注的区域内时，过程可返回到708，并在特定的时间识别所关注的事件。

在722，至少部分地基于在现在滑动窗口内的样本来确定TDOA值。在724，当在连续窗口当中的一组稳定的TDOA值被达到时，过程继续到726。在一些实现中，一组稳定的TDOA值可包括在彼此的2%内的TDOA值的四个窗口。在726，提供用于定位的稳定TDOA值。当在724TDOA值不稳定时，也就是说，它们在预定的阈值之外彼此变化时，过程可返回到718并继续滑动窗口和计算TDOA。在一些实现中，整个过程700可重复以提供对持久音频源诸如讲话的用户的连续跟踪。

图8是确定直接声并定位直接声源的说明性过程800。在802，从多个麦克风获取与声源相关的多个音频信号。在804，确定音频信号内包含直接信号的至少一部分的区域。如上所述，这个确定可包括检测信号在平静期之后何时上升到本底噪声之上。直接信号包括通过从没有反射的声源接收声音产生的信号。

在806，使用相位变换（PHAT）来计算该区域中音频信号之间的交叉关联值以产生TDOA值。通过将PHAT的计算限制到所关注的区域，与整个信号的连续计算相比较，计算要求被降低。

在808，至少部分地基于由所关注的区域的交叉关联值产生的数据来确定声源的位置。因为TDOA数据反映直接声，所以由于回响的处理的降低不存在。因此，TDOA数据更准确，从而导致更准确的定位。

结论

虽然以结构特征特定的语言描述了主题，但是应理解，在所附权利要求中定义的主题不一定限于所描述的具体特征。更确切地，具体特征被公开为实现权利要求的说明性形式。

条款

1.存储计算机可执行指令的一个或多个计算机可读介质，当所述指令被执行时使一个或多个处理器执行包括下列操作的行动：

从多个麦克风获取与声源相关的多个音频信号；

使用带通滤波器过滤所述多个音频信号；

估计经过滤的音频信号的本底噪声；

对于所述多个经过滤的音频信号中的每个：

识别所关注的事件；

确定在所述所关注的事件之前平静期何时存在；

确定所述所关注的事件何时上升到所述本底噪声之上；

在所述所关注的事件上升到所述本底噪声之上后检测峰值；

确定所述峰值出现时的时间；以及

至少部分地基于所述峰值在所述多个经过滤的音频信号中出现时的时间之间的差来确定所述所关注的事件的到达时间差（TDOA）值。

2.条款1的一个或多个计算机可读存储介质，其中所述带通滤波器被配置成具有从大约800赫兹延伸到大约2千赫兹的带宽。

3.条款1的一个或多个计算机可读存储介质，其中所述所关注的事件包括具有小于大约250毫秒的持续时间的声信号。

4.条款1的一个或多个计算机可读存储介质，其中所述声信号由人的手势产生。

5.条款1的一个或多个计算机可读存储介质，所述行动还包括从所述经过滤的音频信号中的每个移除噪声。

6.条款1的一个或多个计算机可读存储介质，所述行动还包括至少部分地基于所述多个麦克风的或所述多个麦克风驻留所在的房间的一个或多个物理属性来过滤所述TDOA值。

7.条款1的一个或多个计算机可读存储介质，其中所述物理属性包括在所述多个麦克风之间的已知距离。

8.条款1的一个或多个计算机可读存储介质，其中所述物理属性包括所述房间的已知尺寸。

9.存储计算机可执行指令的一个或多个计算机可读介质，当所述指令被执行时使一个或多个处理器执行包括下列操作的行动：

获取与声源相关的多个音频信号；

对于所述多个音频信号中的每个：

识别包括所述音频信号中对应于来自所述声源的非反射声音的一部分的所关注的事件；

确定在所述所关注的事件之前平静期何时存在；

确定所述所关注的事件何时上升到本底噪声之上；

在所述所关注的事件上升到所述本底噪声之上后检测峰值；

确定所述峰值出现时的时间；以及

10.条款1的一个或多个计算机可读存储介质，所述行动还包括使用带通滤波器过滤所述多个音频信号。

11.条款2的一个或多个计算机可读存储介质，其中所述带通滤波器被配置成具有从大约800赫兹延伸到大约2千赫兹的带宽。

12.条款1的一个或多个计算机可读存储介质，所述行动还包括估计所述多个音频信号的所述本底噪声。

13.条款1的一个或多个计算机可读存储介质，所述行动还包括从所述多个音频信号移除噪声。

14.条款1的一个或多个计算机可读存储介质，其中所述所关注的事件还包括具有小于大约250毫秒的持续时间的由所述声源产生的声信号。

15.条款6的一个或多个计算机可读存储介质，其中所述声信号由用户物理地击打环境内的物体来产生。

16.条款1的一个或多个计算机可读存储介质，所述行动还包括至少部分地基于接收所述多个音频信号的多个麦克风的一个或多个物理属性或所述多个麦克风驻留所在的房间的物理属性来过滤所述TDOA值。

17.条款8的一个或多个计算机可读存储介质，其中所述物理属性包括在所述麦克风之间的已知距离。

18.条款8的一个或多个计算机可读存储介质，其中所述物理属性包括所述房间的已知尺寸。

19.一种系统，其包括：

多个传感器；

到达时间差模块，其被耦合到所述传感器并被配置成：

经由所述传感器获取与声源相关的多个信号；

对于所述多个信号中的每个：

识别包括所述信号中对应于来自所述声源的非反射声音的一部分的所关注的事件；

确定在所述所关注的事件之前平静期何时存在；

确定所述所关注的事件何时上升到本底噪声之上；

在所述所关注的事件上升到所述本底噪声之上后检测峰值；

确定所述峰值出现时的时间；以及

至少部分地基于所述信号的所述峰值出现时的时间之间的差来确定到达时间差（TDOA）值。

20.条款11的系统，其中所述传感器包括麦克风。

21.条款11的系统，所述到达时间差模块还被配置成：

使用带通滤波器过滤所述信号；以及

估计所述信号的所述本底噪声。

22.条款11的系统，其还包括被耦合到所述传感器并被配置成至少部分地基于所确定的TDOA值来定位所述源的到达时间差模块。

23.存储计算机可执行指令的一个或多个计算机可读介质，当所述指令被执行时使一个或多个处理器执行包括下列操作的行动：

从多个麦克风获取与声源相关的多个音频信号；

估计所述音频信号的本底噪声；

对于所述多个音频信号中的每个：

识别所关注的事件；

确定在所述所关注的事件之前平静期何时存在；

确定在所述平静期之后所述所关注的事件上升到所述本底噪声之上时的时间；

指定从当所述所关注的事件上升到所述平静期之上时的时间起的时间阈值量内开始的样本的窗口；

至少部分地基于所述窗口内的所述音频样本来计算到达时间差（TDOA）值；

将样本的所述窗口向前滑动时间t；

确定所述音频样本何时在所关注的区域内；以及

在将所述窗口向前滑动时间t之后至少部分地基于所述窗口内的所述音频样本来再次计算TDOA值。

24.条款16的一个或多个计算机可读存储介质，其中所述所关注的区域包括来自所述所关注的事件的直接信号的至少一部分。

25.条款16的一个或多个计算机可读存储介质，其中所述平静期在持续时间上小于大约100毫秒。

26.条款16的一个或多个计算机可读存储介质，其中所述平静期包括任何音频信号在所述本底噪声处或之下期间的时期。

27.条款16的一个或多个计算机可读存储介质，其中样本的所述窗口在持续时间上小于大约2毫秒。

28.条款16的一个或多个计算机可读存储介质，其中所述所关注的事件包括人类语音。

29.条款16的一个或多个计算机可读存储介质，所述行动还包括使用带通滤波器过滤所述多个音频信号，所述带通滤波器被配置成具有从大约2千赫兹延伸到大约8千赫兹的带宽。

30.条款16的一个或多个计算机可读存储介质，所述行动还包括从所述多个音频信号移除噪声。

31.条款16的一个或多个计算机可读存储介质，所述行动还包括至少部分地基于所述多个麦克风的或所述多个麦克风驻留所在的房间的一个或多个物理属性来过滤所述TDOA值。

32.条款24的一个或多个计算机可读存储介质，其中所述物理属性包括在所述多个麦克风之间的已知距离。

33.条款24的一个或多个计算机可读存储介质，其中所述物理属性包括所述房间的已知尺寸。

34.条款16的一个或多个计算机可读存储介质，所述行动还包括：

当来自预定数量的连续窗口值的一组稳定的TDOA被达到时，使用所述稳定的TDOA值来定位所述声源。

35.条款16的一个或多个计算机可读存储介质，所述行动还包括连续地跟踪所述声源。

36.存储计算机可执行指令的一个或多个计算机可读介质，当所述指令被执行时使一个或多个处理器执行包括下列操作的行动：

从多个麦克风获取与声源相关的多个音频信号；

在所述音频信号的每个内确定包含直接信号的至少一部分的区域；

计算在包含所述直接信号的所述区域中的所述音频信号的到达时间差值；以及

至少部分地基于所述到达时间差值来确定所述声源的位置。

37.条款29的一个或多个计算机可读存储介质，其中所述直接信号中的每个包括通过在没有反射的情况下从所述声源接收信号而产生的信号。

38.条款29的一个或多个计算机可读存储介质，其中所述计算包括应用相位变换。

39.条款29的一个或多个计算机可读存储介质，其中所述计算包括应用一般化交叉关联技术。

40.条款29的一个或多个计算机可读存储介质，其中确定位置还包括至少部分地基于所述多个麦克风的或所述多个麦克风驻留所在的房间的一个或多个物理属性来过滤到达时间差值。

41.条款33的一个或多个计算机可读存储介质，其中所述物理属性包括在所述麦克风之间的已知距离。

42.条款33的一个或多个计算机可读存储介质，其中所述物理属性包括所述房间的已知尺寸。

43.一种系统，其包括：

多个传感器；

到达时间差模块，其被耦合到所述传感器并被配置成：

从所述多个传感器获取与声源相关的多个音频信号；

对于所述多个音频信号中的每个：

识别所关注的事件；

确定在所述所关注的事件之前平静期何时存在；

确定在所述平静期之后所述所关注的事件上升到本底噪声之上时的时间；

至少部分地基于所述窗口内的所述样本来计算到达时间差（TDOA）值；

将样本的所述窗口向前滑动时间t；

确定所述样本何时在所关注的区域内；以及

在将所述窗口向前滑动时间t之后至少部分地基于所述窗口内的所述样本来再次计算TDOA值。

44.条款36的系统，其中所述所关注的区域包括来自所述所关注的事件的直接信号的至少一部分。

45.条款36的系统，其中所述传感器包括麦克风。

46.条款36的系统，其中所述所关注的事件包括在没有反射的情况下直接由麦克风接收的音频信号的一部分。

47.条款36的系统，所述到达时间差模块还被配置成：

使用带通滤波器过滤所述多个音频信号；以及

估计所述多个音频信号的所述本底噪声。

48.条款36的系统，其还包括被耦合到所述传感器并被配置成至少部分地基于所计算的TDOA值来定位所述声源的到达时间差模块。

Claims

获取与声源相关的多个音频信号；

对于所述多个音频信号中的每个：

确定在所述所关注的事件之前平静期何时存在；

确定所述所关注的事件何时上升到本底噪声之上；

在所述所关注的事件上升到所述本底噪声之上后检测峰值；

确定所述峰值出现时的时间；以及

2.如权利要求1所述的一个或多个计算机可读存储介质，所述行动还包括使用带通滤波器过滤所述多个音频信号。

3.如权利要求2所述的一个或多个计算机可读存储介质，其中所述带通滤波器被配置成具有从大约800赫兹延伸到大约2千赫兹的带宽。

4.如权利要求1所述的一个或多个计算机可读存储介质，所述行动还包括估计所述多个音频信号的所述本底噪声。

5.如权利要求1所述的一个或多个计算机可读存储介质，所述行动还包括从所述多个音频信号移除噪声。

6.如权利要求1所述的一个或多个计算机可读存储介质，其中所述所关注的事件还包括具有小于大约250毫秒的持续时间的由所述声源产生的声信号。

7.如权利要求6所述的一个或多个计算机可读存储介质，其中所述声信号由用户物理地击打环境内的物体来产生。

8.如权利要求1所述的一个或多个计算机可读存储介质，所述行动还包括至少部分地基于接收所述多个音频信号的多个麦克风的一个或多个物理属性或所述多个麦克风驻留所在的房间的物理属性来过滤所述TDOA值。

9.如权利要求8所述的一个或多个计算机可读存储介质，其中所述物理属性包括在所述麦克风之间的已知距离。

10.如权利要求8所述的一个或多个计算机可读存储介质，其中所述物理属性包括所述房间的已知尺寸。

11.一种系统，其包括：

多个传感器；

到达时间差模块，其被耦合到所述传感器并被配置成：

经由所述传感器获取与声源相关的多个信号；

对于所述多个信号中的每个：

确定在所述所关注的事件之前平静期何时存在；

确定所述所关注的事件何时上升到本底噪声之上；

在所述所关注的事件上升到所述本底噪声之上后检测峰值；

确定所述峰值出现时的时间；以及

12.如权利要求11所述的系统，其中所述传感器包括麦克风。

13.如权利要求11所述的系统，其中所述到达时间差模块还被配置成：

使用带通滤波器过滤所述信号；以及

估计所述信号的所述本底噪声。

14.如权利要求11所述的系统，还包括被耦合到所述传感器并被配置成至少部分地基于所述确定的TDOA值来定位所述源的到达时间差模块。

15.如权利要求11所述的系统，其中所述传感器包括麦克风，所述系统还包括被耦合到所述传感器并被配置成至少部分地基于所述麦克风的一个或多个物理属性或所述麦克风驻留所在的房间的物理属性来过滤所述TDOA值的到达时间差模块。

16.存储计算机可执行指令的一个或多个计算机可读介质，当所述指令被执行时使一个或多个处理器执行包括下列操作的行动：

从多个麦克风获取与声源相关的多个音频信号；

估计所述音频信号的本底噪声；

对于所述多个音频信号中的每个：

识别所关注的事件；

确定在所述所关注的事件之前平静期何时存在；

将样本的所述窗口向前滑动时间t；

确定所述音频样本何时在所关注的区域内；以及

17.如权利要求16所述的一个或多个计算机可读存储介质，其中所述所关注的区域包括来自所述所关注的事件的直接信号的至少一部分。

18.如权利要求16所述的一个或多个计算机可读存储介质，其中所述平静期在持续时间上小于大约100毫秒。

19.如权利要求16所述的一个或多个计算机可读存储介质，其中所述平静期包括任何音频信号在所述本底噪声处或之下期间的时期。

20.如权利要求16所述的一个或多个计算机可读存储介质，其中样本的所述窗口在持续时间上小于大约2毫秒。

21.如权利要求16所述的一个或多个计算机可读存储介质，其中所述所关注的事件包括人类语音。

22.如权利要求16所述的一个或多个计算机可读存储介质，所述行动还包括使用带通滤波器过滤所述多个音频信号，所述带通滤波器被配置成具有从大约2千赫兹延伸到大约8千赫兹的带宽。

23.如权利要求16所述的一个或多个计算机可读存储介质，所述行动还包括从所述多个音频信号移除噪声。

24.如权利要求16所述的一个或多个计算机可读存储介质，所述行动还包括至少部分地基于所述多个麦克风的或所述多个麦克风驻留所在的房间的一个或多个物理属性来过滤所述TDOA值。

25.如权利要求24所述的一个或多个计算机可读存储介质，其中所述物理属性包括在所述多个麦克风之间的已知距离。

26.如权利要求24所述的一个或多个计算机可读存储介质，其中所述物理属性包括所述房间的已知尺寸。

27.如权利要求16所述的一个或多个计算机可读存储介质，所述行动还包括：

28.如权利要求16所述的一个或多个计算机可读存储介质，所述行动还包括连续地跟踪所述声源。

29.存储计算机可执行指令的一个或多个计算机可读介质，当所述指令被执行时使一个或多个处理器执行包括下列操作的行动：

从多个麦克风获取与声源相关的多个音频信号；

至少部分地基于所述到达时间差值来确定所述声源的位置。

30.如权利要求29所述的一个或多个计算机可读存储介质，其中所述直接信号中的每个包括通过在没有反射的情况下从所述声源接收信号而产生的信号。

31.如权利要求29所述的一个或多个计算机可读存储介质，其中所述计算包括应用相位变换。

32.如权利要求29所述的一个或多个计算机可读存储介质，其中所述计算包括应用一般化交叉关联技术。

33.如权利要求29所述的一个或多个计算机可读存储介质，其中确定所述位置还包括至少部分地基于所述多个麦克风的或所述多个麦克风驻留所在的房间的一个或多个物理属性来过滤到达时间差值。

34.如权利要求33所述的一个或多个计算机可读存储介质，其中所述物理属性包括在所述麦克风之间的已知距离。

35.如权利要求33所述的一个或多个计算机可读存储介质，其中所述物理属性包括所述房间的已知尺寸。

36.一种系统，其包括：

多个传感器；

到达时间差模块，其被耦合到所述传感器并被配置成：

从多个传感器获取与声源相关的多个音频信号；

对于所述多个音频信号中的每个：

识别所关注的事件；

确定在所述所关注的事件之前平静期何时存在；

将样本的所述窗口向前滑动时间t；

确定所述样本何时在所关注的区域内；以及

37.如权利要求36所述的系统，其中所述所关注的区域包括来自所述所关注的事件的直接信号的至少一部分。

38.如权利要求36所述的系统，其中所述传感器包括麦克风。

39.如权利要求36所述的系统，其中所述所关注的事件包括在没有反射的情况下直接由麦克风接收的音频信号的一部分。

40.如权利要求36所述的系统，其中所述到达时间差模块还被配置成：

使用带通滤波器过滤所述多个音频信号；以及

估计所述多个音频信号的所述本底噪声。

41.如权利要求36所述的系统，其还包括被耦合到所述传感器并被配置成至少部分地基于所述计算的TDOA值来定位所述声源的到达时间差模块。