CN108028977B

CN108028977B - 用于声源方向估计的话筒放置

Info

Publication number: CN108028977B
Application number: CN201680052492.6A
Authority: CN
Inventors: Y·陆; C·B·戈; D·L·贝克; J·华; I·霍罗舍
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2015-09-09
Filing date: 2016-08-04
Publication date: 2020-03-03
Anticipated expiration: 2036-08-04
Also published as: US20170070814A1; WO2017044208A1; US9788109B2; CN108028977A; EP3348073A1

Abstract

提出了用于声源方向估计和源分离的多个话筒的架构及其在设备中的定位。源的方向是设备的正面、背面、左侧、右侧、顶部和底部，并且可通过话筒信号的幅值和相位差以及适当的话筒定位来确定。声源分离将来自不同方向的声音从话筒信号中的各源的混合中分离。这可通过盲源分离(BSS)、独立成分分析(ICA)和波束成形(BF)技术来完成。设备可以为该设备执行多种音频增强。例如，其可为通信执行降噪，其可选择来自期望方向的源以执行语音识别，并且其可纠正话筒中的声音感知方向并生成期望的声像，如立体声音频输出。

Description

用于声源方向估计的话筒放置

技术领域

本申请涉及声源方向估计和源分离的多个话筒的架构及其在设备中的定位，并且更具体而言，涉及用于声源方向估计的话筒放置。

背景技术

包括监视器、膝上型计算机、平板计算机、蜂窝电话的现代电子设备或者具有音频能力的任何设备及系统使用至少一个话筒来拾取音频。取决于复杂度和成本之间的平衡，具有音频能力的电子设备通常使用一到四个话筒。当更多的话筒被用于设备时，如降噪、声源分离和音频输出增强之类的音频性能增加。在另一方面，当更多的话筒被使用时，制造成本及音频处理复杂度同样增加。

发明内容

提供本概述以便以简化的形式介绍以下在详细描述中进一步描述的概念的精选。本概述并不旨在标识所要求保护主题的关键特征或必要特征，也不旨在用于限制所要求保护主题的范围。

本文中所描述的话筒放置实施方式呈现了设备中具有用来确定最大数量的源方向的最小数量的话筒的话筒定位架构。这些话筒放置实施方式提供具有数个话筒的架构及其在设备中的定位，以用于确定可被用于各种音频处理目的的声源方向估计及源分离。

在一个示例性话筒放置实施方式中，具有音频能力的电子设备采用使用相对于设备的经定位的声源以准备被输入到应用中的输出的过程。该过程涉及接收从两个或更多个话筒接收到的声音的话筒信号。声源位置是相对于设备使用设备表面上的两个或更多个话筒的放置及由这些话筒接收到的声音的到达时间和幅值差来确定的。设备周围的空间使用经确定的声源位置被划分成诸区域。附加地，话筒信号要用于的应用的数量和类型以及所需输出信号的数量和类型被确定。经确定的区域被用来选择和处理来自期望的区域的话筒信号以近似地优化用于一个或多个应用的输出的信号。

本文中所描述的诸话筒放置实施方式可具有许多优点。例如，它们可提供使用最小数量的话筒来确定最大数量的声源方向。它们还可使用经确定的声源方向来优化或近似优化用于各种音频处理应用的输出，各种音频处理应用诸如举例而言，在通信应用中降低噪声、在语音识别应用中执行声源分离及降噪、在音频录制中校正未经正确感知的声源方向，以及更有效地对音频信号进行编码。由于最小数量的话筒可被用来确定声源方向和优化输出，所以电子设备可被制造得更小且更便宜。此外，在一些应用中，音频处理的复杂度可被降低，由此为输入话筒信号的信号处理增加了计算效率。

附图说明

参考以下描述、所附权利要求书以及附图，将更好地理解本公开的具体特征、诸方面及优点，附图中：

图1是具有被放置在设备的前表面和背表面上的话筒的电子设备的描绘。

图2是具有被放置在设备的前表面和顶表面上的话筒的电子设备的描绘。

图3是具有放置在设备的背表面和顶表面上的话筒的电子设备的描绘。

图4是具有三个话筒在设备的顶表面、背表面和前表面上的放置的电子设备的描绘。

图5是具有四个话筒在设备的背表面、顶表面、顶表面和前表面上的放置的电子设备的描绘。

图6是用于使用经定位的声源以准备被输入到应用中的输出的过程的示例性流程图。

图7是根据本文中所描述的话筒放置实施方式的用于处理音频信号的示例性架构的描绘。

图8是用来为图7所示的系统确定滤波器系数的二元划分解决方案的示例性描绘。

图9是用来为图7所示的系统确定滤波器系数的时不变解决方案的示例性描绘。

图10是用于图7所示的系统的自适应源分离过程的示例性描绘。

图11描绘了用于图1所示的设备的示例性立体声输出效果增强。

图12是可被用来实践本文中所描述的示例性话筒放置实施方式的示例性计算系统。

具体实施方式

在下面对话筒放置实施方式的描述中，参考了形成其一部分且以解说的方式示出了可以实践本文中所描述的诸实现的示例的附图。可以理解，可以利用其他实施例，并且可以作出结构上的变化而不背离所要求保护的主题的范围。

1.0话筒放置实施方式

以下各节提供了本文中所描述的话筒放置实施方式的概述以及用于实践这些实现的示例性设备、系统和过程。

作为预备事项，所跟的一些附图在被不同地称为功能、模块、特征、元素等的一个或多个结构组件的上下文中描述了诸概念。附图中所示的各种组件可按任何方式实现。在一种情形中，附图中所解说的将各种组件分离成有区别的单元可反映对应的有区别的组件在实际实现中的使用。替代地或附加地，附图中所解说的任何单个组件均可由多个实际组件来实现。替代地或附加地，对附图中任何两个或更多个分开的组件的描绘可反映单个实际组件所执行的不同功能。

其他附图以流程图形式描述了诸概念。以此形式，某些操作被描述为构成按某一顺序执行的有区别的框。这些实现是说明性的而非限制性的。本文中所描述的某些框可被分组在一起并在单个操作中被执行，某些框可被分解成多个组件框，并且某些框可按与本文中所解说的不同的顺序来执行(包括以并行方式执行这些框)。流程图中所示的各框可按任何方式实现。

1.1背景

话筒定位对于确定声源的方向至关重要。声源方向可被定义为朝设备的前表面、背表面、左表面、右表面、顶表面和底表面行进。当所有话筒具有完全相同的性能且被放置在设备的前表面(称为宽阔面)时，不能够确定声源是来自设备正面的方向还是来自设备背面的方向。另一示例是当各话筒具有完全相同的性能且从前往后垂直放置(称为端射(end-fire))。在该配置中，不能够确定源是来自左边还是来自右边方向。

音频设备和系统通常具有电子电路来接收音频信号并将模拟信号转换成数字信号以供进一步处理。它们具有用来将音频声音变换为模拟电信号的话筒模拟电路。在数字话筒情形中，话筒模拟电路被包括在话筒组中。这些数字话筒具有模数(A/D)转换器，以用于将模拟信号转换为具有针对每个样本的采样率F_s及位数N的数字信号样本。

具有音频能力的设备和系统通常具有数字信号处理器(DSP)或其他数字信号处理硬件。在DSP的帮助下，用于音频的许多现代数字信号处理算法可以在DSP硬件中实现。例如，声源的数量和声源的方向可经由波束成形(BF)领域中的适当音频处理算法来确定。声源分离随强大的DSP而变得可行，其中许多高级音频处理算法可在DSP中实现。这些算法包括盲源分离(BSS)、独立成分分析(ICA)、主成分分析(PCA)、非负矩阵分解(NMF)和BF。

设备通常具有在中央处理单元(CPU)或图形处理单元(GPU)上运行的操作系统(OS)。所有信号处理都可使用应用或App在OS上完成。例如，音频处理可使用具有音频驱动程序的音频处理对象(APO)来实现。

为了使这些算法有效地工作，尽管存在许多方式来将话筒定位在设备中，但仍需要适当的话筒定位。例如，当使用两个话筒时，两者可被嵌入到设备的前表面，两者可被嵌入到背表面，两者可处于顶表面，两者可处于任一侧表面，一个可处于前表面而另一个可处于背表面，一个可处于前表面而另一个可处于顶表面，一个可处于背表面而另一个可处于顶表面，等等。在选择定位时存在三个重要的考虑因素：由于不同大小和类型的设备而导致的设备外壳中的用于话筒的可用空间、将(诸)话筒远离扬声器放置以降低声学耦合，以及对话筒进行定位以确定更大数量的声源方向。

1.2概览

在本公开中，提出了诸话筒放置实施方式，其使用设备中的话筒定位架构以使用最小数量的话筒来确定最大数量的声源方向。

在一些实现中，声源的方向来自设备的前表面、背表面、左表面、右表面、顶表面和底表面，并且可以通过话筒信号的幅值和相位差以及适当的话筒定位来确定。声源分离将来自不同方向的声音从话筒信号中的各源的混合中分离，并标识各声源的方向。在一些话筒放置实施方式中，可使用盲源分离(BSS)、独立成分分析(ICA)和波束成形(BF)技术来进一步执行声源分离。当声源的方向被分离且已知时，具有音频能力的设备可使用话筒信号来执行多种音频增强。例如，该设备可为通信执行降噪，其可选择来自期望方向的源以执行语音识别，并且如果声音被感知为来自非其始发自的方向，则该设备可校正从其感知到该声音的方向。此外，本文中所描述的话筒放置实施方式可生成如立体声音频输出之类的期望的声像。附加地，利用如根据本文中所描述的话筒放置实施方式计算的声源分离，2.1、5.1、7.1以及其他已知类型的音频编码和环绕声效果可被更容易地计算。

描述了具有两个、三个和四个话筒的架构的设备，以及所使用的话筒数量的优点及缺点。这些用于话筒定位的架构最大化用给定数量的话筒来确定声源方向的数量。

对具有用于双话筒定位的三种架构的设备的详细描述进行了描述，其充分使用该两个话筒之间的幅值和相位差来实现期望的性能。这些包括以下的话筒位置：正面和背面、正面和顶部以及背面和顶部，所有都具有当从正面看设备时两个话筒之间的从左到右以直线测量的距离。

另一个更加具体描述的设备使用具有三个话筒的架构。在该架构中，存在更大数量的方式来定位话筒。为了确定更大数量的声源方向(声音来自的方向)，话筒被不规则地放置在设备的表面上以便提供偏移，以使得由话筒接收的声音的幅值差和到达时间差可被用来确定(诸)声源方向。尽管话筒的定位不受限制，但是在一些实现中，当扬声器位于设备的左表面和右表面处时，优选如下所述来定位话筒：正面-顶部-背面、正面-顶部-正面、背面-顶部-背面、正面-顶部-顶部、背面-顶部-顶部。然而，这些结构并非排他的。可使用这些话筒定位架构中的任一个，以便确定六个声源方向(正面、背面、左侧、右侧、顶部、底部)或更多声源方向。由于使用了三个话筒，所以音频算法将在所确定的源的数量、源分离以及为特定应用混合期望的话筒信号方面产生更好的性能。

此处更加具体描述的一个设备具有使用四个话筒的架构。当四个话筒被不规则地定位使得不存在来自任何两个话筒的两个信号的线性相关性时，来自四个独立方向的源可仅使用到达时间(或实际而言，相位)信息来确定。当到达时间(例如，相位)和幅值信息两者被使用时，来自八个独立方向的源可在四个话筒被恰当地定位时被确定。尽管本描述描述了来自六个方向的源：正面、背面、左侧、右侧、顶部和底部，但是各架构可被用于确定来自其他方向的源。例如，还可确定左前方、右前方、左后方和右后方声源方向。

所描述的设备和系统为不同应用或任务生成若干输出，并且这些输出可针对这些应用和任务来被优化或近似优化。这些应用和任务也可作为APO在DSP或者在OS中实现。可能的应用可包括通信、语音识别和针对视频录制的音频。例如，在通信应用中，电子设备中的音频处理器可从来自期望方向的源选择声音作为用于电话、VOIP和其他通信应用的输出。该设备还可混合来自若干方向的源作为输出。例如，若干所选择的强源可被混合，因为输出和其他弱源可作为噪声被移除。

输出还可针对语音识别应用来被优化或近似优化。例如，语音识别性能在语音识别引擎的输入包含来自若干源的声音或背景噪声时为低。因此，如果来自单个方向(从话筒信号的混合中分离)的源被输入到语音识别引擎中，则其性能极大地增加。源分离对于增加的语音信号性能而言是关键步骤。因此，在一些话筒放置实施方式中，通过将来自话筒中接收到的源的声音从其中人正在讲话的一个或多个方向中分离并且一次一个地(例如，不带有混合)将仅来自这些方向的信号提供给语音识别引擎来为该语音识别引擎优化或近似优化话筒信号。

源分离还提供了为视频录制执行音频编码的极好方式。其可使2.1、5.1和7.1编码直截了当，因为来自不同方向的源已被确定。因此，在一些话筒放置实施方式中，通过将来自话筒中接收到的源的声音从用于编码的一个或多个方向中分离来优化或近似优化话筒信号以用于音频编码。

使用声源位置和分离的另一个任务是声源方向感知校正。例如，当使用两个话筒(其中一个话筒被放置于设备的前表面，而另一个话筒被放置于设备的背表面)时，所接收到的话筒信号包含在以下意义上被错误地感知了声音方向的源：来自正面的声音被感知为来自左侧的声音、来自背面的声音被感知为来自右侧的声音，来自左侧的声音被感知为来自中心的声音，来自右侧方向的声音被感知为来自中心的声音。在适当数量的话筒被使用且它们的定位使用了本文中所描述的话筒放置实施方式的情况下，各声源可以从不同方向中分离，并可接着被混合以校正声音感知方向。

2.0用于设备的话筒架构及定位

对双话筒定位的三种架构的详细描述进行了描述，其充分使用两个话筒之间的幅值和相位差来实现期望的性能。这些包括以下的话筒位置：正面和背面、正面和顶部以及背面和顶部，所有都具有两个话筒之间的从左到右以直线测量的距离。

2.1双话筒架构

当两个话筒被用于设备中，话筒的定位对确定声源方向而言是关键的，这些声源方向包括相对于设备位于正面、背面、左侧、右侧、顶部和底部。在该双话筒情形中，话筒的数量小于方向的数量。因此，声源方向的确定使用设备本身的信息(例如，话筒的数量、从话筒处的声源接收到的声音之间的幅值差、到达时间差(TAD)或从话筒处的声源接收到的声音之间的相位差，以及其他因素)。

两个话筒的定位可按许多方式完成。例如，话筒可双双被嵌入到设备的前表面，双双被嵌入到背表面、双双被嵌入到顶表面、双双被嵌入到任一侧表面、双双按使得一个在正面而一个在背面、一个在正面而一个在顶部、一个在背面而一个在顶部的方式来被嵌入等等。提供了根据本文中所描述的诸话筒放置实施方式的充分使用两个话筒之间的幅值和相位差的双话筒定位的三种架构的详细描述。出于解释的目的，话筒位于正面和背面、正面和顶部以及背面和顶部，所有都具有两个话筒之间的从左到右以直线测量的距离。

2.1.1正面及背面话筒放置的架构

图1描绘了具有音频能力的示例性设备100。设备100具有左表面102、顶表面104、底表面106、前表面108、右表面110和背表面(未示出)。设备100可以是诸如参考图12详细描述的计算设备1200之类的计算设备。设备100可进一步包括音频处理器112、一个或多个应用114、116，以及一个或多个扬声器118。

图1示出了被嵌入在设备100中的两个话筒120、122的架构。一个话筒120被嵌入在设备100的背表面(未示出)处，而另一个话筒122在设备100的前表面108。这两个话筒120、122之间的距离d1 124提供了话筒之间的偏移。在一个实现中，d1 124大于设备126的厚度。如果距离d1 124等于设备的厚度，则这两个话筒以直线垂直地位于设备中。在该情形中，当源从左侧和/或右侧被接收到时，由两个话筒接收到的信号之间不存在差异。因此，在一些话筒放置实施方式中，仅考虑其中距离d1大于设备厚度的情形。距离d2 134表示话筒的从左到右的距离。

当来自声源S1 128的声音是从左到右的方向时，后置话筒120首先接收到来自声源128的声音。在一定时间之后，前置话筒122也从源S1 128接收到声音。当话筒之间的偏移(例如d1 124)足够大时，两个话筒120、122之间存在显著的到达时间差(TAD)(或相位差)。当来自源的声音是从左到右的方向时，可将该TAD定义为正值，并且类似地，当来自源的声音是从右到左时，该TAD是负的。在图1所示的配置中，幅值差是小的。因此，当幅值差小于预设的阈值时，TAD被用来确定源方向是来自左侧还是右侧。

当来自源的声音相对于设备100是从前到后的方向时，前置话筒122信号的幅值远强于背面120话筒信号的幅值，因为设备外壳130提供了阻挡效应。因此，由两个话筒120、122分别接收到的两个信号之间的幅值差(AMD)是占主导的。TAD或相位差取决于设备的厚度以及声音从前置话筒行进到后置话筒的距离。在该情形中，声音行进的距离更大，因为其行进方向在改变。因此，TAD差也更大。当来自源的声音是从前到后的方向时，该AMD可被定义为以dB为单位为正，而当来自源的声音是从后到前的方向时，该AMD可被定义为以dB为单位为负。因此，AMD和TAD两者均被用来确定声源方向是来自正面还是背面。

当来自源(例如，S2 132)的声音是来自顶部或底部方向时，两个话筒120、122几乎同时接收到声音。在该情形中，TAD和AMD两者均小。将TAD1定义为小的正TAD阈值(例如，以秒为单位)且将AMD1定义为小的正AMD阈值(例如，以dB为单位)(两者均可以是取决于频率的)，当绝对TAD小于TAD1且绝对AMD小于AMD1时，声源要么来自顶部要么来自底部。不能够使用图1所示的话筒配置来将混合的声源从顶部和底部方向中分离。

概括而言，使用具有图1所示的架构的设备100，声源方向可分别从相对于设备100的各表面的前、后、左、右和垂直方向确定。一个话筒122被放置在设备100的前表面，另一个话筒120被放置在该设备的背表面，并且这两个话筒之间的距离d1 124应当偏移，使得TAD和AMD可被用来确定声源方向(例如，大于设备100的厚度)。一旦声源方向被确定，则任何声源分离算法均可出于分离该配置中的声源的目的而被使用。另外，图1中所示的话筒放置并非排他的。只要将一个话筒放置在设备的前表面，将另一个话筒放置在该设备的背表面，且话筒足够偏移，以使得TAD可被用来确定声源方向(例如，两个话筒之间的距离d1大于设备的厚度)，就可将话筒放置在该设备中的空间可用之处的任何地方。图1中所示的设备100的架构的配置在于，前置话筒处于前表面的左侧位置且后置话筒处于背表面的右侧位置。然而，在其中前置话筒处于前表面的右侧位置且后置话筒处于背表面的左侧位置的配置中，声源位置及分离可同样被很好地确定。

2.1.2正面及顶部放置的架构

图2中示出了另一示例性设备200的架构。该设备200可具有与图1中所讨论的那些相同或类似的表面、话筒、(诸)扬声器、音频处理器和应用。该设备具有位于设备200的前表面208的一个话筒202和位于顶表面210的另一个话筒204。该配置在设备200按以下方式被放置在桌子上时可能更加有利：如果前表面上的任何话筒或背表面上的任何话筒(如果有的话)被阻挡，则顶部话筒204仍然可以正常地拾取音频。

类似于图1中所示的架构100，当来自源的声音是从左到右的方向(例如，从左表面导向右表面)时，顶部话筒204首先从源接收到声音。在一定时间之后，前置话筒202从该源接收到声音。当d1足够大时，两个话筒202、204之间存在显著的TAD。当来自源的声音被定向为从左到右的方向时，TAD可被定义为正，而当来自源的声音被定向为从右到左时，TAD可被定义为负。在两种情况下，幅值差是小的，因为两个话筒的指向方向均垂直于源。因此，当幅值差小于预设的阈值时，TAD被用来确定源方向是来自左侧还是右侧。

当来自源的声音是从前到后的方向时，前置话筒202信号的幅值比顶部话筒204信号的幅值更强，因为前置话筒指向源而顶部话筒垂直于源。然而，TAD是小的，因为声音的最大行进距离是设备200的厚度。因此，当绝对TAD小于正阈值且绝对AMD大于另一正阈值时，可以确定来自源的声音来自正面。当来自源的声音从设备的背面导向正面时，顶部话筒信号具有更大的幅值，因为顶部话筒204正垂直指向声源，而前置话筒正指向在该源的相反方向上，伴随设备阻挡效应。另外，TAD也较大，因为声音从源到前置话筒202的方向被改变。因此，使用AMD和TAD两者，可以确定来自源的声音从背面传到正面。

当来自声源的声音从顶部导向底部时，顶部话筒204信号具有更大的幅值，因为其正指向源，而前置话筒202正指向在同该源垂直的方向上。当来自源的声音从底部导向顶部时，前置话筒202信号具有更强的幅值，因为顶部话筒正指向在与源相反的方向上，而前置话筒被定位在同该源垂直的方向上。尽管指向方向影响话筒信号的幅值，但TAD非常接近。因此，使用更大的AMD和可忽略的TAD，可以确定来自源的声音是从顶部导向底部的。当来自源的声音从底部导向顶部时，类似的TAD和AMD行为如同来自源的声音是从正面导向背面一样发生。因此，这种架构可能无法恰当地将源从正面和底部中分离。

概括而言，利用顶部和前置话筒配置，可以分别确定来自源的声音是否导向自左侧、右侧、正面和/或底部、背面和顶部方向。缺点在于，只能够辨别来自正面或背面或这两个方向的源。大的优点在于，当前置话筒被放置在设备前表面前方的键盘阻挡时，仍然可以接收音频。

2.1.3背面及顶部放置的架构

在图3所示的设备300的架构中，一个话筒304位于背表面，而另一个话筒302位于设备的顶表面。该设备300可具有与参考图1所讨论的那些相同或类似的表面、话筒、(诸)扬声器、音频处理器和应用。

类似于图1所示的架构100，当来自源的声音被定向为从左到右的方向时，后置话筒304首先接收到源。在一定时间之后，前置话筒302接收到源。当d1310足够大时，两个话筒302、304之间存在显著的TAD。该TAD可被定义为正。在另一方面，当来自源的声音从右传到左时，TAD为负。在两种情况下，幅值差是小的，因为两个话筒的指向方向均垂直于源。因此，当幅值差小于预设的阈值时，使用TAD来确定源方向是来自左侧还是右侧。

当来自源的声音被定向为从后到前的方向时，后置话筒302信号的幅值比顶部话筒304信号的幅值更强，因为后置话筒正指向源而顶部话筒垂直于该源。然而，TAD是小的，因为最大行进距离是设备的厚度。因此，当存在与正阈值相比较小的绝对TAD以及与另一阈值相比较大的绝对AMD时，可以确定来自源的声音来自背面方向。当源从设备的正面传到背面时，顶部话筒信号具有更强的幅值，因为顶部话筒垂直指向源，而后置话筒指向在与该源相反的方向上，伴随提供阻挡效应的设备的外壳。另外，TAD也较大，因为声音从源行进到后置话筒的方向被改变。因此，当绝对AMD大于正阈值且绝对TAD大于另一正阈值时，可以确定来自源的声音从正面导向背面。

当来自源的声音从顶部传到底部时，顶部话筒304信号具有更强的幅值，因为其正指向源，而后置话筒302指向与该源垂直的方向。当来自源的声音从底部导向顶部时，后置话筒302信号具有更大的幅值，因为顶部话筒304指向与源相反的方向，而后置话筒302指向同该源垂直的方向。尽管话筒所指向的方向影响话筒信号的幅值，但话筒之间的TAD非常接近。因此，使用带有预设的阈值的AMD且几乎不使用TAD，可以确定来自源的声音是从顶部导向底部的。从底部传到顶部方向的源具有与从正面传到背面方向的源类似的TAD和AMD行为。因此，当声音来自背面和底部时，该架构可能无法恰当地分离源。

概括而言，利用顶部304和后置302话筒配置，可以使用TAD和AMD来分别确定来自源的声音是否来自左侧、右侧、正面和/或底部、背面和顶部方向。

2.2三个或更多个话筒的情形

在一设备中，存在许多表面。例如，蜂窝电话、监视器或平板具有至少六个表面。毗邻的表面通常近似垂直。当话筒被放置于不同表面时，由不同话筒接收到的信号中的幅值和/或相位差将会更大。因此，幅值和/或相位差可被用来以最小数量的话筒稳健地估计最大数量的声源方向(声音来自的方向)。在以上所描述的具有两个话筒的示例中，直至五个声源方向可被估计。

图4示出了设备400的架构，其中使用了三个话筒，其中一个话筒402在前表面，第二话筒406在顶表面，且第三话筒404在背表面。该设备400可具有与参考图1中的设备100所讨论的那些相同或类似的表面、话筒、(诸)扬声器、音频处理器和应用。

与图1所示的设备100的架构相比，可以看到顶表面上的附加话筒406被使用。对于图1所示的设备100的架构，可以估计五个声源方向，其中不可能区分来自顶部或来自底部方向的声音。利用如图4所示的顶表面上的附加话筒，现在可以区分除其他方向以外的来自顶部或来自底部方向的声音，因为如果声音来自顶部，则顶部话筒信号的幅值比前置和后置话筒两者的幅值更强，并且如果声音来自底部，则由顶部话筒接收到的信号相比前置和后置话筒两者在幅值上更弱。在两种情形中，TAD/相位差非常小。

当使用三个话筒时，存在更多方式来将话筒定位在设备中。为了确定更大数量的声源方向，优选将话筒不规则地放置在相对于彼此的表面上。尽管话筒的定位不受限制，但是在本文中所描述的一些话筒放置实施方式中，三个话筒的定位如下：正面-顶部-背面、正面-顶部-正面、背面-顶部-背面、正面-顶部-顶部、背面-顶部-顶部(尤其当扬声器位于设备的左侧表面和右侧表面处时)。从左到右的顺序也可以交换。由于使用了三个话筒，所以信号处理算法将在源确定的次数、源分离和期望信号的混合方面产生更好的性能。

图5示出了其中使用四个话筒的设备500的架构。该设备500可具有与图1中所讨论的那些相同或类似的表面、话筒、(诸)扬声器、音频处理器和应用。一个话筒502在前表面，第二话筒504在背表面，且第三话筒506和第四话筒508在顶表面。与图1所示的设备100相比，可以看到顶面上存在两个话筒506、508。显然，设备500的这种架构可以估计至少6个声源方向。

当四个话筒被不规则地定位以使得TAD/相位和幅值信息可用于确定声源方向时，来自许多独立方向的源可被确定。尽管本文中所描述的许多话筒放置实施方式试图定位来自六个方向的声源：正面、背面、左侧、右侧、顶部和底部，但是图5中所示的设备500的架构可被用于确定来自其他方向的源。例如，还可确定左前方、右前方、左后方和右后方声源方向。

存在更多方式来将四个话筒定位在设备中。图5所示的设备500的架构仅仅是使用四个话筒的话筒定位的示例之一。为了确定更大数量的声源方向，一个实现在以下意义上将四个话筒不规则地放置：存在较少的其中由话筒接收到的声音的幅值和/或相位相同或类似的情形。由于使用了四个话筒，所以音频算法将在源确定的次数、源分离和期望信号的混合方面产生好得多的性能。然而，硬件和信号处理两者的成本更高。

2.3用户场景

用户场景定义用户和音频设备如何交互。例如，用户可使用两只手来保持设备，用户可将设备放置在桌子上，以及用户除了用例如键盘覆盖设备的顶表面以外还可将该设备放置在桌子上。通过话筒在设备上的适当放置，可以在以下意义上最大化用户体验：用户的语音在大多数用户场景中仍然可以被至少一个话筒拾取。

2.4系统及处理器架构

根据本文中所描述的话筒放置实施方式的设备和系统将基于所使用的话筒的数量和它们的定位来对来自不同方向的源的声音进行分离和/或区分。它们将把来自经分离的源的声音混合成对不同应用有用或针对不同应用被优化或近似优化的输出。

图6示出了用于使用本文中所描述的各种话筒放置实施方式来确定声源方向以及处理所接收到的声音以供与一个或多个应用一起使用的示例性过程600的框图。如图6所示，框602处，从设备上的两个或更多个话筒接收到的声音的话筒信号被接收到。如框604所示，相对于设备的声源位置是使用设备表面上的两个或更多个话筒的放置以及由话筒接收到的声音的到达时间和幅值差来确定的。如框606所示，使用经确定的声源位置来划分设备周围的空间。这可例如通过使用二元解决方案过程800、时不变划分过程900或自适应分离过程1000来完成，这将参考图8、9和10来更详细地描述。如框608所示，话筒信号要用于的应用的数量和类型以及所需输出信号的数量和类型被确定。如框610所示，所确定的区域接着被用来从期望的区域中选择话筒信号以近似地优化用于所确定的一个或多个应用的输出的信号。

图7示出了用于为各种应用处理话筒信号(例如，在音频处理器(诸如举例而言，图1的音频处理器112)处)的通用系统或架构700的框图。该系统或架构可被用来优化或近似优化用于各种应用的输出。

图7所示的架构700中存在六个框：空间划分信息框702、应用信息框704、联合时频分析框706、源分离框708、源混合框710和时间频率合成框712。将在下面的段落中更详细地讨论这些框。

2.4.1控件划分信息框

空间划分信息框702使用经确定的声源位置来经由不同方法划分电子设备周围的空间。方法之一可以基于对图1至图5所示的设备的架构的分析，这些架构被用来查明存在多少个独立的声源方向。设备周围的空间可根据独立声源来划分。例如，在两个话筒的情况中，五个声源方向可被确定。因此，设备周围的空间可被划分成五个子空间。对于更多的话筒，除了所确定的独立声源方向以外，还可以指定期望数量的子空间及其结构。

2.4.2时间频率分析框

话筒输入714从时域被转换成联合时频域表示。如图7所示，用联合时频分析框706来分析来自M个话筒的话筒输入714u_i(n)，1≤i≤M，其中n是时间索引。例如，可以使用子带短时傅里叶变换、Gabor展开等来执行如本领域中已知的联合时频分析。联合时频分析框706的输出716是x_i(m，k)，0≤i＜M，其中m是频率索引，且k是块索引。

2.4.3源分离框

音频处理器中的处理的一个方面是基于来自联合时频分析框706和空间划分信息框702的输入的声源分离和/或电子设备周围的空间划分。该声源分离和/或划分在源分离框708中执行。在一个实现中，设备周围的空间被分成N个不连贯的子空间。基于所使用的话筒的数量及它们的定位，源分离框708分别生成来自子空间方向的N个信号y_n(m，k)，0≤n＜N。可以使用数学等式将来自源分离框的输出718表示为

可以看到输出718是输入716的线性组合。需要确定输出718的系数h_i(n，m，k)。存在许多方式以基于高级信号处理技术以及话筒的数量及其定位来确定输出718的系数。以下段落详细描述了可被用来找到输出718的系数的三种解决方案：二元解决方案，其中h_i(n，m，k)为零或者一；时不变解决方案，其中对于所有k，h_i(n，m，k)＝h_i(n，m)，并且是通过离线优化或缓慢的在线优化过程获得的；以及自适应时变解决方案，其中输出的系数是基于输入和空间区域来实时自适应地获得的。

图8示出了用于划分设备周围的空间以确定输出系数718(例如，使用源分离框708)的二元解决方案过程800的示图。首先，如框802所示，根据每个话筒的方向获得子空间，以使得从该子空间到其他话筒的信号的到达时间差TAD大于0。令M为整数，则对应于M个话筒的M个子空间可被生成，其中子空间信号被指派给在该子空间中或最接近该子空间的话筒信号。这意味着子空间话筒信号的系数被指派为一，并且其他系数为零(例如，其为二元操作)。第二，如框804所示，每个子空间基于幅值差AD被进一步分成三个子空间。即，AD＞TH、AD＜-TH和TH-＜＝AD＜＝TH，其中TH是阈值。以此方式，3M个子空间被获得，其中每个分配有话筒信号或零。第三，如框806所示，公共子空间被组合以使得不存在子空间重叠。公共子空间被定义为它们是用相同信息获得的地方，并且在它们被分开使用的情况下被称为重叠的子空间。例如，在图1所示的情形(其中一个话筒在前表面，而另一个在背表面)中，设备上方的子空间和设备下方的子空间重叠，并且必须被组合成一个子空间，因为它们不能够像第2.1.1节所述那样被分离。并且最后，如框808所示，子空间被组合成N个期望的子空间，并且如框810所示，用于期望的子空间的经组合的信号被输出。

图9示出了用于确定输出718系数的时不变划分解决方案的过程900的流程图。顶部路径902用于实时操作，且底部路径904描绘了被用来确定输出718的系数的离线训练过程。一组N个滤波器被离线或缓慢地在线训练，使得对于所有k，h_i(n，m，k)＝h_i(n，m)。这涉及按段落n(1≤n≤N)来播放信号，录制话筒中的信号，以及计算在段落中或最接近该段落的话筒信号与其他话筒的比率(其是信号之间的相位和幅值差)。令该比率为a_i(n，m)，1≤n≤N。然后在设备周围播放信号，其中该信号优选为白噪声，并录制所有话筒中的信号，选择h_i(n，m)以最小化

J＝∑_k|y_n(m，k)|² (2)

并考虑以下条件

这将保证来自段落方向的信号在该段落的话筒的信号中不具有失真。需要注意，由于其是离线训练，所以等式(2)的总和针对的是所有经录制的样本。这将确保经训练的滤波器系数是稳健的。

图10示出了用于自适应源分离解决方案的过程1000的示图。顶部路径1002用于确定系数的实时操作，且底部路径1004用于执行针对系数的在线自适应操作。第一步骤与时不变解决方案中的相同，使得信号在段落n(1≤n≤N)中被离线播放，信号在话筒中被录制，并且段落中或最接近该段落的话筒信号与其他话筒的比率被计算(其是信号之间的相位和幅值差)。令该比率为a_i(n，m)，1≤n≤N。现在，滤波器系数经由以下来获得

并考虑以下条件

其中J是声音的能量和要优化的对象。优化意味着来自区域的声音被保持并且来自其他地方的声音被最小化。从等式(4)可以看出，对象J是过去的块数和当前块上的能量的总和，其中块数为P。如果信号来自的方向随着块的不同而不同，则这些系数与数据相关并且可以在块与块之间不同。

2.4.4应用信息框

发送到网络或另一框以进行进一步处理的信号取决于所涉及的应用。此类应用可以是语音识别、VOIP、针对视频录制的音频、x.1编码，等等。在本文中所描述的一些话筒放置实施方式中，设备可确定所接收到的话筒信号正被用于的特定应用，或者可被提供所接收到的话筒信号正被用于的特定应用，并且该信息可被用来优化或近似优化用于预期应用的输出。应用信息框704确定支持这些应用所必需的输出的数量。令应用的数量为Q，则同时需要Q个输出。在每个应用程序中存在多个输出。将用于应用的输出的数量定义为L。输出的数量由应用的数量和类型来确定。例如，用于视频录制的立体声音频需要两个输出，即左侧和右侧输出。语音识别应用可仅使用一个输出，而VOIP应用也可能仅需要一个输出。

2.4.5源混合框

基于应用，用于应用的若干输出可在源混合框710中基于设备中的话筒数量和话筒定位来生成。这些任务可以在DSP中实现，或者作为与操作系统(OS)一起运行的音频处理对象(APO)来实现。输出也可以针对这些应用进行优化或近似优化。

在通信应用中，设备可从期望的方向中选择源作为用于电话、VOIP和其他通信应用的输出。该设备还可在源混合框710中混合来自若干方向的源。此外，该设备可在源混合框710中仅混合语音和有用的音频，使得输出将不包含噪声(不需要的成分)。

在语音识别应用中，当语音识别引擎的输入包含若干源或背景噪声时，应用的性能是低的。因此，当从单个方向接收到的源(从信号的混合中分离)被输入到语音识别引擎时，其性能极大地增加。源分离对增加语音识别性能而言是重要步骤。如果想要识别设备周围的语音，可以只选择一个最强的信号用于输入到语音识别引擎(例如，混合动作是针对语音识别应用的二元动作)。

源分离为针对视频录制的音频编码提供了极好的方式。其可使2.1、5.1和7.1编码直截了当，因为来自不同方向的源的位置已被确定。如果输出小于分离的源，则可能需要进一步混合。在该情形中，空间划分对于混合是有用的。

另一应用是源感知方向校正。例如，当使用两个话筒(其中一个话筒被放置在设备的前表面，而另一个话筒被放置在设备的背表面，使得两个话筒之间存在按直线的从设备左侧到右侧的距离)时，则话筒信号包含来自在以下意义上被感知为来自错误方向的源的声音：来自正面方向的声音被感知为来自左侧方向的声音、来自背面的声音被感知为来自右侧的声音，来自左侧的声音被感知为来自中心的声音，以及来自右侧方向的声音也被感知为来自中心方向的声音。

音频增强之一是增强立体声效果。当两个话筒被定位在小型设备中时，两个话筒之间的距离非常短(在几十毫米的范围内)。因此，立体效果是有限的。利用本文中所提出的话筒放置实施方式，源已被分离。当分离的信号被混合用于立体声输出时，可以增加混音中的虚拟距离以增加立体声效果。

图11示出了用于针对图1所示的设备100中的架构的立体声效果增强的完整解决方案。Gabor展开1102a、1102b被用来执行联合时频分析。到达时间差(TAD)被用来为输入信号1108a、1108b确定两个混合源；一个混合源1106a来自右前方，而另一个混合源1106b来自左后方。接着，来自右前方的混合源1106a经由幅值差(AD)1112被分离成右侧源1110b和前置源1110a。类似地，来自左后方的混合源1106b也可以经由幅值差1116被分离成左侧源1114a和后置源1114b。最后，前置1110a和后置1114b源在立体声输出的两个通道中被相同地保持为中心音频，左侧源1114a被添加到左通道而没有改变，并且被添加到右通道，具有经由虚拟距离计算出的较大相位。右侧源被添加到右通道而没有改变，并且被添加到左通道，具有经由虚拟距离计算出的较大相位。需要注意，立体声效果也可以经由幅值差来实现。因此，在一些实现中，除了添加的相位之外还插入一些衰减。在该方式中，正确的音频将被感知为具有增强的效果。Gabor展开1118a、1118b还被用来将联合时频表示合成为时域立体声信号。

应当注意，用于本文中所描述的一些话筒放置实施方式的音频处理可取决于设备的方位，并且还取决于哪种类型的应用用户正在运行。具有惯性测量单元(例如，具有陀螺仪和加速度计)的设备将知道它处于哪个方位。如果用户直立握住该设备，则音频处理器可使用该信息来作出关于源所处的位置以及用户正在做什么(例如，四处走动)的确定。例如，如果设备包括支架，并且该支架被部署且设备静止，则音频处理器可推断出用户正坐在桌子边上。音频处理器还可以知道用户正在做什么(例如，用户正在参与视频会议通话)。该信息可被用于音频处理器关于声音来自何处、声音来源的性质等等的确定。

3.0其他实现

以上描述的事物包括各示例实现。当然，出于描绘所要求保护的主题的目的而描述每一个可以想到的组件或方法的组合是不可能的，但本领域内的普通技术人员应该认识到，许多进一步的组合和排列都是可能的。因此，所要求保护的主题旨在包含落在所附权利要求书的精神和范围内的所有这样的更改、修改和变化。

对于由上述组件、设备、电路、系统等执行的各种功能，除非另外指明，否则用于描述这些组件的术语(包括对“装置”的引用)旨在对应于执行所描述的执行此处在所要求保护的主题的示例性方面中所示的功能的组件的指定功能(例如，功能上等效)的任何组件，即使这些组件在结构上不等效于所公开的结构。关于这一点，还应认识到，上述实现包括具有用于执行所要求保护的主题的各种方法的动作和/或事件的计算机可执行指令的系统以及计算机可读存储介质。

有多种方式来实现上述实现(诸如，适当的应用编程接口(API)、工具包、驱动程序代码、操作系统、控件、独立或可下载的软件对象等等)，它们使应用和服务能使用在此描述的各实现。所要求保护的主题还从API(或其他软件对象)的观点来看，以及从根据本文中所述实现操作的软件或硬件对象的观点来看构想了这一用途。由此，本文中所述的各实现可具有完全采用硬件、或部分采用硬件并且部分采用软件、还完全采用软件的方面。

上述系统已经参考若干组件之间的交互被描述。将理解，这些系统和组件可包括那些组件或指定的子组件、某些指定的组件或子组件、和/或附加的组件，并且根据上述内容的各种置换和组合。子组件还可作为通信地耦合到其他组件的组件来实现，而不是被包括在父组件内(例如，分层组件)。

另外，应注意到一个或多个组件可被组合成提供聚集功能的单个组件，或被分成若干单独的子组件，且诸如管理层等任何一个或多个中间层可被设置成通信耦合到这样的子组件以便提供集成功能。本文中所述的任何组件也可与本文中未专门描述但本领域技术人员一般已知的一个或多个其他组件进行交互。

以下段落概括了可以在本文中要求保护的各实现的各示例。然而，应当理解，下文概括的各实现不旨在限制可以鉴于上述描述来要求保护的主题。此外，下文概括的各实现中的任一者或全部可以按与上述描述通篇描述的实现中的一些或全部以及在附图中的一者或多者中解说的任何实现以及下文描述的任何其他实现的任何所需组合来要求保护。另外，应当注意，以下实现旨在鉴于上述描述和本文中通篇描述的附图来理解。

各种话筒放置实施方式藉由用于使用设备几何形状和幅值以及到达时间差来确定声源位置的装置、系统和过程，以便优化或近似优化针对各种特定应用的音频信号处理。

作为第一示例，各种话筒放置实施方式在以下过程中实现，该过程：接收从设备上的两个或更多个话筒接收到的声音的话筒信号；使用两个或更多个话筒在设备表面上的放置以及由话筒接收到的声音的到达时间和幅值差来确定相对于设备的声源位置；使用经确定的声源位置来将设备周围的空间划分成诸区域；确定话筒信号要被用于的应用的数量和类型以及所需的输出信号的数量和类型；以及使用所确定的区域来选择和处理来自期望区域的话筒信号以近似地优化用于所确定的一个或多个应用的输出的信号。

作为第二示例，在各种实现中，第一示例通过装置、过程或技术被进一步修改，以使得将设备周围的空间分成诸区域进一步包括：从每个话筒的方向获得子空间，使得从该子空间到其他话筒的声音的到达时间差大于0；基于话筒之间的幅值差来将每个子空间分成三个附加子空间；组合公共子空间，使得不存在重叠的子空间；将子空间组合成包含期望的子空间信号的多个期望的子空间；以及为经组合的子空间输出期望的子空间信号以供与一个或多个应用一起使用。

作为第三示例，在各种实现中，第一示例或第二示例中的任一者经由装置、过程或技术被进一步修改，以使得将设备周围的空间分成诸区域进一步包括：确定话筒之间的幅值差是大于正阈值、小于负阈值还是在正阈值和第二负阈值之间。

作为第四示例，在各种实现中，第一示例、第二示例或第三示例中的任一者被进一步修改，以使得一个或多个区域中的源信号经由二元、时不变或自适应解决方案来确定。

作为第五示例，在各种实现中，第一示例、第二示例、第三示例或第四示例中的任一者被进一步修改，以使得一个或多个区域中的子空间信号被确定，并且其中子空间信号的系数通过使用使子空间信号的失真最小化的概率分类器来获得。

作为第六示例，在各种实现中，第一示例、第二示例、第三示例、第四示例或第五示例中的任一者经由装置、过程或技术被进一步修改，以使得应用的数量通过确定同时运行的应用的数量并将所确定的应用的数量乘以每个应用所要求的输出来确定。

作为第七示例，在各种实现中，第一示例、第二示例、第三示例、第四示例、第五或第六示例中的任一者经由装置、过程或技术被进一步修改，以使得输出到所确定的一个或多个应用的信号被近似优化以在通信应用中执行降噪。

作为第八示例，在各种实现中，第一示例、第二示例、第三示例、第四示例、第五示例或第六示例中的任一者经由装置、过程或技术被进一步修改，以使得输出到所确定的一个或多个应用的信号被近似优化以在语音识别应用中执行降噪。

作为第九示例，在各种实现中，第一示例、第二示例、第三示例、第四示例、第五示例或第六示例中的任一者经由装置、过程或技术被进一步修改，以使得输出到所确定的一个或多个应用的信号被近似优化以校正不正确地感知到的声源方向。

作为第十示例，各种话筒放置实施方式包括具有面向前的表面、面向后的表面、面向左的表面、面向右的表面、面向顶部的表面和面向底部的表面的设备；一个表面上的一个话筒和一个相对表面上的另一个话筒，其中当从具有话筒之一的表面查看时，从左到右测量的两个话筒之间存在距离，该话筒响应于一个或多个外部声源而生成音频信号；以及音频处理器，其被配置成从话筒接收音频信号，并使用它们在设备的表面上的定位以及由话筒接收到的信号之间的到达时间差和幅值差来确定一个或多个外部声源的方向。

作为第十一示例，在各种实现中，第十示例经由装置、过程或技术被进一步修改，以使得话筒之间的距离大于作为两个相对表面之间的最小距离测得的设备的厚度。

作为第十二示例，第十示例和第十一示例中的任一者经由装置、过程或技术被进一步修改，以使得声源方向通过确定从一个话筒到另一个话筒的信号的到达时间差是大于正阈值、小于负阈值，还是在正阈值和负阈值之间来确定。

作为第十三示例，第十示例、第十一示例和第十二示例中的任一者经由装置、过程或技术被进一步修改，以使得声源方向通过确定话筒之间的幅值差是大于正阈值、小于负阈值还是在正阈值和第二负阈值之间来确定。

作为第十四示例，第十示例、第十一示例、第十二示例和第十三示例中的任一者经由装置、过程或技术被进一步修改，以使得表面处存在附加的话筒，该附加的话筒增加可被确定的相对于表面的方向的最大数量。

作为第十五示例，各种话筒放置实施方式包括具有面向前的表面、面向后的表面、面向左的表面、面向右的表面、面向顶部的表面和面向底部的表面的设备；一个表面上的一个话筒和毗邻表面上的另一个话筒，其中话筒之一被偏移，使得其更接近设备的与包含话筒的两个表面正交的表面，该话筒响应于一个或多个外部声源而生成音频信号；以及音频处理器，其被配置成从话筒接收音频信号并就设备表面确定一个或多个外部声源的方向。

作为第十六示例，在各种实现中，第十五示例经由装置、过程或技术被进一步修改，以使得声音相对于表面的方向通过使用由话筒生成的信号之间的幅值差并通过使用来自外部声源的声音到相应话筒的到达时间差来确定。

作为第十七实例，在各种实现中，第十五实例或第十六实例中的任一者经由装置、过程或技术被进一步修改，以使得如果在两个话筒中幅值基本上相同，并且到达时间在第一话筒中更早，则确定声源被定向成朝向与包含话筒的两个表面正交的毗邻表面，其中该毗邻表面也更靠近第一话筒。

作为第十八示例，在各种实现中，第十五示例、第十六示例或第十七示例中的任一者经由装置、过程或技术被进一步修改，以使得如果在话筒中的第一话筒中幅值更大，话筒之间的到达时间差小于阈值，并且对第一话筒而言到达时间更早，则确定声源被定向成朝向包含第一话筒的表面。

作为第十九示例，在各种实现中，第十六示例经由装置、过程或技术被进一步修改，以使得如果话筒中的第一话筒中幅值更大，话筒之间的到达时间差大于阈值，并且对第一话筒而言到达时间更早，则确定声源被定向成朝向与包含其他话筒的表面相对的表面。

作为第二十示例，在各种实现中，第十五示例、第十六示例、第十七示例、第十八示例和第十九示例中的任一者经由装置、过程或技术被进一步修改，以使得话筒之间的距离大于作为两个相对表面之间的最小距离测得的设备的厚度。

4.0示例性操作环境

本文中所描述的话筒放置实施方式在多种类型的通用或专用计算系统环境或配置内是可操作的。图12解说了通用计算机系统的简化示例，在该通用计算机系统上可以实现如本文中所描述的话筒放置实施方式的各种元件。注意，图12中示出的简化计算设备1200中的断线或虚线所表示的任何框表示该简化计算设备的替代实现。如以下所描述的，这些替代实现中的任意一个或全部可与本文通篇描述的其他替代实现组合使用。

简化计算设备1200通常可以在具有至少某种最小计算能力的设备中找到，这些设备诸如个人计算机(PC)、服务器计算机、手持式计算设备、膝上型或移动计算机、诸如蜂窝电话和个人数字助理(PDA)等通信设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型计算机、大型计算机、音频或视频媒体播放器。

为允许设备实现本文描述的话筒放置实施方式，该设备应当具有足够的计算能力和系统存储器以启用基本计算操作。具体而言，图12中所示的简化计算设备1200的计算能力一般由一个或多个处理单元1210示出，并且还可包括一个或多个图形处理单元(GPU)1215，这两者中的任一个或全部与系统存储器1220通信。注意，简化计算设备1200的处理单元1210可以是专用微处理器(诸如数字信号处理器(DSP)、甚长指令字(VLIW)处理器、场可编程门阵列(FPGA)、或其他微控制器)或者可以是具有一个或多个处理核并且也可在多核处理器中包括一个或多个基于GPU的核或其它专用核的常规中央处理单元(CPU)。

另外，简化计算设备1200还可包括其他组件，诸如例如通信接口1230。简化计算设备1200还可包括一个或多个常规计算机输入设备1240(例如，触摸屏、触敏表面、定点设备、键盘、音频输入设备、基于语音或话音的输入和控制设备、视频输入设备、触觉输入设备、用于接收有线或无线数据传输的设备等)或这样的设备的任何组合。

类似地，与简化计算设备1200以及与话筒放置实施方式的任何其他组件或特征的各种交互(包括输入、输出、控制、反馈)以及对与话筒放置实施方式相关联的一个或多个用户或其他设备或系统的响应是通过各种自然用户界面(NUI)场景来启用的。话筒放置实施方式所启用的NUI技术和场景包括但不限于允许一个或多个用户以“自然的”方式与话筒放置实施方式进行交互的界面技术，而没有输入设备(诸如鼠标、键盘、遥控器等等)所施加的人工约束。

这样的NUI实现是通过使用各种技术来启用的，包括但不限于使用从经由话筒或其他输入设备1240或系统传感器捕捉的用户讲话或发声导出的NUI信息。这样的NUI实现还通过使用各种技术来启用，包括但不限于从系统传感器1205或其他输入设备1240导出的来自用户的面部表情以及用户的手、手指、腕、臂、腿、身体、头、眼等的位置、运动或定向的信息，其中这样的信息可以使用各种类型的2D或深度成像设备来捕捉，诸如立体或飞行时间相机系统、红外相机系统、RGB(红、绿和蓝)相机系统等等或这样的设备的任何组合。这样的NUI实现的进一步示例包括但不限于从触摸和指示笔识别、姿势识别(屏幕上以及邻近屏幕或显示器表面两者)、基于空中或接触的姿势、用户触摸(在各种表面、对象或其他用户上)、基于悬停的输入或动作等等导出的NUI信息。这样的NUI实现还可包括但不限于使用单独地或与其他NUI信息相组合地评估当前或过去用户行为、输入、动作等以预测诸如用户意图、愿望和/或目标等信息的各种预测机器智能过程。不管基于NUI的信息的类型或源如何，这样的信息随后可被用来发起、终止、或以其他方式控制或与话筒放置实施方式的一个或多个输入、输出、动作或功能特征交互。

然而，应当理解，上述示例性NUI场景可通过将对人工约束或附加信号的使用与NUI输入的任何组合相组合来被进一步扩充。这样的人工约束或附加信号可由输入设备1240(诸如鼠标、键盘以及遥控器)或由各种远程设备或用户佩戴的设备(诸如加速度计、用于接收表示由用户的肌肉所生成的电信号的肌电信号的肌电传感器、心率监视器、用于测量用户排汗的电流皮肤传导传感器、用于测量或以其他方式感测用户脑活动或电场的可穿戴生物传感器或远程生物传感器、用于测量用户体温变化或差异的可穿戴生物传感器或远程生物传感器，等等)施加或生成。从这些类型的人工约束或附加信号导出的任何这样的信息可以与任何一个或多个NUI输入相组合以发起、终止或以其他方式控制或与话筒放置实施方式的一个或多个输入、输出、动作、或功能特征交互。

简化计算设备1200还可包括其他光学组件，诸如一个或多个常规计算机输出设备1250(例如显示设备1255、音频输出设备、视频输出设备、用于传送有线或无线数据传输的设备等)。注意，用于通用计算机的典型通信接口1230、输入设备1240、输出设备1250和存储设备1260是本领域技术人员所公知的，且将不在此详细描述。

图12中所示的简化计算设备1200还可包括各种计算机可读介质。计算机可读介质可以是可由计算设备1200经由存储设备1260访问的任何可用介质，并且包括是可移动1270和/或不可移动1280的易失性和非易失性介质，该介质用于存储诸如计算机可读或计算机可执行指令、数据结构、程序模块或其他数据等信息。

计算机可读介质包括计算机存储介质和通信介质。计算机存储介质指的是有形的计算机可读或机器可读介质或存储设备，诸如数字多功能盘(DVD)、蓝光盘(BD)、紧致盘(CD)、软盘、磁带驱动器、硬盘驱动器、光盘驱动器、固态存储器设备、随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、CD-ROM或其他光盘存储、智能卡、闪存(例如，卡、棒、以及钥匙驱动器)、磁带盒、磁带、磁盘存储、磁条或其他磁存储设备。另外，所传播的信号不被包括在计算机可读存储介质的范围内。

诸如计算机可读或计算机可执行指令、数据结构、程序模块等信息的保持还可通过使用各种上述通信介质(与计算机可读介质相对)中的任一种来编码一个或多个已调制数据信号或载波或其他传输机制或通信协议来实现，并且可包括任何有线或无线信息传递机制。注意，术语“已调制数据信号”或“载波”一般指以对信号中的信息进行编码的方式设置或改变其一个或多个特征的信号。例如，通信介质可包括诸如有线网络或直接线连接等携带一个或多个已调制数据信号的有线介质，以及诸如声学、射频(RF)、红外线、激光和其他无线介质等用于传送和/或接收一个或多个已调制数据信号或载波的无线介质。

此外，可以按计算机可执行指令或其他数据结构的形式存储、接收、传送或者从计算机可读或机器可读介质或存储设备和通信介质的任何所需组合中读取具体化本文描述的话筒放置实施方式中的部分或全部的软件、程序和/或计算机程序产品。另外，所要求保护的主题事项可使用标准变成和/或工程设计技术实现为方法、装置或制造作品，以制造软件、固件、硬件或其任意组合来控制计算机以实现所公开的主题事项。如此处所使用的术语“制品”旨在涵盖可以从任何计算机可读设备或介质访问的计算机程序。

本文所描述的话筒放置实施方式还可在由计算设备执行的诸如程序模块等计算机可执行指令的一般上下文中描述。一般而言，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等。话筒放置实施方式还可以在其中任务由通过一个或多个通信网络链接的一个或多个远程处理设备执行或者在该一个或多个设备的云中执行的分布式计算环境中实现。在分布式计算环境中，程序模块可位于包括媒体存储设备的本地和远程计算机存储介质两者中。另外，上述指令可以部分地或整体地作为可以包括或不包括处理器的硬件逻辑电路来实现。

替换地或附加的，本文所描述的功能可以至少部分由一个或多个硬件逻辑组件来执行。作为示例，而非限制，可被使用的硬件逻辑组件的说明性类型包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD)等。

以上对话筒放置实施方式的描述是出于说明和描述的目的而提供的。这并不旨在穷举所要求保护的主题或将其限于所公开的精确形式。鉴于上述教导，许多修改和变型都是可能的。此外，应当注意，可以按期望的任何组合来使用以上所提及的替代实现中的任一个或全部，以形成话筒放置实施方式的附加的混合实现。本发明的范围并不旨在由本详细描述来限定，而是由所附权利要求书来限定。尽管用结构特征和/或方法动作专用的语言描述了本发明主题，但可以理解，所附权利要求书中定义的主题不必限于上述具体特征或动作。相反，上述特定特征和动作是作为实现权利要求书的示例形式而公开的，并且其他等价特征和动作旨在处于权利要求书的范围内。

Claims

1.一种处理音频信号的方法，包括：

接收从设备上的两个或更多个话筒接收到的声音的话筒信号；

使用两个或更多个话筒在所述设备的表面上的放置以及由所述话筒接收到的声音的到达时间和幅值差来确定相对于所述设备的声源位置；

使用经确定的声源位置来将所述设备周围的空间划分成各个区域；

确定所述话筒信号要被用于的应用的数量和类型以及所需输出信号的数量和类型；以及

使用所确定的区域来选择和处理来自期望区域的所述话筒信号以近似地优化用于所确定的一个或多个应用的输出的信号。

2.根据权利要求1所述的方法，其特征在于，将所述设备周围的空间分成各个区域进一步包括：

从每个话筒的方向获得子空间，使得从所述子空间到其他话筒的声音的到达时间差大于0；

基于所述话筒之间的幅值差来将每个子空间分成三个附加子空间；

组合公共子空间，使得不存在重叠的子空间；

将所述子空间组合成包含期望的子空间信号的多个期望的子空间；以及

为经组合的子空间输出所述期望的子空间信号以供与所述一个或多个应用一起使用。

3.根据权利要求1所述的方法，其特征在于，将所述设备周围的空间分成各个区域进一步包括：

确定所述话筒之间的幅值差是大于正阈值、小于负阈值还是在所述正阈值和第二负阈值之间。

4.根据权利要求3所述的方法，其特征在于，进一步包括经由二元、时不变或自适应解决方案来确定一个或多个区域中的源信号。

5.根据权利要求3所述的方法，其特征在于，进一步包括确定一个或多个区域中的子空间信号，其中所述子空间信号的系数通过使用使所述子空间信号的失真最小化的概率分类器来获得。

6.根据权利要求1所述的方法，其特征在于，应用的数量通过确定同时运行的应用的数量并将所确定的应用的数量乘以每个应用所要求的输出来确定。

7.根据权利要求1所述的方法，其特征在于，输出到所确定的一个或多个应用的信号被近似优化以在通信应用中执行降噪。

8.根据权利要求1所述的方法，其特征在于，输出到所确定的一个或多个应用的信号被近似优化以在语音识别应用中执行降噪。

9.根据权利要求1所述的方法，其特征在于，输出到所确定的一个或多个应用的信号被近似优化以校正不正确地感知到的声源方向。

10.一种音频设备，包括：

面向前的表面、面向后的表面、面向左的表面、面向右的表面、面向顶部的表面和面向底部的表面；

一个表面上的一个话筒和相对表面上的另一个话筒，其中当从具有所述话筒之一的表面查看时，从左到右测量的所述两个话筒之间存在距离，所述话筒响应于一个或多个外部声源而生成音频信号；

音频处理器，所述音频处理器被配置成从所述话筒接收所述音频信号，并使用它们在所述设备的表面上的定位以及由所述话筒接收到的信号之间的到达时间差和幅值差来确定所述一个或多个外部声源的方向，其中所述声源方向通过以下来确定：从一个话筒到另一个话筒的信号的到达时间差是大于正阈值、小于负阈值，还是在所述正阈值和所述负阈值之间。

11.根据权利要求10所述的音频设备，其特征在于，所述话筒之间的距离大于作为所述两个相对表面之间的最小距离测得的所述设备的厚度。

12.根据权利要求10所述的音频设备，其特征在于，进一步包括通过确定所述话筒之间的幅值差是大于正阈值、小于负阈值还是在所述正阈值和第二负阈值之间来确定所述方向。

13.根据权利要求10所述的音频设备，其特征在于，进一步包括在所述表面处的附加的话筒，所述附加的话筒增加能够被确定的相对于所述表面的方向的最大数量。

14.一种音频设备，包括：

面向前的表面、面向后的表面、面向左的表面、面向右的表面、面向顶部的表面和面向底部的表面；以及

一个表面上的一个话筒和毗邻表面上的另一个话筒，其中所述话筒之一被偏移，使得其更接近所述设备的与包含所述话筒的所述两个表面正交的表面，所述话筒响应于一个或多个外部声源而生成音频信号；

音频处理器，所述音频处理器被配置成从所述话筒接收所述音频信号并通过将所述设备周围的空间划分成各个区域来就所述设备的表面确定所述一个或多个外部声源的方向。

15.根据权利要求14所述的音频设备，其特征在于，所述声源相对于所述表面的方向通过使用由相应话筒生成的信号之间的幅值差并通过使用来自所述外部声源的声音到所述相应话筒的到达时间差来确定。

16.根据权利要求15所述的音频设备，其特征在于，如果在两个话筒中所述幅值基本上相同，并且所述到达时间在所述话筒中的第一话筒中更早，则所述声源被定向成朝向与包含所述话筒的所述两个表面正交的毗邻表面，并且其中所述毗邻表面也更靠近所述第一话筒。

17.根据权利要求15所述的音频设备，其特征在于，如果在所述话筒中的第一话筒中所述幅值更大，所述话筒之间的所述到达时间差小于阈值，并且对所述第一话筒而言所述到达时间更早，则所述声源被定向成朝向包含所述第一话筒的表面。

18.根据权利要求15所述的音频设备，其特征在于，如果在所述话筒中的第一话筒中所述幅值更大，所述话筒之间的所述到达时间差大于阈值，并且对所述第一话筒而言所述到达时间更早，则所述声源被定向成朝向与包含其他话筒的表面相对的表面。

19.根据权利要求14所述的音频设备，其特征在于，所述话筒之间的距离大于作为两个相对表面之间的最小距离测得的所述设备的厚度。

20.一种具有指令的计算机可读存储介质，当所述指令被执行时使得机器执行如权利要求1-9中任一权利要求所述的方法。

21.一种计算机系统，包括用于执行如权利要求1-9中任一权利要求所述的方法的装置。