CN108140398B

CN108140398B - 用于基于多个音频馈源来标识来自兴趣源的声音的方法和系统

Info

Publication number: CN108140398B
Application number: CN201680058801.0A
Authority: CN
Inventors: S·扎德伊萨
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2015-10-06
Filing date: 2016-09-14
Publication date: 2021-08-24
Anticipated expiration: 2036-09-14
Also published as: CN108140398A; EP3360137A1; EP3360137B1; US20170098457A1; WO2017062138A1; US9691413B2; ES2746010T3

Abstract

本文提供了用于标识来自兴趣源的声音的方法和系统。在一些实施例中，第一音频馈源由第一话筒捕捉，而第二音频馈源由第二话筒捕捉。第一话筒可以比第二话筒更邻近兴趣源。第一音频馈源可利用第二音频馈源来处理以产生可使得能够标识源自兴趣源的声音的第一经处理音频馈源。在一些实施例中，第二音频馈源可利用第一音频馈源来进行附加处理以产生第二经处理音频馈源。在此类实施例中，来自第一经处理音频馈源的频率可以与第二经处理音频馈源的频率进行对比以标识源自兴趣源的声音。本文可描述和/或主张其它实施例。

Description

用于基于多个音频馈源来标识来自兴趣源的声音的方法和系统

技术领域

本发明涉及标识声音，尤其涉及基于多个音频馈源来标识来自兴趣源的声音。

背景技术

标识源自兴趣源的声音可能是有问题的。这在存在性质上是零星的背景噪声的情况下尤其如此。诸如语音活动检测器之类的依靠标识源自兴趣源的声音的系统利用各种机制来尝试区分何时声音源自兴趣源以及何时声音仅仅是背景噪声。然而，这些各种机制遭受多个弱点。一个这样的弱点是这些各种机制中的许多机制性质上是复杂的并且执行资源密集型计算。结果，这些各种机制通常不适于低功率或低成本应用。另外，这些各种机制中的许多机制依靠通过增大这些系统的复杂性的机器学习或模板匹配来开发的静态模型或者试探法。开发此类静态模型或试探法以及对应的用于标识源自兴趣源的声音的系统组件通常需要大量的工作。

发明内容

提供本概述以便以简化的形式介绍将在以下的详细描述中进一步描述的一些概念。本概述不旨在标识所要求保护的主题的关键特征或本质特征，也不旨在独立地用于帮助确定所要求保护的主题的范围。

本文描述的实施例包括用于标识源自兴趣源的声音的方法、计算机存储介质以及系统。在各实施例中，第一音频馈源由计算设备的第一话筒捕捉，而第二音频馈源由该计算设备的第二话筒捕捉。第一音频馈源可利用第二音频馈源来处理以标识源自兴趣点的声音。在一些实施例中，该处理将包括例如通过对第一音频馈源或第二音频馈源施加延迟来将第一音频馈源与第二音频馈源进行时间同步。该处理还可包括基于第二音频馈源内的相应频率来对来自第一音频馈源的频率进行衰减或滤波。在各实施例中，该处理还可包括利用第一音频馈源来处理第二音频馈源以便进一步使得能够标识源自兴趣点的声音。同样，在这些实施例中，该处理可包括基于来自第一音频馈源的相应频率来对来自第二音频馈源的频率进行衰减或滤波。

附图说明

下面参考附图详细描述本公开。

图1是其中可以采用本公开的各实施例的操作环境的框图。

图2A、2B和2C描绘了根据本公开的各实施例的声音处理系统配置的说明性示意图。

图3A和3B是根据本公开的各实施例的源置信水平和噪声置信水平的图形描绘。

图4描绘了根据本公开的各实施例的具有三个话筒配置的声音处理系统的说明性示意表示。

图5是描绘根据本公开的各实施例的用于标识来自兴趣源的声音的说明性方法的流程图。

图6是描绘根据本公开的各实施例的用于处理第一和第二音频馈源以标识来自兴趣源的声音的说明性方法的流程图。

图7是适用于实现本文中描述的各实施例的说明性计算环境的框图。

具体实施方式

本文用细节来描述本公开的各实施例的主题以满足法定要求。然而，描述本身并非旨在限制本专利的范围。相反，发明人已构想所要求保护的主题还可结合其他当前或未来技术以其他方式来实施，以包括不同的步骤或类似于本文中所描述的步骤的步骤组合。此外，尽管术语“步骤”和/或“框”可在本文用于指示所采用的方法的不同元素，但除非而且仅当明确描述了各个步骤的顺序时，术语不应被解释为意味着本文公开的各个步骤之中或之间的任何特定顺序。

出于本公开的目的，单词“包括(including)”具有与单词“包含(comprising)”一样广义的含义，并且单词“访问(accessing)”包括“接收(receiving)”、“参考(referencing)”或“检索(retrieving)”。另外，诸如“一(a)”和“一(an)”包括复数以及单数，除非另外相反地指明。这样，例如，“一个特征”的限定满足存在一个或多个特征的情况。而且，术语“或(or)”包括连接的、分离的和这两者(a或b包括要么a要么b，以及a和b)。

出于以下详细讨论的目的，参照用于标识源自感兴趣语言的源的声音的系统描述各实施例；该系统可实现用于执行本文描述的实施例的功能的若干组件。组件可被配置成用于执行各实施例的新的方面，其中“被配置成”包括“被编程为”执行特定任务或者使用代码实现特定抽象数据类型。构想了可以在具有功能组件的替代配置的不同类型的操作环境中执行本文中所描述的方法和系统。由此，本文中所描述的各实施例仅仅是说明性的，并且构想了各技术可被扩展到其他实现上下文。

本文公开的各实施例使得能够利用多个音频馈源来标识源自兴趣点的方向的声音。这可通过处理由多个话筒捕捉到的如本文描述的音频馈源来完成，其中已知至少一个话筒更邻近兴趣点。该处理可帮助标识音频馈源包含源自兴趣点的方向的声学信号的可能性并且因此可基于该可能性来限制对该音频馈源的处理。以此方式限制对该音频馈源的处理启用例如低功率语音活动检测，该低功率语音活动检测可用于减少在设备例如以始终监听模式操作时消耗的功率量。所公开的实施例的附加益处在本公开全文中讨论。

图1是其中可以采用本公开的各实施例的操作环境100的框图。如所描绘的，操作环境100包括计算设备102。计算设备102包括声音处理系统104。声音处理系统104可被配置成标识来自兴趣源(例如，兴趣点110)的声音。如此处所使用的，兴趣源是直接或间接产生感兴趣的声音(例如，用户的语音)的实体(例如，用户)，而兴趣点一般可用于指示兴趣源的位置或预期位置。将领会，尽管声音处理系统104是计算设备102中描绘的唯一组件，但这仅仅是为了解释简明。计算设备102可包含或包括在本领域内将被容易地认识到的任何数量的其它组件。

为了完成对来自兴趣源的声音的标识，在所描绘的实施例中声音处理系统104包括第一音频捕捉设备106和第二音频捕捉设备108。音频捕捉设备106和108可表示被配置成捕捉声音的任何类型的一个或多个设备，诸如举例而言话筒。这一话筒在性质上可以是全向或定向的。音频捕捉设备106和108可被配置成捕捉通过空气行进的声学信号并将这些声学信号转换成电子信号。如此处所使用的，对音频馈源的引用可以指由音频捕捉设备捕捉到的声学信号或者由音频捕捉设备产生的电子信号。另外，音频捕捉设备106和108可以是相同类型的音频捕捉设备或者可以彼此不同。例如，音频捕捉设备106可以是被配置成用于所配置的频率响应范围的定向话筒，而音频捕捉设备108可以是配置有相同的频率响应范围或者不同的频率响应范围的全向话筒。如所描绘的，音频捕捉设备106比音频捕捉设备108更邻近兴趣点110。例如，在其中背景噪声源是已知的一些实施例中，音频捕捉设备108可以更邻近背景噪声源112。由此，至少参考所描绘的实施例，可以假定兴趣点110位于远离音频捕捉设备106的相对恒定的位置处以维持以上提及的邻近性。另外，将领会，取决于诸如相应的音频捕捉设备的灵敏性和方向性等各种因素，兴趣点110可能需要位于音频捕捉设备106的特定方向上或方向范围中。例如，如果音频捕捉设备106是定向话筒，则其内可定位兴趣点110的方向性可以比音频捕捉设备106是全向话筒的情况下的方向性受到更多限制。

声音处理系统104还包括与音频捕捉设备106和108耦合的语音活动检测模块114。语音活动检测模块114可被配置成接收并处理由音频捕捉设备106和108输出的信号或音频馈源。该处理可使得语音活动检测模块114能够标识源自兴趣点110的声音，如以下详细讨论的。将领会，虽然图1中描绘了语音活动检测模块114，但本公开并非仅仅限于语音活动检测。语音活动检测模块114仅仅旨在阐明本公开的可能实现，并且被配置成标识源自兴趣点的声音的任何设备都被显式地构想成在本公开的范围内。

如所描绘的，语音活动检测摩卡114被配置成接收来自音频捕捉设备106的第一音频馈源以及来自音频捕捉设备108的第二音频馈源。在各实施例中，语音活动检测模块114可被配置成利用第二音频馈源来处理第一音频馈源以使得能够标识源自兴趣点110的声音或者源自兴趣点110的方向的声音。

在一些实施例中，利用第二音频馈源来处理第一音频馈源可包括对在第一音频馈源和第二音频馈源之间共享的来自第一音频馈源的频率进行衰减或滤波。如此处所使用的，在两个音频馈源之间共享的频率指的是被包含在这两个音频馈源内的频率。换言之，在第一音频馈源和第二音频馈源之间共享的频率将包括被包含在第一音频馈源内且也被包含在第二音频馈源内的频率。该处理的输出可以是经衰减或经滤波的音频馈源。对第一音频馈源的存在于第二音频馈源内的频率进行衰减包括减小第一音频馈源内的这些频率的振幅。作为对比，对第一音频馈源的存在于第二音频馈源内的频率进行滤波包括从第一音频馈源移除这些共享频率。在一些实施例中，此类滤波还可计及相应频率的振幅。在此类实施例中，来自第一音频馈源的正被滤波的频率将只被移除达到第二音频馈源内所包含的频率的振幅的程度。例如，如果共享频率在第一音频馈源中具有振幅X并且在第二音频馈源中具有振幅Y，则所得的经滤波频率可具有振幅X-Y。如果Y大于X，则所得的经滤波频率只可从第一音频馈源完全移除。该处理以下由图2A描绘且参照图2A进一步讨论。

为了完成以上利用第二音频馈源对第一音频馈源的处理，第一音频馈源和第二音频馈源可能需要彼此进行时间同步。如此处所使用的，使两个音频馈源时间同步指的是将这两个音频馈源对齐到一时间点以使得这两个音频馈源能够在一时间点彼此对照。例如，由兴趣点110产生的声音将在到达音频捕捉设备108之前到达音频捕捉设备106。由此，将第一音频馈源与第二音频馈源时间同步可包括对第一音频馈源施加延迟以计及声音到达音频捕捉设备106与同一声音到达音频捕捉设备108之间的延迟。因此，在这一示例中，应用于第一音频馈源的延迟将表示声音从音频捕捉设备106行进至音频捕捉设备108所花费的时间量。

在各实施例中，语音活动检测模块114还可被配置成利用第一音频馈源来处理第一音频馈源以进一步使得能够标识源自兴趣点110的声音或者至少源自兴趣点110的方向的声音。在这些实施例中，利用第一音频馈源对第二音频馈源的处理可反映以上讨论的利用第二音频馈源对第一音频馈源的处理。例如，该处理可包括对在第二音频馈源和第一音频馈源之间共享的来自第二音频馈源的频率进行衰减或滤波。该处理的输出可以是另一经衰减或经滤波音频馈源。该处理以下由图2B描绘且参照图2A进一步讨论。

如同对第一音频馈源的处理，利用第一音频馈源来完成以上对第二音频馈源的处理可包括将第二音频馈源与第一音频馈源时间同步。该时间同步可反映以上参考第一音频馈源与第二音频馈源的时间同步讨论的时间同步。例如，由背景噪声112产生的声音将在到达音频捕捉设备106之前到达音频捕捉设备108。由此，将第二音频馈源与第一音频馈源时间同步可包括对第二音频馈源施加延迟以计及声音到达音频捕捉设备108与同一声音到达音频捕捉设备106之间的延迟。因此，在这一示例中，应用于第一音频馈源的延迟将表示声音从音频捕捉设备106行进至音频捕捉设备108所花费的时间量。

语音活动检测模块114在一些实施例中然后可被配置成在从第一音频馈源产生的经衰减或经滤波音频馈源(之后仅被称为第一经处理音频馈源)和从第二音频馈源产生的经衰减或经滤波音频馈源(之后仅被称为第二经处理音频馈源)之间比较各种频带或频率范围。语音活动检测模块114可被配置成确定指示声音是否源自兴趣点110的源置信水平。这一确定可基于第一经处理音频馈源的、与第二经处理音频馈源的对应频带相差超过预定义或预配置差别阈值的频带的数量。在各实施例中，源置信水平的较高值可以比源置信水平的较低值更多地指示第一经处理音频馈源内的声音源自兴趣点110。

在各实施例中，语音活动检测模块114还可被配置成在第一经处理音频馈源和第二经处理音频馈源之间比较以上提及的各种频带或频率范围以确定噪声(或背景噪声)置信水平。该噪声置信水平指示第一经处理音频馈源是否是噪声。这一确定可基于第一经处理音频馈源的、与第二经处理音频馈源的对应频带相差在预定义或预配置差别阈值内的频带的数量。在各实施例中，噪声置信水平的较高值可以比噪声置信水平的较低值更多地指示第一经处理音频馈源内的声音是噪声。

将领会，虽然以上描述涉及其中兴趣点110更邻近音频捕捉设备106的实施例，但兴趣点110的位置可改变以使得该兴趣点更邻近音频捕捉设备108。在这一场景中，语音活动检测模块114可被配置成切换上述处理以使得音频捕捉设备108捕捉到的音频馈源被处理以标识源自新定位的兴趣点的音频。在各实施例中，该切换可通过编程方式(例如，经由编码在语音活动检测模块114中的逻辑)或者通过计算设备102的用户的选择(例如，经由用户界面、语音命令或硬件开关)来实现。

如所描绘的，在一些实施例中，声音处理系统104还包括声学回音消除(AEC)模块116。在这些实施例中，语音活动检测模块114可将音频馈源输出到AEC模块116。输出音频馈源可以是例如第一经处理音频馈源或这第一音频馈源自身，因为这些音频馈源将包括源自兴趣点110的方向的那些声音或频率的更高振幅。AEC模块116可被配置成减少由语音活动检测模块114输出的音频馈源内所包含的回音量。此类AEC配置在本领域内是已知的并且将不会在本文中进一步讨论。

在一些实施例中，语音活动检测模块114是否向AEC模块116输出音频馈源可以视第一经处理音频馈源的源置信水平是否达到或超过源置信阈值或界限而定。在其它实施例中，语音活动检测模块114是否向AEC模块116输出音频馈源可以视第一经处理音频馈源的噪声置信水平是否达到或超过噪声置信阈值或界限而定。由此，语音活动检测模块114可将其中音频馈源被输出的那些实例限于其中语音活动检测模块已经确立音频馈源包括源自兴趣点方向的声音的足够置信水平以证明应当进行进一步处理的那些实例。在这样做时，语音活动检测模块114可减少AEC模块116以及任何之后的处理(例如，由语音识别模块118)耗费的能量，并由此通过减少被进一步处理的输出音频馈源的量来节省计算设备102的能量。

源置信水平或噪声置信水平可被预定义、预配置或能以编程方式确定。在一些实施例中，源置信阈值或噪声置信阈值可基于计算设备102的当前功率水平。例如，如果计算设备102正在满电池操作或者当前被插入到持续电源中，则源置信阈值可以被设为比计算设备102的电池以较低功率电平操作的情况下的值更低的值。由此，在一些实施例中，源置信阈值可随着计算设备102的功率电平降低而被调整得更高以致力于通过限制由AEC模块116以及之后的任何模块处理的音频馈源的量来进一步节省电池寿命。

声音处理系统104还可任选地包括语音识别模块118。语音识别模块118可被配置成监视语音识别模块118接收到的音频馈源以标识接收到的音频馈源内所包含的一个或多个触发。在其中包括AEC模块116的实施例中，语音识别模块118接收到的音频馈源可来自AEC模块116。在其中AEC模块116未被包括在声音处理系统114中或者被包括在语音活动检测模块114之前的其它实施例中，语音识别模块118可以直接从语音活动检测模块114接收音频馈源。在此类实施例中，语音活动检测模块114可被配置成(如以上参照AEC模块116讨论的)只在语音活动检测模块已经确立音频馈源包括源自兴趣点方向的音频的足够确定性水平时向语音识别模块118输出音频馈源。这在其中计算设备102能够在始终监听模式中运行的场景中可以是尤其有利的。如此处所使用的，始终监听模式是其中声音处理系统104被配置成持续地捕捉并处理音频以标识音频内所包含的触发的一个模式。可利用始终监听模式的应用的示例由华盛顿州雷蒙德市的微软公司提供的Cortana、加利福尼亚州山景城的谷歌公司提供的Google Now或者加利福尼亚州库比蒂诺市的苹果公司提供的Siri表示。

如先前提到的，音频捕捉设备106捕捉到的音频馈源将包括源自兴趣点110的方向的那些声音或频率的更高振幅并因此第一音频馈源或者该第一音频馈源的经处理版本(例如，由AEC模块116滤波、衰减或处理)可被提供给语音识别模块118以标识源自兴趣点110的触发。

以上提及的始终监听模式常常遇到的一个问题是将对音频馈源的处理限于其中音频馈源源自兴趣点110(例如，用户)的那些实例。通过将对音频馈源的处理限于包括源自兴趣点的声学信号的音频馈源(如上所述)，减少在始终监听模式中操作所需的处理量，这因此减少在始终监听模式中操作所需的能量的量。始终监听模式遇到的另一个问题是触发并非由用户发起的动作的能力。例如，恶毒的人可能走过并向计算设备102给出使该计算设备102执行并非是用户所期望的动作的命令(例如，关机命令、开机命令等)。通过将对音频馈源的处理限于包括源自兴趣点方向的声学信号的那些音频馈源(如上所述)，恶毒的人从其它方向发出这一命令的能力将被限制。将领会，这是因为尝试从另一方向发出这一命令的恶毒用户将会使该命令首先到达更远离兴趣点的音频捕捉设备(例如，音频捕捉设备108)。结果，该恶毒用户的命令的振幅在更远离兴趣点的音频捕捉设备捕捉到的音频馈源中会更高，且在更邻近兴趣点的音频捕捉设备捕捉到的音频馈源中会更低。

将领会，上述实施例的益处可以在始终监听模式以外延伸。例如，上述噪声置信阈值可被用来更高效地标识背景噪声。由此，需要准确地标识噪声的任何应用也能受益于上述实施例。例如，语音编码器经常用比语音更少数量的位来编码所标识的噪声。这启用了音频馈源的更低的平均比特率，这能够减少音频馈源的处理量，由此降低计算设备执行该处理的功耗。另外，寻求准确地估计环境的噪声特性的降噪应用也能受益于上述实施例，具体而言是那些包括噪声置信阈值的实施例。上述实施例的附加益处和应用将被本领域普通技术人员容易地理解，并且以上示例仅仅旨在阐明上述实施例能提供的益处的样本。

图2A、2B和2C描绘了根据本公开的各实施例的声音处理系统配置的说明性示意表示。图2A描绘了被配置成处理两个音频馈源(诸如参照图1讨论的那些音频馈源)的声音处理系统202的一部分的说明性表示。如所描绘的，声音处理系统202包括话筒206和208。如可以看到的，话筒206比话筒208更邻近兴趣源204，并且话筒206和208彼此相差距离‘d’。

话筒206可被配置成捕捉在此由X₁(ω,θ)210表示的第一音频馈源(之后仅被称为“第一音频馈源210”)，其中ω表示第一音频馈源210内所包含的每一频率或频率范围。话筒208可被配置成捕捉在此由X₂(ω,θ)212表示的第二音频馈源(之后仅被称为“第二音频馈源212”)。为了处理这两个音频馈源，可能有必要将第二音频馈源210与第一音频馈源212进行时间同步。这一时间同步以上参照图1详细讨论，并且可包括对第二音频馈源212施加延迟。该延迟由框214中的τ₁来描绘，之后仅被称为延迟214。延迟214可反映声音从第一话筒206行进至第二话筒208达距离‘d’所花费的时间量。

在216可接收经时间同步的第一和第二音频馈源，其中如由毗邻相应音频馈源的运算符所指示的，第一音频馈源利用第二音频馈源来衰减或滤波以产生在此由C_B(ω,θ)218表示的经衰减或经滤波音频馈源，之后仅被称为经处理音频馈源218。同样，ω表示经处理音频馈源218内所包含的每一频率或频率范围。本领域普通技术人员将领会C_B(ω,θ)表示由经处理音频馈源218表示的音频心型。还将领会所描绘的表示在本领域中可被称为在0度置空。

图2B描绘了被配置成处理先前讨论的第一音频馈源210和第二音频馈源212的声音处理系统222的另一部分的说明性表示；然而，如可以看到的，所描绘的配置是以上参照图2A讨论的配置的镜像。由此，声音处理系统222的该部分描绘了利用第一音频馈源212来处理第二音频馈源212。为了完成该处理，可能有必要将第一音频馈源210与第二音频馈源212进行时间同步。如先前提及的，该时间同步可包括对第一音频馈源212施加延迟。该延迟由框224中的τ₂来描绘，之后仅被称为延迟224。延迟224可反映声音从第一话筒206行进至第二话筒208达距离‘d’所花费的时间量。

在226可接收经时间同步的第一和第二音频馈源，其中如由毗邻相应音频馈源的运算符所指示的，第二音频馈源利用第一音频馈源来衰减或滤波以产生在此由C_F(ω,θ)228表示的经衰减或经滤波音频馈源，之后仅被称为经处理音频馈源228。同样，ω表示经处理音频馈源228内所包含的每一频率或频率范围。本领域普通技术人员将领会C_F(ω,θ)表示由经处理音频馈源228表示的音频心型。还将领会所描绘的表示在本领域中可被称为在180度置空。

图2C描绘了以上讨论的、被组合到单个系统中的声音处理系统202和222的各部分的说明性表示。由此，图2A和2B的以上讨论的各方面在图2C中表示。

图3A和3B是根据本公开的各实施例的源置信水平和噪声置信水平的图形描绘。图3A是示例源置信水平的说明性描绘。如可以看到的，用于确定图3A中描绘的源置信水平的计算基于由C_F(ω)–C_B(ω)>Δ₁(ω)→Cnt₁++定义的示例算法，其中C_F(ω)表示在此也被称为经处理音频馈源(例如，图2A和2C中的经处理音频馈源218)的前心型内的频率或频带ω；C_B(ω)表示在此也被称为经处理音频馈源(例如，图2B和2C中的经处理音频馈源228)的后心型内的相同频率或频带ω；Δ₁(ω)表示预定义差别阈值，且Cnt₁++表示超过该差别阈值Δ₁(ω)的那些频率或频带的累计计数。图300沿x轴描绘了该累计计数Cnt₁，且沿y轴描绘了源置信水平P_v。如可以看到的，随着超过前心型和后心型之间的差别的阈值的频率的累计计数增加，源置信水平也提高。如所描绘的，虚线306表示表征源置信界限的函数，之后被称为“源置信界限函数306”，超过该源置信界限，源置信水平充分确立前心型包括源自兴趣源或兴趣源方向的音频。在各实施例中，如果源置信水平已被充分确立，则可允许对前心型或者已被处理(例如，衰减或滤波)以产生该前心型的音频馈源进行进一步处理(例如，经由语音识别)。由此，低于线310的源置信水平将不被充分确立并且将不被允许通过以供进一步处理。根据源置信界限函数306，可以看到Cnt₁值308与足够的源置信水平相一致。将领会这仅仅旨在阐明可能的源置信水平确定。如先前提及的，源置信界限函数306可取决于实现细节或者取决于实现这一源置信界限的计算设备的当前状态(例如，电池水平)来调整。另外，在本领域内将领会可利用用于确定源置信水平的其它方法或算法，而不背离本公开的范围。

作为对比，图3B是示例噪声置信水平的说明性描绘。图3B中所描绘的噪声置信水平基于由|C_F(ω)–C_B(ω)|<Δ₂(ω)→Cnt₂++定义的示例算法，其中同样C_F(ω)表示前心型内的频率或频带ω；C_B(ω)表示后心型内的相同频率或频带ω；Δ₂(ω)表示预定义的差别阈值，且Cnt₂++表示在差别阈值Δ₂(ω)内的那些频率或频带的累计计数。图320沿x轴描绘了该累计计数Cnt₂，且沿y轴描绘了噪声置信水平P_d。如可以看到的，随着在前心型和后心型之间的差别的阈值内的频率的累计计数增加，噪声置信水平也提高。如所描绘的，虚线314表示表征噪声置信界限的函数，之后被称为“噪声置信界限函数314”，超过该噪声置信界限，噪声置信水平充分确立前心型包括噪声(例如，背景噪声)，而不是源自兴趣源或兴趣源方向的音频。在各实施例中，如果噪声置信水平已被充分确立，则不可允许对前心型或者已被处理(例如，衰减或滤波)以产生该前心型的音频馈源进行进一步处理。由此，低于线318的噪声置信水平将不被充分确立并且将被允许通过以供进一步处理。根据噪声置信界限函数314，可以看到Cnt₂值316与足够的源置信水平相一致。将领会这仅仅旨在阐明可能的噪声置信水平确定。如先前提及的，噪声置信界限函数314可取决于实现细节或者取决于实现这一噪声置信界限的计算设备的当前状态(例如，电池水平)来调整。另外，在本领域内将领会可利用用于确定噪声置信水平的其它方法或算法，而不背离本公开的范围。

图4描绘了根据本公开的各实施例的具有三个话筒配置的声音处理系统400的说明性示意图。为了清楚起见，声音处理系统的各方面已经被编组到框401a和401b中。这些框仅仅是为了引用而被用来将声音处理系统的功能分派到与图2C中描绘的单元类似的单元，且不应被认为是限制本说明书的任何方面。如所描绘的，声音处理系统400包括话筒402、404和406。源408-414中的每一者表示可能的声音源并且任何源408-414都可以是兴趣源。由此，话筒402-406中的任一者都可能比其它两个话筒更邻近兴趣源。

话筒402可被配置成捕捉在此由X₁(ω,θ)416表示的第一音频馈源(之后仅被称为“第一音频馈源416”)，其中ω表示第一音频馈源416内所包含的每一频率或频率范围。话筒404可被配置成捕捉在此由X₂(ω,θ)418表示的“第二音频馈源”(之后仅被称为“第二音频馈源418)。话筒406可被配置成捕捉在此由X₂(ω,θ)420表示的第三音频馈源(之后仅被称为“第三音频馈源420”)。

如可以看到的，音频馈源416-420是成对处理的，且第二音频馈源418被处理两次，如由离开话筒414的四个箭头指示的，一次在框401a内与音频馈源416一起，一次在框401b内与音频馈源420一起。

开始于框401a，为了处理第一音频馈源416和第二音频馈源418，这两个音频馈源可能需要进行时间同步，如在本文他处讨论的。如所描绘的，这一时间同步可包括对正被用来处理(例如，滤波、衰减等)另一音频馈源的相应音频馈源施加延迟(例如，422a-422b)。例如，在424a，第一音频馈源416正被用来处理第二音频馈源418(如由邻近相应音频馈源的运算符指示的)以便产生由C_F1(ω,θ)426a表示的经处理音频馈源，之后仅被称为经处理音频馈源426a。结果，第一音频馈源416已对其施加延迟422a。另外，在424b，第二音频馈源418正被用来处理第一音频馈源416(如由邻近相应音频馈源的运算符指示的)以便产生由C_B1(ω,θ)426b表示的经处理音频馈源，之后仅被称为经处理音频馈源426b。结果，第二音频馈源418已对其施加延迟422b。延迟422a和422b可反映声音在话筒402与话筒404之间行进所花费的时间量。将领会，在一些示例中，424a和424b处的处理可以反转以使得对正被处理的音频馈源施加延迟。在这一实施例中，424a将输出C_F1(ω,θ)，而424b将输出C_B1(ω,θ)。

移至框401b，为了处理第二音频馈源418和第三音频馈源420，这两个音频馈源可能需要进行时间同步。如所描绘的，这一时间同步可包括对正被用来处理(例如，滤波、衰减等)另一音频馈源的相应音频馈源施加延迟(例如，422c-422d)。例如，在424c，第二音频馈源416正被用来处理第三音频馈源418(如由邻近424c所接收到的相应音频馈源的运算符指示的)以便产生由C_F2(ω,θ)426c表示的经处理音频馈源，之后仅被称为经处理音频馈源426c。结果，第二音频馈源418已对其施加延迟422c。另外，在424d，第三音频馈源420正被用来处理第二音频馈源418(如由邻近在424d处接收到的相应音频馈源的运算符指示的)以便产生由C_B2(ω,θ)426d表示的经处理音频馈源，之后仅被称为经处理音频馈源426d。结果，第三音频馈源420已对其施加延迟422d。延迟422c和422d反映声音在话筒406与话筒404之间行进所花费的时间量。如同424a和424b，将领会，在一些实施例中，424c和424d处的处理可以反转以使得对正被处理的音频馈源施加延迟。在这一实施例中，424c将输出C_B2(ω,θ)，而424d将输出C_F2(ω,θ)。

图5是描绘根据本公开的各实施例的用于标识来自感兴趣的源的声音的说明性方法500的流程图。方法500可以例如由语音活动检测器来执行。方法500开始于框510，其中接收由计算设备的第一话筒捕捉到的第一音频馈源。在框520，接收由计算设备的第二话筒捕捉到的第二音频馈源。将领会，框510和框520可以同时、至少基本上同时进行。如先前参照图1提及的，这些话筒可以是任何话筒类型、种类或组合。在各实施例中，第一话筒可以比第二话筒更邻近兴趣点。在此类实施例中，源自兴趣点的音频在被第一话筒捕捉到时的振幅将比在被第二话筒捕捉到时的振幅更大。

在框530，处理第一音频馈源和第二音频馈源以标识源自兴趣点的声音。在一些实施例中，该处理可通过将第一音频馈源与第二音频馈源进行时间同步来开始。该时间同步可以例如通过对第一或第二音频馈源施加延迟来完成，如上所述。

在一些实施例中，对第一音频馈源和第二音频馈源的处理可包括利用第二音频馈源来处理第一音频馈源。在此类实施例中，该处理可包括对来自第一音频馈源的、在第一音频馈源和第二音频馈源之间共享的频率进行衰减或滤波，如参照图1描述的。在各实施例中，对第一音频馈源和第二音频馈源的处理还可包括利用第一音频馈源来处理第二音频馈源以进一步使得能够标识源自兴趣点的声音或者至少源自兴趣点方向的声音。同样，在此类实施例中，该处理可包括对来自第二音频馈源的、在第一音频馈源和第二音频馈源之间共享的频率进行衰减或滤波，如参照图1描述的。

描绘由图5的框530表示的对第一和第二音频馈源的处理的另一实施例由图6的过程流600描绘。过程流600开始于框610，其中基于第二音频馈源的相应频率来对第一音频馈源中所包含的频率进行衰减或滤波以产生第一经处理音频馈源。在框620，基于第一音频馈源内所包含的相应频率来对第二音频馈源内的频率进行衰减或滤波以产生第二经处理音频馈源。

在框630，将第一经处理音频馈源和第二经处理音频馈源内所包含的频率相互对比(例如，以获得振幅差)。在框640，可基于在框630进行的比较来确定源置信水平。该源置信水平指示声音是否源自兴趣点或兴趣点方向。这一确定可基于第一经处理音频馈源的、与第二经处理音频馈源的对应频带相差超过预定义或预配置差别阈值的频带的数量。在各实施例中，源置信水平的较高值可以比源置信水平的较低值更多地指示第一经处理音频馈源内的声音源自兴趣点。

在框650，做出关于在框640确定的源置信水平是否超过预配置的界限(例如，源置信界限)的确定。如先前提及的，该预配置的界限可取决于执行过程流600的计算设备的状态(例如，电荷水平)来改变。如果源置信水平未超过预配置的界限，则处理可返回到框610并且该过程可被重复。然而，如果源置信水平超过预配置的界限，则处理继续至框660，其中将第一音频馈源或第一经处理音频馈源发送到计算设备的语音识别引擎。

在简要描述了本公开各实施方式的概览之后，以下描述其中可实现本公开的各实施方式的说明性操作环境，以便为本公开各方面提供通用上下文。首先具体参考图7，示出了用于实现本公开的各实施例的说明性操作环境，并将其概括地指定为计算设备700。计算设备700只是合适的计算环境的一个示例，并且不旨在对本公开的使用范围或功能提出任何限制。也不应将计算设备700解释为对所例示的任一组件或其组合有任何依赖性或要求。

本公开可以在由计算机或诸如个人数据助理或其他手持式设备之类的其他机器执行的计算机代码或机器可使用指令(包括诸如程序模块或引擎之类的计算机可执行指令)的一般上下文中描述。一般而言，包括例程、程序、对象、组件、数据结构等的程序模块指的是执行特定任务或实现特定抽象数据类型的代码。本公开可以在各种系统配置中实施，这些系统配置包括手持式设备、消费电子产品、通用计算机、专用计算设备等等。本公开也可以在其中任务由通过通信网络链接的远程处理设备执行的分布式计算环境中实施。

参考图7，计算设备700包括直接或间接耦合以下设备的总线710：存储器712、一个或多个处理器714、一个或多个呈现组件716、输入/输出端口718、输入/输出组件720和说明性电源722。总线710表示可以是一条或多条总线(诸如地址总线、数据总线、或其组合)。尽管图7的各框为了清楚起见用清晰勾画的线示出，但事实上这些勾画不是那么清晰的并且这些线可交叠。例如，也可以将诸如显示设备等呈现组件认为是I/O组件。同样，处理器一般具有高速缓存形式的存储器。可以认识到，这是本领域的特性，并且重申，图7的图示只是例示可结合本公开的一个或多个实施方式来使用的示例计算设备。诸如“工作站”、“服务器”、“膝上型计算机”、“手持式设备”等分类之间没有区别，它们全部都被认为是在图1的范围之内的并且被称为“计算设备”。

计算设备700通常包括各种计算机可读介质。计算机可读介质可以是可由计算设备700访问的任何可用介质，而且包含易失性和非易失性介质、可移动和不可移动介质。作为示例而非限制，计算机可读介质可包括计算机存储介质和通信介质。

计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据的信息的任何方法或技术实现的易失性与非易失性、可移动与不可移动介质。计算机存储介质包括但不限于，RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁存储设备、或能用于储存所需信息且可以由计算设备100访问的任何其他介质。计算机存储介质将信号本身排除在外。

通信介质通常以诸如载波或其他传输机制之类的已调制数据信号来体现计算机可读指令、数据结构、程序模块或其他数据，并且包括任何信息传送介质。术语“经调制数据信号”是指使得以在信号中编码信息的方式来设定或改变其一个或多个特征的信号。作为示例而非限制，通信介质包括诸如有线网络或直接线连接之类的有线介质，以及诸如声学、RF、红外及其他无线介质之类的无线介质。上述的任意组合也应包含在计算机可读介质的范围内。

存储器712包括易失性和/或非易失性存储器形式的计算机存储介质。如所描绘的，存储器712包括指令724。指令724在由处理器714执行时被配置成使该计算设备执行本文中参照以上讨论的各附图描述的操作中的任一者。存储器可以是可移动的，不可移动的，或两者的组合。说明性硬件设备包括固态存储器、硬盘驱动器、光盘驱动器等。计算设备700包括从诸如存储器712或I/O组件720等各种实体读取数据的一个或多个处理器。呈现组件716向用户或其他设备呈现数据指示。说明性呈现组件包括显示设备、扬声器、打印组件、振动组件等等。

I/O端口718允许计算设备700逻辑上耦合至包括I/O组件720的其他设备，其中某些设备可以是内置的。说明性组件包括话筒、操纵杆、游戏手柄、圆盘式卫星天线、扫描仪、打印机、无线设备等等。

已经结合特定实施例描述了本文中所呈现的各实施例，这些特定实施例在所有方面均旨在是说明性的而非限制性的。在不偏离本发明范围的情况下，各替换实施例对于本公开所属领域的技术人员将变得显而易见。

从前面的描述可以看出，本公开很好地适用于实现上文所阐述的所有目的和目标，并且具有对结构而言显而易见且固有的其他优点。

可以理解，某些特征和子组合是有用的，并且可以在不参考其他特征或子组合的情况下使用。这是通过权利要求所构想的并且落在权利要求的范围内。

Claims

1.一种声音处理系统，包括：

第一音频捕捉设备和第二音频捕捉设备，其中所述第一音频捕捉设备比所述第二音频捕捉设备更邻近兴趣点；

语音活动检测模块，其：

接收分别由所述第一音频捕捉设备和所述第二音频捕捉设备捕捉到的第一音频馈源和第二音频馈源；

基于所述第二音频馈源的相应部分来衰减所述第一音频馈源的至少一部分以生成第一经衰减音频馈源；

基于所述第一音频馈源的相应部分来衰减所述第二音频馈源的至少一部分以生成第二经衰减音频馈源；

将所述第一经衰减音频馈源的频带与所述第二经衰减音频馈源的相应频带相比较；以及

基于来自所述第一经衰减音频馈源的、与所述第二经衰减音频馈源的相应频带相差超过预定义差别阈值的频带的数量来确定源置信水平，其中所述源置信水平指示声音是否源自所述兴趣点。

2.如权利要求1所述的声音处理系统，其特征在于，所述源置信水平的较高值比所述源置信水平的较低值更多地指示所述第一经衰减音频馈源内的声音源自所述兴趣点。

3.如权利要求1所述的声音处理系统，其特征在于，基于所述第二音频馈源的所述相应部分来衰减所述第一音频馈源的至少所述部分是衰减被包含在所述第一音频馈源内且被包含在所述第二音频馈源内的一个或多个频率，并且其中基于所述第一音频馈源的所述相应部分来衰减所述第二音频馈源的至少所述部分是衰减被包含在所述第二音频馈源内且被包含在所述第一音频馈源内的一个或多个频率。

4.如权利要求1所述的声音处理系统，其特征在于，所述语音活动检测模块还：

在衰减所述第一音频馈源的至少所述部分之前将所述第一音频馈源与所述第二音频馈源进行时间同步；以及

在衰减所述第二音频馈源的至少所述部分之前将所述第二音频馈源与所述第一音频馈源进行时间同步。

5.如权利要求1所述的声音处理系统，其特征在于，进一步包括：

语音识别模块，其：

接收所述第一经衰减音频馈源；

监视所述第一经衰减音频馈源以标识所述第一经衰减音频馈源内所包含的一个或多个触发；以及

响应于标识出所述一个或多个触发来执行一个或多个动作。

6.如权利要求5所述的声音处理系统，其特征在于，所述语音活动检测模块还：响应于确定所述源置信水平超过预配置界限来将所述第一经衰减音频馈源输出到所述语音识别模块。

7.如权利要求6所述的声音处理系统，其特征在于，所述预配置界限基于主存所述声音处理系统的计算设备的功率电平而变化。

8.如权利要求1所述的声音处理系统，其特征在于，所述语音活动检测模块还：

基于来自所述第一音频馈源的、与所述第二音频馈源的相应频带相差在预定义差别阈值内的频带的数量来确定噪声置信水平，其中所述噪声置信水平的较高值比所述噪声置信水平的较低值更多地指示所述第一音频馈源内的声音是噪声。

9.如权利要求1所述的声音处理系统，其特征在于，进一步包括声学回音消除(AEC)模块，其：减少所述第一经衰减音频馈源内所包含的回应量。

10.一种或多种其上包含有计算机可执行指令的计算机存储介质，所述计算机可执行指令在由计算设备的一个或多个处理器执行时使所述一个或多个处理器：执行一种用于处理声音的方法，所述方法包括：

利用第二音频馈源来对第一音频馈源进行滤波以产生经滤波音频馈源，其中所述第一音频馈源由第一话筒捕捉到并且所述第二音频馈源由第二话筒捕捉到，所述第一话筒比所述第二话筒更邻近音频兴趣源；以及

基于所述经滤波音频馈源内所包含的频率来标识所述第一音频馈源是否包含源自所述兴趣源的方向的声音；

其中所述经滤波音频馈源是第一经滤波音频馈源，所述方法进一步包括：

利用所述第一音频馈源来对所述第二音频馈源进行滤波以产生第二经滤波音频馈源，其中标识所述第一音频馈源是否包含源自所述兴趣源的方向的声音包括将所述第一经滤波音频馈源的频带与所述第二经滤波音频馈源的相应频带相比较；以及

基于来自所述第一经滤波音频馈源的、与所述第二经滤波音频馈源的相应频带相差超过预定义差别阈值的频带的数量来确定源置信水平。

11.如权利要求10所述的一种或多种计算机存储介质，其特征在于，所述方法进一步包括响应于所述源置信水平超过预配置界限而将所述经滤波音频馈源发送到所述计算设备的语音识别引擎。

12.如权利要求11所述的一种或多种计算机存储介质，其特征在于，所述预配置界限基于所述计算设备的功率电平而变化。

13.根据权利要求10所述的一种或多种计算机存储介质，其特征在于：

利用所述第二音频馈源来对所述第一音频馈源进行滤波进一步包括对来自所述第一音频馈源且被包含在所述第二音频馈源内的频率进行滤波，并且

利用所述第一音频馈源来对所述第二音频馈源进行滤波进一步包括对来自所述第二音频馈源且被包含在所述第一音频馈源内的频率进行滤波。

14.一种用于语音活动检测的计算机实现的方法，包括：

接收由计算设备的第一话筒捕捉到的第一音频馈源以及由所述计算设备的第二话筒捕捉到的第二音频馈源，其中所述第一话筒比所述第二话筒更邻近兴趣源；以及

利用所述第二音频馈源来处理所述第一音频馈源以使得能够标识源自所述兴趣源的方向的声音，包括：

基于所述第二音频馈源的相应频率来对所述第一音频馈源的频率进行滤波以产生第一经滤波音频馈源；

基于所述第一音频馈源的相应频率来对所述第二音频馈源的频率进行滤波以产生第二经滤波音频馈源；

将所述第一经滤波音频馈源的频带与所述第二经滤波音频馈源的相应频带相比较；以及

基于来自所述第一经滤波音频馈源的、与所述第二经滤波音频馈源的相应频带相差超过预定义差别阈值的频带的数量来确定源置信水平，其中所述源置信水平的较高值比所述源置信水平的较低值更多地指示所述第一音频馈源内的声音源自所述兴趣源的方向。

15.如权利要求14所述的计算机实现的方法，其特征在于，利用所述第二音频馈源来处理所述第一音频馈源包括：

基于所述第二音频馈源的相应频率来对所述第一音频馈源的频率进行滤波以产生经滤波音频馈源。

16.如权利要求14所述的计算机实现的方法，其特征在于，利用所述第二音频馈源来处理所述第一音频馈源包括：

基于所述第二音频馈源的相应频率来对所述第一音频馈源的频率进行衰减以产生经衰减音频馈源。

17.如权利要求14所述的计算机实现的方法，其特征在于，所述兴趣源是所述计算设备的用户，所述方法进一步包括：

响应于确定所述源置信水平的值超过预配置界限而将所述第一经滤波音频馈源发送到所述计算设备的语音识别引擎，其中所述预配置界限基于所述计算设备的当前功率电平，并且其中更高的预配置界限减少被输出到所述语音识别引擎的所述第一音频馈源的量。

18.一种具有指令的计算机可读存储介质，所述指令在被执行时使机器执行如权利要求14-17中的任一项所述的方法。