CN107112012A

CN107112012A - 利用数字麦克风用于低功率关键词检测和噪声抑制

Info

Publication number: CN107112012A
Application number: CN201680004787.6A
Authority: CN
Inventors: 戴维·P·罗苏姆; N·D·沃伦
Original assignee: Knowles Electronics LLC
Current assignee: Knowles Electronics LLC
Priority date: 2015-01-07
Filing date: 2016-01-06
Publication date: 2017-08-29
Anticipated expiration: 2036-01-06
Also published as: US10045140B2; TW201629950A; US20180332416A1; US10469967B2; US20160196838A1; CN107112012B; DE112016000287T5; WO2016112113A1

Abstract

提供了用于在低功率关键词检测和噪声抑制中利用数字麦克风的系统和方法。一种示例方法包括以下步骤：接收表示由数字麦克风捕捉的至少一个声音的第一声信号。第一声信号包括以第一时钟频率传输的缓冲数据。数字麦克风可以提供语音活动检测。示例方法还包括以下步骤：接收表示由第二麦克风捕捉的至少一个声音的至少一个第二声信号，至少一个第二声信号包括实时数据。向可以包括噪声抑制和关键词检测的音频处理系统提供第一和第二声信号。缓冲部分可以以更高的第二时钟频率被发送，以消除第一声信号与第二声信号的延迟。提供信号还可以包括延迟第二声信号。

Description

利用数字麦克风用于低功率关键词检测和噪声抑制

相关申请的交叉引用

本申请要求2015年1月7日提交的第62/100758号美国临时专利申请的权益。前面提及的申请的主题通过引用被结合于此，用于所有目的。

技术领域

本申请总体涉及音频处理，更具体地涉及用于利用数字麦克风用于低功率关键词检测和噪声抑制的系统和方法。

背景技术

关键词检测的典型方法是三阶段处理。第一阶段是发声检测。最初，极低功率“永远在线”实施方案连续监测环境声并(通常通过检测人发声)确定人是否开始说出可能关键词。当检测到可能关键词发声时，第二阶段开始。

第二阶段执行关键词识别。因为该操作在计算上比发声检测更密集，所以它消耗更多的功率。当完成发出声音的检查(例如，关键词识别)时，结果可以是关键词匹配(在该情况下，将进入第三阶段)或不匹配(在该情况下，第一最低功率阶段的操作重新开始)二者之一。

第三阶段被用于继使用自动语音识别(ASR)进行关键词识别之后分析任意语音。该第三阶段是计算上非常密集的处理，因此可以从对包括语音的音频的一部分的信噪比(SNR)的改进中大大受益。SNR通常使用噪声抑制(NS)信号处理来优化，该处理可能要求从多个麦克风获得音频输入。

数字麦克风(DMIC)的使用是众所周知的。DMIC通常包括信号处理部。数字信号处理器(DSP)通常用于执行用于检测关键词的计算。使某一形式的数字信号处理器(DSP)对与DMIC本身的信号处理部相同的集成电路(芯片)执行关键词检测计算可以具有系统功率益处。例如，在处于第一阶段时，DMIC可以根据内部振荡器操作，由此节省向DMIC供给外部时钟的功率和向外部DSP装置传输DMIC数据输出(通常为脉冲密度调制(PDM)信号)的功率。

还已知在DMIC上实施关键词识别的随后阶段对于最低功率或系统成本可能不是最佳。关键词识别的随后阶段在计算上是密集的，由此消耗大量的动态功率和管芯面积。然而，DMIC信号处理芯片通常使用与最佳可用数字处理相比具有每栅极或存储位显著更高的动态功率和更大的面积的工艺几何结构来实现。

找到利用在DMIC中实施关键词识别的第一阶段的潜在功率节省的最佳实施方案可能由于冲突的要求而具有挑战性。为了优化功率，DMIC以“永远在线”的独立方式操作，而当尚未检测到发声时不向外部装置传输音频数据。当检测到发声时，DMIC需要向外部装置提供指示该情况的信号。与该情况的发生同时或继其之后，DMIC需要开始向执行随后阶段的外部装置提供音频数据。最佳地，需要音频数据接口满足以下要求：发送与显著先于发声检测的时间对应的音频数据，以外部提供的时钟(采样)速率发送实时音频数据，并且简化多麦克风噪声抑制处理。另外，与针对实施关键词识别的第一阶段的DMIC的实时音频数据关联的时延需要与针对传统DMIC的延迟大致相同，接口需要与现有接口可兼容，接口需要在与内部振荡器一起操作的同时指示所使用的时钟(采样)速率，并且没有音频漏码会发生。

具有实施关键词识别的第一阶段的DMIC的接口很大程度上由于呈现显著在发声检测之前缓冲的音频数据的要求而导致实施可能具有挑战性。该缓冲的音频数据之前以由内部振荡器确定的采样速率来获取。因此，在将缓冲的音频数据作为单个连续音频流的一部分连同实时音频数据一起提供时，可能难以使得该实时音频数据具有与传统DMIC中相同的时延，或者可能难以使用传统多麦克风噪声抑制技术。

发明内容

提供本发明内容以按简化形式介绍下面在具体实施方式中进一步描述的概念的选择。该发明内容不旨在识别所要求保护主题的关键特征或必要特征，也不旨在确定所要求保护主题时用作帮助。

提供了用于利用数字麦克风用于低功率关键词检测和噪声抑制的系统和方法。一种示例方法包括以下步骤：接收表示由数字麦克风捕捉的至少一个声音的第一声信号，第一声信号包括以第一时钟频率在单个信道上传输的缓冲数据。示例方法还包括以下步骤：接收表示由至少一个第二麦克风捕捉的至少一个声音的至少一个第二声信号。至少一个第二声信号可以包括实时数据。在一些实施方式中，至少一个第二麦克风可以为模拟麦克风。至少一个第二麦克风还可以为不具有语音活动检测功能的数字麦克风。

示例方法还包括以下步骤：向音频处理系统提供第一声信号和至少一个第二声信号。音频处理系统可以至少提供噪声抑制。

在一些实施方式中，缓冲数据以高于第一时钟频率的第二时钟频率来发送，以消除第一声信号与第二声信号的延迟。

提供信号可以包括延迟第二声信号。

本公开的其它示例实施方式和多个方面将从连同附图采取的以下描述变得清晰。

附图说明

在附图的图中以示例的方式且不限制地例示实施方式，在附图中，同样的附图标记指示相同的元件。

图1是例示了根据各种示例实施方式的系统的框图，该系统可以用于实施利用数字麦克风用于低功率关键词检测和噪声抑制的方法。

图2是示例移动装置的框图，在该示例移动装置中，可以实践用于利用数字麦克风用于低功率关键词检测和噪声抑制的方法。

图3是示出了根据各种示例实施方式的系统的框图，该系统用于利用数字麦克风用于低功率关键词检测和噪声抑制。

图4是示出了根据示例实施方式的用于利用数字麦克风用于低功率关键词检测和噪声抑制的方法的步骤的流程图。

图5是可以用于实施所公开技术的实施方式的示例计算机系统。

具体实施方式

本公开提供了用于利用数字麦克风用于低功率关键词检测和噪声抑制的示例系统和方法。本技术的各种实施方式可以用至少被构造为捕捉音频信号的移动音频装置来实践，并且可以允许改进所捕捉音频中的自动语音识别。

在各种实施方式中，移动装置是手持装置(诸如笔记本计算机、平板计算机、平板手机、智能电话、个人数字助理、媒体播放器、移动电话、摄像机等)。移动装置可以用于平稳和便携式环境中。平稳环境可以包括住宅和商业建筑物或结构等。例如，平稳环境还可以包括客厅、卧室、家庭影院、会议室、礼堂、经营场所等。便携式环境可以包括移动车辆、移动人员、其它运输装置等。

现在参照图1，示出了可以实践本公开的方法的示例系统100。系统100可以包括移动装置110。在各种实施方式中，移动装置110包括被构造为从用户150接收语音输入/声信号的麦克风(例如，换能器)120。

语音输入/声学声音可能被噪声160污染。噪声源可以包括街道噪声、环境噪声、来自除了预期说话者之外的实体的语音等。例如，噪声源可以包括工作空调、通风扇、电视机、移动电话、立体声音频系统等。特定种类的噪声可能由机器(例如，汽车)和机器操作的环境(例如，道路、轨道、轮胎、车轮、风扇、雨刷、发动机、排气管、娱乐系统、风、雨、波浪以及类似噪声)这两者产生。

在一些实施方式中，移动装置110可通信地连接到还被称为计算云130或云130的一个或更多个基于云的计算资源130。基于云的计算资源130可以包括在远程位置处可用且通过网络(例如，因特网或蜂窝电话网络)可访问的计算资源(硬件和软件)。在各种实施方式中，基于云的计算资源130由多个用户共享，并且可以基于需求被动态地重新分配。基于云的计算资源130可以包括一个或更多个服务器农场/群集，该服务器农场/群集包括可以与网络交换机和/或路由器共定位的计算机服务器的集合。

图2是示出了根据各种示例实施方式的移动装置110的组件的框图。在所例示的实施方式中，移动装置110包括一个或更多个麦克风120、处理器210、音频处理系统220、存储装置230以及一个或更多个通信装置240。在特定实施方式中，移动装置110还包括移动装置110的操作所必需的另外或其它组件。在其它实施方式中，移动装置110包括执行与参照图2描述的功能类似或等效的功能的更少组件。

在各种实施方式中，在麦克风120包括多个紧密隔开(例如，相距1-2cm)的多个全向麦克风的情况下，波束形成技术可以用于模拟前向和后向定向麦克风响应。在一些实施方式中，可以使用所模拟的前向和后向定向麦克风来获得电平差。电平差可以用于区分例如时频域中的语音和噪声，这还可以用于噪声和/或回声降低。噪声降低可以包括噪声消除和/或噪声抑制。在特定实施方式中，一些麦克风120主要用于检测语音，并且其它麦克风主要用于检测噪声。在还有的其它实施方式中，一些麦克风用于检测噪声和语音这两者。

在一些实施方式中，声信号一旦被接收(例如，由麦克风120捕捉)，则被转换成电信号，根据一些实施方式，该电信号依次由音频处理系统220转换成用于处理的数字信号。处理后的信号可以被发送给处理器210，以便进一步处理。在一些实施方式中，一些麦克风120是可操作为捕捉声信号并输出数字信号的数字麦克风。一些数字麦克风可以提供用于语音活动检测(这里还被称为发声检测)和显著在发声检测之前的音频数据的缓冲。

音频处理系统220可操作为处理音频信号。在一些实施方式中，声信号由麦克风120来捕捉。在特定实施方式中，麦克风120所检测的声信号由音频处理系统220用于分离期望语音(例如，关键词)与噪声，这提供更鲁棒的自动语音识别(ASR)。

2010年7月8日提交的标题为“Method for Jointly Optimizing NoiseReduction and Voice Quality in a Mono or Multi-Microphone System,”的第12/832901号美国专利申请(现在为第8473287号美国专利)(该申请的公开通过引用被结合于此以用于所有目的)中更详细地论述了适于执行语音抑制的示例音频处理系统。用示例的方式且不限制，2008年6月30日提交的标题为“System and Method for Providing NoiseSuppression Utilizing Null Processing Noise Subtraction”的第12/215980号美国专利申请(现在为第9185487号美国专利)和2007年1月29日提交的标题为“System andMethod for Utilizing Omni-Directional Microphones for Speech Enhancement,”的第11/699732号美国专利申请(现在为第8194880号美国专利)(上述申请通过引用全部结合于此)中描述了噪声抑制方法。

2013年1月28日提交的标题为“Restoration of Noise-Reduced Speech,”的共同转让的第13/751907号美国专利申请(现在为第8615394号美国专利)(该申请通过引用被完全结合于此)中还描述了用于恢复降噪后的语音的各种方法。

处理器210可以包括可操作为执行在存储装置230中存储的计算机程序的硬件和/或软件。处理器210可以使用浮点运算、复杂运算以及用于实施本公开的实施方式所需的其它运算。在一些实施方式中，移动装置110的处理器210包括例如数字信号处理器(DSP)、图像处理器、音频处理器、通用处理器等中的至少一个。

示例移动装置110在各种实施方式中可操作为例如经由通信装置240跨一个或更多个有线或无线通信网络通信。在一些实施方式中，移动装置110通过有线或无线通信网络发送至少音频信号(语音)。在特定实施方式中，移动装置110封装和/或编码用于通过无线网络(例如，蜂窝网络)传输的至少一个数字信号。

数字信号可以通过互联网协议组(TCP/IP)和/或用户数据报协议(UDP)来封装。有线和/或无线通信网络可以为电路交换的和/或分组交换的。在各种实施方式中，有线通信网络提供计算机系统、软件应用程序以及用户之间的通信和数据交换，并且包括任意数量的网络适配器、中继器、集线器、交换机、桥接器、路由器以及防火墙。无线通信网络包括任意数量的无线接入点、基站、中继器等。有线和/或无线通信网络可以符合工业标准，可以为私人拥有的或其组合。可以使用各种其它合适的有线和/或无线通信网络、其它协议或其组合。

图3是示出了根据各种示例实施方式的适于利用数字麦克风用于低功率关键词检测和噪声抑制的系统300的框图。系统300包括联接到(外部或主机)DSP 350的麦克风(这里还被不同地称为DMIC)120。在一些实施方式中，数字麦克风120包括换能器302、放大器304、模数转换器306以及脉冲密度调制器(PDM)308。在特定实施方式中，数字麦克风120包括缓冲器310和发声检测器320。在其它实施方式中，DMIC 120与传统立体声DMIC接口对接。传统立体声DMIC接口包括时钟(CLK)输入端(或CLK线)312和数据(DATA)输出端314。数据输出端包括左信道和右信道。在一些实施方式中，DMIC接口包括另一发声检测器(DET)输出端(或DET线)316。CLK输入312可以由DSP 350来供给。DSP 350可以接收DATA输出314和DET输出316。在一些实施方式中，数字麦克风120通常经由PDM 308产生实时数字音频数据流。2015年7月13日提交的标题为“Microphone Apparatus and Method with Catch-up Buffer,”的第14797310号美国专利申请(该申请的公开通过引用结合于此以用于所有目的)中更详细地论述了提供发声检测的示例数字麦克风。

示例1

在各种实施方式中，在第一阶段情况下，DMIC 120根据内部振荡器进行操作，该内部振荡器确定在该情况期间的内部采样速率。在第一阶段情况下，在发声检测之前，CLK线312为静态的(通常为逻辑0)。DMIC 120在DATA输出端314和DET输出端316这两者上输出静态信号(通常为逻辑0)。内部地，根据其内部振荡器操作的DMIC 120可操作为分析音频数据，以确定发声是否已经发生。内部地，DMIC 120将音频数据缓冲到再循环存储器(例如，使用缓冲器310)。在特定实施方式中，再循环存储器具有预定数量(通常为大约100k的PDM)的样本。

在各种示例性实施方式中，当DMIC 120检测到发声时，DMIC 120开始在DET输出端316上输出从内部振荡器导出的PDM 308采样时钟。DSP 350可操作为检测DET线316上的活动。DSP 350可以使用该信号以足够精度来确定DMIC 120的内部采样速率，以便进一步操作。然后，DSP 350可以在适于经由传统DMIC 120接口协议从DMIC 120接收实时PDM 308音频数据的CLK线312上输出时钟。在一些实施方式中，时钟处于与用于噪声抑制的其它DMIC的时钟相同的速率。

在一些实施方式中，DMIC 120通过从内部采样速率立即切换为所设置的CLK线312的采样速率来对CLK输入端312的存在作出响应。在特定实施方式中，DMIC 120可操作为立即开始在DATA输出端314的第一信道(例如，左信道)上供给实时PDM 308数据，并且在第二(例如，右)信道上供给延迟的(通常为大约100k的PDM样本)缓冲PDM 308数据。DMIC 110可以在接收CLK时停止在DET信号上提供内部时钟。

在一些实施方式中，在已经传输整个(通常为大约100k样本)缓冲器之后，DMIC120为了节省功率而切换为在DATA输出端314的第二(在示例中为右)信道上发送实时音频数据或静态信号(通常为逻辑0)。

在各种实施方式中，DSP 350累积缓冲的数据，然后在要求时使用之前测量的DMIC120内部采样速率与主机CLK采样速率的比率以将缓冲数据匹配到实时音频数据的方式来处理缓冲数据。例如，DSP 350可以将缓冲数据转换成与主机CLK采样速率相同的速率。本领域技术人员应理解，实际采样速率转换可能不是最佳的。相反，另外的下游频域处理信息可以基于所测量的比率在频率上偏移。缓冲数据可以被预添加(prepend)到实时音频数据以用于关键词识别的目的。缓冲数据还可以根据期望被添加到用于ASR的数据。

在各种实施方式中，因为不延迟实时音频数据，所以实时数据具有低时延，并且可以与来自其它麦克风的实时音频数据组合，以便噪声抑制或其它目的。

将CLK信号返回到静态可以用于将DMIC 120返回到第一阶段处理状态。

示例2

在第一阶段情况下，DMIC 120根据内部振荡器操作，该内部振荡器确定PDM 308采样速率。在一些示例性实施方式中，在第一阶段情况下，在发声检测之前，CLK输入端312为静态的(通常为逻辑0)。DMIC 120可以在DATA输出端314和DET输出端316这两者上输出静态信号(通常为逻辑0)。内部地，根据其内部振荡器操作的DMIC 120可操作为分析音频数据，以确定发声是否发生，并且还可操作为将音频数据内部地缓冲到再循环存储器中。再循环存储器可以具有预定数量(通常为大约100k的PDM)的样本。

在一些实施方式中，当DMIC 120检测到发声时，DMIC 120开始在DET输出端316上输出从其内部振荡器导出的PDM采样速率时钟。DSP 350可以检测DET线312上的活动。然后，DSP 350可以使用DET输出以足够精度来确定DMIC 120的内部采样速率，以便进一步操作。然后，DSP 350在CLK线312上输出时钟。在特定实施方式中，时钟处于比内部振荡器采样速率更高的速率，并且适于经由传统DMIC 120接口协议从DMIC 120接收实时PDM 308音频数据。在一些实施方式中，被提供给CLK线312的时钟处于与用于噪声抑制的其它DMIC的时钟相同的速率。

在一些实施方式中，DMIC 120通过立即开始在DATA输出端314的第一信道(例如，左信道)上供给缓冲的PDM 308数据来对CLK线312处的时钟的存在作出响应。因为CLK频率大于内部采样频率，所以数据的延迟从缓冲器长度逐渐降低至零。当延迟达到零时，DMIC120通过将其采样速率从内部振荡器的采样速率立即切换为由CLK线312提供的速率来作出响应。DMIC 120还可以立即开始在DATA输出端314的一个信道上供给实时PDM 308数据。DMIC 120还在此时停止在DET输出端316信号上提供内部时钟。

在一些实施方式中，DSP 350可以累积缓冲数据，并且基于感测DET输出端316信号何时停止来确定DATA从缓冲数据切换到实时音频数据的点。DSP 350然后可以使用之前测量的DMIC 120内部采样速率与CLK采样速率的比率在逻辑上转换缓冲数据的采样速率，以匹配实时音频数据的采样速率。

在该示例中，一旦完全接收缓冲器数据且到实时音频的切换已经发生，则实时音频数据将具有低时延，并且可以为了噪声抑制或其它目的而与来自其它麦克风的实时音频数据组合。

由示例2例示的各种实施方式与一些其它实施方式相比可能具有从发声检测到实时操作的更长时间的缺点，这要求比第一阶段操作的速率更高的实时操作期间的速率，并且还可能要求在缓冲数据与实时音频数据之间的过渡时间的精确检测。

另一方面，根据示例2的各种实施方式具有仅要求使用立体声传统DMIC 120接口的一个信道(这使其它信道可用于由第二DMIC 120使用)的优点。

示例3

在第一阶段情况下，DMIC 120可以根据内部振荡器操作，该内部振荡器确定PDM308采样速率。在第一阶段情况下，在发声检测之前，CLK输入端312为静态的(通常为逻辑0)。DMIC 120在DATA输出端314和DET输出端316这两者上输出静态信号(通常为逻辑0)。内部地，根据内部振荡器操作的DMIC 120可操作为分析音频数据，而且通过将该数据内部地缓冲到具有预订数量(通常大约为100k的PDM)的样本的再循环存储器(例如，缓冲器310)中来确定发声是否发生。

当DMIC 120检测到发声时，DMIC 120开始在DET输出端316上输出从其内部振荡器导出的PDM 308采样速率时钟。DSP 350可以检测DET输出端316上的活动。然后，DSP 350可以使用DET输出端316信号以足够精度来确定DMIC 120的内部采样速率，以便进一步操作。然后，DSP 350可以在适于经由传统DMIC 120接口协议从DMIC 120接收实时PDM 308音频数据的CLK线312上输出时钟。该时钟可以处于与用于噪声抑制的其它DMIC的时钟相同的速率。

在一些实施方式中，DMIC 120通过立即开始在DATA输出端314的第一信道(例如，左信道)上供给缓冲的PDM 308数据来对CLK输入端312的存在作出响应。DMIC 120还在此时停止在DET输出端316上提供内部时钟。当耗尽数据的缓冲器310时，DMIC 120开始在DATA输出端314的一个信道上供给实时PDM 308数据。

DSP 350累积缓冲数据，这基于对所接收的样本数进行计数来注释DATA从缓冲数据切换到实时音频数据的点。然后，DSP 350使用之前测量的DMIC 120内部采样速率与CLK采样速率的比率在逻辑上转换缓冲数据的采样速率，以匹配实时音频数据的采样速率。

在一些实施方式中，即使在完全接收缓冲数据且到实时音频的切换已经发生之后，DMIC 120数据也保持处于高时延。在一些实施方式中，时延等于为CLK线312的采样速率采样倍数的缓冲器尺寸。因为其它麦克风具有低时延，所以其它麦克风无法与该数据一起用于传统噪声抑制。

在一些实施方式中，来自麦克风的信号之间的失配通过将延迟添加到用于噪声抑制的每个其它麦克风来消除。在延迟之后，为了噪声抑制或其它目的，可以组合来自DMIC120和其它麦克风的流。添加到其它麦克风的延迟可以基于DMIC 120的已知延迟特性(例如，由于缓冲而引起的时延等)来确定，或可以例如基于将从DMIC 120和从其它麦克风接收的音频数据进行比较(例如，比较时刻、采样速率时钟等)在算法上来测量。

示例3的各种实施方式与示例1的优选实施方式相比具有从发声检测到实时操作的更长时间和在实时操作时具有显著的另外时延的缺点。示例3的实施方式具有仅需要使用立体声传统DMIC接口的一个信道(这使其它信道可用于由第二DMIC使用)的优点。

图4是例示了根据示例实施方式的用于利用数字麦克风用于低功率关键词检测和噪声抑制的方法400的流程图。在框402中，示例方法400可以开始于接收表示由数字麦克风捕捉的至少一个声音的声信号。声信号可以包括以第一(低)时钟频率在单个信道上传输的缓冲数据。在框404中，示例方法400可以继续接收表示由至少一个第二麦克风捕捉的至少一个声音的至少一个第二声信号。在各种实施方式中，至少一个第二声信号包括实时数据。

在框406中，可以分析缓冲数据，以确定缓冲数据包括语音。在框408中，示例方法400可以继续以第二时钟频率发送缓冲数据以消除声信号与第二声信号的延迟。第二时钟频率高于第一时钟频率。在框410中，示例方法400可以将第二声信号延迟预定时间段。框410可以代替用于消除延迟的框408来执行。在框412中，示例方法400可以继续向音频处理系统提供第一声信号和至少一个第二声信号。音频处理系统可以包括噪声抑制和关键词检测。

图5例示了可以用于实施本发明的一些实施方式的示例性计算机系统500。图5的计算机系统500可以在计算系统、网络、服务器或其组合的语境等中实施。图5的计算机系统500包括一个或更多个处理器单元510和主存储器520。主存储器520部分地存储用于由处理器单元510执行的指令和数据。主存储器520在该示例中存储操作时的可执行代码。图5的计算机系统500还包括大容量数据储存器530、便携式存储装置540、输出装置550、用户输入装置560、图形显示系统570以及外围装置580。

图5中所示的组件被描绘为经由单个总线590连接。组件可以借助一个或更多个数据传输装置来连接。处理器单元510和主存储器520经由局部微处理器总线连接，并且大容量数据储存器530、外围装置580、便携式存储装置540以及图形显示系统570经由一个或更多个输入/输出(I/O)总线连接。

可以用磁盘驱动器、固态驱动器或光盘驱动器实施的大容量数据储存器530是用于存储用于由处理器单元510使用的数据和指令的非易失性存储装置。大容量数据储存器530存储用于实施本公开的实施方式以用于将系统软件加载到主存储器520中的目的系统软件。

便携式存储装置540连同便携式非易失性存储介质(诸如闪存驱动器、软盘、光盘、数字视频光盘或通用串行总线(USB)存储装置)一起操作为向和从图5的计算机系统500输入和输出数据和代码。用于实施本公开的实施方式的系统软件被存储在这种便携式介质上，并且经由便携式存储装置540输入到计算机系统500。

用户输入装置560可以提供用户接口的一部分。用户输入装置560可以包括一个或更多个麦克风、用于输入字母数字和其它信息的字母数字小键盘(诸如键盘)或定点装置(诸如鼠标、跟踪球、触针或光标方向键)。用户输入装置560还可以包括触摸屏。另外，如图5所示的计算机系统500包括输出装置550。合适输出装置550包括扬声器、打印机、网络接口以及监测器。

图形显示系统570包括液晶显示器(LCD)或其它合适显示装置。图形显示系统570可被构造为接收文本和图形信息，并且处理该信息，以便输出到显示装置。

外围装置580可以包括向计算机系统添加另外功能的任意类型的计算机支持装置。

在图5的计算机系统500中设置的组件是通常在可以适于与本公开的实施方式一起使用的计算机系统中找到的那些组件，并且旨在表示本领域中众所周知的广泛类别的这种计算机组件。由此，图5的计算机系统500可以为个人计算机(PC)、手持计算机系统、电话、移动计算机系统、工作站、平板电脑、平板手机、移动电话、服务器、小型计算机、大型计算机、可佩戴计算机或任意其它计算机系统。计算机还可以包括不同的总线构造、网络化平台、多处理器平台等。可以使用包括UNIX、LINUX、WINDOWS、MAC OS、PALM OS、QNX ANDROID、IOS、CHROME、TIZEN以及其它合适操作系统的各种操作系统。

用于各种实施方式的处理可以在基于云的软件中实施。在一些实施方式中，计算机系统500被实施为基于云的计算环境(诸如在计算云内操作的虚拟机)。在其它实施方式中，计算机系统500可以本身包括计算机系统500的功能以分布式方式来执行的基于云的计算环境。由此，计算机系统500在被构造为计算云时可以如下面将更详细描述的那样包括各种形式的多个计算装置。

通常，基于云的计算环境是通常组合一大组处理器的计算能力(诸如在网络服务器内)和/或组合一大群计算机存储器或存储装置的存储容量的资源。提供基于云的资源的系统可以由它们的拥有者来唯一地使用，或者这种系统可以由将应用部署在计算基础设施内以获得大计算或存储资源的益处的外部用户可访问。

云例如可以由包括多个计算装置(诸如计算机系统500)的网络服务器的网络来形成，每个服务器(或至少多个服务器)提供处理器和/或存储资源。这些服务器可以管理由多个用户(例如，云资源顾客或其它用户)提供的工作负荷。通常，每个用户对实时(有时动态)变化的云提出工作负荷需求。这些变型例的性质和范围通常取决于与用户关联的业务类型。

上面参照示例实施方式描述了本技术。因此，本公开旨在覆盖示例实施方式的其它变型例。

Claims

1.一种用于音频处理的方法，所述方法包括以下步骤：

接收表示由数字麦克风捕捉的至少一个声音的第一声信号，所述第一声信号包括以第一时钟频率在单个信道上传输的缓冲数据；

接收表示由至少一个第二麦克风捕捉的所述至少一个声音的至少一个第二声信号，所述至少一个第二声信号包括实时数据；以及

向音频处理系统提供所述第一声信号和所述至少一个第二声信号。

2.根据权利要求1所述的方法，其中，所述提供的步骤包括：以第二时钟频率发送所述缓冲数据，以用于消除所述第一声信号与所述至少一个第二声信号的延迟，所述第二时钟频率高于所述第一时钟频率。

3.根据权利要求1所述的方法，其中，所述提供的步骤包括：将所述至少一个第二声信号延迟预定时间段。

4.根据权利要求3所述的方法，其中，所述预定时间段基于所述数字麦克风的一个或更多个特性来确定。

5.根据权利要求4所述的方法，其中，所述一个或更多个特性包括所述数字麦克风的时延。

6.根据权利要求5所述的方法，其中，所述时延包括由于缓冲所述缓冲数据而产生的延迟。

7.根据权利要求3所述的方法，其中，所述预定时间段基于将所述第一声信号与所述至少一个第二声信号进行比较来确定。

8.根据权利要求7所述的方法，其中，所述比较的步骤包括：将所述第一声信号和所述至少一个第二声信号的采样速率进行比较。

9.根据权利要求1所述的方法，所述方法还包括以下步骤：在所述提供的步骤之前，接收已经检测到语音活动的指示。

10.根据权利要求9所述的方法，其中，所述指示由与所述数字麦克风关联的语音活动检测器来提供。

11.根据权利要求1所述的方法，其中，所述至少一个第二麦克风是模拟麦克风。

12.根据权利要求1所述的方法，其中，所述音频处理系统基于所述第一声信号和所述至少一个第二声信号提供噪声抑制。

13.根据权利要求12所述的方法，其中，所述噪声抑制基于所述第一声信号与所述至少一个第二声信号之间的电平差。

14.根据权利要求1所述的方法，其中，所述第一声信号包括脉冲密度调制PDM信号。

15.一种用于音频处理的系统，所述系统包括：

处理器；以及

存储器，所述存储器与所述处理器可通信地联接，所述存储器存储指令，在所述指令由所述处理器执行时，执行包括以下步骤的方法：

16.根据权利要求15所述的系统，其中，所述音频处理系统包括基于所述第一声信号和所述至少一个第二声信号的噪声抑制和关键词检测中的至少一个。

17.根据权利要求15所述的系统，其中，所述提供的步骤包括：以第二时钟频率发送所述缓冲数据，以用于消除所述第一声信号与所述至少一个第二声信号的延迟，所述第二时钟频率高于所述第一时钟频率。

18.根据权利要求15所述的系统，其中，所述提供的步骤包括：将所述至少一个第二声信号延迟预定时间段。

19.根据权利要求18所述的系统，其中，所述预定时间段基于所述数字麦克风的一个或更多个特性来确定。

20.根据权利要求18所述的系统，其中，所述预定时间段通过将所述第一声信号与所述至少一个第二声信号进行比较来确定。

21.根据权利要求15所述的系统，所述系统还包括：在所述提供的步骤之前，接收已经检测到语音活动的指示。

22.根据权利要求21所述的系统，其中，所述指示由与所述数字麦克风关联的语音活动检测器来提供。

23.根据权利要求15所述的系统，其中，所述至少一个第二麦克风是模拟麦克风。

24.一种非暂时性计算机可读存储介质，所述非暂时性计算机可读存储介质上具体实施有指令，在所述指令由至少一个处理器执行时，执行方法的多个步骤，所述方法包括以下步骤：