CN103959376A

CN103959376A - 低功率语音检测

Info

Publication number: CN103959376A
Application number: CN201180075351.3A
Authority: CN
Inventors: A.雷乔杜里; W.M.贝尔特曼; J.W.尚茨; C.托库纳加; M.E.戴舍尔; T.E.沃尔什
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2011-12-06
Filing date: 2011-12-06
Publication date: 2014-07-30
Anticipated expiration: 2031-12-06
Also published as: TWI489448B; TW201342362A; EP2788979A1; WO2013085499A1; CN103959376B; US20140236582A1; US9633654B2; EP2788979A4

Abstract

允许具有最小功耗的语音处理的方法包含以第一时钟频率和第一电压记录时域音频信号，并且以第二时钟频率对时域音频信号执行快速傅里叶变换（FFT）操作来生成频域音频信号。可通过一个或多个滤波和增强技术来增强频域音频信号而获取更佳信噪比。增强的音频信号可用于生成总信号能量并且估计背景噪声能量。决策逻辑可从信号能量和背景噪声来确定人语音的存在或不存在。第一时钟频率可不同于第二时钟频率。

Description

低功率语音检测

背景。

技术领域

实施例通常涉及音频处理。更特别地，实施例涉及语音识别。

讨论

语音命令和连续的言语识别对于移动计算系统而言因为有限的键盘功能性而可能是重要的。然而，持续地监听环境中的潜在语音的功率成本可能太高以使得在系统可以开始监听之前大多数系统要求来自用户的输入。此方式会不便并且会限制许多潜在应用的实用性。

附图说明

通过阅读下文的说明书和所附权利要求，并且通过参考以下的图，本发明的实施例的各种优势将对于本领域的技术人员而变得明显，图中：

图1是图示言语识别系统的实施例的示例的框图；

图2是图示根据实施例的与音频信号有关的示例能量和帧的图表；

图3是表示噪声抑制的示例实施例的框图。

图4是图示与人语音检测操作关联的示例错误接受率和错误拒绝率的图表；

图5是语音活动检测模块的硬件架构实施例的示例；

图6是图示根据实施例的示例512点快速傅里叶变换的框图；

图7是图示根据实施例的快速傅里叶变换模块的示例硬件实现的框图；

图8是图示根据实施例的乘法和滤波模块的示例硬件实现的图；以及

图9是处理音频信号来检测人语音的示例方法的流程图。

具体实施方式

实施例可包括设备，它包含用于在存储器中存储时域中的音频信号的逻辑，其配置为基于第一时钟频率和第一电压来操作，并且基于第二时钟频率和第二电压对时域中的音频信号执行快速傅里叶变换（FFT）操作来生成频域中的音频信号。

实施例可包括计算机实现的方法，其包含以第一时钟频率和第一电压记录时域音频信号。该方法还包含以第二时钟频率对时域音频信号执行快速傅里叶变换（FFT）操作来生成频域音频信号。第一时钟频率可比第二时钟频率快。

实施例可包含计算机可读存储介质，具有一组指令，当处理器执行该组指令时，使计算机：以第一时钟频率和第一电压记录时域音频信号，以及以第二时钟频率对时域音频信号执行快速傅里叶变换（FFT）操作来生成频域音频信号。第一时钟频率可比第二时钟频率快。

转到图1，示出了图示言语识别系统100的实施例的框图。该系统可包含预处理模块101（配置为捕获音频信号）、前端处理模块102（配置为处理音频信号并且检测可包含在音频信号中的任何人语音信息）、以及后端处理模块103（配置为分析人语音信息并且执行与人语音信息关联的操作）。可注意到，音频信号可包含背景噪声和人语音信息。

预处理模块101可包含记录器105（例如，麦克风），它可用于将音频信号捕获为脉冲密度调制（PDM）信息流。PDM流可包含时域中的采用数字格式的音频信号。预处理模块101可包含PDM到脉冲编码调制（PCM）转换器110，它配置为接收PDM信息流并且生成PCM信息流。PCM信息流可被视为PDM信息流的数字表示。PCM信息流包含未编码的或原始信息。对于一些实施例，PCM数据流可以被直接接收。例如，记录器105可包含整合特征以使它生成PCM信息流。

前端处理模块102（也被称作语音活动检测或VAD模块）可包含分帧和加窗模块115，配置为分帧并且加窗从PDM-PCM转换器110接收的PCM信息流。分帧和加窗模块115可基于采样率和帧大小来将PCM信息流分帧并且加窗成多个帧（在图2中图示）。例如，采样率可设置为16kHz，并且帧大小可设置为32ms（毫秒）。取决于实现，可使用不同的采样率和不同的帧大小。对于一些实施例，帧可彼此重叠，并具有非重叠窗口。例如，两个连续帧（每个具有32ms的帧大小）可彼此重叠22ms（具有10ms的非重叠窗口）。使用16kHz采样率和32ms帧大小的示例，每个帧的采样数可以为16×32=512。

FFT模块120可配置为接收PCM信息流的帧并且执行那些帧的从它们的时域表示到频域表示的必要变换。音频信号的频域表示可指示在频率范围上在每个给定频带内的能量或信号电平（在图2中图示）。在FFT模块120执行变换操作之后，噪声估计和抑制模块125可分析频域表示中的每个帧，并且滤出可与人语音信息不在相同频带内的任何噪声信息。对于一些实施例，噪声估计和抑制模块125可实现为可编程带通滤波器。一般而言，人语音可落入近似在20Hz与7KHz之间的频带（本文称作人语音频带）。噪声估计和抑制模块125可配置为检测可落在人语音频带之外的任何能量或信号电平，并且将该能量作为带外能量抑制。

人语音与背景噪声的统计性质之间可能有差别。对于一些实施例，噪声估计和抑制模块125可基于人语音趋于短脉冲后跟着可图示为高幅度能量（其后跟着低幅度能量）的短脉冲的间歇的图案的假定来从背景噪声中辨别人语音。此能量图案不同于与背景噪声关联的能量，其中，能量的平均幅度可趋于从一个时间段到另一时间段保持相对相同或非常缓慢改变。其结果是，有可能保持跟踪并且估计一段时间上的背景噪声。

人语音检测模块130可配置为使用背景噪声估计来确定在人语音频带内是否存在人语音。对于一些实施例，人语音检测模块130可确定在频域表示中的帧内的总能量，比较该总能量与估计的噪声能量，并且确定那个帧内是否存在人语音。例如，当总能量大于背景噪声能量乘以阈值时，可存在人语音信息135。当总能量近似小于或等于背景噪声能量时，可不存在人语音信息135。当不存在人语音信息135时，前端处理模块102的操作可继续到下一帧的噪声估计和抑制（如噪声估计和抑制模块125所执行的）。

后端处理模块103可包含语音处理模块140，其配置为从前端处理模块102接收人语音信息135并且确定可包含在人语音信息135中的命令或指令。语音处理模块140可引起基于所确定的命令或指令来执行操作。

转到图2，图2是图示与音频信号有关的示例能量和帧的图表200。图表200包含在时间段上可由记录器105（在图1中图示）捕获的音频信号的能量。图表200的垂直轴线205可表示能量的幅度，并且水平轴线210可表示时间。对于一些实施例，音频信号可被分成多个重叠的帧，例如诸如帧215、220和225。在此示例中，帧215、220和225中的每个可与32ms的窗口关联并且可彼此偏置10ms的非重叠窗口230。FFT模块120（在图1中图示）可首先处理帧215，帧215可与覆盖从0ms到31ms的时间段的窗口关联。十毫秒以后，FFT模块120可处理第二帧220，第二帧220可与覆盖从10ms到41ms的时间段的窗口关联。然后，十毫秒以后，FFT模块120可处理第三帧225，第三帧225可与覆盖从20ms到51ms的时间段的窗口关联。

使用16kHz的采样率，帧215、220和225中的每个可包含512个样本。取决于所选择的采样率和帧大小，样本数量可改变但通常可以是二的幂的数量。对于一些实施例，可期望FFT模块120（图1）在类似于非重叠窗口的大小的时间段内（例如，10ms）完成对于每个帧的其变换操作（从时域表示变换到频域表示）。在其它实施例中，可期望FFT模块在非重叠窗口的时间的一部分中完成其变换。例如，FFT模块可只需要10ms的10%（或1ms）来完成其处理；FFT模块的操作可由以下公式来表示：

公式1

其中表示音频信号的频域表示，表示音频信号的时域表示，k的范围是从值1到频带的总数量（例如，512），并且t表示时间。公式1的结果可以是512点FFT（基于512个样本示例）。来自FFT操作的结果然后可由噪声估计和抑制模块125（在图1中图示）滤波来移除任何带外噪声。噪声估计和抑制模块125的滤波操作可由以下公式来表示：

公式2

其中表示滤波操作之后的结果，表示滤波函数，表示音频信号的频域表示，并且k的范围是从值1到频带的总数量（例如，512）。可通过将滤波器应用于采用频域表示的来执行滤波操作以移除任何带外噪声。

转到图3，图3示出表示噪声抑制的示例实施例的框图。一旦完成滤波操作，可应用一个或多个噪声抑制操作来移除或抑制可能不是人语音的任何噪声。对于一些实施例，每个噪声抑制操作可与不同的噪声抑制技术关联。可存在着许多不同的技术，这些技术可组合来执行噪声抑制操作。参考图3，已滤波的信息305可被传送到第一噪声抑制模块310。可注意到，已滤波的信息305可作为一系列帧（每个帧具有相同的帧大小）传送到第一噪声抑制模块310。从第一噪声抑制模块310产生的信息可被传送到第二噪声抑制模块315等等，直至可由第N噪声抑制模块320生成增强的音频信号（本文称作增强的音频信息）325。例如，第一噪声抑制模块310可以基于被称作延迟总和波束形成（具有固定的系数）的技术，并且第二噪声抑制模块315可以基于被称作频谱跟踪和子带域维纳滤波的技术。有可能的是，在图3中图示的噪声抑制操作完成之后增强的音频信息325可具有比进来的音频信号更高的信噪比。

增强的音频信息325可包含一系列帧，每个帧具有相同的帧大小。可由图1中图示的人语音检测模块130处理增强的音频信息325来检测人语音的存在。取决于实现，增强的音频信息325的处理可不同。下文是人语音检测模块130可用来处理增强的音频信息325的第一算法的伪代码示例：

任务1：对于增强的音频信息325的每个帧，确定总能量为：

其中“abs”是绝对值函数，“FFT Output”是FFT模块120的结果，并且H是滤波函数。

任务2：对于增强的音频信息325的每个帧，将背景噪声的能量（或噪底能量）估计为：

其中A和B是具有常数值的参数，是当前帧的背景噪声能量，并且是前一帧的背景噪声能量。

任务3：对于增强的音频信息325的每个帧，确定人语音的存在。当人语音存在时，设置，并且当人语音不存在时，设置。该确定可通过比较在第一算法的任务1中确定的总功率与在第一算法的任务2中确定的背景噪声的底能量来执行。

其中Tup和Tdown是具有常数值的参数。

下文是人语音检测模块130可用来处理增强的音频信息325的第二算法的伪代码示例。第二算法可有些类似于第一算法，并具有附加的滤波和轮廓跟踪操作功能。

任务1：对于增强的音频信息325的每个帧，确定总能量为：

其中“abs”是绝对值函数，“FFT Output”是FFT模块120的频域表示结果，并且H是滤波函数。

任务2：对于增强的音频信息325的每个帧，应用中值滤波函数来移除任何高频噪声并且应用轮廓跟踪函数来移除任何噪声的突发脉冲并且确定每个帧的平均能量。

任务3：对于增强的音频信息325的每个帧，确定人语音的存在。当人语音存在时，设置，并且当人语音不存在时，设置。该确定可通过比较在第二算法的任务1中确定的总功率与在第二算法的任务2中确定的轮廓跟踪操作的结果来执行。

其中Tup和Tdown是具有常数值的参数，并且Tup和Tdown的值可取决于实现而不同。

可注意到，第一和第二算法的效率可取决于背景噪声状况。当存在均匀的背景噪声时，第一算法可更好地执行。当背景噪声包含虚高频噪声（其不是人语音的一部分）时，第二算法可更好地执行。

转到图4，图4是图示与人语音检测操作关联的示例错误接受率和错误拒绝率的图表400。在处理增强的音频信息325来确定是否存在人语音时，可发生两种潜在类型的误差。第一类型的误差（被称作错误拒绝误差）可与拒绝可能包含人语音的音频信号有关。第二类型的误差（被称作错误接受误差）可与将噪声接受为人语音（当那个噪声可不包含人语音时）有关。对于一些实施例，可使用一个或多个阈值参数来控制错误拒绝率和错误接受率。例如，当阈值参数被设置为低的值时，所有噪声可被接受为人语音；当阈值参数被设置为高的值时，所有噪声被拒绝为不包含人语音。通过编程一个或多个阈值参数，可实现不同的操作点。参考上述的示例第一和第二算法，阈值参数可包含“A”、“B”、“DB”、“Tup”和“Tdown”。

图示的示例图表400包含表示增强的音频信息325的帧的错误接受率的垂直轴线405和表示其错误接受率的水平轴线410。曲线420可表示与上述第一算法关联的操作点，而曲线425可表示与上述第二算法关联的操作点。曲线420和425上的每个点可因此表示操作点。在此示例中，背景噪声可以是5dB。可注意到，与曲线425关联的错误接受率和错误拒绝率通常低于与第一算法关联的错误接受率和错误拒绝率。这可归因于附加的均值滤波和轮廓跟踪函数操作。

转到图5，图5图示语音活动检测模块的硬件架构实施例。图500可包含对应于包含在前端处理模块102（在图1中图示）的部件的一些部件。对于一些实施例，图1的分帧和加窗模块115可采用软件实现，并且因此不包含在图500中。可包含在图500中的前端处理模块102的部件是FFT模块120、噪声估计和抑制模块125以及人语音检测模块130。

可注意到，在图500中有两个部分。第一部分包含位于虚线框505内的部件。第二部分包含位于虚线框505外的部件。对于一些实施例，位于虚线框505内的部件可配置为以低电压（低Vcc）操作，并且它们可配置为以慢的时钟频率（被称作时钟1）操作。位于虚线框505外的部件可配置为以高电压（高Vcc）操作，并且它们可配置为以快的时钟频率（例如，16倍时钟频率，被称作时钟16）操作。位于虚线框505内的部件可包含FFT模块525以及乘法和滤波模块520、以及语音活动检测模块550和555。FFT模块525可对应于图1的FFT模块120，乘法和滤波模块520可对应于图1的噪声估计和抑制模块125，并且语音活动检测模块550和555可对应于图1的人语音检测模块130。

与时域表示中的音频信号关联的信息可存储在存储器模块510和515中。在此示例中，每个存储器模块510和515可包含512个线路，其中每个线路是48位。因此，存储器的总大小可以是2×512×48位。当从存储器模块510和515读取信息时，信息可经由复用器511和516而传送到帧缓冲器540并且然后传送到帧缓冲器545。可注意到，帧缓冲器540位于虚线框505外并且帧缓冲器545位于虚线框505内。因此，帧缓冲器540可以以比帧缓冲器545更高的电压和更高的时钟频率（例如，时钟16）操作。

FFT模块525可配置为操作为32点FFT或16点FFT模块，其中FFT模块525的配置可受控于控制模块560。FFT模块525可处理从存储器模块510和515接收的信息来将信息从时域表示变换成频域表示。乘法和滤波模块520可从FFT模块525接收结果并且执行噪声滤波和噪声抑制操作来生成增强的音频信息325（在图3中图示）。然后，可将增强的音频信息325存储在帧缓冲器535中，其中增强的音频信息325可随后由语音活动检测模块550或555来处理。取决于实现，可存在并行操作的多个语音活动模块。语音活动检测模块550和555中的每个可使用不同的算法（例如，上述第一或第二算法）来操作。如提到的，位于虚线框505内的部件可配置为操作在低频（或时钟1）和低电压（低Vcc）。位于虚线框505外的部件可操作在高频（或时钟16）和高电压（或高Vcc）。这可以是重要的，因为它可使位于虚线框505内的部件消耗很少功率。

转到图6，图6是图示512点快速傅里叶变换的框图。图表600包含四个平面：X平面610、Y平面620、Z平面630和W平面640。X平面610可具有16行和32列，总共有16×32=512个信息点。X平面610中的信息点可对应于图5中图示的FFT模块525从存储器模块510和515接收的信息。

对于一些实施例，可使用32点FFT操作来变换X平面610中的512个信息点。由于在X平面610中有16行，所以可执行16次32点FFT操作。对X平面610的每行的信息点的每个32点FFT操作的结果图示在Y平面620中的对应行中。例如，对X平面610的第一行(X(0), X(16), ..., X(495))中的信息点的32点FFT操作的结果反映在Y平面620的第一行(Y(0), Y(16), ..., Y(495))中。

FFT操作可以基于复数，每个复数具有实部和虚部。X平面610中的信息点可包含实信息并且不包含任何虚信息（因为它可表示实际音频输入信号）。X平面610可被称作实平面。然而，Y平面620中的信息点可包含实部和虚部两者。Y平面620可被称作复平面。然后Y平面620中的信息点可乘以一组虚旋转因子625。此旋转因子625可对应于由图5中图示的乘法和滤波模块520执行的乘法操作。对于一些实施例，旋转因子625可包含并行操作的四个复数乘法器。由于在Y平面620中有512个信息点，所以可有128个乘法周期来获取Z平面630的512个信息点。Z平面630可被称作复平面。

对于一些实施例，可使用16点FFT操作来变换Z平面630中的信息点。这可通过将16点FFT操作应用于Z平面630的每列中的信息点（例如，Z(0), Z(1), ..., Z(15)）来执行。由于在Z平面630中有32列，所以可执行32次16点FFT操作。对Z平面630的每列的信息点的每个16点FFT操作的结果反映在W平面640的对应列中。例如，对Z平面630的第一列（例如，Z(0), Z(1), ..., Z(15)）中的信息点的16点FFT操作的结果反映在W平面640的第一列（W(0), W(32), ..., W(480)）中。

转到图7，图7是图示快速傅里叶变换模块的示例硬件实现的框图。FFT模块700可被称作混合FFT模块（因为它可用于执行32点FFT和16点FFT操作两者）。FFT模块700可对应于图5中图示的FFT模块525。图5中图示的512个信息点的分解可适合于音频、语音或言语处理（因为这些应用可适合于连续执行的操作）。例如，512个信息点的分解可包含使用32点FFT操作（16次），接着是512个复数乘法并且最终接着16点FFT操作（32次）。这可慢于X平面610中的所有信息点的512点FFT操作的并行执行。

为了具有以低频（例如，4MHz）的低功率操作，可有必要减少尽可能多的硬件。可注意到，以这样的低频的大部分功率被泄漏，并且因此可通过使用相同的硬件串行执行操作而获取有效功率与泄漏功率之间的正确平衡。对于一些实施例，代替有两个单独的FFT模块（一个用于32点FFT操作，并且另一个用于16点FFT操作），FFT模块700可用于执行32点和16点FFT操作两者。FFT模块700可包含两个16点FFT 710和720。16点FFT 710和720可配置为并行操作。

第一个16点FFT 710可与16点FFT输入705和其信号Y(0)至Y(15)关联，或它可与32点FFT输入715的前16个输入信号X(0)至X(15)关联。第二个16点FFT 720可与32点FFT输入715的接着16个输入信号X(16)至X(31)关联。

FFT模块700内的16点FFT 710和720中的一个可暴露于控制信号725。控制信号725可耦合到复用器730。当控制信号725处于第一设置（例如，0）时，它可使复用器730接受输入信号705并且又使FFT模块700操作为16点FFT模块。当控制信号725处于第二设置（例如，1）时，它可使复用器730接受输入信号715并且又使FFT模块700操作为32点FFT模块。

通过使用FFT模块700代替具有单独的32点FFT模块和16点FFT模块，加法器的总数量可从大约9500减少到大约8300，并且乘法器的总数量可从大约312减少到大约56。这可提供显著的功率和面积节省，以潜在和可接受的等待时间为代价。

转到图8，图8是图示乘法和滤波模块的示例硬件实现的图。乘法和滤波模块800可配置为执行复数乘法操作和滤波操作两者。对于一些实施例，图8的复数乘法操作可用作图6中图示的旋转因子的一部分。对于一些实施例，图8的滤波操作可在FFT操作之后执行。乘法和滤波模块800可对应于图5中图示的乘法和滤波模块520。

乘法和滤波模块800可配置为执行两个复数（a + jb）和（c + jd）的复数乘法。在传统上，这两个复数的乘法如下执行：

其中X和Y是输入信号并且Z是输出信号。为执行以上乘法，使用传统技术可需要四个（4个）乘法器和两个（2个）加法器。可使用并行操作的四个复数乘法器来执行此复数乘法。当使用传统技术来执行以上操作时，以下是硬件有关的信息的一些示例：

对于一些实施例，使用修改的技术，可如下执行相同两个复数的乘法：

为执行以上乘法，可需要三个（3个）乘法器和五个（5个）加法器。可注意到，与传统技术相比，经修改的修改中的乘法器的数量更少但是加法器的数量更多。因为乘法器比加法器在功率、面积等方面更昂贵，所以这是可接受的。当使用经修改的技术来执行以上操作时，以下是硬件有关的信息的一些示例：

（此处单元数量小于传统技术）

参考图8，三个乘法器包含乘法器810、820和850。五个加法器包含加法器860、865、870以及用于输入端处的表达“c - b”和“b + d”的两个加法器。到乘法和滤波模块800的输入信号可被发送到一组复用器802、804、806和808。当这些复用器被设置为一个值（例如，零）时，乘法和滤波模块800可配置为执行复数乘法操作。例如，从第一复用器，短语“c - b”可被传到乘法器810。从第二复用器804，信号“a”可被传到乘法器810，使乘法器810能生成表达“”的结果。从第三复用器806，表达“b + d”可被传到乘法器820。从第四复用器808，信号“a”可被传到乘法器820，使乘法器820能生成表达“”的结果。然后加法器860、865和870可使用来自乘法器810和820的结果来生成Z的作为的最终结果。

当复用器802、804、806和808被设置为另一值（例如，一）时，乘法和滤波模块800可被设置为执行滤波操作。在此情况下，乘法和滤波模块800可配置为对来自FFT操作的表达“”的绝对值的平方执行滤波，其中“”是复数，“abs”是绝对值函数，并且“Coff”是系数。此表达的数学等效是“”。此表达图示在图8的右侧。输入xR和xI图示为到复用器802、804、806和808的输入。然后第一乘法器810可生成“xR²”的结果并且第二乘法器820可生成“xI²”的结果。然后这些结果可用于使用系数848、复用器840和乘法器850来生成表达“”的值。

现在转到图9，图9示出处理音频信号来检测人语音的方法。该方法可对应于图5中示出的硬件架构。该方法可实现为一组逻辑指令，其存储在机器或计算机可读存储介质（例如，RAM、ROM、PROM、闪速存储器等）、可配置逻辑（例如，PLA、FPGA、CPLD）、使用电路技术（例如，ASIC、CMOS或TTL技术）的固定功能性逻辑硬件或任何其组合中。例如，执行在方法中示出的操作的计算机程序代码可以用一个或多个编程语言的任何组合来编写，其包含面向对象的编程语言（例如，C++等）和传统的过程编程语言（例如，“C”编程语言或类似编程语言）。

框905提供将音频信号存储在存储器中。如提到的，音频信号可包含人语音和其它噪声（包含背景噪声）。音频信号可已经由记录器记录并且可在时域存储。存储器可配置为以第一时钟频率（例如，高频）操作。存储器可配置为以第一电压（例如，高Vcc）操作。

框910提供对音频信号执行FFT操作来将它从时域变换到频域。FFT操作可以基于与音频信号关联的帧。如提到的，可使用分帧和加窗操作来确定帧。可由可配置FFT模块（其可配置为操作为不同类型的FFT模块（例如，32点FFT模块或16点FFT模块））来执行FFT操作。可配置FFT模块可以以第二时钟频率（例如，低频）操作。可配置FFT模块还可以以第二电压（例如，低Vcc）操作。

框915提供对来自框910并且基于第二电压的FFT操作的频域结果执行噪声抑制和滤波操作。可使用图8中图示的可配置的乘法和滤波硬件来执行滤波操作。可使用如用图3描述的一个或多个噪声抑制技术来执行噪声抑制操作。框915的噪声抑制和滤波操作可以以第二时钟频率（例如，低频）操作。噪声抑制和滤波操作还可以以第二电压（例如，低Vcc）操作。

框920提供在框915的噪声抑制和滤波操作完成之后执行语音检测。可如图5中描述那样来使用一个或多个语音检测算法。帧中的总能量和背景噪声可用于确定人语音的存在。框920的语音检测操作可以以第二时钟频率（例如，低频）操作。语音检测操作还可以以第二电压（例如，低Vcc）操作。

本发明的实施例可适用于与所有类型的半导体集成电路（“IC”）芯片一起使用。这些IC芯片的示例包含但不限于处理器、控制器、芯片组部件、可编程逻辑阵列（PLA）、存储器芯片、网络芯片、片上系统（SoC）、SSD/NAND控制器ASIC等。此外，在一些图中，信号导体线路用线来表示。一些可以是不同的，来指示更多组成信号路径，具有标号来指示组成信号路径的号码，和/或在一端或多端处具有箭头来指示主要信息流方向。然而，这不应该视为限制的方式。而是，这样的附加细节可结合一个或多个示范性实施例使用以有助于电路的更容易理解。任何所表示的信号线（无论是否有附加的信息）可实际包括一个或多个信号，它们可在多个方向中行进并且可用任何合适类型的信号方案（例如，用差分对、光纤线路和/或单端线路实现的数字或模拟线路）来实现。

可给出示例大小/模型/值/范围，但是本发明的实施例不限于这些。随着制造技术（例如，光刻）随着时间变成熟，预期可制造更小尺寸的装置。此外，为了图示和论述的简单起见，并且为了不混淆本发明的实施例的某些方面，在图中可以或可以不示出到IC芯片和其它部件的熟知电力/接地连接。另外，可以以框图形式示出布置以避免混淆本发明的实施例，但是也鉴于相对于这样的框图布置的实现的细节高度依赖于其内将实现实施例的平台的事实，即，这样的细节应该是在本领域的技术人员所熟知的范围内。其中阐述具体细节（例如，电路）以便描述本发明的示例实施例，对于本领域技术人员应该明显的是可以实践本发明的实施例，而没有这些具体细节或具有这些具体细节的变化。因此描述被视为说明性的而不是限制的。

本文可使用术语“耦合”来指代所讨论的部件之间的任何类型的关系（直接或间接），并且可应用于电、机械、流体、光、电磁、机电或其它连接。此外，本文可使用术语“第一”、“第二”等来仅仅便于论述并且不具有特定时间或先后意义（除非另有指示）。

本领域技术人员将从上文的描述意识到本发明的实施例的广泛技术可以以各种形式实现。因此，虽然已经结合其特定示例来描述本发明的实施例，但是本发明的实施例的真正范围不应该这样受限制，这是因为其它修改将在本领域技术人员研读附图、说明书和下文的权利要求之后而变得明显。

Claims

1. 一种设备，包括：

逻辑，所述逻辑用于：

在存储器中存储时域音频信号，所述存储器配置为基于第一时钟频率和第一电压来操作，以及

基于第二时钟频率和第二电压对所述时域音频信号执行快速傅里叶变换（FFT）操作来生成频域音频信号。

2. 如权利要求1所述的设备，其中所述逻辑用于：

执行第一组FFT操作，

执行复数乘法操作，以及

与所述第一组FFT操作串行地执行第二组FFT操作。

3. 如权利要求2所述的设备，其中所述第二时钟频率比所述第一时钟频率慢，并且其中所述第二电压低于所述第一电压。

4. 如权利要求3所述的设备，其中所述逻辑用于：

执行噪声抑制操作，

基于所述第二时钟频率和所述第二电压对所述频域音频信号执行滤波操作来生成增强的音频信号。

5. 如权利要求4所述的设备，其中所述复数乘法操作和滤波操作使用相同的硬件部件来实现。

6. 如权利要求4所述的设备，其中所述逻辑用于基于所述第二时钟频率和所述第二电压对所述增强的音频信号执行人语音检测操作。

7. 如权利要求6所述的设备，其中所述逻辑用于确定所述增强的音频信号的帧中的总能量，并且确定所述增强的音频信号的所述帧中的背景噪声。

8. 如权利要求7所述的设备，其中所述逻辑用于执行中值滤波操作，并且执行轮廓跟踪操作。

9. 如权利要求7所述的设备，其中所述逻辑用于基于所述第一时钟频率和所述第一电压来执行与所检测的人语音关联的命令。

10. 一种计算机实现的方法，包括：

以第一时钟频率和第一电压记录时域音频信号；

以第二时钟频率对所述时域音频信号执行快速傅里叶变换（FFT）操作来生成频域音频信号，其中所述第一时钟频率比所述第二时钟频率快。

11. 如权利要求10所述的方法，其中所述FFT操作以低于所述第一电压的第二电压执行。

12. 如权利要求11所述的方法，还包含；

以所述第二时钟频率和所述第二电压对所述频域音频信号执行噪声抑制操作来生成增强的音频信号。

13. 如权利要求12所述的方法，还包含：

以所述第二时钟频率和所述第二电压对所述增强的音频信号执行语音检测操作来检测人语音。

14. 如权利要求13所述的方法，其中执行所述人语音检测操作包含：

确定所述增强的音频信号的帧中的总能量；

确定与所述增强的音频信号的所述帧中的背景噪声关联的能量；以及

通过从所述增强的音频信号的所述帧中的所述总能量中减去与所述背景噪声关联的能量来检测所述人语音。

15. 如权利要求13所述的方法，还包含：

以所述第一时钟频率和所述第一电压执行与所述人语音关联的命令。

16. 如权利要求15所述的方法，其中以所述第一时钟频率和所述第一电压持续地记录所述时域音频信号并且将所述时域音频信号从脉冲密度调制（PDM）转换成脉冲编码调制（PCM）。

17. 如权利要求16所述的方法，其中所述FFT操作串行执行。

18. 一种计算机可读存储介质，包括一组指令，当处理器执行所述一组指令时，使计算机：

以第一时钟频率和第一电压记录时域音频信号；以及

19. 如权利要求18所述的所述介质，其中所述FFT操作以低于所述第一电压的第二电压执行。

20. 如权利要求19所述的所述介质，还包括一组指令，当所述处理器执行所述一组指令，使所述计算机：

以所述第二时钟频率和所述第二电压对所述频域音频信号执行噪声抑制操作来生成增强的音频信号；

以所述第二时钟频率和所述第二电压处对所述增强的音频信号执行语音检测操作来检测人语音；以及

21. 如权利要求20所述的介质，其中所述语音检测操作通过以下操作来执行：通过确定所述增强的音频信号的帧中的总能量，确定与所述增强的音频信号的所述帧中的背景噪声关联的能量，并且通过从所述增强的音频信号的所述帧中的所述总能量中减去与所述背景噪声关联的能量来检测所述人语音。

22. 如权利要求21所述的介质，其中以所述第一时钟频率和所述第一电压持续地记录所述时域音频信号。

23. 一种系统，包括：

预处理模块，配置为将音频信号捕获为脉冲密度调制（PDM）信息流并且基于第一时钟频率和第一电压将所述PDM信息流转换成脉冲编码调制（PCM）信息流；

前端处理模块，耦合到所述预处理模块并且配置为将所述PCM信息流分帧并且加窗成多个帧；以及

快速傅里叶变换（FFT）模块，耦合到所述前端处理模块并且配置为接收所述PCM信息流的所述帧并且基于第二时钟频率和第二电压执行所述帧的从所述时域表示到频域表示的变换，其中所述第二时钟频率不同于所述第一时钟频率并且所述第二电压不同于所述第一电压。

24. 如权利要求23所述的系统，其中所述第一时钟频率比所述第二时钟频率快，并且其中所述第二电压低于所述第一电压。

25. 如权利要求24所述的系统，还包含：

噪声估计和抑制模块，耦合到所述FFT模块并且配置为在所述频域表示中分析所述帧并且滤出与人语音不在相同频带内的噪声信息；

人语音检测模块，耦合到所述噪声估计和抑制模块并且配置为使用背景噪声估计来基于人语音频带而确定所述帧中是否存在所述人语音：以及

语音处理模块，耦合到所述人语音检测模块并且配置为确定与所述人语音关联的命令并且执行与所述命令关联的操作。