CN104038864B

CN104038864B - 带有语音识别的麦克风电路总成和系统

Info

Publication number: CN104038864B
Application number: CN201410081236.2A
Authority: CN
Inventors: M·莫尔滕森
Original assignee: Analog Devices Inc
Current assignee: Analog Devices Inc
Priority date: 2013-03-08
Filing date: 2014-03-07
Publication date: 2018-04-10
Anticipated expiration: 2034-03-07
Also published as: US9542933B2; CN104038864A; US20140257813A1; US20170194001A1

Abstract

本发明涉及带有语音识别的麦克风电路总成和系统。所述麦克风电路总成包括麦克风前置放大器和模拟‑数字转换器以以第一预定采样速率生成麦克风信号样本。语音特征提取器被配置为接收和处理麦克风信号样本预定块以提取表示所述麦克风信号样本的语音特征的语音特征向量。所述麦克风电路总成还包括语音词汇表，其包括被编码为目标特征向量集的人类语音的目标词或目标短语，以及判定电路，其被配置为将所述语音特征提取器生成的所述语音特征向量与所述目标特征向量进行比较以检测目标语音词或短语。控制器被配置为在所述麦克风电路总成的外部可接入输出端上生成识别信号以响应所述麦克风信号样本中被识别的目标词或短语。

Description

带有语音识别的麦克风电路总成和系统

技术领域

本发明一方面涉及用于连接至外部应用程序处理器(比如，可编程数字信号处理器)的麦克风电路总成。本发明的其它方面涉及包括麦克风电路总成的数字信号处理系统。

背景技术

麦克风电路总成包括麦克风前置放大器和模拟-数字转换器以以第一预定采样速率生成麦克风信号样本。语音特征提取器被配置为接收和处理麦克风信号样本预定块以提取表示麦克风信号样本的语音特征的语音特征向量。麦克风电路总成还包括语音词汇表，其包括被编码为目标特征向量集的人类语音的目标词或目标短语，以及判定电路，其被配置为将语音特征提取器生成的语音特征向量与目标特征向量进行比较以检测目标语音词或短语。控制器被配置为在麦克风电路总成的外部可接入输出端子上生成识别信号以响应麦克风信号样本中被识别的目标词或短语。

在语音识别系统中，应用于进入的通常由安装在便携式通信设备(如，电话、玩具、电视机或PC等)内的麦克风生成的语音信号的第一滤波器组通常是梅尔倒频谱系数(MFCC)滤波器组的变体，无论底层语音识别系统是否基于神经网络(NN)、隐马尔可夫模型(HMM)或因子图(FG)。整个语音识别系统的目的是提供对装置功能(比如，从睡眠模式变为唤醒或开机)的语音激活控制。然而，已知的语音识别装置和系统的MFCC滤波器组在计算上很复杂，并因此常常在可编程应用程序处理器(比如，可编程定点或浮点DSP内核或引擎)上执行。这些类型的DSP内核常常使用24位或32位字长来表示进入的语音/音频信号样本，致使具有对应字长的数据路径电路、数据寄存器和逻辑来适应进入的音频样本的字格式。该特征导致在处理进入的语音或音频信号期间，MFCC滤波器组中产生高功率消耗，这是在便携式/电池供电设备中应用基于MFCC的语音识别的一个重大问题或障碍。

此外，由于语音识别应用程序或程序通常在可编程外部应用程序处理器（例如，DSP内核）上执行，因此其不得不持续保持激活操作模式以检测进入的麦克风信号中是否存在目标词、短语或命令。由于不断操作的可编程应用程序处理器的高功率消耗，要求可编程外部应用程序处理器连续操作便给提供语音激活的系统的上电造成了障碍。就电池寿命和世界范围内的不断努力以减少整个工业化世界的电气设备的能量耗损而言，高功率消耗对于语音识别在电池供电的移动式设备和连接电源的电气设备中的应用是一个重大问题。因此，提供包括低功率消耗且能够独立于外部应用程序处理器操作的语音识别单元的单独的麦克风电路总成大有裨益。麦克风电路总成可包括能够识别出一个或多个预定目标词或短语并通过传输合适的识别信号将这种目标词或短语的识别指示给外部应用程序处理器的语音识别单元。因此，通过将识别进入的麦克风信号中的目标词或目标的任务委派给麦克风电路总成，这种麦克风电路总成将允许外部应用程序处理器处于睡眠模式，而无需处理麦克风信号。麦克风电路总成可通过合适的允许应用程序处理器从睡眠模式切换至激活模式并采取适当行动的识别信号将目标词或短语的识别指示给外部应用程序处理器。

欧洲专利0871157A2公开了一种语音识别方法和设备。语音识别装置从麦克风接收其输入语音信号。语音信号通过使用采样频率为8kHz的和分辨率为每样本12位的A/D转换器被转换成数字形式。语音识别装置包括在此处对语音信号进行分析并对特征向量进行建模的前端。可通过限定梅尔倒频谱系数(MFCC)对特征向量进行建模。

美国专利2003/110033A1公开了一种用于实时语音识别的方法和系统。语音识别基于MFCC算法和隐马尔可夫模型(HMM)。语音识别系统可在适合低资源环境的DSP上实施。WOLA滤波器组作为DSP内核的协同处理器工作将256点FFT应用于数字化输入语音信号的连续或运行片段。

ECTI的Wada等人2005年11月发表的文章‘A Real Time Noise-Robust SpeechRecognition System’公开了一种基于定制硬件，比如全定制ASIC设计或FPGA设计的方法和设备。语音识别装置基于FPGA板。输入FPGA电路板上的语音识别装置的语音信号是通过利用A/D转换器以11.025kHz的采样速率将语音样本量化成12位字长对麦克风信号进行采样生成的。

发明内容

本发明的第一方面涉及用于外部应用程序处理器的麦克风电路总成，包括：

麦克风前置放大器，其包括用于接收麦克风信号的输入端子，

模拟-数字转换器，其被配置为接收麦克风前置放大器的输出信号，并以第一预定采样速率生成对应的具有第一预定位数的麦克风信号样本，

语音特征提取器，其被配置为接收和处理麦克风信号样本预定块以提取表示麦克风信号样本的语音特征的语音特征向量，

语音词汇表，其包括被编码为目标特征向量集的人类语音的目标词或目标短语，

控制器，其包括被配置为将语音特征提取器生成的语音特征向量与目标特征向量进行比较以检测目标语音词或短语的判定电路，

控制器被配置为在外部可接入输出端子上生成识别信号以响应麦克风信号样本中被识别出的目标词或短语。

本麦克风电路总成对于通过麦克风音频输入（通过输入端子可获得）对电子设备进行语音控制具有很多应用。电子设备可包括便携式端子和设备、玩具、电视机等。麦克风电路总成的尺寸和形状优选被设置成可容纳于微型ECM的外壳内或与MEMS电容式麦克风的封装集成。在后一实施方案中，微型ECM或MEMS麦克风的传统声音捕捉能力增加了语音识别特征，开发了新的声控应用范围。在本发明的一些特别有利的应用中，在麦克风电路总成的外部可接入输出端子提供的识别信号用于外部应用程序处理器，比如数字信号处理系统的可编程或硬连线数字信号处理器(DSP)或微处理器的激活或上电，如下文中详细描述的那样。该特征允许外部应用程序处理器处于省电模式，比如不需处理进入的麦克风信号的断电或睡眠模式，直至接收到识别信号。外部应用程序处理器的睡眠模式优选为至外部应用程序处理器的内核的时钟信号中断和/或至外部应用程序处理器的内核的DC电源电压被除去或中断的模式。至外部应用程序处理器的内核的时钟信号的中断可由时钟选通电路控制，并且降低了内核的动态功率消耗。可通过合适的逻辑除去或中断至外部应用程序处理器的内核的直流电源电压以降低内核的静态功率消耗。数字信号处理系统可并入之前讨论的便携式端子和设备、玩具、电视机等。

在本发明的其它应用中，本麦克风电路总成的语音识别能力对于在外部应用程序处理器上运行的语音识别应用程序而言起到预滤波器的作用，使得两个独立的语音识别机构在系统中同时运行。外部应用程序处理器的语音识别应用程序可被配置为通过包括目标词和/或短语的识别信号独自处理由麦克风电路总成的语音识别功能标记或指示的语音片段。如此，在外部应用程序处理器上执行的语音识别应用程序可舍弃对麦克风电路总成提供的大量进入的麦克风信号样本的处理。该特征使得有利地减少了外部应用程序处理器的计算负载和功率消耗。

语音特征提取器和判定电路协作以使本麦克风电路总成实现语音识别。目标词或短语可以是单个词、单个短语或短句或命令的单个或一些词。在后一实施方案中，句子的长度优选限于几个目标词或短语以限制语音词汇表的存储器使用。短命令可包括激活或唤醒命令，如以相关语言表示的‘打开’或‘上电’等。语音词汇表可包括多个目标词、短语或向上述激活或唤醒命令提供另外的或可替代命令的全部命令或句子。

技术人员将理解，由控制器生成并通过外部可接入输出端子传输的识别信号的特性可根据，例如周围的DSP系统的特性，尤其是耦合至识别信号的关联外部应用程序处理器的输入端口或衬垫的特性（例如，某些电平和阻抗要求）改变。识别信号的逻辑电平的逻辑状态的转变或改变可例如指示目标词或短语的识别。当然，识别信号可使用更复杂的二进制编码数据模式或命令来指示目标词或短语的识别。

麦克风电路总成的优选实施方案包括用于将麦克风信号样本传输至外部应用程序处理器的数据通信接口。数据通信接口可包括麦克风电路总成的一个或多个衬垫或端子。当麦克风电路总成嵌入包括除以上描述的纯粹语音识别之外的其它类型的声音处理能力或特征的系统时，本实施方案尤为有用。根据本实施方案，本麦克风电路总成可用作在除语音识别之外的众多应用（比如，智能手机、耳机、照相机、录音机等）中提供数字化麦克风声音的数字麦克风前端或前置放大器。技术人员将理解，数据通信接口可包括行业标准串行数字音频接口，比如I²S或定制串行数据接口，例如基于麦克风信号样本的专有PDM编码。数据通信接口的可替代实施方案可包括行业标准双向数据接口，比如诸如SLIMbus、SPI、I²C等的串行接口。后一类型的数据通信接口可被配置为将麦克风信号样本和识别信号传输至外部应用程序处理器，使得用于传输识别信号的外部可接入输出端子成为数据通信接口不可或缺的一部分。在后一实施方案中，识别信号可以是根据专有或行业标准双向数据接口的协议编码的预定义数据命令。

虽然麦克风电路总成上存在数据通信接口，但是出于以下结合本麦克风电路总成的系统集成考虑讨论的原因，识别信号可通过数据通信接口外部独立单独的数据端子或衬垫传输。

根据麦克风电路总成的另一个优选的实施方案，麦克风前置放大器和模拟-数字转换器至少以第一功率模式和第二功率模式操作。第一功率模式具有第一功率消耗，且具有第一动态范围的麦克风信号样本以第一预定采样速率生成。第二功率模式具有第二功率消耗，且具有第二动态范围的麦克风信号样本以第二预定采样速率生成。第二动态范围大于第一动态范围，且第二功率消耗大于第一功率消耗。根据系统状态，本实施方案允许麦克风电路总成以具有对应功率消耗等级的不同麦克风信号质量或性能等级操作。第一功率模式可以是麦克风电路总成的适合如以上讨论的唤醒系统应用的低功率模式或性能降低的模式。麦克风电路总成的控制器可被配置为从第一功率模式切换至第二功率模式以响应目标词或短语的识别。在优选的实施方案中，控制器还适于通过数据通信接口开始传输麦克风信号样本以响应被识别出的目标词或短语。因此，麦克风电路总成可被配置为中断处于第一功率模式的麦克风信号样本的传输以使功率消耗最小化。

第二功率模式可以是标称性能模式，与第一功率模式/低功率模式相比，在标称性能模式下可生成较大动态范围的麦克风信号样本和/或以较高采样速率生成麦克风信号样本，即使是以增大麦克风前置放大器和模拟-数字转换器的功率消耗为代价。当关联的外部应用程序处理器和系统处于等待预定目标词或短语将其唤醒并切换至正常操作的睡眠模式时麦克风电路总成的低功率消耗代表了这种可转换功率模式特征对于语音激活系统的上电应用的一个显著优点。另一方面，处于第一功率模式的麦克风前置放大器和模拟-数字转换器的较低性能在系统正常操作期间不会损害数字化麦克风信号的质量或保真度。正常系统操作通常包括外部应用程序处理器对麦克风信号样本的处理，这是因为麦克风前置放大器和模拟-数字转换器被切换至第二/标称性能模式，使得动态范围得以扩大并提高了信号质量/保真度。虽然在第二功率模式下的操作导致麦克风电路总成的功率消耗增大，但是该影响对于许多系统配置或设置而言是无关紧要的，这是因为外部应用程序处理器，例如高速可编程DSP在正常系统操作期间有可能是系统功率消耗的主要来源。

技术人员将理解，对麦克风信号样本的第一动态范围与第二动态范围的选择将取决于特定应用的具体要求。由于麦克风前置放大器和模拟-数字转换器的功率消耗会随着动态范围与采样速率或频率的增大而增大，因此理想的是在给定的音质约束范围内使两个动态范围和采样速率尽可能低。根据麦克风电路总成的一个实施方案，麦克风信号样本的第一动态范围小于72dB，优选小于66dB，例如小于60dB。在本文中，动态范围测量为信噪比加上麦克风信号样本的总谐波失真(S/N+THD)，其中信号取值为相对于麦克风前置放大器AC短路输入端子的麦克风信号样本的A计权噪音电平的1kHz满标度麦克风输入信号。

本实施方案很适合之前讨论的唤醒功能，这是因为72dB或更小的动态范围可被调整至适应普通微型ECM或微型电容式麦克风传送的麦克风信号的噪音特性。如此，与在可编程DSP装置上执行的普通应用程序相比，可包括复杂滤波器组的语音特征提取器的位数或动态范围可显著减小。11位或更少位的信号样本足以表示麦克风信号样本的72dB或更小的动态范围。这与可编程DSP装置的语音识别应用程序中的麦克风信号样本的16位至24位，或甚至是32位的表示形成对比。

数字麦克风信号的第二动态范围可根据应用要求改变，但是优选显著大于第一动态范围，例如至少大10dB，以使麦克风信号的质量有明显可听见的提高。因此，如果第一动态范围为大约72dB，则第二动态范围可大于82dB，或大于90dB。

为了使模拟-数字转换器在第一功率模式下保持低功率消耗，转换器可被配置为以8kHz至16kHz的采样速率生成麦克风信号样本，使得进入的语音信号的带宽保持足够大以捕捉重要的语音特征，从而提供良好的语音识别，尽管对于一些类型的应用（如，实况音乐录音）带宽太低而无法提供数字化麦克风信号的最佳保真度。然而，第二功率模式下放宽的功率消耗约束常常允许将模拟-数字转换器生成的麦克风信号样本的采样速率增大至例如等于或超过32kHz。实际上，采样速率可增大至标准化数字音频采样频率如44.1kHz、48kHz或96kHz中的一个以捕捉数字化麦克风信号的整个音频频谱。

麦克风电路总成的第一功率模式与第二功率模式可由各种编程机构提供。麦克风电路总成的优选实施方案包括可通过数据通信接口从外部应用程序处理器写入的配置寄存器。

控制器可被配置为读取从外部应用程序处理器传输的配置数据，提取并选择与麦克风前置放大器、模拟-数字转换器和语音特征提取器的一个或多个的可编程设置相关的参数值。此后，控制器可将合适的参数值写入配置寄存器的合适地址以选择第一功率模式与第二功率模式中的一个。在该实施方案中，配置寄存器包括控制麦克风前置放大器、模拟-数字转换器和语音特征提取器中的至少一个的可编程设置的参数值。控制器被配置为通过数据通信接口接收包括参数值的配置数据。该特征允许外部应用程序处理器根据系统要求设置和/或修改麦克风前置放大器、模拟-数字转换器和语音特征提取器各自的可编程设置的一个或多个。外部应用程序处理器可在例如接通电源时或引导时间被配置为将带有限定第一功率模式和第二功率模式的参数值的配置数据写入配置寄存器。如此，外部应用程序处理器可以非常灵活的方式对第一功率模式和第二功率模式进行调整以满足特定系统要求。在可替代的实施方案中，配置寄存器的内容可由控制器通过例如从麦克风电路总成的非易失存储区读取预存储的参数值独自确定。在后一实施方案中，控制器可因此适于通过将合适的参数值写入配置寄存器或修改储存在配置寄存器中的已有参数值来限定第一功率模式和第二功率模式。

麦克风电路总成的再另一个优选的实施方案包括被配置为用于存储表示麦克风信号样本的预定时间段的连续语音片段的圆形语音数据缓冲器。圆形语音数据缓冲器可驻存于麦克风电路总成的合适的数据存储区或片段中，比如寄存器堆或SRAM数据存储区。圆形语音数据缓冲器的尺寸或容量根据其预期应用改变。在一些实施方案中，圆形语音数据缓冲器仅充当语音特征提取器的临时性存储区，用于在基于块滤波器组算法，比如MFCC滤波器组中进行后续处理之前允许麦克风信号样本块累积并临时存储。在这些实施方案中，圆形语音数据缓冲器的尺寸可被设置为保持256至1024各麦克风信号样本。在其它实施方案中，圆形语音数据缓冲器的容量可保持麦克风信号样本（例如，表示时间段大于500ms或1秒中的一个的麦克风信号样本）的相对较大的连续片段。

采样速率为16kHz时，这些时间段分别对应于8000个麦克风信号样本和16000个麦克风信号样本。本发明的有利实施方案利用了大存储容量的圆形语音数据缓冲器，其中控制器被配置为通过数据通信接口将包括识别出的目标词或短语的语音片段从圆形语音数据缓冲器传输至外部应用程序处理器以响应识别出的目标词或目标短语。该特征允许外部应用程序处理器通过执行合适的语音识别应用程序或程序独立验证传输的语音片段中目标词或目标短语的存在，这带来了很多益处，如以下结合本发明的优选的实施方案所描述的那样。

麦克风电路总成可包括可操作地耦合在模拟-数字转换器的输出与语音特征提取器的输入之间的浮点转换器。浮点转换器优选被配置为用于将麦克风信号样本从二进制定点格式转换成专有二进制浮点格式与标准化二进制浮点格式中的一个以应用于语音特征提取器。抽取的多位麦克风信号样本的格式优选为二进制定点格式，比如二进制补码、二进制闭集等。因此，浮点转换器可被配置为在语音特征提取器中进行处理之前将麦克风信号样本从二进制定点格式转换成专有二进制浮点格式或标准化二进制浮点格式。二进制浮点格式优选使用少量位（例如，由16位或更少位表示的尾数和由6位或更少位表示的指数）来表示数字。根据IEEE754-2008，一个这种实施方案使用16位半精度标准化二进制浮点格式。语音特征提取器中二进制浮点格式的麦克风信号样本的表示是在许多基于滤波器组，比如MFCC滤波器组的实施中用于降低其功率消耗的高效机制。这是由于滤波器组的内部信号的动态范围较大，大动态范围是由基于块的具有众所周知的高内部增益因子的FFT/iFFT操作引起的。因此，浮点格式能够以比定点格式少得多的位数表示这些高动态范围的内部信号。

语音特征提取器优选包括感知驱动滤波器组或线性预测编码(LPC)分析器。技术人员将理解，基于滤波器组的语音特征提取器可包括专有感知驱动滤波器组或标准化感知驱动滤波器组（比如，之前讨论的梅尔倒频谱系数(MFCC)滤波器组或巴克标度倒频谱系数滤波器组）的任何一个的多种类型。

本麦克风电路总成的有利实施方案完全嵌在单个集成半导体晶片或衬底上，使得外部可接入输出端子包括集成半导体晶片的第一衬垫，输入端子包括集成半导体晶片的第二衬垫。集成半导体晶片或衬底可通过普通半导体工艺，比如0.35μm、0.18μm或0.065μm的CMOS或BiCMOS制造。因此，本麦克风电路总成的实施方案为与可在单独的半导体晶片上集成的外部应用程序处理器分离的独立电路总成。集成半导体晶片的第一衬垫将识别信号携带至外部应用程序处理器，而集成半导体晶片的第二衬垫适合耦合至用于接收麦克风信号的麦克风换能器元件。本麦克风电路总成的一个实施方案的尺寸和形状优选被设置成可容纳于微型ECM的外壳内或与MEMS电容式麦克风的封装集成。

本发明的第二方面涉及安装在载体衬底上的数字信号处理系统。根据上述数字信号处理系统的实施方案的任何一个，数字信号处理系统或DSP系统包括麦克风电路总成。DSP系统还包括可编程数字信号处理器(DSP)，其包括用于存储多个预定应用程序各自的可执行程序指令集的程序存储空间。数据存储空间被配置为存储程序变量和常量。可编程数字信号处理器还包括通过载体衬底可操作地连接至麦克风电路总成的输出端子的用于接收识别信号的识别检测器。识别检测器可操作地被配置为发出预定命令或预定应用程序中的一个以响应识别信号。技术人员将理解，可编程DSP是之前讨论的外部应用程序处理器的示例性实施方案。在可替代的实施方案中，外部应用程序处理器可包括具有或不具有某些面向DSP的计算增强的通用微处理器。可编程DSP可包括用于永久存储可执行程序指令集和程序常量的可读取可写入非易失存储器。可读取可写入非易失存储器可与可编程DSP在公共半导体晶片上集成和/或布置在具有至可编程DSP的合适的存储器接口的单独存储电路上。非易失存储器优选包括从EPROM、EEPROM、闪速存储器等组成的组中选出的存储元件。

载体衬底可包括单层或多层印刷电路板、陶瓷衬底等。识别信号优选由可编程DSP通过外部可接入接口衬垫接收。外部可接入接口衬垫的特性可根据可编程DSP的现有衬垫和数据接口资源改变。在一些实施方案中，外部可接入接口衬垫形成可编程DSP的双向数据通信接口或单向数据通信接口的一部分，其中数据通信接口被配置为在识别信号发出之后接收由麦克风电路总成传输的麦克风信号样本。在可编程DSP的可替代的实施方案中，外部可接入接口衬垫包括可编程DSP的通用输入-输出(GPIO)端口或中断请求端口，使得识别检测器可操作地连接至这些端口中的一个。识别检测器可对外部可接入接口衬垫的逻辑状态或逻辑状态转变做出响应。这些实施方案通常使得麦克风电路总成与可编程DSP之间的接口简单化，且允许后者在等待来自麦克风电路总成的识别信号时处于睡眠模式。另一方面，必须在麦克风电路总成与可编程DSP之间建立单独的数据通信信道以随后接收之前讨论的表示具有识别出的目标词或短语，或就此而言其它类型的音频或控制数据的语音片段的麦克风信号样本。然而，如果DSP系统中的麦克风电路总成的唯一任务是当目标词或短语被识别出时唤醒可编程DSP，则单独的数据通信信道或许是不必要的。

如果外部可接入接口衬垫形成可编程DSP的数据通信接口的一部分，则数据通信接口可从麦克风电路总成的配合数据通信接口或兼容数据通信接口接收被编码为之前讨论的预定义数据信号或命令的识别信号。可编程DSP的数据通信接口可包括专有或行业标准单向或双向数据接口。行业标准双向数据接口可包括众所周知的串行数据接口，如SLIMbus、SPI、I²C等。包括用于接收识别信号的数据通信接口的可编程DSP的实施方案提供了用于接收识别信号且优选还用于接收随后从麦克风电路总成传输的麦克风信号样本的非常灵活的机制。然而，使用数据通信接口接收识别信号可要求可编程DSP完全处于或至少部分地处于操作模式，在该模式下保持DSP对数据通信接口上的事件做出响应。虽然会对数据通信接口上的事件做出响应，但是根据数据通信接口的特定构造细节及其与可编程DSP的内核的相互作用，可编程DSP的等待时间对于实时应用（如，实况麦克风信号）而言长得让人无法忍受。因此，如果数据通信接口用于接收识别信号，则这些等待时间和睡眠模式问题可阻止可编程DSP进入之前讨论的睡眠模式。此外，识别信号的传输还占用了可编程DSP的数据通信接口的资源。

识别检测器可被配置为向可编程DSP发出中断命令以使后者从睡眠模式切换至激活模式。这通常可通过可编程DSP的中断设置或处理寄存器的适当的配置实施。在某些情况下，可编程DSP的中断硬件可被配置为自动对GPIO端口或中断请求端口的信号的上升沿或下降沿做出响应。

根据DSP系统的另一个优选的实施方案，储存于可编程DSP的程序存储器中的预定应用程序包括具有可执行程序指令集的语音识别应用程序，语音识别应用程序被配置为当其被执行时：

读取并分析接收的麦克风信号样本。该功能对于很多应用（比如之前讨论的独立验证接收的麦克风信号样本中目标词或短语的存在）是很有用的，产生了下面详细讨论的有益效果。由于可编程DSP可用的计算和存储资源显著更多，因此可编程DSP的语音识别应用程序可被配置为识别除麦克风电路总成的目标词或短语之外的多个目标词和短语。

语音识别应用程序可进一步被配置为：

如果在接收的麦克风信号样本的片段中识别出目标词或短语，则将配置数据传输至麦克风电路总成以选择如以上讨论的第二功率模式。如此，可编程DSP可充当麦克风电路总成的控制功率模式与可能的其它可编程特性之间的切换的主装置。因此，当语音识别应用程序验证目标词或目标短语的存在时，麦克风电路总成可从第一功率模式切换至第二功率模式，使得麦克风前置放大器和模拟-数字转换器生成高保真度麦克风信号。另一方面，如果语音识别应用程序未在接收的麦克风信号样本的片段中验证出目标词或短语的存在，则语音识别应用程序将优选不向麦克风电路总成传输任何配置数据。如此，麦克风电路总成将保持在第一功率模式下。语音识别应用程序可反过来使可编程数字信号处理器从激活模式切换至睡眠模式。因此，麦克风电路总成的控制器得到的错误的肯定识别结果可在系统层面上被抑制。

附图说明

下面将结合附图更详细地描述本发明的优选的实施方案，其中：

图1是对梅尔倒频谱系数滤波器组中的语音信号的处理的示意图，

图2是根据本发明的第一实施方案的麦克风电路总成的示意图，

图3是根据本发明的第二实施方案的麦克风电路总成的示意图；以及

图4是根据本发明的另一个方面的包括图2或图3所图示的麦克风电路总成的数字信号处理系统的示意图。

具体实施方式

图1是包括感知驱动梅尔倒频谱系数（MFCC）滤波器组106的语音特征提取器中的语音处理步骤的示意图。技术人员将理解，本语音特征提取器可包括用于提取语音特征的可替代感知驱动滤波器组，比如巴克标度滤波器组，或甚至定制标度滤波器组。这些类型的感知驱动滤波器组的各种具体实施方案可应用于以下描述的本发明的实施方案。

包括短句（其包括单个词‘I’、‘am’和‘ambidextorus’）的语音片段被输入通用MFCC滤波器组106中。表示语音片段的一部分或块的数字音频样本集首先应用于合适的窗口功能105，比如汉宁(Hanning)窗或汉明(Hamming)窗。块的尺寸可以是256、512或1024，使得块包括经过FFT处理步骤的512或1024个数字语音样本，典型的FFT尺寸为256至1024。可布置连续的数字语音样本块，使得块的不重叠部分与待提取语音特征的‘实际’时间段对应。语音片段的实际时间段通常在5ms至20ms之间，比如10-15ms。块的频域频谱在处理步骤109中计算，使得以图形方式示出示例性幅度谱。之后，梅尔标度规整滤波器111应用于计算出的幅度谱以将获得的频谱数据映射至与感知相关的频率标度，并获得梅尔间隔频谱。对梅尔频谱和进行对数函数处理步骤115，且对梅尔频谱进行逆FTT(IFFT)或IDCT处理117以提取语音特征向量，每一个语音特征向量优选包括表示经处理语音片段的语音特征的一个或多个倒频谱系数、差量倒频谱系数或二阶差量倒频谱系数。计算出的或提取的语音特征向量被下文描述的麦克风电路总成201的判定电路用于检测词或短语，如下文中进一步详细描述的那样。

图2是根据本发明的第一实施方案的上述麦克风电路总成201的示意图。麦克风电路总成201包括模拟和数字信号处理块或子电路与数字存储器的混合。因此，技术人员将理解，麦克风电路总成201可在两个或更多单独的半导体晶片或芯片，例如主要包括模拟电路的第一半导体晶片和主要包括数字逻辑电路（包括数字存储元件）的第二半导体晶片上实施。然而，在本实施方案中，麦克风电路总成201在以合适的半导体工艺（比如，0.35μm、0.18μm或0.065μm CMOS或BiCMOS）制造的单个混合信号半导体晶片203上实施。该单个混合信号半导体晶片203的尺寸和形状被设置成可容纳于微型ECM的外壳内或与MEMS电容式麦克风的封装集成。

麦克风电路总成201包括耦合至语音识别单元206的信号调整器204。信号调整器204包括耦合至外部可接入输入端子IN用于接收由麦克风205提供的麦克风信号的麦克风前置放大器210。麦克风205可包括用于移动端子，比如移动电话、智能手机等的微型ECM或微型MEMS电容式麦克风。麦克风前置放大器210在音频下优选具有非常大的输入阻抗以使其直接连接至微型ECM或微型MEMS电容式麦克风的电容器换能器元件。该输入阻抗可大于1GΩ。麦克风205生成麦克风信号以响应碰撞声音，尤其是人类语音。信号调整器204还包括被配置为用于接收麦克风前置放大器210的输出信号的模拟-数字转换器212。麦克风前置放大器210可被配置为放大和/或缓冲通过外部可接入输入端子IN接收的麦克风信号。模拟-数字转换器212被配置为将麦克风前置放大器的输出信号转换成对应的具有固定或可编程位数（比如，10位至18位）的麦克风信号样本。此外，还以固定或可编程的采样速率，比如16kHz至48kHz的采样速率生成麦克风信号样本。下面结合本麦克风电路总成的第二实施方案详细讨论采样频率可编程且麦克风信号分辨率为麦克风信号样本的位分辨率形式的模拟-数字转换器的实施。在模拟-数字转换器212的输出生成的麦克风信号样本临时储存于充当语音识别单元206的缓冲器的圆形语音数据缓冲器214中。出于以下讨论的原因，圆形语音数据缓冲器214保持麦克风信号样本的相对较大的连续片段。圆形语音数据缓冲器214可驻存于麦克风电路总成201的合适的数据存储区或片段中，比如寄存器堆或SRAM数据存储区。在本实施方案中，圆形语音缓冲器214的尺寸足够大足以存储表示实时语音的相当长的时间段（例如，大于500ms，更优选大于1秒的时间段）的数字麦克风样本片段。采样速率为16kHz时，这些时间段分别对应于8000个麦克风信号样本和16000个麦克风信号样本。在其它实施方案中，圆形语音缓冲器214的尺寸可小得多，对于(MFCC)滤波器组218的某一块尺寸（比如之前讨论的256至1024个麦克风信号样本的块尺寸）而言，仅能够存储所需数量的麦克风信号样本。圆形语音数据缓冲器214包括两个不同的输出，其中第一输出213耦合至被配置为用于接收和处理麦克风信号样本块以提供表示麦克风信号样本的语音特征的语音特征向量的梅尔倒频谱系数(MFCC)滤波器组218。上文结合图1描述了语音特征向量的提取。在MFCC滤波器组218中执行的处理操作是基于块的，如之前以优选块尺寸为256至1024个麦克风信号样本为例描述的那样。MFCC滤波器组218生成的语音特征被应用于布置在控制器226内被配置为将接收的语音特征向量与保存在参考词和短语词汇表224中的目标特征向量的集合进行比较的判定电路220。在本实施方案中，参考词和短语词汇表224包括仅编码了几个目标词或目标短语的目标特征向量以使数据存储的量最小化并节省半导体晶片区域和制造成本。本实施方案尤其适合被配置为提供外部设备和装置的唤醒功能的麦克风电路总成。本麦克风电路总成201的唤醒功能可有利地用于控制关联外部应用程序处理器例如，容置于共享数字信号处理器电路总成上的应用程序数字信号处理器）的操作模式。为了生成合适的唤醒信号，控制器226被配置为在麦克风电路总成201的外部可接入输出端子INT_O上生成识别信号以响应麦克风信号样本中目标词或目标短语的识别。控制器可通过双向数据通信接口222传输识别信号，使得可通过数据接口222处理在外部可接入输出端子INT_O的识别信号的适当的输入/输出调整。技术人员将理解，该识别信号的特性可根据所讨论的应用改变，尤其是耦合至识别信号的关联外部应用程序处理器的输入端口的某些电平和阻抗要求。下面结合对图4中的数字信号处理器系统的描述进一步详细讨论本发明的与系统集成相关的方面。

本圆形语音数据缓冲器214的实施方案包括耦合至双向数据通信接口222或通信接口的第二输出215。通信接口222被配置为将数字麦克风样本的某些部分（例如，包括选择的所存储语音的片段）传输至外部应用程序处理器，比如可编程数字信号处理器（请参见图4）。存储的数字麦克风样本的一部分被传输至外部应用程序处理器以响应麦克风信号样本中目标词或目标短语的识别，如判定电路220或控制器226所指示的那样。被传输的数字麦克风样本部分包括被识别出的目标词或目标短语，使得外部应用程序处理器能够通过合适的语音识别应用程序独立验证目标词或目标短语的存在，这带来了很多益处，如下面另外详细地描述的那样。在本发明的实施方案中，在麦克风电路总成201被配置为唤醒处理器的情况下，控制器226可被配置为中断所存储的麦克风信号样本从圆形语音缓冲器214至外部应用程序处理器的任何传输直至识别出目标词或目标短语。在判定电路220已识别出目标词或短语并通过之前讨论的识别信号INT_DSP通知应用程序处理器之后，控制器226可适于在上述选择的表示旧麦克风信号样本的语音片段已被传输至外部应用程序处理器之后立即开始传输生成的麦克风信号样本。如此，可进入数字信号处理器系统的正常操作模式，对生成的麦克风信号样本进行连续处理。在可替代的实施方案中，控制器226可被配置为，在识别出目标词或短语并传输识别信号做出响应之后，等待来自外部应用程序处理器的确认在传输的语音片段中识别出目标词或短语的批准信号。仅在接收到批准信号之后，控制器226才开始将储存的麦克风信号样本从圆形语音缓冲器214传输至外部应用程序处理器。批准信号可通过数据通信接口222被传输至控制器226。该数据通信接口222优选为行业标准类型的串行数据接口，比如I²C、SPI等。

在麦克风电路总成201的优选的实施方案中，麦克风前置放大器210、模拟-数字转换器212和MFCC滤波器组218组合的动态范围被调整至适应由微型ECM或微型电容式麦克风传送的麦克风信号的噪音特性。如此，与普通的现成DSP装置（其中在MFCC滤波器组的输入，麦克风信号样本常常以16位、24位或甚至32位表示）相比，MFCC滤波器组218的位数或动态范围可显著减小。在一个这种实施方案中，麦克风前置放大器210与模拟-数字转换器212的组合被配置为传送动态范围小于72dB（例如，小于66dB）的麦克风信号样本，其中动态范围测量为信噪比加上麦克风信号样本的THD，信号取值为相对于麦克风前置放大器210的AC短路输入端子IN的麦克风信号样本的A计权噪音电平的1kHz满标度麦克风输入信号。因此，根据本发明，在MFCC滤波器组218的输入，麦克风信号样本可以12位或更少位数（例如，11位或10位）表示。本发明的发明人已意识到这些动态范围和对应的近似位表示足以表示进入的未失真（例如，未削峰）的语音信号的峰值，并传送未失真的语音共振峰。此外，这些动态范围也足以使低电平语音线索高于麦克风前置放大器210与模拟-数字转换器212的噪音基底，使得可准确地检测共振峰的开始。

因此，麦克风信号样本可在MFCC滤波器组的输入以小于12位，或甚至小于11位的位数表示，这使得MFCC滤波器组中大大节省了电力，这是因为与之相关的数据路径电路、寄存器、存储器等的位宽度减小。通过使模拟-数字转换器212使用低采样频率或速率，例如16kHz或甚至更低的采样频率，可进一步节省电力。后一采样速率将仍允许适当地对目标词或短语进行识别，虽然麦克风信号的保真度不是最佳。

技术人员将理解，降低麦克风前置放大器210、模拟-数字转换器212和MFCC滤波器组212中的功率消耗对于将基于MFCC的语音识别应用于便携式/电池供电的设备（比如，移动电话）而言是重大优势。降低麦克风电路总成201的功率消耗对于如以上描述的基于语音的系统唤醒功能而言当然也是显著的优势，这是因为麦克风电路总成201上包括的信号调节和语音识别硬件必须连续处于激活状态以识别目标词或短语，即便当所讨论的系统或设备正处于睡眠模式。

然而，如果在麦克风电路总成201的正常操作期间仍保持上述对麦克风前置放大器210和模拟-数字转换器212的动态范围和采样频率的约束，即在唤醒信号已被传输至外部应用程序处理器并被其确认之后，则由于麦克风信号样本的采样频率和动态范围受到限制，麦克风电路总成201传送的麦克风信号样本的保真度或音质对于一些应用而言可能无法接受。例如，麦克风电路总成201可能不能容纳日常声音环境中进入的声音的整个动态范围，使得麦克风信号在高声压级下失真的和/或在低声压级下被噪音破坏。该问题在麦克风电路总成的另一个有利实施方案中通过使用麦克风前置放大器与模拟-数字转换器的可切换功率模式得以解决，如下面描述的那样。

图3是根据本发明的第二实施方案的上述麦克风电路总成301的示意图。本麦克风电路总成301包括可与以上描述的第一实施方案的语音识别单元206完全相同的语音识别单元306。本麦克风电路总成301还包括可与第一实施方案的双向数据通信接口222完全相同的双向数据通信接口322。技术人员将理解，语音识别单元306和双向数据传输接口322的功能可与以上讨论的第一实施方案的对应电路的功能完全相同。

本麦克风电路总成301包括信号调整器，其包括各自具有可编程或可配置的功率消耗和音频性能的过采样sigma-delta类型的麦克风前置放大器310和模拟-数字转换器312。麦克风前置放大器310与模拟-数字转换器312各自的可编程设置由各自保存在配置寄存器中的参数值限定。配置寄存器优选布置在控制器（未示出）中，或至少可从控制器读取。控制器可与语音识别单元306集成。包括可编程设置的参数值的配置数据可由通过双向数据传输接口322接收的配置数据限定。该特征允许外部应用程序处理器根据系统要求设置并修改麦克风前置放大器310与模拟-数字转换器312中的至少一个的可编程设置。在可替代的实施方案中，麦克风电路总成301的控制器可被配置为对包括麦克风前置放大器310与模拟-数字转换器312的信号调整器的各可编程设置进行设置和修改。

通过利用可编程设置，控制器被配置为提供麦克风前置放大器 310与模拟-数字转换器312的第一功率模式和第二功率模式，使得麦克风电路总成301也具有相同的功率模式。第一功率模式可以是电路总成301的适合如以上讨论的唤醒系统应用的低功率模式或性能降低的模式。麦克风电路总成301的控制器可被配置为从低功率模式切换至第二功率模式以响应目标词或短语的识别。第二功率模式可以是标称性能模式，与在低功率模式下相比，在标称性能模式下可生成较大动态范围的麦克风信号样本和/或以较高采样速率生成麦克风信号样本，即使是以增大信号调整器的功率消耗为代价。该可切换功率模式特征的优点是当系统处于等待预定声音或语音命令以转换至正常操作的睡眠模式时，麦克风电路总成301的功率消耗非常低。另一方面，由于信号调整器（包括麦克风前置放大器310和模拟-数字转换器312）被切换至标称性能模式，因此信号调整器在低功率模式下的较低性能在正常操作期间不会对麦克风信号造成不利影响。即便后一种操作模式会导致功率消耗增大，该影响在许多系统配置或设置中也是无关紧要的，这是因为外部应用程序处理器（例如，高速可编程DSP）在正常操作期间有可能是系统功率消耗的主要来源，而其它外围系统组件，如LCD显示器等有可能比麦克风电路总成301的功率消耗高得多。在麦克风电路总成的示例性实施方案中，在低功率模式下，麦克风信号样本的动态范围可小于72dB（比如，小于66dB），或小于60dB。在麦克风电路总成的标称性能模式下，数字麦克风信号的动态范围可大于78dB，优选大于84dB以便对高麦克风声压级进行无失真处理。

动态范围被测量为信噪比加上麦克风信号样本的THD，信号取值为相对于麦克风前置放大器的AC短路输入端子的麦克风信号样本的A计权噪音电平的1kHz满标度麦克风输入信号。

为了在麦克风电路总成的低功率模式下进一步减少功率消耗，模拟-数字转换器312生成的麦克风信号样本的采样速率可被设置为相对较低（与标称性能模式相比），比如16kHz或甚至更少。模拟-数字转换器在标称性能模式下生成的麦克风信号样本的采样速率可被设置为等于或高于32kHz，比如44.1kHz、48kHz或96kHz。

在图3中，图示的指向麦克风前置放大器310和模拟-数字转换器312的配置数据箭头319示意性地图示了信号调整器的这些装置的可编程性能。在麦克风前置放大器310中，配置数据可改变参数，比如一个或多个放大级的DC偏置电流。在模拟-数字转换器312中，配置数据可改变参数，如一个或多个级联积分器级的DC偏置电流、量化器的采样频率和/或量化器的级数、抽取滤波器312a、312b的特性等的值。配置参数也可通过停用/激活级联的某些积分器等来控制调制器环路的阶数。

技术人员将理解，引用的采样速率是为非过采样A/D转换器架构时应用的采样速率。对于过采样的A/D转换器架构，尤其是sigma-delta类型的单个位或多位模拟-数字转换器（如本类型的模拟-数字转换器），引用的采样速率为呈现在浮点转换器316的输入的抽取的多位输出信号的采样速率。sigma-delta转换器的量化器本身将通常以高得多的采样速率或频率（比如，2.0MHz至5.0MHz）运行。

浮点转换器316插在以上描述的提供以抽取的多位格式编码的麦克风信号样本的sigma-delta模拟-数字转换器312的输出与语音识别单元306的MFCC滤波器组的输入（未示出）之间。抽取的多位麦克风信号样本的格式优选为二进制定点格式，比如二进制补码、二进制闭集等。因此，浮点转换器316可被配置为在MFCC滤波器组中进行处理之前将麦克风信号样本从二进制定点格式转换成专有二进制浮点格式或标准化二进制浮点格式。在本实施方案中，浮点转换器316被配置为利用尾数和指数的每一个中非常少的位数生成专有二进制浮点格式以使MFCC滤波器组的功率消耗最小化。MFCC滤波器组中以二进制浮点格式表示麦克风信号样本是用于降低其功率消耗的高效机制。这是由包括FFT/iFFT操作的MFCC滤波器组的固有的基于块的处理引起的。由于FFT的众所周知的高内部增益因子，基于FFT的操作中的定点数是很不利的。本语音识别单元306可包括操作FFT操作，其中FFT块尺寸为256至1024个麦克风信号样本。这些FFT块尺寸可要求8至10个保护位以防止内部溢出。如果MFCC滤波器组的输入处的麦克风信号样本以大约10至12位的精度表示，则FFT的高内部增益可因此导致MFCC滤波器组的内部数据路径电路、寄存器等所需的位宽度几乎加倍。后一精度范围大致与之前讨论的模拟-数字转换器312的66至72dB的动态范围对应。可对MFCC滤波器组中利用的专有浮点格式进行有利调整使之适合，使得尾数的分辨率与模拟-数字转换器312传送的麦克风信号样本的动态范围在很大程度上匹配，而指数的分辨率可选择为在很大程度上与选择的FFT块尺寸相关的内部增益匹配。因此，尾数优选以16位或更少的位（比如，12位或更少的位）表示，而指数优选以8位或更少的或（比如，6位或更少的位）表示。在专有浮点格式的一个特定实施方案中，尾数以11位表示，而指数以5位表示。最后，技术人员将理解，使用专有浮点格式还简化了通常遇到的对MFCC滤波器组中执行的某些处理步骤很有用的算法或数学函数（比如，平方根和对数）的计算。

图4是根据本发明的单独方面的包括如图2中详细图示的本麦克风电路总成201的第一实施方案的数字信号处理系统400的示意图。数字信号处理系统400或DSP系统包括通过合适的电导体可操作地耦合至麦克风电路总成201的软件可编程数字信号处理器402。技术人员将理解，软件可编程DSP402与麦克风电路总成201可附接并焊接至合适的载体，比如多层印刷电路板。软件可编程DSP402可包括行业标准微处理器内核，比如与外围电路（比如，存储器、I/O接口、DSP增强等）集成的ARM内核。DSP系统400可形成便携式通信装置，比如智能手机或家庭娱乐设备，比如电视机的一部分。软件可编程DSP402可充当便携式通信装置或家庭娱乐设备的应用程序处理器，且包括现成的微处理器。软件可编程DSP402包括通过布置在载体上或载体内的数据线或导体连接至麦克风电路总成201的数据传输接口222的双向数据接口422。双向数据通信接口422优选包括可与之前讨论的麦克风电路总成201的数据接口222兼容的行业标准类型的串行数据接口，比如I²C、SPI、I²S等。双向数据接口422包括可编程DSP402的耦合至麦克风电路总成201的对应外部可接入数据接口插脚或端子SD和S_CLK的外部可接入插脚或端子SD_I/O和S_CLK。通过双向数据接口的数据交换与可编程DSP402的S_CLK端子提供的串行数据时钟信号同步。

电源电压通过外部可接入端子V_DD和GND提供至麦克风电路总成201。电源电压可以是1.5V至3.0V的直流电压。至软件可编程DSP402的电源电压是通过外部可接入端子V_SS和GND提供的。在本实施方案中，软件可编程DSP402被配置为麦克风电路总成201的主要装置，并通过端子或衬垫M_CLK和M_CLKI向麦克风电路总成201提供主时钟信号。提供至麦克风电路总成201的主时钟信号可具有1.0MHz至5.0MHz的频率。主时钟信号可用作之前讨论的信号调整器204的sigma-delta模拟-数字转换器的时钟源，并为语音识别单元206的数字逻辑提供时钟。

在可替代的实施方案中，麦克风电路总成201包括两个独立的计时系统。第一时钟系统是基于当麦克风电路总成201在其低功率模式下操作等待预定声音或语音命令时提供主时钟信号的内部独立时钟振荡器和发生器。在系统下电期间，这使得软件可编程DSP402的时钟信号产生能力得以缓和。DSP系统400上电之后，麦克风电路总成201的第二时钟系统可被配置为在端子M_CLK上检测由软件可编程DSP402提供的主时钟信号的存在。作为响应，第二时钟系统禁用或超控内部独立时钟发生器并在M_CLK端子上内部分配DSP生成的主时钟信号。如此，可在系统以标称性能模式操作期间实现软件可编程DSP402的时钟信号与麦克风电路总成201的时钟信号之间的有益同步。

如上所述，麦克风电路总成201包括连接至软件可编程DSP402的中断插脚或端子INT_DSP的外部可接入输出端子或衬垫INT_O。如之前所说明的那样，麦克风电路总成201的控制器被配置为在INT_O上生成识别信号以响应进入的语音中的目标词或目标短语的识别。在本实施方案中，该识别信号通过耦合至中断插脚INT_DSP的输入端口在软件可编程DSP402中触发中断。输入端口可响应于识别信号的上升沿或下降沿，或其逻辑状态。当麦克风电路总成201充当软件可编程DSP402的唤醒处理器时，后者可有利地处于之前讨论的睡眠模式，该模式下某些电路模块，比如双向数据接口422、数据路径、时钟网络和发生器等被闲置以使功率消耗最小化。因此，软件可编程DSP402会无法接收或处理麦克风信号样本。同样地，对除麦克风信号之外的其它信号（例如，DSP系统400的其它外围电路或装置（未示出）提供的信号）的处理被中断或取消。软件可编程DSP402可处于该睡眠模式直至其接收到识别信号并做出响应从其睡眠模式切换至激活或正常操作模式。在激活模式下，软件可编程DSP402将根据储存的例行程序或应用程序控制数字信号处理系统400的操作。这些例行程序包括各自的可执行程序指令集且可储存于软件可编程DSP402的合适的程序存储区（未示出）。同样地，相关程序数据可储存于软件可编程DSP402可接入的数据存储器。

技术人员将理解，数据传输接口222可以是被配置为只将数字麦克风样本传输至软件可编程DSP402的数据传输接口222。该类型的专用数字音频接口可包括行业标准I²S接口或定制传输接口，例如基于麦克风信号样本的PDM编码的接口。根据本实施方案，识别信号是通过如图4所图示的独立单独的数据线和衬垫INT_O传输的。然而，在可替代的实施方案中，数据传输接口222被配置为传送数字音频和控制数据，因此其能够传输数字麦克风样本和通知信号。后一类型的数据传输接口222可包括行业标准接口，比如SLIMbus或SPI。

技术人员将理解，以上描述的来自麦克风电路总成201的识别信号可以许多其它方式被提供至软件可编程DSP402。识别信号可例如包括某些通过数据传输接口222和软件可编程DSP402的双向数据接口422传输的数据命令。在该实施方案中，软件可编程DSP402可处于执行被合适配置的应用程序，比如下面描述的用于处理接收的数据命令并对其做出响应的语音识别应用程序的激活模式。

在可替代的实施方案中，软件可编程DSP402和麦克风电路总成201被放置在公共半导体晶片上，虽然是在单独的电压岛或电压域上。使用单独的电压岛或电压域允许软件可编程DSP402被完全充电。在该实施方案中，外部可接入输出端子INT O被布置在公共半导体晶片上的对应衬垫和互连线替代，从而允许麦克风电路总成201跨过电压岛周围的电压屏障将识别信号传输至DSP402。

根据数字信号处理系统400的优选实施方案，软件可编程DSP402包括包括可执行程序指令集，被配置为读取之前讨论的所选择的由麦克风电路总成201通过双向数据接口422传输的语音片段作为对接收识别信号的响应的语音识别应用程序或例行程序。选择的语音片段包括包括被语音识别单元206识别出的目标词和短语的麦克风信号样本。语音识别应用程序的目的是，尤其是验证之前由麦克风电路总成201的语音识别单元206所进行的目标词或短语的识别。由于多种原因，例如通过拒绝语音识别单元206的错误目标词识别提高数字信号处理系统400的语音识别性能，这是很有用的。软件可编程DSP402上运行的语音识别应用程序所执行的语音识别算法可实质上比在语音识别单元206上的硬件或软件内实施的对应算法更为复杂。该可在软件可编程DSP402上执行或运行的复杂程度更高的语音识别算法是可行的，这是因为后者没有语音识别单元206所受的严重功率消耗约束。这些功率消耗约束可导致语音识别单元206的各种信号处理电路中出现某些电路局限以及伴随的性能局限，比如内部字长、存储空间利用、MFCC滤波器组的FFT块尺寸等。同样地，功率消耗约束可限制控制器226中可用于对从MFCC滤波器组218接收的语音向量进行类型最复杂的分析的计算资源。

如果在软件可编程DSP402上执行的语音识别应用程序验证经分析的语音片段实际上包括目标词或短语，则语音识别应用程序优选保持软件可编程DSP402的激活模式，并可进而根据操作系统的程序指令唤醒和/或初始化各种外围组件和电路。语音识别应用程序可例如通过数据接口422、222向麦克风电路总成201的控制器传输某些配置数据。控制器利用这些配置数据将麦克风电路总成201从低功率模式切换至标称性能模式，如之前结合图3所讨论的那样。作为对标称性能模式被激活的响应，麦克风电路总成201开始传输具有更高动态范围以及可能更大的带宽的麦克风信号样本以提高提供至软件可编程DSP402的麦克风信号的感知质量，为便携式通信装置用户带来益处。

在本发明的一个实施方案中，麦克风电路总成201的语音识别单元206在软件可编程DSP402的激活模式下保持激活，尽管对应的语音识别应用程序在软件可编程DSP402上执行。由于多种原因，这是有利的，这是因为语音识别单元206可充当语音识别应用程序的预滤波器，使得语音识别应用程序独自处理被语音识别单元206标记为包括目标词和/或短语的语音片段。如此，由软件可编程DSP402执行的语音识别应用程序可舍弃对麦克风电路总成201提供的大量进入的麦克风信号样本的处理。该特征使得有利地减少了软件可编程DSP402的计算负载和功率消耗。本实施方案通常会要求参考词和短语词汇表（图2中的224）包括一个以上的目标词或短语，对于仅为系统提供唤醒功能的实施方案而言，一个目标词或短语或许已足够。

在本发明的可替代的实施方案中，一旦软件可编程DSP402已进入其激活模式，麦克风电路总成201的语音识别单元206便被停用，而信号调整器保持激活并将表示进入的包括语音的声音的麦克风信号样本传输至软件可编程DSP402。因此，在软件可编程DSP402上运行的语音识别应用程序可继续分析麦克风信号样本以识别目标词或短语。在识别目标词或短语之后，语音识别单元206的停用可由例如麦克风电路总成201的控制器或通过软件可编程DSP402向控制器传输合适的配置数据来完成。因此，本麦克风电路总成201的实施方案尤其适合系统的唤醒功能，且参考词和短语词汇表（图2中的224）可被限制于仅一个或几个表示短唤醒命令的目标词或短语。唤醒命令可以是‘打开’或‘上电’等，使得参考词和短语词汇表使用很少的存储器以降低麦克风电路总成201的制造成本。

Claims

1.一种用于语音识别的系统，包括：

缓冲器，存储表示输入音频信号的样本，

语音特征提取器，具有用于来自所述缓冲器的样本的输入，

语音词汇表，存储表示预定组的语音元素的数据，以及

控制器，包括响应于在由所述语音特征提取器输出的语音特征与所存储的语音元素之间的匹配来生成唤醒信号的判定电路，其中所述控制器被配置为输出指示所述匹配的唤醒信号并输出在对应于所述匹配的存储在所述缓冲器中的样本之后所接收的样本。

2.根据权利要求1所述的系统，包括语音识别系统，响应于所述唤醒信号从低功率模式切换到高功率模式并对表示所述输入音频信号的样本进行语音识别。

3.根据权利要求2所述的系统，其中所述语音词汇表存储比所述语音识别系统能够识别的语音元素少的语音元素。

4.根据权利要求2所述的系统，其中所述缓冲器、所述语音特征提取器、所述语音词汇表、所述控制器和所述语音识别系统被提供在同一个集成电路芯片上。

5.根据权利要求1所述的系统，还包括模拟-数字转换器ADC以生成所述样本，所述ADC至少可在以下模式中操作：

第一功率模式，其中所述ADC以第一采样速率生成样本；以及

第二功率模式，其中所述ADC以比所述第一采样速率高的第二采样速率生成样本。

6.根据权利要求1所述的系统，还包括模拟-数字转换器ADC以生成所述样本，所述ADC至少可在以下模式中操作：

第一功率模式，其中所述ADC生成在第一动态范围的样本；以及

第二功率模式，其中所述ADC生成在第二动态范围的样本，所述第二动态范围高于所述第一动态范围。

7.根据权利要求1所述的系统，其中所述缓冲器是圆形缓冲器，具有在500ms的音频样本和1秒的音频样本之间的容量。

8.根据权利要求1所述的系统，还包括：

麦克风，捕捉输入音频信号；

前置放大器，耦合到所述麦克风；以及

耦合到所述前置放大器的模拟-数字转换器，具有与所述缓冲器通信的输出。

9.根据权利要求1所述的系统，其中所述语音词汇表存储表示一个或多个目标词或目标短语的数据，并且其中所述判定电路被配置为响应于在由所述语音特征提取器输出的语音特征与所述一个或多个目标词或目标短语之间的匹配来生成唤醒信号。

10.根据权利要求1所述的系统，还包括语音识别系统，响应于所述唤醒信号，使用由所述语音特征提取器输出的语音特征和相同或不同的所存储的语音元素来验证所述匹配。

11.根据权利要求1所述的系统，其中所述缓冲器是圆形缓冲器电路，所述语音特征提取器包括梅尔倒频谱系数MFCC滤波器组，并且其中所述圆形缓冲器电路存储供所述MFCC滤波器组分析的音频信号样本块。

12.根据权利要求1所述的系统，还包括便携式通信设备，所述便携式通信设备包括所述缓冲器、所述语音特征提取器、所述语音词汇表和所述控制器。

13.一种用于语音识别的移动系统，所述移动系统包括：

缓冲器电路，被配置为存储来自输入音频信号的音频样本；

存储器电路，包括表示目标词或目标短语的语音数据；

语音特征提取器电路，被配置为从所述缓冲器电路接收音频样本并输出相应的语音特征，以及

控制器电路，被配置为当由所述语音特征提取器电路输出的语音特征对应于表示所述目标词或目标短语的所述语音数据时生成并输出唤醒信号，并且所述控制器电路还被配置为输出在对应于所述目标词或目标短语的所存储的音频样本之后所接收的音频样本。

14.根据权利要求13所述的移动系统，还包括：

应用处理器电路，被配置为从所述控制器电路接收所述唤醒信号，并作为响应，验证来自所述缓冲器电路的所述音频样本对应于所述目标词或目标短语。

15.根据权利要求13所述的移动系统，所述控制器电路被配置为以多种不同的功率消耗模式操作，其中：

在第一功率消耗模式，所述控制器电路被配置为生成所述唤醒信号，以及

在不同的第二功率消耗模式，所述控制器电路被配置为验证来自所述缓冲器电路的所述音频样本和/或由所述语音特征提取器电路输出的语音特征对应于表示所述目标词或目标短语的所述语音数据。