CN105704300A

CN105704300A - 具数字麦克风的声音唤醒侦测装置及相关方法

Info

Publication number: CN105704300A
Application number: CN201510909528.5A
Authority: CN
Inventors: 孙良哲; 郑尧文
Original assignee: MediaTek Inc
Current assignee: MediaTek Inc
Priority date: 2014-12-11
Filing date: 2015-12-10
Publication date: 2016-06-22
Anticipated expiration: 2035-12-10
Also published as: CN105704300B; US9775113B2; US20160171976A1

Abstract

一种声音唤醒侦测装置，运用于一电子产品，该装置包括：一数字麦克风与一应用处理器。数字麦克风根据一子关键词模型参数来辨识一数字声音信号中是否出现一子关键词。当确认出现该子关键词时，产生一第一中断信号，并输出该数字声音信号。应用处理器，选择性地致能以响应该第一中断信号。该应用处理器根据一关键词模型参数来辨识该数字声音信号中是否出现一关键词。当确认出现该关键词时，控制该电子产品由一睡眠状态进入一正常运作状态。

Description

具数字麦克风的声音唤醒侦测装置及相关方法

技术领域

本发明有关于一种侦测器及其控制方法，且特别是有关于一种具数字麦克风的声音唤醒侦测装置及相关方法。

背景技术

现今智能型手机的功能越来越多样化，具声音唤醒功能的智能型手机越来越受到消费者的重视。一般来说，当智能型手机等电子产品进入睡眠状态时，只要用户发出关键词(keyword)的声音，智能型手机即可进行关键词的辨识，并且由睡眠状态进入正常运作状态。换言之，用户无需利用智能型手机或电子产品上其他的功能按键，即可让智能型手机进入正常运作状态。

请参照图1，其所绘示为习知电子产品中的声音唤醒侦测装置示意图。电子产品中的声音唤醒侦测装置100包括：一前端侦测电路(frontenddetectingcircuit)110、一声音辨识处理器(speechrecognitionprocessor)120、以及一主处理器(mainprocessor)130。其中，前端侦测电路110包括一麦克风102与一事件侦测器(eventdetector)104。于睡眠状态时，前端侦测电路110会被供电，使得麦克风102与事件侦测器104持续运作。另外，电子产品由睡眠状态被唤醒的过程需要经过三个侦测程序(detectionphase)。说明如下：

事件侦测器104进行声学事件侦测(acousticeventdetection)。麦克风102为一模拟麦克风，其产生一声音信号Sa至事件侦测器104，而事件侦测器104可侦测声音信号Sa的振幅、信噪比(SNR)或者子频段信噪比(sub-bandSNR)。

当电子产品处于睡眠状态且声音唤醒侦测装置100处于第一侦测程序(firstdetectionphase)时，麦克风102持续地接收外部的声音，并转换为声音信号Sa输入事件侦测器104。当声音信号Sa的振幅大于临限值(threshold)时，事件侦测器104即产生第一中断信号(interrupt)INT1至声音辨识处理器120。

除了侦测声音信号Sa的振幅之外，事件侦测器104也可以侦测声音信号的信噪比(SNR)或者子频段信噪比(sub-bandSNR)。亦即，当声音信号Sa的信噪比(SNR)或者子频段信噪比(sub-bandSNR)大于临限值时，事件侦测器104产生第一中断信号INT1至声音辨识处理器120。

再者，声音辨识处理器120为一种数字信号处理器(DSP)，又称为微小处理器(tinyprocessor)，其作用在于对声音信号Sa进行语音识别。当第一中断信号INT1尚未动作之前，声音辨识处理器120未被供电，所以无法运作，此时尚处于声音唤醒侦测装置100的第一侦测程序。反之，当第一中断信号INT1动作时，声音辨识处理器120被供电，声音唤醒侦测装置100即由第一侦测程序进入第二侦测程序(seconddetectionphase)并且开始执行声音信号Sa的关键词辨识动作。

于第二侦测程序时，声音辨识处理器120在于辨识声音信号Sa是否为关键词的声音。当声音辨识处理器120接收声音信号Sa后，于进行模拟至数字(analog-to-digital)的转换动作后，即可进行关键词辨识动作。当声音辨识处理器120确认声音信号Sa是关键词的声音，声音辨识处理器120即产生第二中断信号INT2至主处理器130。当主处理器130接收到第二中断信号INT2时，声音唤醒侦测装置100即由第二侦测程序进入第三侦测程序(thirddetectionphase)。

反之，当声音辨识处理器120确认声音信号Sa不是关键词的声音，并不会动作第二中断信号INT2至主处理器130，并且声音辨识处理器120会再次被停止供电。此时，声音唤醒侦测装置100即由第二侦测程序进入第一侦测程序，并且等待前端侦测电路110再次产生第一中断信号INT1。

再者，于第三侦测程序时，主处理器130被供电，并进一步使得智能型手机进入正常运作状态。

由以上的说明可知，习知智能型手机中，于第一侦测程序时，前端侦测器110仅对声音信号Sa进行声音事件的判断，并不会对声音信号Sa进行关键词的辨识。而于第二侦测程序时，声音辨识处理器120才会开始对声音信号Sa进行关键词的辨识。

一般来说，习知声音唤醒侦测装置100中，仅前端侦测电路110运作于第一侦测程序时，消耗的电能最小，大约需要1mA的电流。于前端侦测电路110与声音辨识处理器120同时在运作的第二侦测程序时，电能次之，大约需要6mA的电流。

然而，习知声音唤醒侦测装置100还是存在一些缺点。举例来说，假设智能型手机于睡眠状态时处于吵杂的环境下，麦克风102将持续收到不是关键词的声音，。因此，前端侦测电路110被噪音影响而常常产生第一中断信号INT1。因此，声音唤醒侦测装置100会持续地在第一侦测程序与第二侦测程序之间运作。因此，一整天下来其电能损耗(dayofusepowerconsumption)也是非常可观。

发明内容

本发明的主要目的在于提出一种具数字麦克风的声音唤醒侦测装置及相关方法。当电子装置处于睡眠状态时，提供更准确(accurate)的第一侦测程序，用以有效地降低声音唤醒侦测装置执行第二侦测程序的次数，并降低电子装置的日电能损耗(dayofusepowerconsumption)。

本发明有关于一种声音唤醒侦测装置，运用于一电子产品，该装置包括：一数字麦克风，根据一子关键词模型参数来辨识一数字声音信号中是否出现一子关键词，并且于确认出现该子关键词时，产生一第一中断信号，并输出该数字声音信号；以及一应用处理器，选择性地致能以响应该第一中断信号，该应用处理器根据一关键词模型参数来辨识该数字声音信号中是否出现一关键词，并且于确认出现该关键词时，控制该电子产品由一睡眠状态进入一正常运作状态。

本发明有关于一种数字麦克风，包括：一内部振荡器，产生一频率信号；一模拟数字转换器，将一模拟讲话声音转换成为一数字声音信号；一子关键词判断电路，根据该子关键词模型参数来辨识该数字声音信号中是否出现该子关键词，并且于确认出现该子关键词时，产生该第一中断信号；一先进先出缓冲器，于该第一中断信号产生时，暂存该数字声音信号；以及一第一接口控制模块，输出该第一中断信号以及该数字声音信号至该应用处理器；其中，该模拟数字转换器、该子关键词判断电路、该先进先出缓冲器与该第一接口控制模块根据该频率信号来运作。

本发明有关于一种声音唤醒侦测方法，包括下列步骤：于一电子产品进入一睡眠状态后，利用一数字麦克风来产生一数字声音信号，并根据一子关键词模型参数来辨识该数字声音信号；当该数字声音信号中出现一子关键词的声音时，选择性地致能一应用处理器，并根据一关键词模型参数来辨识该数字声音信号；当该数字声音信号中出现一关键词的声音时，唤醒该电子产品以进入一正常运作状态。

为了对本发明的上述及其他方面有更佳的了解，下文特举较佳实施例，并配合所附图式，作详细说明如下：

附图说明

图1所绘示为习知电子产品中的声音唤醒侦测装置示意图。

图2A与图2B为本发明电子产品中声音唤醒侦测装置的实现概念示意图。

图3所绘示为本发明电子产品中的声音唤醒侦测装置的第一实施例。

图4A至图4C为根据本发明第一实施例声音唤醒侦测装置来实现中的子关键词判断电路。

图5所绘示为本发明电子产品中的声音唤醒侦测装置的第二实施例。

图6A与图6B所绘示为本发明子关键词判断电路示意图

图7所绘示为本发明电子产品中的声音唤醒侦测方法流程图。

具体实施方式

本发明是一种语者相关(speakerdependent)的声音唤醒侦测装置与相关方法。利用训练动作(trainingaction)来建立子关键词模型参数(subwordmodelparameters)以及关键词的模型参数(keywordmodelparameters)，分别运用于第一侦测程序以及第二侦测程序。

请参照图2A与图2B，其所绘示为本发明电子产品中声音唤醒侦测装置的实现概念示意图。声音唤醒侦测装置包括一前端侦测电路210、声音辨识处理器220、与一主处理器(mainprocessor，未绘示)。当电子产品于正常运作状态时，利用主处理器来产生关键词模型参数(keywordmodelparameters)232以及子关键词模型参数(subwordmodelparameters)234。当电子产品于于睡眠状态时，子关键词模型参数234即可用于第一侦测程序，而关键词模型参数232即可运用于第二侦测程序。

如图2A所示，于电子产品的正常运作状态时，主处理器可以执行一训练动作(trainingaction)，用以接收关键词的声音信号Sa。以下系假设关键词为“Hi-Patent”，且“Hi”为子关键词来进行说明。

于训练动作时，主处理器中的模型参数估算单元(modelparameterestimationunit)230即接收用户所发出关键词“Hi-Patent”的声音信号Sa后，会利用先进行特征撷取动作(featureextracting)以撷取声音信号Sa中的各种声音特征(voicefeature)，例如频率、音量、噪音等等特征。接着利用特定的语音识别模型来对声音信号Sa建立关键词模型参数232。基本上，特定的语音识别模型可为隐藏式马可夫模型(HiddenMarkovModel，简称HMM)。当然，本发明并不限定于上述的HMM，也可以是高斯混合模型(GaussianMixtureModel，简称GMM)、支持向量机制(SupportVectorMachine，SVM)模型或者神经网络(NeuralNet)模型等等的其他语音识别模型。

再者，为了要建立子关键词模型参数234，模型参数估算单元230更需要进行分段动作(segmentation)。分段动作系基于关键词“Hi-Patent”的HMM，运用维特比译码算法来分离关键词中的“Hi”与“Patent”。

于分段完成之后，模型参数估算单元230利用获得的“Hi”子关键词，以HMM来建立子关键词模型参数。当然，上述分段动并不限定于将关键词分段为“Hi”以及“Patent”，也可以分段为“Hi-Pa”以及“tent”。

如图2B所示，于电子产品的睡眠状态时且声音唤醒侦测装置处于第一侦测程序时，前端侦测电路210利用子关键词模型参数234先行辨识声音信号Sa中是否有子关键词“Hi”的声音。当前端侦测电路210确认声音信号Sa中有出现子关键词“Hi”的声音后，即产生一第一中断信号INT1至声音辨识处理器220。

再者，声音辨识处理器220为一种数字信号处理器(DSP)，又称为微小处理器(tinyprocessor)，其作用在于对声音信号Sa进行语音识别。同理，当第一中断信号INT1未动作之前，声音辨识处理器220未被供电，所以无法运作，此时尚处于第一侦测程序。反之，当第一中断信号INT1动作时，声音辨识处理器220被供电后即由第一侦测程序进入第二侦测程序。

于第二侦测程序时，声音辨识处理器220即根据关键词模型参数232来辨识声音信号Sa是否为关键词“Hi-Patent”的声音。当声音辨识处理器220确认声音信号Sa是关键词“Hi-Patent”的声音，声音辨识处理器220即产生第二中断信号INT2至主处理器，并第二侦测程序由进入第三侦测程序。

反之，当声音辨识处理器220辨识声音信号Sa不是关键词“Hi-Patent”的声音，并不会动作第二中断信号INT2至主处理器，并且声音辨识处理器220会再次被停止供电。此时，由第二侦测程序进入第一侦测程序，并且等待前端侦测电路210再次产生第一中断信号INT1。

由以上的说明可知，本发明系于第一侦测程序时，先行进行声音信号Sa中的子关键词辨识。因此，可以有效地降低声音唤醒侦测装置执行第二侦测程序的次数，并降低电子装置的日电能损耗(dayofusepowerconsumption)。

参照图3，其所绘示为本发明电子产品中的声音唤醒侦测装置的第一实施例。电子产品中的声音唤醒侦测装置300包括：前端侦测电路310、声音辨识处理器320、以及主处理器330。其中，前端侦测电路310包括麦克风312、声音解编器(audiocodec)314与子关键词判断电路316。麦克风312产生的模拟的声音信号，经由声音解编器314转换为数字的声音信号Sa。

再者，主处理器330连接至一主存储器334、声音辨识处理器320连接至一子内存322、子关键词判断电路316中有一内嵌内存(embeddedmemory，未绘示)。当然，本发明并不限定于上述内存的连接方式，主存储器334与子内存322也可以分别为主处理器330与声音辨识处理器320中的内嵌内存，而子关键词判断电路316也可以连接一外部内存。

于电子产品的正常运作状态时，使用者可控制主处理器330执行一训练动作。于训练动作时，主处理器330中的模型参数估算单元332即接收用户所发出关键词“Hi-Patent”的声音信号Sa后，利用HMM模型来对声音信号Sa建立关键词模型参数以及子关键词模型参数。训练动作完成后，关键词模型参数以及子关键词模型参数储存于主存储器334。其中，主存储器334可为非挥发式内存(non-volatilememory)。

当电子产品即将进入睡眠状态之前，主存储器334中的关键词模型参数以及子关键词模型参数会被读取并储存于子内存332以及子关键词判断电路316的内嵌内存。

当电子产品进入睡眠状态时，前端侦测电路310会被供电，使得麦克风312、声音解编器314与子关键词判断电路316持续运作。根据本发明的第一实施例，电子产品由睡眠状态被唤醒的过程需要经过三个侦测程序(detectionphase)。说明如下：

在睡眠状态时，前端侦测电路310于第一侦测程序时，利用子关键词模型参数先行辨识声音信号Sa中是否有子关键词“Hi”的声音。当前端侦测电路310确认声音信号Sa中有出现子关键词“Hi”的声音后，即产生一第一中断信号INT1至声音辨识处理器320。

换句话说，于第一侦测程序，子关键词判断电路316会根据子关键词模型参数来辨识声音信号Sa中是否出现子关键词“Hi”的声音。当子关键词判断电路316确认声音信号Sa中出现子关键词“Hi”的声音时，即产生一第一中断信号INT1至声音辨识处理器320，并进入第二侦测程序；反之，当声音信号Sa中未出现子关键词“Hi”的声音时，即维持在第一侦测程序。

再者，声音辨识处理器320为一种数字信号处理器(DSP)，又称为微小处理器，其作用在于对声音信号Sa进行语音识别。当第一中断信号INT1未动作之前，声音辨识处理器320未被供电，所以无法运作，此时尚处于第一侦测程序。反之，当第一中断信号INT1动作时，可以选择性地致能声音辨识处理器320以响应第一中断信号INT1，当声音辨识处理器320被供电并致能后即进入第二侦测程序。

于第二侦测程序时，声音辨识处理器320直接接收数字的声音信号Sa并进行辨识。此时，声音辨识处理器320根据关键词模型参数来辨识声音信号Sa是否为关键词“Hi-Patent”的声音。当声音辨识处理器320确认声音信号Sa是关键词“Hi-Patent”的声音，声音辨识处理器320即产生第二中断信号INT2至主处理器330，并第二侦测程序由进入第三侦测程序。

反之，当声音辨识处理器320辨识出声音信号Sa不是关键词“Hi-Patent”的声音，并不会动作第二中断信号INT2至主处理器330，并且声音辨识处理器320会再次被停止供电。此时，由第二侦测程序进入第一侦测程序，并且等待前端侦测电路310再次产生第一中断信号INT1。

再者，于第三侦测程序时，主处理器330被供电，并进一步使得电子产品进入正常运作状态。

由第一实施例的内容可知，当电子产品即将进入睡眠状态之前，主存储器334中的关键词模型参数以及子关键词模型参数会被读取并储存于子内存332以及子关键词判断电路316的内嵌内存。再者，本发明的声音辨识处理器320更可基于环境因素来修改子关键词模型参数。举例来说，声音辨识处理器320由声音信号Sa中获得周围环境的信噪比(SNR)、噪音的形态(noisetype)等等信息后，更进一步地将子关键词模型参数变更为修正的子关键词模型参数(modifiedsubwordmodelparameter)。之后，将修正的子关键词模型参数传递至子关键词判断电路316的内嵌内存。

换言之，本发明的子关键词模型参数也可先经由声音辨识处理器320变更为修正的子关键词模型参数后，再储存于子关键词判断电路316的内嵌内存。如此，于第一侦测程序时将会有更佳的子关键词辨识率。

请参照图4A至图4C，其所绘示为根据本发明第一实施例声音唤醒侦测装置来实现中的子关键词判断电路。子关键词判断电路的处理程序包括二个阶段(stage)。如4A图所示，第一阶段为子段声音动作侦测阶段(sub-bandvoiceactivitydetectionstage，简称sub-bandVADstage)316a；第二阶段为子关键词侦测阶段(subworddetectionstage)316b。

在第一阶段为子段声音动作侦测阶段316a，可以提供例如256ms的声音缓冲器(audiobuffer)以及将0～6KHz频段分为10个子段(sub-band)。当声音动作侦测(VAD)结果指出声音信号Sa中包括声音，例如人类的声音。触发信号Tr会产生并启动子关键词侦测阶段316b。

在子关键词侦测阶段316b时，系利用训练动作所产生的子关键词模型参数来侦测声音信号Sa。亦即，判断声音信号Sa中的说话框架(speechframe)是否符合(match)子关键词模型参数中的子关键词“Hi”。如果于子关键词侦测阶段316b确认声音信号Sa有包含子关键词“Hi”的声音，于子关键词侦测阶段316b即可产生产生第一中断信号INT1。

请参照图4B，其为运用于子段声音动作侦测阶段(VADstage)316a的子段子段声音动作侦测结构(sub-bandVADframework)示意图。基本上，子段声音动作侦测阶段(VADstage)316a中，杂音(noise)以及说话(speech)的准位会持续的被更新。于S1中，多相位滤波器库(polyphasefilterbank)，例如QMF滤波器库，系用来侦测声音信号Sa并产生输出值X(n,k)。多相位滤波器库的输出值X(n,k)是用来指示第k子段中第n个框架的数值。

于S2中，根据输出值X(n,k)来定义初始化每个段的杂音参考数值(initialnoisereferencevalue)Nref(k)。并于S3中，根据每个段的杂音参考数值Nref(k)来计算平滑信号(smoothedsignal)S(n,k)。

当每个段的杂音参考数值Nref(k)与平滑信号S(n,k)获得之后，第k子段中第n个框架的信噪比SNR(n,k)即可获得[亦即，SNR(n,k)＝S(n,k)-Nref(k)]。换言之，于S4中，系利用信噪比来进行框架基础的声音动作侦测(frame-basedVADbySNR)。接着，根据每个段的杂音参考数值Nref(k)以及信噪比临限值(SNRthreshold，SNRthd)来计算出平均信噪比值(averageSNRvalue，ASNR(n))。其中，于S10中，可进行动态临限值调整并根产生触发临限值(triggerthreshold，Trthd)与信噪比临限值SNRthd。于S4中，当平均信噪比值ASNR(n)大于触发临限值Trthd时，第n框架的声音动作侦测VAD(n)设定为1。反之，当平均信噪比值ASNR(n)小于触发临限值Trthd时，第n框架的声音动作侦测VAD(n)设定为0。

于S5中的说话框架路径(speechframepath)上，于声音动作侦测VAD(n)为1时，说话计数值(speechcount)加1。于S6中，于判断出说话计数值大于触发临限值Trthd时，产生触发信号Tr至子关键词侦测阶段316b。于S7与S8中，于判断出说话计数值大于强制噪音临更新临限值(forcenoiseupdatethreshold)时，杂音参考数值Nref(k)需要被强制更新。

于S9中的噪音框架路径(noiseframepath)上，当声音动作侦测VAD(n)为0时，杂音参考数值Nref(k)应该要更新。

根据上述之说明，信噪比临限值SNRthd以及触发临限值Trthd系基于环境噪音准位(environmentnoiselevel)来进行调整。举例来说，处于较高的环境噪音准位时，需要调低信噪比临限值SNRthd以及触发临限值Trthd。

请参照图4C，其为运用于子关键词侦测阶段316b的子关键词侦测结构(subworddetectionframework)。于P1中，于第n框架时，子关键词侦测阶段316b被触发信号Tr所启动。因此，相关于频域分布(frequencydistribution)以及时域分布(temporaldistribution)的二个向量(vector)会被计算出来。

于P2中，对二个向量进行余弦相似度比较(cosinesimilaritycomparison)用以获得频域以及时域的相似度。亦即，根据子关键词模型参数，将计算出的频域与时域的信息和频率临限值(frequencythresholdfthd)与时域临限值(timethresholdtthd)进行比较后即可选择性地产生第一中断信号INT1。其中，频率临限值fthd与时域临限值tthd是根据不同噪音以及信噪比值来动态的调整临限值。

请参照图5，其所绘示为本发明电子产品中的声音唤醒侦测装置的第二实施例。在第二实施例中，系设计一数字麦克风(digitalmicrophone)来代替前端侦测电路，并且将第一实施例中的主处理器与语音识别处理器整合成为一应用处理器(applicationprocessor)。

电子产品中的声音唤醒侦测装置400包括：数字麦克风410以及应用处理器450。数字麦克风410中包括：内部振荡器(internaloscillator)402、模拟数字转换器(analog-to-digitalconverter，ADC)404、子关键词判断电路406、先进先出缓冲器(first-in-first-outbuffer，FIFObuffer)408与第一接口控制模块(interfacecontrolmodule)409。

数字麦克风410中的内部振荡器402系提供频率信号至数字麦克风410内所有的电路。由于频率信号系由数字麦克风410的内部振荡器402自行供应，不需要接收外部的频率信号，因此可以有效地降低电子产品的电能损耗。再者，模拟数字转换器404用以将模拟讲话声音(analogspeechsound)转换成为数字声音信号Sa。而先进先出缓冲器408可暂存数字声音信号Sa，并且将数字声音信号Sa传递至应用处理器450。

再者，子关键词判断电路406侦测数字声音信号Sa中是否出现子关键词的声音。相同于第一实施例，子关键词判断电路406中有一内嵌内存，用来储存应用处理器450所输出的子关键词模型参数。并且，于判断出数字声音信号Sa已出现子关键词的声音时，子关键词判断电路406可产生第一中断信号INT1至应用电路450。

另外，第一接口控制模块409信号连接至应用处理器450，可控制数字麦克风410中接口传输(interfacetransmission)的启动与关闭。

根据本发明的第二实施例，应用处理器450包括：第二接口控制模块452、用户训练模块(user-trainingmodule)454、关键词辨识模块(keywordrecognitionmodule)456与数字麦克风启动控制模块(D-micactivationcontrolmodule)458。

数字麦克风启动控制模块458可根据电子装置的状态来启动数字麦克风410，并且控制其运作状态。举例来说，数字麦克风启动控制模块458可于电子产品的正常运作状态时，控制数字麦克风410中的子关键词判断电路406被禁能(disable)。或者，数字麦克风启动控制模块458可于电子产品的睡眠状态时，启动数字麦克风410中的所有电路。

用户训练模块454系于电子产品的正常运作状态下由使用者所启动一训练动作。于训练动作时，用户训练模块中的模型参数估算单元(未绘示)即接收用户所发出关键词的数字声音信号Sa后，利用HMM模型来对数字声音信号Sa建立关键词模型参数以及子关键词模型参数。而训练动作完成后，关键词模型参数以及子关键词模型参数即储存于用户训练模块454中的内存(未绘示)。

关键词辨识模块456系于电子产品的睡眠状态下接收到第一中断信号INT1后开始运作。基本上，应用处理器450于睡眠状态接收到第一中断信号INT1时，选择性地被致能以响应第一中断信号INT1，举例而言，启动关键词辨识模块456。当关键词辨识模块456被致能而启动后，关键词辨识模块456开始接收数字声音信号Sa并根据关键词模型参数来辨识数字声音信号Sa是否为关键词的声音。

第二接口控制模块452信号连接至应用处理器数字麦克风410，可控制应用处理器450中接口传输(interfacetransmission)的启动与关闭。

基本上，数字麦克风410与应用处理器450之间的所有信号皆利用第一接口控制模块409与第二接口控制模块452来进行传递。举例来说，应用处理器450可由第二接口控制模块452将子关键词模型参数传递至数字麦克风410中的第一接口控制模块409，并储存于子关键词判断电路406中的内嵌内存(未绘示)。或者，数字麦克风410可由第一接口控制模块409将第一中断信号与数字声音信号Sa传递至应用处理器450中的第二接口控制模块452。

由以上的说明可知，于正常运作状态时，使用者可控制应用处理器450中的用户训练模块454来执行一训练动作。于训练动作后，用户训练模块454即储存关键词模型参数以及子关键词模型参数储存。

当电子产品即将进入睡眠状态之前，应用处理器450将子关键词模型参数传递至数字麦克风410。并且，数字麦克风启动控制模块458进一步地启动数字麦克风410，并进入睡眠状态。

于电子产品进入睡眠状态时，被启动的数字麦克风410内部的子关键词判断电路会持续地判断数字声音信号Sa中是否出现子关键词的声音。

换句话说，于睡眠状态时，数字麦克风410会利用子关键词模型参数先行辨识数字声音信号Sa中是否有子关键词的声音。当数字麦克风410确认数字声音信号Sa中出现子关键词的声音后，即产生第一中断信号INT1至应用处理器450。反之，当数字声音信号Sa中未出现子关键词的声音时，则无法产生第一中断信号INT1至应用处理器450。

再者，当第一中断信号INT1动作时，数字麦克风410中的先进先出缓冲器408开始输出数字声音信号Sa。换句话说，当第一中断信号INT1未动作之前，数字麦克风410中的先进先出缓冲器408可以处于待机状态(idlestate)，并未输出数字声音信号Sa。

再者，当第一中断信号INT1主张(assert)时，应用处理器450即选择性地致能以响应第一中断信号INT1。当应用处理器450被致能而开始运作后，关键词辨识模块456接收数字声音信号Sa，并根据关键词模型参数来辨识数字声音信号Sa是否为关键词的声音。当关键词辨识模块456确认数字声音信号Sa是关键词的声音时，即可启动电子产品并进入正常运作状态。

反之，当关键词辨识模块456辨识出数字声音信号Sa不是关键词的声音时，应用处理器450停止运作。此时，应用处理器450需等待数字麦克风410再次产生第一中断信号INT1。

再者，于产生第一中断信号INT1时，先进先出缓冲器408可持续接收数字声音信号Sa，并以于一特定的数据传输率(datarate)传送的数字声音信号Sa至关键词辨识模块456进行辨识。再者，上述第二实施例中所有的模块可由硬件电路来实现，也可以由韧体搭配硬件电路来实现。

请参照图6A与图6B，其所绘示为本发明子关键词判断电路示意图。

如图6A所示，子关键词判断电路406包括：特征撷取电路(featureextractor)520、匹配电路(matchingcircuit)530。其中，特征撷取电路520包括：频谱分析器(spectralanalyzer)522与特征正规器(featurenormalizer)524。

于子关键词判断电路406运作时，频谱分析器522撷取数字声音信号Sa中的信息，并转换为声音特征信号(voicefeaturesignal)Ve，代表声音信号声音Sa的声音特性。接着，特征正规器524将声音特征信号Ve进行正规化(normalize)后，产生正规化声音特征信号(normalizedvoicefeaturesignal)Vn至匹配电路530。

再者，匹配电路530根据内存中预先储存的子关键词模型参数来判断所接收的正规化声音特征信号Vn是否为子关键词“Hi”的声音。当匹配电路530确认数字声音信号Sa中有出现子关键词“Hi”的声音后，即产生第一中断信号INT1。反之，当匹配电路530确认数字声音信号Sa中有未出现子关键词“Hi”的声音后，即不会产生第一中断信号INT1。

基本上，上述匹配电路530系运用匹配算法(matchingalgorithm)来进行判断，匹配算法可为动态程序(dynamicprogramming)算法或者维特比译码(viterbidecoding)算法，并没有限制。

如图6B所示，频谱分析器522利用子频带分析技术(sub-bandanalysis)来截取数字声音信号Sa中的信息，并形成多个向量v1、v2、v3，该些向量即组成声音特征信号Ve。

再者，特征正规器524将向量v1、v2、v3中的音量(volume)、信道系效应(channeleffect)、环境噪音(noiseenvironment)进行正规化后成为向量vn1、vn2、vn3，该些向量即组成正规化声音特征信号Vn。

匹配电路530即根据匹配算法与子关键词模型参数来进一步判断正规化声音特征信号Vn是否包含子关键词“Hi”的声音。

参照图7，其所绘示为本发明电子产品中的声音唤醒侦测方法流程图。当电子装置进入睡眠状态(步骤S610)后，利用数字麦克风来接收接收模拟讲话声音并转换成为数字声音信号，并根据子关键词模型参数来辨识声音信号(步骤S612)。当数字声音信号中尚未出现子关键词的声音时(步骤S614)，回到步骤S612。

当数字声音信号中出现子关键词的声音时(步骤S614)，启动应用处理器，并根据关键词模型参数来辨识数字声音信号(步骤S616)。

接着，判断声音信号中是否出现关键词的声音。当数字声音信号中尚未出现关键词的声音时(步骤S618)，回到步骤S612。

当声音信号中出现关键词的声音时(步骤S618)，唤醒电子产品进入正常运作状态(步骤S620)。

根据以上的说明可知，于电子产品的正常运作状态时，使用者可执行一训练动作，并产生关键词的声音至电子产品。而主处理器即可接收用户所发出关键词的声音信号后，进一步建立关键词模型参数以及子关键词模型参数。

而于电子产品进入睡眠状态之前，应用处理器会将子模型参数传递至数字麦克风，供子关键词判断电路来进行辨识。而关键词模型参数则储存于关键词辨识模块中。如此，电子产品于睡眠状态时，即可执行图7的声音唤醒侦测方法流程。

由以上说明可知，本发明提出一种声音唤醒侦测装置与相关方法。于睡眠状态时，先行进行数字声音信号Sa中的子关键词辨识，于确认出数字声音信号Sa中有子关键词的声音之后，才继续进入关键词的辨识。换句话说，本发明可以有效地降低声音唤醒侦测装置执行关键词的辨识的次数，并降低电子装置的日电能损耗(dayofusepowerconsumption)。

综上所述，虽然本发明已以较佳实施例揭露如上，然其并非用以限定本发明。本发明所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可作各种之更动与润饰。因此，本发明之保护范围当视附的权利要求书所界定者为准。

Claims

1.一种声音唤醒侦测装置，运用于一电子产品，该声音唤醒侦测装置包括：

一数字麦克风，辨识一数字声音信号中是否出现一子关键词，并据以产生一第一中断信号；以及

一应用处理器，选择性地致能以响应该第一中断信号。

2.如权利要求1所述的装置，其中该数字麦克风根据储存于一第一内存中的一子关键词模型参数来辨识该数字声音信号中是否出现该子关键词，并且于确认出现该子关键词时，产生该第一中断信号，并输出该数字声音信号。

3.如权利要求1所述的装置，其中响应该第一中断信号而致能后，该应用处理器辨识该数字声音信号中是否出现一关键词，并且于确认出现该关键词时，产生一第二中断信号以控制该电子产品由一睡眠状态进入一正常运作状态。

4.如权利要求3所述的装置，其中该应用处理器根据储存于一第二内存中的该关键词模型参数来辨识该数字声音信号中是否出现该关键词，并且于确认出现该关键词时，产生该第二中断信号。

5.如权利要求4所述的装置，其中该数字麦克风包括：

一内部振荡器，产生一频率信号；

一模拟数字转换器，将一模拟讲话声音转换成为一数字声音信号；

一子关键词判断电路，根据该子关键词模型参数来辨识该数字声音信号中是否出现该子关键词，并且于确认出现该子关键词时，产生该第一中断信号；

一先进先出缓冲器，于该第一中断信号产生时，暂存该数字声音信号；以及

一第一接口控制模块，输出该第一中断信号以及该数字声音信号至该应用处理器；

其中，该模拟数字转换器、该子关键词判断电路、该先进先出缓冲器与该第一接口控制模块根据该频率信号来运作。

6.如权利要求5所述的装置，其中该子关键词判断电路包括：

一特征撷取电路，撷取该数字声音信号中的信息，并产生一正规化声音特征信号；以及

一匹配电路，根据该子关键词模型参数来判断该正规化声音特征信号中是否出现该子关键词，并且于确认出现该子关键词时，产生该第一中断信号。

7.如权利要求6所述的装置，其中该特征撷取电路包括：

一频谱分析器，截取该数字声音信号中的信息，并形成多个向量，且该些向量组成一声音特征信号；以及

一特征正规器将该些向量进行一正规化后，产生该正规化声音特征信号。

8.如权利要求5所述的装置，其中该应用处理器包括：

一第二接口控制模块，接收该第一接口控制模块的该第一中断信号与该数字声音信号；

一用户训练模块，于该正常运作状态时，根据该数字声音信号产生该关键词模型参数与该子关键词模型参数；

一关键词辨识模块，根据该关键词模型参数来辨识该数字声音信号中是否出现该关键词，并且于确认出现该子关键词时，控制该电子产品由该睡眠状态进入该正常运作状态；以及

一数字麦克风启动控制模块，根据该电子装置的状态来选择性地启动或关闭该数字麦克风。

9.如权利要求5所述的装置，其中该子关键词判断电路包括：一子段声音动作侦测阶段以及一子关键词侦测阶段，且当该数字声音信号中包含声音时，该子段声音动作侦测阶段触发该子关键词侦测阶段。

10.如权利要求9所述的装置，其中该子段声音动作侦测阶段系根据动态更新的噪音与说话准位来侦测该数字声音信号。

11.如权利要求9所述的装置，其中该子关键词侦测阶段系将计算出的频域与时域的信息和一频率临限值与一时域临限值进行比较。

12.一种数字麦克风，运用于一电子装置，该数字麦克风包括：

一内部振荡器，产生一频率信号；

一模拟数字转换器，将一模拟讲话声音转换成为一数字声音信号；以及

一子关键词判断电路，根据一子关键词模型参数来辨识该数字声音信号中是否出现一子关键词。

13.如权利要求12所述的数字麦克风，其中于该子关键词判断电路确认出现该子关键词时，产生一第一中断信号。

14.如权利要求13所述的数字麦克风，更包括

15.如权利要求13所述的数字麦克风，其中该子关键词判断电路包括：

16.如权利要求15所述的数字麦克风，其中该特征撷取电路包括：

17.如权利要求12所述的数字麦克风，其中该子关键词判断电路包括：一子段声音动作侦测阶段以及一子关键词侦测阶段，且当该数字声音信号中包含声音时，该子段声音动作侦测阶段触发该子关键词侦测阶段。

18.如权利要求17所述的数字麦克风，其中该子段声音动作侦测阶段系根据动态更新的噪音与说话准位来侦测该数字声音信号。

19.如权利要求17所述的数字麦克风，其中该子关键词侦测阶段系将计算出的频域与时域的信息和一频率临限值与一时域临限值进行比较。

20.一种声音唤醒侦测方法，包括下列步骤：

当一电子产品进入一睡眠状态后，利用一数字麦克风来产生一数字声音信号；

当该数字声音信号中出现一子关键词的声音时，选择性地致能一应用处理器，并根据一关键词模型参数来辨识该数字声音信号；以及

当该数字声音信号中出现一关键词的声音时，该应用处理器唤醒该电子产品以进入一正常运作状态。

21.如权利要求20所述的方法，其中该数字麦克风根据一子关键词模型参数来辨识该数字声音信号。

22.如权利要求20所述的方法，其中该应用处理器根据一关键词模型参数来辨识该数字声音信号。

23.如权利要求22所述的方法，其中当该数字声音信号中出现该子关键词的声音时，该数字麦克风产生一第一中断信号至该应用处理器，使得该应用处理器选择性地致能以响应该第一中断信号。

24.如权利要求22所述的方法，其中当该数字声音信号中未出现该关键词的声音时，该数字麦克风来继续根据该子关键词模型参数来辨识该数字声音信号。

25.如权利要求22所述的方法，其中于该数字麦克风产生该数字声音信号之后，更包括下列步骤：

撷取该数字声音信号中的信息，并产生一正规化声音特征信号；以及

根据该子关键词模型参数来判断该正规化声音特征信号中是否出现该子关键词。

26.如权利要求25所述的方法，更包括下列步骤：

截取该声音信号中的信息，并形成多个向量，且该些向量组成一声音特征信号；以及

将该些向量进行一正规化后，产生该正规化声音特征信号。

27.如权利要求22所述的方法，更包括下列步骤：

当该电子产品于该正常运作状态下，该应用处理器中的一模型参数估算单元接收一用户所发出该关键词的该数字声音信号后，建立该关键词模型参数以及该子关键词模型参数。