CN106653010A

CN106653010A - 电子装置及其透过语音辨识唤醒的方法

Info

Publication number: CN106653010A
Application number: CN201610334567.1A
Authority: CN
Inventors: 王建傑; 林珩之
Original assignee: Airoha Technology Corp
Current assignee: Dafa Technology Co ltd
Priority date: 2015-11-03
Filing date: 2016-05-19
Publication date: 2017-05-10
Anticipated expiration: 2036-05-19
Also published as: US10147444B2; US20170125036A1; CN106653010B

Abstract

本发明公开了一种电子装置及其透过语音辨识唤醒的方法，该方法包括以下步骤。接收一目前声音信号。撷取目前声音信号的一目前声音特征。判断是否有储存一前一声音信号的一前一声音特征。当储存有前一声音特征时，则根据前一声音特征对应一误接受(False Acceptance)的情况或一误拒绝(False Rejection)的情况以及目前声音特征与前一声音特征之间的一相似度，至少调整一信心门槛值与决定是否唤醒电子装置之一。

Description

电子装置及其透过语音辨识唤醒的方法

技术领域

本发明是有关于一种电子装置及其唤醒的方法，且特别是有关于一种电子装置及其透过语音辨识唤醒的方法。

背景技术

近年来，由于科技的进步，使用者可透过语音进行电子装置的控制，例如使用者可透过语音唤醒电子装置。但是，由于各项因素的影响，往往会造成误接收(False Acceptance)的情况(也就是电子装置在非预期的情况下被唤醒)，或者造成误拒绝(False Rejection)的情况(也就是使用者欲透过语音唤醒电子装置，但却无法成功唤醒电子装置)。举例来说，吵杂的环境声音有可能在非预期的情况下唤醒电子装置。或者，使用者在与别人交谈，但是讲话的声音却在非预期的情况下唤醒电子装置。或者，由于使用者的口音问题而造成无法成功唤醒电子装置。一般来说，欲改善上述问题必须线上调整(On-lineadaptation)关键词组语音模型或预先训练特定使用者的关键词组语音模型，但是线上调整或是预先训练关键词组语音模型的复杂度高，不符合成本考量。且若在调整或是预先训练关键词组语音模型时发生错误，则可能造成关键词组语音模型无法使用。因此，如何有效改善误接收及误拒绝的情况来增加成功唤醒电子装置的机率，乃业界所努力的方向之一。

发明内容

本发明有关于一种电子装置及其透过语音辨识唤醒的方法，可调整透过语音辨识唤醒电子装置的准确率。

根据本发明的一方面，提出一种透过语音辨识唤醒一电子装置的方法。方法包括以下步骤。接收一目前声音信号。撷取目前声音信号的一目前声音特征。判断是否有储存一前一声音信号的一前一声音特征。当储存有前一声音特征时，则根据前一声音特征对应一误接受的情况或一误拒绝的情况以及目前声音特征与前一声音特征之间的一相似度，至少调整一信心门槛值与决定是否唤醒电子装置之一。

根据本发明的另一方面，提出一种电子装置。电子装置包括储存装置、声音接收装置及处理器。声音接收装置用以接收一目前声音信号。处理器用以撷取目前声音信号的一目前声音特征，并判断储存装置中是否有储存一前一声音信号的一前一声音特征。当储存装置储存有前一声音特征时，则处理器根据前一声音特征对应一误接受的情况或一误拒绝的情况以及该声音特征与前一声音特征之间的一相似度，至少调整一信心门槛值与决定是否唤醒该电子装置之一。

为了对本发明的上述及其他方面有更佳的了解，下文特举较佳实施例，并配合附图，作详细说明如下：

附图说明

图1绘示根据本发明一实施例的电子装置的方块图。

图2绘示根据本发明另一实施例的电子装置的方块图。

图3绘示根据本发明一实施例的透过语音辨识唤醒电子装置的方法的流程图。

图4绘示关键词组语音模型的一例的示意图。

图5绘示维特比演算法的示意图。

图6A及6B绘示根据本发明另一实施例的透过语音辨识唤醒电子装置的方法的流程图。

图7绘示动态时间扭曲演算法的示意图。

图8A及8B绘示根据本发明另一实施例的透过语音辨识唤醒电子装置的方法的流程图。

图9绘示根据本发明另一实施例的透过语音辨识唤醒电子装置的方法的流程图。

图10A及10B绘示根据本发明另一实施例的透过语音辨识启动电子装置的特定功能的方法的流程图。

其中，附图标记：

S101～S110、S201～S214、S301～S314、S401～S411、S501～S515：流程步骤

100：电子装置

101：储存装置

102：声音接收装置

103：处理器

104：使用者界面

1021：麦克风

1022：语音活动检测电路

1023：模拟数字转换器

具体实施方式

请参考图1，图1绘示根据本发明一实施例的电子装置100的方块图。电子装置100包括一储存装置101、一声音接收装置102、一处理器103以及选择性的包括一使用者界面104。储存装置101用以储存数据，储存装置101例如为记忆体。声音接收装置102用以接收声音，并将模拟声音信号转换成数字声音信号。储存装置101及声音接收装置102耦接至处理器103，处理器103用以接收声音接收装置102所输出的数字声音信号，并撷取数字声音信号的声音特征，以及存取储存装置101并管理储存于储存装置101的数据。使用者界面104用以接收使用者的输入，以及提供输出信息，使用者界面104例如为触控面板。

请参考图2，图2绘示根据本发明另一实施例的电子装置100的方块图。在此实施例中，声音接收装置102例如可以一麦克风1021、一语音活动检测(Voice Activity Detection,VAD)电路1022及一模拟/数字转换器(Analog toDigital Converter)1023来实施。麦克风1021用以接收声音。模拟/数字转换器1023用以将模拟声音信号转换成数字声音信号。语音活动检测电路1022用以检测声音，并当检测到声音时，发出一信号至处理器103。例如当语音活动检测电路1022检测到声音时，发出信号(例如是中断信号(interrupt))至处理器103以唤醒处理器103或通知处理器103，使处理器103处理模拟/数字转换器1023输出的数字声音信号。

请参考图1及3，图3绘示根据本发明一实施例的透过语音辨识唤醒电子装置100的方法的流程图。在此实施例中，处理器103可判断目前声音信号的目前声音特征是否为误接收或误拒绝的情况，当目前声音特征为误接收或误拒绝的情况时，储存目前声音特征做后续使用。

在步骤S101，声音接收装置102接收一目前声音信号。目前声音信号例如根据使用者目前正在说话的声音所得到。在步骤S102，处理器103撷取目前声音信号的目前声音特征。

在步骤S103，处理器103透过一匹配演算法比较目前声音特征与一关键词组语音模型以得到一信心分数。也就是说，处理器103比较目前声音特征与关键词组语音模型的关键词组的相似程度得到信心分数，以根据信心分数决定目前声音特征是否可以唤醒电子装置100。当目前声音特征与关键词组语音模型的关键词组的相似程度高，则信心分数高，代表使用者讲话的内容与关键词组语音模型的关键词组一样或非常类似，因此使用者可能欲透过语音唤醒电子装置100。当目前声音特征与关键词组语音模型的关键词组的相似程度低，则信心分数低，代表使用者讲话的内容与关键词组语音模型的关键词组差异大，因此使用者并非要透过语音来唤醒电子装置100。

在一实施例中，匹配演算法可为维特比(Viterbi)演算法。请参考图4及5，图4绘示关键词组语音模型的示意图，图5绘示维特比演算法之一例的示意图。假设关键词组语音模型包括六个状态，依序为sil、State 0、State 1、State 2、State 3及sil，其中各个状态上的箭头代表状态的转移，每个状态的转移包含一转移机率(未标示)。在图5中，横轴为目前声音的音框fr0～fr12，纵轴为状态s0～s5，状态s0～s5分别对应至关键词组语音模型的六个状态sil、State 0、State 1、State 2、State 3及sil。处理器103可根据维特比演算法找出一最佳路径使得整段路径的分数为最大，其中最短路径上的每一格的分数的总和即为信心分数。在另一实施例中，匹配演算法可为任意一种演算法，只要可计算目前声音特征与关键词组语音模型中的关键词组的相似程度即可。

在得到信心分数之后，接着进入步骤S104，处理器103判断信心分数是否大于或等于信心门槛值。信心门槛值代表目前声音特征可以唤醒电子装置100的难易度。当信心门槛值越低，则表示目前声音特征与关键词组语音模型中的关键词组的相似程度不需太高即可唤醒电子装置100，因此电子装置100较容易被目前声音特征唤醒。当信心门槛值越高，则表示目前声音特征与关键词组语音模型中的关键词组的相似程度高才可唤醒电子装置100，因此电子装置100较不易被目前声音特征唤醒。

当信心分数大于或等于信心门槛值，则进入步骤S105；当信心分数小于信心门槛值，则进入步骤S106。在步骤S105，处理器103唤醒电子装置100。当电子装置100被唤醒之后，使用者可以各种操作方式操作电子装置100。举例来说，使用者可透过语音操作电子装置100。在另一实施例中，使用者透过按键操作电子装置100、或者透过电子装置100提供的使用者界面104操作电子装置100，例如透过触碰触控荧屏操作电子装置100。在步骤S106，处理器103不唤醒电子装置100。

当处理器103判断信心分数大于或等于信心门槛值而唤醒电子装置100之后(也就是步骤S104及S105之后)。接着进入步骤S107，处理器103判断目前声音特征是否对应误接受的情况。误接受的情况为电子装置100在非预期的情况下被唤醒。其判断方式可包括在目前声音特征唤醒电子装置100后，使用者是否于一特定时间内关掉唤醒的电子装置100。假设在目前声音特征唤醒电子装置100时，使用者于特定时间内关掉唤醒的电子装置100。在这种情况中，代表使用者并不想唤醒电子装置100，但是电子装置100却被目前声音特征唤醒，故可判断为误接受的情况。接着，进入步骤S108，处理器103储存目前声音特征至储存装置101并记录目前声音特征为对应到误接受的情况。

当处理器103判断信心分数小于信心门槛值而不唤醒电子装置100之后(也就是步骤S104及S106之后)。接着进入步骤S109，处理器103判断目前声音特征是否对应误拒绝的情况。误拒绝的情况为使用者欲透过语音唤醒电子装置100，但却无法成功唤醒电子装置100。其判断方式可包括在目前声音特征未唤醒电子装置100，且目前声音特征与关键词组语音模型比较而得到的信心分数小于信心门槛值且其差值在一预定范围内。在这种情况中，由于信心分数小于信心门槛值且其差值在预定范围内(也就是信心分数很接近信心门槛值)，代表使用者想要唤醒电子装置100，但是电子装置100却没有被目前声音特征所唤醒，故可判断为误拒绝的情况。接着，进入步骤S110，处理器103储存目前声音特征至储存装置101并记录目前声音特征为对应到误拒绝的情况。

请参考图1、3、6A及6B，图6A及6B绘示根据本发明另一实施例的透过语音辨识唤醒电子装置100的方法的流程图。在此实施例中，处理器103更判断储存装置101中是否有储存一前一声音信号的一前一声音特征，并当储存装置101储存有前一声音特征时，决定是否根据前一声音特征及目前声音特征唤醒电子装置100。

在声音接收装置102接收一目前声音信号，以及处理器103撷取目前声音信号的一目前声音特征之后(也就是步骤S201及S202之后)，进入步骤S211。

在步骤S211，处理器103判断储存装置101中是否有储存一前一声音信号的一前一声音特征。当储存装置101储存有前一声音特征时，则进入步骤S212；当储存装置101未储存有前一声音特征时，则进入步骤S203。

在步骤S212，处理器103计算目前声音特征与前一声音特征之间的一相似度。也就是说，由于储存装置101储存有前一声音特征，因此处理器103根据前一声音特征及目前声音特征来决定是否唤醒电子装置100。在一实施例中，处理器103可透过动态时间扭曲(Dynamic Time Warping,DTW)演算法计算前一声音特征与目前声音特征之间的相似度。请参考图7，图7绘示动态时间扭曲演算法的示意图。在图7中，P＝P₁,…,P_s,…,P_k，P_s＝(i_s,j_s)，其中P为翘曲函数(Warping function)。处理器103可透过动态时间扭曲演算法计算目前声音特征向量与前一声音特征向量的最短距离，该最短距离即为相似度。在另一实施例中，处理器103可透过任意一种演算法计算前一声音特征与目前声音特征之间的相似度，只要可计算两个声音特征之间的相似度即可，在此并不限制。

在计算出相似度之后，接着进入步骤S213，处理器103判断目前声音特征与前一声音特征之间的相似度是否大于或等于一相似度门槛值。当相似度大于或等于相似度门槛值，则表示目前声音特征与前一声音特征之间的相似度高。也就是，使用者目前说话的内容与前一次说话的内容相似度高；当相似度小于相似度门槛值，则表示目前声音特征与前一声音特征之间的相似度低。也就是，使用者目前说话的内容与前一次说话的内容相似度低。当相似度大于或等于相似度门槛值，则进入步骤S214；当相似度小于相似度门槛值，则进入步骤S203。

在步骤S214，处理器103根据前一声音特征对应误接受的情况或误拒绝的情况，决定是否唤醒电子装置100。也就是说，由于目前声音特征与前一声音特征之间的相似度高，故处理器103根据前一声音特征来决定是否唤醒电子装置100。

当前一声音特征为对应到误接受的情况，且目前声音特征与前一声音特征之间的大于或等于相似度门槛值(也就是目前声音特征与前一声音特征之间的相似度高)时，则处理器103不唤醒电子装置100。由于前一声音特征系对应到误接受的情况，表示使用者前一次说话的内容并非要唤醒电子装置100，但是却唤醒电子装置100。因此，当前一声音特征为对应到误接受的情况且使用者目前说话的内容与前一次说话的内容类似，则处理器103可判断使用者目前并非想要唤醒电子装置100，故不唤醒电子装置100。

当前一声音特征为对应到误拒绝的情况，且目前声音特征与前一声音特征之间的大于或等于相似度门槛值(也就是目前声音特征与前一声音特征之间的相似度高)时，则处理器103唤醒电子装置100。由于前一声音特征系对应到误拒绝的情况，表示使用者前一次说话的内容事实上想要唤醒电子装置100，但是却未成功唤醒电子装置100。因此，当前一声音特征为对应到误拒绝的情况且使用者目前说话的内容与前一次说话的内容类似，则处理器103可判断使用者目前想唤醒电子装置100，故唤醒电子装置100。

在步骤S203，由于储存装置101未储存有前一声音特征或是目前声音特征与前一声音特征之间的相似度小于相似度门槛值，因此处理器103不用根据前一声音特征及目前声音特征来决定是否唤醒电子装置100，而是根据目前声音特征与关键词组语音模型决定是否唤醒电子装置100。处理器103根据目前声音特征与关键词组语音模型决定是否唤醒电子装置100的流程如下所述，于步骤S203，处理器103透过匹配演算法比较目前声音特征与关键词组语音模型以得到信心分数。接着，进入步骤S204，处理器103判断信心分数是否大于或等于信心门槛值，来决定唤醒电子装置100(步骤S205)或不唤醒电子装置100(步骤S206)，并判断目前声音特征为误接受的情况(步骤S207)或误拒绝的情况(步骤S210)。当目前声音特征为误接受的情况或误拒绝的情况时，储存目前声音特征(步骤S208或步骤S210)。

如此一来，当储存装置101储存有前一声音特征时，处理器103透过目前声音特征与前一声音特征之间的相似度以及前一声音特征所对应的情况，即可判断是否要唤醒电子装置100(如步骤S211至S214)，而不用将目前声音特征与关键词组语音模型比较(如步骤S203)，故可降低运算量，提升语音唤醒电子装置100的效率及正确率。

请参考图1、6A、6B、8A及8B，图8A及8B绘示根据本发明另一实施例的透过语音辨识唤醒电子装置100的方法的流程图。在此实施例中，处理器103可根据前一声音特征对应误接受的情况或误拒绝的情况，调整信心门槛值。

步骤S301、S302、S311、S312及S313类似于图6A的步骤S201、S202、S211、S212及S213。不同的是，在步骤S313，处理器103判断目前声音特征与前一声音特征之间的相似度大于或等于相似度门槛值之后，进入步骤S314，处理器103根据前一声音特征对应误接受的情况或误拒绝的情况，调整信心门槛值。

详细来说，在步骤S314，当前一声音特征为对应到误接受的情况，且目前声音特征与前一声音特征之间的大于或等于相似度门槛值(也就是目前声音特征与前一声音特征之间的相似度高)时，处理器103将调高信心门槛值。原因在于由于前一声音特征系对应到误接受的情况，表示使用者前一次说话的内容并非要唤醒电子装置100，但是却唤醒电子装置100。在这种情况下，很有可能是因为信心门槛值太低而导致声音特征容易唤醒电子装置100，故调高信心门槛值，以降低发生误接收的情况。

当前一声音特征为对应到误拒绝的情况，且目前声音特征与前一声音特征之间的大于或等于相似度门槛值(也就是目前声音特征与前一声音特征之间的相似度高)时，处理器103将调低信心门槛值。原因在于由于前一声音特征系对应到误拒绝的情况，表示使用者前一次说话的内容事实上想要唤醒电子装置100，但是却未成功唤醒电子装置100。在这种情况下，很有可能是因为信心门槛值太高而导致声音特征不容易唤醒电子装置100，故调低信心门槛值，以降低发生误拒绝的情况。

于执行完步骤S314之后，接着进入步骤S303。处理器103根据目前声音特征与关键词组语音模型决定是否唤醒电子装置100，流程如下所述，于步骤S303，处理器103透过匹配演算法比较目前声音特征与关键词组语音模型以得到信心分数。接着，进入步骤S304，处理器103判断信心分数是否大于或等于信心门槛值，来决定唤醒电子装置100(步骤S305)或不唤醒电子装置100(步骤S306)，并判断目前声音特征为误接受的情况(步骤S307)或误拒绝的情况(步骤S310)。当目前声音特征为误接受的情况或误拒绝的情况时，储存目前声音特征(步骤S308或步骤S310)。

在本实施例中，当储存装置101储存有前一声音特征时，处理器103可透过目前声音特征与前一声音特征之间的相似度以及前一声音特征所对应的情况来调整信心门槛值。当调高信心门槛值，则可减少误接收的情况；当调低信心门槛值，则可减少误拒绝的情况。如此一来，透过调整信心门槛值可有效地改善误接收及误拒绝的情况以增加在预期的情况下成功唤醒电子装置100的机率及正确率。

请参考图1、3及9，图9绘示根据本发明另一实施例的透过语音辨识唤醒电子装置100的方法的流程图。在此实施例中，处理器103可根据使用者互动的情况调整信心门槛值。步骤S401至S410类似于图3的步骤S101至S110。不同的是，在处理器103判断出目前声音特征对应误接受的情况，并储存目前声音特征至储存装置101(步骤S407及S408)，或是处理器103判断出目前声音特征对应误拒绝的情况，并储存目前声音特征至储存装置101(步骤S409及S410)之后，进入步骤S411。在步骤S411中，处理器103可根据使用者互动的情况调整信心门槛值。例如，处理器103可判断电子装置100每次被唤醒之后是否又马上被使用者关掉(也就是误接受的情况)，或者可判断使用者是否每次都透过一相同的声音内容欲唤醒电子装置100，但都未成功(也就是误拒绝的情况)。若上述情况连续发生，很有可能是因为信心门槛值太高或太低所造成，因此，处理器103可依据上述情况连续发生的次数是否过多来决定是否调整信心门槛值。

具体来说，处理器103判断连续发生误接受情况的次数或连续发生误拒绝情况的次数是否大于一次数门槛值，来决定是否需要调整信心门槛值。次数门槛值可由设计者自行定义。当连续误接受的次数大于次数门槛值，表示很有可能是因为信心门槛值太低而导致声音特征容易唤醒电子装置100，则处理器103调高信心门槛值，以降低发生误接收的情况。当连续误拒绝的次数大于次数门槛值，表示很有可能是因为信心门槛值太高而导致声音特征不容易唤醒电子装置100，则处理器103调低信心门槛值，以降低发生误拒绝的情况。

如此一来，处理器103可依据使用者互动的情况调整信心门槛值，以减少发生误接受或误拒绝的情况。

请参考图1及10A及10B，图10A及10B绘示根据本发明另一实施例的透过语音辨识启动电子装置100的特定功能的方法的流程图。在此实施例中，在电子装置100被唤醒后，处理器103更可透过语音辨识启动电子装置100的特定功能。也就是说，在电子装置100被唤醒后，声音接收装置102更接收一目前声音信号。接着，处理器103更判断储存装置101中是否有储存一前一声音信号的一前一声音特征。当储存装置101中储存有前一声音信号的前一声音特征时，处理器103决定是否根据前一声音特征启动电子装置100的特定功能。当储存装置101中未储存有前一声音信号的前一声音特征时，处理器103决定是否根据目前声音特征启动电子装置100的特定功能。

在步骤S501，唤醒电子装置100。在一实施例中，使用者透过按下按键唤醒电子装置100、或者透过触碰触控荧屏唤醒电子装置100。在另一实施例中，使用者透过语音唤醒电子装置100，透过语音唤醒电子装置100的方法如前所述，在此不多赘述。

在步骤S502，声音接收装置102接收一目前声音信号。使用者可说出特定的语音指令以启动电子装置100的特定功能。举例来说，特定的语音指令至少可包括“配对(Pairing)”、“检查电池(Check battery)”及“是否连线(Am I connected)”其中之一。目前声音信号即为使用者所说的特定语音指令所对应的声音信号。于步骤S503，处理器103撷取目前声音信号的一目前声音特征。

接着进入步骤S504，处理器103判断储存装置101中是否有储存一前一声音信号的一前一声音特征。当储存装置101储存有前一声音特征时，则进入步骤S505；当储存装置101未储存有前一声音特征时，则进入步骤S508。

在步骤S505，处理器103计算目前声音特征与前一声音特征之间的一相似度。在计算出相似度之后，接着进入步骤S506，处理器103判断目前声音特征与前一声音特征之间的相似度是否大于或等于一相似度门槛值。当相似度大于或等于相似度门槛值，则进入步骤S507；当相似度小于相似度门槛值，则进入步骤S508。

在步骤S507，处理器103根据前一声音特征对应误接受的情况或误拒绝的情况，决定是否启动电子装置100的特定功能。当前一声音特征为对应到误接受的情况，且目前声音特征与前一声音特征之间的大于或等于相似度门槛值时，则处理器103不启动电子装置100的特定功能。由于前一声音特征系对应到误接受的情况，表示使用者前一次说话的内容并非要启动电子装置100的特定功能，但是却启动电子装置100的特定功能。因此，当前一声音特征为对应到误接受的情况且使用者目前说话的内容与前一次说话的内容类似，则处理器103可判断使用者目前并非想要启动电子装置100的特定功能，故不启动电子装置100的特定功能。当前一声音特征为对应到误拒绝的情况，且目前声音特征与前一声音特征之间的大于或等于相似度门槛值时，则处理器103启动电子装置100的特定功能。由于前一声音特征系对应到误拒绝的情况，表示使用者前一次说话的内容事实上想要启动电子装置100的特定功能，但是却未成功启动电子装置100的特定功能。因此，当前一声音特征为对应到误拒绝的情况且使用者目前说话的内容与前一次说话的内容类似，则处理器103可判断使用者目前想启动电子装置100的特定功能，故启动电子装置100的特定功能。举例来说，当目前声音特征所对应的特定的语音指令为“配对(Pairing)”，前一声音特征为对应到误拒绝的情况，且目前声音特征与前一声音特征之间的大于或等于相似度门槛值时，则处理器103根据目前声音特征启动确认电子装置100与其他电子装置的无线通讯配对是否成功的功能。

在步骤S508，处理器103透过匹配演算法比较目前声音特征与关键词组语音模型以得到信心分数。也就是说，当储存装置101未储存有前一声音特征或是目前声音特征与前一声音特征之间的相似度低，处理器103不需根据前一声音特征来决定是否启动电子装置100的特定功能。处理器103系将目前声音特征与关键词组语音模型比较，决定是否根据目前声音特征启动电子装置100的特定功能。

在步骤S508得到信心分数之后，接着进入步骤S509，处理器103判断信心分数是否大于或等于信心门槛值。当信心分数大于或等于信心门槛值，则进入步骤S513；当信心分数小于信心门槛值，则进入步骤S510。

在步骤S513，处理器103根据目前声音特征启动电子装置100的特定功能。举例来说，处理器103根据目前声音特征至少启动确认电子装置100与其他电子装置的无线通讯配对是否成功的功能、启动检查电子装置100的电池电量的功能，或启动检查电子装置100的网路是否连线的功能之一。更清楚来说，假设声音接收装置102接收到的目前声音特征所对应的特定的语音指令为“配对(Pairing)”，则处理器103根据目前声音特征启动确认电子装置100与其他电子装置的无线通讯配对是否成功的功能。假设声音接收装置102接收到的目前声音特征所对应的特定的语音指令为“检查电池(Check battery)”，则处理器103根据目前声音特征启动检查电子装置100的电池电量的功能。假设声音接收装置102接收到的目前声音特征所对应的特定的语音指令为“是否连线(Am I connected)”，则处理器103根据目前声音特征启动检查电子装置100的网路是否连线的功能。

接着进入步骤S514，处理器103判断目前声音特征是否对应误接受的情况。误接受的情况为处理器103在非预期的情况下启动电子装置100的特定功能。其判断方式可包括在处理器103透过目前声音特征启动电子装置100的特定功能后，使用者是否于特定时间内关掉该特定功能。若使用者于特定时间内关掉该特定功能，表示使用者并不想启动该特定功能，但是该特定功能却被目前声音特征所启动，故可判断为误接受的情况。接着，进入步骤S515，处理器103储存目前声音特征至储存装置101并记录目前声音特征为对应到误接受的情况。

在步骤S510，处理器103不根据目前声音特征启动电子装置100的特定功能。接着进入步骤S511，处理器103判断目前声音特征是否对应误拒绝的情况。误拒绝的情况为使用者欲透过目前声音启动电子装置100的特定功能，但却无法成功启动该特定功能。其判断方式可包括在目前声音特征未启动电子装置100的特定功能，且目前声音特征与关键词组语音模型比较而得到的信心分数小于信心门槛值且其差值在预定范围内。在这种情况中，由于信心分数小于信心门槛值且其差值在预定范围内(也就是信心分数很接近信心门槛值)，代表使用者想要透过目前声音启动电子装置100的特定功能，但是电子装置100的特定功能却没有被目前声音特征所启动，故可判断为误拒绝的情况。接着，进入步骤S512，处理器103储存目前声音特征至储存装置101并记录目前声音特征为对应到误拒绝的情况。

在此实施例中，语音辨识可被应用在启动电子装置100的特定功能。在电子装置100被唤醒之后，使用者可透过语音辨识启动电子装置100的特定功能，处理器103可根据目前声音特征启动电子装置100的特定功能，并可记录该目前声音特征是因误接受的情况而启动该特定功能，或是误拒绝的情况而未启动该特定功能。因此，当电子装置100接收到使用者下一次声音时，若先前的声音特征已被储存，则处理器103可依据下一次声音的声音特征与储存的声音特征的相似程度，以及储存的声音特征所对应的情况，来决定是否启动电子装置100的特定功能，不需透过比较关键词组语音模型，故可提升透过语音启动电子装置100的特定功能的效率。

本发明上述实施例所公开的透过语音辨识唤醒电子装置的方法，当储存装置储存有前一声音特征时，可根据前一声音特征对应误接受的情况或误拒绝的情况，以及目前声音特征与前一声音特征之间的相似度决定是否唤醒电子装置，因此可提高唤醒电子装置的效率。另外，本发明亦可根据前一声音特征对应误接受的情况或误拒绝的情况，以及目前声音特征与前一声音特征之间的相似度来调整信心门槛值，以减少误接受的情况或误拒绝的情况发生的机率，不需要线上调整关键词组语音模型或预先训练关键词组语音模型即可改善误接受的情况或误拒绝的情况，因此调整的复杂度低，且可有效降低误接受或误拒绝的情况以提高成功唤醒电子装置的机率及正确率。

综上所述，虽然本发明已以较佳实施例公开如上，但其并非用以限定本发明。本发明所属技术领域的技术人员，在不脱离本发明的精神和范围内，当可作各种的更动与修改。因此，本发明的保护范围当视后附的权利要求书保护范围所界定者为准。

Claims

1.一种透过语音辨识唤醒一电子装置的方法，其特征在于，包括：

接收一目前声音信号；

执行一语音辨识唤醒算法；

接收及判断一使用者回馈；以及

调整该语音辨识唤醒算法。

2.一种透过语音辨识唤醒一电子装置的方法，其特征在于，包括：

接收一目前声音信号；

撷取该目前声音信号的一目前声音特征；

判断是否有储存一前一声音信号的一前一声音特征；

其中当储存有该前一声音特征时，则根据该前一声音特征对应一误接受的情况或一误拒绝的情况以及该目前声音特征与该前一声音特征之间的一相似度，至少调整一信心门槛值与决定是否唤醒该电子装置之一。

3.如权利要求2所述的方法，其特征在于，当该前一声音特征为该误接受的情况且该相似度大于或等于一相似度门槛值时，调高该信心门槛值或不唤醒该电子装置。

4.如权利要求2所述的方法，其特征在于，当该前一声音特征为该误拒绝的情况且该相似度大于或等于一相似度门槛值时，调低该信心门槛值或唤醒该电子装置。

5.如权利要求2所述的方法，其特征在于，透过动态时间扭曲演算法计算该相似度。

6.如权利要求2所述的方法，其特征在于，当不储存有该前一声音信号的该前一声音特征时，该方法还包括：

透过一匹配演算法比较该目前声音特征与一关键词组语音模型以得到一信心分数；

判断该信心分数是否大于或等于该信心门槛值；

当该信心分数大于或等于该信心门槛值，则唤醒该电子装置；以及

当该信心分数小于该信心门槛值，则不唤醒该电子装置。

7.如权利要求6所述的方法，其特征在于，于唤醒该电子装置之后，还包括：

判断该目前声音特征是否为一误接受的情况；

其中当该目前声音特征为该误接受的情况时，则储存该目前声音特征及根据一使用者互动调整该信心门槛值。

8.如权利要求6所述的方法，其特征在于，于不唤醒该电子装置之后，还包括：

判断该目前声音特征是否为一误拒绝的情况；

其中当该目前声音特征为该误拒绝的情况时，则储存该目前声音特征及根据一使用者互动调整该信心门槛值。

9.如权利要求8所述的方法，其特征在于，于判断该目前声音特征是否为该误拒绝的情况的步骤中，包括：

判断该信心分数与该信心门槛值的差值是否在一预定范围内；

当该信心分数与该信心门槛值的差值在该预定范围内，则判断该目前声音特征为该误拒绝的情况。

10.如权利要求6所述的方法，其特征在于，该匹配演算法为维特比演算法。

11.如权利要求7或8所述的方法，其特征在于，该使用者互动包括一连续误接受的次数或一连续误拒绝的次数，于根据该使用者互动调整该信心门槛值的步骤中，包括：

判断该连续误接受的次数是否大于一次数门槛值或判断该连续误拒绝的次数是否大于该次数门槛值；

当该连续误接受的次数大于该次数门槛值，则调高该信心门槛值；以及当该连续误拒绝的次数大于该次数门槛值，则调低该信心门槛值。

12.一种电子装置，其特征在于，包括：

一储存装置；

一声音接收装置，用以接收一目前声音信号；

一处理器，用以撷取该目前声音信号的一目前声音特征，并判断该储存装置中是否有储存一前一声音信号的一前一声音特征，当该储存装置储存有该前一声音特征时，则该处理器根据该前一声音特征对应一误接受的情况或一误拒绝的情况以及该目前声音特征与该前一声音特征之间的一相似度，至少调整一信心门槛值与决定是否唤醒该电子装置之一。

13.如权利要求12所述的电子装置，其特征在于，该处理器用以当该前一声音特征为该误接受的情况且该相似度大于或等于一相似度门槛值时，调高该信心门槛值或不唤醒该电子装置。

14.如权利要求12所述的电子装置，其特征在于，该处理器用以当该前一声音特征为该误拒绝的情况且该相似度大于或等于一相似度门槛值时，调低该信心门槛值或唤醒该电子装置。

15.如权利要求12所述的电子装置，其特征在于，该处理器用以透过动态时间扭曲演算法计算该相似度。

16.如权利要求12所述的电子装置，其特征在于，该处理器用以透过一匹配演算法比较该目前声音特征与一关键词组语音模型以得到一信心分数，并判断该信心分数是否大于或等于该信心门槛值；

其中当该信心分数大于或等于该信心门槛值时，该处理器唤醒该电子装置，以及当该信心分数小于该信心门槛值时，该处理器不唤醒该电子装置。

17.如权利要求16所述的电子装置，其特征在于，于该处理器唤醒该电子装置之后，该处理器更用以判断该目前声音特征是否为一误接受的情况，以及当该目前声音特征为该误接受的情况时，则该处理器储存该目前声音特征至该储存装置并根据一使用者互动调整该信心门槛值。

18.如权利要求16所述的电子装置，其特征在于，于该处理器不唤醒该电子装置之后，该处理器更用以判断该目前声音特征是否为一误拒绝的情况，以及当该目前声音特征为该误拒绝的情况时，则该处理器储存该目前声音特征至该储存装置并根据一使用者互动调整该信心门槛值。

19.如权利要求18所述的电子装置，其特征在于，该处理器判断该信心分数与该信心门槛值的差值是否在一预定范围内，当该信心分数与该信心门槛值的差值在该预定范围内，则该处理器判断该目前声音特征为该误拒绝的情况。

20.如权利要求16所述的电子装置，其特征在于，该匹配演算法为维特比演算法。

21.如权利要求17或18所述的电子装置，其特征在于，该使用者互动包括一连续误接受的次数或一连续误拒绝的次数，该处理器更用以判断该连续误接受的次数是否大于一次数门槛值或判断该连续误拒绝的次数是否大于该次数门槛值，当该连续误接受的次数大于该次数门槛值时，调高该信心门槛值，以及当该连续误拒绝的次数大于该次数门槛值时，调低该信心门槛值。