CN107909996B

CN107909996B - 语音辨识方法以及电子装置

Info

Publication number: CN107909996B
Application number: CN201711063781.9A
Authority: CN
Inventors: 张国峰; 魏韬
Original assignee: Via Technologies Inc
Current assignee: Via Technologies Inc
Priority date: 2017-11-02
Filing date: 2017-11-02
Publication date: 2020-11-10
Anticipated expiration: 2037-11-02
Also published as: CN107909996A

Abstract

语音辨识方法以及电子装置。该语音辨识方法适用于电子装置。所述电子装置适于分析语音信息，以判断所述语音信息是否为关键词。所述语音辨识方法包括：接收所述语音信息，并且分析所述语音信息以取得多个语音特征；配置对应于所述关键词的第一分析模型以及对应于任意词的第二分析模型；依据所述关键词产生相似词，并且建立对应于所述相似词的第三分析模型；以及藉由所述第一分析模型、所述第二分析模型以及所述第三分析模型来分析所述语音信息的所述多个语音特征，以判断所述语音信息是否包括所述关键词。

Description

语音辨识方法以及电子装置

技术领域

本发明涉及一种语音辨识技术，且特别涉及一种可有效辨识语音信息是否为关键词的电子装置以及语音辨识方法。

背景技术

在传统语音辨识的技术领域中，具有语音辨识功能的电子装置通常会设置对应于关键词(keyword)的统计模型以及对应于非关键词(non-keyword)的统计模型来解析使用者提供的语音信号，以辨识语音信号是否为关键词。具有语音辨识功能的电子装置可通过多个统计模型产生多个对应的机率参数，并依据最高机率参数所对应的统计模型类型来辨识语音信号是否为关键词，进而决定是否执行对应的操作或功能。然而，由于使用者提供的语音信号可能非常相似于关键词，因此可能会发生误判的情况。对此，传统的改良方式是增加非关键词的统计模型的数据量来增加模型运算的准确性，但是会造成电子装置的系统资源需求以及制造成本的增加。因此，如何可有效增加语音辨识的准确率，同时可维持电子装置的制造成本，是目前重要的课题之一。

发明内容

本发明提供一种电子装置以及语音辨识方法，可藉由多个隐马尔可夫模型来分析语音信息，以有效判断语音信息是否为关键词。

本发明的一种语音辨识方法适用于电子装置。所述电子装置适于分析语音信息以判断所述语音信息是否具有关键词。所述语音辨识方法包括以下步骤：接收所述语音信息，并且分析所述语音信息以取得多个语音特征；配置对应于所述关键词的第一分析模型以及对应于任意词的第二分析模型；依据所述关键词产生相似词，并且建立对应于所述相似词的第三分析模型；以及藉由所述第一分析模型、所述第二分析模型以及所述第三分析模型来分析所述语音信息的所述多个语音特征，以判断所述语音信息是否为所述关键词。

在本发明的一实施例中，上述的所述第一分析模型、所述第二分析模型以及所述第三分析模型分别为隐马尔可夫模型(Hidden Markov Model，HMM)。

在本发明的一实施例中，上述的藉由所述第一分析模型、所述第二分析模型以及所述第三分析模型来分析所述语音信息，以判断所述语音信息是否为所述关键词的步骤包括：藉由所述第一分析模型、所述第二分析模型以及所述第三分析模型分别针所述语音信息的所述多个语音特征进行运算，以分别产生第一机率参数、第二机率参数以及第三机率参数；以及依据所述第一机率参数、所述第二机率参数以及所述第三机率参数来判断所述语音信息是否为所述关键词。

在本发明的一实施例中，上述的依据所述第一机率参数、所述第二机率参数以及所述第三机率参数来判断所述语音信息是否为所述关键词的步骤包括：当所述第一机率参数高于所述第二机率参数以及所述第三机率参数时，判断所述语音信息为所述关键词。

在本发明的一实施例中，上述的语音辨识方法还包括：当判断所述语音信息为所述关键词时，输出致能信号。

在本发明的一实施例中，上述的语音辨识方法还包括：依据所述致能信号执行系统唤醒操作。

本发明的一种电子装置适于分析语音信息以判断所述语音信息是否为关键词。所述电子装置包括特征提取模块、特征分析模块以及模型产生模块。所述特征提取模块用以接收所述语音信息，并且分析所述语音信息以取得多个语音特征。所述特征分析模块耦接所述特征提取模块，并且配置对应于所述关键词的第一分析模型以及对应于任意词的第二分析模型。所述模型产生模块耦接所述特征分析模块。所述模型产生模块用以依据所述关键词产生相似词，并且建立对应于所述相似词的第三分析模型。所述特征分析模块藉由所述第一分析模型、所述第二分析模型以及所述第三分析模型来分析所述语音信息的所述多个语音特征，以判断所述语音信息是否为所述关键词。

在本发明的一实施例中，上述的所述第一分析模型、所述第二分析模型以及所述第三分析模型分别为隐马尔可夫模型。

在本发明的一实施例中，上述的所述特征分析模块藉由所述第一分析模型、所述第二分析模型以及所述第三分析模型分别针所述语音信息的所述多个语音特征进行运算，以分别产生第一机率参数、第二机率参数以及第三机率参数。所述特征分析模块依据所述第一机率参数、所述第二机率参数以及所述第三机率参数来判断所述语音信息是否为所述关键词。

在本发明的一实施例中，上述的当所述第一机率参数高于所述第二机率参数以及所述第三机率参数时，所述特征分析模块判断所述语音信息为所述关键词。

在本发明的一实施例中，上述的电子装置还包括致能模块。所述致能模块耦接所述模型产生模块。当所述特征分析模块判断所述语音信息为所述关键词时，所述致能模块输出致能信号。

在本发明的一实施例中，上述的电子装置还包括系统电路。所述系统电路耦接所述致能模块。所述系统电路用以依据所述致能信号执行系统唤醒操作。

基于上述，本发明的电子装置以及语音辨识方法可藉由建立对应于相似词的隐马尔可夫模型来增加语音辨识的准确率。

为让本发明的上述特征和优点能更明显易懂，下文特举实施例，并配合附图作详细说明如下。

附图说明

图1绘示本发明一实施例的电子装置的示意图。

图2绘示图1实施例的分析语音数据的示意图。

图3绘示本发明一实施例的语音辨识方法的流程图。

【符号说明】

100：电子装置

110：特征提取模块

120：特征分析模块

130：模型产生模块

140：致能模块

150：系统电路

VI：语音信号

VF：语音特征

ES：致能信号

200：非关键词模块

210：任意词模块

220：相似词模块

211、212、213：第二分析模型

221、222：第三分析模型

211_1、211_2、211_3、211_n、221_1、221_2、221_3、221_n、301_1、301_2、301_3、301_n：音节单元

300：关键词模块

301：第一分析模型

S410、S420、S430、S440：步骤

具体实施方式

为了使本发明的内容可以被更容易明了，以下特举实施例做为本发明确实能够据以实施的范例。另外，凡可能之处，在图式及实施方式中使用相同标号的元件/构件/步骤，代表相同或类似部件。

图1绘示本发明一实施例的电子装置的示意图，参考图1。在本实施例中，电子装置100包括特征提取模块110、特征分析模块120、模型产生模块130、致能模块140以及系统电路150。在本实施例中，特征提取模块110用以接收语音信息VI，并且分析语音信息VI以取得多个语音特征VF。特征分析模块120耦接特征提取模块110，并且配置对应于关键词(keyword)的第一分析模型以及对应于任意词的第二分析模型。在本实施例中，任意词可意指为非针对关键词(non-keyword)，并且对应于任意词的第二分析模型可为近似的统计模型。在本实施例中，模型产生模块130耦接特征分析模块120。模型产生模块130用以依据关键词产生相似词，并且建立对应于相似词(similarity word)的第三分析模型。因此，在本实施例中，特征分析模块120藉由第一分析模型、所述第二分析模型以及所述第三分析模型来分析语音信息VI的这些语音特征VF，以判断语音信息VI是否为关键词。

在本实施例中，电子装置100可进一步包括处理装置、输入装置以及存储装置。处理装置可耦接输入装置以及存储装置。处理装置例如是中央处理单元(CentralProcessing Unit，CPU)、系统单芯片(System on Chip，SOC)或是其他可编程之一般用途或特殊用途的微处理器(microprocessor)、数字信号处理器(Digital Signal Processor，DSP)、可编程控制器、特殊应用集成电路(Application Specific Integrated Circuits，ASIC)、可编程逻辑装置(Programmable Logic Device，PLD)、其他类似处理装置或这些装置的组合。

在本实施例中，输入装置例如是语音接收器(Voice receiver)或麦克风(microphone)等，并且输入装置可用以接收使用者提供的语音，并且输出语音信息VI至特征提取模块110，但本发明并不限于此。在一实施例中，输入装置也可耦接外部电子装置以通过接收使用者提供的语音信息VI。

在本实施例中，存储装置例如是动态随机存取存储器(Dynamic Random AccessMemory，DRAM)、快闪存储器(Flash memory)或非易失性随机存取存储器(Non-VolatileRandom Access Memory，NVRAM)等。存储装置可用以存储本发明各实施例所述的信息、模型、特征数据以及程序模块等。值得注意的是，本发明各实施例所述的特征提取模块110、特征分析模块120、模型产生模块130、致能模块140可以软件程序或硬件电路来实现之。举例来说，在一实施例中，上述的特征提取模块110、特征分析模块120、模型产生模块130以及致能模块140的至少其中之一可为程序模块，并且此程序模块可在存储装置中。处理装置可藉由读取存储装置，以执行此程序模块，进而实现本发明各实施例所述的语音辨识方法。

图2绘示图1实施例的分析语音数据的示意图。参考图1以及图2。在本实施例中，电子装置100可藉由特征提取模块110取得语音信息VI，并且将语音信息VI解析为多个语音特征VF。在本实施例中，语音信息VI可包括一个或多个音位(phoneme)，并且每一个音位可包括一个或多个不同音节(phone)。也就是说，特征提取模块110可将语音信息VI解析为多个音节，以作为这些语音特征VF。并且，语音信息VI的内容可依据不同语言或不同词句内容来决定之，本发明并不加以限制。

在本实施例中，特征分析模块120可预设有非关键词模块200以及关键词模块300。非关键词模块200以及关键词模块300可分别包括多个语音分析模型，其中这些语音分析模型可例如是隐马尔可夫模型(Hidden Markov Model，HMM)、递归神经网络模型(RecurrentNeural Network，RNN)、长短期记忆模型(Long Short-Term Memory，LSTM)或是其他类似的分析模型，本发明并不加以限制。因此，须注意的是，以下各实施例以隐马尔可夫模型来解释说明，但不限制本发明的语音辨识方法以及电子装置。本发明各实施例所述的隐马尔可夫模型可以由上述的不同的语音分析模型来替换。

具体来说，在本实施例中，关键词模块300可包括预设的第一分析模型301。第一分析模型301可设置为对应于关键词的隐马尔可夫模型，并且第一分析模型301可包括多个音节单元301_1、301_2、301_3～301_n，其中n为大于0的正整数。第一分析模型301可通过这些音节单元301_1、301_2、301_3～301_n来对语音特征VF进行运算，并且产生第一机率参数。

在本实施例中，非关键词模块200可包括任意词模块210，并且任意词模块210可进一步包括预设的多个第二分析模型211、212、213。在本实施例中，这些第二分析模型211、212、213可分别设置为对应于关键词以外的其他任意词或音节的隐马尔可夫模型，并且这些第二分析模型211、212、213可分别包括多个音节单元。举例来说，第二分析模型211可包括多个音节单元211_1、211_2、211_3～211_n。第二分析模型211可通过这些音节单元211_1、211_2、211_3～211_n来对语音特征VF进行运算，并且产生第二机率参数。

值得注意的是，在本实施例中，电子装置100可预先设置有对应于关键词的第一分析模型301以及对应于任意词的第二分析模型211、212、213。第一分析模型301以及第二分析模型211、212、213可分别依据电子装置100或经由使用者设定的关键词来决定。并且，在本实施例中，模型产生模块130可依据电子装置100或经由使用者设定的关键词来产生与关键词相关的相似词。模型产生模块130可例如是预先存储的多个唤醒词的辞典文件数据。模型产生模块130可建立对应于此相似词的第三分析模型221、222，并且将第三分析模型221、222建立至非关键词模块200的相似词模块220中。在本实施例中，这些第三分析模型221、222可分别设置为对应于相似词的隐马尔可夫模型，并且这些第三分析模型221、222可分别包括多个音节单元。举例来说，第三分析模型221可包括多个音节单元221_1、221_2、221_3～221_n。第三分析模型221可通过这些音节单元221_1、221_2、221_3～221_n来对语音特征VF进行运算，并且产生第三机率参数。

须注意的是，在本实施例中，第一分析模型301、第二分析模型211、212、213以及第三分析模型221、222可分别为隐马尔可夫模型。因此，每一个分析模型具有多个音节单元，并且每一个音节单元可代表一个或多个隐马尔可夫状态。在本实施例中，每一个音节单元可包括自转移机率(self-transition probability)以及次转移机率(next-transitionprobability)。自转移机率可用于代表新音节留在目前单元的机率，而次转移机率可用于代表新音节跳到下一个单元的机率。因此，特征分析模块120可计算每一分析模型中的这些音节单元分别产生的机率总和，以取得对应于此语音信息VI的最高机率参数。然而，关于隐马尔可夫模型的运算方式以及模型细节可为所属领域的技术人员依据已知的统计模型设计来对应获致足够的教示、建议以及实施方式，因此不再赘述。

也就是说，在本实施例中，语音信息VI经分析后取得的多个语音特征VF可分别提供至第一分析模型301、第二分析模型211、212、213以及第三分析模型221、222，以进行运算，以使特征分析模块120可取得对应于此语音信息VI的最高机率参数。因此，电子装置100可依据最高机率参数所对应的分析模型是否对应于关键词来判断语音信息VI是否为关键词。

更具体的说，当语音信息VI的语音特征VF经由这些分析模型分别同时运算后，特征分析模块120可分别得到对应于这些分析模型的多个机率参数。并且，特征分析模块120若判断这些机率参数中的最高机率参数来自第一分析模型301，则判断语音信息VI为关键词。反之，特征分析模块120若判断这些机率参数中的最高机率参数来自第二分析模型211、212、213或第三分析模型221、222，则判断语音信息VI为非关键词。

举例来说，在一实施例中，由于电子装置100的系统资源可能有限，因此任意词模块210中的这些第二分析模型211、212、213可能为近似的模型，而非精确匹配。以上述例子来说，若电子装置100设定的关键词为“丹丹”，而语音信息VI为“小丹丹”。由于语音信息VI的内容与关键词非常相近，因此语音信息VI的语音特征VF经由这些分析模型分别运算后，第一分析模型301运算出的第一机率参数将会高于第二分析模型211、212、213运算出的多个第二机率参数。对此，为了避免将相似词误判为关键词，本实施例的电子装置100可经由模型产生模块130来建立对应于相似词“小丹丹”的第三分析模型221。因此，当语音信息VI的语音特征VF经由这些分析模型分别运算后，第三分析模型221运算出的第三机率参数将会高于第一机率参数以及第二机率参数。藉此，电子装置100将不会将相似词误判为关键词而输出致能信号ES。

此外，在本实施例中，当特征分析模块120判断第一机率参数高于第二机率参数以及第三机率参数时，特征分析模块120将判定语音信息VI为关键词，因此致能模块140将对应输出致能信号ES至系统电路150。在本实施例中，致能信号ES可为唤醒信号，可用以唤醒系统电路150。举例来说，电子装置100可为智能音响，并且具有休眠模式或省电模式。当电子装置100操作于休眠模式或省电模式时，使用者可通过语音的方式来唤醒电子装置100，以执行系统唤醒操作。因此，若使用者提供的语音信息VI相同于电子装置100设定的关键词，则电子装置100将被唤醒。反之，若使用者提供的语音信息VI不同于电子装置100设定的关键词，则电子装置100不会被唤醒，但本发明并不限于此。在一实施例中，电子装置100也可例如是移动电话、平板或其他终端设备等。并且，致能信号ES也可对应于其他功能或命令，以使电子装置100可对应执行其他功能操作，例如调整音量、更换音乐或执行某些特定功能。

另外，本发明各实施例所述的第一分析模型、第二分析模型以及第三分析模型的数量并不限于图2所示。在一实施例中，第一分析模型、第二分析模型以及第三分析模型的数量可依据产品需求或由使用者设定的关键词来决定之。并且，第一分析模型、第二分析模型以及第三分析模型的各音节单元的数量也可为相同或不相同，亦不限于图2所示。

图3绘示本发明一实施例的语音辨识方法的流程图，参考图1以及图3。本实施例的语音辨识方法可至少适用于图1的电子装置100。在步骤S410中，特征提取模块110接收语音信息VI，并且分析语音信息VI以取得多个语音特征VF。在步骤S420中，特征分析模块120配置对应于关键词的第一分析模型以及对应于任意词的第二分析模型。在步骤S430中，模型产生模块130依据关键词产生相似词，并且建立对应于相似词的第三分析模型。在步骤S440中，特征分析模块120藉由第一分析模型、第二分析模型以及第三分析模型来分析语音信息VI的这些语音特征VF，以判断语音信息VI是否为关键词。因此，本实施例的语音辨识方法可提供高准确率的语音辨识效果。

另外，关于电子装置100的相关装置以及模块特征科依据上述图1～2的实施例获致足够的教示、建议以及实施说明，因此不再赘述。

综上所述，本发明的电子装置以及语音辨识方法可藉由产生相关于关键词的相似词，以建立对应于相似词的分析模型。当电子装置进行语音辨识操作时，属于非关键词的语音信息可经由非关键词模块或相似词模块的分析模型来产生较高的机率参数，以避免关键词模块的分析模型所产生的机率参数为最高，导致电子装置将相似词误判为关键词。反之，当电子装置进行语音辨识操作时，属于关键词的语音信息只会经由关键词模块的分析模型来产生较高的机率参数。因此，本发明的电子装置可提供高准确率的语音辨识功能，进而提供良好的使用者体验。

虽然本发明已以实施例公开如上，然其并非用以限定本发明，本领域技术人员在不脱离本发明的精神和范围内，当可作些许的更动与润饰，故本发明的保护范围当视所附权利要求书界定范围为准。

Claims

1.一种语音辨识方法，适用于电子装置，所述电子装置适于分析语音信息以判断所述语音信息是否具有关键词，其中所述语音辨识方法包括：

接收所述语音信息，并且分析所述语音信息以取得多个语音特征；

配置对应于所述关键词的第一分析模型以及对应于任意词的第二分析模型；

依据所述关键词产生相似词，并且建立对应于所述相似词的第三分析模型；以及

藉由所述第一分析模型、所述第二分析模型以及所述第三分析模型来分析所述语音信息的所述多个语音特征，以判断所述语音信息是否为所述关键词。

2.如权利要求1所述的语音辨识方法，其中所述第一分析模型、所述第二分析模型以及所述第三分析模型分别为隐马尔可夫模型。

3.如权利要求1所述的语音辨识方法，其中藉由所述第一分析模型、所述第二分析模型以及所述第三分析模型来分析所述语音信息，以判断所述语音信息是否为所述关键词的步骤包括：

藉由所述第一分析模型、所述第二分析模型以及所述第三分析模型分别针所述语音信息的所述多个语音特征进行运算，以分别产生第一机率参数、第二机率参数以及第三机率参数；以及

依据所述第一机率参数、所述第二机率参数以及所述第三机率参数来判断所述语音信息是否为所述关键词。

4.如权利要求3所述的语音辨识方法，其中依据所述第一机率参数、所述第二机率参数以及所述第三机率参数来判断所述语音信息是否为所述关键词的步骤包括：

当所述第一机率参数高于所述第二机率参数以及所述第三机率参数时，判断所述语音信息为所述关键词。

5.如权利要求1所述的语音辨识方法，还包括：

当判断所述语音信息为所述关键词时，输出致能信号。

6.如权利要求5所述的语音辨识方法，还包括：

依据所述致能信号执行系统唤醒操作。

7.一种电子装置，适于分析语音信息以判断所述语音信息是否为关键词，包括：

特征提取模块，用以接收所述语音信息，并且分析所述语音信息以取得多个语音特征；

特征分析模块，耦接所述特征提取模块，并且配置对应于所述关键词的第一分析模型以及对应于任意词的第二分析模型；以及

模型产生模块，耦接所述特征分析模块，用以依据所述关键词产生相似词，并且建立对应于所述相似词的第三分析模型，

其中所述特征分析模块藉由所述第一分析模型、所述第二分析模型以及所述第三分析模型来分析所述语音信息的所述多个语音特征，以判断所述语音信息是否为所述关键词。

8.如权利要求7所述的电子装置，其中所述第一分析模型、所述第二分析模型以及所述第三分析模型分别为隐马尔可夫模型。

9.如权利要求7所述的电子装置，其中所述特征分析模块藉由所述第一分析模型、所述第二分析模型以及所述第三分析模型分别针所述语音信息的所述多个语音特征进行运算，以分别产生第一机率参数、第二机率参数以及第三机率参数，并且所述特征分析模块依据所述第一机率参数、所述第二机率参数以及所述第三机率参数来判断所述语音信息是否为所述关键词。

10.如权利要求9所述的电子装置，其中当所述第一机率参数高于所述第二机率参数以及所述第三机率参数时，所述特征分析模块判断所述语音信息为所述关键词。

11.如权利要求7所述的电子装置，还包括：

致能模块，耦接所述模型产生模块，其中当所述特征分析模块判断所述语音信息为所述关键词时，所述致能模块输出致能信号。

12.如权利要求11所述的电子装置，还包括：

系统电路，耦接所述致能模块，用以依据所述致能信号执行系统唤醒操作。