CN106653022A

CN106653022A - 基于人工智能的语音唤醒方法和装置

Info

Publication number: CN106653022A
Application number: CN201611248513.XA
Authority: CN
Inventors: 唐立亮
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2016-12-29
Filing date: 2016-12-29
Publication date: 2017-05-10
Anticipated expiration: 2036-12-29
Also published as: US10325593B2; US20180190281A1; CN106653022B

Abstract

本发明提出一种基于人工智能的语音唤醒方法和装置，其中，方法包括：通过对各音素进行聚类，以选取出用于指代全部音素的垃圾音素，以及根据预先设定的唤醒词，构建与所述唤醒词相似的反唤醒词之后，根据垃圾音素、反唤醒词和唤醒词构建解码网络，从而可以利用该解码网络进行语音唤醒。由于垃圾音素的数据量明显少于垃圾词的数据量，解决了现有技术中垃圾词模型占用数据量过大的问题，同时，由于词汇是由有限个音素所构成的，因此，垃圾音素相较于垃圾词也更能够较为全面覆盖全部词汇提高了唤醒精度，减少误唤醒的概率。

Description

基于人工智能的语音唤醒方法和装置

技术领域

本发明涉及语音识别技术领域，尤其涉及一种基于人工智能的语音唤醒方法和装置。

背景技术

人工智能(Artificial Intelligence)，英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语音识别、图像识别、自然语言处理和专家系统等。其中，人工智能最重要的应用方面就是语音识别技术。

而语音唤醒技术是语音识别技术中的重要方向之一，具体来说，语音唤醒技术是通过在终端处于待机状态下，用户说出特定的唤醒词，对终端进行唤醒，以激活系统，从而实现相应的操作或服务。

在现有技术中，通常将唤醒词和垃圾词并联形成一个解码网络，根据用户语音的声学特征，在解码网络中寻找最为匹配的识别结果，根据识别结果对终端进行唤醒。在构建垃圾词时，若选择的汉字量较少，就不能获得较高的识别准确，而若选择的汉字量较多，又会导致数据量过大，占用设备存储空间以及影响运算效率。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种基于人工智能的语音唤醒方法，以通过利用垃圾音素构建垃圾音素模型，解决现有技术中垃圾词模型占用数据量过大的问题，同时，通过垃圾音素来表征全部的语音，提高了唤醒精度，减少误唤醒的概率。

本发明的第二个目的在于提出一种基于人工智能的语音唤醒装置。

本发明的第三个目的在于提出另一种基于人工智能的语音唤醒装置。

本发明的第四个目的在于提出一种非临时性计算机可读存储介质。

本发明的第五个目的在于提出一种计算机程序产品。

为达上述目的，本发明第一方面实施例提出了一种基于人工智能的语音唤醒方法，包括：

对各音素进行聚类，以选取出用于指代全部音素的垃圾音素；

根据预先设定的唤醒词，构建与所述唤醒词相似的反唤醒词；

根据所述垃圾音素、所述反唤醒词和所述唤醒词构建解码网络；

利用所述解码网络进行语音唤醒。

本发明实施例的基于人工智能的语音唤醒方法，通过对各音素进行聚类，以选取出用于指代全部音素的垃圾音素，以及根据预先设定的唤醒词，构建与所述唤醒词相似的反唤醒词之后，根据垃圾音素、反唤醒词和唤醒词构建解码网络，从而可以利用该解码网络进行语音唤醒。由于垃圾音素的数据量明显少于垃圾词的数据量，解决了现有技术中垃圾词模型占用数据量过大的问题，同时，由于词汇是由有限个音素所构成的，因此，垃圾音素相较于垃圾词也更能够较为全面覆盖全部词汇提高了唤醒精度，减少误唤醒的概率。

为达上述目的，本发明第二方面实施例提出了一种基于人工智能的语音唤醒装置，包括：

第一选取模块，用于对各音素进行聚类，以选取出用于指代全部音素的垃圾音素；

第二选取模块，用于根据预先设定的唤醒词，构建与所述唤醒词相似的反唤醒词；

构建模块，用于根据所述垃圾音素、所述反唤醒词和所述唤醒词构建解码网络；

唤醒模块，用于利用所述解码网络进行语音唤醒。

本发明实施例的基于人工智能的语音唤醒装置，通过第一选取模块对各音素进行聚类，以选取出用于指代全部音素的垃圾音素，以及第二选取模块根据预先设定的唤醒词，构建模块构建与所述唤醒词相似的反唤醒词之后，唤醒模块根据垃圾音素、反唤醒词和唤醒词构建解码网络，从而可以利用该解码网络进行语音唤醒。由于垃圾音素的数据量明显少于垃圾词的数据量，解决了现有技术中垃圾词模型占用数据量过大的问题，同时，由于词汇是由有限个音素所构成的，因此，垃圾音素相较于垃圾词也更能够较为全面覆盖全部词汇提高了唤醒精度，减少误唤醒的概率。

为达上述目的，本发明第三方面实施例提出了另一种基于人工智能的语音唤醒装置，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为：对各音素进行聚类，以选取出用于指代全部音素的垃圾音素；根据预先设定的唤醒词，构建与所述唤醒词相似的反唤醒词；根据所述垃圾音素、所述反唤醒词和所述唤醒词构建解码网络；利用所述解码网络进行语音唤醒。

为了实现上述目的，本发明第四方面实施例提出了一种非临时性计算机可读存储介质，当所述存储介质中的指令由终端的处理器被执行时，使得终端能够执行一种基于人工智能的语音唤醒方法，所述方法包括：对各音素进行聚类，以选取出用于指代全部音素的垃圾音素；根据预先设定的唤醒词，构建与所述唤醒词相似的反唤醒词；根据所述垃圾音素、所述反唤醒词和所述唤醒词构建解码网络；利用所述解码网络进行语音唤醒。

为了实现上述目的，本发明第五方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，执行一种基于人工智能的语音唤醒方法，所述方法包括：对各音素进行聚类，以选取出用于指代全部音素的垃圾音素；根据预先设定的唤醒词，构建与所述唤醒词相似的反唤醒词；根据所述垃圾音素、所述反唤醒词和所述唤醒词构建解码网络；利用所述解码网络进行语音唤醒。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明实施例所提供的一种基于人工智能的语音唤醒方法的流程示意图；

图2为音素及对应状态的示意图；

图3为本发明实施例所提供的另一种基于人工智能的语音唤醒方法的流程示意图；

图4为解码网络的结构示意图；

图5为本发明实施例提供的一种人工智能的语音唤醒装置的结构示意图；以及

图6为本发明实施例提供的又一种人工智能的语音唤醒装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的基于人工智能的语音唤醒方法和装置。

图1为本发明实施例所提供的一种基于人工智能的语音唤醒方法的流程示意图。

由于在现有技术中，通常将唤醒词和垃圾词并联形成一个解码网络进行唤醒，但在构建垃圾词时，若选择的汉字量较少，就不能获得较高的识别准确，而若选择的汉字量较多，又会导致数据量过大，占用设备存储空间以及影响运算效率。针对这一问题，本发明实施例提供了基于人工智能的语音唤醒方法，通过利用垃圾音素构建垃圾音素模型，解决现有技术中垃圾词模型占用数据量过大的问题，同时，通过垃圾音素来表征全部的语音，提高了唤醒精度，减少误唤醒的概率，如图1所示，该基于人工智能的语音唤醒方法包括以下步骤：

步骤101，对各音素进行聚类，以选取出用于指代全部音素的垃圾音素。

具体地，获取各个音素和各个音素对应的状态，在各个音素中随机选取目标音素，并将所述目标音素添加到垃圾音素集合中，以该目标音素作为起点，在各个音素中查询与所述目标音素距离最远的音素，并将所查询到的音素添加到所述垃圾音素集合中。

在将所查询到的音素作为所述目标音素，循环执行前述以目标音素作为起点，在各个音素中查询与所述目标音素距离最远的音素，并将所查询到的音素添加到所述垃圾音素集合中的过程，直至垃圾音素集合中的音素数量为预设的第一数量。

需要说明的是，在获取各个音素和各个音素对应的状态时，是基于统计模型，例如隐马尔可夫模型(Hidden Markov Model，HMM)，HMM是常被应用于语音识别。在语音识别领域中，在对语音识别这一随机过程中，一般都是有限长的随机序列，可能是一维的观察序列或编码符号序列，可以是多维的矢量序列，可以统称为观察序列，一个具有多个状态的统计模型是用参数表示的用于描述前述随机序列的统计特性的概率模型，模型的具体内容可参见技术文献中语音识别技术的相关描述，本实施例中对此不再赘述。

在本实施例中，每一个音素具有三个状态进行描述，在实际使用过程中，本领域技术人员可以选用更多或者更少的状态数量，本实施例中对此不做限定。图2为音素及对应状态的示意图，如图2所示，P1和P2分别表示音素，其中，P1由状态S11，S12，S13构成，P1的每个状态用P1的混合高斯模型拟合获得；P2由状态S21，S22，S23构成，P2的每个状态用P2的混合高斯模型拟合获得。

步骤102，根据预先设定的唤醒词，构建与所述唤醒词相似的反唤醒词。

具体地，从与所述唤醒词发音相似的词语列表中，选取字数少于所述唤醒词字数的音近词；将所述唤醒词中的部分字与所述音近词组合，以构建所述反唤醒词。

例如：唤醒词是“小度你好”，对应的反唤醒词为唤醒词的第一个字，即“小”，以及音近词的组合，如“小布你”，“交度你”等。

可选地，作为一种可能的实现方式，可以采用如下方式对反唤醒词进行构建：

首先，生成与唤醒词发音相似的词语列表，这个词语列表可以由语文专业人员编订，也可参考国家发布的词典；

进而，假设唤醒词的字数为n，例如，“小度你好”中，n取值为4，从列表中所选取的音近词，可以根据唤醒词的字数n分为(n-2)类，各类的音近词的字数分别由(n-1)递减至2，例如：“小度你好”，n＝4，则音近词可分为4-2＝2类，分别是三字词类和两字词类；

最后，从每一类中，选择不多于3个音近词，由这些音近词与唤醒词中的一个或者多个字组合成反唤醒词。例如：在“小度你好”作为唤醒词时，可以保持唤醒词的第一个或最后一个词不变，从三字词类的音近词中，随机选取连续的三个字“小度你”或者“度你好”，对“小度你好”中的其余部分进行替换，获得的反唤醒词可以为“小布你”，“度你少”，“不你好”等等。

步骤103，根据垃圾音素、反唤醒词和唤醒词构建解码网络。

将垃圾音素、反唤醒词和唤醒词并联，从而构建解码网络。

步骤104，利用所述解码网络进行语音唤醒。

具体地，对输入的用户语音提取声学特征，将所提取到的声学特征输入解码网络，以采用动态规划算法，在解码网络中计算得到为最优路径的识别结果，根据识别结果，对终端进行唤醒。

本实施例中，通过对各音素进行聚类，以选取出用于指代全部音素的垃圾音素，以及根据预先设定的唤醒词，构建与所述唤醒词相似的反唤醒词之后，根据垃圾音素、反唤醒词和唤醒词构建解码网络，从而可以利用该解码网络进行语音唤醒。由于垃圾音素的数据量明显少于垃圾词的数据量，解决了现有技术中垃圾词模型占用数据量过大的问题，同时，由于词汇是由有限个音素所构成的，因此，垃圾音素相较于垃圾词也更能够较为全面覆盖全部词汇提高了唤醒精度，减少误唤醒的概率。

为了清楚说明上一实施例，本实施例提供了另一种基于人工智能的语音唤醒方法，图3为本发明实施例所提供的另一种基于人工智能的语音唤醒方法的流程示意图。

如图3所示，该基于人工智能的语音唤醒方法可以包括以下步骤：

步骤201，获取各个音素和各个音素对应的状态。

具体地，针对每一个音素，利用混合高斯模型对所述音素的各状态进行拟合，得到所述音素的混合高斯模型，采用多个语音的样本和语音的标注对所得到的各音素的混合高斯模型进行参数优化，根据各混合高斯模型之间，优化后参数的相似度，对各音素的混合高斯模型进行排序，得到对应的所述各个音素，以及各个音素的状态。

步骤202，在各个音素中随机选取目标音素，并将所述目标音素添加到垃圾音素集合中。

步骤203，以该目标音素作为起点，在各个音素中查询与所述目标音素距离最远的音素，并将所查询到的音素添加到所述垃圾音素集合中。

具体地，根据公式S＝(SM₁-SN₁)²+(SM₂-SN₂)²+(SM₃-SN₃)²计算所述目标音素PM与各音素PN之间的距离S；其中，SM₁、SM₂和SM₃分别为所述目标音素PM的三个状态，SN₁、SN₂和SN₃分别为所述音素PN的三个状态；根据所计算出的距离S，选取S取值最大的音素。

步骤204，判断垃圾音素集合中的音素数量是否达到第一数量，若是，执行步骤205，否则将所查询到的音素作为所述目标音素重复执行步骤203。

步骤205，根据垃圾音素在样本语音中的出现频率，对垃圾音素进行筛选。

具体地，利用各个音素，对多个样本语音分别进行识别，以得到匹配中的音素；从匹配中的音素中，按照匹配数量从多至少进行排序，选取排序为前第二数量的音素，作为筛选集合；根据所述筛选集合对所述垃圾音素进行筛选，保留处于所述筛选集合中的垃圾音素。

例如：垃圾音素的集合记为集合K，筛选集合记为集合T，将集合K和集合T的交集中的元素作为垃圾音素。

通过如上步骤完成垃圾音素的构建，本实施例中通过构建、筛选等操作优化了垃圾音素，能够更好的区分唤醒词和其他内容的权重，能够极大的防止非唤醒词唤醒，有效的降低了误报率，极大的提升用户体验。同时，使得本实施例的唤醒精度更高，由于采用了垃圾音素代替垃圾词的方法，使得解码网络识别过程中，对用户输入的唤醒词和非唤醒词能够更好的区分，权重更加合理，在降低唤醒误报率的同时，提升了唤醒的正确率。

进一步，功耗方面，由于垃圾音素和唤醒词并联，而不是采用整个识别系统内存占用小，使得内存得到了极大的优化，终端的功耗更低。

步骤206，根据预先设定的唤醒词，构建与唤醒词相似的反唤醒词，并利用唤醒词、反唤醒词和垃圾音素构建解码网络。

从与所述唤醒词发音相似的词语列表中，选取字数少于所述唤醒词字数的音近词；将所述唤醒词中的部分字与所述音近词组合，以构建所述反唤醒词。

需要说明的是，具体构建反唤醒词的过程可以参见前述实施例中的描述，本实施例中对此不再赘述。

根据垃圾音素、反唤醒词和唤醒词构建解码网络。图4为解码网络的结构示意图，如图4所示垃圾音素、反唤醒词和唤醒词之间为并联关系。

步骤207，在用户进行语音输入时，对输入的用户语音提取声学特征。

具体地，针对用户所输入的语音，识别端点后，进行声学特征提取的过程，具体声学特征提取的方法可参见技术文献中语音识别技术的相关描述，本实施例中对此不再赘述。

步骤208，将所提取到的声学特征输入解码网络，以采用动态规划算法，在所述解码网络中计算得到为最优路径的识别结果。

具体来说，常用动态规划算法中的维特比算法，在解码网络中算得到为最优路径的识别结果。

步骤209，计算识别结果的置信度。

具体地，根据用户语音中的每一帧在所述解码网络中计算得到的最优路径的得分，计算所述用户语音的平均分值；根据所述唤醒词中的每一帧在所述解码网络中计算得到的最优路径的得分，计算所述唤醒词的平均分值；若所述唤醒词的平均分值减去所述用户语音的平均分值所获得的差值大于预设阈值，判定所述识别结果有效。

例如：首先，在采用动态规划算法计算识别结果的过程中，记录每一帧的得分(Score)，在有q个帧时，可分别记为Score₁，Score₂……Score_q，其中1，2，……q为帧号，将所有得分Score₁，Score₂……Score_q，求均值，记为Score_Ave。

进而，将唤醒词中的每一帧的得分Score’₁，Score’₂……Score’_t取均值，其中,1,2,……t为帧号,将计算所获得的唤醒词的平均分值记为ScoreWakeUp。

根据公式ScoreCM＝ScoreWakeUp–ScoreAve计算置信度ScoreCM。

步骤210，若置信度高于预设阈值，则判定识别结果有效，根据识别结果进行唤醒。

通过置信度计算的步骤能够极大的防止非唤醒词唤醒，有效降低了误判的概率，也就是减少了误报率。

为了实现上述实施例，本发明还提出一种基于人工智能的语音唤醒装置。

图5为本发明实施例提供的一种人工智能的语音唤醒装置的结构示意图。

如图5所示，该人工智能的语音唤醒装置包括：第一选取模块51、第二选取模块52、构建模块53和唤醒模块54。

第一选取模块51，用于对各音素进行聚类，以选取出用于指代全部音素的垃圾音素。

第二选取模块52，用于根据预先设定的唤醒词，构建与所述唤醒词相似的反唤醒词。

构建模块53，用于根据所述垃圾音素、所述反唤醒词和所述唤醒词构建解码网络。

唤醒模块54，用于利用所述解码网络进行语音唤醒。

进一步地，在本发明实施例的一种可能的实现方式中，第二选取模块52，具体用于从与所述唤醒词发音相似的词语列表中，选取字数少于所述唤醒词字数的音近词；将所述唤醒词中的部分字与所述音近词组合，以构建所述反唤醒词。

需要说明的是，前述对人工智能的语音唤醒方法实施例的解释说明也适用于该实施例的人工智能的语音唤醒装置，此处不再赘述。

本实施例中，通过第一选取模块对各音素进行聚类，以选取出用于指代全部音素的垃圾音素，以及第二选取模块根据预先设定的唤醒词，构建模块构建与所述唤醒词相似的反唤醒词之后，唤醒模块根据垃圾音素、反唤醒词和唤醒词构建解码网络，从而可以利用该解码网络进行语音唤醒。由于垃圾音素的数据量明显少于垃圾词的数据量，解决了现有技术中垃圾词模型占用数据量过大的问题，同时，由于词汇是由有限个音素所构成的，因此，垃圾音素相较于垃圾词也更能够较为全面覆盖全部词汇提高了唤醒精度，减少误唤醒的概率。

基于上述实施例，本发明实施例还提供了又一种人工智能的语音唤醒装置图6为本发明实施例提供的又一种人工智能的语音唤醒装置的结构示意图，在上一实施例的基础上，人工智能的语音唤醒装置中第一选取模块51，包括：获取单元511、选取单元512、计算单元513和生成单元514。

获取单元511，用于获取各个音素和各个音素对应的状态。

选取单元512，用于在各个音素中随机选取目标音素，并将所述目标音素添加到垃圾音素集合中。

计算单元513，用于以所述目标音素作为起点，在各个音素中查询与所述目标音素距离最远的音素，并将所查询到的音素添加到所述垃圾音素集合中。

生成单元514，用于将所查询到的音素作为所述目标音素，循环执行所述以所述目标音素作为起点，在各个音素中查询与所述目标音素距离最远的音素，并将所查询到的音素添加到所述垃圾音素集合中的过程，直至所述垃圾音素集合中的音素数量为预设的第一数量。

进一步地，在本发明实施例的一种可能的实现方式中，获取单元511，具体用于针对每一个音素，利用混合高斯模型对所述音素的各状态进行拟合，得到所述音素的混合高斯模型；采用多个语音的样本和语音的标注对所得到的各音素的混合高斯模型进行参数优化；根据各混合高斯模型之间，优化后参数的相似度，对各音素的混合高斯模型进行排序，得到对应的所述各个音素，以及各个音素的状态。

计算单元513，具体用于根据公式S＝(SM₁-SN₁)²+(SM₂-SN₂)²+(SM₃-SN₃)²计算所述目标音素PM与各音素PN之间的距离S；其中，SM₁、SM₂和SM₃分别为所述目标音素PM的三个状态，SN₁、SN₂和SN₃分别为所述音素PN的三个状态；根据所计算出的距离S，选取S取值最大的音素。

进一步地，在本发明实施例的一种可能的实现方式中，基于人工智能的语音唤醒装置，还包括：筛选模块55。

筛选模块55，用于利用各个音素，对多个样本语音分别进行识别，以得到匹配中的音素；从匹配中的音素中，选取匹配数量排序为前第二数量的音素，作为筛选集合；根据所述筛选集合对所述垃圾音素进行筛选，保留处于所述筛选集合中的垃圾音素。

进一步地，在本发明实施例的一种可能的实现方式中，唤醒模块54，包括：提取单元541、识别单元542、唤醒单元543和置信单元544。

提取单元541，用于对输入的用户语音提取声学特征。

识别单元542，用于将所提取到的声学特征输入所述解码网络，以采用动态规划算法，在所述解码网络中计算得到为最优路径的识别结果。

唤醒单元543，用于根据识别结果，对终端进行唤醒。

置信单元544，用于根据用户语音中的每一帧在所述解码网络中计算得到的最优路径的得分，计算所述用户语音的平均分值；根据所述唤醒词中的每一帧在所述解码网络中计算得到的最优路径的得分，计算所述唤醒词的平均分值；若所述唤醒词的平均分值减去所述用户语音的平均分值所获得的差值大于预设阈值，判定所述识别结果有效。

本发明实施例中，通过第一选取模块对各音素进行聚类，以选取出用于指代全部音素的垃圾音素，以及第二选取模块根据预先设定的唤醒词，构建模块构建与所述唤醒词相似的反唤醒词之后，唤醒模块根据垃圾音素、反唤醒词和唤醒词构建解码网络，从而可以利用该解码网络进行语音唤醒。由于垃圾音素的数据量明显少于垃圾词的数据量，解决了现有技术中垃圾词模型占用数据量过大的问题，同时，由于词汇是由有限个音素所构成的，因此，垃圾音素相较于垃圾词也更能够较为全面覆盖全部词汇提高了唤醒精度，减少误唤醒的概率。

为了实现上述实施例，本发明还提出另一种基于人工智能的语音唤醒装置，包括：处理器，以及用于存储所述处理器可执行指令的存储器。

其中，处理器被配置为：对各音素进行聚类，以选取出用于指代全部音素的垃圾音素；根据预先设定的唤醒词，构建与所述唤醒词相似的反唤醒词；根据所述垃圾音素、所述反唤醒词和所述唤醒词构建解码网络；利用所述解码网络进行语音唤醒。

为了实现上述实施例，本发明还提出一种非临时性计算机可读存储介质，当所述存储介质中的指令由终端的处理器被执行时，使得终端能够执行一种基于人工智能的语音唤醒方法，所述方法包括：对各音素进行聚类，以选取出用于指代全部音素的垃圾音素；根据预先设定的唤醒词，构建与所述唤醒词相似的反唤醒词；根据所述垃圾音素、所述反唤醒词和所述唤醒词构建解码网络；利用所述解码网络进行语音唤醒。

为了实现上述实施例，本发明还提出一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，执行一种基于人工智能的语音唤醒方法，所述方法包括：对各音素进行聚类，以选取出用于指代全部音素的垃圾音素；根据预先设定的唤醒词，构建与所述唤醒词相似的反唤醒词；根据所述垃圾音素、所述反唤醒词和所述唤醒词构建解码网络；利用所述解码网络进行语音唤醒。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于人工智能的语音唤醒方法，其特征在于，包括以下步骤：

利用所述解码网络进行语音唤醒。

2.根据权利要求1所述的基于人工智能的语音唤醒方法，其特征在于，所述对各音素进行聚类，以选取出用于指代全部音素的垃圾音素，包括：

获取各个音素和各个音素对应的状态；

在各个音素中随机选取目标音素，并将所述目标音素添加到垃圾音素集合中；

以所述目标音素作为起点，在各个音素中查询与所述目标音素距离最远的音素，并将所查询到的音素添加到所述垃圾音素集合中；

将所查询到的音素作为所述目标音素，循环执行所述以所述目标音素作为起点，在各个音素中查询与所述目标音素距离最远的音素，并将所查询到的音素添加到所述垃圾音素集合中的过程，直至所述垃圾音素集合中的音素数量为预设的第一数量。

3.根据权利要求2所述的基于人工智能的语音唤醒方法，其特征在于，所述获取各个音素和各个音素对应的状态包括：

针对每一个音素，利用混合高斯模型对所述音素的各状态进行拟合，得到所述音素的混合高斯模型；

采用多个语音的样本和语音的标注对所得到的各音素的混合高斯模型进行参数优化；

根据各混合高斯模型之间，优化后参数的相似度，对各音素的混合高斯模型进行排序，得到对应的所述各个音素，以及各个音素的状态。

4.根据权利要求2所述的基于人工智能的语音唤醒方法，其特征在于，所述以所述目标音素作为起点，在各个音素中查询与所述目标音素距离最远的音素，包括：

根据公式S＝(SM₁-SN₁)²+(SM₂-SN₂)²+(SM₃-SN₃)²计算所述目标音素PM与各音素PN之间的距离S；其中，SM₁、SM₂和SM₃分别为所述目标音素PM的三个状态，SN₁、SN₂和SN₃分别为所述音素PN的三个状态；

根据所计算出的距离S，选取S取值最大的音素。

5.根据权利要求1-4任一项所述的基于人工智能的语音唤醒方法，其特征在于，所述对各音素进行聚类，以选取出用于指代全部音素的垃圾音素之后，还包括：

利用各个音素，对多个样本语音分别进行识别，以得到匹配中的音素；

从匹配中的音素中，选取匹配数量排序为前第二数量的音素，作为筛选集合；

根据所述筛选集合对所述垃圾音素进行筛选，保留处于所述筛选集合中的垃圾音素。

6.根据权利要求1-4任一项所述的基于人工智能的语音唤醒方法，其特征在于，所述根据预先设定的唤醒词，构建与所述唤醒词相似的反唤醒词，包括：

从与所述唤醒词发音相似的词语列表中，选取字数少于所述唤醒词字数的音近词；

将所述唤醒词中的部分字与所述音近词组合，以构建所述反唤醒词。

7.根据权利要求1-4任一项所述的基于人工智能的语音唤醒方法，其特征在于，所述利用所述解码网络进行语音唤醒，包括：

对输入的用户语音提取声学特征；

将所提取到的声学特征输入所述解码网络，以采用动态规划算法，在所述解码网络中计算得到为最优路径的识别结果；

根据识别结果，对终端进行唤醒。

8.根据权利要求7所述的基于人工智能的语音唤醒方法，其特征在于，所述解码网络中计算得到为最优路径的识别结果之后，还包括：

根据用户语音中的每一帧在所述解码网络中计算得到的最优路径的得分，计算所述用户语音的平均分值；

根据所述唤醒词中的每一帧在所述解码网络中计算得到的最优路径的得分，计算所述唤醒词的平均分值；

若所述唤醒词的平均分值减去所述用户语音的平均分值所获得的差值大于预设阈值，判定所述识别结果有效。

9.一种基于人工智能的语音唤醒装置，其特征在于，包括：

唤醒模块，用于利用所述解码网络进行语音唤醒。

10.根据权利要求9所述的基于人工智能的语音唤醒装置，其特征在于，所述第一选取模块，包括：

获取单元，用于获取各个音素和各个音素对应的状态；

选取单元，用于在各个音素中随机选取目标音素，并将所述目标音素添加到垃圾音素集合中；

计算单元，用于以所述目标音素作为起点，在各个音素中查询与所述目标音素距离最远的音素，并将所查询到的音素添加到所述垃圾音素集合中；

生成单元，用于将所查询到的音素作为所述目标音素，循环执行所述以所述目标音素作为起点，在各个音素中查询与所述目标音素距离最远的音素，并将所查询到的音素添加到所述垃圾音素集合中的过程，直至所述垃圾音素集合中的音素数量为预设的第一数量。

11.根据权利要求10所述的基于人工智能的语音唤醒装置，其特征在于，

所述获取单元，具体用于针对每一个音素，利用混合高斯模型对所述音素的各状态进行拟合，得到所述音素的混合高斯模型；采用多个语音的样本和语音的标注对所得到的各音素的混合高斯模型进行参数优化；根据各混合高斯模型之间，优化后参数的相似度，对各音素的混合高斯模型进行排序，得到对应的所述各个音素，以及各个音素的状态。

12.根据权利要求10所述的基于人工智能的语音唤醒装置，其特征在于，

所述计算单元，具体用于根据公式S＝(SM₁-SN₁)²+(SM₂-SN₂)²+(SM₃-SN₃)²计算所述目标音素PM与各音素PN之间的距离S；其中，SM₁、SM₂和SM₃分别为所述目标音素PM的三个状态，SN₁、SN₂和SN₃分别为所述音素PN的三个状态；根据所计算出的距离S，选取S取值最大的音素。

13.根据权利要求9-12任一项所述的基于人工智能的语音唤醒装置，其特征在于，所述装置，还包括：

筛选模块，用于利用各个音素，对多个样本语音分别进行识别，以得到匹配中的音素；从匹配中的音素中，选取匹配数量排序为前第二数量的音素，作为筛选集合；根据所述筛选集合对所述垃圾音素进行筛选，保留处于所述筛选集合中的垃圾音素。

14.根据权利要求9-12任一项所述的基于人工智能的语音唤醒装置，其特征在于，

所述第二选取模块，具体用于从与所述唤醒词发音相似的词语列表中，选取字数少于所述唤醒词字数的音近词；将所述唤醒词中的部分字与所述音近词组合，以构建所述反唤醒词。

15.根据权利要求9-12任一项所述的基于人工智能的语音唤醒装置，其特征在于，所述唤醒模块，包括：

提取单元，用于对输入的用户语音提取声学特征；

识别单元，用于将所提取到的声学特征输入所述解码网络，以采用动态规划算法，在所述解码网络中计算得到为最优路径的识别结果；

唤醒单元，用于根据识别结果，对终端进行唤醒。

16.根据权利要求15所述的基于人工智能的语音唤醒装置，其特征在于，所述唤醒模块，还包括：

置信单元，用于根据用户语音中的每一帧在所述解码网络中计算得到的最优路径的得分，计算所述用户语音的平均分值；根据所述唤醒词中的每一帧在所述解码网络中计算得到的最优路径的得分，计算所述唤醒词的平均分值；若所述唤醒词的平均分值减去所述用户语音的平均分值所获得的差值大于预设阈值，判定所述识别结果有效。