CN110444195A

CN110444195A - 语音关键词的识别方法和装置

Info

Publication number: CN110444195A
Application number: CN201910740816.0A
Authority: CN
Inventors: 王珺; 苏丹; 俞栋
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-01-31
Filing date: 2018-01-31
Publication date: 2019-11-12
Anticipated expiration: 2038-01-31
Also published as: EP3748629B1; CN108305617B; EP3748629A1; US11222623B2; US20200286465A1; CN108305617A; WO2019149108A1; EP3748629C0; EP3748629A4; JP7005099B2; CN110444195B; CN110444193B; CN110444193A; JP2021512362A

Abstract

本申请涉及一种语音关键词的识别方法，包括：将预定关键词中未作为过待识别分词单元的预定分词单元中，在预定关键词中出现在最前的作为当前待识别分词单元；将基于待识别语音信号获得且未作为过待判断语音片段的第一语音片段中，在待识别语音信号中出现在最前的作为当前待判断语音片段；当当前待判断语音片段对应当前待识别分词单元的概率大于预定阈值，且当前待识别分词单元在预定关键词不是出现在最后时，返回确定当前待识别分词单元的步骤；当当前待判断语音片段对应当前待识别分词单元的概率大于预定阈值，且当前待识别分词单元在预定关键词出现在最后时，初步判定待识别语音信号中存在预定关键词。本申请能提高智能语音关键词识别的效率。

Description

语音关键词的识别方法和装置

本申请是于2018年01月31日提交中国专利局，申请号为201810096472.X，发明名称为“语音关键词的识别方法和装置”的分案申请，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，特别是涉及一种语音关键词的识别方法、装置、计算机可读存储介质及计算机设备。

背景技术

语音技术(Speech Technology)让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。随着语音技术的发展和交互体验的提升，用户也越来越乐于通过语音与电子设备进行交互，例如通过语音控制电子设备完成指定工作。关键词识别技术是语音技术中的重要分支，用于对连续语音信号进行预定关键词的识别，即识别该连续语音信号中是否存在预定关键词，该技术在电子设备唤醒、对话交互界面初始化、音频索引和检索、以及语音密码验证等方面均有着广泛的应用。

传统的语音关键词识别方法，是先从待识别语音信号中提取声学特征，并将该声学特征输入至一个预先训练的深度神经网络模型中，进而基于该深度神经网络模型输出的概率和人为设定的决策逻辑，识别该语音信号中是否存在预定关键词。然而，传统方法对人为设定的决策逻辑十分敏感，通常每当应用场景或预定关键词发生改变时，都需要由人工对决策逻辑进行仔细调校，以此来适应新的应用场景，普适性不高。

发明内容

基于此，有必要针对传统语音关键词的识别方法普适性不高的技术问题，提供一种语音关键词的识别方法、装置、计算机可读存储介质及计算机设备。

一种语音关键词的识别方法，包括：

将预定关键词中未作为过待识别分词单元的预定分词单元中，在所述预定关键词中的出现顺序最前的所述预定分词单元，确定为当前待识别分词单元；

将基于待识别语音信号获得且未作为过待判断语音片段的第一语音片段中，在所述待识别语音信号中的出现顺序最前的所述第一语音片段，确定为当前待判断语音片段；

当所述当前待判断语音片段对应所述当前待识别分词单元的概率大于预定阈值，且所述当前待识别分词单元在所述预定关键词中出现顺序不是最后时，返回确定当前待识别分词单元的步骤；

当所述当前待判断语音片段对应所述当前待识别分词单元的概率大于所述预定阈值，且所述当前待识别分词单元在所述预定关键词中出现顺序是最后时，初步判定所述待识别语音信号中存在所述预定关键词。

一种语音关键词的识别装置，包括：

当前分词确定单元，用于将预定关键词中未作为过待识别分词单元的预定分词单元中，在所述预定关键词中的出现顺序最前的所述预定分词单元，确定为当前待识别分词单元；

当前片段识别单元，用于将基于待识别语音信号获得且未作为过待判断语音片段的第一语音片段中，在所述待识别语音信号中的出现顺序最前的所述第一语音片段，确定为当前待判断语音片段；

第一返回单元，用于当所述当前待判断语音片段对应所述当前待识别分词单元的概率大于预定阈值，且所述当前待识别分词单元在所述预定关键词中出现顺序不是最后时，返回确定当前待识别分词单元的步骤；

初步判定单元，用于当所述当前待判断语音片段对应所述当前待识别分词单元的概率大于所述预定阈值，且所述当前待识别分词单元在所述预定关键词中出现顺序是最后时，初步判定所述待识别语音信号中存在所述预定关键词。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如上所述的方法。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如上所述的方法。

上述语音关键词的识别方法、装置、计算机可读存储介质和计算机设备，基于第一分类模型获得与待识别语音信号的各第一语音片段分别对应的第一概率后，无需基于人为设定的决策逻辑最终确定待识别语音信号中是否存在预定关键词，而是基于待识别语音信号获得各第二语音片段，再基于与各第二语音片段分别对应的各第一语音片段所对应的第一概率，生成各第二语音片段的预测特征，并将该预测特征输入第二分类模型，获得各第二语音片段对应预定关键词的概率和/或非对应预定关键词的概率，进而基于第二分类模型输出的概率最终确定该待识别语音信号中是否存在该预定关键词。能够有效克服传统方法中对人为设定的决策逻辑敏感的问题，从而提高普适性。

附图说明

图1为一个实施例中语音关键词的识别方法的应用环境图；

图2为一个实施例中语音关键词的识别方法的流程示意图；

图3为一个实施例中CNN模型的拓扑结构示意图；

图4为一个实施例中语音关键词的识别系统的架构示意图；

图5为一个实施例中语音信号的频谱及对应的第一概率的示意图；

图6为一个实施例中基于预定决策逻辑作初步判断的步骤的流程示意图；

图7为一个实施例中在图6的基础上增加的步骤的流程示意图；

图8为另一个实施例中基于预定决策逻辑作初步判断的步骤的流程示意图；

图9为一个实施例中训练第一分类模型的方法的流程示意图；

图10为一个实施例中训练第二分类模型的方法的流程示意图；

图11为另一个实施例中语音关键词的识别方法的流程示意图；

图12为一个实施例中语音关键词的识别装置的结构框图；

图13为一个实施例中计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。

人工智能(Artificial Intelligence,AI)，是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

其中，语音处理技术让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，语音成为未来最被看好的人机交互方式之一。本申请实施例提供的方案涉及人工智能领域的语音关键词识别，具体通过如下实施例进行说明：

如图1所示，该语音关键词的识别方法的应用环境可涉及用户终端110和服务器120，用户终端110和服务器120通过网络进行通信。用户终端110获取待识别语音信号，再通过网络将该待识别语音信号发送至服务器120，服务器120对该待识别语音信号进行处理，确定该待识别语音信号中是否存在预定关键词。其中，用户终端110可以是移动终端或者台式终端，移动终端可以包括手机、音箱、机器人、平板电脑、笔记本电脑、个人数字助理和穿戴式设备等中的至少一种。服务器120可以用独立的物理服务器，或者多个物理服务器构成的服务器集群来实现。

可以理解，在其他实施例中，也可以由用户终端110获取待识别语音信号，并对该待识别语音信号进行处理，确定该待识别语音信号中是否存在预定关键词。

在一个实施例中，如图2所示，提供了一种语音关键词的识别方法。以该方法应用于上述图1中的用户终端110为例进行说明。该方法可以包括如下步骤S202～S210。

S202，基于待识别语音信号获得各第一语音片段。

待识别语音信号，是指需要确定其中是否存在预定关键词的语音信号。在实际应用中，通常可由用户根据实际需要发出声音信号(如用户说一句话)，用户终端采集该声音信号，并将该声音信号转化为电信号，以获得待识别语音信号。

第一语音片段，是指与待识别语音信号中的单元帧对应的第一拼接帧序列。用户终端获取到待识别语音信号后，通常需要先对该待识别语音信号进行分帧处理，通俗地说，就是将该待识别语音信号切分为一小段一小段，每一小段均可称之为一帧单元帧。在一个实施例中，可以通过移动窗函数实现分帧处理，例如以窗函数的帧窗长为25ms、窗移为10ms进行分帧处理，处理后获得的各单元帧的长度均为25ms，每两单元帧之间具有15ms的交叠部分。

获得各单元帧之后，用户终端可进一步基于预定的第一拼接规则，获得与各单元帧一一对应的各第一拼接帧序列，即各第一语音片段。在一个实施例中，对于任一单元帧，均可基于该单元帧在待识别语音信号中的出现顺序，将出现在该单元帧前面的第一预设帧数的单元帧、该单元帧本身、以及出现在该单元帧后面的第二预设帧数的单元帧进行拼接处理，从而获得与该单元帧对应的第一语音片段。

其中，第一预设帧数和第二预设帧数可基于预置的第一分类模型所对应的预定关键词的预定分词单元的长度进行设定。例如，预定关键词为“耳朵”，且第一分类模型所对应的该预定关键词的各预定分词单元分别为“er”和“duo”。在此情况下，第一预设帧数可设为10，第二预设帧数可设为5。亦即是说，对于任一单元帧，可将该单元帧的前10帧、该单元帧本身、以及该单元帧的后5帧进行拼接处理，拼接后获得的与该单元帧对应的第一语音片段则包含这16帧单元帧。

需要说明的是，若待识别语音信号中包括N帧单元帧，按照在待识别语音信号中的出现顺序，该N帧单元帧由前往后分别为第1帧单元帧、第2帧单元帧、第3帧单元帧…第N帧单元帧。对于某一帧单元帧，若位于该单元帧前面的单元帧的总数小于第一预设帧数，则可以复制多帧第1帧单元帧，以凑足第一预设帧数。例如，第一预设帧数为10，第二预设帧数为5，对于与第1帧单元帧对应的第一语音片段，该第一语音片段则可以包含11帧第1帧单元帧、及第2～6帧单元帧，共计16帧单元帧。对于与第3帧单元帧对应的第一语音片段，该第一语音片段则可以包含9帧第1帧单元帧、以及第2～8帧单元帧，共计16帧单元帧。

可以理解，类似地，对于某一帧单元帧，若位于该单元帧后面的单元帧的总数小于第二预设帧数，则可以复制多帧第N帧单元帧，以凑足第二预设帧数。

需要说明的是，本申请的各实施例中凡涉及到对单元帧进行拼接处理之处(如经拼接处理获得第二语音片段、第三语音片段和第四语音片段)，若位于某一帧单元帧前面或后面的单元帧的总数不足相应的预设帧数，则可以参照上述复制处理的方式，以凑足相应的预设帧数，在此已作统一说明，后文各处均不再赘述。

此外，各单元帧对应的波形在时域上的描述能力较低，因此可以对各单元帧进行波形变换。例如，可以在获得各单元帧后，对各单元帧进行声学特征的提取处理，即将各单元帧对应的波形转换为多维向量。对于任一单元帧，其对应的多维向量可用于表征该单元帧中包含的内容信息。在一个实施例中，声学特征可包括梅尔频谱、对数梅尔频谱(对梅尔频谱进行对数运算获得)、梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient，MFCC)等中的任意一种或任意多种的组合。以提取的声学特征为对数梅尔频谱为例，对于任一单元帧，可获得与之对应的40维向量。

相应地，获得各第一语音片段的第三声学特征。对于任一第一语音片段，该第一语音片段的第三声学特征可包括该第一语音片段包含的各单元帧的声学特征。在一个实施例中，第三声学特征为维度为t×f的特征向量，其中，t表示时间帧维度，即第一语音片段所包含的单元帧的总帧数，f表示频谱维度，即各单元帧的声学特征的维度。以各第一语音片段均包含16帧单元帧，且提取的各单元帧的声学特征均为40维对数梅尔频谱特征为例，t＝16，f＝40，即任一第一语音片段的第三声学特征均包括维度为16×40的向量。

S204，基于预置的第一分类模型获得与各第一语音片段分别对应的各第一概率，第一概率包括该第一语音片段分别对应预定关键词的各预定分词单元的各概率。

预置的第一分类模型，是指预先训练的神经网络模型。可以以各第一语音片段的第三声学特征为第一分类模型的输入特征，第一分类模型可以基于该输入特征对各第一语音片段进行分类处理，从而获得与各第一语音片段一一对应的各第一概率。对于任一第一语音片段，其对应的第一概率可以包括该第一语音片段分别对应预定关键词的各预定分词单元的各概率。需要说明的是，第一分类模型输出的各概率均可以为后验概率。

其中，预定分词单元可基于预定的分词单位对预定关键词进行分词处理获得。以预定关键词是“耳朵”，预定分词单位为拼音为例，“耳朵”这一预定关键词的各预定分词单元可分别为“er”和“duo”。相应地，对于任一第一语音片段，第一分类模型输出的与该第一语音片段对应的第一概率可包括该第一语音片段对应“er”的概率、以及该第一语音片段对应“duo”的概率。再例如，预定关键词为“小蓝精灵”，预定分词单位为拼音，则“小蓝精灵”这一预定关键词的各预定分词单元可分别为“xiao”、“lan”、“jing”和“ling”，第一分类模型输出的与该第一语音片段对应的第一概率可包括该第一语音片段对应“xiao”的概率、该第一语音片段对应“lan”的概率、该第一语音片段对应“jing”的概率、以及该第一语音片段对应“ling”的概率。

在一个实施例中，第一概率除了包括第一语音片段对应各预定分词单元的各概率之外，还可以包括第一语音片段对应第一填充信息的概率。第一填充信息是指除各预定分词单元之外的其他信息。例如，对于各预定分词单元分别为“er”和“duo”的情况，除“er”和“duo”之外的其他所有信息均为第一填充信息。再例如，对于各预定分词单元分别为“xiao”、“lan”、“jing”和“ling”的情况，除“xiao”、“lan”、“jing”和“ling”之外的其他所有信息均为第一填充信息。

需要说明的是，在第一概率包括第一语音片段对应各预定分词单元的各概率和对应第一填充信息的概率的情况下，对于任一第一语音片段，其对应的第一概率中包含的各概率的和可以为1。

在一个实施例中，第一分类模型可以为具有历史信息记忆功能的神经网络模型，例如CNN(Convolutional Neural Network，卷积神经网络)、LSTM(Long Short-TermMemory，长短期记忆网络)、TDNN(Time-Delay Neural Network，时延神经网络)或闸控卷积神经网络等。

以第一分类模型是CNN为例进行说明，CNN可包括卷积层、max-pooling层、全连接层和softmax层。如前文所述，输入特征为维度为t×f的特征向量，如图3所示，可由卷积层将输入特征与维度为s×v×w的卷积核(即过滤权重矩阵)作卷积处理，获得s个特征映射图。其中，v为各卷积核在时间帧维度的大小，v≤t；r为各卷积核在频谱维度的大小，w≤f；s为卷积核的个数，即对于该CNN，一共有s个维度为v×w的卷积核。然后，由max-pooling层分别对这s个特征映射图进行最大池化处理(即邻域内特征点取最大的处理，亦即抽样处理)，以减小时频维度的大小，获得s个降维后的特征映射图。进而，通过全连接层将该降维后的特征映射图送入softmax层，由softmax层输出分类结果，即第一概率。

在一个实施例中，出于权衡网络复杂度和系统性能的考虑，CNN可采用一层卷积层，并且将卷积核的时间帧维度的大小配置为与输入特征的时间帧维度的小相同，即v＝t＝16。此外，该CNN还可采用5个全连接层，其中，前四层包含512个隐层，最后一层包括128个隐层。

S206，基于待识别语音信号获得各第二语音片段，并生成各第二语音片段的第一预测特征，第一预测特征基于与该第二语音片段对应的各第一语音片段所对应的第一概率生成。

第二语音片段，是指与待识别语音信号中的单元帧对应的第二拼接帧序列。与第一语音片段类似，用户终端可基于预定的第二拼接规则，获得与各单元帧一一对应的各第二拼接帧序列，即各第二语音片段。

在一个实施例中，对于任一单元帧，均可基于该单元帧在待识别语音信号中的出现顺序，将出现在该单元帧前面的第三预设帧数的单元帧、该单元帧本身、以及出现在该单元帧后面的第四预设帧数的单元帧进行拼接处理，从而获得与该单元帧对应的第二语音片段。

其中，第三预设帧数和第四预设帧数可基于预定关键词的长度进行设定。以预定关键词为“耳朵”为例，第三预设帧数可设定为40，第四预设帧数可设定为20，即对于任一单元帧，均可将出现在该单元帧前面的40帧单元帧、该单元帧本身、以及出现在该单元帧后面的20帧单元帧进行拼接处理，拼接后获得的与该单元帧对应的第二语音片段则包含这61帧单元帧。

需要说明的是，相较于第一语音片段，第二语音片段包含的单元帧的总帧数更多。因而可以理解，相较于第一语音片段，第二语音片段包含更多的“上下文”信息。

在一个实施例中，对于任一第二语音片段，其第一预测特征包括与该第二语音片段包含的各单元帧一一对应的各第一语音片段所对应的各第一概率。例如，各第二语音片段均包含61帧单元帧，对任一第二语音片段，其包含的61帧单元帧中的每一帧都具有与之对应的第一语音片段(参考前文，各第一语音片段与待识别语音信号中的各单元帧一一对应)，因而可以理解为该第二语音片段对应61个第一语音片段，并且，各第一语音片段均一一对应一个第一概率，因此该第二语音片段的第一预测特征包括该第二语音片段对应的61个第一语音片段所对应的第一概率。

进一步地，以第二语音片段包含61帧单元帧、预定关键词是“耳朵”、各预定分词单元分别为“er”和“duo”，且第一分类模型输出的第一概率包括第一语音片段对应“er”的概率、对应“duo”的概率、以及对应第一填充信息的概率为例。在此情况下，对于任一第二语音片段，其第一预测特征包括维度可以为61×3的向量。

S208，将各第一预测特征输入预置的第二分类模型，获得与各第二语音片段分别对应的各第二概率，第二概率包括该第二语音片段对应预定关键词的概率和/或非对应预定关键词的概率。

第二分类模型，是指预先训练的神经网络模型。可以以各第二语音片段的第一预测特征为第二分类模型的输入特征，第二分类模型可以基于该输入特征对各第二语音片段进行分类处理，从而获得与各第二语音片段一一对应的各第二概率。对于任一第二语音片段，其对应的第二概率可以包括该第二语音片段对应预定关键词的概率和/或非对应预定关键词的概率。与前文的第一分类模型输出的各概率类似，第二分类模型输出的各概率也均可为后验概率。

在一个实施例中，第二概率可仅包括第二语音片段对应预定关键词的概率。以预定关键词是“耳朵”为例，对于任一第二语音片段，第二分类模型输出的第二概率包含该第二语音片段对应“er duo”的概率。再以预定关键词是“小蓝精灵”为例，该第二分类模型输出的第二概率包括该第二语音片段对应“xiao lan jing ling”的概率。

在另一个实施例中，第二概率可仅包括第二语音片段非对应(即不对应)预定关键词的概率。以预定关键词是“耳朵”为例，任一第二语音片段对应的第二概率仅包括该第二语音片段对应除“er duo”以外的其他信息的概率。

在又一个实施例中，第二概率可包括第二语音片段对应预定关键词的概率和第二语音片段非对应预定关键词的概率。可以理解，在此情况下，任一第二语音片段对应的第二概率中包含的各概率的和可以为1。

在一个实施例中，第二分类模型可以为具有历史信息记忆功能的神经网络模型，例如CNN(Convolutional Neural Network，卷积神经网络)、LSTM(Long Short-TermMemory，长短期记忆网络)、TDNN(Time-Delay Neural Network，时延神经网络)、闸控卷积神经网络和基于全连接的FCDNN神经网络等。

在一个实施例中，任一第二语音片段的第一预测特征，可以包括与该第二语音片段包含的各单元帧一一对应的各第一语音片段所对应的各第一概率。并且，第二分类模型可采用基于全连接的FCDNN神经网络，该神经网络包括两个全连接隐层，各隐层均包含128个结点。该实施例能在保证系统性能的前提下，降低复杂度。

S210，基于第二概率确定待识别语音信号中是否存在预定关键词。

获得第二概率后，可将与各第二语音片段一一对应的各第二概率逐一地与预定的概率阈值进行比较。例如，对于任一第二概率，判断该第二概率中包含的第二语音片段对应预定关键词的概率或者包含的第二语音片段非对应预定关键词的概率是否大于预定的概率阈值。

在一个实施例中，可基于各第二语音片段对应的单元帧在待识别语音信号中的出现顺序，由前往后地将与各第二语音片段一一对应的各第二概率逐一与预定的概率阈值进行比较。

以判断各第二概率中包含的第二语音片段对应预定关键词的概率是否大于预定的概率阈值为例，基于获得的第二概率确定待识别语音信号中是否存在预定关键词的过程如下：

若第一个第二语音片段(其对应的单元帧出现在待识别语音信号的最前面的第二语音片段)对应预定关键词的概率大于预定的概率阈值，则判定该第一个第一语音片段中存在预定关键词，输出表征待识别语音信号中存在预定关键词的识别结果，并结束识别流程。相反地，若该第一个第一语音片段对应预定关键词的概率小于预定的概率阈值，则判定该第一个第二语音片段中不存在预定关键词，继续比较第二个第二语音片段对应预定关键词的概率与预定的概率阈值的大小关系。

以此类推，直至某一个第二语音片段对应预定关键词的概率大于预定的概率阈值时，判定该第二语音片段中存在预定关键词，输出表征待识别语音信号中存在预定关键词的识别结果，并结束识别流程。若直至最后一个第二语音片段对应预定关键词的概率仍小于预定的概率阈值，则判定该待识别语音信号中不存在预定关键词，输出表征待识别语音信号中不存在预定关键词的识别结果，并结束识别流程。

上述语音关键词的识别方法，基于第一分类模型获得与待识别语音信号的各第一语音片段分别对应的第一概率后，无需基于人为设定的决策逻辑最终确定待识别语音信号中是否存在预定关键词，而是基于待识别语音信号获得各第二语音片段，再基于与各第二语音片段分别对应的各第一语音片段所对应的第一概率，生成各第二语音片段的预测特征，并将该预测特征输入第二分类模型，获得各第二语音片段对应预定关键词的概率和/或非对应预定关键词的概率，进而基于第二分类模型输出的概率最终确定该待识别语音信号中是否存在该预定关键词。能够有效克服传统方法中对人为设定的决策逻辑敏感的问题，从而提高普适性。

此外，传统方案对预定的决策逻辑敏感，还限制了产品的灵活开发和快速上线，且系统泛化能力弱。相应地，上述语音关键词的识别方法还能够减少上述限制以及提高系统泛化能力。

需要说明的是，对于预定关键词识别，召回率和误识别率是评估系统性能的两个重要指标。其中，召回率用于表征正类被识别为正类正确的比例。误识别率用于表征负类被识别为正类的比例。应用于电子设备的唤醒场景时，误识别率可对应于误唤醒率；可以理解，误唤醒率低，意味着待识别语音信号中实际不存在预定关键词时，错误地识别到该待识别语音信号中不存在预定关键词，这一现象出现的几率低。

一般来说，为使系统的召回率和误识别率达到较好的均衡，通常需要慎重地设定关键词。其中一个重要设定条件是预定关键词的长度需要足够长，并且预定关键词中包含的音节或音素需要足够丰富。例如，预定关键词中包含至少四个音节或至少五个音素，类似于“Okay Google”、“天猫精灵”、“你好小雅”、“叮咚叮咚”、“小爱同学”和“你好电视”等等。传统方案仅仅能够在预定关键词较长，且待识别语音信号的背景环境安静的情况下，达到差强人意的系统性能。

然而，本申请的各实施例中，采用第一分类模型和第二分类模型逐级进行预定关键词的识别，先获得与各第一语音片段一一对应的第一概率，再基于各第二语音片段对应的各第一语音片段所对应的第一概率，获得与各第二语音片段一一对应的第二概率。由于第二语音片段中包含了更多的“上下文”信息，有效地提高了识别的精准性。并且，本申请各实施例中的方案不仅能很好地适用于关键词较长，且背景环境安静的情况，还能够在预定关键词较短，且待识别语音信号的背景环境为真实的远讲环境的情况下，使得系统的召回率和误识别率达到较好的均衡。

在一个实施例中，当基于各第一概率和预定的决策逻辑判定待识别语音信号中存在预定关键词时，进入基于待识别语音信号获得各第二语音片段的步骤。

在本实施例中，在获得第一分类模型输出的各第一概率之后，基于待识别语音信号获得各第二语音片段之前，可先基于各第一概率和预定的决策逻辑对待识别语音信号中是否存在预定关键词进行初步判断。在初步判定存在预定关键词时，才进入基于待识别语音信号获得各第二语音片段的步骤。相反地，初步判定不存在预定关键词时，可以直接输出表征待识别语音信号中不存在预定关键词的识别结果，并结束识别流程。

在本实施例中，增设初步判断的步骤，基于预定的决策逻辑初步判定存在预定关键词时，才由第二分类模型进行分类处理。一方面，能够通过双重判断提高识别的准确性。另一方面，对于不存在预定关键词的待识别语音信号，提前结束识别流程，无需再由第二分类模型进行分类处理，避免了无实际意义的操作，能够有效地优化系统性能。

需要说明的是，在本实施例中，可通过预定的决策逻辑使系统达到较低的假阴性率(使得待识别语音信号中真实存在预定关键词时，错误地识别为不存在预定关键词的现象出现的几率低)。例如，在实际应用中，可使系统的假阴性率达到0.05以下。需要说明的是，在基于预定的决策逻辑进行初步判断的过程中，可以暂时先不考虑假阳性率，而是由后续第二分类网络针对预定的决策逻辑的结构来优化假阳性率。

在一个实施例中，决策逻辑可基于隐马尔可夫模型(Hidden Markov Model，HMM)实现。

此外，在实际应用中，当预定关键词为“耳朵”时，对于对应“er duo”的语音信号A，以及对应“ao duo”的语音信号B。经过第一分类模型对该语音信号A进行分类后，输出的各第一概率如图5中左边的坐标轴的纵坐标所示，经过第一分类模型对该语音信号B进行分类后，输出的各第一概率如图5中右边的坐标轴的纵坐标所示。此外，图5中左边的频谱图中的白线表示基于第一概率和预定的决策逻辑识别到语音信号A中预定关键词的出现位置，图5中右边的频谱图中的白线表示基于第一概率和预定的决策逻辑识别到语音信号B中预定关键词的出现位置。由此可知，仅基于第一分类模型和预定的决策逻辑进行初步识别，仍可能出现误识别(对于实际上不存在预定关键词的语音信号B，识别到该语音信号B中存在预定关键词)。但在本实施例中，经预定的决策逻辑初步判定待识别语音信号中存在预定关键词后，还基于第二分类模型作进一步识别，能够有效地减少上述误识别，从而提高识别的准确率。

可以理解，可基于本实施例的语音关键词的识别方法，构建语音关键词的识别系统，该识别系统的架构图可如图4所示。

在一个实施例中，分别检测预定关键词的各预定分词单元是否存在于待识别语音信号中，并且检测各预定分词单元在待识别语音信号中的出现顺序是否与各预定分词单元在预定关键词中的出现顺序一致。

如图6所示，在本实施例中，基于各第一概率和预定的决策逻辑判定待识别语音信号中存在预定关键词的方式，可以包括如下步骤S602～S608。

S602，确定当前待识别分词单元，当前待识别分词单元是基于各预定分词单元在预定关键词中的出现顺序，所确定的出现在最前的未作为过待识别分词单元的预定分词单元。

以预定关键词为“小蓝精灵”，各预定分词单元分别为“xiao”、“lan”、“jing”和“ling”为例。在一次识别过程中，第一次确定当前待识别分词单元时，“xiao”、“lan”、“jing”和“ling”均是未作为过待识别分词单元的预定分词单元，此时，将出现在最前的“xiao”确定为当前待识别分词单元。第二次确定当前待识别分词单元时，“lan”、“jing”和“ling”是未作为过待识别分词单元的预定分词单元，将出现在最前的“lan”确定为当前待识别分词单元，以此类推。

S604，确定当前待判断语音片段，当前待判断语音片段是基于各第一语音片段在待识别语音信号中的出现顺序，所确定的出现在最前的未作为过待判断语音片段的第一语音片段。

若待识别语音信号中包括N帧单元帧，则对应有N个第一语音片段。基于第一语音片段对应的单元帧在待识别语音信号中的出现顺序，由前往后，各第一语音片段分别为第1个第一语音片段、第2个第一语音片段….第N个第一语音片段。在一次识别过程中，第一次确定当前待判断语音片段时，这N个第一语音片段均为未作为过待判断语音片段的第一语音片段，则将第1个第一语音片段确定为当前待识别语音片段。第二次确定当前待判断语音片段时，第2个第一语音片段、第3个第一语音片段….第N个第一语音片段均为未作为过待判断语音片段的第一语音片段，将出现在最前的第2个第一语音片段确定为当前待判断语音片段，以此类推。

S606，当当前待判断语音片段对应当前待识别分词单元的概率大于预定阈值，且当前待识别分词单元不是预定关键词中出现在最后的预定分词单元时，返回确定当前待识别分词单元的步骤。

S608，当当前待判断语音片段对应当前待识别分词单元的概率大于预定阈值，且当前待识别分词单元是预定关键词中出现在最后的预定分词单元时，判定待识别语音信号中存在预定关键词。

在本实施例中，确定当前待识别分词单元和当前待判断语音片段后，判断当前待判断语音片段对应当前待识别分词单元的概率是否大于预定阈值。

若大于，说明当前待识别分词单元存在于当前待判断语音片段中。此时，进一步判断当前待识别分词单元是否为预定关键词中出现在最后的预定分词单元。若判定为否，说明目前还只检测到待识别语音信号中存在当前待识别分词单元，需要进一步检测该待识别语音信号中是否存在其他预定分词单元，因此返回确定当前待识别分词单元的步骤。若判定为是，说明检测到待识别语音信号中存在预定关键词的各预定分词单元，因此可初步判定待识别语音信号中存在预定关键词。

若小于或等于，说明当前待识别分词单元不存在于当前待判断语音片段中。在一个实施例中，判定小于或等于时，可以返回确定当前待判断语音片段的步骤，以将下一个第一语音片段确定为当前待判断语音片段，继续检测当前待识别分词单元是否存在于该下一个第一语音片段中。

在本实施例中，若当前待判断语音片段为待识别语音信号中出现在最后的一帧单元帧所对应的第一语音片段，且检测到该第一语音片段中不存在预定关键词中出现在最后的预定分词单元，则可初步判定待识别语音信号中不存在预定关键词，直接输出表征待识别语音信号中不存在预定关键词的识别结果，并结束识别流程。

需要说明的是，如前文所述，可通过预定的决策逻辑使系统达到较低的假阴性率。相应地，在本实施例中，可通过调整预定阈值，使系统达到较低的假阴性率。

在一个实施例中，在图6所示实施例的基础上，如图7所示，语音关键词的识别方法还可以包括如下步骤S702～S704。

S702，当当前待判断语音片段对应当前待识别分词单元的概率小于或等于预定阈值，且上一次判定大于预定阈值时所对应的待识别分词单元处于有效状态时，返回确定当前待判断语音片段的步骤(S404)。

S704，当当前待判断语音片段对应当前待识别分词单元的概率小于或等于预定阈值，且上一次判定大于预定阈值时所对应的待识别分词单元处于无效状态时，将预定关键词的各预定分词中出现在最前的预定分词单元确定为当前待识别分词单元，并返回确定当前待判断语音片段的步骤(S604)。

需要说明的是，对于待识别语音信号而言，可能出现如下情况：该待识别语音信号中存在各预定关键词的各预定分词单元，且各预定分词单元在该待识别语音信号中的出现顺序与该各预定分词单元在预定关键词中的出现顺序也是一致的，但在该待识别语音信号中，各预定分词单元并不能紧凑相连地构成预定关键词，而是被其他填充信息隔断。例如，预定关键词为“小蓝精灵”，各预定分词单元分别为“xiao”、“lan”、“jing”和“ling”，然而，在待识别语音信号中，出现的不是“xiao lan jing ling”，而是“xiao peng you ai lanjing ling”，即被“peng you ai”隔断。在此情况下，实际上待识别语音信号中是不存在预定关键词的，但仍可能识别为该待识别语音信号中存在预定关键词，即出现误识别。

基于此，在本实施例中，判定当前待判断语音片段对应当前待识别分词单元的概率小于或等于预定阈值时，进一步判断上一次判定大于预定阈值时所对应的待识别分词是否处于有效状态。若是，则直接返回确定当前待判断语音片段的步骤；若否，则将预定关键词的各预定分词单元中出现在最前的预定分词单元确定为当前待识别分词单元，再返回确定当前待判断语音片段的步骤，例如，预定关键词为“小蓝精灵”，各预定分词单元分别为“xiao”、“lan”、“jing”和“ling”，则将所有预定分词单元中出现在最前的“xiao”确定为当前待识别分词单元，再返回确定当前待判断语音片段的步骤。

在一个实施例中，可以通过计数值判断上一次判定大于预定阈值时所对应的待识别分词是否处于有效状态。每当判定当前待判断语音片段对应当前待识别分词单元的概率大于预定阈值，但当前待识别分词单元不是预定关键词中出现在最后的预定分词单元时，先将当前计数值设置为预定的触发初始值(该触发初始值，可以为基于业务经验设定的正数，如30)，再返回确定当前待识别分词单元的步骤。

并且，每当判定当前待判断语音片段对应当前待识别分词单元的概率小于或等于预定阈值时，将当前计数值减去预定调整值(例如减1)，以更新当前计数值，并判断当前计数值是否大于预定的标准值(如0)。若大于，说明上一次判定大于预定阈值时所对应的待识别分词处于有效状态，因此可直接返回确定当前待判断语音片段的步骤。若小于或等于，说明上一次判定大于预定阈值时所对应的待识别分词已经处于无效状态，因此可将预定关键词的各预定分词单元中出现在最前的预定分词单元确定为当前待识别分词单元，再返回确定当前待判断语音片段的步骤。

在一个实施例中，基于待识别语音信号获得N个第一语音片段，设定第一语音片段的索引值为n，则第n个第一语音片段为在该待识别语音信号中出场顺序由前往后排在第n位的第一语音片段，n小于或等于N。并且，预定关键词包括M个预定分词单元，设定预定分词单元的索引值为m，则第m个预定分词单元为在预定关键词中出场顺序由前往后排在第m位的预定分词单元，m小于或等于M。此外，设计数值为k，且计数值的初始触发值为30。如图8所示，在本实施例中，基于预定的决策逻辑初步判断待识别语音信号中是否存在预定关键词的步骤，可以包括如下步骤S801～S811。

S801，令n等于0，m等于1，以及k等于0。

S802，令n增加一。

S803，判断n是否大于N。若是，则跳转至步骤S804，若否，则跳转至步骤S805。

S804，初步判定待识别语音信号中不存在预定关键词，并结束流程。

S805，判断第n个第一语音片段对应第m个预定分词单元的概率是否大于预定阈值。若是，则跳转至步骤S806，若否，则跳转至步骤S808。

S806，判断m是否等于M。若否，则跳转至步骤S807，若是，则跳转至步骤S811。

S807，令k等于30，m增加一，并且返回步骤S802。

S808，令k减一。

S809，判断k是否大于0。若是，则返回步骤S802，若否，则跳转至步骤S810。

S810，令m等于1，并返回步骤S802。

S811，初步判定待识别语音信号中存在预定关键词，并结束流程。

在一个实施例中，如图9所示，训练第一分类模型的方式，可以包括如下步骤S902～S908。

S902，基于预定语料库获取样本语音信号，预定语料库包括通用语料库。

S904，基于各样本语音信号获得第三语音片段。

S906，获取各第三语音片段的第一声学特征和各第三语音片段对应的第三概率，第三概率包括该第三语音片段分别对应预定关键词的各预定分词单元的各概率。

S908，基于各第三语音片段的第一声学特征和各第三概率对预定的第一神经网络模型进行训练，获得第一分类模型。

可以理解，在通过第一分类模型进行分类处理之前，需要先基于样本数据对预定的神经网络模型进行训练，以获得第一分类模型。

在传统方案中，通常只能基于专用语料库获取样本语音信号。专用语料库是指针对预定关键词专门建立的语料库，专用语料库中包括在各种不同声学条件下采集的对应预定关键词的语音信号。可以理解，对于不同的预定关键词，需要建立不同的专用语料库，并且建立专用语料库是非常耗时耗力的工作，这限制了产品的灵活开发和快速上线。

基于此，在本实施例中，可基于通用语料库获取样本语音信号，可有效减少上述限制。并且，通用语料库具备覆盖更广的声学条件、具有更大的数据规模、以及语音信号的质量更有保障的优势。因此，本实施例能够高效且保持鲁棒性地实现预定关键词的识别。

可以理解，在通用语料库中，对于各语音信号均有对应的标注，该标注用于表征各相应语音信号的内容信息。在本实施例中，获得样本语音信号后，与对待识别语音信号的处理过程类似，通过分帧及拼接处理获得各第三语音片段，以及基于第三语音片段包含的各样本单元帧的声学特征获得第三语音片段的第一声学特征。但与待识别语音信号的处理有所区别的是，对样本语音信号进行处理时，还需进行帧对齐处理，通过帧对齐处理来确定样本语音信号从第多少帧样本单元帧到第多少帧样本单元帧的标注对应于相应的预定分词单元。

此外，在一个实施例中，基于通用语料库中的标注，可以获得各第三语音片段对应预定关键词的各预定分词单元的各概率。在另一个实施例中，基于通用语料库中的标注，可以获得各第三语音片段对应预定关键词的各预定分词单元的各概率、以及对应第二填充信息的概率。其中，第二填充信息与前文的第一填充信息类似，此处不加赘述。

进而，基于各第三语音片段的第一声学特征和第三概率，即可对预定的第一神经网络模型进行训练，即确定第一神经网络模型涉及的各模型参数，从而获得第一分类模型。

在一个实施例中，在图9所示实施例的基础上，如图10所示，训练第二分类模型的方式，可以包括如下步骤S1002～S1008。

S1002，基于各样本语音信号获得第四语音片段。

S1004，获取各第四语音片段的第二预测特征，第二预测特征基于与该第四语音片段对应的各第三语音片段所对应的第三概率生成；

S1006，获取与各第四语音片段分别对应的各第四概率，第四概率包括该第四语音片段对应预定关键词的概率和/或非对应预定关键词的概率；

S1008，基于各第四语音片段的第二预测特征和各第四概率对预定的第二神经网络模型进行训练，获得第二分类模型。

与第一分类模型类似，在通过第二分类模型进行分类处理之前，需要先基于样本数据对预定的第二神经网络模型进行训练，以获得第二分类模型。

在本实施例中，基于样本语音信号获得第四语音片段，与基于待识别语音信号获得第二语音片段的处理过程类似，此处不加赘述。此外，第四概率与前文的第二概率，除针对对象不同之外(第二概率针对第二语音片段，第四概率针对第四语音片段)，其他性质均类似，此处也不加赘述。

需要说明的是，对第一神经网络模型和第二神经网络模型涉及的权重参数均可以以优化交叉熵为目标，并采用分布式异步梯度下降的方法来进行训练。

在一个实施例中，在生成各第二语音片段的第一预测特征之前，还可以包括步骤：获取各第二语音片段的第二声学特征。

据此，第二语音片段的第一预测特征基于该第二语音片段的第二声学特征、以及与该第二语音片段对应的各第一语音片段所对应的第一概率生成。

在本实施例中，对于任一第二语音片段，该第二语音片段的第一预测特征，除了包括该第二语音片段对应的各第一语音片段所对应的第一概率之外，还可包括该第二语音片段的第二声学特征。第一预测特征中包含更多的有效特征信息，能够提高识别的准确率。其中，第二声学特征与第一语音片段的第三声学特征类似，此处不加赘述。

在一个实施例中，第二分类模型的输入特征(即第二语音片段的第一预测特征)包括该第二语音片段对应的各第一语音片段所对应的第一概率、以及各第二语音片段的第二声学特征，并且，第二分类模型采用基于全连接的FCDNN神经网络，该神经网络包括五个全连接隐层，前四个隐层的各层均包含512个节点，最后一个隐层包含218个节点。

在一个实施例中，预定关键词的各预定分词单元的获取方法，可以包括如下步骤：基于预定的分词单位对预定关键词进行分词处理，获得预定关键词的各预定分词单元，其中，预定的分词单位包括下述三项中的至少一项：拼音、音素和字。

需要说明的是，前文的实施例中，均以预定的分词单位为拼音为例进行说明。但在本申请的方案中，分词单位可基于实际需求(例如识别准确度、系统性能等)进行设定。例如，在一个实施例中，还可以以音素为预定的分词单位。在另一个实施例中，也可以以字为预定的分词单位。

在一个实施例中，第一分类模型包括相互级联的各子分类模型，子分类模型的级数大于或等于2。

据此，将各第三声学特征输入预先训练的第一分类模型，获得各第一语音片段分别对应预定关键词的各预定分词单元的第一概率的步骤，可以包括：逐级将各级子分类模型对应的输入特征输入各级子分类模型，获得各级子分类模型输出的第五概率。

其中，首级子分类模型对应的输入特征包括与该首级子分类模型对应的各第一语音片段的第三声学特征，除首级子分类模型以外的各级子分类模型的输入特征均基于其上一级子分类模型输出的第五概率生成。

并且，各级子分类模型输出的第五概率包括与该级子分类模型对应的各第一语音片段分别对应预定关键词的与该级子分类模型对应的预定分词单元的概率，第一分类模型中的最后一级子分类模型输出的第五概率为第一概率。

在本实施例中，第一分类模型可以包括相互级联的多级子分类模型，子分类模型的级数大于或等于2。需要说明的是，各级子分类模型各自对应有第一语音信号和各预定分词单元，且各级子分类模型对应的第一语音信号和各预定分词单元互不相同。此外，可基于实际需求(如系统复杂度以及系统性能的要求)，设定第一分类模型中包含的子分类模型的级数。

以预定关键词为“小蓝精灵”，预定分词单元为拼音为例，对预定关键词进行分词处理，可获得如下三组预定分词单元：第一组包括的各预定分词单元分别为“xiao”、“lan”、“jing”和“ling”。第二组包括的各预定分词单元分别为“xiao lan”、“lan jing”和“jingling”。第三组包括的各预定分词单元分别为“xiao lan jing”和“lan jing ling”。

在此情况下，第一分类模型包括的子分类模型的级数可以为3。相应地，第一级分类子模型对应的各预定分词单元为第一组包括的各预定分词单元，第二级分类子模型对应的各预定分词单元为第二组包括的各预定分词单元，第三级分类子模型对应的各预定分词单元为第三组包括的各预定分词单元。

此外，为便于描述，下文将第一级、第二级以及第三级子分类模型各自对应的第一语音片段，分别称之为一级第一语音片段、二级第一语音片段、三级第一语音片段。

基于此，在本实施例中，先将一级第一语音片段的第三声学特征输入第一级子分类模型，获得第一级子分类模型输出的该一级第一语音片段分别对应“xiao”、“lan”、“jing”和“ling”的概率。

然后，基于第一级子分类模型输出的概率生成二级第一语音片段的第三预测特征，将各第三预测特征输入第二级子分类模型，获得第二级子分类模型输出的该二级第一语音片段分别对应“xiao lan”、“lan jing”和“jing ling”的概率。

进一步地，基于第二级子分类模型输出的概率生成三级第一语音片段的第四预测特征，将各第四预测特征输入第三级子分类模型，获得第三级子分类模型输出的该三级第一语音片段分别对应“xiao lan jing”和“lan jing ling”的概率，该第三级子分类模型输出的概率即为第一概率，进而，对于任一第二语音片段，基于与该第二语音片段对应的各第一语音片段的第一概率生成该第二语音片段的第一预测特征，在将该第一预测特征输入第二分类模型，以及执行相应的后续步骤。

需要说明的是，前文中提到的第三声学特征、第一声学特征和第二声学特征可指代本质相同的内容，即声学特征。以“第一”、“第二”和“第三”的描述方式进行命名，主要是为了针对不同的主体对象在表述上进行区分，即第三声学特征指代第一语音片段的声学特征，第一声学特征指代第三语音片段的声学特征，第二声学特征指代第二语音片段的声学特征。类似之处还有，第一预测特征和第二预测特征，第一语音片段和第三语音片段，第一概率和第三概率，第二语音片段和第四语音片段。

在一个实施例中，如图11所示，语音关键词的识别方法可包括如下步骤S1101～S1111。

S1101，基于待识别语音信号获得各第一语音片段，并基于预置的第一分类模型获得与各所述第一语音片段分别对应的各第一概率，所述第一概率包括该第一语音片段分别对应预定关键词的各预定分词单元的各概率。

S1102，确定当前待识别分词单元，当前待识别分词单元是基于各预定分词单元在预定关键词中的出现顺序，所确定的出现在最前的未作为过待识别分词单元的预定分词单元。

S1103，确定当前待判断语音片段，当前待判断语音片段是基于各第一语音片段在待识别语音信号中的出现顺序，所确定的出现在最前的未作为过待判断语音片段的第一语音片段。

S1104，判断当前待判断语音片段对应当前待识别分词单元的概率是否大于预定阈值；若是，则跳转至S1105，若否，则跳转至S1107。

S1105，判断当前待识别分词单元是否是预定关键词中出现在最后的预定分词单元；若否，则返回S1102，若是，则跳转至S1106。

S1106，判定待识别语音信号中存在预定关键词，并跳转至S1109。

S1107，判断上一次判定大于预定阈值时所对应的待识别分词单元是否处于有效状态；若是，则返回S1103，若否，则跳转至S1108。

S1108，将预定关键词的各预定分词中出现在最前的预定分词单元确定为当前待识别分词单元，并返回S1103。

S1109，生成各第二语音片段的第一预测特征，第一预测特征基于与该第二语音片段对应的各第一语音片段所对应的第一概率生成。

S1110，将各第一预测特征输入预置的第二分类模型，获得与各第二语音片段分别对应的各第二概率，第二概率包括该第二语音片段对应预定关键词的概率和/或非对应预定关键词的概率。

S1111，基于第二概率确定待识别语音信号中是否存在预定关键词。

需要说明的是，本实施例中的各步骤的技术特征可与上文的各实施例中的对应步骤的技术特征相同，此处不加赘述。

还需要说明的是，本申请各实施例提供的语音关键词的识别方法，可应用于电子设备唤醒、对话交互界面初始化、音频索引和检索、以及语音密码验证等场景。此外，该识别方法可用作自动语音识别系统中一个重要的前端处理模块，能够极大地节省自动语音识别系统的资源占用和消耗，提升用户体验。更具体地，可应用于智能音箱、AI Lab(人工智能实验室)的语音识别以及智能语音助手等。

此外，应当理解的是，虽然图2、6、7、8、9、10和11的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、6、7、8、9、10和11中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图12所示，提供了一种语音关键词的识别装置1200，可以包括如下模块1202～1210。

第一语音片段获取模块1202，用于基于待识别语音信号获得各第一语音片段。

第一概率获取模块1204，用于基于预置的第一分类模型获得与各第一语音片段一一对应的各第一概率，第一概率包括该第一语音片段分别对应预定关键词的各预定分词单元的各概率。

预测特征生成模块1206，用于基于待识别语音信号获得各第二语音片段，并生成各第二语音片段的第一预测特征，第一预测特征基于与该第二语音片段对应的各第一语音片段所对应的第一概率生成。

第二概率获取模块1208，用于将各第一预测特征输入预置的第二分类模型，获得与各第二语音片段一一对应的各第二概率，第二概率包括该第二语音片段对应预定关键词的概率和/或非对应预定关键词的概率。

关键词识别模块1210，用于基于第二概率确定待识别语音信号中是否存在预定关键词。

上述语音关键词的识别装置，基于第一分类模型获得与待识别语音信号的各第一语音片段分别对应的第一概率后，无需基于人为设定的决策逻辑最终确定待识别语音信号中是否存在预定关键词，而是基于待识别语音信号获得各第二语音片段，再基于与各第二语音片段一一对应的各第一语音片段所对应的第一概率，生成各第二语音片段的预测特征，并将该预测特征输入第二分类模型，获得各第二语音片段对应预定关键词的概率和/或非对应预定关键词的概率，进而基于第二分类模型输出的概率最终确定该待识别语音信号中是否存在该预定关键词。能够有效克服传统方法中对人为设定的决策逻辑敏感的问题，从而提高普适性。

在一个实施例中，装置1200还可以包括初步识别模块。该初步识别模块，用于基于各第一概率和预定的决策逻辑判定待识别语音信号中是否存在预定关键词；并在存在时，调用预测特征生成模块。

在一个实施例中，初步识别模块还可以包括当前分词确定单元、当前片段识别单元、第一返回单元和初步判定单元。

其中，当前分词确定单元，用于确定当前待识别分词单元，当前待识别分词单元是基于各预定分词单元在预定关键词中的出现顺序，所确定的出现在最前的未作为过待识别分词单元的预定分词单元。

当前片段识别单元，用于确定当前待判断语音片段，当前待判断语音片段是基于各第一语音片段在待识别语音信号中的出现顺序，所确定的出现在最前的未作为过待判断语音片段的第一语音片段。

第一返回单元，用于当当前待判断语音片段对应当前待识别分词单元的概率大于预定阈值，且当前待识别分词单元不是预定关键词中出现在最后的预定分词单元时，返回确定当前待识别分词单元的步骤。

初步判定单元，用于当当前待判断语音片段对应当前待识别分词单元的概率大于预定阈值，且当前待识别分词单元是预定关键词中出现在最后的预定分词单元时，判定待识别语音信号中存在预定关键词。

在一个实施例中，初步识别模块还可以包括第二返回单元和分词重置单元。

其中，第二返回单元，用于当当前待判断语音片段对应当前待识别分词单元的概率小于或等于预定阈值，且上一次判定大于预定阈值时所对应的待识别分词单元处于有效状态时，返回确定当前待判断语音片段的步骤；

分词重置单元，用于当当前待判断语音片段对应当前待识别分词单元的概率小于或等于预定阈值，且上一次判定大于预定阈值时所对应的待识别分词单元处于无效状态时，将预定关键词的各预定分词中出现在最前的预定分词单元确定为当前待识别分词单元，并返回确定当前待判断语音片段的步骤。

在一个实施例中，装置1200还可以包括样本数据获取模块、第一片段获取模块、第一样本特征获取模块和第一模型训练模块。

其中，样本数据获取模块，用于基于预定语料库获取样本语音信号，预定语料库包括通用语料库；

第一片段获取模块，用于基于各样本语音信号获得第三语音片段；

第一样本特征获取模块，用于获取各第三语音片段的第一声学特征和与各第三语音片段分别对应的各第三概率，第三概率包括该第三语音片段分别对应预定关键词的各预定分词单元的各概率第一声学特征；

第一模型训练模块，用于基于各第三语音片段的第一声学特征和各第三概率对预定的第一神经网络模型进行训练，获得第一分类模型。

在一个实施例中，装置1200还可以包括第二片段获取模块、第二样本特征获取模块、样本概率获取模块和第二模型训练模块。

其中，第二片段获取模块，用于基于各样本语音信号获得第四语音片段；

第二样本特征获取模块，用于获取各第四语音片段的第二预测特征，第二预测特征基于与该第四语音片段对应的各第三语音片段所对应的第三概率生成；

样本概率获取模块，用于获取与各第四语音片段分别对应的各第四概率，第四概率包括该第四语音片段对应预定关键词的概率和/或非对应预定关键词的概率；

第二模型训练模块，用于基于各第四语音片段的第二预测特征和各第四概率对预定的第二神经网络模型进行训练，获得第二分类模型。

在一个实施例中，装置1200还包括：

声学特征获取模块，获取各第二语音片段的第二声学特征。

在一个实施例中，装置1200还可以包括分词处理模块。该分词处理模块，用于基于预定的分词单位对预定关键词进行分词处理，获得预定关键词的各预定分词单元，预定的分词单位包括下述三项中的至少一项：拼音、音素和字。

在一个实施例中，提供了一种计算机设备。该计算机设备可以是图1中的用户终端110，其内部结构可以如图13所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏、输入装置和声音采集装置。其中，处理器用于提供计算和控制能力。存储器包括非易失性存储介质和内存储器，该计算机设备的非易失性存储介质存储有操作系统和计算机程序，该计算机程序被处理器执行时，可使得处理器实现本申请各实施例提供的语音关键词的识别方法；该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。网络接口用于与外部的终端通过网络连接通信。显示屏可以是液晶显示屏或者电子墨水显示屏。输入装置可以为显示屏上覆盖的触摸层、或者计算机设备外壳上设置的按键、轨迹球或触控板、或者外接的键盘、触控板或鼠标。

本领域技术人员可以理解，图13中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图13中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的语音关键词的识别装置可以实现为一种计算机程序的形式，计算机程序可在如图13所示的计算机设备上运行。计算机设备的存储器中可存储组成该装置的各个程序模块，比如，图12所示的第一概率获取模块1202、预测特征生成模块1204、第二概率获取模块1206和关键词识别模块1208。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的语音关键词的识别方法中的步骤。

例如，图13所示的计算机设备可以通过如图12所示的语音关键词的识别装置中的第一概率获取模块1202执行步骤S202、通过预测特征生成模块1204执行步骤S204等等。

据此，在一个实施例中，提供一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行本申请任一实施例方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

据此，在一个实施例中，提供一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行本申请任一实施例方法的步骤。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种语音关键词的识别方法，其特征在于，包括步骤：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当所述当前待判断语音片段对应所述当前待识别分词单元的概率小于或等于所述预定阈值，且上一次判定大于所述预定阈值时所对应的待识别分词单元处于有效状态时，返回确定当前待判断语音片段的步骤。

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

当所述当前待判断语音片段对应所述当前待识别分词单元的概率小于或等于所述预定阈值，且上一次判定大于所述预定阈值时所对应的待识别分词单元处于无效状态时，将所述预定关键词的各所述预定分词中出现在最前的所述预定分词单元确定为当前待识别分词单元，并执行确定当前待判断语音片段的步骤。

4.根据权利要求1所述的方法，其特征在于：在所述将预定关键词中未作为过待识别分词单元的所述预定分词单元中，在所述预定关键词中的出现顺序最前的所述预定分词单元确定为当前待识别分词单元之前，还包括：

基于待识别语音信号获得各第一语音片段；

基于预置的第一分类模型获得与各所述第一语音片段分别对应的各第一概率，所述第一概率包括该第一语音片段分别对应预定关键词的各预定分词单元的各概率。

5.根据权利要求4所述的方法，其特征在于：在所述初步判定所述待识别语音信号中存在所述预定关键词之后，还包括：

基于所述待识别语音信号获得各第二语音片段；所述第二语音片段包含的单元帧的总帧数多于所述第一语音片段；

基于所述第二分类模型以及与各所述第二语音片段对应的第一语音片段所对应的第一概率，获得与各所述第二语音片段分别对应的各第二概率，所述第二概率包括该第二语音片段对应所述预定关键词的概率和/或非对应所述预定关键词的概率；

基于所述第二概率进一步确定所述待识别语音信号中是否存在所述预定关键词。

6.根据权利要求5所述的方法，其特征在于，所述基于第二分类模型以及与各所述第二语音片段对应的第一语音片段所对应的第一概率，获得与各所述第二语音片段分别对应的各第二概率，包括：

分别基于与各所述第二语音片段对应的第一语音片段所对应的第一概率，生成各所述第二语音片段的第一预测特征；

将各所述第一预测特征输入所述第二分类模型；

通过所述第二分类模型，基于各所述第一预测特征对各所述第二语音片段进行分类处理，获得与各所述第二语音片段分别对应的各第二概率。

7.根据权利要求4所述的方法，其特征在于，训练所述第一分类模型的方式，包括：

基于预定语料库获取样本语音信号，所述预定语料库包括通用语料库；

基于各所述样本语音信号获得第三语音片段；

获取各所述第三语音片段的第一声学特征和与各所述第三语音片段分别对应的各第三概率，所述第三概率包括该第三语音片段分别对应所述预定关键词的各预定分词单元的各概率；

基于各所述第三语音片段的第一声学特征和各所述第三概率对预定的第一神经网络模型进行训练，获得所述第一分类模型。

8.根据权利要求7所述的方法，其特征在于，训练所述第二分类模型的方式，包括：

基于各所述样本语音信号获得第四语音片段；

获取各所述第四语音片段的第二预测特征，所述第二预测特征基于与该第四语音片段对应的各第三语音片段所对应的第三概率生成；

获取与各所述第四语音片段分别对应的各第四概率，所述第四概率包括该第四语音片段对应所述预定关键词的概率和/或非对应所述预定关键词的概率；

基于各所述第四语音片段的第二预测特征和各所述第四概率对预定的第二神经网络模型进行训练，获得第二分类模型。

9.根据权利要求6所述的方法，其特征在于：在所述生成各所述第二语音片段的第一预测特征之前，还包括：

获取各所述第二语音片段的第二声学特征；

所述第二语音片段的第一预测特征基于该第二语音片段的第二声学特征、以及与该第二语音片段对应的各所述第一语音片段所对应的第一概率生成。

10.根据权利要求1所述的方法，其特征在于，所述预定关键词的各预定分词单元的获取方法，包括：

基于预定的分词单位对所述预定关键词进行分词处理，获得所述预定关键词的各预定分词单元，所述预定的分词单位包括下述三项中的至少一项：拼音、音素和字。

11.根据权利要求4至9任一项所述的方法，其特征在于，所述第一分类模型包括相互级联的各子分类模型，所述子分类模型的级数大于或等于2。

12.一种语音关键词的识别装置，其特征在于，包括：

13.根据权利要求12所述的装置，其特征在于，所述装置还包括：

第二返回单元，用于当当前待判断语音片段对应当前待识别分词单元的概率小于或等于预定阈值，且上一次判定大于预定阈值时所对应的待识别分词单元处于有效状态时，调用所述当前分词确定单元。

14.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至9中任一项所述方法的步骤。

15.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至11中任一项所述方法的步骤。