CN110428810A

CN110428810A - 一种语音唤醒的识别方法、装置及电子设备

Info

Publication number: CN110428810A
Application number: CN201910815261.1A
Authority: CN
Inventors: 陈孝良; 靳源; 冯大航; 常乐
Original assignee: Beijing Sound Intelligence Technology Co Ltd
Current assignee: Beijing Sound Intelligence Technology Co Ltd; Beijing SoundAI Technology Co Ltd
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2019-11-08
Anticipated expiration: 2039-08-30
Also published as: CN110428810B

Abstract

本发明实施例公开了一种语音唤醒的识别方法，包括：当检测到音频信息时，确定音频信息中是否包含唤醒词，在该音频中包含唤醒词时，确定唤醒词的起始时间点；获取位于起始时间点之前的多个目标数据帧，基于预先训练的唤醒模型，计算每个目标数据帧属于预设的第一语音段的概率，其中，预设的第一语音段为属于语音信号且不包括唤醒词的数据；并依据每个目标数据帧属于预设的第一语音段的概率，确定是否为正常唤醒。这样，在检测出用于唤醒的唤醒词，基于对唤醒词起始时间点之前的多个数据帧进行进一步的分析，判断是属于正常唤醒还是误唤醒，由此降低了误唤醒的几率，提高了用户体验。

Description

一种语音唤醒的识别方法、装置及电子设备

技术领域

本发明涉及人工智能领域，尤其涉及一种语音唤醒的识别方法、装置及电子设备。

背景技术

语音唤醒是指用户通过说出唤醒词来唤醒电子设备，使电子设备进入到等待语音指令的状态，或者使电子设备直接执行预定的语音指令。语音唤醒通常应用于一些电子设备终端或者车载设备中。

但是，现有技术中，语音唤醒存在虚警率高的问题，即在用户无意唤醒的情况下，设备出现误唤醒的情况，这种虚假的误唤醒，不仅会影响功耗，而且会对用户体验也会带来不好的影响。

发明内容

有鉴于此，本发明实施例公开了一种语音唤醒的识别方法，能够降低误唤醒的几率，提高用户体验。

本发明实施例公开了一种语音唤醒的识别方法，包括：

当检测到音频信息时，确定所述音频信息中是否包含唤醒词；

在所述音频信息中包含唤醒词的情况下，确定唤醒词的起始时间点；

获取位于所述起始时间点之前的多个目标数据帧；

基于预先训练的唤醒模型，计算每个目标数据帧属于预设的第一语音段的概率；所述预设的第一语音段为属于语音信号且不包括唤醒词的数据；

依据每个目标数据帧属于预设的第一语音段的概率，确定是否为正常唤醒。

可选的，所述依据每个目标数据帧属于预设的第一语音段的概率，确定是否为正常唤醒，包括：

依据每个目标数据帧属于预设的第一语音段的概率，计算所有目标数据帧属于预设的第一语音段的总概率；

判断所有目标数据帧属于预设的第一语音段的总概率是否大于或者等于预设的阈值；

若所有目标数据帧属于预设的第一语音段的总概率大于或者等于预设的阈值，则表示为误唤醒；

若所有目标数据帧属于预设的第一语音段的总概率小于预设的阈值，则表示为正常唤醒。

可选的，所述确定所述音频信息中是否包含唤醒词，包括：

提取所述音频信息中的音频特征；

将所述音频特征输入到预先训练的唤醒模型中，识别所述音频信息中是否包含唤醒词；所述预先训练的唤醒模型是通过标记有唤醒词的音素、预设的第一语音段和非语音段的样本数据进行训练得到的。

可选的，所述确定唤醒词的起始时间点，包括：

在所述音频信息中包含唤醒词的情况下，记录所述唤醒词的结束时间点；

确定唤醒词的结束时间点前预设时间内的数据帧集；所述数据帧集中包括多个数据帧；

计算所述数据帧集中的每个数据帧属于所述唤醒词第一字的各个音素的后验概率；

将所述数据帧集中的每个数据帧属于所述唤醒词第一个字的各个音素的后验概率相加，得到每个数据帧属于所述唤醒词的第一字的后验概率值；

比较所述数据帧集中每个数据帧属于所述唤醒词的第一个字的概率值，得到概率值最大的概率峰值；

确定最大的概率峰值对应的数据帧；

基于所述概率峰值对应的数据帧的时间点和预设的修正值，确定唤醒词的起始时间点。

可选的，所述唤醒模型的训练过程包括：

获取语音样本数据；

基于音素对语音样本数据中每个数据帧进行标记，并确定出属于同一音素的数据帧；

根据标记结果选取出不属于唤醒词的数据帧；

将不属于唤醒词但是符合预设的语音条件的数据帧标注为预设的第一语音段；

将不属于唤醒词且不符合预设的语音条件的数据帧标注为非语音段；

将标注了预设的第一语音段和非语音段以及标记了唤醒词的音素的样本数据输入到预设的深度神经网络模型中，对预设的深度神经网络模型进行训练。

可选的，所述基于预先训练的唤醒模型，计算每个目标数据帧属于预设的第一语音段的概率，之前还包括：

计算每个目标数据帧的短时能量和过零率，并根据每个目标数据帧的短时能量和过零率筛选出属于预设的第二语音段的目标数据帧；

所述基于预先训练的唤醒模型，计算每个目标数据帧属于预设的第一语音段的概率，包括：

将属于预设的第二语音段的目标数据帧输入到预先训练的唤醒模型中，计算属于预设的第二语音段的每个目标数据帧属于预设的第一语音段的概率。

本发明实施例公开了一种语音唤醒的识别装置，包括：

唤醒词确定单元，用于当检测到音频信息时，确定所述音频信息中是否包含唤醒词；

起始时间点确定单元，用于在所述音频信息中包含唤醒词的情况下，确定唤醒词的起始时间点；

获取单元，用于获取位于所述起始时间点之前的多个目标数据帧；

第一计算单元，用于基于预先训练的唤醒模型，计算每个目标数据帧属于预设的第一语音段的概率；所述预设的第一语音段为属于语音信号且不包括唤醒词的数据；

唤醒判定单元，用于依据每个目标数据帧属于预设的第一语音段的概率，确定是否为正常唤醒。

可选的，所述唤醒判定单元，包括：

第二计算子单元，用于依据每个目标数据帧属于预设的第一语音段的概率，计算所有目标数据帧属于预设的第一语音段的总概率；

判断单元，用于判断所有目标数据帧属于预设的第一语音段的总概率是否大于或者等于预设的阈值；

误唤醒确定单元，用于若所有目标数据帧属于预设的第一语音段的总概率大于或者等于预设的阈值，则表示为误唤醒；

正常唤醒确定单元，用于若所有目标数据帧属于预设的第一语音段的总概率小于预设的阈值，则表示为正常唤醒。

本发明实施例还公开了一种存储介质，所述存储介质包括存储的程序，

其中，在所述程序运行时控制所述存储介质所在的设备执行上述所述的语音唤醒的识别方法。

本发明实施例还公开了一种电子设备，包括：

处理器和存储器；

其中，所述处理器用于执行所述存储器中存储的程序；

所述存储器用于存储程序，所述程序至少用于：

响应于检测到的音频信息，确定所述音频信息中是否包含唤醒词；

获取位于所述起始时间点之前的多个目标数据帧；

本发明实施例公开了一种语音唤醒的识别方法，该方法包括：当检测到音频信息时，确定音频信息中是否包含唤醒词，在该音频中包含唤醒词时，确定唤醒词的起始时间点；获取位于起始时间点之前的多个目标数据帧，基于预先训练的唤醒模型，计算每个目标数据帧属于预设的第一语音段的概率，其中，预设的第一语音段为属于语音信号且不包括唤醒词的数据；并依据每个目标数据帧属于预设的第一语音段的概率，确定是否为正常唤醒。

由此可知，在检测出音频信息中包含用于唤醒的唤醒词时，根据对唤醒词起始位置之前的多个数据帧进行进一步的分析，从而判断该音频信息是属于正常唤醒还是误唤醒，然后再根据判断结果执行唤醒操作，能够降低误唤醒的几率，进而提高用户体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1示出了本发明实施例提供的一种语音唤醒的识别方法的流程示意图；

图2示出了本发明实施例提供了一种语音唤醒的识别方法的又一流程示意图；

图3示出了本发明实施例提供的一种确定唤醒词的起始时间点的流程示意图；

图4示出了本发明实施例提供的一种唤醒模型的训练流程示意图；

图5示出了本发明实施例提供的一种语音唤醒的识别装置的结构示意图；

图6示出了本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

基于上述误唤醒的问题，申请人经研究发现，电子设备的唤醒策略一般都是基于对唤醒词的分析，在检测到唤醒词时，则唤醒电子设备。

然而，申请人还发现，上述这种唤醒方式会存在误唤醒的问题，例如用户在无意唤醒电子设备的情况下，说了一段话，这段话中包含唤醒词，或者包含和唤醒词语音相近的词，在待唤醒设备接收到这段话后，很有可能在检测到这段话中的唤醒词或者检测到和唤醒词语音相近的词时，唤醒电子设备。

有鉴于此，可以通过对唤醒词之前的语音数据进行分析，若唤醒词之前包含语音，则可能为误唤醒，若唤醒词之前不包含语音，则可能为正常唤醒。

在本实施例中，在判定出为正常唤醒时，执行唤醒操作。

基于上述思想，本发明实施例公开了一种语音唤醒的识别方法，该方法包括：当检测到音频信息时，确定音频信息中是否包含唤醒词，在该音频中包含唤醒词时，确定唤醒词的起始时间点；获取位于起始时间点之前的多个目标数据帧，基于预先训练的唤醒模型，计算每个目标数据帧属于预设的第一语音段的概率，其中，预设的第一语音段为属于语音信号且不包括唤醒词的数据；并依据每个目标数据帧属于预设的第一语音段的概率，确定是否为正常唤醒。

由此可知，本发明实施例通过对唤醒词的起始时间点之前的多个目标数据帧进行分析，计算每个目标数据帧属于预设的第一语音段的概率，并基于每个目标数据帧属于预设的第一语音段的概率确定是否为正常唤醒。这样，在检测出用于唤醒的唤醒词后，可以通过对唤醒词之前的多个数据帧进行进一步的分析，进一步判断是属于正常唤醒还是误唤醒，由此降低了误唤醒的几率，提高了用户体验。

接下来对本发明的具体实现方案进行描述：

参考图1，示出了本发明实施例提供的一种语音唤醒方法的流程示意图，在本实施例中，该方法包括：

S101：当检测到音频信息时，确定所述音频信息中是否包含唤醒词；

本实施例中，检测到的音频信息可以理解为待唤醒的电子设备捕获到的语音信息。

需要说明的是，唤醒词可以理解为唤醒电子设备的语音信息，例如唤醒词可以为“小艺”。

本实施例中，确定音频信息中是否包含唤醒词的方法可以包括多种，本实施例中不进行限定。

本实施例提供如下几种优选的方法确定所述音频信息中是否包含唤醒词：

方式一、基于预先训练的唤醒模型确定音频信息中是否包含唤醒词：

提取音频信息中的音频特征；

将音频特征输入到预先训练的唤醒模型中，识别所述音频信息中是否包含唤醒词；

其中，预先训练的唤醒模型是通过标记有唤醒词的音素、预设的第一语音段和非语音段的样本数据对预设的深度神经网络模型进行训练得到的。

其中，预设的深度神经网络模型可以为深度神经网络模型，或者深度神经网络-隐马尔科夫模型。

方式二、通过端到端的模型，识别音频信息中是否包含唤醒词：

提取音频信息中的音频特征；

将提取特征输入预设的神经网络，得到每一数据帧的后验概率，将后验概率大于阈值的数据帧确定为唤醒词。

S102：在所述音频信息中包含唤醒词的情况下，确定唤醒词的起始时间点；

本实施例中，唤醒词的起始时间点可以理解为，开始接收唤醒词第一个字的第一音素的时间点。例如，唤醒词为“小艺”，当音频信息中包含“小艺”时，“小”字的音素例如包括“x”、“i”和“ao”,接收到第一个音素“x”的时间点为唤醒词的起始时间点。

其中，唤醒词起始时间点的方法可包括多种，本实施例中不进行限定。本实施例中，提供一种优选的方式确定唤醒词的起始时间点，该优选的方式会在下方介绍，本实施例中不进行赘述。

S103：获取位于所述起始时间点之前的多个目标数据帧；

本实施例中，起始时间点之前的数据帧可以理解为接收到唤醒词之前接收到的数据帧。

其中，获取的起始点之间的目标数据帧的数量可以是技术人员根据实际需求设定的，例如可以获取起始时间点之前100帧的数据。

其中，唤醒词之前捕获到的数据帧可能是用户发出的声音、也可能是环境的声音，其中环境的声音可能是很多声音混杂在一起的环境噪音，也可能是静音的状态。

S104：基于预先训练的唤醒模型，计算每个目标数据帧属于预设的第一语音段的概率；所述预设的第一语音段为属于语音信号且不包括唤醒词的数据；

本实施例中，预先训练的唤醒模型是通过标记有唤醒词、预设的第一语音段和非语音段的样本数据进行训练得到的，其中，训练过程会在下文中进行详细的介绍，本实施例中不再赘述。

其中，预设的第一语音段表示属于语音，但不包含唤醒词的数据；非语音段表示不属于语音的数据，非语音段可以包括：环境噪音或者静音状态。

S105：依据每个目标数据帧属于预设的第一语音段的概率，确定是否为正常唤醒。

一般情况下，用户会直接喊出唤醒词，不会在喊出唤醒词之前讲一些乱七八糟的语音。但是，用户在说话的过程中，可能会包含唤醒词，就有可能会无意的唤醒设备。

举例说明：用户想要唤醒设备时，会直接说出“小艺”，若用户说能不能说话声音小一点，这句话中的“小一”很有可能会被误认为唤醒词。

有鉴于此，本实施例中，通过对唤醒词之前的多个目标数据帧进行分析，判断属于预设的第一语音段的概率，并基于多个目标数据帧属于预设的第一语音段的概率，确定是否为正常唤醒，具体的，S105包括：

判断所有目标数据帧属于预设的第一语音段的总概率是否大于或等于预设的阈值；

若所有目标数据帧属于预设的第一语音段的总概率大于或等于预设的阈值，则表示为误唤醒；

本实施例中，目标数据帧属于预设的第一语音段的总概率的计算方法可以包括多种，优选的，如下提供两种实现方式：

方式一、将每个目标数据帧属于预设的第一语音段的概率进行累乘，得到目标数据帧属于预设的第一语音段的总概率；

方式二、将每个目标数据帧属于预设的第一语音段的概率取对数累加，得到目标数据帧属于预设的第一语音段的总概率。

本实施例中，计算出的所有目标数据帧属于预设的第一语音段的总概率大于或等于预设的阈值时，可以表示为唤醒词起始时间点之前的多个目标数据帧是用户发出的声音，不是环境噪音也不是静音状态，那么很有可能用户并未想唤醒设备，只是说了包含唤醒词或者与包含唤醒词相近的词的一段话，在该种情况下，可以认为是误唤醒。

若计算出的所有目标数据帧属于预设的第一语音段的总概率小于预设的阈值时，或者可以理解为所有的目标数据帧属于非语音段时，可以表示为唤醒词起始点之前多个目标数据帧不是用户发出的语音，可能是环境声音或者也可能是静音状态，那么用户很有可能有唤醒意图，则判定为正常唤醒。本发明实施例公开了一种语音唤醒方法，通过对唤醒词的起始时间点之前的多个目标数据帧进行分析，计算每个目标数据帧属于预设的第一语音段的概率，并基于每个目标数据帧属于预设的第一语音段的概率确定是否为正常唤醒。这样，在检测出用于唤醒的唤醒词后，可以通过对唤醒词之前的多个数据帧进行进一步的分析，进一步判断是属于正常唤醒还是误唤醒，由此降低了误唤醒的几率，提高了用户体验。

参考图2，示出了本发明实施例提供了一种语音唤醒方法的又一流程示意图，在本实施例中，该方法包括：

S201：当检测到音频信息时，确定所述音频信息中是否包含唤醒词；

S202：在所述音频信息中包含唤醒词的情况下，确定唤醒词的起始时间点；

S203：获取位于所述起始时间点之前的多个目标数据帧；

S204：计算每个目标数据帧的短时能量和过零率，并根据每个目标数据帧的短时能量和过零率筛选出属于预设的第二语音段的目标数据帧；

本实施例中，由于唤醒模型的计算复杂度高、耗时较长，在获取到多个目标数据帧后，若直接通过唤醒模型计算目标数据帧属于预设的第一语音段的概率，则计算的过程耗时会比较长。

为了解决上述耗时长的问题，可以预先对获取到的起始时间点之前的多个目标数据帧进行初步筛选，筛选出属于预设的第二语音段的目标数据帧。

其中，预设的第二语音段可以理解为包含语音信号的数据，但是由于不同方法的执行标准不同，那么预设的第二语音段和预设的第一语音段可以是一致的也可以不是一致的，具体的可以根据实际情况而定。本实施例中，优选的可以采用短时能量和过零率的方式进行初步筛选，例如预先设置属于预设的第二语音段的目标数据帧的短时能量和过零率的门限值，在短时能量和过零率均大于相对应的门限值时，则认为目标数据帧属于预设的第二语音段。其中，门限值的设置技术人员可以根据实际情况而定，本实施例中不进行限定。

S205：将筛选出的属于预设的第二语音段的每个目标数据帧输入到预先训练的唤醒模型中，计算属于预设的第二语音段的每个目标数据帧属于预设的第一语音段的概率；

本实施例中，S205中计算每个目标数据帧属于预设的第一语音段的概率和S104一致，本实施例中不再赘述。

S206：依据每个目标数据帧属于预设的第一语音段的概率，确定是否为正常唤醒。本实施例中，S206与上述S105一致，在本实施例中不进行限定。

其中，在正常唤醒的情况下，则执行唤醒操作，在不是正常唤醒的情况下，则不执行唤醒操作。

S207：若未能筛选出属于预设的第二语音段的目标数据帧，则确定为正常唤醒，执行正常唤醒操作。

本实施例中，若未能筛选出属于预设的第二语音段的目标数据帧，则可以理解为该目标数据帧可能为非语音段，即该目标数据帧可能为环境噪音或者为静音状态，那么在这种情况下，表示为正常唤醒，执行正常唤醒操作。

本实施例中，在获取到位于所述起始时间点之前的多个目标数据帧之后，先通过短时能量和过零率的方式，对多个目标数据帧进行预处理，这样剔除掉一些非语音段的目标数据帧，然后再通过预先训练的唤醒模型对目标数据帧进行进一步的分析，确定每个目标数据帧属于预设的第一语音段的概率，进而根据每个目标数据帧属于预设的第一语音段的概率，确定是否为正常唤醒。由此，减少了算法运行的时间，提高了运算效率。

基于上述的实施例一(S101-S105)和实施例二(S201-S206)的描述，接下来对实施例一和实施例二中，确定唤醒词的起始时间点的优选的一种实现方式进行介绍，参考图3，示出了本发明实施例提供的一种确定唤醒词的起始时间点的流程示意图：

S301：在所述音频信息中包含唤醒词的情况下，记录所述唤醒词的结束时间点；

举例说明：若检测到的音频信息中包括的唤醒词为“小艺”，当接收识别到“艺”的音节后，系统经过一些识别处理，判定音频信息中包含唤醒词，并记录唤醒词的结束时间点，其中，唤醒词的结束时间点可以为系统判定出包含唤醒词的时刻。

S302：确定唤醒词的结束时间点前预设时间内的数据帧集；所述数据帧集中包括多个数据帧；

本实施例中，预设时间可以是技术人员根据经验设置的，例如一般的唤醒词的语音长度均不会超过2秒，因此，可以设置预设时间为2秒。

S303:计算所述数据帧集中的每个数据帧属于所述唤醒词第一字的各个音素的后验概率；

本实施例中，数据帧集中每个数据帧属于唤醒词的第一字的各个音素的后验概率可以通过多种方式计算，本实施例中不进行限定，例如可以通过上述介绍的唤醒模型，该唤醒模型是通过预设的第一语音段、非语音段以及标记了唤醒词的各个音素的样本数据进行训练的；除此之外，还可以通过其他的分类模型进行计算，其它的模型可是基于唤醒词的各个音素进行训练的。

其中，若通过唤醒模型计算属于唤醒词的各个音素的后验概率，将数据帧集中的每个数据帧输入到唤醒模型中，计算每个数据帧属于唤醒词的第一个字的各个音素的后验概率。

举例说明：假设唤醒词为“小艺”，第一个字为“小”，可以分为“x”、“i”和“ao”三个音素，计算得到的每个数据帧属于唤醒词的第一个字的后验概率，可以为每个数据帧分别属于“x”、“i”和“ao”三个音素的后验概率。

S304：将所述数据帧集中的每个数据帧属于所述唤醒词第一个字的各个音素的后验概率相加，得到每个数据帧属于所述唤醒词的第一字的后验概率值；

举例说明：假设唤醒词为“小艺”，第一个字为“小”，可以分为“x”、“i”和“ao”三个音素，每个数据帧属于“x”、“i”和“ao”三个音素的后验概率之和，即为数据帧属于“小”字的后验概率。

S305：比较所述数据帧集中每个数据帧属于所述唤醒词的第一个字的概率值，得到概率值最大的概率峰值；

本实施例中，将数据帧集中每个数据帧属于唤醒词的第一字的概率值进行比较，其中，概率值最大的则为概率峰值。

S306：确定最大的概率峰值对应的数据帧；

S307：基于所述概率峰值对应的数据帧的时间点和预设的修正值，确定唤醒词的起始时间点。

基于前述内容，由于第一个字概率峰值出现的时刻并不是准确的第一个字的起始边界，即接收唤醒词的起始时间点，因此需要将概率峰值对应的数据帧的时间点加上预设的修正值，得到较准确的起始时间点。

其中，所述预设的修正值可以是一个固定值，具体可以是根据实验结果或经验确定的数值。

本实施例中，详细介绍了确定唤醒词的起始时间点的具体实现，采用本实施例公开的内容，可以获取更为准确的起始时间点。

基于上述的实施例一(S101-S105)和实施例二(S201-S206)的描述，接下来对实施例一和实施例二中提到的唤醒模型的训练过程进行详细介绍，参考图4，唤醒模型的训练过程包括：

S401：获取语音样本数据；

S402：基于音素对语音样本数据中每个数据帧进行标记，并确定出属于同一音素的数据帧；

本实施例中，接收到一个完整的音素可能需要多个数据帧，通过对每个数据帧进行标记，从而可以确定出属于一个音素的数据帧。

本实施例中，可以通过专家对语音样本数据中的每个数据帧进行标记，进而划分出属于同一音素的数据帧；或者也可以通过训练的模型执行对齐操作，即对每个数据帧进行标记，并确定出属于一个音素的数据帧。

S403：根据标记结果选取出不属于唤醒词的数据帧；

S404：将不属于唤醒词但是符合预设的语音条件的数据帧标注为预设的第一语音段；

S405：将不属于唤醒词且不符合预设的语音条件的数据帧标注为非语音段；

其中预设的语音条件可以表示为能够清晰辨别的语音，不符合语音条件的可以包括：静音状态，或者不能清晰辨别的环境噪声等。

S406：将标注了预设的第一语音段和非语音段以及标记了唤醒词的音素的样本数据输入到预设的深度神经网络模型中，对预设的深度神经网络模型进行训练。

其中，预设的深度神经网络模型可以为单独的深度神经网络模型，也可以为组合的模型，例如为深度神经网络-隐马尔科夫模型。

其中，还可以利用梯度下降和反向传播原理进行训练。

本实施例中，通过标注了预设的第一语音段、非语音段和标记了唤醒词的音素的样本数据对深度神经网络模型进行训练，得到的唤醒模型，用于对数据帧进行分析，确定属于预设的第一语音段的概率，以使基于每个目标数据帧属于预设的第一语音段的概率，确定是否为正常唤醒。由此，降低了误唤醒的几率，提高了用户体验。

参考图5，示出了本发明实施例提供的一种语音唤醒装置的结构示意图，在本实施例中，该装置包括：

唤醒词确定单元501，用于当检测到音频信息时，确定所述音频信息中是否包含唤醒词；

起始时间点确定单元502，用于在所述音频信息中包含唤醒词的情况下，确定唤醒词的起始时间点；

获取单元503，用于获取位于所述起始时间点之前的多个目标数据帧；

第一计算单元504，用于基于预先训练的唤醒模型，计算每个目标数据帧属于预设的第一语音段的概率；所述预设的第一语音段为属于语音信号且不包括唤醒词的数据；

唤醒判定单元505，用于依据每个目标数据帧属于预设的第一语音段的概率，确定是否为正常唤醒。

可选的，所述唤醒判定单元，包括：

可选的，还包括：预处理单元，用于：

基于所述预处理单元，所述第一计算单元，包括：

可选的，唤醒词确定单元，包括：

特征提取子单元，用于提取所述音频信息中的音频特征；

识别子单元，用于将所述音频特征输入到预先训练的唤醒模型中，识别所述音频信息中是否包含唤醒词；所述预先训练的唤醒模型是通过标记有唤醒词、预设的第一语音段和非语音段的样本数据进行训练得到的。

可选的，所述起始时间点确定单元，用于：

确定最大的概率峰值对应的数据帧；

可选的，还包括：

训练模块，用于：

获取语音样本数据；

根据标记结果选取出不属于唤醒词的数据帧；

本实施例的装置，通过对唤醒词的起始时间点之前的多个目标数据帧进行分析，计算每个目标数据帧属于预设的第一语音段的概率，并基于每个目标数据帧属于预设的第一语音段的概率确定是否为正常唤醒。这样，在检测出用于唤醒的唤醒词后，可以通过对唤醒词之前的多个数据帧进行进一步的分析，进一步判断是属于正常唤醒还是误唤醒，由此降低了误唤醒的几率，提高了用户体验。

参考图6，示出了本发明实施例提供的一种电子设备的结构示意图，在本实施例中，该电子设备包括：

处理器601和存储器602；

其中，所述处理器用于执行所述存储器中存储的程序；

所述存储器用于存储程序，所述程序至少用于：

获取位于所述起始时间点之前的多个目标数据帧；

可选的，所述确定所述音频信息中是否包含唤醒词，包括：

提取所述音频信息中的音频特征；

可选的，所述确定唤醒词的起始时间点，包括：

确定最大的概率峰值对应的数据帧；

可选的，所述唤醒模型的训练过程包括：

获取语音样本数据；

根据标记结果选取出不属于唤醒词的数据帧；

本发明实施例还提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现上述语音唤醒的识别方法。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种语音唤醒识别方法，其特征在于，包括：

获取位于所述起始时间点之前的多个目标数据帧；

2.根据权利要求1所述的方法，其特征在于，所述依据每个目标数据帧属于预设的第一语音段的概率，确定是否为正常唤醒，包括：

3.根据权利要求1所述的方法，其特征在于，所述确定所述音频信息中是否包含唤醒词，包括：

提取所述音频信息中的音频特征；

4.根据权利要求1所述的方法，其特征在于，所述确定唤醒词的起始时间点，包括：

确定最大的概率峰值对应的数据帧；

5.根据权利要求1所述的方法，其特征在于，所述唤醒模型的训练过程包括：

获取语音样本数据；

根据标记结果选取出不属于唤醒词的数据帧；

6.根据权利要求1所述的方法，其特征在于，所述基于预先训练的唤醒模型，计算每个目标数据帧属于预设的第一语音段的概率，之前还包括：

7.一种语音唤醒的识别装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，所述唤醒判定单元，包括：

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，

其中，在所述程序运行时控制所述存储介质所在的设备执行如权利要求1-6中任一项所述的语音唤醒的识别方法。

10.一种电子设备，其特征在于，包括：

处理器和存储器；

其中，所述处理器用于执行所述存储器中存储的程序；

所述存储器用于存储程序，所述程序至少用于：

获取位于所述起始时间点之前的多个目标数据帧；