CN114299927A

CN114299927A - 唤醒词识别方法、装置、电子设备及存储介质

Info

Publication number: CN114299927A
Application number: CN202111559802.2A
Authority: CN
Inventors: 李良斌; 陈孝良
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2021-12-20
Filing date: 2021-12-20
Publication date: 2022-04-08

Abstract

本公开提供了一种唤醒词识别方法、装置、电子设备及存储介质，属于互联网技术领域。所述方法包括：通过调用唤醒词识别模型对多个唤醒词语音正样本进行识别，获取每个唤醒词对应的近音词；基于每个唤醒词对应的近音词，生成多个唤醒词语音负样本；基于多个唤醒词语音正样本和多个唤醒词语音负样本，对唤醒词识别模型进行训练，得到训练后的唤醒词识别模型。本公开基于唤醒词识别模型对唤醒词语音正样本进行识别，获取包括唤醒词对应的近音词的唤醒词语音负样本，由于唤醒词语音负样本中包含了更多的近音词，因而所训练的唤醒词识别模型能够学习更多近音词的语音特征，从而能够准确地识别出唤醒词与其近音词，达到了更好地抑制近音词误唤醒的效果。

Description

唤醒词识别方法、装置、电子设备及存储介质

技术领域

本公开涉及人工智能技术领域，特别涉及一种唤醒词识别方法、装置、电子设备及存储介质。

背景技术

随着人工智能技术的发展以及智能语音设备的普及，越来越多的用户通过语音信息与智能语音设备进行人机交互。在人机交互过程中，智能语音设备对用户的语音信息进行识别，当识别出语音信息中包含唤醒词时，即可控制智能语音设备执行相应操作，例如，播放音乐、调节空调温度、设置闹铃等。

目前，相关技术对唤醒词进行识别时，主要采用如下方法：获取包含唤醒词的多个唤醒词语音正样本以及包含非唤醒词的多个唤醒词语音负样本；基于多个唤醒词语音正样本和多个唤醒词语音负样本，对唤醒词识别模型进行训练，得到训练的唤醒词识别模型；调用所训练的唤醒词识别模型，对语音信息进行识别，得到识别结果。

由于上述唤醒词语音负样本中包含的非唤醒词为随机采样到的，并未涵盖与唤醒词发音相近的近音词，导致所训练的唤醒词识别模型无法学习到近音词的语音特征，识别结果准确性较低，在实际应用中常常发生误唤醒现象。

发明内容

本公开实施例提供了一种唤醒词识别方法、装置、电子设备及存储介质，能够准确地识别出唤醒词及其近音词，提高了识别结果准确性，有效地避免了误唤醒现象发生。所述技术方案如下：

第一方面，提供了一种唤醒词识别方法，所述方法包括：

获取多个唤醒词语音正样本，每个唤醒词语音正样本包含一个唤醒词；

通过调用唤醒词识别模型对所述多个唤醒词语音正样本进行识别，获取每个唤醒词对应的近音词，所述近音词为与唤醒词的发音相同或相近的词语；

基于每个唤醒词对应的近音词，生成多个唤醒词语音负样本；

基于所述多个唤醒词语音正样本和所述多个唤醒词语音负样本，对所述唤醒词识别模型进行训练，得到训练后的唤醒词识别模型，所述训练后的唤醒词识别模型用于对任一语音信息进行唤醒词识别。

在本公开的另一个实施例中，所述通过调用唤醒词识别模型对所述多个唤醒词语音正样本进行识别，获取每个唤醒词对应的近音词，包括：

基于所述唤醒词识别模型对应的语音解码网络，对所述多个唤醒词语音正样本进行语音解码，得到每个唤醒词对应的多条解码路径；

根据每个唤醒词对应的多条解码路径和每个非唤醒词对应的解码路径，获取每个唤醒词对应的近音词。

在本公开的另一个实施例中，所述基于所述唤醒词识别模型对应的语音解码网络，对所述多个唤醒词语音正样本进行语音解码，得到每个唤醒词对应的多条解码路径之前，还包括：

调大所述唤醒词识别模型的路径选择参数的参数值，所述路径选择参数用于确定每个唤醒词在所述语音解码网络中的多条解码路径；

所述基于所述唤醒词识别模型对应的语音解码网络，对所述多个唤醒词语音正样本进行语音解码，得到每个唤醒词对应的多条解码路径，包括：

基于所述语音解码网络，对包含任一唤醒词的唤醒词语音正样本进行语音解码，得到所述唤醒词对应的多条候选路径及每条候选路径的路径分数；

从所述多条候选路径中，获取路径分数最高的候选路径，作为所述唤醒词的最佳解码路径；

对于除所述最佳解码路径以外的任一条候选路径，如果所述最佳解码路径的路径分数与所述候选路径的路径分数之间的差值小于调节后的路径选择参数的参数值，则将所述候选路径作为所述唤醒词的解码路径。

在本公开的另一个实施例中，所述根据每个唤醒词对应的解码路径和每个非唤醒词对应的解码路径，获取每个唤醒词对应的近音词，包括：

当任一非唤醒词对应的解码路径与任一唤醒词对应的任一解码路径相同，则将所述非唤醒词确定为所述唤醒词的近音词。

当任一非唤醒词对应的解码路径的路径分数与任一唤醒词对应的任一解码路径的路径分数之间的差值小于预设阈值，则将所述非唤醒词确定为所述唤醒词的近音词。

在本公开的另一个实施例中，所述基于每个唤醒词对应的近音词，生成多个唤醒词语音负样本，包括：

基于每个唤醒词对应的近音词，获取每个唤醒词对应的近音词语音负样本；

将每个唤醒对应的近音词语音负样本和多个随机语音负样本，组成为所述多个唤醒词语音负样本。

在本公开的另一个实施例中，所述基于每个唤醒词对应的近音词，获取每个唤醒词对应的近音词语音负样本，包括：

根据每个唤醒词对应的近音词数量，确定每个唤醒词对应的近音词语音负样本的获取比例；

根据每个唤醒词对应的近音词语音负样本的获取比例和需要获取的唤醒词语音负样本的总数量，获取每个唤醒词对应的近音词语音负样本。

第二方面，提供了一种唤醒词识别装置，所述装置包括：

获取模块，用于获取多个唤醒词语音正样本，每个唤醒词语音正样本包含一个唤醒词；

所述获取模块，还用于通过调用唤醒词识别模型对所述多个唤醒词语音正样本进行识别，获取每个唤醒词对应的近音词，所述近音词为与唤醒词的发音相同或相近的词语；

生成模块，用于基于每个唤醒词对应的近音词，生成多个唤醒词语音负样本；

训练模块，用于基于所述多个唤醒词语音正样本和所述多个唤醒词语音负样本，对所述唤醒词识别模型进行训练，得到训练后的唤醒词识别模型，所述训练后的唤醒词识别模型用于对任一语音信息进行唤醒词识别。

在本公开的另一个实施例中，所述获取模块，用于基于所述唤醒词识别模型对应的语音解码网络，对所述多个唤醒词语音正样本进行语音解码，得到每个唤醒词对应的多条解码路径；基于所述语音解码网络，对多个非唤醒词语音进行语音解码，得到每个非唤醒词对应的解码路径；根据每个唤醒词对应的多条解码路径和每个非唤醒词对应的解码路径，获取每个唤醒词对应的近音词。

在本公开的另一个实施例中，所述装置还包括：

调节模块，用于调大所述唤醒词识别模型的路径选择参数的参数值，所述路径选择参数用于确定每个唤醒词在所述语音解码网络中的解码路径；

所述获取模块，用于基于所述语音解码网络，对包含任一唤醒词的唤醒词语音正样本进行语音解码，得到所述唤醒词对应的多条候选路径及每条候选路径的路径分数；从所述多条候选路径中，获取路径分数最高的候选路径，作为所述唤醒词的最佳解码路径；对于除所述最佳解码路径以外的任一条候选路径，如果所述最佳解码路径的路径分数与所述候选路径的路径分数之间的差值小于调节后的路径选择参数的参数值，则将所述候选路径作为所述唤醒词的解码路径。

在本公开的另一个实施例中，所述获取模块，用于当任一非唤醒词对应的解码路径与任一唤醒词对应的任一解码路径相同，则将所述非唤醒词确定为所述唤醒词的近音词。

在本公开的另一个实施例中，所述获取模块，用于当任一非唤醒词对应的解码路径的路径分数与任一唤醒词对应的任一解码路径的路径分数之间的差值小于预设阈值，则将所述非唤醒词确定为所述唤醒词的近音词。

在本公开的另一个实施例中，所述生成模块，用于基于每个唤醒词对应的近音词，获取每个唤醒词对应的近音词语音负样本；将每个唤醒对应的近音词语音负样本和多个随机语音负样本，组成为所述多个唤醒词语音负样本。

在本公开的另一个实施例中，所述生成模块，用于根据每个唤醒词对应的近音词数量，确定每个唤醒词对应的近音词语音负样本的获取比例；根据每个唤醒词对应的近音词语音负样本的获取比例和需要获取的唤醒词语音负样本的总数量，获取每个唤醒词对应的近音词语音负样本。

第三方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现如第一方面所述的唤醒词识别方法。

第四方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现如第一方面所述的唤醒词识别方法。

第五方面，一种计算机程序产品，所述计算机程序产品包括计算机程序代码，所述计算机程序代码存储在计算机可读存储介质中，电子设备的处理器从所述计算机可读存储介质读取所述计算机程序代码，所述处理器执行所述计算机程序代码，使得所述电子设备执行第一方面所述的唤醒词识别方法。

本公开实施例提供的技术方案带来的有益效果是：

基于唤醒词识别模型对唤醒词语音正样本进行识别，获取包括唤醒词对应的近音词的唤醒词语音负样本，由于唤醒词语音负样本中包含了更多的近音词，因而基于唤醒词语音负样本所训练的唤醒词识别模型能够学习到更多近音词的语音特征，在基于所训练的唤醒词识别模型对语音信息进行识别时，能够准确地识别出唤醒词及唤醒词的近音词，从而避免近音词的误唤醒，达到了更好地抑制近音词误唤醒的效果。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本公开实施例提供的一种唤醒词识别方法的流程图；

图2是本公开实施例提供的另一种唤醒词识别方法的流程图；

图3是本公开实施例提供的一种唤醒词识别装置的结构示意图；

图4示出了本公开一个示例性实施例提供的一种电子设备的结构框图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚，下面将结合附图对本公开实施方式作进一步地详细描述。

可以理解，本公开实施例所使用的术语“每个”、“多个”及“任一”等，多个包括两个或两个以上，每个是指对应的多个中的每一个，任一是指对应的多个中的任意一个。举例来说，多个词语包括10个词语，而每个词语是指这10个词语中的每一个词语，任一词语是指10个词语中的任意一个词语。

在执行本公开实施例之前，首先对本公开实施例涉及的名词及采用的技术进行介绍。

语音唤醒：当智能语音设备处于待机状态时功耗较低，通过在智能语音设备或控制应用中设置唤醒词，当检测到用户的语音信息中包含唤醒词，唤醒该智能语音设备，使该智能语音设备进入正常工作状态，进而执行相应的操作。当前很多智能语音设备都具有语音唤醒功能，基于该语音唤醒功能可用于屏幕解锁或者作为启动应用的辅助手段。

语音技术(Speech Technology)：包括自动语音识别技术、语音合成技术以及声纹识别技术等。其中，自动语音识别技术是一种将语音转换成文本的技术，语音合成技术为一种将文本转换成语音的技术。

语音识别的主要步骤包括：

(1)、预处理过程：对输入的原始语音信息进行处理，滤除掉其中不重要的信息及背景噪声，并进行相关变换处理。

(2)、特征提取过程：提取出反映语音信息的关键特征参数形成特征矢量序列，常用的是由梅尔频率倒谱系数。

(3)、声学模型训练过程：根据训练语音库中的特征参数训练出声学模型参数，识别时将待识别的语音信息的特征参数与声学模型进行匹配，得到识别结果。

(4)、语言模型训练过程：对训练文本数据库进行语法以及语义分析，经过基于统计模型训练得到的语言模型。语言模型能够有效的结合汉语语法和语义的知识，描述词之间的内在关系，从而提高识别率，减少搜索范围。

(5)、语音解码：针对输入的语音信息，根据训练的声学模型、语言模型及字典建立一个识别网络，根据搜索算法在语音解码网络中找到最佳解码路径，该最佳解码路径为能够以最大概率输出该语音信息的词串。

本公开实施例提供了一种唤醒词识别方法，参见图1，本公开实施例提供的方法流程包括：

101.获取多个唤醒词语音正样本。

其中，每个唤醒词语音正样本包含一个唤醒词。

102.通过调用唤醒词识别模型对多个唤醒词语音正样本进行识别，获取每个唤醒词对应的近音词。

其中，近音词为与唤醒词的发音相同或相近的词语。

103.基于每个唤醒词对应的近音词，生成多个唤醒词语音负样本。

104.基于多个唤醒词语音正样本和多个唤醒词语音负样本，对唤醒词识别模型进行训练，得到训练后的唤醒词识别模型。

其中，训练后的唤醒词识别模型用于对任一语音信息进行唤醒词识别。

本公开实施例提供的方法，基于唤醒词识别模型对唤醒词语音正样本进行识别，获取包括唤醒词对应的近音词的唤醒词语音负样本，由于唤醒词语音负样本中包含了更多的近音词，因而基于唤醒词语音负样本所训练的唤醒词识别模型能够学习到更多近音词的语音特征，在基于所训练的唤醒词识别模型对语音信息进行识别时，能够准确地识别出唤醒词及唤醒词的近音词，从而避免近音词的误唤醒，达到了更好地抑制近音词误唤醒的效果。

在本公开的另一个实施例中，通过调用唤醒词识别模型对多个唤醒词语音正样本进行识别，获取每个唤醒词对应的近音词，包括：

基于唤醒词识别模型对应的语音解码网络，对多个唤醒词语音正样本进行语音解码，得到每个唤醒词对应的多条解码路径；

基于语音解码网络，对多个非唤醒词语音进行语音解码，得到每个非唤醒词对应的解码路径；

在本公开的另一个实施例中，基于唤醒词识别模型对应的语音解码网络，对多个唤醒词语音正样本进行语音解码，得到每个唤醒词对应的多条解码路径之前，还包括：

调大唤醒词识别模型的路径选择参数的参数值，该路径选择参数用于确定每个唤醒词在语音解码网络中的多条解码路径；

基于唤醒词识别模型对应的语音解码网络，对多个唤醒词语音正样本进行语音解码，得到每个唤醒词对应的多条解码路径，包括：

基于语音解码网络，对包含任一唤醒词的唤醒词语音正样本进行语音解码的过程中，得到唤醒词对应的多条候选路径及每条候选路径的路径分数；

从多条候选路径中，获取路径分数最高的候选路径，作为唤醒词的最佳解码路径；

对于除最佳解码路径以外的任一条候选路径，如果最佳解码路径的路径分数与候选路径的路径分数之间的差值小于调节后的路径选择参数的参数值，则将候选路径作为唤醒词的解码路径。

在本公开的另一个实施例中，根据每个唤醒词对应的解码路径和每个非唤醒词对应的解码路径，获取每个唤醒词对应的近音词，包括：

当任一非唤醒词对应的解码路径与任一唤醒词对应的解码路径相同，则将非唤醒词确定为唤醒词的近音词。

在本公开的另一个实施例中，根据每个唤醒词对应的多条解码路径和每个非唤醒词对应的多条解码路径，获取每个唤醒词对应的相近词，包括：

当任一非唤醒词对应的解码路径的路径分数与任一唤醒词对应的任一解码路径的路径分数之间的差值小于预设阈值，则将非唤醒词确定为唤醒词的近音词。

在本公开的另一个实施例中，基于每个唤醒词对应的近音词，生成多个唤醒词语音负样本，包括：

将每个唤醒对应的近音词语音负样本和多个随机语音负样本，组成为多个唤醒词语音负样本。

在本公开的另一个实施例中，基于每个唤醒词对应的近音词，获取每个唤醒词对应的近音词语音负样本，包括：

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

本公开实施例提供了一种唤醒词识别方法，以电子设备执行本公开实施例为例，该电子设备具有一定计算能力，可以为智能手机、智能音响、智能电梯、智能空调、笔记本电脑、台式电脑等。参见图2，本公开实施例提供的方法流程包括：

201.电子设备获取多个唤醒词语音正样本。

随着人工智能技术的发展，越来越多的智能语音设备具有语音唤醒功能。由于不同的智能语音设备所要实现的功能不同，在实现相应功能时所对应的唤醒词也是不同的，因此，为使智能语音设备能够实现相应功能，可根据智能语音设备的功能设置相应的唤醒词。例如，智能音箱所要实现的功能主要是开启音箱、关闭音箱、暂停当前播放的音频文件、播放上一个音频文件、播放下一个音频文件、调大音量、调小音量等，因而针对智能音箱所设置的唤醒词可以为“开启音箱”、“关闭音箱”、“暂停音箱”、“上一首”、“下一首”、“调大音量”、“调小音量”等。又例如，智能空调所要实现的功能主要是开启空调、关闭空调、调节温度等，因而针对智能空调所设置的唤醒词可以为“开启空调”、“关闭空调”、“调到**度”等。

基于预先为智能语音设备所设置的多个唤醒词，电子设备获取用户针对每个唤醒词所录制的音频文件，得到多个唤醒词语音正样本。其中，每个唤醒词语音正样本包含一个唤醒词。每个唤醒词对应多个唤醒词语音正样本，以提高对每个唤醒词识别的准确性。

202.电子设备基于唤醒词识别模型对应的语音解码网络，对多个唤醒词语音正样本进行语音解码，得到每个唤醒词对应的多条解码路径。

其中，唤醒词识别模型用于从语音信息中识别出唤醒词，该唤醒词识别模型包括但不限于GMM(Gauss of mixture models，混合高斯模型)-HMM(Hidden Markov Modle，隐马尔科夫模型)、DNN(Deep Neural Networks，深度神经网络)、CNN(Convolutional NeuralNetwork，卷积神经网络)、LSTM(Long Short-Term Memory，长短期记忆网络)等至少一种声学模型。当将待识别的语音信息输入到唤醒词识别模型中，唤醒词识别模型输出该语音信息中包含某一唤醒词的概率分数，当该概率分数大于预设分数阈值，则确定该语音信息中包含该唤醒词，从而控制智能语音设备执行该唤醒词对应的操作。其中，预设分数阈值可以为2分、2.5分等，本公开实施例不对预设分数阈值作具体的限定。

在语音技术领域，唤醒词识别模型对应一个语音解码网络，该语音解码网络包括多个状态节点，该多个状态节点包括唤醒词的状态节点，两个状态节点之间的边上设置有权重值，该权重值表示在对唤醒词成功解码的前提下，从上一状态节点跳转到下一状态节点的后验概率。该语音解码网络可以为WFST(Weighted Finite-State Transducers，加权有限状态机转换器)等。语音解码过程实际上就是在语音解码网络中搜索唤醒词可能处于的状态节点，进而按照搜索顺序将搜索到的状态节点连接形成唤醒词的解码路径的过程。为了提高对唤醒词进行语音解码的准确性，在搜索唤醒词的解码路径时，可基于路径选择参数进行搜索。其中，路径选择参数用于确定唤醒词在语音解码网络中的解码路径，该路径选择参数可采用beam表示，该解码路径可采用N-best表示。通常路径选择参数的参数值越大，在语音解码网络中为唤醒词搜索到的解码路径越多，相应地对唤醒词的语音解码准确性越低；路径选择参数的参数值越小，在语音解码网络中为唤醒词搜索到的解码路径越少，相应地对唤醒词的语音解码准确性越高。本公开实施例提供的方法，电子设备在调节路径选择参数时，需要兼顾准确性和解码路径的数量，在保证准确性的前提下，尽可能调大路径选择参数的参数值，以获取到唤醒词更多的解码路径，从而基于所获取的解码路径，获取到更多的近音词，以提高所训练的唤醒词识别模型对唤醒词及其近音词的识别能力。

在本公开实施例中，基于所确定的路径选择参数的参数值和唤醒词识别模型对应的语音解码网络，电子设备对多个唤醒词语音正样本进行语音解码时，可采用如下方法：

2021.电子设备基于语音解码网络，对包含任一唤醒词的唤醒词语音正样本进行语音解码，得到唤醒词对应的多条路径及每条候选路径的路径分数。

对于包含任一唤醒词的唤醒词语音正样本，电子设备基于唤醒词识别模型对应的语音解码网络，对包含该唤醒词的唤醒词语音正样本进行语音解码。在进行语音解码过程中，电子设备采用令牌(即token)记录该唤醒词解码过程中某一时刻某个状态上的权重值和信息。从加权有限状态机的初始状态开始，令牌沿着具有方向的边进行转移，在转移过程中状态的变化可通过输入符号的变化体现。在从初始状态向终止状态的状态传递过程中，令牌中记录一系列的状态和边组成的路径。电子设备根据多个令牌中所记录的各个状态，按照搜索时间顺序，将各个状态节点相连，得到至少该唤醒词的多条候选路径，并获取每条候选路径中各条边上的权重值，进而通过将每条候选路径中所有边上的权重值进行累加或连乘，得到每条候选路径的路径分数。

2022.电子设备从多条候选路径中，获取路径分数最高的候选路径，作为唤醒词的最佳解码路径

2023.对于除该最佳解码路径以外的任一条候选路径，如果最佳解码路径的路径分数与该候选路径的路径分数之间的差值小于调节后的路径选择参数的参数值，则电子设备将该候选路径作为唤醒词的解码路径。

基于所确定的最佳解码路径的路径分数，对于除该最佳解码路径以外的任一条候选路径，电子设备计算该最佳解码路径的路径分数与该候选路径的路径分数之间的差值，进而将该差值与调节后的路径选择参数的参数值进行比较，当该差值小于调节后的路径选择参数的参数值，电子设备将该候选路径作为该唤醒词的解码路径。

需要说明的是，上述以对除该最佳解码路径以外的任一条候选路径为例进行说明，对于其他候选路径均可按照上述方法进行判断。当除该最佳解码路径以外的所有候选路径均执行完上述判断过程，电子设备得到该唤醒词对应的多条解码路径，该多条解码路径中包括最佳解码路径。

203.电子设备基于语音解码网络，对多个非唤醒词语音进行语音解码，得到每个非唤醒词对应的解码路径。

电子设备基于唤醒词识别模型对应的语音解码网络对多个非唤醒词语音进行语音解码，在对非唤醒词语音进行语音解码过程中，获取每个非唤醒词语音的解码路径，该解码路径的条数可以为一条，也可以为多条。

204.电子设备根据每个唤醒词对应的多条解码路径和每个非唤醒词对应的解码路径，获取每个唤醒词对应的近音词。

其中，近音词为唤醒词发音相同或相近的词语，例如，唤醒词为“你好”，近音词可以为“泥好”、“你号”等等。在语音识别领域，当语音信息中包含与唤醒词的近音词时容易发生误唤醒的现象，为了提高唤醒词结果的准确性，减少误识别次数，电子设备需要获取每个唤醒词对应的近音词。对于这些与唤醒词发音相近的近音词，电子设备可根据每个唤醒词对应的多条解码路径和每个非唤醒词对应的解码路径进行获取。具体实施时可采用如下几种方式：

在一种可能的实现方式中，当任一非唤醒词语音对应的解码路径与任一唤醒词的任一条解码路径相同，则电子设备将非唤醒词确定为唤醒词的近音词。

对于任一非唤醒词，电子设备可将该非唤醒词语音对应的每条解码路径与每条唤醒词的每条解码路径进行匹配，当该非唤醒词语音对应的任一条解码路径与任一唤醒词的任一条解码路径相同，则电子设备将非唤醒词确定为唤醒词的近音词；电子设备还从该非唤醒词语音对应的解码路径中，获取路径分数最高的最佳解码路径，进而将该非唤醒词的最佳解码路径与每条唤醒词的每条解码路径进行匹配，当该非唤醒词语音对应的最佳解码路径与任一唤醒词的任一条解码路径相同，则电子设备将非唤醒词确定为唤醒词的近音词。

在另一种可能的实现方式中，当任一非唤醒词对应的解码路径的路径分数与任一唤醒词对应的任一解码路径的路径分数之间的差值小于预设阈值，则电子设备将非唤醒词确定为唤醒词的近音词。其中，预设分数阈值可根据电子设备对唤醒词的识别精度需求确定。

对于任一非唤醒词，电子设备可将该非唤醒词的对应的每条解码路径的路径分数与每个唤醒词对应的每条解码路径的路径分数进行比较，当该非唤醒词的对应的任一条解码路径的路径分数与任一个唤醒词对应的任一条解码路径的路径分数之间的差值小于预设阈值，则电子设备将非唤醒词确定为唤醒词的近音词；电子设备还可从该非唤醒词语音对应的解码路径中，获取路径分数最高的最佳解码路径，进而将该非唤醒词的对应的最佳解码路径的路径分数与每个唤醒词对应的每条解码路径的路径分数进行比较，当该非唤醒词的对应的最佳解码路径的路径分数与任一个唤醒词对应的任一条解码路径的路径分数之间的差值小于预设阈值，则电子设备将非唤醒词确定为唤醒词的近音词。

205.基于每个唤醒词对应的近音词，电子设备生成多个唤醒词语音负样本。

在本公开实施例中，电子设备基于每个唤醒词对应的近音词，生成多个唤醒词语音负样本时，可采用如下方法：

2051.电子设备基于每个唤醒词对应的近音词，获取每个唤醒词对应的近音词语音负样本。

电子设备基于每个唤醒词对应的近音词，获取每个唤醒词对应的近音词语音负样本时，可采用如下方法：

20511.电子设备根据每个唤醒词对应的近音词数量，确定每个唤醒词对应的近音词语音负样本的获取比例。

电子设备根据各个唤醒词对应的近音词数量，对各个唤醒词对应的近音词作比，得到各个唤醒词对应的近音词语音负样本的获取比例。本公开实施例通过计算每个唤醒词对应的近音词数量的比值，能够根据实际应用场景提高唤醒词的近音词的识别能力。例如，如果某个唤醒词对应的近音词数量较多，说明基于该唤醒词的误唤醒现象发生的次数较多，则可在模型训练时多选择一些该唤醒词对应的近音词语音负样本，以提高所训练的唤醒词识别模型对该唤醒词及其近音词的识别能力；如果某个唤醒词对应的近音词数量较少，说明基于该唤醒词的误唤醒现象发生的次数较少，则可在模型训练时少选择一些该唤醒词对应的近音词语音负样本，以提高模型的训练速度。

20512.电子设备根据每个唤醒词对应的近音词语音负样本的获取比例和需要获取的唤醒词语音负样本的总数量，获取每个唤醒词对应的近音词语音负样本。

2052.电子设备将每个唤醒对应的近音词语音负样本和多个随机语音负样本，组成为多个唤醒词语音负样本。

206.电子设备基于多个唤醒词语音正样本和多个唤醒词语音负样本，对唤醒词识别模型进行训练，得到训练后的唤醒词识别模型。

在本公开实施例中，每个唤醒词语音正样本对应一个唤醒词，每个唤醒词语音负样本对应一个非唤醒词，电子设备将多个唤醒词语音正样本和多个唤醒词语音负样本输入到唤醒词识别模型中，输出对每个唤醒词语音正样本的识别结果和每个唤醒词语音负样本的识别结果，将每个唤醒词语音正样本的识别结果和对应的唤醒词以及每个唤醒词语音负样本的识别结果和对应的非唤醒词输入到预先构建的损失函数中，得到损失函数的函数值，如果该函数值大于预设阈值，则调整唤醒词识别模型的参数值，并将多个唤醒词语音正样本和多个唤醒词语音负样本输入到参数值调整后的唤醒词识别模型，进而基于输出的识别结果对调整后的唤醒词识别模型的参数值继续进行调整，直至损失函数的函数值小于预设阈值。电子设备获取损失函数的函数值小于预设阈值时的参数值，将损失函数的函数值小于预设阈值时的参数值对应的唤醒词识别模型作为训练后的唤醒词识别模型，该训练后的唤醒词识别模型用于对任一语音信息进行唤醒词识别。

基于所训练的唤醒词识别模型，当该电子设备为智能语音设备，则该电子设备可调用该训练的唤醒词识别模型对用户的语音信息进行识别，得到识别结果，如果基于该识别结果确定该语音信息中包括目标唤醒词，则控制执行该目标唤醒词对应的操作。当该电子设备不为智能语音设备，则智能语音设备可通过加载并运行所训练的唤醒词识别模型，实现语音唤醒功能。

参见图3，本公开实施例提供了一种唤醒词识别装置，该装置包括：

获取模块301，用于获取多个唤醒词语音正样本，每个唤醒词语音正样本包含一个唤醒词；

获取模块301，还用于通过调用唤醒词识别模型对多个唤醒词语音正样本进行识别，获取每个唤醒词对应的近音词，该近音词为与唤醒词的发音相同或相近的词语；

生成模块302，用于基于每个唤醒词对应的近音词，生成多个唤醒词语音负样本；

训练模块303，用于基于多个唤醒词语音正样本和多个唤醒词语音负样本，对唤醒词识别模型进行训练，得到训练后的唤醒词识别模型，该训练后的唤醒词识别模型用于对任一语音信息进行唤醒词识别。

在本公开的另一个实施例中，获取模块301，用于基于唤醒词识别模型对应的语音解码网络，对多个唤醒词语音正样本进行语音解码，得到每个唤醒词对应的多条解码路径；基于语音解码网络，对多个非唤醒词语音进行语音解码，得到每个非唤醒词对应的解码路径；根据每个唤醒词对应的多条解码路径和每个非唤醒词对应的解码路径，获取每个唤醒词对应的近音词。

在本公开的另一个实施例中，该装置还包括：

调节模块，用于调大唤醒词识别模型的路径选择参数的参数值，路径选择参数用于确定每个唤醒词在语音解码网络中的解码路径；

获取模块301，用于基于语音解码网络，对包含任一唤醒词的唤醒词语音正样本进行语音解码，得到唤醒词对应的多条候选路径及每条候选路径的路径分数；从多条候选路径中，获取路径分数最高的候选路径，作为唤醒词的最佳解码路径；对于除最佳解码路径以外的任一条候选路径，如果最佳解码路径的路径分数与候选路径的路径分数之间的差值小于调节后的路径选择参数的参数值，则将候选路径作为唤醒词的解码路径。

在本公开的另一个实施例中，获取模块301，用于当任一非唤醒词对应的解码路径与任一唤醒词对应的任一解码路径相同，则将非唤醒词确定为唤醒词的近音词。

在本公开的另一个实施例中，获取模块301，用于当任一非唤醒词对应的解码路径的路径分数与任一唤醒词对应的任一解码路径的路径分数之间的差值小于预设阈值，则将非唤醒词确定为唤醒词的近音词。

在本公开的另一个实施例中，生成模块302，用于基于每个唤醒词对应的近音词，获取每个唤醒词对应的近音词语音负样本；将每个唤醒对应的近音词语音负样本和多个随机语音负样本，组成为多个唤醒词语音负样本。

在本公开的另一个实施例中，生成模块302，用于根据每个唤醒词对应的近音词数量，确定每个唤醒词对应的近音词语音负样本的获取比例；根据每个唤醒词对应的近音词语音负样本的获取比例和需要获取的唤醒词语音负样本的总数量，获取每个唤醒词对应的近音词语音负样本。

综上所述，本公开实施例提供的装置，基于唤醒词识别模型对唤醒词语音正样本进行识别，获取包括唤醒词对应的近音词的唤醒词语音负样本，由于唤醒词语音负样本中包含了更多的近音词，因而基于唤醒词语音负样本所训练的唤醒词识别模型能够学习到更多近音词的语音特征，在基于所训练的唤醒词识别模型对语音信息进行识别时，能够准确地识别出唤醒词及唤醒词的近音词，从而避免近音词的误唤醒，达到了更好地抑制近音词误唤醒的效果。

图4示出了本公开一个示例性实施例提供的一种电子设备400的结构框图。通常，设备400包括有：处理器401和存储器402。

处理器401可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器401可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器401也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器401可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器401还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器402可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器402还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器402中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器401所执行以实现本公开中方法实施例提供的唤醒词识别的方法。

在一些实施例中，电子设备400还可选包括有：外围设备接口403和至少一个外围设备。处理器401、存储器402和外围设备接口403之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口403相连。具体地，外围设备包括：电源404。

外围设备接口403可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器401和存储器402。在一些实施例中，处理器401、存储器402和外围设备接口403被集成在同一芯片或电路板上；在一些其他实施例中，处理器401、存储器402和外围设备接口403中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

电源404用于为电子设备400中的各个组件进行供电。电源404可以是交流电、直流电、一次性电池或可充电电池。当电源404包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

本领域技术人员可以理解，图4中示出的结构并不构成对电子设备400的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器，上述指令可由电子设备400的处理器执行以完成上述唤醒词识别方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本公开实施例提供的电子设备，基于唤醒词识别模型对唤醒词语音正样本进行识别，获取包括唤醒词对应的近音词的唤醒词语音负样本，由于唤醒词语音负样本中包含了更多的近音词，因而基于唤醒词语音负样本所训练的唤醒词识别模型能够学习到更多近音词的语音特征，在基于所训练的唤醒词识别模型对语音信息进行识别时，能够准确地识别出唤醒词及唤醒词的近音词，从而避免近音词的误唤醒，达到了更好地抑制近音词误唤醒的效果。

本公开实施例提供了一种计算机可读存储介质，所述存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现唤醒词识别方法。该计算机可读存储介质可以是非暂态的。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本公开实施例提供的计算机可读存储介质，基于唤醒词识别模型对唤醒词语音正样本进行识别，获取包括唤醒词对应的近音词的唤醒词语音负样本，由于唤醒词语音负样本中包含了更多的近音词，因而基于唤醒词语音负样本所训练的唤醒词识别模型能够学习到更多近音词的语音特征，在基于所训练的唤醒词识别模型对语音信息进行识别时，能够准确地识别出唤醒词及唤醒词的近音词，从而避免近音词的误唤醒，达到了更好地抑制近音词误唤醒的效果。

本公开实施例提供了一种计算机程序产品，该计算机程序产品包括计算机程序代码，该计算机程序代码存储在计算机可读存储介质中，电子设备的处理器从计算机可读存储介质读取计算机程序代码，处理器执行计算机程序代码，使得电子设备执行唤醒词识别方法。

本公开实施例提供的计算机程序产品，基于唤醒词识别模型对唤醒词语音正样本进行识别，获取包括唤醒词对应的近音词的唤醒词语音负样本，由于唤醒词语音负样本中包含了更多的近音词，因而基于唤醒词语音负样本所训练的唤醒词识别模型能够学习到更多近音词的语音特征，在基于所训练的唤醒词识别模型对语音信息进行识别时，能够准确地识别出唤醒词及唤醒词的近音词，从而避免近音词的误唤醒，达到了更好地抑制近音词误唤醒的效果。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本公开的可选实施例，并不用以限制本公开，凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种唤醒词识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述通过调用唤醒词识别模型对所述多个唤醒词语音正样本进行识别，获取每个唤醒词对应的近音词，包括：

基于所述语音解码网络，对多个非唤醒词语音进行语音解码，得到每个非唤醒词对应的解码路径；

3.根据权利要求2所述的方法，其特征在于，所述基于所述唤醒词识别模型对应的语音解码网络，对所述多个唤醒词语音正样本进行语音解码，得到每个唤醒词对应的多条解码路径之前，还包括：

调大所述唤醒词识别模型的路径选择参数的参数值，所述路径选择参数用于确定每个唤醒词在所述语音解码网络中的解码路径；

4.根据权利要求2所述的方法，其特征在于，所述根据每个唤醒词对应的解码路径和每个非唤醒词对应的解码路径，获取每个唤醒词对应的近音词，包括：

5.根据权利要求2所述的方法，其特征在于，所述根据每个唤醒词对应的多条解码路径和每个非唤醒词对应的多条解码路径，获取每个唤醒词对应的相近词，包括：

6.根据权利要求1所述的方法，其特征在于，所述基于每个唤醒词对应的近音词，生成多个唤醒词语音负样本，包括：

7.根据权利要求6所述的方法，其特征在于，所述基于每个唤醒词对应的近音词，获取每个唤醒词对应的近音词语音负样本，包括：

8.一种唤醒词识别装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现如权利要求1至7中任一项所述的唤醒词识别方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现如权利要求1至7中任一项所述的唤醒词识别方法。

11.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序代码，所述计算机程序代码存储在计算机可读存储介质中，电子设备的处理器从所述计算机可读存储介质读取所述计算机程序代码，所述处理器执行所述计算机程序代码，使得所述电子设备执行如权利要求1至7中任一项所述的唤醒词识别方法。