CN114360522A

CN114360522A - 语音唤醒模型的训练方法、语音误唤醒的检测方法及设备

Info

Publication number: CN114360522A
Application number: CN202210223521.8A
Authority: CN
Inventors: 李�杰; 王广新; 杨汉丹
Original assignee: Shenzhen Youjie Zhixin Technology Co ltd
Current assignee: Shenzhen Youjie Zhixin Technology Co ltd
Priority date: 2022-03-09
Filing date: 2022-03-09
Publication date: 2022-04-15
Anticipated expiration: 2042-03-09
Also published as: CN114360522B

Abstract

本申请提供了一种语音唤醒模型的训练方法、语音误唤醒的检测方法及设备，在模型训练阶段，基础网络和分类层为现有语音唤醒模型的识别网络结构，而嵌入层作为一个新的插件加入到原有的识别网络结构中，从而不需要改变原有识别网络结构的框架，易于扩展。在模型应用阶段，通过基础网络和分类层输出的第一识别结果保证基础的唤醒准确度；在此基础上，增加基础网络和嵌入层输出的第二识别结果与唤醒词特征向量之间的向量距离判断，从而识别语音唤醒模型当前次的识别结果与预设唤醒词之间的相似度是否达到预设条件，从而提升语音唤醒模型整体对相近音的识别准确度，有效降低了误唤醒率。

Description

语音唤醒模型的训练方法、语音误唤醒的检测方法及设备

技术领域

本申请涉及语音识别技术领域，特别涉及一种语音唤醒模型的训练方法、语音误唤醒的检测方法及设备。

背景技术

唤醒词、命令词识别技术在应用时，可以实时监测用户的语音，并在检测到特定词汇时作出相应的反馈（比如检测到唤醒词时唤醒设备）。而在实际应用中，经常会出现相近音、相似音误识别、误唤醒的情况，即用户语音的发音接近唤醒词时，有一定概率被误识别，从而误唤醒设备；此类误识别、误唤醒的情况会给用户带来非常不好的使用体验。现有针对相近音误唤醒的处理，通常是在训练数据中加入负样本，以此来提升训练后的语音识别模型对相近音词汇的识别能力，但这种处理方法，在出现新的相近音时，需要使用新的相近音重新训练语音识别模型，重新训练后的语音识别模型才具备识别新的相近音的能力，方法繁琐，且成本较高。

发明内容

本申请的主要目的为提供一种语音唤醒模型的训练方法、语音误唤醒的检测方法及设备，旨在解决现有为解决新的相近音误唤醒需要重新训练语音识别模型，成本较高的弊端。

为实现上述目的，本申请提供了一种语音唤醒模型的训练方法，包括：

获取训练语料，所述训练语料包括正样本语料和负样本语料，所述负样本语料包括基础样本语料和困难样本语料，所述困难样本语料为预设唤醒词的相近音词汇语料；

将所述训练语料输入神经网络进行模型训练，其中，所述神经网络包括基础网络、分类层和嵌入层，所述分类层的输入与所述基础网络最后一层的输出相连接，所述嵌入层的输入与所述基础网络最后一层的输出相连接；

在模型训练过程中，使用所述训练语料对所述基础网络和所述分类层进行一次模型训练，迭代更新所述基础网络和所述分类层的网络参数，直至模型收敛，得到初始唤醒模型；

使用所述正样本语料、所述困难样本语料对所述初始识别模型的基础网络和所述嵌入层进行二次模型训练，所述二次模型训练使用类别间的相似度函数，迭代更新所述嵌入层的网络参数，直至模型收敛，得到语音唤醒模型。

本申请还提供了一种语音误唤醒的检测方法，包括：

采集语音数据；

将所述语音数据输入语音唤醒模型进行处理，分别得到第一识别结果和第二识别结果，其中，所述语音唤醒模型由如上所述的音唤醒模型的训练方法训练得到，所述第一识别结果为所述语音唤醒模型中所述分类层的输出，所述第二识别结果为所述语音唤醒模型中所述嵌入层的输出；

判断所述第一识别结果是否为预设唤醒词，并判断所述第二识别结果与唤醒词特征向量之间的第三特征向量距离是否大于距离阈值；

若所述第一识别结果不是所述预设唤醒词，和/或所述第二识别结果与唤醒词特征向量之间的第三特征向量距离大于距离阈值，则判定所述语音数据不满足唤醒条件。

本申请还提供了一种语音唤醒模型的训练装置，包括：

第一获取模块，用于获取训练语料，所述训练语料包括正样本语料和负样本语料，所述负样本语料包括基础样本语料和困难样本语料，所述困难样本语料为预设唤醒词的相近音词汇语料；

输入模块，用于将所述训练语料输入神经网络进行模型训练，其中，所述神经网络包括基础网络、分类层和嵌入层，所述分类层的输入与所述基础网络最后一层的输出相连接，所述嵌入层的输入与所述基础网络最后一层的输出相连接；

第一训练模块，用于在模型训练过程中，使用所述训练语料对所述基础网络和所述分类层进行一次模型训练，迭代更新所述基础网络和所述分类层的网络参数，直至模型收敛，得到初始唤醒模型；

第二训练模块，用于使用所述正样本语料、所述困难样本语料对所述初始识别模型的基础网络和所述嵌入层进行二次模型训练，所述二次模型训练使用类别间的相似度函数，迭代更新所述嵌入层的网络参数，直至模型收敛，得到语音唤醒模型。

本申请还提供了一种语音误唤醒的检测装置，包括：

采集模块，用于采集语音数据；

识别模块，用于将所述语音数据输入语音唤醒模型进行处理，分别得到第一识别结果和第二识别结果，其中，所述语音唤醒模型由上述的音唤醒模型的训练方法训练得到，所述第一识别结果为所述语音唤醒模型中所述分类层的输出，所述第二识别结果为所述语音唤醒模型中所述嵌入层的输出；

判断模块，用于判断所述第一识别结果是否为预设唤醒词，并判断所述第二识别结果与唤醒词特征向量之间的第三特征向量距离是否大于距离阈值；

判定模块，用于若所述第一识别结果不是所述预设唤醒词，和/或所述第二识别结果与唤醒词特征向量之间的第三特征向量距离大于距离阈值，则判定所述语音数据不满足唤醒条件。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请中提供的一种语音唤醒模型的训练方法、语音误唤醒的检测方法及设备，模型训练时，首先获取训练语料，训练语料包括正样本语料和负样本语料，负样本语料包括基础样本语料和困难样本语料，困难样本语料为预设唤醒词的相近音词汇语料。然后将训练语料输入神经网络进行模型训练，其中，神经网络包括基础网络、分类层和嵌入层，分类层的输入与基础网络最后一层的输出相连接，嵌入层的输入与基础网络最后一层的输出相连接。在模型训练过程中，使用训练语料对基础网络和分类层进行一次模型训练，迭代更新基础网络和分类层的网络参数，直至模型收敛，得到初始唤醒模型。再使用正样本、困难样本语料对初始识别模型的基础网络和嵌入层进行二次模型训练，二次模型训练使用类别间的相似度函数，迭代更新嵌入层的网络参数，直至模型收敛，得到语音唤醒模型。模型应用时，首先采集语音数据，然后将语音数据输入语音唤醒模型进行处理，分别得到第一识别结果和第二识别结果，其中，第一识别结果为语音唤醒模型中分类层的输出，第二识别结果为语音唤醒模型中嵌入层的输出。判断第一识别结果是否为预设唤醒词，并判断第二识别结果与唤醒词特征向量之间的第三特征向量距离是否大于距离阈值。如果第一识别结果不是预设唤醒词，和/或第二识别结果与唤醒词特征向量之间的第三特征向量距离大于距离阈值，则判定语音数据不满足唤醒条件。本申请在模型训练阶段，基础网络和分类层为现有语音唤醒模型的识别网络结构，而嵌入层作为一个新的插件加入到原有的识别网络结构中，从而不需要改变原有识别网络结构的框架，易于扩展。在模型应用阶段，通过基础网络和分类层输出的第一识别结果保证基础的唤醒准确度；在此基础上，增加基础网络和嵌入层输出的第二识别结果与唤醒词特征向量之间的向量距离判断，从而识别语音唤醒模型当前次的识别结果与预设唤醒词之间的相似度是否达到预设条件，从而提升语音唤醒模型整体对相近音的识别准确度，有效降低了误唤醒率。

附图说明

图1是本申请一实施例中语音唤醒模型的训练方法的步骤示意图；

图2是本申请一实施例中语音误唤醒的检测方法的步骤示意图；

图3是本申请一实施例中语音误唤醒的检测方法的模型结构示意图；

图4是本申请一实施例中语音唤醒模型的训练装置的整体结构框图；

图5是本申请一实施例中语音误唤醒的检测装置的整体结构框图；

图6是本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请一实施例中提供了一种语音唤醒模型的训练方法，包括：

S1:获取训练语料，所述训练语料包括正样本语料和负样本语料，所述负样本语料包括基础样本语料和困难样本语料，所述困难样本语料为预设唤醒词的相近音词汇语料；

S2:将所述训练语料输入神经网络进行模型训练，其中，所述神经网络包括基础网络、分类层和嵌入层，所述分类层的输入与所述基础网络最后一层的输出相连接，所述嵌入层的输入与所述基础网络最后一层的输出相连接；

S3:在模型训练过程中，使用所述训练语料对所述基础网络和所述分类层进行一次模型训练，迭代更新所述基础网络和所述分类层的网络参数，直至模型收敛，得到初始唤醒模型；

S4:使用所述正样本、所述困难样本语料对所述初始识别模型的基础网络和所述嵌入层进行二次模型训练，所述二次模型训练使用类别间的相似度函数，迭代更新所述嵌入层的网络参数，直至模型收敛，得到语音唤醒模型。

本实施例中，训练系统调取预先构建的训练语料，该训练语料分别包括正样本语料（即唤醒词、关键词的语音数据）和负样本语料（即非唤醒词、非关键词的语音数据），负样本语料包括基础样本语料和困难样本语料，基础样本语料即与唤醒词或关键词不同的一般语音数据即可，无特殊要求（比如唤醒词为“小爱”，则“今天”、“天气”这类与唤醒词毫不相关的词汇语音均可作为基础样本语料）；困难样本语料为预设唤醒词的相近音词汇语料（比如唤醒词为“小爱”，则“小艺”、“小一”这类发音相似、相近、容易误识别的词汇语音即筛选为困难样本语料）。训练系统将训练语料输入神经网络进行模型训练，其中，该神经网络包括基础网络、分类层和嵌入层，分类层的输入与基础网络最后一层的输出相连接（基础网络+分类层与现有的分类模型的网络结构相同），嵌入层的输入与基础网络最后一层的输出相连接。嵌入层的设计可以是fc层（全连接层），也可以是cnn层，在此不做限定，其主要的作用是将输入映射为特征向量，对特征向量进行压缩，使其维度降维。整个模型训练分为两个阶段，在第一阶段，训练系统使用训练语料（即正样本语料结合负样本语料，在第一阶段对负样本语料没有特殊要求）对基础网络和分类层进行一次模型训练，并迭代更新基础网络和分类层的网络参数，直至模型收敛，基础网络和分类层的网络参数稳定，得到初始唤醒模型（一次模型训练与通常的分类模型的训练逻辑相同，在此不做赘述）。在基础网络的网络参数稳定后进行第二阶段的模型训练，具体地，训练系统使用正样本语料结合困难样本语料（第二阶段需要对负样本语料的属性具有特殊要求，需要使用与预设唤醒词相近音、相似音的词汇语料进行训练，即使用困难样本语料，从而实现预设唤醒词与相近音词汇之间的识别）对初始识别模型的基础网络（即在一次模型训练后，网络参数已经稳定的基础网络）和嵌入层进行二次模型训练，二次模型训练使用类别间的相似度函数，从而增加正样本语料与困难样本语料之间的区分度学习，以同类别的特征向量距离更近，不同类别的特征向量距离更远（即正样本语音与正样本语音之间的特征向量距离更近，正样本语音与困难样本语音之间的特征向量距离更远）为训练目标，迭代循环嵌入层的网络参数（二次模型训练中不对基础网络的网络参数做更新，仅更新嵌入层的网络参数），直至同一批次的训练数据对应的正样本语音与正样本语音之间的第一特征向量，减去正样本语音与困难样本语音之间的第二特征向量距离后的距离差值不再下降，则判定模型收敛，得到语音唤醒模型。

本实施例中，在模型训练阶段，基础网络和分类层为现有语音唤醒模型的识别网络结构，而嵌入层作为一个新的插件加入到原有的识别网络结构中，从而不需要改变原有识别网络结构的框架，易于扩展。

进一步的，所述使用所述正样本、所述困难样本语料对所述初始识别模型的基础网络和所述嵌入层进行二次模型训练，所述二次模型训练使用类别间的相似度函数，迭代更新所述嵌入层的网络参数，直至模型收敛，得到语音唤醒模型的步骤，包括：

S401:从所述正样本语料中筛选第一正样本语音和第二正样本语音，以及从所述困难样本语料中筛选一个困难样本语音，组成同一批次的训练数据输入所述初始识别模型的基础网络和所述嵌入层进行所述二次模型训练；

S402:根据所述相似度函数计算所述第一正样本语音和所第二正样本语音之间的第一特征向量距离，以及计算所述第一正样本语音与所述困难样本语音之间的第二特征向量距离；

S403:循环步骤S401、S402，直至同一批次的训练数据对应的所述第一特征向量减去所述第二特征向量距离后的距离差值不再下降，则判定模型收敛，得到所述语音唤醒模型。

本实施例中，训练系统从正样本语料随机筛选两个正样本语音，即第一正样本语音和第二正样本语音（第一正样本语音和第二正样本语音优选为不同的用户发出的，比如第一正样本语音为用户A发出，第二正样本语音为用户B发出，以保证第一正样本语音和第二正样本语音虽然都是预设唤醒词，但细节上存在口音、声调等区别，提高训练后所得的模型的泛化性），并从困难样本语料库中随机选择一个困难样本语音，与第一正样本语音和第二正样本语音组成同一批次的训练数据，然后将该同一批次的训练数据输入初始识别模型的基础网络和嵌入层进行二次模型训练。第一正样本语音、第二正样本语音和负样本语音依次经过基础网络、嵌入层的处理后，映射为对应的特征向量；假定第一正样本语音映射为第一正样本特征向量，第二正样本语音映射为第二正样本特征向量，负样本语音映射为第三负样本特征向量。然后，根据类别间的相似度函数（比如欧式距离计算公式）计算第一正样本特征向量与第二正样本特征向量之间的第一特征向量距离（第一特征向量距离表征同类别的特征向量之间的距离），以及计算第一正样本特征向量（或第二正样本特征向量）与负样本特征向量之间的第二特征向量距离（第二特征向量距离表征不同类别的特征向量之间的距离）。二次模型训练的目标是要达到同类别的特征向量之间的距离尽可能近，不同类别的特征向量之间的距离尽可能远；因此，在二次模型训练过程中，训练系统循环步骤S401、S402，直至同一批次的训练数据对应的第一特征向量减去第二特征向量距离后的距离差值小于0（距离差值小于0表征同类别的的特征向量之间的距离，比不同类别的特征向量之间的距离近）且不再下降，则判定模型收敛，嵌入层的网络参数稳定，得到语音唤醒模型。

进一步的，所述获取训练语料的步骤之前，包括：

S5:调取开源测试数据集，并使用通用语音分类网络对所述开源测试数据集进行识别处理，筛选得到第一相近语音样本；

S6:和/或，从通用词汇文本中筛选与预设唤醒词的唤醒词文本的音素重叠度大于比例阈值的误识别词汇文本，并获取所述误识别词汇文本的语音数据，得到第二相近语音样本；

S7:根据所述第一相近语音样本和/或所述第二相近语音样本，构建所述困难样本语料。

本实施例中，训练系统调取开源测试数据集，然后使用通用语音分类网络跑通开源测试数据集，对其进行识别处理，从而找出误分类的语音样本，这些误分类的语音样本即为第一相近语音样本。和/或，从通用语音语料对应的文本，即通用词汇文本中，并判断通用词汇文本与预设唤醒词的唤醒词文本的音素重叠度（即通用词汇文本的音素和唤醒词文本的音素的重叠度）是否大于比例阈值。如果通用词汇文本与唤醒词文本的音素重叠度大于比例阈值，则将该通用词汇文本选择为误识别词汇文本，并将该误识别词汇文本对应的语音数据作为第二相近语音样本（比如预设唤醒词为“小爱”，通用词汇文本为“小艺”，两者的音素重叠度高于比例阈值，则将“小艺”的语音数据作为第二相近语音样本）。步骤S5和S6筛选相近语音样本的方法可以择一使用，也可以同时使用，在此不做具体限制。训练系统根据筛选得到的第一相近语音样本和/或第二相近语音样本，构建得到困难样本语料。

参照图2、图3，本申请一实施例中还提供了一种语音误唤醒的检测方法，包括：

A1:采集语音数据；

A2:将所述语音数据输入语音唤醒模型进行处理，分别得到第一识别结果和第二识别结果，其中，所述语音唤醒模型由如上所述的音唤醒模型的训练方法训练得到，所述第一识别结果为所述语音唤醒模型中所述分类层的输出，所述第二识别结果为所述语音唤醒模型中所述嵌入层的输出；

A3:判断所述第一识别结果是否为预设唤醒词，并判断所述第二识别结果与唤醒词特征向量之间的第三特征向量距离是否大于距离阈值；

A4:若所述第一识别结果不是所述预设唤醒词，和/或所述第二识别结果与唤醒词特征向量之间的第三特征向量距离大于距离阈值，则判定所述语音数据不满足唤醒条件。

本实施例中，上述语音唤醒模型训练完成后部署在语音识别设备上，语音识别设备的检测系统在采集用户有意或无意输出的语音数据后，将该语音数据输入语音唤醒模型进行相应处理，经语音唤醒模型的基础网络和分类层执行分类任务后，输出第一识别结果；并经语音唤醒模型的基础网络和嵌入层执行映射任务后，输出第二识别结果，第二识别结果具体为语音数据对应的词汇的特征向量，定义为识别词特征向量。检测系统判断第一识别结果是否为预设唤醒词；并判断第二识别结果与唤醒词特征向量（唤醒词特征向量为预设唤醒词的特征向量）之间的第三特征向量距离是否大于距离阈值，即基于相似度函数计算识别词特征向量与唤醒词特征向量之间的距离，得到第三特征向量距离，并将第三特征向量距离与预设的距离阈值进行大小关系的比较，判断第三特征向量距离是否大于距离阈值。如果第一识别结果不是预设唤醒词，和/或第二识别结果与唤醒词特征向量之间的第三特征向量距离大于距离阈值，则判定当前次语音数据不满足唤醒条件，无法唤醒语音识别设备（比如第一识别结果表明语音数据是预设唤醒词，而第三特征向量距离却大于距离阈值，则说明语音数据与预设唤醒词的相似度较低，第一识别结果很大概率为误识别，置信度较低，因此判定当前次语音数据不满足语音识别设备的唤醒条件）。

本实施例中，检测系统通过基础网络和分类层输出的第一识别结果保证基础的唤醒准确度；在此基础上，增加基础网络和嵌入层输出的第二识别结果与唤醒词特征向量之间的向量距离判断，从而识别语音唤醒模型当前次的识别结果与预设唤醒词之间的相似度是否达到预设条件，从而提升语音唤醒模型整体对相近音的识别准确度，有效降低了误唤醒率。

进一步的，所述采集语音数据的步骤之前，包括：

A5:获取多个唤醒词语音，各所述唤醒词语音分别由不同的用户输出，单个所述用户输出至少一个所述唤醒词语音；

A6:对各所述唤醒词语音进行映射处理，得到各所述唤醒词语音各自对应的词汇特征向量；

A7:对各所述词汇特征向量做求均计算，得到所述唤醒词特征向量。

本实施例中，检测系统获取多个预先采集的唤醒词语音，这些唤醒词语音分别有不同的用户输出，且单个用户至少输出一个唤醒词语音（比如统计的样本至少100人以上，性别比例男女大概1:1，每个说话人至少有1条预设唤醒词的语音），以保证样本的多样性。检测系统对各个唤醒词语音进行映射处理（可以通过上述语音唤醒模型中基础网络+嵌入层对唤醒词语音进行映射处理），得到各个唤醒词语音各自对应改的词汇特征向量。检测系统对各个词汇特征向量做求均计算，以各个词汇特征向量的平均值作为标准的预设唤醒词对应的唤醒词特征向量。

进一步的，所述判断所述第一识别结果是否为预设唤醒词，并判断所述第二识别结果与唤醒词特征向量之间的第三特征向量距离是否大于距离阈值的步骤之后，包括：

A8:若所述第一识别结果为预设唤醒词，且所述第二识别结果与唤醒词特征向量之间的第三特征向量距离小于距离阈值，则判定所述语音数据满足唤醒条件，并唤醒硬件设备。

本实施例中，如果第一识别结果为预设唤醒词，且第二识别结果与唤醒词特征向量之间的第三特征向量距离小于距离阈值，则经由第二识别结果的条件判断（即判断第二识别结果与唤醒词特征向量之间的第三特征向量距离是否大于距离阈值）所得到的结果，说明了当前次的语音数据与预设唤醒词具有较高的相似度，从而证明了第一识别结果具有较高的置信度。因此，检测系统判定语音数据满足硬件设备的唤醒条件，并据此唤醒硬件设备，以便硬件设备处理执行后续动作。

参照图4，本申请一实施例中还提供了一种语音唤醒模型的训练装置，包括：

第一获取模块1，用于获取训练语料，所述训练语料包括正样本语料和负样本语料，所述负样本语料包括基础样本语料和困难样本语料，所述困难样本语料为预设唤醒词的相近音词汇语料；

输入模块2，用于将所述训练语料输入神经网络进行模型训练，其中，所述神经网络包括基础网络、分类层和嵌入层，所述分类层的输入与所述基础网络最后一层的输出相连接，所述嵌入层的输入与所述基础网络最后一层的输出相连接；

第一训练模块3，用于在模型训练过程中，使用所述训练语料对所述基础网络和所述分类层进行一次模型训练，迭代更新所述基础网络和所述分类层的网络参数，直至模型收敛，得到初始唤醒模型；

第二训练模块4，用于使用所述正样本语料、所述困难样本语料对所述初始识别模型的基础网络和所述嵌入层进行二次模型训练，所述二次模型训练使用类别间的相似度函数，迭代更新所述嵌入层的网络参数，直至模型收敛，得到语音唤醒模型。

进一步的，所述第二训练模块4，包括：

筛选单元，用于从所述正样本语料中筛选第一正样本语音和第二正样本语音，以及从所述困难样本语料中筛选一个困难样本语音，组成同一批次的训练数据输入所述初始识别模型的基础网络和所述嵌入层进行所述二次模型训练；

计算单元，用于根据所述相似度函数计算所述第一正样本语音和所第二正样本语音之间的第一特征向量距离，以及计算所述第一正样本语音与所述困难样本语音之间的第二特征向量距离；

循环单元，用于循环筛选单元、计算单元对应的方法步骤，直至同一批次的训练数据对应的所述第一特征向量减去所述第二特征向量距离后的距离差值不再下降，则判定模型收敛，得到所述语音唤醒模型。

进一步的，所述训练装置，还包括：

第一筛选模块5，用于调取开源测试数据集，并使用通用语音分类网络对所述开源测试数据集进行识别处理，筛选得到第一相近语音样本；

第二筛选模块6，用于从通用词汇文本中筛选与预设唤醒词的唤醒词文本的音素重叠度大于比例阈值的误识别词汇文本，并获取所述误识别词汇文本的语音数据，得到第二相近语音样本；

构建模块7，用于根据所述第一相近语音样本和/或所述第二相近语音样本，构建所述困难样本语料。

本实施例中，语音唤醒模型的训练装置中各模块、单元用于对应执行与上述语音唤醒模型的训练方法中的各个步骤，其具体实施过程在此不做详述。

本实施例提供的一种语音唤醒模型的训练装置，模型训练时，首先获取训练语料，训练语料包括正样本语料和负样本语料，负样本语料包括基础样本语料和困难样本语料，困难样本语料为预设唤醒词的相近音词汇语料。然后将训练语料输入神经网络进行模型训练，其中，神经网络包括基础网络、分类层和嵌入层，分类层的输入与基础网络最后一层的输出相连接，嵌入层的输入与基础网络最后一层的输出相连接。在模型训练过程中，使用训练语料对基础网络和分类层进行一次模型训练，迭代更新基础网络和分类层的网络参数，直至模型收敛，得到初始唤醒模型。再使用正样本、困难样本语料对初始识别模型的基础网络和嵌入层进行二次模型训练，二次模型训练使用类别间的相似度函数，迭代更新嵌入层的网络参数，直至模型收敛，得到语音唤醒模型。本实施例在模型训练阶段，基础网络和分类层为现有语音唤醒模型的识别网络结构，而嵌入层作为一个新的插件加入到原有的识别网络结构中，从而不需要改变原有识别网络结构的框架，易于扩展。

参照图5，本申请一实施例中还提供了一种语音误唤醒的检测装置，包括：

采集模块8，用于采集语音数据；

识别模块9，用于将所述语音数据输入语音唤醒模型进行处理，分别得到第一识别结果和第二识别结果，其中，所述语音唤醒模型由上述的音唤醒模型的训练方法训练得到，所述第一识别结果为所述语音唤醒模型中所述分类层的输出，所述第二识别结果为所述语音唤醒模型中所述嵌入层的输出；

判断模块10，用于判断所述第一识别结果是否为预设唤醒词，并判断所述第二识别结果与唤醒词特征向量之间的第三特征向量距离是否大于距离阈值；

判定模块11，用于若所述第一识别结果不是所述预设唤醒词，和/或所述第二识别结果与唤醒词特征向量之间的第三特征向量距离大于距离阈值，则判定所述语音数据不满足唤醒条件。

进一步的，所述检测装置，还包括：

第二获取模块12，用于获取多个唤醒词语音，各所述唤醒词语音分别由不同的用户输出，单个所述用户输出至少一个所述唤醒词语音；

映射模块13，用于对各所述唤醒词语音进行映射处理，得到各所述唤醒词语音各自对应的词汇特征向量；

求均模块14，用于对各所述词汇特征向量做求均计算，得到所述唤醒词特征向量。

进一步的，所述检测装置，还包括：

唤醒模块15，用于若所述第一识别结果为预设唤醒词，且所述第二识别结果与唤醒词特征向量之间的第三特征向量距离小于距离阈值，则判定所述语音数据满足唤醒条件，并唤醒硬件设备。

本实施例中，语音误唤醒的检测装置中各模块用于对应执行与上述语音误唤醒的检测方法中的各个步骤，其具体实施过程在此不做详述。

本实施例提供的一种语音误唤醒的检测装置，模型应用时，首先采集语音数据，然后将语音数据输入语音唤醒模型进行处理，分别得到第一识别结果和第二识别结果，其中，第一识别结果为语音唤醒模型中分类层的输出，第二识别结果为语音唤醒模型中嵌入层的输出。判断第一识别结果是否为预设唤醒词，并判断第二识别结果与唤醒词特征向量之间的第三特征向量距离是否大于距离阈值。如果第一识别结果不是预设唤醒词，和/或第二识别结果与唤醒词特征向量之间的第三特征向量距离大于距离阈值，则判定语音数据不满足唤醒条件。本实施例在模型应用阶段，通过基础网络和分类层输出的第一识别结果保证基础的唤醒准确度；在此基础上，增加基础网络和嵌入层输出的第二识别结果与唤醒词特征向量之间的向量距离判断，从而识别语音唤醒模型当前次的识别结果与预设唤醒词之间的相似度是否达到预设条件，从而提升语音唤醒模型整体对相近音的识别准确度，有效降低了误唤醒率。

参照图6，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储训练语料等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音唤醒模型的训练方法和一种语音误唤醒的检测方法。

上述处理器执行上述语音唤醒模型的训练方法的步骤：

进一步的，所述获取训练语料的步骤之前，包括：

上述处理器执行上述语音唤醒模型的训练方法的步骤：

A1:采集语音数据；

进一步的，所述采集语音数据的步骤之前，包括：

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种语音唤醒模型的训练方法和一种语音误唤醒的检测方法，所述语音唤醒模型的训练方法具体为：

进一步的，所述获取训练语料的步骤之前，包括：

所述语音误唤醒的检测方法具体为：

A1:采集语音数据；

进一步的，所述采集语音数据的步骤之前，包括：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储与一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM通过多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双速据率SDRAM（SSRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink）DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、第一物体或者方法不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、装置、第一物体或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、第一物体或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种语音唤醒模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的语音唤醒模型的训练方法，其特征在于，所述使用所述正样本语料、所述困难样本语料对所述初始识别模型的基础网络和所述嵌入层进行二次模型训练，所述二次模型训练使用类别间的相似度函数，迭代更新所述嵌入层的网络参数，直至模型收敛，得到语音唤醒模型的步骤，包括：

3.根据权利要求1所述的语音唤醒模型的训练方法，其特征在于，所述获取训练语料的步骤之前，包括：

调取开源测试数据集，并使用通用语音分类网络对所述开源测试数据集进行识别处理，筛选得到第一相近语音样本；

和/或，从通用词汇文本中筛选与预设唤醒词的唤醒词文本的音素重叠度大于比例阈值的误识别词汇文本，并获取所述误识别词汇文本的语音数据，得到第二相近语音样本；

根据所述第一相近语音样本和/或所述第二相近语音样本，构建所述困难样本语料。

4.一种语音误唤醒的检测方法，其特征在于，包括：

采集语音数据；

将所述语音数据输入语音唤醒模型进行处理，分别得到第一识别结果和第二识别结果，其中，所述语音唤醒模型由权利要求1—3任一所述的音唤醒模型的训练方法训练得到，所述第一识别结果为所述语音唤醒模型中所述分类层的输出，所述第二识别结果为所述语音唤醒模型中所述嵌入层的输出；

5.根据权利要求4所述的语音误唤醒的检测方法，其特征在于，所述采集语音数据的步骤之前，包括：

获取多个唤醒词语音，各所述唤醒词语音分别由不同的用户输出，单个所述用户输出至少一个所述唤醒词语音；

对各所述唤醒词语音进行映射处理，得到各所述唤醒词语音各自对应的词汇特征向量；

对各所述词汇特征向量做求均计算，得到所述唤醒词特征向量。

6.根据权利要求4所述的语音误唤醒的检测方法，其特征在于，所述判断所述第一识别结果是否为预设唤醒词，并判断所述第二识别结果与唤醒词特征向量之间的第三特征向量距离是否大于距离阈值的步骤之后，包括：

若所述第一识别结果为预设唤醒词，且所述第二识别结果与唤醒词特征向量之间的第三特征向量距离小于距离阈值，则判定所述语音数据满足唤醒条件，并唤醒硬件设备。

7.一种语音唤醒模型的训练装置，其特征在于，包括：

8.一种语音误唤醒的检测装置，其特征在于，包括：

采集模块，用于采集语音数据；

识别模块，用于将所述语音数据输入语音唤醒模型进行处理，分别得到第一识别结果和第二识别结果，其中，所述语音唤醒模型由权利要求1—3任一所述的音唤醒模型的训练方法训练得到，所述第一识别结果为所述语音唤醒模型中所述分类层的输出，所述第二识别结果为所述语音唤醒模型中所述嵌入层的输出；

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。