CN114360521B

CN114360521B - 语音识别模型的训练方法、语音误识别的检测方法及设备

Info

Publication number: CN114360521B
Application number: CN202210223449.9A
Authority: CN
Inventors: 李�杰; 王广新; 杨汉丹
Original assignee: Shenzhen Youjie Zhixin Technology Co ltd
Current assignee: Shenzhen Youjie Zhixin Technology Co ltd
Priority date: 2022-03-09
Filing date: 2022-03-09
Publication date: 2022-08-19
Anticipated expiration: 2042-03-09
Also published as: CN114360521A

Abstract

本申请提供了一种语音识别模型的训练方法、语音误识别的检测方法及设备，在模型训练阶段，基础网络和分类层为现有的识别网络结构，嵌入层作为一个新的插件加入到原有的识别网络结构中，不需要改变原有识别网络结构的框架，易于扩展。且二次模型训练是针对同类、非同类的相似度学习，因此语音识别模型对未见过的样本同样具有识别能力，泛化能力强。在模型应用阶段，通过基础网络和分类层输出的第一识别结果保证基础的识别准确度；并增加第二识别结果与关键词特征向量、非关键词特征向量之间各自对应的特征向量比较，从而判断语音识别模型当前次的识别结果是否更接近预设关键词，以此作为第一识别结果的置信度的判断条件，有效降低了误唤醒率。

Description

语音识别模型的训练方法、语音误识别的检测方法及设备

技术领域

本申请涉及语音识别技术领域，特别涉及一种语音识别模型的训练方法、语音误识别的检测方法及设备。

背景技术

唤醒词、命令词识别技术在应用时，可以实时监测用户的语音，并在检测到特定词汇时作出相应的反馈（比如检测到唤醒词时唤醒设备）。而在实际应用中，经常会出现相近音、相似音误识别、误唤醒的情况，即用户语音的发音接近唤醒词时，有一定概率被误识别，从而误唤醒设备；此类误识别、误唤醒的情况会给用户带来非常不好的使用体验。现有针对相近音误唤醒的处理，通常是在训练数据中加入负样本，以此来提升训练后的语音识别模型对相近音词汇的识别能力，但这种处理方法，在出现新的相近音时，需要使用新的相近音重新训练语音识别模型，重新训练后的语音识别模型才具备识别新的相近音的能力，方法繁琐，且成本较高。

发明内容

本申请的主要目的为提供一种语音识别模型的训练方法、语音误识别的检测方法及设备，旨在解决现有为解决新的相近音误唤醒需要重新训练语音识别模型，成本较高的弊端。

为实现上述目的，本申请提供了一种语音识别模型的训练方法，包括：

获取第一训练语料和第二训练语料，所述第一训练语料包括预设关键词正样本语料和第一负样本语料，所述第二训练语料包括预设关键词正样本语料、开源命令词正样本语料和第二负样本语料；

将所述第一训练语料和所述第二训练语料按照各自对应阶段依次输入神经网络进行模型训练，其中，所述神经网络包括基础网络、分类层和嵌入层，所述分类层的输入与所述基础网络最后一层的输出相连接，所述嵌入层的输入与所述基础网络最后一层的输出相连接；

在模型训练过程中，使用所述第一训练语料对所述基础网络和所述分类层进行一次模型训练，迭代更新所述基础网络和所述分类层的网络参数，直至模型收敛，得到初始识别模型；

使用所述第二训练语料对所述初始识别模型的基础网络和所述嵌入层进行二次模型训练，所述二次模型训练使用类别间的相似度函数，迭代更新所述嵌入层的网络参数，直至模型收敛，得到语音识别模型。

本申请还提供了一种语音误识别的检测方法，包括：

采集语音数据；

将所述语音数据输入语音识别模型进行处理，分别得到第一识别结果和第二识别结果，其中，所述语音识别模型由如上所述的音唤醒模型的训练方法训练得到，所述第一识别结果为所述语音识别模型中所述分类层的输出，所述第二识别结果为所述语音识别模型中所述嵌入层的输出；

判断所述第一识别结果是否为预设关键词，并判断所述第二识别结果与关键词特征向量之间的第一特征向量距离，是否大于所述第二识别结果与非关键词特征向量之间的第二特征向量距离；

若所述第一识别结果不是所述预设关键词，和/或所述第一特征向量距离大于所述第二特征向量距离，则判定所述语音数据不满足识别条件。

本申请还提供了一种语音识别模型的训练装置，包括：

第一获取模块，用于获取第一训练语料和第二训练语料，所述第一训练语料包括预设关键词正样本语料和第一负样本语料，所述第二训练语料包括预设关键词正样本语料、开源命令词正样本语料和第二负样本语料；

输入模块，用于将所述第一训练语料和所述第二训练语料按照各自对应阶段依次输入神经网络进行模型训练，其中，所述神经网络包括基础网络、分类层和嵌入层，所述分类层的输入与所述基础网络最后一层的输出相连接，所述嵌入层的输入与所述基础网络最后一层的输出相连接；

第一训练模块，用于在模型训练过程中，使用所述第一训练语料对所述基础网络和所述分类层进行一次模型训练，迭代更新所述基础网络和所述分类层的网络参数，直至模型收敛，得到初始识别模型；

第二训练模块，用于使用所述第二训练语料对所述初始识别模型的基础网络和所述嵌入层进行二次模型训练，所述二次模型训练使用类别间的相似度函数，迭代更新所述嵌入层的网络参数，直至模型收敛，得到语音识别模型。

本申请还提供了一种语音误识别的检测装置，包括：

采集模块，用于采集语音数据；

识别模块，用于将所述语音数据输入语音识别模型进行处理，分别得到第一识别结果和第二识别结果，其中，所述语音识别模型由如上所述的音唤醒模型的训练方法训练得到，所述第一识别结果为所述语音识别模型中所述分类层的输出，所述第二识别结果为所述语音识别模型中所述嵌入层的输出；

判断模块，用于判断所述第一识别结果是否为预设关键词，并判断所述第二识别结果与关键词特征向量之间的第一特征向量距离，是否大于所述第二识别结果与非关键词特征向量之间的第二特征向量距离；

判定模块，用于若所述第一识别结果不是所述预设关键词，和/或所述第一特征向量距离大于所述第二特征向量距离，则判定所述语音数据不满足识别条件。

本申请还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请中提供的一种语音识别模型的训练方法、语音误识别的检测方法及设备，模型训练时，首先获取第一训练语料和第二训练语料，其中，第一训练语料包括预设关键词正样本语料和第一负样本语料，第二训练语料包括预设关键词正样本语料、开源命令词正样本语料和第二负样本语料。然后将第一训练语料和第二训练语料按照各自对应阶段依次输入神经网络进行模型训练，其中，神经网络包括基础网络、分类层和嵌入层，分类层的输入与基础网络最后一层的输出相连接，嵌入层的输入与基础网络最后一层的输出相连接。在模型训练过程中，使用第一训练语料对基础网络和分类层进行一次模型训练，迭代更新基础网络和分类层的网络参数，直至模型收敛，得到初始识别模型。再使用第二训练语料对初始识别模型的基础网络和嵌入层进行二次模型训练，二次模型训练使用类别间的相似度函数，迭代更新嵌入层的网络参数，直至模型收敛，得到语音识别模型。模型应用时，首先采集语音数据，然后将语音数据输入语音识别模型进行处理，分别得到第一识别结果和第二识别结果，其中，第一识别结果为语音识别模型中分类层的输出，第二识别结果为语音识别模型中嵌入层的输出。判断第一识别结果是否为预设关键词，并判断第二识别结果与关键词特征向量之间的第一特征向量距离，是否大于第二识别结果与非关键词特征向量之间的第二特征向量距离。若第一识别结果不是预设关键词，和/或第一特征向量距离大于第二特征向量距离，则判定语音数据不满足识别条件。本申请在模型训练阶段，基础网络和分类层为现有的识别网络结构，而嵌入层作为一个新的插件加入到原有的识别网络结构中，不需要改变原有识别网络结构的框架，易于扩展。并且，二次模型训练主要是针对同类、非同类的相似度学习，训练完成后的语音识别模型对未见过的样本同样具有识别能力，泛化能力强。在模型应用阶段，通过基础网络和分类层输出的第一识别结果保证基础的识别准确度；在此基础上，增加第二识别结果与关键词特征向量、非关键词特征向量之间各自对应的特征向量比较，从而判断语音识别模型当前次的识别结果是否更接近预设关键词，以此作为第一识别结果的置信度的判断条件，有效提升语音识别模型整体对预设关键词的识别准确度，有效降低了误唤醒率。

附图说明

图1是本申请一实施例中语音识别模型的训练方法的步骤示意图；

图2是本申请一实施例中语音误识别的检测方法的步骤示意图；

图3是本申请一实施例中语音识别模型的训练装置的整体结构框图；

图4是本申请一实施例中语音误识别的检测装置的整体结构框图；

图5是本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请一实施例中提供了一种语音识别模型的训练方法，包括：

S1:获取第一训练语料和第二训练语料，所述第一训练语料包括预设关键词正样本语料和第一负样本语料，所述第二训练语料包括预设关键词正样本语料、开源命令词正样本语料和第二负样本语料；

S2:将所述第一训练语料和所述第二训练语料按照各自对应阶段依次输入神经网络进行模型训练，其中，所述神经网络包括基础网络、分类层和嵌入层，所述分类层的输入与所述基础网络最后一层的输出相连接，所述嵌入层的输入与所述基础网络最后一层的输出相连接；

S3:在模型训练过程中，使用所述第一训练语料对所述基础网络和所述分类层进行一次模型训练，迭代更新所述基础网络和所述分类层的网络参数，直至模型收敛，得到初始识别模型；

S4:使用所述第二训练语料对所述初始识别模型的基础网络和所述嵌入层进行二次模型训练，所述二次模型训练使用类别间的相似度函数，迭代更新所述嵌入层的网络参数，直至模型收敛，得到语音识别模型。

本实施例中，训练系统首先调取预先构建的第一训练语料和第二训练语料，第一训练语料包括预设关键词正样本语料（即预设关键词的语音数据）和第一负样本语料（即非预设关键词的语音数据），比如预设关键词为“小爱”，则预设关键词正样本语料为预设关键词“小爱”的各个语音数据，而第一负样本语料则可以是“小艺”这类相近音词汇的语音数据，也可以是“天气”这类毫不相关的语音数据；第二训练语料包括预设关键词正样本语料（即预设关键词的语音数据，比如“小爱”）、开源命令词正样本语料（现有开源的唤醒词、命令词语音数据，比如出门问问的“你好问问”、“嗨小问”，希尔贝壳的“你好米雅”等）以及第二负样本语料（比如“天气”这类与预设关键词“小爱”毫不相关的语音数据）。训练系统将第一训练语料和第二训练语料按照各自对应阶段依次输入神经网络进行模型训练，其中，第一训练语料对应一次模型训练，第二训练语料对应二次模型训练，神经网络包括基础网络、分类层和嵌入层，分类层的输入与基础网络最后一层的输出相连接（基础网络+分类层与现有的分类模型的网络结构相同），嵌入层的输入与基础网络最后一层的输出相连接。embed层（即嵌入层）的设计可以是fc层（全连接层），也可以是cnn层，优选为3个cnn 层+ 1个fc层，也可以是其他网络结构设计，在此不做限定，其作用是将音频特征映射到embed空间，映射后的特性向量（比如48维的特征向量）在此空间进行相同类和不同类的聚类学习。本实施例的语音识别模型的训练分为两个阶段，在第一阶段，训练系统使用第一训练语料（即预设关键词正样本语料结合第一负样本语料）对基础网络和分类层进行一次模型训练，并迭代更新基础网络和分类层的网络参数，直至模型收敛，基础网络和分类层的网络参数稳定，得到初始识别模型（一次模型训练与通常的分类模型的训练逻辑相同，在此不做赘述）。在基础网络的网络参数稳定后进行第二阶段的模型训练，训练系统使用第二训练语料对初始识别模型的基础网络和嵌入层进行二次模型训练，二次模型训练使用类别间的相似度函数，迭代更新嵌入层的网络参数，直至模型收敛，得到语音识别模型。具体地，训练系统从第二训练语料中随机选择第一预设数量个类别的样本语料，并从各个类别的样本语料中分别随机选择第二预设数量个第一样本语料作为支持集，以及选择第三预设数量个第二样本语料作为查询集；其中，第二预设数量小于第三预设数量，且第二预设数量和第三预设数量的总和等于当前次选择的一个类别的样本语料的总数量。训练系统将各个支持集和各个查询集作为同一批次的训练数据输入始识别模型的基础网络和嵌入层进行二次模型训练，首先根据各个支持集构建各个类别的样本语料各自对应的模板特征向量，并分别计算各个查询集的各个第二样本语料对应的样本特征向量与各模板特征向量之间的特征向量距离（比如通过欧式距离计算公式计算两个特征向量之间的特征向量距离），其中，单个样本特征向量对应第一预设数量个特征向量距离。然后，分别对各个样本特征向量各自对应的所有特征向量距离做归一化处理，得到各个样本特征向量各自对应的第一loss值。训练系统对各个第一loss值做求均计算，得到当前次的同一批次的训练数据对应的第二loss值。训练系统循环步骤S401—S404，并在循环迭代过程中更新嵌入层的网络参数，直至分类准确率不再上升，或者在预设训练次数内第二loss值不再下降，则判定模型收敛，得到语音识别模型。

本实施例中，语音识别模型的基础网络和分类层为现有的识别网络结构，而嵌入层作为一个新的插件加入到原有的识别网络结构中，不需要改变原有识别网络结构的框架，易于扩展。并且，二次模型训练主要是针对同类、非同类的相似度学习，训练完成后的语音识别模型对未见过的样本同样具有识别能力，泛化能力强。

进一步的，所述使用所述第二训练语料对所述初始识别模型的基础网络和所述嵌入层进行二次模型训练，所述二次模型训练使用类别间的相似度函数，迭代更新所述嵌入层的网络参数，直至模型收敛，得到语音识别模型的步骤，包括：

S401:从所述第二训练语料中随机选择第一预设数量个类别的样本语料，并从各所述类别的样本语料中分别随机选择第二预设数量个第一样本语料作为支持集，以及选择第三预设数量个第二样本语料作为查询集，其中，所述第二预设数量小于所述第三预设数量，所述第二预设数量和所述第三预设数量的总和等于当前次选择的一个类别的样本语料的总数量；

S402:将各所述支持集和各所述查询集作为同一批次的训练数据输入所述初始识别模型的基础网络和所述嵌入层进行二次模型训练；

S403:根据各所述支持集构建各所述类别的样本语料各自对应的模板特征向量，并分别计算各所述查询集的各个第二样本语料对应的样本特征向量与各所述模板特征向量之间的特征向量距离，其中，单个所述样本特征向量对应所述第一预设数量个所述特征向量距离；

S404:分别对各所述样本特征向量各自对应的所有特征向量距离做归一化处理，得到各所述样本特征向量分别对应的第一loss值；

S405:对各所述第一loss值做求均计算，得到所述同一批次的训练数据对应的第二loss值；

S406:循环步骤S401—S405，直至分类准确率不再上升，或者在预设训练次数内所述第二loss值不再下降，则判定模型收敛，得到所述语音识别模型。

本实施例中，在一个batch训练时，训练系统从第二训练语料中随机选择第一预设数量个类别的样本语料，并从各个类别的样本语料中分别随机选择第二预设数量个第一样本语料作为支持集，以及选择第三预设数量个第二样本语料作为查询集；其中，第二预设数量小于第三预设数量，且第二预设数量和第三预设数量的总和等于当前次选择的一个类别的样本语料的总数量。比如，开源命令词正样本语料总共有35个类别（单个开源命令词对应一个类别，比如开源命令词“你好问问”的所有语音数据作为一个类别，开源命令词“你好米雅”作为另一个类别），预设关键词正样本语料为一个类别，第二负样本语料作为一个类别（也可作为未知类或其他类），即第二训练语料总共包含37个类别的样本语料。假设第一预设数量为6，第二预设数量为5，第三预设数量为15，训练系统随机从37个类别的样本语料中随机筛选出6个类别的样本语料（可以全部是开源命令词正样本语料，也可以是混合有预设关键词正样本语料、开源命令词正样本语料、第二负样本语料），每个类别的样本语料均从中随机选择20个样本语料，其中随机选择5个第一样本语料作为支持集，剩下的15个第二样本语料作为查询集。训练系统将各个支持集和各个查询集作为同一批次的训练数据（同一批次的训练数据包括第一预设数量个支持集和第一预设数量个查询集，单个支持集包含第二预设数量个第一样本语料，单个查询集包含第三预设数量个第二样本语料）输入初始识别模型的基础网络和嵌入层进行二次模型训练，支持集中的各个第一样本语料，经过分类的基础网络+embed网络后映射的特征向量做一个平均，作为此类别的模板特征向量（模板特征向量表征该类别样本语料的聚类中心）。训练系统分别计算各个查询集的各个第二样本语料对应的样本特征向量（低于样本语料经过分类的基础网络+embed网络后映射为样本特征向量）与各个模板特征向量之间的特征向量距离，即单个样本特征向量对应第一预设数量个特征向量距离（比如上述举例有6个支持集，即对应有6个模板特征向量，单个第二训练语料需要分别计算与这6个模板特征向量之间的特征向量距离，因此单个样本特征向量对应有6个特征向量距离）。训练系统分别对各个样本特征向量各自对应的所有特征向量距离做归一化处理（比如softmax处理）归一化处理后的值即为各个样本特征向量各自对应的第一loss值。训练系统统计所有第一loss值的总和，再根据该总和做求均计算，从而得到当前次的同一批次的训练数据对应的第二loss值（即一个batch训练的第二loss 值是对所有查询集中第二样本语料的第一loss值的平均值）。训练系统循环步骤S401—S404，直至分类准确率（分类准确率的计算为：当查询集的第二样本语料跟模板特性向量的距离最近的类别为正确类别时，正确计数+1，否则错误计数加1，准确率为：正确数/（正确数+错误数））不再上升，或者在预设训练次数（比如1000次）内第二loss值不再下降，则判定模型收敛，得到所述语音识别模型。

进一步的，所述根据各所述支持集构建各所述类别的样本语料各自对应的模板特征向量的步骤中，单个所述类别的样本语料对应的模板特征向量的构建步骤，包括：

S40301:将所述支持集中各所述第一样本语料依次通过所述初始识别模型的基础网络和所述嵌入层的处理，分别映射为各自对应的支持集样本特征向量；

S40302:对各所述支持集样本特征向量做求均计算，得到所述模板特征向量。

本实施例中，各个类别的样本语料对应的模板特征向量的构建逻辑相同，在此以单个类别的样本语料对应的模板特征向量的构建过程为例进行具体说明。训练系统将单个支持集中各个第一样本语料依次通过初始识别模型的基础网络和嵌入层的处理，各个第一样本语料分别映射为各自对应的支持集样本特性向量。然后，训练系统对各个支持集样本特征向量做求均计算，计算所得的平均值即为该支持集对应的类别的模板特征向量。

参照图2，本申请一实施例中还提供了一种语音误识别的检测方法，包括：

A1:采集语音数据；

A2:将所述语音数据输入语音识别模型进行处理，分别得到第一识别结果和第二识别结果，其中，所述语音识别模型由如上所述的音唤醒模型的训练方法训练得到，所述第一识别结果为所述语音识别模型中所述分类层的输出，所述第二识别结果为所述语音识别模型中所述嵌入层的输出；

A3:判断所述第一识别结果是否为预设关键词，并判断所述第二识别结果与关键词特征向量之间的第一特征向量距离，是否大于所述第二识别结果与非关键词特征向量之间的第二特征向量距离；

A4:若所述第一识别结果不是所述预设关键词，和/或所述第一特征向量距离大于所述第二特征向量距离，则判定所述语音数据不满足识别条件。

本实施例中，上述语音识别模型训练完成后部署在语音识别设备上，语音识别设备的检测系统在采集用户有意或无意输出的语音数据后，将该语音数据输入语音识别模型进行相应处理，经语音识别模型的基础网络和分类层执行分类任务后，输出第一识别结果；并经语音识别模型的基础网络和嵌入层执行映射任务后，输出第二识别结果，第二识别结果具体为语音数据对应的词汇的特征向量，定义为识别词特征向量。检测系统判断第一识别结果是否为预设唤醒词；并获取第二识别结果（即识别词特征向量）与关键词特征向量（即预设关键词对应的模板特征向量）之间的第一特征向量距离，以及第二识别结果与非关键词特征向量之间的第二特征向量距离，然后判断第一特征向量距离是否大于第二特征向量距离。如果第一识别结果不是预设关键词，和/或第一特征向量距离大于第二特征向量距离（说明当前次的语音数据所包含的命令词与非关键词的类别更接近，进而说明第一识别结果的置信度较低），则判定当前次的语音数据不满足识别条件，语音识别设备不执行任何指令动作。

本实施例中，检测系统通过基础网络和分类层输出的第一识别结果保证基础的识别准确度；在此基础上，增加第二识别结果与关键词特征向量、非关键词特征向量之间各自对应的特征向量比较，从而判断语音识别模型当前次的识别结果是否更接近预设关键词，以此作为第一识别结果的置信度的判断条件，有效提升语音识别模型整体对预设关键词的识别准确度，有效降低了误唤醒率。在需要增加新的易误识别的词汇时，只需将易误识别的词汇设作为非关键词特征向量录入检测系统即可，不需要重新训练语音识别模型。

进一步的，所述采集语音数据的步骤之前，包括：

A5:获取多个关键词音频；

A6:将各所述关键词音频映射为各自对应的词汇特征向量，并对各所述词汇特性向量做聚类处理，得到若干个类别的词汇特征向量集，单个所述词汇特征向量集包含若干个所述词汇特征向量；

A7:分别对各所述词汇特征向量集做求均计算，得到各所述词汇特征向量集各自对应的平均特征向量；

A8:选择各所述平均特征向量作为所述关键词特征向量。

本实施例中，检测系统采集多个关键词音频（即预设关键词的语音数据），然后将各个关键词音频映射为各自对应的词汇特征向量（优选使用语音识别模型的基础网络和嵌入层将关键词音频映射为特征向量，得到词汇特征向量）。检测系统对各个词汇特征向量做聚类处理，得到若干个类别的词汇特征向量集（一个预设关键词并非只能有一个模板（可能是因为口音不同等原因导致的），若在特征空间映射后，其聚类有若干聚类中心，比如有2个聚类中心，可选取2个模板，比如“小蓝小蓝1”、“小蓝小蓝2”，均为预设关键词“小蓝小蓝”的模板），单个词汇特征向量集包含若干个词汇特征向量（单个词汇特征向量集中所有的词汇特征向量属于同一类别）。检测系统对词汇特征向量集中所有的词汇特征向量做求均计算，所得的平均值即为该词汇特征向量集对应的平均特征向量。检测系统选择各个词汇特征向量集各自对应的平均特征向量作为关键词特征向量，即上述举例中“小蓝小蓝1”、“小蓝小蓝2”对应平均特征向量，但均可以作为预设关键词“小蓝小蓝”的模板，即关键词特征向量。

优选的，非关键词特征特征向量的构建逻辑与关键词特征向量的构建逻辑相同，区别只在于非关键词特征特征向量构建时选用的语料为非关键词语音数据；而针对常见的易误识别的词汇，可在线进行添加。优选的，易被误识别的词汇，可每个词汇制作成对应独立的模板，也可多个词汇组合制作成一个模板，具体根据实际算力和准确度进行均衡，在此不做具体限制。

进一步的，所述判断所述第一识别结果是否为预设关键词，并判断所述第二识别结果与关键词特征向量之间的第一特征向量距离，是否大于所述第二识别结果与非关键词特征向量之间的第二特征向量距离的步骤之后，包括：

A9:若所述第一识别结果为所述预设关键词，且所述第一特征向量距离小于所述第二特征向量距离，则判定所述语音数据满足所述识别条件，并执行与所述预设关键词对应的指令动作。

本实施例中，如果第一识别结果为预设关键词，并且第一特征向量小于第二特征向量距离，则说明相对于非关键词，当前次的语音数据所包含的命令词更加靠近预设关键词，进而说明第一识别结果的置信度较高，排除第一识别结果为误识别的可能性。因此，检测系统判定当前次的预设数据满足预设的识别条件，并执行与预设关键词对应的指令动作，比如唤醒语音识别设备，或者控制语音识别设备播放音乐等。

参照图3，本申请一实施例中还提供了一种语音识别模型的训练装置，包括：

第一获取模块1，用于获取第一训练语料和第二训练语料，所述第一训练语料包括预设关键词正样本语料和第一负样本语料，所述第二训练语料包括预设关键词正样本语料、开源命令词正样本语料和第二负样本语料；

输入模块2，用于将所述第一训练语料和所述第二训练语料按照各自对应阶段依次输入神经网络进行模型训练，其中，所述神经网络包括基础网络、分类层和嵌入层，所述分类层的输入与所述基础网络最后一层的输出相连接，所述嵌入层的输入与所述基础网络最后一层的输出相连接；

第一训练模块3，用于在模型训练过程中，使用所述第一训练语料对所述基础网络和所述分类层进行一次模型训练，迭代更新所述基础网络和所述分类层的网络参数，直至模型收敛，得到初始识别模型；

第二训练模块4，用于使用所述第二训练语料对所述初始识别模型的基础网络和所述嵌入层进行二次模型训练，所述二次模型训练使用类别间的相似度函数，迭代更新所述嵌入层的网络参数，直至模型收敛，得到语音识别模型。

进一步的，所述第二训练模块4，包括：

选择单元，用于从所述第二训练语料中随机选择第一预设数量个类别的样本语料，并从各所述类别的样本语料中分别随机选择第二预设数量个第一样本语料作为支持集，以及选择第三预设数量个第二样本语料作为查询集，其中，所述第二预设数量小于所述第三预设数量，所述第二预设数量和所述第三预设数量的总和等于当前次选择的一个类别的样本语料的总数量；

输入单元，用于将各所述支持集和各所述查询集作为同一批次的训练数据输入所述初始识别模型的基础网络和所述嵌入层进行二次模型训练；

第一计算单元，用于根据各所述支持集构建各所述类别的样本语料各自对应的模板特征向量，并分别计算各所述查询集的各个第二样本语料对应的样本特征向量与各所述模板特征向量之间的特征向量距离，其中，单个所述样本特征向量对应所述第一预设数量个所述特征向量距离；

处理单元，用于分别对各所述样本特征向量各自对应的所有特征向量距离做归一化处理，得到各所述样本特征向量分别对应的第一loss值；

第二计算单元，用于对各所述第一loss值做求均计算，得到所述同一批次的训练数据对应的第二loss值；

循环单元，用于循环选择单元、输入单元、第一计算单元、处理单元和第二计算单元对应的步骤，直至分类准确率不再上升，或者在预设训练次数内所述第二loss值不再下降，则判定模型收敛，得到所述语音识别模型。

进一步的，所述第一计算模块，包括：

映射子单元，用于将所述支持集中各所述第一样本语料依次通过所述初始识别模型的基础网络和所述嵌入层的处理，分别映射为各自对应的支持集样本特征向量；

计算子单元，用于对各所述支持集样本特征向量做求均计算，得到所述模板特征向量。

本实施例中，语音识别模型的训练装置中各模块、单元、子单元用于对应执行与上述语音识别模型的训练方法中的各个步骤，其具体实施过程在此不做详述。

本实施例提供的一种语音识别模型的训练装置，首先获取第一训练语料和第二训练语料，其中，第一训练语料包括预设关键词正样本语料和第一负样本语料，第二训练语料包括预设关键词正样本语料、开源命令词正样本语料和第二负样本语料。然后将第一训练语料和第二训练语料按照各自对应阶段依次输入神经网络进行模型训练，其中，神经网络包括基础网络、分类层和嵌入层，分类层的输入与基础网络最后一层的输出相连接，嵌入层的输入与基础网络最后一层的输出相连接。在模型训练过程中，使用第一训练语料对基础网络和分类层进行一次模型训练，迭代更新基础网络和分类层的网络参数，直至模型收敛，得到初始识别模型。本申请的基础网络和分类层为现有的识别网络结构，而嵌入层作为一个新的插件加入到原有的识别网络结构中，不需要改变原有识别网络结构的框架，易于扩展。并且，二次模型训练主要是针对同类、非同类的相似度学习，训练完成后的语音识别模型对未见过的样本同样具有识别能力，泛化能力强。

参照图4，本申请一实施例中还提供了一种语音误识别的检测装置，包括：

采集模块5，用于采集语音数据；

识别模块6，用于将所述语音数据输入语音识别模型进行处理，分别得到第一识别结果和第二识别结果，其中，所述语音识别模型由如上所述的音唤醒模型的训练方法训练得到，所述第一识别结果为所述语音识别模型中所述分类层的输出，所述第二识别结果为所述语音识别模型中所述嵌入层的输出；

判断模块7，用于判断所述第一识别结果是否为预设关键词，并判断所述第二识别结果与关键词特征向量之间的第一特征向量距离，是否大于所述第二识别结果与非关键词特征向量之间的第二特征向量距离；

判定模块8，用于若所述第一识别结果不是所述预设关键词，和/或所述第一特征向量距离大于所述第二特征向量距离，则判定所述语音数据不满足识别条件。

进一步的，所述检测装置，还包括：

第二获取模块9，用于获取多个关键词音频；

聚类模块10，用于将各所述关键词音频映射为各自对应的词汇特征向量，并对各所述词汇特性向量做聚类处理，得到若干个类别的词汇特征向量集，单个所述词汇特征向量集包含若干个所述词汇特征向量；

第二计算模块11，用于分别对各所述词汇特征向量集做求均计算，得到各所述词汇特征向量集各自对应的平均特征向量；

选择模块12，用于选择各所述平均特征向量作为所述关键词特征向量。

进一步的，所述检测装置，还包括：

执行模块13，用于若所述第一识别结果为所述预设关键词，且所述第一特征向量距离小于所述第二特征向量距离，则判定所述语音数据满足所述识别条件，并执行与所述预设关键词对应的指令动作。

本实施例中，语音误识别的检测装置中各模块用于对应执行与上述语音误识别的检测方法中的各个步骤，其具体实施过程在此不做详述。

本实施例提供的一种语音误识别的检测装置，首先采集语音数据，然后将语音数据输入语音识别模型进行处理，分别得到第一识别结果和第二识别结果，其中，第一识别结果为语音识别模型中分类层的输出，第二识别结果为语音识别模型中嵌入层的输出。判断第一识别结果是否为预设关键词，并判断第二识别结果与关键词特征向量之间的第一特征向量距离，是否大于第二识别结果与非关键词特征向量之间的第二特征向量距离。若第一识别结果不是预设关键词，和/或第一特征向量距离大于第二特征向量距离，则判定语音数据不满足识别条件。本实施例通过基础网络和分类层输出的第一识别结果保证基础的识别准确度；在此基础上，增加第二识别结果与关键词特征向量、非关键词特征向量之间各自对应的特征向量比较，从而判断语音识别模型当前次的识别结果是否更接近预设关键词，以此作为第一识别结果的置信度的判断条件，有效提升语音识别模型整体对预设关键词的识别准确度，有效降低了误唤醒率。

参照图5，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储第一训练语料等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音识别模型的训练方法和一种语音误识别的检测方法。

上述处理器执行上述语音识别模型的训练方法的步骤：

上述处理器执行上述语音误识别的检测方法的步骤：

A1:采集语音数据；

进一步的，所述采集语音数据的步骤之前，包括：

A5:获取多个关键词音频；

A8:选择各所述平均特征向量作为所述关键词特征向量。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种语音识别模型的训练方法和一种语音误识别的检测方法，所述语音识别模型的训练方法具体为：

所述语音误识别的检测方法具体为：

A1:采集语音数据；

进一步的，所述采集语音数据的步骤之前，包括：

A5:获取多个关键词音频；

A8:选择各所述平均特征向量作为所述关键词特征向量。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储与一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM通过多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双速据率SDRAM（SSRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink）DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、第一物体或者方法不仅包括那些要素，而且还包括没有明确列出的其它要素，或者是还包括为这种过程、装置、第一物体或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、第一物体或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种语音识别模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的语音识别模型的训练方法，其特征在于，所述使用所述第二训练语料对所述初始识别模型的基础网络和所述嵌入层进行二次模型训练，所述二次模型训练使用类别间的相似度函数，迭代更新所述嵌入层的网络参数，直至模型收敛，得到语音识别模型的步骤，包括：

3.根据权利要求2所述的语音识别模型的训练方法，其特征在于，所述根据各所述支持集构建各所述类别的样本语料各自对应的模板特征向量的步骤中，单个所述类别的样本语料对应的模板特征向量的构建步骤，包括：

将所述支持集中各所述第一样本语料依次通过所述初始识别模型的基础网络和所述嵌入层的处理，分别映射为各自对应的支持集样本特征向量；

对各所述支持集样本特征向量做求均计算，得到所述模板特征向量。

4.一种语音误识别的检测方法，其特征在于，包括：

采集语音数据；

将所述语音数据输入语音识别模型进行处理，分别得到第一识别结果和第二识别结果，其中，所述语音识别模型由权利要求1—3任一所述的语音识别模型的训练方法训练得到，所述第一识别结果为所述语音识别模型中所述分类层的输出，所述第二识别结果为所述语音识别模型中所述嵌入层的输出；

5.根据权利要求4所述的语音误识别的检测方法，其特征在于，所述采集语音数据的步骤之前，包括：

获取多个关键词音频；

将各所述关键词音频映射为各自对应的词汇特征向量，并对各所述词汇特征向量做聚类处理，得到若干个类别的词汇特征向量集，单个所述词汇特征向量集包含若干个所述词汇特征向量；

分别对各所述词汇特征向量集做求均计算，得到各所述词汇特征向量集各自对应的平均特征向量；

选择各所述平均特征向量作为所述关键词特征向量。

6.根据权利要求4所述的语音误识别的检测方法，其特征在于，所述判断所述第一识别结果是否为预设关键词，并判断所述第二识别结果与关键词特征向量之间的第一特征向量距离，是否大于所述第二识别结果与非关键词特征向量之间的第二特征向量距离的步骤之后，包括：

若所述第一识别结果为所述预设关键词，且所述第一特征向量距离小于所述第二特征向量距离，则判定所述语音数据满足所述识别条件，并执行与所述预设关键词对应的指令动作。

7.一种语音识别模型的训练装置，其特征在于，包括：

8.一种语音误识别的检测装置，其特征在于，包括：

采集模块，用于采集语音数据；

识别模块，用于将所述语音数据输入语音识别模型进行处理，分别得到第一识别结果和第二识别结果，其中，所述语音识别模型由权利要求1—3任一所述的语音识别模型的训练方法训练得到，所述第一识别结果为所述语音识别模型中所述分类层的输出，所述第二识别结果为所述语音识别模型中所述嵌入层的输出；

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。