CN110706691B

CN110706691B - 语音验证方法及装置、电子设备和计算机可读存储介质

Info

Publication number: CN110706691B
Application number: CN201910966752.6A
Authority: CN
Inventors: 崔凡; 李深; 雷欣; 李志飞
Original assignee: Mobvoi Information Technology Co Ltd
Current assignee: Mobvoi Information Technology Co Ltd
Priority date: 2019-10-12
Filing date: 2019-10-12
Publication date: 2021-02-09
Anticipated expiration: 2039-10-12
Also published as: CN110706691A

Abstract

本发明公开了一种语音验证方法及装置、电子设备和计算机可读存储介质，该方法包括：实时采集声音信号；提取声音信号的音频特征；将音频特征输入多分类验证模型，并通过多分类验证模型输出置信度集合，置信度集合包括非命令词置信度以及多个命令词的置信度；在置信度集合中选择最大置信度；基于最大置信度不是非命令词置信度的情况，加载最大置信度所属的目标命令词所对应的二分类验证模型；将音频特征输入二分类验证模型，并通过二分类验证模型输出目标命令词的目标置信度；基于目标置信度大于指定阈值的情况，执行与目标命令词相匹配的功能。通过本发明的技术方案，使得设备在节省电量消耗和系统资源消耗的同时，能够保证命令词检测的准确性。

Description

语音验证方法及装置、电子设备和计算机可读存储介质

技术领域

本发明涉及神经网络技术领域，尤其涉及一种语音验证方法及装置、电子设备和计算机可读存储介质。

背景技术

目前常常在语音控制中设置匹配多种命令的多种命令词，以为方便用户使用，而用于验证多种命令词的神经网络模型往往结构复杂、参数众多，其训练数据多、训练时间长，运作起来消耗的电量就会很多。

然而，对于耳机等低电量设备，模型的高复杂度和高运算量，会消耗大量电量，而若为节省电量而降低模型的复杂度，则会影响命令词识别的准确性。并且，由于低电量设备本身的运算局限性，使用高精确度的复杂模型还会造成语音唤醒的高延迟，这些均会降低设备的用户体验。

因此，如何在减少设备功耗的同时保证语音控制的准确性，成为目前亟待解决的技术问题。

发明内容

本发明提供一种语音验证方法及装置、电子设备和计算机可读存储介质，针对相关技术中低电量设备难以兼顾电量保护和语音控制的准确性的技术问题，可通过轻量模型筛选出可能的命令词后，再唤醒该命令词对应的具有高准确性的二分类验证模型。

本发明第一方面提供一种语音验证方法，包括：实时采集声音信号；提取所述声音信号的音频特征；将所述音频特征输入多分类验证模型，并通过所述多分类验证模型输出置信度集合，所述置信度集合包括非命令词置信度以及多个命令词的置信度；在所述置信度集合中选择最大置信度；基于所述最大置信度不是所述非命令词置信度的情况，加载所述最大置信度所属的目标命令词所对应的二分类验证模型；将所述音频特征输入所述二分类验证模型，并通过所述二分类验证模型输出所述目标命令词的目标置信度；基于所述目标置信度大于指定阈值的情况，执行与所述目标命令词相匹配的功能。

在本发明上述实施例中，可选地，所述提取所述声音信号的音频特征的步骤，具体包括：提取单帧声音信号的Fbank音频特征；所述将所述音频特征输入多分类验证模型的步骤，具体包括：将所述单帧声音信号的所述Fbank音频特征输入所述多分类验证模型；则所述语音验证方法还包括：基于所述最大置信度是所述非命令词置信度的情况，返回所述提取所述声音信号的音频特征的步骤，以提取所述单帧声音信号的下一帧声音信号的Fbank音频特征。

在本发明上述实施例中，可选地，在所述提取所述声音信号的音频特征的步骤之前，还包括：将所述声音信号存储至缓冲区；则所述将所述音频特征输入所述二分类验证模型的步骤，具体包括：将所述缓冲区中包括所述单帧声音信号在内的全部声音信号的音频特征输入所述二分类验证模型。

在本发明上述实施例中，可选地，还包括：根据预定命令词的长度，设置所述缓冲区的大小；则所述语音验证方法还包括：基于所述缓冲区的全部存储空间被占用的情况，删除所述缓冲区中满足指定条件的声音信号，其中，所述指定条件包括：存储时间早于指定时间或帧序号小于预定序号。

在本发明上述实施例中，可选地，在所述实时采集声音信号的步骤之前，还包括：获取训练样本集合，所述训练样本集合中的每个训练样本包括同一样本命令词的一组样本音频特征和对应的样本置信度；初始化初始二分类验证模型的模型参数；将所述每个训练样本的样本音频特征输入所述初始二分类验证模型，得到所述每个训练样本对应的置信度预测值；基于所述每个训练样本的所述置信度预测值和所述样本置信度的差异，对所述初始二分类验证模型的模型参数进行调整，得到所述样本命令词的所述二分类验证模型。

本发明第二方面提供一种语音验证装置，包括：声音信号采集单元，用于实时采集声音信号；音频特征提取单元，用于提取所述声音信号的音频特征；第一模型验证单元，用于将所述音频特征输入多分类验证模型，并通过所述多分类验证模型输出置信度集合，所述置信度集合包括非命令词置信度以及多个命令词的置信度；最大置信度选择单元，用于在所述置信度集合中选择最大置信度；模型验证加载单元，用于基于所述最大置信度不是所述非命令词置信度的情况，加载所述最大置信度所属的目标命令词所对应的二分类验证模型；第二模型验证单元，用于将所述音频特征输入所述二分类验证模型，并通过所述二分类验证模型输出所述目标命令词的目标置信度；功能执行单元，用于基于所述目标置信度大于指定阈值的情况，执行与所述目标命令词相匹配的功能。

在本发明上述实施例中，可选地，所述音频特征提取单元具体用于：提取单帧声音信号的Fbank音频特征；所述第一模型验证单元用于：将所述单帧声音信号的所述Fbank音频特征输入所述多分类验证模型；所述第一模型验证单元还用于：基于所述最大置信度是所述非命令词置信度的情况，返回所述提取所述声音信号的音频特征的步骤，以提取所述单帧声音信号的下一帧声音信号的Fbank音频特征。

在本发明上述实施例中，可选地，还包括：声音信号存储单元，用于在所述音频特征提取单元提取所述声音信号的音频特征之前，将所述声音信号存储至缓冲区；则所述第二模型验证单元具体用于：将所述缓冲区中包括所述单帧声音信号在内的全部声音信号的音频特征输入所述二分类验证模型。

在本发明上述实施例中，可选地，还包括：缓冲区设置单元，用于根据预定命令词的长度，设置所述缓冲区的大小；则所述第二模型验证单元还用于：基于所述缓冲区的全部存储空间被占用的情况，删除所述缓冲区中满足指定条件的声音信号，其中，所述指定条件包括：存储时间早于指定时间或帧序号小于预定序号。

在本发明上述实施例中，可选地，还包括：训练样本获取单元，用于在所述声音信号采集单元实时采集所述声音信号之前，获取训练样本集合，所述训练样本集合中的每个训练样本包括同一样本命令词的一组样本音频特征和对应的样本置信度；模型初始化单元，用于初始化初始二分类验证模型的模型参数；模型训练单元，用于将所述每个训练样本的样本音频特征输入所述初始二分类验证模型，得到所述每个训练样本对应的置信度预测值；模型调整单元，用于基于所述每个训练样本的所述置信度预测值和所述样本置信度的差异，对所述初始二分类验证模型的模型参数进行调整，得到所述样本命令词的所述二分类验证模型。

本发明第三方面提供一种电子设备，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被设置为用于执行上述第一方面和第二方面中任一项所述的方法。

本发明第四方面提供一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行上述第一方面和第二方面中任一项所述的方法流程。

本发明的技术方案，针对相关技术中低电量设备难以兼顾电量保护和语音控制的准确性的技术问题，可为单个命令词设置具有高准确性的二分类验证模型，并将这些二分类验证模型设置为休眠状态，只有在通过轻量级的多分类验证模型筛选出命令词后，再激活该命令词对应的二分类验证模型进行语音验证。

具体来说，可实时采集声音信号，接着，对于采集到的声音信号，可逐帧提取音频特征，以通过该音频特征作为命令词验证的依据。

命令词验证的过程通过神经网络模型来实现，此处，可将音频特征输入预设的多分类验证模型。其中，多分类验证模型为轻量模型，用于初步验证音频特征是否属于某一命令词，在被输入音频特征时，可计算出该音频特征在每个分类下的置信度，而多分类验证模型的分类包括多个命令词各自对应的一个分类以及非命令词对应的一个分类，音频特征所属的词要么为命令词中的一个，要么为非命令词。因此，多分类验证模型输出的置信度集合包括非命令词置信度以及多个命令词的置信度。

基于置信度集合中的最大置信度是非命令词置信度的情况，表示该语音特征对应的词为非命令词，此时，无需唤醒任何二分类验证模型，以节省设备本身的电量。并且，由于设备是实时采集声音信号以时刻检测是否接收到命令词，故可就此返回提取音频特征的步骤，提取下一帧声音信号的音频特征，循环整个验证过程。

基于置信度集合中的最大置信度不是非命令词置信度的情况，则可将音频特征对应的命令词初步判定为最大置信度所对应的分类下的目标命令词。此时，可激活目标命令词对应的二分类验证模型，以对音频特征进行二次验证，其中，在二分类验证模型输出的置信度大于指定阈值时，说明音频特征对应的命令词确实为目标命令词，因此，执行与所述目标命令词相匹配的功能。

在上述技术方案中，设备中只有轻量级的多分类验证模型处于实时工作状态，所有命令词对应的二分类验证模型在平时均处于休眠状态，从而有效节省了设备的电量消耗和系统资源消耗。同时，在轻量级的多分类验证模型输出的最大置信度为某一命令词的置信度时，再激活该命令词对应的二分类验证模型进行二次检测，二分类验证模型相对于为音频特征进行简单分类的多分类验证模型具有更高的验证能力，因此，使得设备在节省电量消耗和系统资源消耗的同时，能够保证命令词检测的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1示出了根据本发明的一个实施例的语音验证方法的流程图；

图2示出了根据本发明的另一个实施例的语音验证方法的流程图；

图3示出了根据本发明的一个实施例的语音验证方装置的框图；

图4示出了根据本发明的一个实施例的电子设备的框图。

具体实施方式

为使本发明的目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1示出了根据本发明的一个实施例的语音验证方法的流程图。

如图1所示，根据本发明的一个实施例的语音验证方法的流程包括：

步骤102，实时采集声音信号。

步骤104，提取所述声音信号的音频特征。

对于采集到的声音信号，可逐帧提取音频特征，以通过该音频特征作为命令词验证的依据。

步骤106，将所述音频特征输入多分类验证模型，并通过所述多分类验证模型输出置信度集合，所述置信度集合包括非命令词置信度以及多个命令词的置信度。

步骤108，在所述置信度集合中选择最大置信度。

步骤110，基于所述最大置信度不是所述非命令词置信度的情况，加载所述最大置信度所属的目标命令词所对应的二分类验证模型。

步骤112，将所述音频特征输入所述二分类验证模型，并通过所述二分类验证模型输出所述目标命令词的目标置信度。

步骤114，基于所述目标置信度大于指定阈值的情况，执行与所述目标命令词相匹配的功能。

图2示出了根据本发明的另一个实施例的语音验证方法的流程图。

如图2所示，根据本发明的另一个实施例的语音验证方法的流程包括：

步骤202，实时采集声音信号。

步骤204，将所述声音信号存储至缓冲区。

声音信号统一存储在设备的缓冲区中，缓冲区越大，缓冲区所能存储的声音信号体积越大。

步骤206，提取单帧声音信号的Fbank音频特征。

对于采集到的声音信号，可逐帧提取音频特征，以通过该音频特征作为命令词验证的依据。具体来说，可提取单帧声音信号的Fbank音频特征。Fbank音频特征是将声音信号的特性以类似于人耳所识别内容的方式进行展现，为音频识别中惯用的属性，需被逐帧提取。因此，可将每10ms声音信号作为一帧，提取每帧声音信号的Fbank音频特征。

步骤208，将所述单帧声音信号的所述Fbank音频特征输入所述多分类验证模型，并通过所述多分类验证模型输出置信度集合，所述置信度集合包括非命令词置信度以及多个命令词的置信度。

步骤210，在所述置信度集合中选择最大置信度。

基于所述最大置信度是所述非命令词置信度的情况，返回所述提取所述声音信号的音频特征的步骤，以提取所述单帧声音信号的下一帧声音信号的Fbank音频特征。具体来说，基于置信度集合中的最大置信度是非命令词置信度的情况，表示该语音特征对应的词为非命令词，此时，无需唤醒任何二分类验证模型，以节省设备本身的电量。并且，由于设备是实时采集声音信号以时刻检测是否接收到命令词，故可就此返回提取音频特征的步骤，提取下一帧声音信号的音频特征，循环整个验证过程。

步骤212，基于所述最大置信度不是所述非命令词置信度的情况，加载所述最大置信度所属的目标命令词所对应的二分类验证模型。

步骤214，将所述缓冲区中包括所述单帧声音信号在内的全部声音信号的音频特征输入所述二分类验证模型，并通过所述二分类验证模型输出所述目标命令词的目标置信度。

为保证语音验证的准确性，一旦多分类验证模型识别出目标命令词，则将设备的缓冲区已存储的全部声音信号均作为识别样本进行二次检验，故可全部声音信号的音频特征输入目标命令词对应的二分类验证模型。

其中，可根据预定命令词的长度，设置所述缓冲区的大小。预定命令词的长度越长，设备为了准确识别该命令词所需获取的声音信号就需要越大，对应地，存储该声音信号的缓冲区也就越大。由此来看，若缓冲区的大小不能容纳单个预定命令词，则设备很可能无法准确识别出该命令词，因此，缓冲区的大小关系到设备语音验证及控制的准确性。缓冲区的大小可选为能容纳指定数量的单帧声音信号，比如能容纳100帧的单帧声音信号，在单帧声音信号的长度为10ms时，缓冲区的大小即为100个10ms长度的单帧声音信号的大小。

另外，还可基于所述缓冲区的全部存储空间被占用的情况，删除所述缓冲区中满足指定条件的声音信号。具体来说，一旦缓冲区全部被占用，则需要删除全部或部分声音信号，才可以存储后续实时获取的新的声音信号进行验证，而为了保证删除的语音信号不会影响对后续语音信号的验证准确性的影响，可知删除满足指定条件的声音信号。其中，所述指定条件包括：存储时间早于指定时间或帧序号小于预定序号，即只删除按照时间顺序在前存储的部分声音信号，或删除按照存储顺序在前存储的部分声音信号。

步骤216，基于所述目标置信度大于指定阈值的情况，执行与所述目标命令词相匹配的功能。

在图1和图2实施例的基础上，其二分类验证模型的训练方式为：获取训练样本集合，所述训练样本集合中的每个训练样本包括同一样本命令词的一组样本音频特征和对应的样本置信度；初始化初始二分类验证模型的模型参数；将所述每个训练样本的样本音频特征输入所述初始二分类验证模型，得到所述每个训练样本对应的置信度预测值；基于所述每个训练样本的所述置信度预测值和所述样本置信度的差异，对所述初始二分类验证模型的模型参数进行调整，得到所述样本命令词的所述二分类验证模型。

这一训练过程所需的初始二分类验证模型结构复杂、参数众多，且所需的样本数据众多，训练时间长，因此，生成的二分类验证模型的复杂程度也对应较高，相对于为音频特征进行简单分类的多分类验证模型具有更高的验证能力。故为避免二分类验证模型消耗大量电量和系统资源，可只在轻量级的多分类验证模型输出的最大置信度为某一命令词的置信度时，再激活该命令词对应的二分类验证模型进行二次检测，使得设备在节省电量消耗和系统资源消耗的同时，能够保证命令词检测的准确性。

图3示出了根据本发明的一个实施例的语音验证方装置的框图。

如图3所示，根据本发明的一个实施例的语音验证方装置300包括：声音信号采集单元302，用于实时采集声音信号；音频特征提取单元304，用于提取所述声音信号的音频特征；第一模型验证单元306，用于将所述音频特征输入多分类验证模型，并通过所述多分类验证模型输出置信度集合，所述置信度集合包括非命令词置信度以及多个命令词的置信度；最大置信度选择单元308，用于在所述置信度集合中选择最大置信度；模型验证加载单元310，用于基于所述最大置信度不是所述非命令词置信度的情况，加载所述最大置信度所属的目标命令词所对应的二分类验证模型；第二模型验证单元312，用于将所述音频特征输入所述二分类验证模型，并通过所述二分类验证模型输出所述目标命令词的目标置信度；功能执行单元314，用于基于所述目标置信度大于指定阈值的情况，执行与所述目标命令词相匹配的功能。

在本发明上述实施例中，可选地，所述音频特征提取单元304具体用于：提取单帧声音信号的Fbank音频特征；所述第一模型验证单元306用于：将所述单帧声音信号的所述Fbank音频特征输入所述多分类验证模型；所述第一模型验证单元306还用于：基于所述最大置信度是所述非命令词置信度的情况，返回所述提取所述声音信号的音频特征的步骤，以提取所述单帧声音信号的下一帧声音信号的Fbank音频特征。

在本发明上述实施例中，可选地，还包括：声音信号存储单元，用于在所述音频特征提取单元304提取所述声音信号的音频特征之前，将所述声音信号存储至缓冲区；则所述第二模型验证单元312具体用于：将所述缓冲区中包括所述单帧声音信号在内的全部声音信号的音频特征输入所述二分类验证模型。

在本发明上述实施例中，可选地，还包括：缓冲区设置单元，用于根据预定命令词的长度，设置所述缓冲区的大小；则所述第二模型验证单元312还用于：基于所述缓冲区的全部存储空间被占用的情况，删除所述缓冲区中满足指定条件的声音信号，其中，所述指定条件包括：存储时间早于指定时间或帧序号小于预定序号。

在本发明上述实施例中，可选地，还包括：训练样本获取单元，用于在所述声音信号采集单元302实时采集所述声音信号之前，获取训练样本集合，所述训练样本集合中的每个训练样本包括同一样本命令词的一组样本音频特征和对应的样本置信度；模型初始化单元，用于初始化初始二分类验证模型的模型参数；模型训练单元，用于将所述每个训练样本的样本音频特征输入所述初始二分类验证模型，得到所述每个训练样本对应的置信度预测值；模型调整单元，用于基于所述每个训练样本的所述置信度预测值和所述样本置信度的差异，对所述初始二分类验证模型的模型参数进行调整，得到所述样本命令词的所述二分类验证模型。

该语音验证装置300使用图1和图2示出的实施例中任一项所述的方案，因此，具有上述所有技术效果，在此不再赘述。

图4示出了根据本发明的一个实施例的电子设备的框图。

如图4所示，本发明的一个实施例的电子设备400，包括至少一个存储器402；以及，与所述至少一个存储器402通信连接的处理器404；其中，所述存储器存储有可被所述至少一个处理器404执行的指令，所述指令被设置为用于执行上述图1和图2实施例中任一项所述的方案。因此，该电子设备400具有和图1和图2实施例中任一项相同的技术效果，在此不再赘述。

本发明实施例的电子设备以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

另外，本发明实施例提供了一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行上述图1和图2实施例中任一项所述的方法流程。

以上结合附图详细说明了本发明的技术方案，通过本发明的技术方案，有效节省了设备的电量消耗和系统资源消耗。同时，在轻量级的多分类验证模型输出的最大置信度为某一命令词的置信度时，再激活该命令词对应的二分类验证模型进行二次检测，二分类验证模型相对于为音频特征进行简单分类的多分类验证模型具有更高的验证能力，因此，使得设备在节省电量消耗和系统资源消耗的同时，能够保证命令词检测的准确性。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

应当理解，本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地，取决于语境，短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机装置(可以是个人计算机，服务器，或者网络装置等)或处理器(Processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音验证方法，其特征在于，包括：

实时采集声音信号；

提取所述声音信号的音频特征；

将所述音频特征输入多分类验证模型，并通过所述多分类验证模型输出置信度集合，所述置信度集合包括非命令词置信度以及多个命令词的置信度；

在所述置信度集合中选择最大置信度；

基于所述最大置信度不是所述非命令词置信度的情况，加载所述最大置信度所属的目标命令词所对应的二分类验证模型；

将所述音频特征输入所述二分类验证模型，并通过所述二分类验证模型输出所述目标命令词的目标置信度；

基于所述目标置信度大于指定阈值的情况，执行与所述目标命令词相匹配的功能。

2.根据权利要求1所述的语音验证方法，其特征在于，所述提取所述声音信号的音频特征的步骤，具体包括：

提取单帧声音信号的Fbank音频特征；

所述将所述音频特征输入多分类验证模型的步骤，具体包括：

将所述单帧声音信号的所述Fbank音频特征输入所述多分类验证模型；

则所述语音验证方法还包括：

基于所述最大置信度是所述非命令词置信度的情况，返回所述提取所述声音信号的音频特征的步骤，以提取所述单帧声音信号的下一帧声音信号的Fbank音频特征。

3.根据权利要求2所述的语音验证方法，其特征在于，在所述提取所述声音信号的音频特征的步骤之前，还包括：

将所述声音信号存储至缓冲区；

则所述将所述音频特征输入所述二分类验证模型的步骤，具体包括：

将所述缓冲区中包括所述单帧声音信号在内的全部声音信号的音频特征输入所述二分类验证模型。

4.根据权利要求3所述的语音验证方法，其特征在于，还包括：

根据预定命令词的长度，设置所述缓冲区的大小；

则所述语音验证方法还包括：

基于所述缓冲区的全部存储空间被占用的情况，删除所述缓冲区中满足指定条件的声音信号，其中，

所述指定条件包括：存储时间早于指定时间或帧序号小于预定序号。

5.根据权利要求1至4中任一项所述的语音验证方法，其特征在于，在所述实时采集声音信号的步骤之前，还包括：

获取训练样本集合，所述训练样本集合中的每个训练样本包括同一样本命令词的一组样本音频特征和对应的样本置信度；

初始化初始二分类验证模型的模型参数；

将所述每个训练样本的样本音频特征输入所述初始二分类验证模型，得到所述每个训练样本对应的置信度预测值；

基于所述每个训练样本的所述置信度预测值和所述样本置信度的差异，对所述初始二分类验证模型的模型参数进行调整，得到所述样本命令词的所述二分类验证模型。

6.一种语音验证装置，其特征在于，包括：

声音信号采集单元，用于实时采集声音信号；

音频特征提取单元，用于提取所述声音信号的音频特征；

第一模型验证单元，用于将所述音频特征输入多分类验证模型，并通过所述多分类验证模型输出置信度集合，所述置信度集合包括非命令词置信度以及多个命令词的置信度；

最大置信度选择单元，用于在所述置信度集合中选择最大置信度；

模型验证加载单元，用于基于所述最大置信度不是所述非命令词置信度的情况，加载所述最大置信度所属的目标命令词所对应的二分类验证模型；

第二模型验证单元，用于将所述音频特征输入所述二分类验证模型，并通过所述二分类验证模型输出所述目标命令词的目标置信度；

功能执行单元，用于基于所述目标置信度大于指定阈值的情况，执行与所述目标命令词相匹配的功能。

7.根据权利要求6所述的语音验证装置，其特征在于，所述音频特征提取单元具体用于：

提取单帧声音信号的Fbank音频特征；

所述第一模型验证单元用于：

所述第一模型验证单元还用于：

8.根据权利要求7所述的语音验证装置，其特征在于，还包括：

声音信号存储单元，用于在所述音频特征提取单元提取所述声音信号的音频特征之前，将所述声音信号存储至缓冲区；

则所述第二模型验证单元具体用于：

9.一种电子设备，其特征在于，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被设置为用于执行上述权利要求1至5中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，存储有计算机可执行指令，所述计算机可执行指令用于执行如权利要求1至5中任一项所述的方法流程。