CN114299923A

CN114299923A - 音频识别方法、装置、电子设备及存储介质

Info

Publication number: CN114299923A
Application number: CN202111599621.2A
Authority: CN
Inventors: 李良斌; 陈孝良
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2021-12-24
Filing date: 2021-12-24
Publication date: 2022-04-08

Abstract

本申请提供了一种音频识别方法、装置、电子设备及存储介质，属于计算机技术领域。该方法包括：将当前采集的音频帧与之前采集的音频帧构成一个音频片段，并获取音频片段的第一特征值、第二特征值和第三特征值；在第一特征值与第二特征值之间的差值小于第一阈值，且第三特征值满足跳转条件的情况下，确定音频片段中包含唤醒词。第一特征值表示音频片段中前N个音频帧属于唤醒词的概率值，第二特征值表示音频片段中前N个音频帧与音素片段匹配的概率值，音素片段是由前N个音频帧识别出的音素构成的片段，第三特征值满足跳转条件表示第N个音频帧与第N+1个音频帧不属于唤醒词中相邻的两个音素。该方法能够提高音频识别的准确率。

Description

音频识别方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机技术领域，特别涉及一种音频识别方法、装置、电子设备及存储介质。

背景技术

随着音频识别技术的快速发展，音频识别技术被广泛应用于各种电子设备上，如智能穿戴设备、手机、平板电脑、智能家电等。用户说出唤醒词，即可唤醒该电子设备，从而控制该电子设备执行相应的操作。但是经常出现用户还未说完唤醒词，电子设备就基于音频数据识别出某个唤醒词的情况，但是所识别出的唤醒词不一定是用户真正要说的那个唤醒词本身，因此音频识别的准确率较低。

发明内容

本申请实施例提供了一种音频识别方法、装置、电子设备及存储介质，能够提高音频识别的准确率，所述技术方案如下：

根据本申请实施例的一方面，提供了一种音频识别方法，所述方法包括：

在采集到音频帧时，将当前采集的音频帧与之前采集的音频帧构成一个音频片段，并获取所述音频片段的第一特征值、第二特征值和第三特征值；

在所述第一特征值与所述第二特征值之间的差值小于第一阈值，且所述第三特征值满足跳转条件的情况下，确定所述音频片段中包含唤醒词；

其中，所述音频片段包括N+1个音频帧，相邻的两个音频片段包括至少一个相同的音频帧，N为正整数，且N等于所述唤醒词包含的音素的数量；所述第一特征值表示所述音频片段中前N个音频帧属于所述唤醒词的概率值，所述第二特征值表示所述音频片段中前N个音频帧与音素片段匹配的概率值，所述音素片段是由所述前N个音频帧识别出的音素构成的片段，所述第三特征值表示所述音频片段中第N个音频帧与第N+1个音频帧属于所述唤醒词中相邻的两个音素的概率值，所述跳转条件表示所述音频片段中第N个音频帧与第N+1个音频帧不属于所述唤醒词中相邻的两个音素。

在一种可能的实现方式中，所述方法还包括：

在所述第一特征值与所述第二特征值之间的差值小于所述第一阈值，且所述第三特征值不满足所述跳转条件的情况下，继续采集音频帧，直至本次构成的音频片段的所述第一特征值与所述第二特征值之间的差值小于所述第一阈值，且所述第三特征值满足所述跳转条件，确定所述本次构成的音频片段中包含唤醒词。

在一种可能的实现方式中，获取所述第一特征值和所述第二特征值，包括：

获取所述音频片段中前N个音频帧的第一特征分量和第二特征分量，其中，第K个音频帧的第一特征分量表示所述第K个音频帧属于所述唤醒词中的第K个音素的概率值，所述第K个音频帧的第二特征分量表示所述第K个音频帧属于多个音素的概率值中的最大概率值，K为不大于N的正整数；

将所述前N个音频帧中的每个音频帧的第一特征分量相加，得到所述音频片段的所述第一特征值；

将所述前N个音频帧中的每个音频帧的第二特征分量相加，得到所述音频片段的所述第二特征值。

在一种可能的实现方式中，所述获取所述音频片段中前N个音频帧的第一特征分量和第二特征分量，包括：

对于所述音频片段中的第K个音频帧，在所述第K个音频帧分别针对多个音素的特征分量中，将所述第K个音频帧针对所述唤醒词中的第K个音素的特征分量确定为所述第K个音频帧的第一特征分量，将最大的特征分量确定为所述第K个音频帧的第二特征分量；

其中，所述第K个音频帧针对一个音素的特征向量表示所述第K个音频帧属于所述一个音素的概率值。

在一种可能的实现方式中，所述方法还包括：

每次采集到一个音频帧时，对所述音频帧进行音频识别，得到所述音频帧分别针对多个音素的特征分量；

其中，一个音频帧针对一个音素的特征向量表示所述一个音频帧属于所述一个音素的概率值。

在一种可能的实现方式中，获取所述第三特征值，包括：

每次采集到一个音频帧时，对当前采集的音频帧与前一个音频帧进行音频识别，得到所述音频帧与所述前一个音频帧属于所述唤醒词中相邻的两个音素的概率值，直至得到所述第N个音频帧与所述第N+1个音频帧属于所述唤醒词中相邻的两个音素的概率值，将所述第N个音频帧与所述第N+1个音频帧属于所述唤醒词中相邻的两个音素的概率值确定为所述第三特征值。

在一种可能的实现方式中，所述获取所述音频片段的第一特征值、第二特征值和第三特征值，包括：

调用音频识别模型，对所述音频片段中的N+1个音频帧进行音频识别，得到每个音频帧分别针对多个音素的特征分量，以及每两个相邻音频帧属于所述唤醒词中相邻的两个音素的概率值，其中，一个音频帧针对一个音素的特征向量表示所述一个音频帧属于所述一个音素的概率值；

将所述前N个音频帧中的每个音频帧的第一特征分量相加，得到所述第一特征值，其中，第K个音频帧的第一特征分量表示所述第K个音频帧属于所述唤醒词中的第K个音素的概率值，K为不大于N的正整数；

将所述前N个音频帧中的每个音频帧的第二特征分量相加，得到所述第二特征值，其中，所述第K个音频帧的第二特征分量表示所述第K个音频帧属于多个音素的概率值中的最大概率值；

将所述第N个音频帧与所述第N+1个音频帧属于所述唤醒词中相邻的两个音素的概率值确定为所述第三特征值。

在一种可能的实现方式中，所述方法还包括：

获取多个训练样本，所述多个训练样本包括正训练样本和负训练样本，所述正训练样本为包含所述唤醒词的音频片段，所述负训练样本为不包含所述唤醒词的音频片段；

基于所述多个训练样本对所述音频识别模型进行训练。

在一种可能的实现方式中，所述基于所述多个训练样本对所述音频识别模型进行训练，包括：

确定每个训练样本对应的第一识别信息，所述第一识别信息包括所述训练样本中的每个音频帧对应的音素；

调用所述音频识别模型，对每个训练样本中的音频帧进行音频识别，得到每个训练样本对应的第二识别信息，所述第二识别信息包括所述训练样本中的每个音频帧针对多个音素的特征分量，以及每两个相邻音频帧属于所述唤醒词中相邻的两个音素的概率值；其中，一个音频帧针对一个音素的特征向量表示所述一个音频帧属于所述一个音素的概率值；

基于所述每个训练样本对应的第一识别信息和第二识别信息，调整所述音频识别模型的模型参数。

在一种可能的实现方式中，所述在所述第一特征值与所述第二特征值之间的差值小于第一阈值，且所述第三特征值满足跳转条件的情况下，确定所述音频片段中包含唤醒词，包括：

在所述第一特征值与所述第二特征值之间的差值小于所述第一阈值，且所述第三特征值小于所述第二阈值的情况下，确定所述音频片段中包含所述唤醒词。

在所述第一特征值与所述第二特征值之间的差值小于所述第一阈值，且所述第三特征值为目标数值的情况下，确定所述音频片段中包含所述唤醒词，所述目标数值表示所述第N个音频帧与所述第N+1个音频帧不属于所述唤醒词中相邻的两个音素。

在一种可能的实现方式中，所述在所述音频片段的所述第一特征值与所述第二特征值之间的差值小于第一阈值，且所述第三特征值小于第二阈值的情况下，确定所述音频片段中包含唤醒词之后，所述方法还包括：

基于识别到所述唤醒词之后采集到的至少一个音频帧识别语音控制指令，执行所述语音控制指令对应的控制操作。

根据本申请实施例的另一方面，提供了一种音频识别装置，所述装置包括：

获取模块，用于在采集到音频帧时，将当前采集的音频帧与之前采集的音频帧构成一个音频片段，并获取所述音频片段的第一特征值、第二特征值和第三特征值；

第一确定模块，用于在所述第一特征值与所述第二特征值之间的差值小于第一阈值，且所述第三特征值满足跳转条件的情况下，确定所述音频片段中包含唤醒词；

在一种可能的实现方式中，所述装置还包括：

第二确定模块，用于在所述第一特征值与所述第二特征值之间的差值小于所述第一阈值，且所述第三特征值不满足所述跳转条件的情况下，继续采集音频帧，直至本次构成的音频片段的所述第一特征值与所述第二特征值之间的差值小于所述第一阈值，且所述第三特征值满足所述跳转条件，确定所述本次构成的音频片段中包含唤醒词。

在一种可能的实现方式中，所述获取模块，包括：

识别单元，用于获取所述音频片段中前N个音频帧的第一特征分量和第二特征分量，其中，第K个音频帧的第一特征分量表示所述第K个音频帧属于所述唤醒词中的第K个音素的概率值，所述第K个音频帧的第二特征分量表示所述第K个音频帧属于多个音素的概率值中的最大概率值，K为不大于N的正整数；

第一融合单元，用于将所述前N个音频帧中的每个音频帧的第一特征分量相加，得到所述音频片段的所述第一特征值；

第二融合单元，用于将所述前N个音频帧中的每个音频帧的第二特征分量相加，得到所述音频片段的所述第二特征值。

在一种可能的实现方式中，所述识别单元，用于：

对于所述音频片段中的第K个音频帧，在所述第K个音频帧分别针对多个音素所得到的特征分量中，将所述第K个音频帧针对所述唤醒词中的第K个音素的特征分量确定为所述第K个音频帧的第一特征分量，将最大的特征分量确定为所述第K个音频帧的第二特征分量；

在一种可能的实现方式中，所述识别单元，用于：

在一种可能的实现方式中，所述获取模块，包括：

识别单元，用于每次采集到一个音频帧时，对当前采集的音频帧与前一个音频帧进行音频识别，得到所述音频帧与所述前一个音频帧属于所述唤醒词中相邻的两个音素的概率值，直至得到所述第N个音频帧与所述第N+1个音频帧属于所述唤醒词中相邻的两个音素的概率值，将所述第N个音频帧与所述第N+1个音频帧属于所述唤醒词中相邻的两个音素的概率值确定为所述第三特征值。

在一种可能的实现方式中，所述获取模块，包括：

识别单元，用于调用音频识别模型，对所述音频片段中的N+1个音频帧进行音频识别，得到每个音频帧分别针对多个音素的特征分量，以及每两个相邻音频帧属于所述唤醒词中相邻的两个音素的概率值，其中，一个音频帧针对一个音素的特征向量表示所述一个音频帧属于所述一个音素的概率值；

第一融合单元，用于将所述前N个音频帧中的每个音频帧的第一特征分量相加，得到所述第一特征值，其中，第K个音频帧的第一特征分量表示所述第K个音频帧属于所述唤醒词中的第K个音素的概率值，K为不大于N的正整数；

第二融合单元，用于将所述前N个音频帧中的每个音频帧的第二特征分量相加，得到所述第二特征值，其中，所述第K个音频帧的第二特征分量表示所述第K个音频帧属于多个音素的概率值中的最大概率值；

第一确定单元，用于将所述第N个音频帧与所述第N+1个音频帧属于所述唤醒词中相邻的两个音素的概率值确定为所述第三特征值。

在一种可能的实现方式中，所述装置还包括：

样本获取模块，用于获取多个训练样本，所述多个训练样本包括正训练样本和负训练样本，所述正训练样本为包含所述唤醒词的音频片段，所述负训练样本为不包含所述唤醒词的音频片段；

训练模块，用于基于所述多个训练样本对所述音频识别模型进行训练。

在一种可能的实现方式中，所述训练模块，包括：

第二确定单元，用于确定每个训练样本对应的第一识别信息，所述第一识别信息包括所述训练样本中的每个音频帧对应的音素；

训练识别单元，用于调用所述音频识别模型，对每个训练样本中的音频帧进行音频识别，得到每个训练样本对应的第二识别信息，所述第二识别信息包括所述训练样本中的每个音频帧针对多个音素的特征分量，以及每两个相邻音频帧属于所述唤醒词中相邻的两个音素的概率值；其中，一个音频帧针对一个音素的特征向量表示所述一个音频帧属于所述一个音素的概率值；

调整单元，用于基于所述每个训练样本对应的第一识别信息和第二识别信息，调整所述音频识别模型的模型参数。

在一种可能的实现方式中，所述第一确定模块，包括：

第三确定单元，用于在所述第一特征值与所述第二特征值之间的差值小于所述第一阈值，且所述第三特征值小于所述第二阈值的情况下，确定所述音频片段中包含所述唤醒词。

在一种可能的实现方式中，所述第一确定模块，包括：

第三确定单元，用于在所述第一特征值与所述第二特征值之间的差值小于所述第一阈值，且所述第三特征值为目标数值的情况下，确定所述音频片段中包含所述唤醒词，所述目标数值表示所述第N个音频帧与所述第N+1个音频帧不属于所述唤醒词中相邻的两个音素。

在一种可能的实现方式中，所述装置还包括：

执行模块，用于基于识别到所述唤醒词之后采集到的至少一个音频帧识别语音控制指令，执行所述语音控制指令对应的控制操作。

根据本申请实施例的另一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现上述任一种可能的实现方式中所述的音频识别方法。

根据本申请实施例的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现上述任一种可能的实现方式中所述的音频识别方法。

根据本申请实施例的另一方面，提供了一种计算机程序产品，所述计算机程序产品包括至少一条程序代码，所述至少一条程序代码由处理器执行以实现上述任一种可能的实现方式中所述的音频识别方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

本申请实施例提供的技术方案，获取所采集的音频片段的第一特征值、第二特征值和第三特征值，在第一特征值与第二特征值之间的差值小于第一阈值且第三特征值满足跳转条件的情况下，才能说明当前的音频片段中前N个音频帧属于唤醒词的概率值接近于前N个音频帧属于其匹配的音素片段的概率值，则前N个音频帧属于唤醒词，而最后一个音频帧已不再属于唤醒词，从而确定音频片段中前N个音频帧对应的内容为唤醒词。采用这种音频识别方法，能够确保识别到完整的唤醒词，提高了音频识别的准确率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种实施环境的示意图；

图2是本申请实施例提供的一种音频识别方法的流程图；

图3是本申请实施例提供的另一种音频识别方法的流程图；

图4是本申请实施例提供的一种音频识别装置的结构示意图；

图5是本申请实施例提供的另一种音频识别装置的结构示意图；

图6是本申请实施例提供的一种终端的结构示意图；

图7是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种概念，但除非特别说明，这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。举例来说，在不脱离本申请的范围的情况下，可以将第一特征值称为第二特征值，将第二特征值称为第一特征值。

本申请所使用的术语“至少一个”、“多个”、“每个”、“任一”等，至少一个包括一个、两个或两个以上，多个包括两个或两个以上，每个是指对应的多个中的每一个，任一是指多个中的任意一个。举例来说，多个音频帧包括3个音频帧，而每个音频帧是指这3个音频帧中的每一个音频帧，任一是指这3个音频帧中的任意一个，可以是第一个，可以是第二个，也可以是第三个。

图1是本申请实施例提供的一种实施环境的示意图，参见图1，该实施环境包括：终端101和服务器102。终端101与服务器102之间通过无线或者有线网络连接。

可选地，终端101为智能手机、平板电脑、智能穿戴设备或者智能家居设备等任一种类型的终端，智能家居设备为智能音箱、智能电视、智能冰箱、智能空调、智能机器人、智能灯具、智能锁等。服务器102为一台服务器，或者由若干服务器组成的服务器集群，或者是一个云计算服务中心。

可选地，终端101上安装有服务器102提供服务的应用，终端101能够通过该应用实现例如数据传输、消息交互等功能。可选地，该应用为终端101操作系统中的应用，或者为第三方提供的应用。例如，该应用为语音助手，该语音助手应用具有音频识别功能，当然，该应用还能够具有其他功能，例如，执行语音命令的功能、缓存功能等。

在用户通过语音唤醒终端101的场景中，终端101对采集到的音频片段进行识别，在终端101确定识别到完整唤醒词的情况下，继续采集音频帧，从而将采集到的至少一个音频帧发送给服务器102，服务器102接收该至少一个音频帧，并确定该至少一个音频帧对应的语音控制指令，之后，将识别到的语音控制指令发送给终端101，使得终端101执行该语音控制指令对应的控制操作。

需要说明的是，上述图1的实施例仅以终端101将采集到的音频片段发送给服务器102为例来说明。在另一实施例中，终端101无需将采集到的音频片段发送给服务器102，而是由终端101来识别该音频片段中的唤醒词，在终端101确定识别到完整唤醒词的情况下，直接执行唤醒词对应的控制操作。

本申请实施例提供的方法可以应用于多种场景下。

例如，本申请实施例提供的方法应用于通过语音唤醒手机的场景下。用户在开车的过程中，不方便操控手机，但是用户想要使用手机进行导航，则可以说出与手机对应的唤醒词，当手机识别到该唤醒词，便从待机状态被唤醒，从而启动识别服务，其中，该识别服务用于识别语音控制指令。之后，用户说出打开导航应用以及如何导航等，手机便可以基于采集到的音频帧识别到打开导航应用的指令，从而打开导航应用进行导航。

再例如，本申请实施例提供的方法还可以应用于通过语音控制智能电视的场景下。用户可以说出与智能电视对应的唤醒词，当智能电视识别到该唤醒词后，启动识别服务，在识别到更换电视频道的语音控制指令时，控制智能电视执行更换电视频道的操作。

需要说明的是，本申请实施例仅是以手机或者智能电视识别出唤醒词为例进行说明，并不对本申请的音频识别方法的场景进行限定。

图2是本申请实施例提供的一种音频识别方法的流程图。本申请实施例的执行主体为电子设备，该电子设备为上述实施例所示的终端或服务器，或者为其他设备。参见图2，该方法包括以下步骤：

201、在采集到音频帧时，将当前采集的音频帧与之前采集的音频帧构成一个音频片段，并获取该音频片段的第一特征值、第二特征值和第三特征值。

其中，该音频片段包括N+1个音频帧，相邻的两个音频片段包括至少一个相同的音频帧，N为正整数，且N等于唤醒词包含的音素的数量。唤醒词用于唤醒电子设备来执行对应的控制操作，例如控制手机接听电话、控制导航系统进行导航或者控制智能电视调节音量等。可选地，该唤醒词是电子设备预先设置的。其中，唤醒词由多个音素组成，音素是根据音频的自然属性划分出来的最小音频单位，依据音节里的发音动作来分析，一个发音动作构成一个音素。

电子设备在采集到音频帧的情况下，将当前采集的音频帧与之前采集的音频帧进行组合，构成一个包含N+1个音频帧的音频片段，其中，N为正整数，而唤醒词包含N个音素，则该音频片段包含的音频帧的数量大于唤醒词包含的音素的数量，也即是该音频片段中可以包含完整地唤醒词。之后，继续采集音频帧，并将当前采集的音频帧与之前采集的音频帧进行组合，构成另一个音频片段。

例如，当前采集的音频帧的数量为M个，且M为不大于N的正整数，电子设备将采集到的音频帧按照采集时间的先后顺序进行排列，为了构成一个包含N+1个音频帧的音频片段，需获取位于当前采集的M个音频帧之前的N-M+1个音频帧，从而将当前采集到的M个音频帧和这N-M+1个音频帧进行组合，得到一个包含N+1个音频帧的音频片段，该音频片段中的N+1个音频帧是连续的。之后，继续对音频帧进行采集，在再次采集到M个音频帧的情况下，重新获取位于新采集的M个音频帧之前的N-M+1个音频帧，构成另一个包含N+1个音频帧的音频片段，电子设备重复执行上述步骤，从而构成多个音频片段。

需要说明的是，由于M为不大于N的正整数，每个音频片段中包含的N+1个音频帧是连续的，则对于相邻的两个音频片段，前一个音频片段中后面的N-M+1个音频帧与后一个音频片段中前面的N-M+1个音频帧是相同的，也即是相邻的两个音频片段之间存在重叠部分，相邻的两个音频片段之间至少存在一个相同的音频帧。

对于每次构成的音频片段，获取该音频片段的第一特征值、第二特征值和第三特征值。其中，第一特征值表示该音频片段中前N个音频帧属于唤醒词的概率值，也即是该音频片段中前N个音频帧对应的内容为唤醒词的概率值。

第二特征值表示音频片段中前N个音频帧与音素片段匹配的概率值，音素片段是由前N个音频帧识别出的音素构成的片段。其中，在给定多个音素的情况下，对该多个音素进行多种形式的组合，能够构成多个音素片段，每个音素片段由多个音素中的至少一个音素组成，并且该多个音素片段中包括唤醒词以及非唤醒词，需要从这多个音素片段中确定与前N个音频帧匹配的音素片段。在对该音频片段进行识别时，会对每个音频帧进行识别，识别出每个音频帧对应的音素，则前N个音频帧识别出的音素构成的片段即可认为是为前N个音频帧识别出的音素片段，是前N个音频帧最可能匹配的音素片段，而第二特征值能够表示前N个音频帧是否与音素片段匹配。

第三特征值表示该音频片段中第N个音频帧与第N+1个音频帧属于唤醒词中相邻的两个音素的概率值，也即是该音频片段中最后两个音频帧对应的内容为唤醒词中任两个相邻的音素的可能性。

202、在第一特征值与第二特征值之间的差值小于第一阈值，且第三特征值满足跳转条件的情况下，确定该音频片段中包含唤醒词。

电子设备将获取到的音频片段的第一特征值和第二特征值进行对比，得到第一特征值和第二特征值之间的差值。在该差值小于第一阈值的情况下，可以认为第一特征值和第二特征值相差不大，即该音频片段中前N个音频帧属于唤醒词的概率值接近于前N个音频帧属于其匹配的音素片段的概率值，即前N个音频帧匹配的音素片段很有可能就是唤醒词。

可选地，第一阈值可以根据识别准确度的需求确定，可以为0.1或0.2等任意数值。

另外，为了确保从音频片段中识别到完整的唤醒词，还需要确定第三特征值是否满足跳转条件。其中，跳转条件表示该音频片段中第N个音频帧与第N+1个音频帧不属于唤醒词中相邻的两个音素。

为此，电子设备将音频片段中后两个音频帧属于唤醒词中相邻的两个音素的概率值，确定为第三特征值。也即是将音频片段中第N个音频帧与第N+1个音频帧属于唤醒词中相邻的两个音素的概率值，确定为第三特征值。若第三特征值满足跳转条件，说明该音频片段中第N个音频帧与第N+1个音频帧不属于唤醒词中相邻的两个音素，则认为第N+1个音频帧已不再属于唤醒词，也即是第N个音频帧就是唤醒词的最后一个音频帧，则可以确定当前的音频片段中包含完整的唤醒词，也即是当前的音频片段中前N个音频帧对应的内容为唤醒词。

若第三特征值不满足跳转条件，说明该音频片段中第N个音频帧与第N+1个音频帧属于唤醒词中相邻的两个音素，即，该音频片段中的前N个音频帧属于唤醒词的同时，第N+1个音频帧也属于唤醒词，这与唤醒词包含N个音素矛盾，说明识别不够准确，无法具体确定该音频片段中的哪些音频帧是真正的唤醒词。

本申请实施例提供的方法，获取所采集的音频片段的第一特征值、第二特征值和第三特征值，在第一特征值与第二特征值之间的差值小于第一阈值且第三特征值满足跳转条件的情况下，才能说明当前的音频片段中前N个音频帧属于唤醒词的概率值接近于前N个音频帧属于其匹配的音素片段的概率值，则前N个音频帧属于唤醒词，而最后一个音频帧已不再属于唤醒词，从而确定音频片段中前N个音频帧对应的内容为唤醒词。采用这种音频识别方法，能够确保识别到完整的唤醒词，提高了音频识别的准确率。

图3是本申请实施例提供的另一种音频识别方法的流程图。本申请实施例的执行主体为电子设备。参见图3，该方法包括以下步骤：

301、在采集到音频帧时，将当前采集的音频帧与之前采集的音频帧构成一个音频片段。

本申请实施例中，电子设备对音频帧进行实时采集，依次采集多个音频帧，以便从采集到的多个音频帧中识别出完整的唤醒词。可选地，在用户说话的过程中，电子设备依次采集多个音频帧，电子设备通过识别采集到的音频帧，来识别用户是否说出唤醒词。

其中，该音频片段包括N+1个音频帧，相邻的两个音频片段包括N个相同的音频帧，N为正整数，且N等于唤醒词包含的音素的数量。其中，一个音频帧对应一个音素，或者说每个音频帧表示一个音素。由于唤醒词包含N个音素，为了识别连续采集的音频帧是否属于该唤醒词，则需要识别连续的N个音频帧是否属于该唤醒词中的N个音素，因此对每次构成的音频片段中的前N个音频帧进行识别，来确定是否为唤醒词，也即是识别该音频片段中是否包含完整的唤醒词。

电子设备每次采集到一个音频帧，将当前采集的音频帧与之前采集的N个音频帧进行组合，从而构成一个包含N+1个音频帧的音频片段，使得音频片段中包含的音频帧的数量大于唤醒词包含的音素数量，也即是使得该音频片段中可以包含完整地唤醒词。之后，在再次采集到音频帧时，重复执行上述步骤，也即是将当前采集到的音频帧与位于该音频帧之前的N个音频帧进行组合，以构成下一个音频片段。其中，相邻的两个音频片段之间存在重叠部分，包含N个相同的音频帧，即前一个音频片段中后面的N个音频帧与后一个音频片段中前面的N个音频帧是相同的，也即是仅有一个音频帧不同。

需要说明的是，上述步骤301中每次采集到一个音频帧，都会构成一个音频片段，从而实时识别采集到的音频帧所构成的音频片段是否包含唤醒词，以便能够及时在音频片段中识别到完整的唤醒词。而在另一实施例中，在采集到音频帧时，将当前采集的音频帧与之前采集的音频帧构成一个音频片段。例如，每采集到M个音频帧，且M为不大于N的正整数，电子设备获取之前采集到的N-M+1个音频帧,从而将获取到的N+1个音频帧进行组合，以构成包含N+1个音频帧的该音频片段。之后，每采集到M个音频帧，均执行一次构成音频片段的操作，每次构成的音频片段都包括N+1个音频帧，则相邻的两个音频片段之间存在重叠部分，相邻的两个音频片段包括至少一个相同的音频帧。

302、对该音频片段中的N+1个音频帧进行音频识别，得到每个音频帧分别针对多个音素的特征分量，以及每两个相邻音频帧属于唤醒词中相邻的两个音素的概率值。

电子设备分别对当前构成的音频片段中的N+1个音频帧进行识别，得到每个音频帧针对多个音素的特征分量，其中，一个音频帧针对一个音素的特征分量表示这个音频帧属于这个音素的概率值，则对采集到的音频帧进行音频识别后，即可得到该音频帧分别属于多个音素中每个音素的概率值。

在一种可能实现方式中，电子设备每次采集到一个音频帧时，对该音频帧进行音频识别，得到该音频帧分别针对多个音素的特征分量，其中，一个特征分量与一个音频帧和一个音素对应，表示该音频帧属于该音素的概率值。之后，继续采集新的音频帧，从而对采集到的下一个音频帧进行音频识别，直至采集到N+1个音频帧，并完成对这N+1个音频帧的识别后，即可得到由当前采集到的的N+1个音频帧构成的音频片段中，每个音频帧分别针对多个音素的特征分量。

并且，在对音频片段中包含的N+1个音频帧进行识别时，还会得到每两个相邻音频帧属于唤醒词中相邻的两个音素的概率值，以判断当前采集的最后一个音频帧与前一个音频帧是否属于唤醒词中的相邻的两个音素。

在一种可能实现方式中，电子设备每次采集到一个音频帧时，对当前采集的音频帧与前一个音频帧进行音频识别，得到该音频帧与前一个音频帧属于唤醒词中相邻的两个音素的概率值。

例如，唤醒词中的多个音素按照先后顺序排列，可以看做是构成了一条唤醒路径，该唤醒路径中包括上述多个音素。而根据当前采集的音频帧与前一个音频帧属于唤醒词中相邻的两个音素的概率值，能够确定当前采集的音频帧与前一个音频帧是否都位于该唤醒路径上。如果此概率值较大，表示当前采集的音频帧与前一个音频帧都位于该唤醒路径上，都是唤醒词中包含的音素。如果此概率值较小，表示当前采集的音频帧与前一个音频帧没有都位于该唤醒路径上，很可能是前一个音频帧还位于唤醒路径上，而当前采集的音频帧没有位于唤醒路径上，不是属于唤醒词中的音素。

在一种可能实现方式中，该步骤302包括：调用音频识别模型，对该音频片段中的N+1个音频帧进行音频识别，得到每个音频帧分别针对多个音素的特征分量，以及每两个相邻音频帧属于唤醒词中相邻的两个音素的概率值。

其中，音频识别模型用于分别对音频片段中的N+1个音频帧进行识别，得到每个音频帧分别针对多个音素的特征分量，以及每两个相邻音频帧属于唤醒词中相邻的两个音素的概率值。

可选地，电子设备中存储有该音频识别模型，该音频识别模型是已训练好的模型。电子设备在得到一个新的音频片段的情况下，将该音频片段中N+1个音频帧分别输入到该音频识别模型中，由音频识别模型分别对每个音频帧进行音频识别，即可输出每个音频帧分别针对多个音素的特征分量，以及每两个相邻音频帧属于唤醒词中相邻的两个音素的概率值。

可选地，该音频识别模型的训练过程包括：获取多个训练样本，多个训练样本包括正训练样本和负训练样本，正训练样本为包含唤醒词的音频片段，负训练样本为不包含唤醒词的音频片段；基于多个训练样本对音频识别模型进行训练。

可选的，该音频识别模型的训练过程进一步包括：确定每个训练样本对应的第一识别信息，第一识别信息包括训练样本中的每个音频帧对应的音素；调用音频识别模型，对每个训练样本中的音频帧进行音频识别，得到每个训练样本对应的第二识别信息，第二识别信息包括训练样本中的每个音频帧分别针对多个音素的特征分量，以及每两个相邻音频帧属于唤醒词中相邻的两个音素的概率值；其中，一个音频帧针对一个音素的特征向量表示这个音频帧属于这个音素的概率值，基于每个训练样本对应的第一识别信息和第二识别信息，调整音频识别模型的模型参数。

该第一识别信息是训练样本的真实标注结果，该第一识别信息包括训练样本中的每个音频帧对应的真实音素，而且根据该第一识别信息和唤醒词包括的音素，可以确定该训练样本中的哪些音频帧属于唤醒词，哪些音频帧不属于唤醒词，还可以确定哪两个相邻的音频帧属于唤醒词中相邻的两个音素，哪两个相邻的音频帧不属于唤醒词中相邻的两个音素。

而第二识别信息是基于音频识别模型预测得到的每个音频帧所属音素的概率值，以及每两个相邻音频帧属于唤醒词中相邻的两个音素的概率值。因此，电子设备基于该第一识别信息和第二识别信息，对音频识别模型的模型参数进行调整，以使基于调整后的音频识别模型预测得到的识别信息更加准确，从而提高音频识别模型的识别准确度。经过一次或多次训练之后即可得到训练后的音频识别模型。

303、获取该音频片段中前N个音频帧的第一特征分量和第二特征分量。

其中，第K个音频帧的第一特征分量表示第K个音频帧属于唤醒词中的第K个音素的概率值，第K个音频帧的第二特征分量表示第K个音频帧属于多个音素的概率值中的最大概率值，K为不大于N的正整数。

在一种可能实现方式中，对于音频片段中的第K个音频帧，在第K个音频帧分别针对多个音素所得到的特征分量中，将第K个音频帧针对唤醒词中的第K个音素的特征分量确定为第K个音频帧的第一特征分量，将最大的特征分量确定为第K个音频帧的第二特征分量；

其中，第K个音频帧针对一个音素的特征向量表示第K个音频帧属于一个音素的概率值。

该音频片段包含N+1个音频帧，通过音频识别，得到每个音频帧对应分别针对多个音素的特征分量，则每个音频帧都对应一个第一特征分量和一个第二特征分量，获取该音频片段中前N个音频帧分别对应的第一特征分量和第二特征分量，将会得到N个第一特征分量和N个第二特征分量。

304、将前N个音频帧中的每个音频帧的第一特征分量相加，得到第一特征值。

其中，前N个音频帧中的每个音频帧的第一特征分量，表示每个音频帧属于唤醒词中相同位置上的音素的概率值，而将前N个音频帧中的每个音频帧的第一特征分量相加，所得到的第一特征值能够将前N个音频帧作为一个整体来看，表示这前N个音频帧组成的整体属于唤醒词的概率值。

305、将前N个音频帧中的每个音频帧的第二特征分量相加，得到第二特征值。

其中，前N个音频帧中的每个音频帧的第二特征分量，表示每个音频帧属于多个音素的概率值中的最大概率值，而将前N个音频帧中的每个音频帧的第二特征分量相加，所得到的第二特征值能够将前N个音频帧作为一个整体来看，表示这前N个音频帧组成的整体与音素片段匹配的概率值，其中该音素片段是由前N个音频帧识别出的音素构成的片段。

306、将第N个音频帧与第N+1个音频帧属于唤醒词中相邻的两个音素的概率值确定为第三特征值。

电子设备对该音频片段中的N+1个音频帧进行音频识别时，会得到每两个相邻音频帧属于唤醒词中相邻的两个音素的概率值，此时还会确定该音频片段中第N个音频帧与第N+1个音频帧之间的跳转概率值，也即是第N个音频帧与第N+1个音频帧属于唤醒词中相邻的两个音素的概率值，将其确定为第三特征值。

在一种可能实现方式中，每次采集到一个音频帧时，对当前采集的音频帧与前一个音频帧进行音频识别，得到该音频帧与前一个音频帧属于唤醒词中相邻的两个音素的概率值，直至得到第N个音频帧与第N+1个音频帧属于唤醒词中相邻的两个音素的概率值，将第N个音频帧与第N+1个音频帧属于唤醒词中相邻的两个音素的概率值确定为第三特征值。

307、在第一特征值与第二特征值之间的差值小于第一阈值，且第三特征值满足跳转条件的情况下，确定音频片段中包含唤醒词。

其中，跳转条件表示音频片段中第N个音频帧与第N+1个音频帧不属于唤醒词中相邻的两个音素。

在用户说出唤醒词之前或之后，以及用户说出唤醒词的过程中，电子设备就会获取到一个或多个音频片段。而在用户说出唤醒词的过程中，所构成的音频片段中包含的唤醒词中的音素的数量逐渐增加，音频片段的第一特征值将会增长，由于该音频片段的第一特征值表示该音频片段中前N个音频帧属于唤醒词的概率值，而该音频片段的第二特征值表示该音频片段中前N个音频帧与所识别出的音素片段匹配的概率值，则在该音频片段的第一特征值与第二特征值比较接近时，认为该音频片段中前N个音频帧为唤醒词的可能很大。但是，也可能存在该音频片段的前N个音频帧中仅包含唤醒词的一部分，也即是唤醒词还没有完全说完的情况。因此，如果仅在第一特征值与第二特征值之间的差值小于第一阈值的情况下，就确定识别到唤醒词，会出现误判的情况。

为避免误判的情况，则需要确定第三特征值是否满足跳转条件，也即是确定该音频片段中最后一个音频帧对应的音素是否还属于唤醒词。如果第三特征值满足跳转条件，可以认为该音频片段中最后一个音频帧对应的音素不再属于唤醒词。因此，在第一特征值与第二特征值之间的差值小于第一阈值，且第三特征值满足跳转条件的情况下，可以认为当前的音频片段中前N个音频帧就是唤醒词，也即是该音频片段中包含了唤醒词中的每个音素，从而确定已经识别到完整的唤醒词。

在一种可能实现方式中，在第一特征值与第二特征值之间的差值小于第一阈值，且第三特征值不满足跳转条件的情况下，继续采集音频帧，直至本次构成的音频片段的第一特征值与第二特征值之间的差值小于第一阈值，且第三特征值满足跳转条件，确定本次构成的音频片段中包含唤醒词。

其中，第三特征值不满足跳转条件表示当前的音频片段中最后一个音频帧仍属于唤醒词。此时，需要继续采集音频帧，并构成新的音频片段，重新获取新的音频片段的第一特征值、第二特征值以及第三特征值，并确定重新获取的第一特征值与第二特征值之间的差值是否小于第一阈值，以及第三特征值是否满足跳转条件。直至本次构成的音频片段的第一特征值与第二特征值之间的差值小于第一阈值，且第三特征值满足跳转条件，确定本次构成的音频片段中包含唤醒词。

在一种可能实现方式中，在第一特征值与第二特征值之间的差值小于第一阈值，且第三特征值小于第二阈值的情况下，确定音频片段中包含唤醒词。也即是第三特征值小于第二阈值时，认为第三特征值满足跳转条件。

其中，该第二阈值为预先设置的阈值，可以是任两个音频帧属于唤醒词中相邻的两个音素的概率值的最小阈值，即若两个音频帧属于唤醒词中相邻的两个音素的概率值不小于该第二阈值，即可认为这两个音频帧属于唤醒词中相邻的两个音素，若两个音频帧属于唤醒词中相邻的两个音素的概率值小于该第二阈值，即可认为这两个音频帧不属于唤醒词中相邻的两个音素。

可选地，通过多次的识别可以确定针对唤醒词中的任两个相邻音素对应的音频帧，识别得到的跳转概率值为第一数值，而针对不属于唤醒词的相邻音素的任两个音频帧，识别得到的跳转概率值为第二数值，因此将该第一数值与第二数值的中值作为第二阈值。例如，第一数值为1，第二数值为0。

在一种可能实现方式中，在第一特征值与第二特征值之间的差值小于第一阈值，且第三特征值为目标数值的情况下，确定音频片段中包含唤醒词，目标数值表示第N个音频帧与第N+1个音频帧不属于唤醒词中相邻的两个音素。可选的，目标数值为电子设备预先设置的，如目标数值为0。

例如，唤醒词为“你好”，该唤醒词所包含的音素为“nihao”，也即是唤醒词所包含的五个音素分别为“n”、“i”、“h”、“a”以及“o”，且五个音素是按顺序排列的。在用户说出“nihao”的过程中，电子设备对语音进行实时采集，每采集到一个音频帧，便与之前采集到的五个音频帧进行组合，构成一个包含六个音频帧的音频片段。之后，继续采集音频帧，重复执行上述构成音频片段的操作，从而得到下一个的音频片段。

在用户说出“nihao”的过程中，音频片段中包含的唤醒词的音素越来越多，则第一特征值越来越大，与第二特征值也越来越接近，直到该第一特征值与第二特征值之间的差值小于第一阈值，此时，认为在当前的音频片段中包含唤醒词的可能性很大，但是无法确定是否已识别到完整的唤醒词。之后，还需确定该音频片段的第三特征值是否满足跳转条件，若满足跳转条件，即可认为该音频片段中的前5个音频帧为该唤醒词中的音素“nihao”，也即是识别到完整的唤醒词“你好”，从而唤醒电子设备执行对应的控制操作。

308、基于识别到唤醒词之后采集到的至少一个音频帧识别语音控制指令，执行该语音控制指令对应的控制操作。

唤醒词用于唤醒电子设备，在电子设备确定识别到唤醒词后即可被唤醒。之后，电子设备继续采集音频帧，并启动识别服务，对识别到唤醒词之后采集到的音频帧进行识别，来确定语音控制指令以及该语音控制指令对应的控制操作，从而执行该语音控制指令对应的控制操作。

上述通过语音控制电子设备的过程分为两个阶段：唤醒阶段和控制阶段。

其中，在唤醒阶段，电子设备每采集到一个音频帧，便与之前采集的音频帧共同构成一个音频片段，从而对音频片段进行识别，得到当前构成的音频片段的第一特征值、第二特征值以及第三特征值，在第一特征值与第二特征值比较接近，该音频片段中最后一个音频帧不再属于唤醒词的情况下，也即是在第一特征值与第二特征值之间的差值小于第一阈值，且第三特征值满足跳转条件的情况下，确定已识别到该音频片段中包含完整的唤醒词，此时，电子设备由待机状态被唤醒。

在电子设备被唤醒后，将继续采集新的音频帧，并基于采集到的音频帧识别用户发出的语音控制指令，从而执行该语音控制指令对应的控制操作。相关技术中，会存在用户还没有说完唤醒词，电子设备就确定识别出唤醒词而被唤醒的情况，导致唤醒词对应的剩余音频帧被误认为是语音控制指令对应的音频帧，使得对语音控制指令的识别准确率不高。然而，本申请实施例中，电子设备在识别到完整的唤醒词后才会被唤醒，能够保证被唤醒后所采集到的音频帧都属于语音控制指令，而不包括唤醒词对应的音频帧，提高了音频识别的准确率。

需要说明的是，本申请实施例中仅是以根据唤醒词唤醒电子设备后，执行语音控制指令对应的控制操作为例进行说明的。而在另一实施例中，唤醒词还用于唤醒电子设备执行相应的控制操作。因此，在电子设备确定识别到唤醒词后，即可直接执行相应的控制操作。可选地，电子设备中存储有任一唤醒词与控制操作之间的对应关系，则电子设备识别到唤醒词后，查询与该唤醒词对应的控制操作，并执行该控制操作。

例如，在用户使用手机的过程中，如果不方便双手操作手机，就可以通过说出唤醒词来实现人机交互。例如，唤醒词为“接听电话”，在有电话打来的情况下，用户说出“接听电话”，手机识别到“接听电话”后，执行将电话接通的操作。或者，唤醒词为“挂断电话”，用户说出“挂断电话”，手机识别到“挂断电话”后，执行将电话挂断的操作。

并且，每次采集到一个音频帧，就执行一次构成音频片段的操作，从而实时识别采集到的音频帧所构成的音频片段是否包含完整的唤醒词，确保能够及时在音频片段中识别出完整的唤醒词。

并且，第三特征值需满足的跳转条件可以是小于第二阈值，则在第一特征值与第二特征值之间的差值小于第一阈值，且第三特征值小于第二阈值的情况下，确保第三特征值满足跳转条件，才确定本次构成的音频片段中的最后两个音频帧不属于唤醒词中相邻的两个音素，也即是前N个音频帧对应的内容是识别到的完整唤醒词，因此准确的识别到了唤醒词包含的N个音素，提高了音频识别的准确率。

并且，在第三特征值为目标数值时，认为第三特征值满足跳转条件，则在第一特征值与第二特征值之间的差值小于第一阈值，且第三特征值为目标数值的情况下，确保第三特征值满足跳转条件，才确定本次构成的音频片段中的最后两个音频帧不属于唤醒词中相邻的两个音素，也即是前N个音频帧对应的内容是识别到的完整唤醒词，因此准确的识别到了唤醒词包含的N个音素，提高了音频识别的准确率。

图4是本申请实施例提供的一种音频识别装置的结构示意图。参见图4，该装置包括：

获取模块401，用于在采集到音频帧时，将当前采集的音频帧与之前采集的音频帧构成一个音频片段，并获取音频片段的第一特征值、第二特征值和第三特征值；

第一确定模块402，用于在第一特征值与第二特征值之间的差值小于第一阈值，且第三特征值满足跳转条件的情况下，确定音频片段中包含唤醒词；

其中，音频片段包括N+1个音频帧，相邻的两个音频片段包括至少一个相同的音频帧，N为正整数，且N等于唤醒词包含的音素的数量；第一特征值表示音频片段中前N个音频帧属于唤醒词的概率值，第二特征值表示音频片段中前N个音频帧与音素片段匹配的概率值，音素片段是由前N个音频帧识别出的音素构成的片段，第三特征值表示音频片段中第N个音频帧与第N+1个音频帧属于唤醒词中相邻的两个音素的概率值，跳转条件表示音频片段中第N个音频帧与第N+1个音频帧不属于唤醒词中相邻的两个音素。

本申请实施例提供的装置，获取所采集的音频片段的第一特征值、第二特征值和第三特征值，在第一特征值与第二特征值之间的差值小于第一阈值且第三特征值满足跳转条件的情况下，才能说明当前的音频片段中前N个音频帧属于唤醒词的概率值接近于前N个音频帧属于其匹配的音素片段的概率值，则前N个音频帧属于唤醒词，而最后一个音频帧已不再属于唤醒词，从而确定音频片段中前N个音频帧对应的内容为唤醒词。采用这种音频识别方法，能够确保识别到完整的唤醒词，提高了音频识别的准确率。

在一种可能实现方式中，图5是本申请实施例提供的另一种音频识别装置的结构示意图，参见图5，装置还包括：

第二确定模块403，用于在第一特征值与第二特征值之间的差值小于第一阈值，且第三特征值不满足跳转条件的情况下，继续采集音频帧，直至本次构成的音频片段的第一特征值与第二特征值之间的差值小于第一阈值，且第三特征值满足跳转条件，确定本次构成的音频片段中包含唤醒词。

在一种可能实现方式中，参见图5，获取模块401，包括：

识别单元4011，用于获取音频片段中前N个音频帧的第一特征分量和第二特征分量，其中，第K个音频帧的第一特征分量表示第K个音频帧属于唤醒词中的第K个音素的概率值，第K个音频帧的第二特征分量表示第K个音频帧属于多个音素的概率值中的最大概率值，K为不大于N的正整数；

第一融合单元4012，用于将前N个音频帧中的每个音频帧的第一特征分量相加，得到音频片段的第一特征值；

第二融合单元4013，用于将前N个音频帧中的每个音频帧的第二特征分量相加，得到音频片段的第二特征值。

在一种可能实现方式中，参见图5，识别单元4011，用于：

对于音频片段中的第K个音频帧，在第K个音频帧分别针对多个音素的特征分量中，将第K个音频帧针对唤醒词中的第K个音素的特征分量确定为第K个音频帧的第一特征分量，将最大的特征分量确定为第K个音频帧的第二特征分量；

在一种可能实现方式中，参见图5，识别单元4011，用于：

每次采集到一个音频帧时，对音频帧进行音频识别，得到音频帧分别针对多个音素的特征分量；

其中，一个音频帧针对一个音素的特征向量表示一个音频帧属于一个音素的概率值。

在一种可能实现方式中，参见图5，获取模块401，包括：

识别单元4011，用于每次采集到一个音频帧时，对当前采集的音频帧与前一个音频帧进行音频识别，得到音频帧与前一个音频帧属于唤醒词中相邻的两个音素的概率值，直至得到第N个音频帧与第N+1个音频帧属于唤醒词中相邻的两个音素的概率值，将第N个音频帧与第N+1个音频帧属于唤醒词中相邻的两个音素的概率值确定为第三特征值。

在一种可能实现方式中，参见图5，获取模块401，包括：

识别单元4011，用于调用音频识别模型，对音频片段中的N+1个音频帧进行音频识别，得到每个音频帧分别针对多个音素的特征分量，以及每两个相邻音频帧属于唤醒词中相邻的两个音素的概率值，其中，一个音频帧针对一个音素的特征向量表示一个音频帧属于一个音素的概率值；

第一融合单元4012，用于将前N个音频帧中的每个音频帧的第一特征分量相加，得到第一特征值，其中，第K个音频帧的第一特征分量表示第K个音频帧属于唤醒词中的第K个音素的概率值，K为不大于N的正整数；

第二融合单元4013，用于将前N个音频帧中的每个音频帧的第二特征分量相加，得到第二特征值，其中，第K个音频帧的第二特征分量表示第K个音频帧属于多个音素的概率值中的最大概率值；

第一确定单元4015，用于将第N个音频帧与第N+1个音频帧属于唤醒词中相邻的两个音素的概率值确定为第三特征值。

在一种可能实现方式中，参见图5，装置还包括：

样本获取模块404，用于获取多个训练样本，多个训练样本包括正训练样本和负训练样本，正训练样本为包含唤醒词的音频片段，负训练样本为不包含唤醒词的音频片段；

训练模块405，用于基于多个训练样本对音频识别模型进行训练。

在一种可能实现方式中，参见图5，训练模块405，包括：

第二确定单元4051，用于确定每个训练样本对应的第一识别信息，第一识别信息包括训练样本中的每个音频帧对应的音素；

训练识别单元4052，用于调用音频识别模型，对每个训练样本中的音频帧进行音频识别，得到每个训练样本对应的第二识别信息，第二识别信息包括训练样本中的每个音频帧针对多个音素的特征分量，以及每两个相邻音频帧属于唤醒词中相邻的两个音素的概率值；其中，一个音频帧针对一个音素的特征向量表示一个音频帧属于一个音素的概率值；

调整单元4053，用于基于每个训练样本对应的第一识别信息和第二识别信息，调整音频识别模型的模型参数。

在一种可能实现方式中，参见图5，第一确定模块402，包括：

第三确定单元4021，用于在第一特征值与第二特征值之间的差值小于第一阈值，且第三特征值小于第二阈值的情况下，确定音频片段中包含唤醒词。

在一种可能实现方式中，参见图5，第一确定模块402，包括：

第三确定单元4021，用于在第一特征值与第二特征值之间的差值小于第一阈值，且第三特征值为目标数值的情况下，确定音频片段中包含唤醒词，目标数值表示第N个音频帧与第N+1个音频帧不属于唤醒词中相邻的两个音素。

在一种可能实现方式中，参见图5，装置还包括：

执行模块406，用于基于识别到唤醒词之后采集到的至少一个音频帧识别语音控制指令，执行语音控制指令对应的控制操作。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

需要说明的是：上述实施例提供的音频识别装置在进行音频识别时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将电子设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的音频识别装置与音频识别方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请实施例还提供了一种电子设备，该电子设备包括处理器和存储器，存储器中存储有至少一条程序代码，该至少一条程序代码由处理器加载并执行，以实现上述实施例的音频识别方法所执行的操作。

可选地，该电子设备提供为终端。图6是本申请实施例提供的一种终端600的结构示意图。该终端600可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(MovingPicture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

终端600包括有：处理器601和存储器602。

处理器601可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器601可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。在一些实施例中，处理器601还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器602中的非暂态的计算机可读存储介质用于存储至少一条程序代码，该至少一条程序代码用于被处理器601所执行以实现本申请中方法实施例提供的音频识别方法。

在一些实施例中，终端600还可选包括有：外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地，外围设备包括：射频电路604、音频电路605和电源606中的至少一种。

外围设备接口603可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。在一些实施例中，处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上；在一些其他实施例中，处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路604用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路604包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路604还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

音频电路605可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器601进行处理，或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路605还可以包括耳机插孔。

电源606用于为终端600中的各个组件进行供电。电源606可以是交流电、直流电、一次性电池或可充电电池。当电源606包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

本领域技术人员可以理解，图6中示出的结构并不构成对终端600的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

可选地，该电子设备提供为服务器。图7是本申请实施例提供的一种服务器的结构示意图，该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central Processing Units，CPU)701和一个或一个以上的存储器702，其中，存储器702中存储有至少一条程序代码，该至少一条程序代码由处理器701加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条程序代码，该至少一条程序代码由电子设备中的处理器加载并执行，以实现上述实施例中的音频识别方法。该计算机可读存储介质可以是存储器。例如，该计算机可读存储介质可以是ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory，紧凑型光盘只读储存器)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序产品，该计算机程序产品包括至少一条程序代码，上述至少一条程序代码可由电子设备的处理器执行，以实现上述实施例所示的音频识别方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上仅为本申请实施例的可选实施例，并不用以限制本申请实施例，凡在本申请实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种音频识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，获取所述第一特征值和所述第二特征值，包括：

4.根据权利要求3所述的方法，其特征在于，所述获取所述音频片段中前N个音频帧的第一特征分量和第二特征分量，包括：

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，获取所述第三特征值，包括：

7.根据权利要求1所述的方法，其特征在于，所述获取所述音频片段的第一特征值、第二特征值和第三特征值，包括：

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

基于所述多个训练样本对所述音频识别模型进行训练。

9.根据权利要求8所述的方法，其特征在于，所述基于所述多个训练样本对所述音频识别模型进行训练，包括：

10.根据权利要求1所述的方法，其特征在于，所述在所述第一特征值与所述第二特征值之间的差值小于第一阈值，且所述第三特征值满足跳转条件的情况下，确定所述音频片段中包含唤醒词，包括：

11.根据权利要求1所述的方法，其特征在于，所述在所述第一特征值与所述第二特征值之间的差值小于第一阈值，且所述第三特征值满足跳转条件的情况下，确定所述音频片段中包含唤醒词，包括：

12.根据权利要求1-11任一项所述的方法，其特征在于，所述在所述音频片段的所述第一特征值与所述第二特征值之间的差值小于第一阈值，且所述第三特征值小于第二阈值的情况下，确定所述音频片段中包含唤醒词之后，所述方法还包括：

13.一种音频识别装置，其特征在于，所述装置包括：

14.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现如权利要求1至12任一项所述的音频识别方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现如权利要求1至12任一项所述的音频识别方法。