CN111223488A

CN111223488A - 语音唤醒方法、装置、设备及存储介质

Info

Publication number: CN111223488A
Application number: CN201911392963.XA
Authority: CN
Inventors: 宋天龙
Original assignee: Shanghai Jinsheng Communication Technology Co ltd; Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Shanghai Jinsheng Communication Technology Co ltd; Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2020-06-02
Anticipated expiration: 2039-12-30
Also published as: WO2021136054A1; CN111223488B

Abstract

本申请实施例公开了一种语音唤醒方法、装置、设备及存储介质，属于人机交互领域。所述方法包括：对采集的语音数据进行特征提取，得到语音特征；通过U型卷积神经网络模型对语音特征进行特征提取和特征融合，得到第一输出特征；通过注意力模型对第一输出特征的各个通道的特征进行注意力计算，得到注意力权重向量，对注意力权重向量进行尺度化处理，根据处理后的注意力权重向量对第一输出特征进行加权处理，得到第二输出特征；对第二输出特征进行概率转换，得到唤醒词概率；基于唤醒词概率，对电子设备进行唤醒。本申请由于对提取的特征进行了充分的特征融合和注意力计算，因此基于预测的唤醒词概率更加准确，泛化能力更强，减小了误唤醒概率。

Description

语音唤醒方法、装置、设备及存储介质

技术领域

本申请实施例涉及人机交互领域，特别涉及一种语音唤醒方法、装置、设备及存储介质。

背景技术

在人机交互领域，为了便于用户对设备进行控制，以及提高人机交互乐趣，对于具有语音功能的设备，用户可以通过语音唤醒技术来对其进行唤醒。语音唤醒是指在设备处于休眠状态时，通过特定的唤醒词唤醒设备，使设备从休眠状态切换为工作状态，开始为用户进行服务。

相关技术中，设备可以在休眠状态下不断获取外界的语音数据，然后对语音数据进行预处理，对处理后的语音数据进行特征提取，得到语音特征，再将语音特征作为高斯混合模型的输入，通过高斯混合模型来预测唤醒词概率，根据唤醒词概率确定是否对设备进行唤醒。其中，唤醒词概率用于指示语音数据中包含预设唤醒词的概率。

但是，由于高斯混合模型对提取的语音特征的处理能力不足，泛化能力较差，而且高斯混合模型主要是对孤立的唤醒词进行识别，对于连续语音中包含唤醒词的情况识别效果不是很好，这将导致对唤醒词概率的预测准确率较低，进而导致容易出现误唤醒的情况。

发明内容

本申请实施例提供了一种语音唤醒方法、装置、设备及存储介质，能够解决相关技术中存在的对唤醒词概率的预测准确率较低，容易出现误唤醒的技术问题。所述技术方案如下：

一方面，本申请实施例提供了一种语音唤醒方法，所述方法包括：

对采集的语音数据进行特征提取，得到语音特征；

将所述语音特征作为U型卷积神经网络模型的输入，通过所述U型卷积神经网络模型对所述语音特征进行特征提取和特征融合，得到第一输出特征；

将所述第一输出特征作为注意力模型的输入，通过所述注意力模型对所述第一输出特征的各个通道的特征进行注意力计算，得到注意力权重向量，对所述注意力权重向量进行尺度化处理，根据处理后的注意力权重向量和所述第一输出特征，确定第二输出特征；

对所述第二输出特征进行概率转换，得到第一唤醒词概率，所述第一唤醒词概率用于指示所述语音数据中包括预设唤醒词的概率；

基于所述第一唤醒词概率，对电子设备进行唤醒。

另一方面，提供了一种语音唤醒装置，所述装置包括：

特征提取模块，用于对采集的语音数据进行特征提取，得到语音特征；

第一处理模块，用于将所述语音特征作为U型卷积神经网络模型的输入，通过所述U型卷积神经网络模型对所述语音特征进行特征提取和特征融合，得到第一输出特征；

第二处理模块，用于将所述第一输出特征作为注意力模型的输入，通过所述注意力模型对所述第一输出特征的各个通道的特征进行注意力计算，得到注意力权重向量，对所述注意力权重向量进行尺度化处理，根据处理后的注意力权重向量和所述第一输出特征，确定第二输出特征；

第三处理模块，用于对所述第二输出特征进行概率转换，得到第一唤醒词概率，所述第一唤醒词概率用于指示所述语音数据中包括预设唤醒词的概率；

唤醒模块，用于基于所述第一唤醒词概率，对电子设备进行唤醒。

另一方面，提供了一种电子设备，所述电子设备包括处理器和存储器；所述存储器存储有至少一条指令，所述至少一条指令用于被所述处理器执行以实现上述消息合并方法。

另一方面，提供了计算机可读存储介质，其特征在于，所述存储介质存储有至少一条指令，所述至少一条指令用于被处理器执行以实现上述语音唤醒方法。

另一方面，还提供了一种计算机程序产品，该计算机程序产品存储有至少一条指令，所述至少一条指令用于被处理器执行以实现上述语音唤醒方法。

本申请提供的技术方案至少可以带来以下有益效果：

本申请实施例中，通过在对获取的语音数据进行特征提取之后，先通过U型卷积神经网络模型对语音特征进行特征提取和特征融合，可以将低级特征和高级特征进行融合，得到第一输出特征，之后通过注意力模型对第一输出特征的各个通道的特征进行注意力计算，得到注意力权重向量，并对注意力权重向量进行尺度化处理，以便根据处理后的注意力权重向量对第一输出特征进行加权处理，如此，可以增强有用特征，削弱无用特征，由于对提取的特征进行了充分的特征融合和注意力计算，因此预测得到的唤醒词概率更加准确，泛化能力更强，而且通过注意力计算能够将语音识别的注意力集中在唤醒词上，对连续语音中包含唤醒词的情况识别效果较好，从而减小了误唤醒概率。

附图说明

图1是本申请实施例提供的一种语音唤醒方法的流程图；

图2是本申请实施例提供的一种对语音数据进行特征提取的流程图；

图3是本申请实施例提供的一种U型卷积神经网络模型的模型结构图；

图4是本申请实施例提供的一种注意力特征提取流程；

图5是本申请实施例提供的一种注意力模型的模型结构图；

图6是本申请实施例提供的一种注意力尺度化流程图；

图7是本申请实施例提供的一种历史窗口记忆模型和记忆融合处理模型的模型结构图；

图8是本申请实施例提供的另一种唤醒方法的流程图；

图9是本申请实施例提供的一种一级唤醒算法的逻辑结构示意图；

图10是本申请实施例提供的又一种语音唤醒方法的流程图；

图11是本申请实施例提供的又一种语音唤醒方法的流程图；

图12是本申请实施例提供的一种语音唤醒装置的结构框图；

图13是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

在对本申请实施例进行详细介绍之前，先对本申请实施例的实施环境进行介绍。本申请实施例提供的语音唤醒方法应用于电子设备中，该电子设备可以为智能音箱、智能电视、智能可穿戴设备或终端等，终端可以为手机、平板电脑或计算机等。以该电子设备为终端为例，终端可以采用本申请实施例提供的方法采集外界的语音数据，识别语音数据中是否包含特定的唤醒词，根据识别结果对终端进行唤醒。

图1是本申请实施例提供的一种语音唤醒方法的流程图，该方法应用于电子设备中，如图1所示，该方法包括如下步骤：

步骤101：对采集的语音数据进行特征提取，得到语音特征。

电子设备可以不断采集外界的语音数据，然后对采集的语音数据进行特征提取。示例的，电子设备中配置有麦克风，电子设备可以通过麦克风采集语音数据。

其中，语音特征可以为MFCC(Mel-scale Frequency Cepstral Coefficients，梅尔倒谱系数)，或其他语音特征。

作为一个示例，请参考图2，图2是本申请实施例提供的一种对语音数据进行特征提取的流程图，如图2所示，对语音数据进行特征提取的过程可以包括预处理、平滑、傅里叶变换和MFCC提取这几个过程。

比如，先通过高斯滤波器对语音数据对应的语音信号进行滤波处理，然后对滤波后的语音信号进行平滑处理，以平滑帧信号的边缘，再对平滑后的语音信号进行傅里叶变换，从傅里叶变换结果中提取MFCC，将MFCC作为语音特征。

作为一个示例，滤波处理的数学表达式可以为：H(z)＝1-az^-1。其中，z为语音信号，a为修正系数，一般取0.95-0.97，H(z)为滤波处理结果。

作为一个示例，平滑处理时可以采用汉明窗进行平滑处理，平滑处理的数学表达式可以为：

其中，n为正整数，n＝0,1,2,3....M；M为傅里叶变换的点数，比如M可以为512；ω(n)为平滑处理结果。

作为一个示例，从傅里叶变换结果中提取MFCC的数学表达式为：

其中，f为傅里叶变换后的频点，F_mel(f)为MFCC。

步骤102：将语音特征作为U型卷积神经网络模型的输入，通过U型卷积神经网络模型对语音特征进行特征提取和特征融合，得到第一输出特征。

其中，该U型卷积神经网络模型的输入为步骤101提取得到的语音特征，输出为第一输出特征。

作为一个示例，U型卷积神经网络模型可以为U型残差卷积神经网络模型。

作为一个示例，U型卷积神经网络模型包括N个网络层组，每个网络层组包括卷积神经网络层、批归一化层和线性激活层，且N个网络层组中指定浅层网络层的输出特征流向指定深层网络层，以对N个网络层中的浅层网络与深层网络进行特征融合。

请参考图3，图3是本申请实施例提供的一种U型卷积神经网络模型的模型结构图，如图3所示，该U型卷积神经网络模型包括N个网络层组，第一个网络层组包括卷积神经网络层1、批归一化层1和线性激活层1，第二个网络层组包括卷积神经网络层2、批归一化层2和线性激活层2，...，第N-1个网络层组包括卷积神经网络层N-1、批归一化层N-1和线性激活层N-1，第N个网络层组包括卷积神经网络层N、批归一化层N和线性激活层N。另外，该U型卷积神经网络模型还包括U型结构，用于将浅层网络的输出特征流向深层网络，以对浅层网络与深层网络进行特征融合。

卷积神经网络层是一种以卷积作为主要计算方式的神经网络层，用于将语音特征提取为大小为C*R*1的数据形式，其中，C为特征列数、R为特征行数，通道数为1。通过将提取得到的语音特征依次输入到卷积神经网络层中，可以通过卷积神经网络层计算语音特征的局部特征。

作为一个示例，卷积神经网络层的计算公式可以如以下公式(1)所示：

其中，I表示卷积神经网络层的输入，W表示卷积对应的权重，bias表示偏置，经过卷积神经网络层计算得到的结果是尺寸为c*r*l的3D特征。

批归一化层是指批归一化神经网络层，其是一种有效对各层输出进行自适应归一化的网络层。作为一个示例，批归一化层的计算公式可以如以下公式(2)-(5)所示：

β^(k)＝E[x^(k)] (5)

其中，x为批归一化层的输入，通过批归一化层对x进行方差和均值计算，之后计算自适应因子β,γ，再将计算得到的自适应参数在模型推理过程中进行计算。

线性激活层用于对上一层的输出特征进行线性变换，具有对输出特征进行线性提升的功能。作为一个示例，线性激活层的计算公式如以下公式(6)所示：

y＝f(x),f＝max(λ*x,0) (6)

其中，x为线性激活层的输入，y为线性激活层的输出，λ为因子。公式(6)中，对于输出为正值的部分特征x需乘以因子λ作为线性增强手段，对于输出为负值或0的部分特征x则为0。

U型结构是一种以各层特征进行分离和合并的层状结构，能够令指定浅层网络的输出特征流向指定深层网络，与指定深层网络的输出特征进行特征融合。

其中，指定浅层网络和指定深层网络可以预先设置。比如，第一个网络层组中的卷积神经网络层1的输出特征可以流向最后一个网络层组的线性激活层N，使得卷积神经网络层1的输出特征与线性激活层N的输出特征进行融合；第二个网络层组中的卷积神经网络层2的输出特征可以流向倒数第二个网络层组的线性激活层N-1，使得卷积神经网络层2的输出特征与线性激活层N-1的输出特征进行融合。另外，特征融合时需要进行多尺度融合，也即是，若融合前的两个输出特征的尺度不同，则需要将这两个输出特征的尺度调整为一致，再进行特征融合。

通过将浅层网络与深层网络进行特征融合这种形式，将全部特征信息流予以保留和计算，对推理过程中的低级特征和高级特征进行融合，提升预测结果。比如，通过实际验证，可以将最终将结果提升3％。

如图3所示，U型卷积神经网络模型反复应用卷积神经网络层、批归一化层、线性激活层和U型结构进行模型纵向维度的加深，对于模型特征抽象和提取进行有效分类并不断降低模型输出的维度，最终模型在多次叠加后得到U型卷积神经网络模型的最终输出。

步骤103：将第一输出特征作为注意力模型的输入，通过注意力模型对第一输出特征的各个通道的特征进行注意力计算，得到注意力权重向量，对注意力权重向量进行尺度化处理，根据处理后的注意力权重向量和第一输出特征，确定第二输出特征。

其中，该注意力模型的输入为第一输出特征，输出为第二输出特征。

注意力模型能够对输入特征进行逐通道的注意力特征提取，注意力特征提取的目的是将模型在高维特征上的各通道信息表征能力进行尺度化，进而得到基于语音唤醒等深度学习任务的不同尺度。各通道注意力提取在U型卷积神经网络模型之后进行信息流的分流，将原有的输入特征分别进行各通道注意力尺度化和原始输入特征的保留。作为一个示例，请参考图4，图4是本申请实施例提供的一种注意力特征提取流程，如图4所示，可以对第一输出特征进行逐通道的注意力特征提取。

通过对注意力模型对第一输出特征的各个通道的特征进行注意力计算，并根据注意力权重向量对第一输出特征进行加权处理，可以增强有用特征，削弱无用特征，将语音识别的注意力集中在唤醒词上，提高识别效果，对连续语音中包含唤醒词的情况识别效果较好，减小了误唤醒概率。

作为一个示例，请参考图5，图5是本申请实施例提供的一种注意力模型的模型结构图，如图5所示，该注意力模型包括池化层、卷积层、第一全连接层和第一非线性激活层。相应地，通过注意力模型对第一输出特征的各个通道的特征进行注意力计算，得到注意力权重向量的操作包括如下步骤1)-4)：

1)通过池化层对第一输出特征的各个通道的特征分别进行池化操作，得到池化层的输出特征。

其中，该池化层的输入为第一输出特征。将第一输出特征输入至池化层后，池化层可以对第一输出特征的各个通道的特征分别进行池化操作。

作为一个示例，池化层为TopN池化层，用于对第一输出特征的各个通道进行TopN维的特征提取。也即是，对于第一输出特征的每个通道，TopN池化层可以对每个通道的全部特征按照从大到小的顺序进行排序，并提取排序在前的N位特征作为该通道的池化结果。依次对所有通道进行如上操作，即可得到输出特征。

作为一个示例，第一输出特征的尺寸为C*H*W，其中C为通道数，H为高度，W为宽度，池化层为TopN池化层。对于每一个通道c,c∈C，TopN池化层对该通道的全部特征按照从大到小的顺序进行排序，提取排序在前的N位特征作为该通道的池化值。依次对所有通道进行如上操作，即可得到尺寸为C*N*1的输出特征。

2)将池化层的输出特征作为卷积层的输入，通过卷积层对池化层的输出特征进行卷积处理，得到卷积层的输出特征。

其中，该卷积层为卷积神经网络层，用于对池化层的输出特征进行卷积处理。比如，在池化层输出尺寸为C*N*1的输出特征之后，池化层可以将得到的输出特征输入至卷积层进行卷积处理，得到尺寸为C/N*1*1的一维向量输出特征。

作为一个示例，卷积层的计算公式如下：

其中，I表示卷积层的输入，W表示卷积对应的权重，bias表示偏置。

3)将卷积层的输出特征作为第一全连接层的输入，通过第一全连接层对卷积层的输出特征进行处理，得到第一全连接层的输出特征。

第一全连接层是一种以权重作为计算方式的神经网络层，用于对输入的特征计算局部特征。比如，若卷积层的输出特征的尺寸为C/N*1*1，则通过第一全连击层的计算得到的第一全连接层的输出特征的尺寸为C*1*1。

需要说明的是，该注意力模型可以包括一个或多个第一全连接层，每个第一全连接层用于对上一个网络层的输出特征进行处理，在将输出特征输入至下一个网络层。如图5所示，该注意力模型包括两个第一全连接层。

4)将第一全连接层的输出特征作为非线性激活层的输入，通过非线性激活层对第一全连接层的输出特征进行非线性处理，得到注意力权重向量。

非线性激活层用于对第一全连接层的输出特征进行非线性变换，具有对输出特征进行非线性提升的功能。示例的，注意力权重向量的尺寸为C*1*1。

作为一个示例，非线性激活层的计算公式如下所示：

y＝sigmoid(x) (8)

其中，y为非线性激活层的输出，即注意力权重向量，x为非线性激活层的输入。

另外，如图4所示，该注意力模型还包括注意力尺度化层，注意力尺度化层的输入包括第一输出特征和注意力权重向量。也即是，U型卷积神经网络模型可以将第一输出特征分别输入至该注意力模型的池化层和注意力尺度化层，在非线性激活层计算得到注意力权重向量之后，可以将注意力权重向量也输入至注意力尺度化层，由注意力尺度化层对第一输出特征和注意力权重向量进行处理，得到第二输出特征。

作为一个示例，通过注意力模型对注意力权重向量进行尺度化处理，根据处理后的注意力权重向量和第一输出特征，确定第二输出特征的操作可以包括如下步骤：

1)通过注意力尺度化层，对注意力权重向量进行尺度化处理，得到第一尺度化权重向量。

作为一个示例，可以通过以下公式中的任一种对注意力权重向量进行尺度化处理，得到第一尺度化权重向量：

a_t＝g_BO(h_t)＝b_t (9)

a_t＝g_L(h_t)＝w_t ^Th_t+b_t (10)

a_t＝g_SL(h_t)＝w^Th_t+b (11)

a_t＝g_NL(h_t)＝V_t ^Ttanh(w_t ^Th_t+b_t) (12)

a_t＝g_SNL(h_t)＝V^Ttanh(w^Th_t+b) (13)

其中，a_t为第一尺度化权重向量，h_t为注意力权重向量，b为预设参数。

上述5种尺度化处理方式都可以通过端到端的训练达到收敛的结果，同时针对不同特征分布的模型有各自的优势。

在另一种实施例中，还可以通过上述5种尺度化处理方式分别对注意力权重向量进行尺度化处理，得到5种第一尺度化权重向量，然后确定这5种第一尺度化权重向量的均值作为最终的第一尺度化权重向量。

2)通过注意力尺度化层，对第一尺度化权重向量进行归一化处理，得到第二尺度化权重向量。

在得到第一尺度化权重向量之后，还可以对第一尺度化权重向量进行归一化处理，得到第二尺度化权重向量。

作为一个示例，归一化处理的计算公式如下：

其中，k_t为第二尺度化权重向量，a_t为第二尺度化权重向量。

3)通过注意力尺度化层，根据第二尺度化权重向量对第一输出特征进行加权处理，得到第三输出特征。

作为一个示例，可以通过以下公式，根据第二尺度化权重向量对第一输出特征进行加权处理：

其中，ω为第三输出特征，k为第二尺度化权重向量，j为第一输出特征。

示例的，第一输出特征的尺寸为C*H*W，第二尺度化权重向量的尺寸为C*1*1，第三输出特征的尺寸为C*H*W。

4)根据第三输出特征，确定第二输出特征。

第一种实现方式中，可以直接将第三输出特征确定为第二输出特征。

第二种实现方式中，注意力模型的输入还可以包括语音特征，可以将语音特征和第三输出特征进行合并，得到第二输出特征。

作为一个示例，注意力尺度化层的处理流程可以如图6所示，图6是本申请实施例提供的一种注意力尺度化流程图。

通过注意力模型对注意力权重向量进行尺度化处理，根据处理后的注意力权重向量对第一输出特征进行加权处理，得到第二输出特征，可以融合低维特征和高纬特征，使得模型在多种场景下有更好的泛化能力。

步骤104：对第二输出特征进行概率转换，得到第一唤醒词概率，第一唤醒词概率用于指示语音数据中包括预设唤醒词的概率。

对第二输出特征进行概率转换，也即是，将第二输出特征与唤醒词概率进行特征映射，得到第一唤醒词概率。第一唤醒词概率为对于类别的概率估计，范围一般在[0,1]之间。

作为一个示例，对第二输出特征进行概率转换，得到第一唤醒词概率的操作包括：对第二输出特征进行全局池化操作，得到全局池化特征；对全局池化特征进行全局归一化处理，得到第一唤醒词概率。

通过全局池化可以对第二输出特征进行特征降维，对第二输出特征进行高度和宽度方向上的池化。比如，全局池化的计算公式可以如下所示：

其中，

为全局池化特征，β_i为第二输出特征。

作为一个示例，全局池化特征的尺寸为C*1*1。

作为一个示例，归一化处理的计算公式如下所示：

其中，g_t为第一唤醒词概率，

为全局池化特征。

在得到第一唤醒词概率之后，可以基于第一唤醒词概率，对电子设备进行唤醒。比如，若第一唤醒词概率大于概率阈值，则判断语音识别通过，触发唤醒电子设备，若第一唤醒词概率小于或等于概率阈值，则判断语音识别未通过，不触发唤醒电子设备，并继续采集语音数据，重复上述步骤对语音数据进行识别。

作为一个示例，概率阈值可以为令数据集样本中的EER(Equal ErrorRate，等错误率)最小时的概率阈值，这样可以使得模型的误唤醒率和误拒绝率达到平衡。

在另一示例中，在计算得到第一唤醒词概率之后，还可以基于第一唤醒词概率，确定目标唤醒词概率，以便基于目标唤醒词概率对电子设备进行唤醒。比如，若目标唤醒词概率大于概率阈值，则判断语音识别通过，触发唤醒电子设备，若目标唤醒词概率小于或等于概率阈值，则判断语音识别未通过，不触发唤醒电子设备，并继续采集语音数据，重复上述步骤对语音数据进行识别。

步骤105：基于第一唤醒词概率，确定目标唤醒词概率。

作为一个示例，基于第一唤醒词概率，确定第四唤醒词概率的操作可以包括以下两种实现方式：

第一种实现方式：将第一唤醒词概率确定为目标唤醒词概率。

也即是，可以基于第一唤醒词概率，对电子设备进行唤醒。

第二种实现方式：将第一唤醒词概率与历史唤醒词概率进行融合处理，得到第二唤醒词概率，将第二唤醒词概率确定为目标唤醒词概率。

通过将第一唤醒词概率与历史唤醒词概率进行融合处理，可以进一步提高唤醒词概率的预测准确度，进而减小误唤醒率。

作为一个示例，可以确定M个历史唤醒词概率，M个历史唤醒词概率是对历史语音数据进行预测得到；然后对M个历史唤醒词概率和第一唤醒词概率进行融合处理，得到第二唤醒词概率。

作为一个示例，可以对M个历史唤醒词概率和第一唤醒词概率进行融合处理，得到第二唤醒词概率的操作包括以下步骤：

步骤1051：将M个历史唤醒词概率和第一唤醒词概率作为历史窗口记忆模型的输入，通过历史窗口记忆模型，对M个历史唤醒词概率进行特征提取，将提取的特征与第一唤醒词概率进行逐点相乘，得到融合特征。

其中，历史窗口记忆模型能够将已输出的M个历史唤醒词概率依次保存在历史记忆模型中，并将历史保留的唤醒词概率进行二次特征提取，进行含有记忆能力的模型概率估计。示例的，M个历史唤醒词概率的数据大小为M*C。

作为一个示例，请参考图7，图7是本申请实施例提供的一种历史窗口记忆模型和记忆融合处理模型的模型结构图，如图7所示，历史窗口记忆模型包括双向RNN(RecurrentNeural Network，循环卷积神经网络)层、第一逐点相乘层、归一化处理层和第二逐点相乘层，双向RNN层包括第一RNN层和第二RNN层。相应的，步骤1051可以包括如下步骤：

1)将M个历史唤醒词概率作为双向RNN层的输入，通过第一RNN层和第二RNN层分别对M个历史唤醒词概率进行特征提取，得到第二概率特征和第三概率特征。

双向RNN层可以对有效地对序列信息特征进行特征提取和处理。作为一个示例，该双向RNN层可以为N节点的双向RNN层。

将M个历史唤醒词概率分别作为第一RNN层和第二RNN层的输入，通过第一RNN层对M个历史唤醒词概率进行特征提取得到第二概率特征，通过第二RNN层对M个历史唤醒词概率进行特征提取得到第三概率特征。

2)将第一唤醒词概率和第二概率特征作为第一逐点相乘层的输入，通过第一逐点相乘层对第一唤醒词概率和第二概率特征进行逐点相乘，得到第一逐点相乘层的输出特征。

也即是，第一RNN层的下一个网络层为第一逐点相乘层，且第一逐点相乘层的输入不仅包括第一RNN层输出的第二概率特征，还包括第一唤醒词概率。

作为一个示例，第一唤醒词概率与第二概率特征的特征尺寸相同。第一逐点相乘层的输出特征可以为尺寸为C的一维特征向量。

3)将第一逐点相乘层的输出特征作为归一化处理层的输入，通过归一化处理层对第一逐点相乘层的输出特征进行归一化处理，得到归一化处理层的输出特征。

也即是，第一逐点相乘层的下一个网络层为为归一化处理层。示例的，归一化处理层可以为softmax层。

作为一个示例，归一化处理层的计算公式可以如下所示：

其中，h_t为归一化处理层的输出特征，c_t为第一逐点相乘层的输出特征。

4)将归一化处理层的输出特征和第三概率特征作为第二逐点相乘层的输入，通过第二逐点相乘层对归一化处理层的输出特征和第三概率特征进行逐点相乘，得到该融合特征。

也即是，得到归一化处理层的输出特征后，可以将归一化处理层的输出特征与另一路双向RNN层的输出特征进行逐点相乘，得到融合特征。

步骤1052：将第一唤醒词概率作为记忆融合处理模型的输入，通过记忆融合处理模型对第一唤醒词概率进行特征提取，得到第一概率特征，根据第一概率特征和融合特征，确定第二唤醒词概率。

作为一个示例，如图7所示，记忆融合处理模型包括特征提取模型，可以将第一唤醒词概率作为特征提取模型的输入，通过特征提取模型，对第一唤醒词概率进行特征提取，得到第一概率特征。

作为一个示例，如图7所示，特征提取模型包括第二全连接层和第二非线性激活层；通过特征提取模型，对第一唤醒词概率进行特征提取时，可以先通过第二全连接层对第一唤醒词概率进行处理，得到第二全连接层的输出特征，然后将第二全连接层的输出特征作为第二非线性激活层的输入，通过第二非线性激活层对第二全连接层的输出特征进行非线性处理，得到第一概率特征。

作为一个示例，对第一唤醒词概率进行特征提取，得到第一概率特征的操作可以包括如下步骤：

1)基于概率阈值对第一概率特征进行更新，得到更新后的第一概率特征。

其中，若第一概率特征大于概率阈值，则更新后的第一概率特征为1，若第二概率特征小于或等于概率阈值，则更新后的第一概率特征为0。

作为一个示例，可以通过如下公式对第一概率特征进行更新：

其中，G为第一概率特征，thre为概率阈值。

2)基于更新后的第一概率特征、第一唤醒词概率和融合特征，确定第二唤醒词概率。

作为一个示例，可以对第一乘积和第二乘积进行相加，得到第二唤醒词概率。其中，第一乘积为所述更新后的第一概率特征与第一唤醒词概率的乘积，第二乘积为指定差值与融合特征的乘积，指定差值是指1与更新后的第一概率特征之间的差值。

作为一个示例，可以通过如下公式确定第二唤醒词概率：

result＝G*input+(1-G)*memory (20)

其中，G为更新后的第一概率特征，input为第一唤醒词概率，memory为融合特征。

本申请实施例中，通过在对获取的语音数据进行特征提取之后，先通过U型卷积神经网络模型对语音特征进行特征提取和特征融合，可以将低级特征和高级特征进行融合，得到第一输出特征，之后通过注意力模型对第一输出特征的各个通道的特征进行注意力计算，得到注意力权重向量，并对注意力权重向量进行尺度化处理，以便根据处理后的注意力权重向量对第一输出特征进行加权处理，如此，可以增强有用特征，削弱无用特征，由于对提取的特征进行了充分的特征融合和注意力计算，因此预测得到的唤醒词概率更加准确，泛化能力更强，而且通过注意力计算能够将语音识别的注意力集中在唤醒词上，对连续语音中包含唤醒词的情况识别效果较好，从而减小了误唤醒概率。另外，通过将历史唤醒词概率与当前唤醒词概率进行融合处理，对于唤醒词检测的跳变和误唤醒能够进行有效抑制。

需要说明的是，为了提高唤醒词概率预测的准确度，进一步减少误唤醒概率，本申请实施例还可以采用多级唤醒算法对语音数据信息识别，为了便于说明，将上述图1实施例的唤醒算法称为一级唤醒算法。接下来将对通过多级唤醒算法对语音数据信息识别的方式进行详细介绍。

图8是本申请实施例提供的另一种唤醒方法的流程图，该方法应用于电子设备中，如图8所示，该方法包括如下步骤：

步骤801：采集语音数据。

电子设备可以不断采集外界的语音数据，以便对采集的语音数据进行唤醒词概率预测。示例的，电子设备中配置有麦克风，电子设备可以通过麦克风采集语音数据。

步骤802：通过一级唤醒算法，对采集的语音数据进行识别，得到目标唤醒词概率。

其中，该目标唤醒概率可以为通过U型卷积神经网络模型和注意力模型预测得到的第一唤醒词概率，也可以为通过U型卷积神经网络模型、注意力模型、历史窗口记忆模型和记忆融合处理模型预测得到的第二唤醒词概率。

作为一个示例，请参考图9，图9是本申请实施例提供的一种一级唤醒算法的逻辑结构示意图，如图9所示，一级唤醒算法包括语音特征提取模块901、U型卷积神经网络模块902、注意力特征提取模块903、唤醒词概率预测模块904、历史窗口记忆模块905和记忆融合处理模块906。

语音特征提取模块901用于对语音数据进行特征提取，得到语音特征。

U型卷积神经网络模块902用于通过U型卷积神经网络模型对语音特征进行特征提取和特征融合，得到第一输出特征。

注意力特征提取模块903用于通过注意力模型对第一输出特征的各个通道的特征进行注意力计算，得到注意力权重向量，对注意力权重向量进行尺度化处理，根据处理后的注意力权重向量对第一输出特征进行加权处理，得到第二输出特征。

唤醒词概率预测模块904用于对第二输出特征进行概率转换，得到第一唤醒词概率。

历史窗口记忆模块905用于通过历史窗口记忆模型，对M个历史唤醒词概率进行特征提取，将提取的特征与第一唤醒词概率进行逐点相乘，得到融合特征。

记忆融合处理模块906用于通过记忆融合处理模型对第一唤醒词概率进行特征提取，得到第一概率特征，根据第一概率特征和融合特征，确定第二唤醒词概率。

步骤803：判断目标唤醒词概率是否大于概率阈值。

其中，该概率阈值可以预先设置，也可以计算得到。比如，该概率阈值可以为令数据集样本中的EER(Equal Error Rate)最小时的概率阈值，这样可以使得模型的误唤醒率和误拒绝率达到平衡。

若目标唤醒词概率大于概率阈值，则确定一级唤醒算法语音识别通过，跳转至步骤804。若目标唤醒词概率小于或等于概率阈值，则确定一级唤醒算法语音识别未通过，并返回至步骤801，继续采集语音数据，通过一级唤醒算法，对采集的语音数据进行识别。

步骤804：启动二级唤醒算法，通过二级唤醒算法，对采集的语音数据进行识别，得到第三唤醒词概率。

需要说明的是，二级唤醒算法是比一级唤醒算法的识别准确度更高的唤醒算法，如此可以在一级唤醒算法语音识别通过的基础上，通过二级唤醒算法对语音数据进一步进行识别和校验，如此，可以进一步提高语音识别的准确度，带来更好的语音识别效果，减小误唤醒率。

作为一个示例，二级唤醒算法可以为基于RNN模型的唤醒算法。示例的，该RNN模型可以为基于序列的LSTM的RNN模型。

作为一个示例，通过二级唤醒算法，对采集的语音数据进行唤醒词概率预测的操作包括：将语音特征作为RNN模型的输入，通过RNN模型对语音数据中包括预设唤醒词的概率进行预测，得到第三唤醒词概率。

步骤805：若第三唤醒词概率大于概率阈值，则对电子设备进行唤醒。

作为一个示例，可以将第三唤醒词概率与概率阈值进行比较，若第三唤醒词概率小于或等于概率阈值，则确定定二级唤醒算法语音识别未通过，并继续采集语音数据，以及通过一级唤醒算法对语音数据进行唤醒词概率预测。若第三唤醒词概率大于概率阈值，则确定二级唤醒算法语音识别通过，触发唤醒电子设备，或者，若第三唤醒词大于概率阈值，则进一步对语音数据进行语音识别，根据语音识别结果对电子设备进行唤醒。

另外，为了降低电子设备的功耗，当第一唤醒算法语音识别通过，并启动二级唤醒算法时，还可以停止运行一级唤醒算法，当二级唤醒算法语音识别未通过时，再启动一级唤醒算法，并停止运行二级唤醒算法。如此，可以降低一级唤醒算法和二级唤醒算法同时运行导致的高功耗，使得一级唤醒算法和二级唤醒算法可以交替运行。

另外，为了进一步降低电子设备的功耗，还可以在硬件上对电子设备进行改进。比如，在电子设备中配置第一处理器和第二处理器，且第一处理器的功耗小于第二处理器。第一处理器用于采集语音数据，通过一级唤醒算法对语音数据进行识别。第二处理器用于通过二级唤醒算法对语音数据进行识别。示例的，第一处理器为DSP(Digital SignalProcessor，数字信号处理器)，第二处理器为ARM(Advanced RISC Machine，精简指令集微处理器)。

作为一个示例，第一处理器和第二处理器的工作流程为：通过第一处理器不断采集语音数据，通过一级唤醒算法对采集的语音数据进行识别，得到目标唤醒词概率。若目标唤醒词概率小于或等于概率阈值，则通过第一处理器继续采集语音数据，通过一级唤醒算法对采集的语音数据进行识别。若目标唤醒词概率大于概率阈值，则将第一处理器从工作状态切换为休眠状态，启动第二处理器，通过第二处理器采用二级唤醒算法对语音数据进行识别，得到第三唤醒词概率。若第三唤醒词概率小于或等于概率阈值，则将第二处理器从工作状态切换为休眠状态，并启动第一处理器，通过第一处理器继续采集语音数据，通过一级唤醒算法对采集的语音数据进行识别。若第三唤醒词概率大于概率阈值，则对触发唤醒电子设备，或者进一步对语音数据进行语音识别，根据语音识别结果对电子设备进行唤醒。

需要说明的是，本申请实施例所述的预设唤醒词可以由电子设备默认设置，也可以由用户设置。当由用户设置预设唤醒词时，用户可以在电子设备中注册预设唤醒词，比如通过麦克风预先录入预设唤醒词。

作为一个示例，针对电子设备的不同状态，可以为电子设备设置不同的唤醒方式，以提高灵活性，满足用户的多样化需求。比如，针对电子设备的熄屏状态和亮屏状态，可以设置不同的唤醒方式。

作为一个示例，在语音识别通过后，触发唤醒电子设备的操作包括：若电子设备处于熄屏状态，则触发电子设备亮屏，或者触发电子设备亮屏并解锁，或者唤起语音助手；若电子设备处于亮屏状态，则触发电子设备解锁，或者唤起语音助手。

本申请实施例提供了一种多级唤醒算法的语音识别方法，通过一级唤醒算法可以全面识别语音数据中的唤醒词，通过二级唤醒算法可以精准识别语音数据中的唤醒词，如此可以提高唤醒词概率预测的准确度，减少误唤醒概率。另外，本申请实施例在硬件上对电子设备进行了改进，为电子设备配置第一处理器和第二处理器，通过对两者的工作状态进行切换，可以降低功耗。另外，本申请实施例针对电子设备的亮屏和息屏采用了不同的唤醒方案，在提高用户识别率，降低误唤醒率的同时，有利于降低功耗。

需要说明的是，在提高唤醒词概率预测的准确度，减少误唤醒概率的基础上，为了保护设备安全和用户隐私，本申请实施例还可以采用多级唤醒算法+声纹识别的方案对电子设备进行唤醒。接下来将对通过多级唤醒算法和声纹识别，对电子设备进行唤醒的方式进行详细介绍。

图10是本申请实施例提供的又一种语音唤醒方法的流程图，该方法应用于电子设备中，如图10所示，该方法包括如下步骤：

步骤1001：采集语音数据。

步骤1002：通过一级唤醒算法，对采集的语音数据进行识别，得到目标唤醒词概率。

步骤1003：判断目标唤醒词概率是否大于概率阈值。

若目标唤醒词概率大于概率阈值，则确定一级唤醒算法语音识别通过，跳转至步骤1004。若目标唤醒词概率小于或等于概率阈值，则确定一级唤醒算法语音识别未通过，并返回至步骤1001，继续采集语音数据，通过一级唤醒算法，对采集的语音数据进行识别。

步骤1004：启动二级唤醒算法，通过二级唤醒算法，对采集的语音数据进行识别，得到第三唤醒词概率。

步骤1005：判断第三唤醒词概率是否大于概率阈值。

若第三唤醒词概率大于概率阈值，则确定二级唤醒算法语音识别通过，跳转至步骤1006。若第三唤醒词概率小于或等于概率阈值，则确定二级唤醒算法语音识别未通过，并返回至步骤1001，继续采集语音数据，通过一级唤醒算法，对采集的语音数据进行唤醒词概率预测。

步骤1006：对语音数据进行声纹识别，以识别该语音数据的声纹特征与已存储的声纹特征是否匹配。

若确定语音数据的声纹特征与已存储的声纹特征匹配，则跳转至步骤1007。若确定语音数据的声纹特征与已存储的声纹特征不匹配，则返回步骤1001，继续采集语音数据，通过一级唤醒算法，对采集的语音数据进行识别。

其中，已存储的声纹特征可以为用户预先注册的声纹特征。为了提高注册准确度，用户可以预先注册N次声纹特征，N为大于1的整数。

步骤1007：唤醒电子设备设备。

作为一个示例，唤醒电子设备设备的操作包括：若电子设备处于熄屏状态，则触发电子设备亮屏，或者触发电子设备亮屏并解锁，或者唤起语音助手；若电子设备处于亮屏状态，则触发电子设备解锁，或者唤起语音助手。

另外，为了降低电子设备的功耗，当第一唤醒算法语音识别通过，并启动二级唤醒算法时，还可以停止运行一级唤醒算法；当二级唤醒算法语音识别未通过时，再启动一级唤醒算法，并停止运行二级唤醒算法；当二级唤醒算法通过时，启动声纹识别算法，停止运行二级唤醒算法；当声纹识别通过时，触发唤醒电子设备；当声纹识别未通过时，启动一级唤醒算法，并停止运行声纹识别算法。如此，可以降低一级唤醒算法、二级唤醒算法和声纹识别算法同时运行导致的高功耗，使得一级唤醒算法、二级唤醒算法和声纹识别算法交替运行。

另外，为了进一步降低电子设备的功耗，还可以在硬件上对电子设备进行改进。比如，在电子设备中配置第一处理器和第二处理器，且第一处理器的功耗小于第二处理器。第一处理器用于采集语音数据，通过一级唤醒算法对语音数据进行识别。第二处理器用于通过二级唤醒算法对语音数据进行识别，当二级唤醒算法语音识别通过时，对语音数据进行声纹识别。示例的，第一处理器为DSP，第二处理器为ARM。

作为一个示例，第一处理器和第二处理器的工作流程为：通过第一处理器不断采集语音数据，通过一级唤醒算法对采集的语音数据进行识别，得到目标唤醒词概率。若目标唤醒词概率小于或等于概率阈值，则通过第一处理器继续采集语音数据，通过一级唤醒算法对采集的语音数据进行识别。若目标唤醒词概率大于概率阈值，则将第一处理器从工作状态切换为休眠状态，启动第二处理器，通过第二处理器采用二级唤醒算法对语音数据进行识别，得到第三唤醒词概率。若第三唤醒词概率小于或等于概率阈值，则将第二处理器从工作状态切换为休眠状态，并启动第一处理器，通过第一处理器继续采集语音数据，通过一级唤醒算法对采集的语音数据进行识别。若第三唤醒词概率大于概率阈值，则对语音数据进行声纹识别，若声纹识别通过，则触发唤醒电子设备，若声纹识别未通过，则将第二处理器从工作状态切换为休眠状态，并启动第一处理器，通过第一处理器继续采集语音数据，通过一级唤醒算法对采集的语音数据进行识别。

还需要说明的是，本申请实施例中的一级唤醒算法对应的一级唤醒模型，二级唤醒算法对应的二级唤醒模型，一级声纹识别算法对应的声纹识别模型可以预先训练得到，比如可以通过多个样本语音数据进行训练得到，样本语音数据是指包括预设唤醒词的语音数据。

本申请实施例提供了一种多级唤醒算法+声纹识别的语音唤醒方法，通过一级唤醒算法可以全面识别语音数据中的唤醒词，通过二级唤醒算法可以精准识别语音数据中的唤醒词，通过声纹识别可以识别唤醒人是否为用户本人，保护设备安全和用户隐私。另外，本申请实施例在硬件上对电子设备进行了改进，为电子设备配置第一处理器和第二处理器，通过对两者的工作状态进行切换，可以降低功耗。另外，本申请实施例针对电子设备的亮屏和息屏采用了不同的唤醒方案，在提高用户识别率，降低误唤醒率的同时，有利于降低功耗。

接下来基于多级唤醒算法+声纹识别的方案，对电子设备的语音唤醒过程进行举例说明，该电子设备配置有第一处理器和第二处理器，且第一处理器的功耗小于第二处理器。请参考图11，图11是本申请实施例提供的又一种语音唤醒方法的流程图，如图11所示，该方法包括如下步骤：

步骤1101：打开语音唤醒应用，判断电子设备中是否存储有已注册N次的声纹特征。

当电子设备未存储有N次声纹注册信息时：

步骤1102：通过麦克风不断采集语音数据，将采集的语音数据送入二级唤醒模块的二级唤醒算法，并进行关键词检测和保存。

步骤1103：当一级唤醒模块未监测到语音数据时，第一处理器仍处于休眠状态。

步骤1104：当一级唤醒模块监测到语音数据，但语音数据未通过一级唤醒算法的语音识别时，第二处理器仍处于休眠状态。

步骤1105：当一级唤醒模块监测到语音信号，且语音数据通过一级唤醒算法的语音识别时，第一处理器发送中断信号，第二处理器由休眠状态转换为工作状态，同时，一级唤醒模块将包含唤醒词的语音数据传送给第二唤醒模块，第一处理器由工作状态切换到休眠状态，二级唤醒模块通过二级唤醒算法对语音数据进行语音识别，并给出判断信号，该判断信号用于指示语音数据是否通过二级唤醒算法的语音识别。

步骤1106：若判断信号指示语音数据通过二级唤醒算法的语音识别，则将语音数据传送给声纹识别模块，通过声纹识别模块对语音数据进行声纹识别，若通过声纹识别，则触发唤醒电子设备；若未通过二级唤醒算法的语音识别或未通过声纹识别，则第二处理器由工作状态切换到休眠状态，第一处理器由休眠状态切换为工作状态，重新通过麦克风不断采集语音数据，送入第一唤醒模块进行语音识别。

当电子设备存储有N次声纹注册信息时：

步骤1107：第一处理器一直处于工作状态，通过麦克风不断采集语音数据，送入第一唤醒模块的一级唤醒算法进行语音识别。

步骤1108：当一级唤醒模块未监测到语音数据，或者监测到语音数据但语音数据未通过一级唤醒算法的语音识别时，一级唤醒模块仍然处于工作状态，麦克风仍然不断采集语音数据，并送入到一级唤醒模块进行语音识别。

步骤1109：当一级唤醒模块监测到语音数据，且语音数据通过一级唤醒算法的语音识别时，则将包含唤醒词的语音数据发送给二级唤醒模块，同时第一处理器由工作状态切换为休眠状态，麦克风停止采集音频数据，通过二级唤醒算法对语音数据进行语音识别，并给出判断信号。

步骤1110：若判断信号指示语音数据通过二级唤醒算法的语音识别，则将语音数据发送给声纹识别模块，通过声纹识别模块对语音数据进行声纹识别，若通过声纹识别，则触发唤醒电子设备；若未通过二级唤醒算法的语音识别或未通过声纹识别，则第二处理器由工作状态切换到休眠状态，第一处理器由休眠状态切换为工作状态，重新通过麦克风不断采集语音数据，送入第一唤醒模块进行语音识别。

本申请实施例提供的语音唤醒方法可以应用于移动终端中，接下来将以应用于移动终端的场景为例进行说明。作为一个示例，移动终端的语音唤醒过程可以包括如下步骤：

S1：打开语音唤醒应用。

作为一个示例，可以从设置界面中找到语音唤醒应用，打开语音唤醒应用。比如，语音唤醒应用的查找方式可以为：设置-安全-智能解锁-设定数字密码-语音唤醒应用。

S2：语音唤醒应用提醒用户录入唤醒词。

S3：用户先说一遍唤醒词，例如“小步小步”。

S4：重复上述步骤N遍后，将用户录入的语音数据作为训练数据送入语音唤醒模型，对语音唤醒模型进行训练。

S5：训练成功提示，训练完成。

S6：熄屏时，采用一级唤醒算法+二级唤醒算法+声纹识别的熄屏唤醒方案，当基于采集的语音数据识别到正确用户时，触发移动终端亮屏或者唤起语音助手，当然，用户也可以定义唤醒时解锁。

S7：亮屏时，采用二级唤醒算法+声纹识别的亮屏唤醒方案，当基于采集的语音数据识别到正确用户时，触发移动终端解锁或者唤起语音助手。

S8：当进行支付时，开启声纹检测，需要基于语音数据对用户进行身份认证，且身份认证通过后才可支付，此时可以采用二级唤醒算法+声纹识别的亮屏唤醒方案。

需要说明的是，本申请实施例仅是在上述应用场景采用上述语音唤醒方式为例进行说明，而在其他实施例中，还可以应用在其他场景中，或者也可以采用其他语音唤醒方式，本申请实施例对此不做限定。

图12是本申请实施例提供的一种语音唤醒装置的结构框图，该装置可以集成于电子设备中，该装置可以为包括特征提取模块1201，第一处理模块1202，第二处理模块1203，第三处理模块1204和唤醒模块1205。

特征提取模块1201，用于对采集的语音数据进行特征提取，得到语音特征；

第一处理模块1202，用于将该语音特征作为U型卷积神经网络模型的输入，通过该U型卷积神经网络模型对该语音特征进行特征提取和特征融合，得到第一输出特征1203；

第二处理模块，用于将该第一输出特征作为注意力模型的输入，通过该注意力模型对该第一输出特征的各个通道的特征进行注意力计算，得到注意力权重向量，对该注意力权重向量进行尺度化处理，根据处理后的注意力权重向量和该第一输出特征，确定第二输出特征；

第三处理模块1204，用于对该第二输出特征进行概率转换，得到第一唤醒词概率，该第一唤醒词概率用于指示该语音数据中包括预设唤醒词的概率；

唤醒模块1205，用于基于该第一唤醒词概率，对电子设备进行唤醒。

可选地，该U型卷积神经网络包括N个网络层组，每个网络层组包括卷积神经网络层、批归一化层和线性激活层，且该N个网络层组中指定浅层网络层的输出特征流向指定深层网络层，以对该N个网络层中的浅层网络与深层网络进行特征融合。

可选地，该注意力模型包括池化层、卷积层、第一全连接层和第一非线性激活层；

该第二处理模块用于：

通过该池化层对该第一输出特征的各个通道的特征分别进行池化操作，得到该池化层的输出特征；

将该池化层的输出特征作为该卷积层的输入，通过该卷积层对该池化层的输出特征进行卷积处理，得到该卷积层的输出特征；

将该卷积层的输出特征作为该第一全连接层的输入，通过该第一全连接层对该卷积层的输出特征进行处理，得到该第一全连接层的输出特征；

将该第一全连接层的输出特征作为该非线性激活层的输入，通过该非线性激活层对该第一全连接层的输出特征进行非线性处理，得到该注意力权重向量。

可选地，该注意力模型还包括注意力尺度化层，该注意力尺度化层的输入包括该第一输出特征和该注意力权重向量；

该第二处理模块用于：

通过该注意力尺度化层，对该注意力权重向量进行尺度化处理，得到第一尺度化权重向量；

通过该注意力尺度化层，对该第一尺度化权重向量进行归一化处理，得到第二尺度化权重向量；

通过该注意力尺度化层，根据该第二尺度化权重向量对该第一输出特征进行加权处理，得到该第三输出特征；

根据第三输出特征，确定第二输出特征。

可选地，该注意力模型的输入还包括语音特征；该第二处理模块用于：

将语音特征与第三输入特征进行合并，得到第二输出特征。

可选地，该第三处理模块用于：

对该第二输出特征进行全局池化操作，得到全局池化特征；

对该全局池化特征进行全局归一化处理，得到该第一唤醒词概率。

可选地，该唤醒模块包括，包括：

确定单元，用于确定M个历史唤醒词概率，该M个历史唤醒词概率是对历史语音数据进行预测得到；

融合单元，用于对该M个历史唤醒词概率和该第一唤醒词概率进行融合处理，得到第二唤醒词概率；

唤醒单元，用于基于该第二唤醒词概率，对该电子设备进行唤醒。

可选地，该融合单元用于：

将该M个历史唤醒词概率和该第一唤醒词概率作为历史窗口记忆模型的输入，通过该历史窗口记忆模型，对该M个历史唤醒词概率进行特征提取，将提取的特征与该第一唤醒词概率进行逐点相乘，得到融合特征；

将该第一唤醒词概率作为特征提取模型的输入，通过该特征提取模型，对该第一唤醒词概率进行特征提取，得到第一概率特征；

根据该第一概率特征和该融合特征，确定该第二唤醒词概率。

可选地，该历史窗口记忆模型包括双向循环神经网络RNN层、第一逐点相乘层、归一化处理层和第二逐点相乘层，该双向RNN层包括第一RNN层和第二RNN层；

该融合单元用于：

将该M个历史唤醒词概率作为该双向RNN层的输入，通过该第一RNN层和该第二RNN层分别对该M个历史唤醒词概率进行特征提取，得到第二概率特征和第三概率特征；

将该第一唤醒词概率和该第二概率特征作为第一逐点相乘层的输入，通过该第一逐点相乘层对该第一唤醒词概率和该第二概率特征进行逐点相乘，得到该第一逐点相乘层的输出特征；

将该第一逐点相乘层的输出特征作为该归一化处理层的输入，通过该归一化处理层对该第一逐点相乘层的输出特征进行归一化处理，得到该归一化处理层的输出特征；

将该归一化处理层的输出特征和该第三概率特征作为该第二逐点相乘层的输入，通过该第二逐点相乘层对该归一化处理层的输出特征和该第三概率特征进行逐点相乘，得到该融合特征。

可选地，该特征提取模型包括第二全连接层和第二非线性激活层；

该融合单元用于：

通过该第二全连接层对该第一唤醒词概率进行处理，得到该第二全连接层的输出特征；

将该第二全连接层的输出特征作为该第二非线性激活层的输入，通过该第二非线性激活层对该第二全连接层的输出特征进行非线性处理，得到该第一概率特征。

可选地，该融合单元用于：

基于概率阈值对该第一概率特征进行更新，得到更新后的第一概率特征，其中，若该第一概率特征大于该概率阈值，则该更新后的第一概率特征为1，若该第二概率特征小于或等于该概率阈值，则该第四概率阈值为0；

对第一乘积和第二乘积进行相加，得到该第二唤醒词概率，该第一乘积为该更新后的第一概率特征与该第一唤醒词概率的乘积，该第二乘积为指定差值与该融合特征的乘积，该指定差值是指1与该更新后的第一概率特征之间的差值。

可选地，该唤醒单元用于：

若该第二唤醒词概率大于概率阈值，则将该语音特征作为RNN模型的输入，通过该RNN模型对该语音数据中包括该预设唤醒词的概率进行预测，得到第三唤醒词概率；

若该第三唤醒词概率大于概率阈值，则对该电子设备进行唤醒。

可选地，该电子设备配置有第一处理器和第二处理器，且该第一处理器的功耗小于该第二处理器；该装置还包括：

获取模块，用于通过该第一处理器采集语音数据；

该唤醒模块用于：

若该第二唤醒词概率大于概率阈值，则将该第一处理器从工作状态切换为休眠状态，启动第二处理器，通过该第二处理器将该语音特征作为RNN模型的输入，通过该RNN模型对该语音数据中包括该预设唤醒词的概率进行预测，得到第三唤醒词概率；

第四处理模块，用于若该第三唤醒词概率小于或等于该概率阈值，则将该第二处理器从工作状态切换为休眠状态，启动该第一处理器，通过该第一处理器继续采集语音数据。

可选地，该唤醒单元用于：

若该第三唤醒词概率大于该概率阈值，则对该语音数据进行声纹识别，以识别该语音数据的声纹特征与已存储的声纹特征是否匹配；

若确定该语音数据的声纹特征与已存储的声纹特征匹配，则唤醒该电子设备。

可选地，该唤醒模块用于：

若该电子设备处于熄屏状态，则触发该电子设备亮屏，或者触发该电子设备亮屏并解锁，或者唤起语音助手；

若该电子设备处于亮屏状态，则触发该电子设备解锁，或者唤起语音助手。

本申请实施例中，通过在对获取的语音数据进行特征提取之后，先通过U型卷积神经网络模型对语音特征进行特征提取和特征融合，可以将低级特征和高级特征进行融合，得到第一输出特征，之后通过注意力模型对第一输出特征的各个通道的特征进行注意力计算，得到注意力权重向量，并对注意力权重向量进行尺度化处理，根据处理后的注意力权重向量对第一输出特征进行加权处理，可以增强有用特征，削弱无用特征，得到第二输出特征，由于对提取的特征进行了充分的特征融合和注意力计算，因此基于第二输出特征预测得到的唤醒词概率更加准确，泛化能力更强，而且通过注意力计算能够将语音识别的注意力集中在唤醒词上，对连续语音中包含唤醒词的情况识别效果较好，从而减小了误唤醒概率。

需要说明的是：上述实施例提供的语音唤醒装置在进行语音唤醒时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音唤醒装置与语音唤醒方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图13是本申请实施例提供的一种电子设备1300的结构示意图，该电子设备可以为智能音箱、智能电视、智能可穿戴设备或终端等，终端可以为手机、平板电脑或计算机等。该电子设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器1301和一个或一个以上的存储器1302，其中，所述存储器1302中存储有至少一条指令，所述至少一条指令由所述处理器1301加载并执行以实现上述各个方法实施例提供的接入点的识别方法。比如，该电子设备包括第一处理器和第二处理器，第一处理器的功耗小于第二处理器，第一处理器用于执行一级唤醒算法，第二处理器用于执行二级唤醒算法，或者二级唤醒算法和声纹识别。比如，第一处理器为DSP，第二处理器为ARM。当然，该电子设备还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该电子设备还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性的实施例中，还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，所述指令被处理器执行时实现上述语音唤醒方法。

在示例性实施例中，还提供了一种计算机程序产品，当该计算机程序产品被执行时，其用于实现上述语音唤醒方法。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本申请实施例所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语音唤醒方法，其特征在于，所述方法包括：

对采集的语音数据进行特征提取，得到语音特征；

基于所述第一唤醒词概率，对电子设备进行唤醒。

2.根据权利要求1所述的方法，其特征在于，所述U型卷积神经网络包括N个网络层组，每个网络层组包括卷积神经网络层、批归一化层和线性激活层，且所述N个网络层组中指定浅层网络层的输出特征流向指定深层网络层，以对所述N个网络层中的浅层网络与深层网络进行特征融合。

3.根据权利要求1所述的方法，其特征在于，所述注意力模型包括池化层、卷积层、第一全连接层和第一非线性激活层；

所述通过所述注意力模型对所述第一输出特征的各个通道的特征进行注意力计算，得到注意力权重向量，包括：

通过所述池化层对所述第一输出特征的各个通道的特征分别进行池化操作，得到所述池化层的输出特征；

将所述池化层的输出特征作为所述卷积层的输入，通过所述卷积层对所述池化层的输出特征进行卷积处理，得到所述卷积层的输出特征；

将所述卷积层的输出特征作为所述第一全连接层的输入，通过所述第一全连接层对所述卷积层的输出特征进行处理，得到所述第一全连接层的输出特征；

将所述第一全连接层的输出特征作为所述非线性激活层的输入，通过所述非线性激活层对所述第一全连接层的输出特征进行非线性处理，得到所述注意力权重向量。

4.根据权利要求3所述的方法，其特征在于，所述注意力模型还包括注意力尺度化层，所述注意力尺度化层的输入包括所述第一输出特征和所述注意力权重向量；

所述根据处理后的注意力权重向量和所述第一输出特征，确定第二输出特征，包括：

通过所述注意力尺度化层，对所述注意力权重向量进行尺度化处理，得到第一尺度化权重向量；

通过所述注意力尺度化层，对所述第一尺度化权重向量进行归一化处理，得到第二尺度化权重向量；

通过所述注意力尺度化层，根据所述第二尺度化权重向量对所述第一输出特征进行加权处理，得到所述第三输出特征；

根据所述第三输出特征，确定所述第二输出特征。

5.根据权利要求4所述的方法，其特征在于，所述注意力模型的输入还包括所述语音特征；

所述根据所述第三输出特征，确定所述第二输出特征，包括：

将所述语音特征与所述第三输出特征进行合并，得到所述第二输出特征。

6.根据权利要求1所述的方法，其特征在于，所述对所述第二输出特征进行概率转换，得到第一唤醒词概率，包括：

对所述第二输出特征进行全局池化操作，得到全局池化特征；

对所述全局池化特征进行全局归一化处理，得到所述第一唤醒词概率。

7.根据权利要求1-6所述的方法，其特征在于，所述基于所述第一唤醒词概率，对电子设备进行唤醒，包括：

确定M个历史唤醒词概率，所述M个历史唤醒词概率是对历史语音数据进行预测得到；

对所述M个历史唤醒词概率和所述第一唤醒词概率进行融合处理，得到第二唤醒词概率；

基于所述第二唤醒词概率，对所述电子设备进行唤醒。

8.根据权利要求7所述的方法，其特征在于，所述对所述M个历史唤醒词概率和所述第一唤醒词概率进行融合处理，得到第二唤醒词概率，包括：

将所述M个历史唤醒词概率和所述第一唤醒词概率作为历史窗口记忆模型的输入，通过所述历史窗口记忆模型，对所述M个历史唤醒词概率进行特征提取，将提取的特征与所述第一唤醒词概率进行逐点相乘，得到融合特征；

将所述第一唤醒词概率作为特征提取模型的输入，通过所述特征提取模型，对所述第一唤醒词概率进行特征提取，得到第一概率特征；

根据所述第一概率特征和所述融合特征，确定所述第二唤醒词概率。

9.根据权利要求8所述的方法，其特征在于，所述历史窗口记忆模型包括双向循环神经网络RNN层、第一逐点相乘层、归一化处理层和第二逐点相乘层，所述双向RNN层包括第一RNN层和第二RNN层；

所述将所述M个历史唤醒词概率和所述第一唤醒词概率作为历史窗口记忆模型的输入，通过所述历史窗口记忆模型，对所述M个历史唤醒词概率进行特征提取，将提取的特征与所述第一唤醒词概率进行逐点相乘，得到融合特征，包括：

将所述M个历史唤醒词概率作为所述双向RNN层的输入，通过所述第一RNN层和所述第二RNN层分别对所述M个历史唤醒词概率进行特征提取，得到第二概率特征和第三概率特征；

将所述第一唤醒词概率和所述第二概率特征作为第一逐点相乘层的输入，通过所述第一逐点相乘层对所述第一唤醒词概率和所述第二概率特征进行逐点相乘，得到所述第一逐点相乘层的输出特征；

将所述第一逐点相乘层的输出特征作为所述归一化处理层的输入，通过所述归一化处理层对所述第一逐点相乘层的输出特征进行归一化处理，得到所述归一化处理层的输出特征；

将所述归一化处理层的输出特征和所述第三概率特征作为所述第二逐点相乘层的输入，通过所述第二逐点相乘层对所述归一化处理层的输出特征和所述第三概率特征进行逐点相乘，得到所述融合特征。

10.根据权利要求8所述的方法，其特征在于，所述特征提取模型包括第二全连接层和第二非线性激活层；

所述通过所述特征提取模型，对所述第一唤醒词概率进行特征提取，得到第一概率特征，包括：

通过所述第二全连接层对所述第一唤醒词概率进行处理，得到所述第二全连接层的输出特征；

将所述第二全连接层的输出特征作为所述第二非线性激活层的输入，通过所述第二非线性激活层对所述第二全连接层的输出特征进行非线性处理，得到所述第一概率特征。

11.根据权利要求8所述的方法，其特征在于，所述根据所述第一概率特征和所述融合特征，确定所述第二唤醒词概率，包括：

基于概率阈值对所述第一概率特征进行更新，得到更新后的第一概率特征，其中，若所述第一概率特征大于所述概率阈值，则所述更新后的第一概率特征为1，若所述第二概率特征小于或等于所述概率阈值，则所述第四概率阈值为0；

对第一乘积和第二乘积进行相加，得到所述第二唤醒词概率，所述第一乘积为所述更新后的第一概率特征与所述第一唤醒词概率的乘积，所述第二乘积为指定差值与所述融合特征的乘积，所述指定差值是指1与所述更新后的第一概率特征之间的差值。

12.根据权利要求7所述的方法，其特征在于，所述基于所述第二唤醒词概率，对所述电子设备进行唤醒，包括：

若所述第二唤醒词概率大于概率阈值，则将所述语音特征作为RNN模型的输入，通过所述RNN模型对所述语音数据中包括所述预设唤醒词的概率进行预测，得到第三唤醒词概率；

若所述第三唤醒词概率大于所述概率阈值，则对所述电子设备进行唤醒。

13.根据权利要求12所述的方法，其特征在于，所述电子设备配置有第一处理器和第二处理器，且所述第一处理器的功耗小于所述第二处理器；

所述对获取的语音数据进行特征提取之前，还包括：

通过所述第一处理器采集语音数据；

所述若所述第二唤醒词概率大于概率阈值，则将所述语音特征作为RNN模型的输入，通过所述RNN模型对所述语音数据中包括所述预设唤醒词的概率进行预测，得到第三唤醒词概率，包括：

若所述第二唤醒词概率大于概率阈值，则将所述第一处理器从工作状态切换为休眠状态，启动第二处理器，通过所述第二处理器将所述语音特征作为RNN模型的输入，通过所述RNN模型对所述语音数据中包括所述预设唤醒词的概率进行预测，得到第三唤醒词概率；

所述将所述语音特征作为RNN模型的输入，通过所述RNN模型对所述语音数据中包括所述预设唤醒词的概率进行预测，得到第三唤醒词概率之后，还包括：

若所述第三唤醒词概率小于或等于所述概率阈值，则将所述第二处理器从工作状态切换为休眠状态，启动所述第一处理器，通过所述第一处理器继续采集语音数据。

14.根据权利要求12所述的方法，其特征在于，所述对所述电子设备进行唤醒，包括：

对所述语音数据进行声纹识别，以识别所述语音数据的声纹特征与已存储的声纹特征是否匹配；

若确定所述语音数据的声纹特征与已存储的声纹特征匹配，则唤醒所述电子设备。

15.根据权利要求14所述的方法，其特征在于，所述唤醒所述电子设备，包括：

若所述电子设备处于熄屏状态，则触发所述电子设备亮屏，或者触发所述电子设备亮屏并解锁，或者唤起语音助手；

若所述电子设备处于亮屏状态，则触发所述电子设备解锁，或者唤起语音助手。

16.一种语音唤醒装置，其特征在于，所述装置包括：

17.一种电子设备，其特征在于，所述电子设备包括处理器和存储器；所述存储器存储有至少一条指令，所述至少一条指令用于被所述处理器执行以实现如权利要求1至15任一所述的语音唤醒方法。

18.一种计算机可读存储介质，其特征在于，所述存储介质存储有至少一条指令，所述至少一条指令用于被处理器执行以实现如权利要求1至15任一所述的语音唤醒方法。