CN112216286A

CN112216286A - 语音唤醒识别方法、装置、电子设备及存储介质

Info

Publication number: CN112216286A
Application number: CN201910618609.8A
Authority: CN
Inventors: 陈孝良; 王江; 冯大航; 苏少炜
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2019-07-09
Filing date: 2019-07-09
Publication date: 2021-01-12
Anticipated expiration: 2039-07-09
Also published as: CN112216286B

Abstract

一种语音唤醒识别方法，应用于语音识别领域，包括：当接收到语音信号后，提取语音信号的声学特征，通过神经网络模型预测声学特征在各声学建模单元上的后验概率，根据后验概率，基于预置的一级评估模型评估是否进入二级评估装置，若进入二级评估装置，则基于后验概率，通过二级评估装置，判断是否进入唤醒状态。本发明还公开了一种语音唤醒识别装置、电子设备及存储介质，具有简单易行、功耗低，同时在保证唤醒率的前提下，降低了误唤醒率。

Description

语音唤醒识别方法、装置、电子设备及存储介质

技术领域

本发明涉及语音识别技术领域，尤其涉及一种语音唤醒识别方法、装置、电子设备及存储介质。

背景技术

随着智能交互技术的快速发展和市场需求的不断扩展，语音唤醒技术在近年来取得长足发展，至今已经在多个领域中得到广泛的应用。语音唤醒技术，是对输入的语音信号进行检测，确定语音信号中是否包含唤醒词。利用语音唤醒技术可以实现众多应用场景中的智能语音交互，例如智能音箱，车载、智能家居控制等。

目前，利用语音唤醒技术，在实际的产品中，常会出现误唤醒、高功耗等问题，从而影响用户的体验感。

发明内容

本发明的主要目的在于提供一种语音唤醒识别方法、装置、电子设备及存储介质，旨在解决现有技术中高功耗、误唤醒高的问题。

为实现上述目的，本发明实施例第一方面提供一种语音唤醒识别方法，包括：

当接收到语音信号后，提取所述语音信号的声学特征；

通过神经网络模型预测所述声学特征在各声学建模单元上的后验概率；

根据所述后验概率，基于预置的一级评估模型评估是否进入二级评估装置；

若进入二级评估装置，则基于所述后验概率，通过所述二级评估装置，判断是否进入唤醒状态。

进一步地，所述根据所述后验概率，基于预置的一级评估模型评估是否进入二级评估装置，包括：

获取预设窗口内各声学建模单元的最大后验概率、各声学建模单元的预设权重系数和各声学建模单元的惩罚值；

将所述各声学建模单元的最大后验概率、各声学建模单元的预设权重系数和各声学建模单元的惩罚值，输入至预置的一级评估模型，得到第一评估值；

判断所述第一评估值是否大于预设阈值；

若是，则进入二级评估装置；

若否，则所述预设窗口内不存在唤醒词，不进入唤醒状态。

进一步地，所述一级评估模型具体为：

令Z表示评估值，n表示第n个声学建模单元，xn表示在一个移动窗口内第n个声学建模单元的最大特征值，cn表示第n个声学建模单元的预设权重系数，bn表示第n个声学建模单元的惩罚值，则：

进一步地，所述二级评估装置采用预训练的支持向量机模型；

所述若进入二级评估装置，则基于所述后验概率，通过所述二级评估装置，判断是否进入唤醒状态，包括：

若进入二级评估装置，则将所述后验概率输入至所述预训练的支持向量机模型，得到所述语音信号中是否包括唤醒词的分类结果；

若所述分类结果是包含唤醒词，则进入唤醒状态；

若所述分类结果是不包括唤醒词，则不进入唤醒状态。

本发明实施例第二方面提供一种语音唤醒识别装置，包括：

提取模块，用于当接收到语音信号后，提取所述语音信号的声学特征；

预测模块，用于通过神经网络模型预测所述声学特征在各声学建模单元上的后验概率；

评估模块，用于根据所述后验概率，基于预置的一级评估模型评估是否进入二级评估装置；

判断模块，若进入二级评估装置，则基于所述后验概率，通过所述二级评估装置，判断是否进入唤醒状态。

进一步地，所述评估模块包括：

获取子模块，用于获取预设窗口内各声学建模单元的最大后验概率、各声学建模单元的预设权重系数和各声学建模单元的惩罚值；

第一输入子模块，用于将所述各声学建模单元的最大后验概率、各声学建模单元的预设权重系数和各声学建模单元的惩罚值，输入至预置的一级评估模型，得到第一评估值；

判断子模块，用于判断所述第一评估值是否大于预设阈值；

第一执行子模块，用于若是，则进入二级评估装置；

第二执行子模块，用于若否，则所述预设窗口内不存在唤醒词，不进入唤醒状态。

进一步地，所述一级评估模型具体为：

令Z表示评估值，n表示第n个声学建模单元，x_n表示在一个移动窗口内第n个声学建模单元的最大特征值，c_n表示第n个声学建模单元的预设权重系数，b_n表示第n个声学建模单元的惩罚值，则：

所述判断模块包括：

第二输入子模块，用于若进入二级评估装置，则将所述后验概率输入至所述预训练的支持向量机模型，得到所述语音信号中是否包括唤醒词的分类结果；

第三执行子模块，用于所述分类结果是包含唤醒词，则进入唤醒状态；

第四执行子模块，用于所述分类结果是不包括唤醒词，则不进入唤醒状态。

本发明实施例第三方面提供了一种电子设备，包括：

存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现本发明实施例第一方面提供的语音唤醒识别方法。

本发明实施例第四方面提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例第一方面提供的语音唤醒识别方法。

从上述本发明实施例可知，本发明提供的语音唤醒识别方法、装置、电子设备及存储介质，当接收到语音信号后，提取语音信号的声学特征，通过神经网络模型预测声学特征在各声学建模单元上的后验概率，根据后验概率，基于预置的一级评估模型评估是否进入二级评估装置，若进入二级评估装置，则基于后验概率，通过二级评估装置，判断是否进入唤醒状态，具有低功耗、低误唤醒的特点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的语音唤醒识别方法的流程示意图；

图2为本发明一实施例提供的语音唤醒识别装置的结构示意图；

图3示出了一种电子设备的硬件结构图。

具体实施方式

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而非全部实施例。基于本发明中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，图1为本发明一实施例提供的语音唤醒识别方法的流程示意图，该方法可应用于具有语音识别功能的电子设备中，该电子设备包括：手机、平板电脑(PortableAndroid Device，PAD)，笔记本电脑以及个人数字助理(Personal Digital Assistant，PDA)等，也可以是音箱、电视机、汽车等智能设备，该方法主要包括以下步骤：

S101、当接收到语音信号后，提取该语音信号的声学特征；

对获得的语音信号进行声学特征提取，得到该语音信号的声学特征信息。特征提取的过程可以采用本领域常规技术手段来完成，本说明书实施例不对提取声学特征所采用的方法进行限定，例如，可以采用线性预测倒谱系数法(LPCC，LinearPrediction CepstrumCoefficient)、美尔频率倒谱系数法(MFCC，Mel Frequency Cepstrum Coefficient)、感知线性预测参数法(PLP，Perceptual Linear Predict ive)和梅尔标度滤波法(FBANK，Mel-scale Filter Bank)中的任意一种。

更多的，在接收到语音信号之后，在识别过程中，系统会将语音信号分割成多个帧。提取该语音信号中所有帧内声学建模单元的声学特征。在本发明实施例中，语音信号以“小麦丫头”为例，将语音信号可以分割成多个帧后，每个帧内的“小麦丫头”都包含以下声学建模单元：“x”、“iao”、“m”、“ai”、“y”、“a”、“t”、“ou”。同时，还包括“filler”和“silence”。“fill”表示其它非唤醒词声学建模单元或噪声。“silence”表示静音，共十个声学建模单元。

S102、通过神经网络模型预测该声学特征在各声学建模单元上的后验概率；

预测该声学特征在各声学建模单元上的后验概率，可以是通过预先构建的预测模型进行计算，具体可以为通过预先经过神经网络训练出的模型，将声学特征输入该神经网络中，得到声学特征在该模型的各声学建模单元上的后验概率。

神经网络是指一种机器学习方法。在本发明实施例中，其可是深度神经网络(DNN，Deep Neural Networks)、卷积神经网络(CNN，Convolutional Neural Networks)、循环神经网络(RNN，Recurrent Neural Networks)等。使用大量语音样本，训练深度神经网络，实现对语音声学特征在各声学建模单元的后验概率预测。其中，训练深度神经网络的过程为本领域技术人员的常用技术手段，在此不再赘述。

其中，示例性的，唤醒词以“小麦丫头”为例，利用预先训练的深度神经网络(DNN，Deep Neural Network)模型，预测其中一个移动窗口内(100帧)每一帧在各声学建模单元的后验概率，如下表1所示：

表1

	x	iao	m	ai	y	a	t	ou	filler	silence
											1	0.5	0.3	0.05	0.05	0.01	0.01	0.01	0.01	0.01	0.05
2	0.55	0.2	0.05	0.05	0.02	0.03	0.07	0.01	0.01	0.01
											3	0.2	0.6	0.05	0.05	0.02	0.03	0.07	0.01	0.01	0.01
...	...	...	...	...	...	...	...	...	...	...
											100	0.05	0.05	0.05	0.05	0.02	0.03	0.03	0.7	0.01	0.01

S103、根据后验概率，基于预置的一级评估模型评估是否进入二级评估装置。

在其中一个实施例中，具体的，获取预设窗口内各声学建模单元的最大后验概率、各声学建模单元的预设权重系数和各声学建模单元的惩罚值，将各声学建模单元的最大后验概率、各声学建模单元的预设权重系数和各声学建模单元的惩罚值，输入至预置的一级评估模型，得到第一评估值。然后，判断第一评估值是否大于预设阈值，若是，则进入二级评估装置。若否，则预设窗口内不存在唤醒词，不进入唤醒状态。

其中，该一级评估模型可以考虑将不同的声学建模单元分配不同的权重。

在其中一个实施例中，一级评估模型具体为：

本实施例中，当使用环境不同时，语音信号中每个声学建模单元所占权重不同，所以给不同的声学建模单元分配不同的权重。例如，在操作环境中声学建模单元“t”的识别较为困难，则可以给“t”分配较小的权重。该计算公式简单，需要的数据量少，可减少计算时间，同时，给不同的声学建模单元分配不同的权重，可根据操作环境发生相应变化，进而提高识别准确率。

S104、若进入二级评估装置，则基于后验概率，通过二级评估装置，判断是否进入唤醒状态。

在其中一个实施例中，二级评估装置采用预训练的支持向量机模型。若进入二级评估装置，则将后验概率输入至预训练的支持向量机模型，得到语音信号中是否包含唤醒词的分类结果，若分类结果是包含唤醒词，则进入唤醒状态，若分类结果是不包含唤醒词，则不进入唤醒状态。

其中，支持向量机(SVM，Support Vector Machine)是一类按监督学习方式对数据进行二元分类的广义线性分类器。在本发明实施例中，把每一帧在各声学建模单元的后验概率作为输入，是否包含唤醒词做为标签，组成训练数据，训练SVM模型。预测阶段，将上一步得到的后验概率作为SVM的输入，可以得到该移动窗口是否包含唤醒词。由于SVM学习效率高，对的小样本学习效果更佳。因此，通过SVM在只有少量训练语料下就可以得到很好的分类效果，而且实时性更高。其中，训练支持向量机的过程不做限定，可以采用本领域常用的方法。

在本发明实施例中，当接收到语音信号后，提取语音信号的声学特征，通过神经网络模型预测声学特征在各声学建模单元上的后验概率，根据后验概率，基于预置的一级评估模型评估是否进入二级评估装置，若进入二级评估装置，则基于后验概率，通过二级评估装置，判断是否进入唤醒状态，具有低功耗、低误唤醒的特点。

图2是本发明一实施例提供的唤醒词识别装置的结构示意图，该装置主要包括：

提取模块201、预测模块202、评估模块203和判断模块204。

提取模块201，用于当接收到语音信号后，提取语音信号的声学特征。

预测模块202，用于通过神经网络模型预测声学特征在各声学建模单元上的后验概率。

评估模块203，用于根据后验概率，基于预置的一级评估模型评估是否进入二级评估装置。

一级评估模型具体为：

评估模块203包括：

第一输入子模块，用于将各声学建模单元的最大后验概率、各声学建模单元的预设权重系数和各声学建模单元的惩罚值，输入至预置的一级评估模型，得到第一评估值；

判断子模块，用于判断第一评估值是否大于预设阈值；

第一执行子模块，用于若是，则进入二级评估装置；

第二执行子模块，用于若否，则预设窗口内不存在唤醒词，不进入唤醒状态。

判断模块204，若进入二级评估装置，则基于后验概率，通过二级评估装置，判断是否进入唤醒状态。

判断模块204包括：

第二输入子模块，用于若进入二级评估装置，则将后验概率输入至预训练的支持向量机模型，得到所述语音信号中是否包括唤醒词的分类结果；

第三执行子模块，用于若分类结果是包括唤醒词，则进入唤醒状态；

第四执行子模块，用于若分类结果是不包括唤醒词，则不进入唤醒状态。

本实施例未尽细节之处，请参阅图1所示实施例的相关描述，在此不再赘述。

图3示出了一种电子设备的硬件结构图。

本实施例中所描述的电子设备，包括：

存储器31、处理器32及存储在存储器31上并可在处理器上运行的计算机程序，处理器执行该程序时实现前述图1所示实施例中描述的语音唤醒识别方法。

进一步地，该电子设备还包括：

至少一个输入设备33；至少一个输出设备34。

上述存储器31、处理器32输入设备33和输出设备34通过总线35连接。

其中，输入设备33具体可为单个麦克风或麦克风阵列。输出设备34具体可为显示屏、扬声器等。

存储器31可以是高速随机存取记忆体(RAM，Random Access Memory)存储器，也可为非不稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器31用于存储一组可执行程序代码，处理器32与存储器31耦合。

进一步地，本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质可以是设置于上述各实施例中的终端中，该计算机可读存储介质可以是前述图3所示实施例中的存储器。该计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现前述图1所示实施例中描述的语音唤醒识别方法。进一步地，该计算机可存储介质还可以是U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本申请所提供的多个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信链接可以是通过一些接口，模块的间接耦合或通信链接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本发明所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上为对本发明所提供的语音唤醒识别方法、装置、电子设备及存储介质的描述，对于本领域的一般技术人员，依据本发明实施例的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音唤醒识别方法，其特征在于，包括：

当接收到语音信号后，提取所述语音信号的声学特征；

2.根据权利要求1所述的语音唤醒识别方法，其特征在于，所述根据所述后验概率，基于预置的一级评估模型评估是否进入二级评估装置，包括：

判断所述第一评估值是否大于预设阈值；

若是，则进入二级评估装置；

若否，则所述预设窗口内不存在唤醒词，不进入唤醒状态。

3.根据权利要求2所述的语音唤醒识别方法，其特征在于，所述一级评估模型具体为：

4.根据权利要求1所述的语音唤醒识别方法，其特征在于，所述二级评估装置采用预训练的支持向量机模型；

若所述分类结果是包含唤醒词，则进入唤醒状态；

若所述分类结果是不包括唤醒词，则不进入唤醒状态。

5.一种语音唤醒识别装置，其特征在于，包括：

6.根据权利要求5所述的语音唤醒识别装置，其特征在于，所述评估模块包括：

判断子模块，用于判断所述第一评估值是否大于预设阈值；

第一执行子模块，用于若是，则进入二级评估装置；

7.根据权利要求6所述的语音唤醒识别装置，其特征在于，所述一级评估模型具体为：

8.根据权利要求5所述的语音唤醒识别装置，其特征在于，所述二级评估装置采用预训练的支持向量机模型；

所述判断模块包括：

9.一种电子设备，包括：存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时，实现权利要求1至4中的任一项所述的语音唤醒识别方法中的各个步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现权利要求1至4中的任一项所述的语音唤醒识别方法中的各个步骤。