CN105632486A

CN105632486A - 一种智能硬件的语音唤醒方法和装置

Info

Publication number: CN105632486A
Application number: CN201510982997.XA
Authority: CN
Inventors: 杨占磊; 司玉景
Original assignee: Beijing Qihoo Technology Co Ltd; Qizhi Software Beijing Co Ltd
Current assignee: Beijing Qihoo Technology Co Ltd
Priority date: 2015-12-23
Filing date: 2015-12-23
Publication date: 2016-06-01
Anticipated expiration: 2035-12-23
Also published as: CN105632486B

Abstract

本发明实施例提供了一种智能硬件的语音唤醒方法和装置，该方法包括：在智能硬件中检测到音频数据时，从所述音频数据中提取一段或多段语音数据；将所述一段或多段语音数据与基于唤醒词训练的语音模型进行匹配；当匹配成功时，唤醒所述智能硬件。本发明实施例避免了用户在智能硬件中多次录入语音的操作，大大提高了操作的简便性，并且，提高了训练的样本的数量，提高了语音模型的性能，提高了唤醒时的识别准确率。

Description

一种智能硬件的语音唤醒方法和装置

技术领域

本发明涉及智能硬件的技术领域，特别是涉及一种智能硬件的语音唤醒方法和一种智能硬件的语音唤醒装置。

背景技术

随着科技的发展，诸如智能穿戴设备、智能家居等智能硬件逐渐普及。

这些智能硬件，大多是固定位置，例如，客厅中的智能摄像机，体积较小，如果利用实体键唤醒，将大大降低用户体验。

因此，为了方便的唤醒这些智能硬件，目前是使用语音，因为语音是人与人之间最为直接、便利的交流方式。

但是，使用语音唤醒，一般需要用户先在智能硬件中多次录入语音，操作麻烦，并且，由于训练样本稀疏，语音模型性能差，唤醒时的识别准确率较低。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种智能硬件的语音唤醒方法和相应的一种智能硬件的语音唤醒装置。

依据本发明的一个方面，提供了一种智能硬件的语音唤醒方法，包括：

在智能硬件中检测到音频数据时，从所述音频数据中提取一段或多段语音数据；

将所述一段或多段语音数据与基于唤醒词训练的语音模型进行匹配；

当匹配成功时，唤醒所述智能硬件。

可选地，所述从所述音频数据中提取一段或多段语音数据的步骤包括：

对所述语音数据进行尾点检测，识别出一段或多段非静音区；

提取所述一段或多段非静音区，作为一段或多段语音数据。

可选地，所述对所述语音数据进行尾点检测，识别出一段或多段非静音区的步骤包括：

计算每一帧音频数据属于语音数据的概率；

当所述概率高于预设的概率阈值时，确定所述音频数据属于语音帧；

当连续的语音帧超过预设的数量阈值时，确定所述连续的语音帧为一段非静音区。

可选地，所述语音模型为深度神经网络模型，基于表征唤醒词和填充词的目标语音数据的滤波器组特征训练生成。

可选地，所述将所述一段或多段语音数据与基于唤醒词训练的语音模型进行匹配的步骤包括：

提取每一段语音数据的滤波器组特征；

将所述滤波器组特征输入所述深度神经网络模型，以确定所述语音数据表征唤醒词或填充词；

判断表征所述唤醒词的语音数据是否与所述唤醒词排序一致；若是，则确定所述一段或多段语音数据与基于唤醒词训练的语音模型匹配。

可选地，所述将所述滤波器组特征输入所述深度神经网络模型，以确定所述语音数据表征唤醒词或填充词的步骤包括：

计算所述滤波器组特征属于所述语音数据表征唤醒词或填充词的后验概率；

采用所述后验概率计算置信度；

当所述置信度高于预设的置信度阈值时，确定所述语音数据表征唤醒词或填充词。

可选地，所述将所述滤波器组特征输入所述深度神经网络模型，以确定所述语音数据表征唤醒词或填充词的步骤还包括：

结合位于当前语音数据之前的语音数据的后验概率及位于当前语音数据之后的语音数据的后验概率，当前语音数据的后验概率进行平滑处理。

根据本发明的另一方面，提供了一种智能硬件的语音唤醒装置，包括：

语音数据提取模块，适于在智能硬件中检测到音频数据时，从所述音频数据中提取一段或多段语音数据；

语音数据匹配模块，适于将所述一段或多段语音数据与基于唤醒词训练的语音模型进行匹配；

智能硬件唤醒模块，适于在匹配成功时，唤醒所述智能硬件。

可选地，所述语音数据提取模块还适于：

提取所述一段或多段非静音区，作为一段或多段语音数据。

可选地，所述语音数据提取模块还适于：

计算每一帧音频数据属于语音数据的概率；

可选地，所述语音数据匹配模块还适于：

提取每一段语音数据的滤波器组特征；

可选地，所述语音数据匹配模块还适于：

采用所述后验概率计算置信度；

可选地，所述语音数据匹配模块还适于：

本发明实施例从检测到音频数据中提取一段或多段语音数据，与基于唤醒词训练的语音模型进行匹配，在匹配成功时，唤醒智能硬件，不需要用户准备唤醒语音，而是从现有语音中截取唤醒词中的每个单字进行训练，避免了用户在智能硬件中多次录入语音的操作，大大提高了操作的简便性，并且，提高了训练的样本的数量，提高了语音模型的性能，提高了唤醒时的识别准确率。

本发明实施例直接采用基于DNN的语音建模技术，并且在为唤醒词建模时舍弃了HMM，降低了模型复杂度和计算量。

由于直接对唤醒词中的单字建模(DNN的输出表示语音帧属于每个单字的概率)，在训练过程中省去了HMM模型参数估计，在使用过程中也省去了根据HMM寻找最优状态序列的问题，节省了计算和存储，也提高了响应速度。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的一种智能硬件的语音唤醒方法实施例的步骤流程图；以及

图2示出了根据本发明一个实施例的一种智能硬件的语音唤醒装置实施例的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

参照图1，示出了根据本发明一个实施例的一种智能硬件的语音唤醒方法实施例的步骤流程图，具体可以包括如下步骤：

步骤101，在智能硬件中检测到音频数据时，从所述音频数据中提取一段或多段语音数据；

需要说明的是，本发明实施例可以应用于智能硬件中，例如，智能摄像头、智能电饭煲、智能空调等等。

为了节省电源，智能硬件可以进入休眠状态、睡眠模式、省电模式等，减少系统功能，但是，可以通过麦克风等声卡设备采集音频数据，待用户唤醒。

其中，在采集语音数据的采样率可以为16000，编码可以为16bit。

由于智能硬件中所处的环境中可能大多数时间会产生声音，但是，这些声音有可能是用户发出的，有可能是环境噪音。

因此，为了减少后续无效的计算量，降低资源的耗费，可以从检测到的语音数据中识别出语音数据(即人说的话)时，才进行后续的匹配。

在具体实现中，可以对语音数据进行尾点检测，识别出一段或多段非静音区，提取一段或多段非静音区，作为一段或多段语音数据。

进一步而言，对于输入的频数据，可以提取语音特征，将语音特征输入预设的尾点检测模型上，计算每一帧音频数据属于语音数据的概率。

当所述概率高于预设的概率阈值时，确定该音频数据属于语音帧。

在确定非静音区时，可以考虑前后相邻多帧的语音数据及静音概率，以作出判断，当连续的语音帧超过预设的数量阈值(如30帧)时，确定连续的语音帧为一段非静音区。

步骤102，将所述一段或多段语音数据与基于唤醒词训练的语音模型进行匹配；

用户在输入法、即时通讯工具、搜索引擎等应用中，经常使用语音操作，如语音输入、语音搜索等等，通常会通过其携带的设备录入语音数据。

其中，该语音数据的采样率可以为16000，编码可以为16bit。

在这些应用的网站中，可以通过语音识别服务对用户提交的语音数据进行语音识别，获得语音文本，进行输入、搜索等操作。

因此，通过全网用户长时间使用这些语音操作，这些网站中可以累积大量的语音数据及其语音文本。

应用本发明实施例，可以预先设定唤醒词，如“你好水滴”，在这些累积的语音数据及其语音文本中，查找属于唤醒词的语音文本及其语音数据(即目标语音数据)，以及，查找不属于唤醒词的语音文本(即填充,)及其语音数据(即目标语音数据)，作为训练样本，提取其语音特征，训练语音模型。

在本发明实施中，该语音特征可以为滤波器组(filter-bank，fBank)特征，该语言模型以为深度神经网络模型(深度神经网络模型，DeepNeuralNetworks)，即语言模型可以基于表征唤醒词和填充词的目标语音数据的滤波器组特征fBank训练生成。

其中，将目标语音数据送入一组按频率值呈对数分布的三角滤波器，再将各滤波器的输出能量值进行对数换算通过离散余弦变换将其映射成对应倒谱系数，在进行离散余弦变换前的一组特征值又称为滤波器组。

该特征在目标语音数据中的地位类似与像素概念对于图像处理的价值，是表征目标语音数据的基本参数。

在实际应用中，每10毫秒的语音对应于一帧特征(使用的是946维)，假设，输入有1秒的目标语音数据，将会产生100帧的特征。

将10毫秒的语音转化为一帧特征的过程如下：

1.将10毫秒语音28维fBank特征；

2.对28维fBank特征做两次差分，维度变为28*3；

3.加上2维的pitch特征，维度变为28*3+2；

4.使用前后五帧的窗口，维度变成了(28*3+2)*(5+5+1)。

此外，可以基于梯度下降算法训练DNN模型。

在训练DNN模型时，以目标语音数据的fBank特征为输入，以当前语音帧对应的字为输出。

例如，对于唤醒词“你好水滴”，向DNN输入“你”、“好”、“水”、“滴”对应的目标语音数据的fBank特征，及填充词“Filler”对应的目标语音数据的fBank特征，输出唤醒词“你”、“好”、“水”“、滴”以及填充词“Filler”。

在最大化交叉熵的目标函数下，采用基于mini-batch的梯度下降算法对DNN参数进行训练。

语音模型训练完成后，可以分发到智能硬件中，实现智能硬件的本地唤醒。

在本发明的一种可选实施例中，步骤102可以包括如下子步骤：

子步骤S11，提取每一段语音数据的滤波器组特征；

在本发明实施例中，可以应用基于表征唤醒词和填充词的目标语音数据的fBank特征训练生成的DNN模型，因此，在检测时，可以提取当前语音数据的fBank特征。

子步骤S12，将所述滤波器组特征输入所述深度神经网络模型，以确定所述语音数据表征唤醒词或填充词；

在具体实现中，可以将当前语音数据的fBank特征输入DNN模型中，识别当前的语音数据是唤醒词还是填充词。

在本发明的一种可选实施例中，子步骤S12可以包括如下子步骤：

子步骤S121，计算所述滤波器组特征属于所述语音数据表征唤醒词或填充词的后验概率；

后验概率(Posteriorprobability)是关于随机事件或者不确定性断言的条件概率，是在相关证据或者背景给定并纳入考虑之后的条件概率。

“后验”的意思是，考虑相关事件已经被检视并且能够得到一些信息。

在实际应用中，可以进行深度神经网络的前向计算，得到当前帧的后验概率。

子步骤S122，结合位于当前语音数据之前的语音数据的后验概率及位于当前语音数据之后的语音数据的后验概率，当前语音数据的后验概率进行平滑处理；

在本发明实施例中，为避免孤立点，可以对后验概率进行平滑处理。

例如，对于唤醒词“你好水滴”，某一帧语音t，它前后多帧属于“好”的概率很高，属于“你”的概率很低。

如果t属于“你”的概率很高，属于“好”的概率很低，显然并不是符合期望的。

因此，可以结合t前后语音帧的概率，对t属于“你”、“好”、“水”、“滴”以及填充词“Filler”的概率进行平滑。

在具体实现中，可以通过如下公式对后验概率进行平滑：

s_{t_{j}} (w_{i}) = \frac{1}{j - h_{s m o o t h} + 1} Σ_{k = h_{s m o o t h}}^{j} p_{t_{k}} (w_{i})

其中，为平滑后的概率，表示第k帧，输出单元w_i的后验概率，h_smooth＝max(1,j-w_smooth+1),w_smooth取值为30。

子步骤S123，采用所述后验概率计算置信度；

若在先对后验概率进行了平滑处理，则可以利用平滑后的后验概率计算当前帧对应的唤醒置信度，计算公式为：

c o n f i d e n c e = {[\max_{1 \leq t_{1} \leq ... \leq t_{M} \leq T_{s}} Π_{i = 1}^{M} s_{t_{i}} (ω_{i})]}^{\frac{1}{M}}

其中，M指唤醒词的字的个数，如唤醒词“你好水滴”则M＝4。

上述公式的意思是，在第1帧至第T_s帧范围内找M帧语音t₁，t₂，……t_M，它们在M个字上的平滑后验概率分别为st₁(w₁)，st₂(w₂)，。。。st_M(w_M)

将它们的几何平均作为目标，通过寻找一个最优的t₁，t₂，。。。t_M，使几何平均最大，作为唤醒的置信度。

子步骤S124，当所述置信度高于预设的置信度阈值时，确定所述语音数据表征唤醒词或填充词。

若置信度高于预设的置信度阈值，表示置信度较高，则可以确定该语言数据是唤醒词还是填充词。

子步骤S13，判断表征所述唤醒词的语音数据是否与所述唤醒词排序一致；若是，则执行子步骤S14；

子步骤S14，确定所述一段或多段语音数据与基于唤醒词训练的语音模型匹配。

由于填充词用于识别唤醒词之外的词，用于容错，可以忽略。

所谓排序，指的是唤醒词之间相连，并且，唤醒词中的字按照某一顺序排列。

例如，对于唤醒词“你好水滴”，在“你”、“好”、“水”、“滴”之间不存在填充词，“你”、“好”、“水”、“滴”顺序排列。

若表征唤醒词的语音数据是顺序相连，中间不插有表征填充词的语音数据，并且，表征唤醒词的语音数据的排列与唤醒词中的字的排列一致，则可以认为语音数据与语音模型匹配。

例如，若表征“你”、“好”、“水”、“滴”的语音数据是顺序相连，中间不插有表征“Filler”的语音数据，并且，这些语音数据的排列与“你”、“好”、“水”、“滴”一致，则可以认为语音数据与语音模型匹配。

在语言唤醒中，一般多采用HMM(HiddenMarkovModel，隐马尔可夫模型)-DNN或者HMM-GMM(GaussianMixtureModel，高斯混合模型)技术用于语音唤醒。

步骤103，当匹配成功时，唤醒所述智能硬件。

若语音数据与基于唤醒词训练的音频模型匹配，则可以认为用户说出了唤醒词，通过指定的唤醒指令唤醒智能硬件，如结束休眠状态、睡眠模式、省电模式等，进行正常工作状态。

对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

参照图2，示出了根据本发明一个实施例的一种智能硬件的语音唤醒装置实施例的结构框图，具体可以包括如下模块：

语音数据提取模块201，适于在智能硬件中检测到音频数据时，从所述音频数据中提取一段或多段语音数据；

语音数据匹配模块202，适于将所述一段或多段语音数据与基于唤醒词训练的语音模型进行匹配；

智能硬件唤醒模块203，适于在匹配成功时，唤醒所述智能硬件。

在本发明的一种可选实施例中，所述语音数据提取模块201还可以适于：

提取所述一段或多段非静音区，作为一段或多段语音数据。

计算每一帧音频数据属于语音数据的概率；

在本发明的一种可选实施例中，所述语音模型为深度神经网络模型，基于表征唤醒词和填充词的目标语音数据的滤波器组特征训练生成。

在本发明的一种可选实施例中，所述语音数据匹配模块202还可以适于：

提取每一段语音数据的滤波器组特征；

采用所述后验概率计算置信度；

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的智能硬件的语音唤醒设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

本发明实施例公开了A1、一种智能硬件的语音唤醒方法，包括：

当匹配成功时，唤醒所述智能硬件。

A2、如A1所述的方法，所述从所述音频数据中提取一段或多段语音数据的步骤包括：

提取所述一段或多段非静音区，作为一段或多段语音数据。

A3、如A2所述的方法，所述对所述语音数据进行尾点检测，识别出一段或多段非静音区的步骤包括：

计算每一帧音频数据属于语音数据的概率；

A4、如A1或A2或A3所述的方法，所述语音模型为深度神经网络模型，基于表征唤醒词和填充词的目标语音数据的滤波器组特征训练生成。

A5、如A4所述的方法，所述将所述一段或多段语音数据与基于唤醒词训练的语音模型进行匹配的步骤包括：

提取每一段语音数据的滤波器组特征；

A6、如A5所述的方法，所述将所述滤波器组特征输入所述深度神经网络模型，以确定所述语音数据表征唤醒词或填充词的步骤包括：

采用所述后验概率计算置信度；

A7、如A6所述的方法，所述将所述滤波器组特征输入所述深度神经网络模型，以确定所述语音数据表征唤醒词或填充词的步骤还包括：

本发明实施例还公开了B8、一种智能硬件的语音唤醒装置，包括：

B9、如B8所述的装置，所述语音数据提取模块还适于：

提取所述一段或多段非静音区，作为一段或多段语音数据。

B10、如B9所述的装置，所述语音数据提取模块还适于：

计算每一帧音频数据属于语音数据的概率；

B11、如B8或B9或B10所述的装置，所述语音模型为深度神经网络模型，基于表征唤醒词和填充词的目标语音数据的滤波器组特征训练生成。

B12、如B11所述的装置，所述语音数据匹配模块还适于：

提取每一段语音数据的滤波器组特征；

B13、如B12所述的装置，所述语音数据匹配模块还适于：

采用所述后验概率计算置信度；

B14、如B13所述的装置，所述语音数据匹配模块还适于：

Claims

1.一种智能硬件的语音唤醒方法，包括：

当匹配成功时，唤醒所述智能硬件。

2.如权利要求1所述的方法，其特征在于，所述从所述音频数据中提取一段或多段语音数据的步骤包括：

提取所述一段或多段非静音区，作为一段或多段语音数据。

3.如权利要求2所述的方法，其特征在于，所述对所述语音数据进行尾点检测，识别出一段或多段非静音区的步骤包括：

计算每一帧音频数据属于语音数据的概率；

4.如权利要求1或2或3所述的方法，其特征在于，所述语音模型为深度神经网络模型，基于表征唤醒词和填充词的目标语音数据的滤波器组特征训练生成。

5.如权利要求4所述的方法，其特征在于，所述将所述一段或多段语音数据与基于唤醒词训练的语音模型进行匹配的步骤包括：

提取每一段语音数据的滤波器组特征；

6.如权利要求5所述的方法，其特征在于，所述将所述滤波器组特征输入所述深度神经网络模型，以确定所述语音数据表征唤醒词或填充词的步骤包括：

采用所述后验概率计算置信度；

7.如权利要求6所述的方法，其特征在于，所述将所述滤波器组特征输入所述深度神经网络模型，以确定所述语音数据表征唤醒词或填充词的步骤还包括：

8.一种智能硬件的语音唤醒装置，包括：

9.如权利要求8所述的装置，其特征在于，所述语音数据提取模块还适于：

提取所述一段或多段非静音区，作为一段或多段语音数据。

10.如权利要求9所述的装置，其特征在于，所述语音数据提取模块还适于：

计算每一帧音频数据属于语音数据的概率；