CN110570858A

CN110570858A - 语音唤醒方法、装置、智能音箱和计算机可读存储介质

Info

Publication number: CN110570858A
Application number: CN201910886846.2A
Authority: CN
Inventors: 马洁
Original assignee: Yutou Technology Hangzhou Co Ltd
Current assignee: Yutou Technology Hangzhou Co Ltd
Priority date: 2019-09-19
Filing date: 2019-09-19
Publication date: 2019-12-13

Abstract

本申请实施例提供了一种语音唤醒方法、装置、智能音箱和计算机可读存储介质。其中，该语音唤醒方法包括：获取用户的语音信号；基于所述用户的语音信号，确定目标拼音序列；将所述目标拼音序列与预定的拼音序列进行匹配；若匹配，则进行唤醒操作。由此可见，本申请实施例通过文字级别的拼音标注，而非语音帧级别的标注，直接通过拼音匹配来实现语音匹配，进而实现语音唤醒操作，从而解决了如何进行快速唤醒响应的技术问题。

Description

语音唤醒方法、装置、智能音箱和计算机可读存储介质

技术领域

本申请涉及语音处理技术领域，特别是涉及一种语音唤醒方法、装置、智能音箱和计算机可读存储介质。

背景技术

目前，随着科技的发展，语音唤醒技术越来越流行。

现有的语音唤醒技术基于HMM(Hidden Markov Model,隐性马尔科夫方法)。该方法将语音信号视为遵守隐性马尔科夫链性质的时序信号；通过将语音信号标注为音素；然后，将语音的音素表示为包含三个隐藏状态的隐性马尔科夫模型并对隐藏状态间的转移概率进行估计。其中，解码过程需要等待用户的语音信号全部输入后才能进行。该解码过程会造成很大的延迟，从而导致唤醒响应很慢。

因此，现有技术因需要等待全部的用户语音信号输入完毕后才能进行解码而存在唤醒响应慢的缺陷。

发明内容

本申请实施例的主要目的在于提供一种语音唤醒方法、装置、智能音箱和计算机可读存储介质，以解决如何进行快速唤醒响应的技术问题。

为了实现上述目的，第一方面，本申请提供了以下技术方案：

一种语音唤醒方法，其包括：

获取用户的语音信号；

基于所述用户的语音信号，确定目标拼音序列；

将所述目标拼音序列与预定的拼音序列进行匹配；

若匹配，则进行唤醒操作。

进一步地，所述基于所述用户的语音信号，确定目标拼音序列的步骤，具体包括：

基于所述用户的语音信号，计算与所述用户的语音信号对应的拼音序列概率分布；

从所述拼音序列概率分布中，确定概率值最大的拼音序列；

将所述概率值最大的拼音序列确定为所述目标拼音序列。

进一步地，基于所述用户的语音信号，计算与所述用户的语音信号对应的拼音序列概率分布的步骤，具体包括：

基于所述用户的语音信号，利用深度卷积神经网络，计算与所述用户的语音信号对应的所述拼音序列概率分布。

进一步地，基于所述用户的语音信号，利用深度卷积神经网络，计算与所述用户的语音信号对应的所述拼音序列概率分布的步骤，具体包括：

将所述用户的语音信号转换为时域频谱信号；

利用所述深度卷积神经网络，并将所述时域频谱信号作为所述深度卷积神经网络的输入，处理得到所述拼音序列概率分布。

进一步地，将所述用户的语音信号转换为时域频谱信号的步骤，具体包括：

对每帧用户的语音信号进行快速傅里叶变换；

利用梅尔滤波器对快速傅里叶变换的结果进行滤波，得到所述用户的语音信号的所述时域频谱信号。

进一步地，所述深度卷积神经网络包括前馈神经网络。

进一步地，所述前馈神经网络的权重通过注意力机制来得到。

进一步地，所述前馈神经网络的权重通过注意力机制来得到的步骤通过以下方式实现：

对所述用户的语音信号的语音帧进行窗口化处理；

对窗口内的语音帧进行线性映射，得到线性映射矩阵；

利用所述线性映射矩阵，对所述用户的语音信号中的最后一帧、以及所述窗口中的每一帧进行注意力操作，得到多个注意力系数：

拼接所述多个注意力系数，得到所述前馈神经网络的权重。

进一步地，采用基于神经网络的时序类分类的方法来训练所述深度卷积神经网络。

为了实现上述目的，第二方面，本申请还提供了以下技术方案：

一种语音唤醒装置，其包括：

获取模块，用于获取用户的语音信号；

确定模块，用于基于所述用户的语音信号，确定目标拼音序列；

匹配模块，用于将所述目标拼音序列与预定的拼音序列进行匹配；

唤醒模块，用于在匹配的情况下，进行唤醒操作。

进一步地，所述确定模块具体用于：

从所述拼音序列概率分布中，确定概率值最大的拼音序列；

将所述概率值最大的拼音序列确定为所述目标拼音序列。

进一步地，所述确定模块具体用于：

进一步地，所述确定模块具体还用于：

将所述用户的语音信号转换为时域频谱信号；

进一步地，所述确定模块具体还用于：

对每帧用户的语音信号进行快速傅里叶变换；

进一步地，所述深度卷积神经网络包括前馈神经网络。

进一步地，所述确定模块，用于通过注意力机制来确定所述前馈神经网络的权重。

进一步地，所述确定模块具体还用于：

对所述用户的语音信号的语音帧进行窗口化处理；

对窗口内的语音帧进行线性映射，得到线性映射矩阵；

拼接所述多个注意力系数，得到所述前馈神经网络的权重。

进一步地，所述确定模块还用于：采用基于神经网络的时序类分类的方法来训练所述深度卷积神经网络。

为了实现上述目的，第三方面，本申请还提供了以下技术方案：

一种智能音箱，其包括处理器和存储器；其中：

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现第一方面中任意一项所述的方法步骤。

为了实现上述目的，第四方面，本申请还提供了以下技术方案：

一种计算机可读存储介质，其用于存储非暂时性计算机可读指令，当所述非暂时性计算机可读指令由计算机执行时，使得所述计算机执行如第一方面中任意一项所述的语音唤醒方法。

与现有技术相比，本申请实施例至少具有以下优点：

本申请实施例提供一种语音唤醒方法、装置、智能音箱和计算机可读存储介质。其中，该语音唤醒方法包括：获取用户的语音信号；基于所述用户的语音信号，确定目标拼音序列；将所述目标拼音序列与预定的拼音序列进行匹配；若匹配，则进行唤醒操作。由此可见，本申请实施例通过文字级别的拼音标注，而非语音帧级别的标注，直接通过拼音匹配来实现语音匹配，进而实现语音唤醒操作。这与现有技术采用HMM而将语音的音素表示为包含三个隐藏状态的隐性马尔科夫模型并对隐藏状态间的转移概率进行估计的方法相比，可以实现快速唤醒响应的技术效果。

当然，实施本申请的任一产品不一定需要同时实现以上所述的所有优点。

为了能更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为让本申请的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例,并配合附图，详细说明如下。本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而得以体现。本申请的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。所要求保护的主题不限于解决在背景技术中提及的任何或所有缺点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，附图作为本申请的一部分，用来对本申请作进一步的理解。下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。其中：

图1为根据一示例性实施例的语音唤醒方法的流程示意图；

图2为根据一示例性实施例的用户的语音信号的示意图；

图3为根据一示例性实施例的呈均匀分布的频谱示意图；

图4为根据一示例性实施例的卷积操作过程的示意图；

图5为根据一示例性实施例的最大池化操作的示意图；

图6为根据一示例性实施例的注意力操作示意图；

图7为根据一示例性实施例的语音信号的拼音概率分布示意图；

图8为根据一示例性实施例的、拼音标注“ruo qi”在四帧语音信号上所有可能的情况的示意图；

图9为根据一示例性实施例的、通过图7所示拼音概率分布得出拼音序列为“ruo空拼音qi qi”的概率路径示意图；

图10为根据一示例性实施例的语音唤醒装置的结构示意图。

上述附图和文字描述并不旨在以任何方式来限制本申请的保护范围，而是通过参考特定实施例，以向本领域技术人员说明本申请的概念。并且，任一附图中的标记和文字仅仅是为了更清楚地说明本申请，不应视为对本申请保护范围的不当限定。

具体实施方式

下面通过特定的具体实例说明本申请的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本申请的其他优点与功效。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。本申请还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本申请的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合而形成技术方案。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，下文描述在所附权利要求书的范围内的实施例的各种方面。应显而易见，本文中所描述的方面可体现于广泛多种形式中，且本文中所描述的任何特定结构及/或功能仅为说明性的。基于本申请，所属领域的技术人员应了解，本文中所描述的一个方面可与任何其它方面独立地实施，且可以各种方式组合这些方面中的两者或两者以上。举例来说，可使用本文中所阐述的任何数目个方面来实施设备及/或实践方法。另外，可使用除了本文中所阐述的方面中的一或多者之外的其它结构及/或功能性实施此设备及/或实践此方法。

还需要说明的是，以下实施例中所提供的图示仅以示意方式说明本申请的基本构想，图式中仅显示与本申请中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制，其实际实施时各组件的型态、数量及比例可为一种随意的改变，且其组件布局型态也可能更为复杂。

另外，在以下描述中，提供具体细节是为了便于透彻理解实例。然而，所属领域的技术人员将理解，可在没有这些特定细节的情况下实践所述方面。本申请的示意性实施例及其说明可以用于解释本申请，但不构成对本申请保护范围的不当限定。

为了解决如何进行快速唤醒响应的技术问题，本申请实施例提供一种语音唤醒方法。该方法可以应用于终端。该终端包括但不限于音箱、手机、计算机、可穿戴设备等。如图1所示，该语音唤醒方法可以包括以下步骤。其中：

S1000：获取用户的语音信号。

在实际应用中，终端实时监听用户是否发出了语音信号。用户可以向处于待机状态的智能音箱等终端发送语音信号(例如，开机语音信号、播放音乐语音信号等)。其中，语音信号为时域上的一维信号。

S1100：基于用户的语音信号，确定目标拼音序列。

本申请实施例直接使用拼音对用户的语音信号进行识别，以通过拼音实现唤醒操作。

本步骤将语音信号直接表示为拼音数据，而不像HMM那样，需要依赖从HMM隐状态到拼音序列的解码过程。所以，本申请实施例提供的方法可以简化解码过程，由此可以为快速进行唤醒响应提供基础。

具体地，本步骤S1100可以包括：

S1110：基于用户的语音信号，计算与该用户的语音信号对应的拼音序列概率分布。

其中，拼音序列概率分布可以是用户的语音信号的各种拼音可能结果及其相应概率的二维矩阵。

在具体实施过程中，本步骤S1110可以通过以下方式实现：

S1111：基于用户的语音信号，利用深度卷积神经网络，计算与用户的语音信号对应的拼音序列概率分布。

具体地，步骤S1111还可以包括S1111a和S1111b。其中：

S1111a：将用户的语音信号转换为时域频谱信号。

用户的语音信号为时域上的一维信号。本申请实施例通过分帧的方式将其转换为二维时频谱。在具体实施过程中，可以以25ms为单位，对语音信号进行截取，所截取的语音信号作为一帧。帧与帧间隔10ms。

如图2所示，该图2示例性地示出了用户的语音信号21和用户的语音信号22。图2示例性示出了10ms和25ms的长度，由此可见，前后两帧间有15ms的重叠。

本步骤通过将用户的语音信号转换为时域频谱信号，实现对语音信号的预处理，以为深度卷积神经网络的训练提供基础。

具体地，本步骤S1111a可以包括：

Sa1：对每帧用户的语音信号进行快速傅里叶变换；

Sa2：利用梅尔滤波器对快速傅里叶变换的结果进行滤波，得到该用户的语音信号的时域频谱信号。

其中，梅尔滤波器可以包括若干个带通滤波器，例如，可以包括40个带通滤波器。该若干个带通滤波器的频带满足以下条件：对频率值进行对数运算；该对数运算结果在频谱上呈均匀分布。

图3示例性地示出了呈均匀分布的频谱示意图。该频谱示意图的横轴为频率(以Hz为单位)，纵轴为幅度。

为了便于理解，下面结合图3对本申请实施例进行详细说明。

假设语音信号的采样率为每秒16000个点，以25毫秒为单位，对用户的语音信号进行分帧，则一帧用户的语音信号包含的采样点数量可以通过下式计算得到：

0.025×16000＝400 (公式一)

再假设对用户的语音信号分帧为n帧(n取正整数)，则用户的语音信号可以表示为n×400的二维矩阵。

然后，对每一帧内400个采样点的语音信号进行傅里叶变换，以将时域的语音信号转换为频域信号。

接着，可以使用诸如包含40个带通滤波器的梅尔滤波器对频域信号进行滤波。其中，带通滤波器的设计原则为：对输出频率取对数后的结果呈均匀分布(如图3所示)。

S1111b：利用深度卷积神经网络，并将域频谱信号作为深度卷积神经网络的输入，处理得到拼音序列概率分布。

下面沿用上例对步骤S1111b进行举例说明。

假设将n×40时域频谱信号作为语音特征，输入深度卷积神经网络，则经过计算，可以得到n×m维的拼音序列概率分布。

其中，n×m维的拼音序列概率分布也可视为二维矩阵。其中，该二维矩阵中的列表示一帧语音的结果；行表示拼音概率。

表一示例性地示出了拼音序列概率分布。

表一：

0.1	0.3	0.1	0.6	0.2	0.1	0.2	0.6
								0.5	0.2	0.1	0.1	0.2	0.7	0.5	0.2
0.3	0.1	0.1	0.1	0.6	0.1	0.4	0.1
								0.1	0.4	0.9	0.2	0.0	0.1	0.1	0.1

如表一所示，从上至下，每行对应于一种拼音，即：a、ba、bo和bi。表一中的列表示一帧语音信号的结果；行表示其所对应的一种拼音的概率。

为了便于理解本申请，下面举例对深度卷积神经网络进行详细说明。

在一个可选的实施例中，该深度卷积神经网络可以包括前馈神经网络。

本实施例通过采用前馈神经网络，可以提高深度卷积神经网络的鲁棒性，并且可以提高后续唤醒步骤的成功率。

当然，该深度卷积神经网络可以根据实际情况调整其内部结构。举例来说，该深度卷积神经网络可以包括卷积神经网络和前馈神经网络。

例如，该深度卷积神经网络可以构建为包括3层卷积层的卷积神经网络、包括5层前馈神经网络、以及2层全连接层的结构。

具体地，还可以采用3层卷积层、位于卷积层之后的激活层、位于该激活层之后的最大池化层和5层前馈神经网络。

表二示例性地示出了各层卷积层及其参数。

表二：

卷积层序号	卷积核参数(宽度╳高度╳权值╳个数)
		第一层卷积层	3╳3╳1╳32
第二层卷积层	3╳3╳32╳32
		第三层卷积层	3╳3╳32╳64

其中，第一层卷积层的输出作为第二层卷积层的输入，以此类推。卷积核参数通过训练进行更新。

图4示例性地示出了卷积操作过程。

如图4所示，6×6×3的三维矩阵相当于用户的语音信号n×40×1的三维矩阵；卷积核为3×3×3的三维矩阵。其中，6×6×3的三维矩阵分别与两个卷积核卷积后，得到两个4×4的二维矩阵。

上述得到的两个4×4的二维矩阵中的任意一点可以通过下式计算得到：

式中，x、y表示两个4×4的二维矩阵中的任意一点的横、纵坐标；c表示输出的矩阵的序号；I表示输入卷积神经网络的信号；F表示卷积参数；i、j表示卷积参数矩阵(也即卷积核矩阵)的坐标；z表示卷积参数矩阵的序号；Q_c(x,y)表示第x行、第y列的点。

下面举例说明两个4×4的二维矩阵中的任意一点的计算过程。

假设输入卷积神经网络的三维矩阵为：

卷积核为：

通过公式二计算可以得到输出为：

82.2	91.2	100.2
			127.2	136.2	145.2
172.2	181.2	190.2

。

下面以Q(0,0)点为例说明公式二的计算过程：

本实施例通过激活函数来引入非线性因素，进而增强表达能力。本申请实施例可以采用以下激活函数：

式中，x表示输入值；f(x)表示激活函数。

f(x)可以连接在卷积层之后，其作用是：如果输入的数值大于0，则将输入的数值保留为原值；如果输入的数值小于等于0，就将输入的数值替换为0。也就是说，将卷积层的输出结果中大于0的数值保留其原值，而将小于等于0的数值设置为0。

最大池化层用于进行降采样。

图5示例性地示出了最大池化操作的过程。

最大池化层的操作可以采用窗口大小为2×2、步长为2×2的方式进行。最大池化操作可以根据下式进行：

式中，i、j表示横纵坐标值；a表示输入；Q_i,j表示输出。

如图5所示，在12、20、8、12组成的窗口中，最大值为20，所以经过最大池化操作后，得到20；同理，30、0、0、2组成的窗口经过最大池化操作后得到30；以此类推，得到112和37。

接下来，对前馈神经网络(Feed-forward Sequential Memory Network，FSMN)进行详细说明。

前馈神经网络可视为卷积核很大的一维卷积层。对输入的矩阵(对卷积神经网络而言是输出的矩阵)进行取窗操作。其中，窗口大小为13帧。窗口每次向前滑动一帧。

在每个窗口内进行如下卷积操作：

式中，表示点乘；Y_t表示卷积操作结果；C_i表示卷积核参数向量；X_(t-i)表示输入的矩阵；P_j表示卷积核参数向量，即前馈神经网络的参数，也即训练时所更新的参数；t表示输出的序号；M、N取正整数。

由公式五可见，Y_t只与窗口内的13帧输入矩阵有关。这也是与现有技术中采用循环神经网络，而使得循环神经网络的输出与输入的任意一帧输入矩阵都有关方法的区别之处。

另外，为了确保深度卷积神经网络训练的稳定性，可以在前馈神经网络间引入残差连接。

下面以具体实施例对前馈神经网络的计算过程进行详细说明。

假设第一个窗口内的13帧输入的矩阵为：

卷积核参数向量为：

利用公式五，可以得到输出矩阵的第一帧为：

沿用上例，再假设第二个窗口内的13帧输入的矩阵为：

卷积核参数向量为：

利用公式五，可以得到输出矩阵的第二帧为：

本实施例中的2层全连接层起到前馈神经网络间的过渡作用。

全连接层通过以下方式计算：

y＝Wx+b； (公式六)

式中，y表示输出；W表示权重；x表示输入向量；b表示偏置项。

因为前馈神经网络的卷积核参数向量，在训练时进行更新，而在使用时是固定的，其不能随着输入的改变而改变。鉴于此，本申请实施例引入注意力机制。

这里，注意力机制是指将输入的语音信号分成若干份，然后，计算每份内每帧语音信号的注意力系数，得到若干个注意力系数；接着，将该若干个注意力系数求和；最后，将求和结果作为输出。

在一个可选的实施例中，前馈神经网络的权重通过注意力机制来得到。

具体而言，前馈神经网络的权重通过注意力机制来得到的步骤可以通过步骤Sb1至步骤Sb4来实现。

Sb1：对用户的语音信号的语音帧进行窗口化处理。

Sb2：对窗口内的语音帧进行线性映射，得到线性映射矩阵，如下：

Q_multi-head＝[Q₁,Q₂]； (公式七)

式中，

k_multi-head＝[k₁,k₂] (公式八)

式中，；

Sb3：利用线性映射矩阵，对用户的语音信号中的最后一帧、以及窗口中的每一帧进行注意力操作，得到多个注意力系数：

式中，c_n表示注意力系数；Softmax表示软最大化操作。

Sb4：拼接多个注意力系数，得到前馈神经网络的权重：

y_t＝Concat([c₁,c₂])； (公式十)

式中，Concat表示拼接操作；y_t表示前馈神经网络的权重。

下面结合图6以具体实施例对注意力操作进行详细说明。

假设输入矩阵为：

0.8	0.9	1.0	1.1	1.2
					1.8	1.9	2.0	2.1	2.2
2.8	2.9	3.0	3.1	3.2
					3.8	3.9	4.0	4.1	4.2

；

上述输入矩阵经过矩阵切分操作后，得到两个子矩阵：

分别对上述两个子矩阵执行注意力操作，得到：

再对得到的上述两个矩阵执行拼接操作，得到以下矩阵：

本申请实施例通过向前馈神经网络中引入注意力机制，可以使得前馈神经网络的权重随输入的改变而改变，由此提高了前馈神经网络权重的灵活性，进而提高了深度卷积神经网络的鲁棒性，可以将拼音正确识别率提高10％。

众所周知，语音识别的困难在于语音信号长度与标注长度不匹配。

举例来说，假设，一段唤醒语音的拼音标注为：ruo qi。该端语音经过处理后为4帧。拼音标注长度为2，即：ruo和qi。由此可见，如何利用4帧的语音去计算拼音标注结果(即拼音序列)“ruo qi”的概率是现有技术长期难以解决的问题。

对此，为了解决语音信号长度与标注长度不匹配的问题，本实施例采用基于神经网络的时序类分类(Connectionist Temporal Classification，简称CTC)的方法来训练深度卷积神经网络，以更新该深度卷积神经网络的参数。

下面说明利用CTC方法解决语音信号长度与标注长度不匹配问题的发明构思。

本申请实施例继续沿用上述拼音标注为“ruo qi”的唤醒语音。

这里，假设针对输入的四帧语音信号而输出的每帧的拼音概率分布如图7所示。其中，上述拼音概率分布自上至下，每行分别对应拼音“ruo”、拼音“qi”、拼音“wo”、拼音“ta”、空拼音“blank”。

本申请实施例通过预定规则，可以将“ruo qi”扩展在四帧语音上。图8示例性地示出了拼音标注“ruo qi”在四帧语音信号上所有可能的情况。

预定规则为：在每个时间点，如果当前帧为所标注的拼音，则在下一个时间点，可以允许拼音重复、或空拼音、再或者转为另一种情况的拼音序列；如果当前帧为空拼音，则在下一个时间点，可以重复下一帧的拼音序列、或者转为另一种情况的拼音序列。

举例来说，如果当前拼音为“ruo”，则在下一个时间点，拼音可以为ruo或空拼音、亦或qi；如果当前拼音为空拼音，则在下一个时间点，拼音可以为空拼音或者qi。

在上述预定规则中，可能情况可以不包含空拼音，但需要包含完整的拼音标注。例如，“ruo空拼音空拼音空拼音”因为缺少qi，而不符合上述预定规则；“空拼音qi qi qi”因为缺少ruo，而不符合上述预定规则。

当利用上述预定规则得到所有可能的拼音序列后，计算该拼音序列的概率。

以拼音序列为“ruo空拼音qi qi”为例，其概率通过图7所示拼音概率分布可以得出为0.1×0.3×0.1×0.1＝0.0003。

图9示例性示出了通过图7所示拼音概率分布得出拼音序列为“ruo空拼音qi qi”的概率路径。如图9所示，“ruo”的概率为0.1，空拼音的概率为0.3，两个“qi”的概率均为0.1。拼音序列及其中的各个拼音的概率形成一条路径S。

相较于HMM类方法，CTC并不关心每帧语音到底是哪个标签，也不关心标签间的转移概率；而是利用重复与空标签扩展出所有正确的路径后，直接优化路径的边沿概率，由此简化了训练过程，从而可以通过文字级别的标注就可以直接对神经网络进行训练。

本申请实施例利用CTC方法来训练深度卷积神经网络，扩展出了所有拼音序列的可能情况，然后直接最大化所有可能情况的概率之和，也即最大化拼音路径集合的概率，由此解决了语音信号长度与标注长度不匹配的问题；而且相比于利用HMM，其输出为隐状态概率，并且需要依赖从HMM隐状态到拼音序列的解码，而本申请实施例直接最大化所有可能情况的概率之和，因而本申请实施例还简化了训练过程。

S1120：从拼音序列概率分布中，确定概率值最大的拼音序列。

S1130：将概率值最大的拼音序列确定为目标拼音序列。

S1200：将目标拼音序列与预定的拼音序列进行匹配。

其中，预定的拼音序列与预定的唤醒词对应。其中，预定的唤醒词可以根据用户的喜好、使用习惯等进行设置，例如，预定的唤醒词可以为小爱、小昕等。具体而言，本步骤判断概率最大的拼音序列是否为预定的唤醒词对应的预定的拼音序列，来确定后续步骤是否进行唤醒操作。

S1300：若匹配，则进行唤醒操作。

在本步骤中，如果概率最大的拼音序列为预定的唤醒词对应的预定的拼音序列，则确定进行唤醒操作，以激活终端(例如，智能音箱等)，实现对终端的唤醒，使得终端从待机状态转换为交互状态。

综上所述，本申请实施例通过文字级别的拼音标注，而非语音帧级别的标注，直接通过拼音匹配来实现语音匹配，进而实现语音唤醒操作。这与现有技术采用HMM而将语音的音素表示为包含三个隐藏状态的隐性马尔科夫模型并对隐藏状态间的转移概率进行估计的方法相比，可以实现快速唤醒响应的技术效果，而且反应灵敏，可以适应恶劣环境(恶劣环境包括强噪声和/或强混响的环境)，还提高了鲁棒性，使得用户体验良好。

在上文中，虽然按照上述的顺序描述了语音唤醒方法实施例中的各个步骤，本领域技术人员应清楚，本申请实施例中的步骤并不必然按照上述顺序执行，其也可以倒序、并行、交叉等其他顺序执行，而且，在上述步骤的基础上，本领域技术人员也可以再加入其他步骤，这些明显变型或等同替换的方式也应包含在本申请的保护范围之内，在此不再赘述。

下面为本申请装置实施例，本申请装置实施例用于执行本申请方法实施例实现的步骤，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请方法实施例。在本申请各个装置实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

为了解决如何进行快速唤醒响应的技术问题，本申请实施例还提供一种语音唤醒装置。如图10所示，该装置可以包括：获取模块101、确定模块102、匹配模块103和唤醒模块104。其中，获取模块101用于获取用户的语音信号。确定模块102用于基于用户的语音信号，确定目标拼音序列。匹配模块103用于将目标拼音序列与预定的拼音序列进行匹配。唤醒模块104用于在匹配的情况下，进行唤醒操作。

在一个可选的实施例中，确定模块102具体用于：基于用户的语音信号，计算与用户的语音信号对应的拼音序列概率分布；从拼音序列概率分布中，确定概率值最大的拼音序列；将概率值最大的拼音序列确定为目标拼音序列。

在一个可选的实施例中，确定模块102具体用于：基于用户的语音信号，利用深度卷积神经网络，计算与用户的语音信号对应的拼音序列概率分布。

在一个可选的实施例中，确定模块102具体还用于：将用户的语音信号转换为时域频谱信号；利用深度卷积神经网络，并将时域频谱信号作为深度卷积神经网络的输入，处理得到拼音序列概率分布。

在一个可选的实施例中，确定模块102具体还用于：对每帧用户的语音信号进行快速傅里叶变换；利用梅尔滤波器对快速傅里叶变换的结果进行滤波，得到用户的语音信号的时域频谱信号。

在一个可选的实施例中，深度卷积神经网络包括前馈神经网络；确定模块102用于通过注意力机制来确定前馈神经网络的权重。

在一个可选的实施例中，确定模块102具体还用于：对用户的语音信号的语音帧进行窗口化处理；对窗口内的语音帧进行线性映射，得到线性映射矩阵；

利用线性映射矩阵，对用户的语音信号中的最后一帧、以及窗口中的每一帧进行注意力操作，得到多个注意力系数：拼接多个注意力系数，得到前馈神经网络的权重。

在一个可选的实施例中，确定模块102还用于：采用基于神经网络的时序类分类的方法来训练深度卷积神经网络。

本申请实施例通过获取模块101、确定模块102、匹配模块103和唤醒模块104，实现了文字级别的拼音标注，而非语音帧级别的标注，直接通过拼音匹配来实现语音匹配，进而实现语音唤醒操作。这与现有技术采用HMM而将语音的音素表示为包含三个隐藏状态的隐性马尔科夫模型并对隐藏状态间的转移概率进行估计的方法相比，可以实现快速唤醒响应的技术效果，而且反应灵敏，可以适应恶劣环境(恶劣环境包括强噪声和/或强混响的环境)，还提高了鲁棒性，使得用户体验良好。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程及其解决的技术问题和取得的技术效果，可以参考前述方法实施例中的对应过程及其解决的技术问题和取得的技术效果，在此不再赘述。

为了解决如何进行快速唤醒响应的技术问题，本申请实施例还提供一种智能音箱，其包括处理器和存储器。其中，存储器用于存放计算机程序。处理器用于执行存储器上所存放的程序时，实现任意一项语音唤醒方法实施例所述的方法步骤。所述智能音箱可以通过网络连接到云端服务器，由于智能音箱算力的限制，该语音唤醒的方法的部分或全部步骤可以放到云端服务器执行。本领域的技术人员可以理解，在不脱离本发明范围的情况下，可以选择将本发明的部分或全部步骤放到终端执行或放到和终端网络相连的云端服务器执行。因此，本领域的技术人员可以理解，在云端服务器上执行本发明的一个或多个步骤的处理器和存储器可以视为智能音箱的处理器和存储器的延伸。

上述处理器可以包括一个或多个处理核心，比如：4核心处理器、8核心处理器等。处理器可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(FieldProgrammable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central Processing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器还可以包括AI(ArtificialIntelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

上述存储器可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器所执行。

在一些示例性的实施例中，智能音箱还可选地包括：外围设备接口和至少一个外围设备。处理器、存储器和外围设备接口之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口相连。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的智能音箱的具体工作过程及其解决的技术问题和取得的技术效果，可以参考前述方法实施例中的对应过程及其解决的技术问题和取得的技术效果，在此不再赘述。

为了解决如何进行快速唤醒响应的技术问题，本申请实施例还提供一种计算机可读存储介质。该计算机可读存储介质用于存储非暂时性计算机可读指令，当所述非暂时性计算机可读指令由计算机执行时，使得所述计算机执行任意一项语音唤醒方法实施例所述的步骤。

该计算机可读存储介质可应用于终端，该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，该指令、该程序、该代码集或该指令集由处理器加载并执行以实现。

上述计算机可读存储介质可以包括但不限于随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、只读存储器(ROM)、可编程只读存储器(PROM)、可擦写可编程只读存储器(EPROM)、电可擦写可编程只读存储器(EEPROM)、闪存(例如，NOR型闪存或NAND型闪存)、内容可寻址存储器(CAM)、聚合物存储器(例如，铁电聚合物存储器)、相变存储器、双向开关半导体存储器、硅-氧化物-氮化硅-氧化硅-硅(Silicon-Oxide-Nitride-Oxide-Silicon，SONOS)存储器、磁卡或者光卡，亦或是其他任意适当类型的计算机可读存储介质。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的计算机可读存储介质的具体工作过程及其解决的技术问题和取得的技术效果，可以参考前述方法实施例中的对应过程及其解决的技术问题和取得的技术效果，在此不再赘述。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

需要说明的是，本文中涉及到的流程图和/或框图不仅仅局限于本文所示的形式，其还可以进行划分和/或组合。

还需要指出的是，在本申请的系统和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。本说明书中的各个实施例均采用相关的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。可以不脱离由所附权利要求定义的教导的技术而进行对在此所述的技术的各种改变、替换和更改。此外，本申请的权利要求的范围不限于以上所述的处理、机器、制造、事件的组成、手段、方法和动作的具体方面。可以利用与在此所述的相应方面进行基本相同的功能或者实现基本相同的结果的当前存在的或者稍后要开发的处理、机器、制造、事件的组成、手段、方法或动作。因而，所附权利要求包括在其范围内的这样的处理、机器、制造、事件的组成、手段、方法或动作。本领域技术人员在考虑说明书及这里公开的具体实施方式后，会容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请所未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正保护范围由权利要求指出。

以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进、改变、添加和子组合等，均包含在本申请的保护范围内。

Claims

1.一种语音唤醒方法，其特征在于，包括：

获取用户的语音信号；

基于所述用户的语音信号，确定目标拼音序列；

将所述目标拼音序列与预定的拼音序列进行匹配；

若匹配，则进行唤醒操作。

2.根据权利要求1所述的方法，其特征在于，所述基于所述用户的语音信号，确定目标拼音序列的步骤，具体包括：

从所述拼音序列概率分布中，确定概率值最大的拼音序列；

将所述概率值最大的拼音序列确定为所述目标拼音序列。

3.根据权利要求2所述的方法，其特征在于，基于所述用户的语音信号，计算与所述用户的语音信号对应的拼音序列概率分布的步骤，具体包括：

4.根据权利要求3所述的方法，其特征在于，基于所述用户的语音信号，利用深度卷积神经网络，计算与所述用户的语音信号对应的所述拼音序列概率分布的步骤，具体包括：

将所述用户的语音信号转换为时域频谱信号；

5.根据权利要求4所述的方法，其特征在于，将所述用户的语音信号转换为时域频谱信号的步骤，具体包括：

对每帧用户的语音信号进行快速傅里叶变换；

6.根据权利要求3所述的方法，其特征在于，所述深度卷积神经网络包括前馈神经网络。

7.根据权利要求6所述的方法，其特征在于，所述前馈神经网络的权重通过注意力机制来得到。

8.根据权利要求7所述的方法，其特征在于，所述前馈神经网络的权重通过注意力机制来得到的步骤通过以下方式实现：

对所述用户的语音信号的语音帧进行窗口化处理；

对窗口内的语音帧进行线性映射，得到线性映射矩阵；

拼接所述多个注意力系数，得到所述前馈神经网络的权重。

9.根据权利要求3-8中任一所述的方法，其特征在于，采用基于神经网络的时序类分类的方法来训练所述深度卷积神经网络。

10.一种语音唤醒装置，其特征在于，包括：

获取模块，用于获取用户的语音信号；

唤醒模块，用于在匹配的情况下，进行唤醒操作。

11.根据权利要求10所述的装置，其特征在于，所述确定模块具体用于：

从所述拼音序列概率分布中，确定概率值最大的拼音序列；

将所述概率值最大的拼音序列确定为所述目标拼音序列。

12.根据权利要求11所述的装置，其特征在于，所述确定模块具体用于：

13.根据权利要求12所述的装置，其特征在于，所述确定模块具体还用于：

将所述用户的语音信号转换为时域频谱信号；

14.根据权利要求13所述的装置，其特征在于，所述确定模块具体还用于：

对每帧用户的语音信号进行快速傅里叶变换；

15.根据权利要求12所述的装置，其特征在于，所述深度卷积神经网络包括前馈神经网络。

16.根据权利要求15所述的装置，其特征在于，所述确定模块，用于通过注意力机制来确定所述前馈神经网络的权重。

17.根据权利要求15所述的装置，其特征在于，所述确定模块具体还用于：

对所述用户的语音信号的语音帧进行窗口化处理；

对窗口内的语音帧进行线性映射，得到线性映射矩阵；

拼接所述多个注意力系数，得到所述前馈神经网络的权重。

18.根据权利要求12-17中任一所述的装置，其特征在于，所述确定模块还用于：采用基于神经网络的时序类分类的方法来训练所述深度卷积神经网络。

19.一种智能音箱，其特征在于，包括处理器和存储器；其中：

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现权利要求1-9中任意一项所述的方法步骤。

20.一种计算机可读存储介质，其特征在于，其用于存储非暂时性计算机可读指令，当所述非暂时性计算机可读指令由计算机执行时，使得所述计算机执行如权利要求1-9中任意一项所述的语音唤醒方法。