CN113920988B

CN113920988B - 语音唤醒方法、装置及可读存储介质

Info

Publication number: CN113920988B
Application number: CN202111460653.4A
Authority: CN
Inventors: 高思斌; 艾国; 杨作兴; 房汝明; 向志宏
Original assignee: Shenzhen MicroBT Electronics Technology Co Ltd
Current assignee: Shenzhen MicroBT Electronics Technology Co Ltd
Priority date: 2021-12-03
Filing date: 2021-12-03
Publication date: 2022-03-22
Anticipated expiration: 2041-12-03
Also published as: WO2023098459A1; CN113920988A

Abstract

本发明实施例提出语音唤醒方法、装置及可读存储介质。方法包括：语音活动检测VAD解码层获取由VAD编码层已编码的深层特征，所述深层特征从用于VAD编码和语音唤醒编码的数字音频信号中提取；根据所述数字音频信号中的每一音频帧的语音概率，判断所述数字音频信号中的每一音频段是否为语音，所述每一音频段包含多个音频帧；针对每一音频段，若该音频段为语音，则VAD解码层指示将该音频段的深层特征输入到语音唤醒解码层，进行语音唤醒。本发明实施例提高了语音唤醒的准确率。

Description

语音唤醒方法、装置及可读存储介质

技术领域

本发明实施例涉及语音处理技术领域，尤其涉及语音唤醒方法、装置及可读存储介质和计算机程序产品。

背景技术

目前，智能音箱等交互产品被广泛应用，语音交互成为最直接的控制方式，使得人机交互更加智能和人性化。相关技术中，语音唤醒是语音交互过程中的一个重要环节。

各类交互产品中，为了提高语音唤醒率，同时降低误唤醒率，通常会对采集的音频进行语音活动检测（VAD，Voice Activity Detection），只有检测为语音的音频才会被送入到语音唤醒模型进行唤醒判断。然而目前为了保证语音唤醒模块判断是否为唤醒词的速度，减少用户等待时间，前端的VAD模块通常采用传统信号处理的算法，甚至单纯采用短时能量、短时平均过零率等简单指标的组合判别方法。虽然基于传统信号处理的VAD方法，可以降低VAD模块的判断时间，但是容易将非语音误判成语音，送入到唤醒模块后，从而导致误唤醒的发生。

发明内容

本发明提出语音唤醒方法、装置及可读存储介质和计算机程序产品，以提高语音唤醒的准确度。

本发明实施例的技术方案是这样实现的：

一种语音唤醒方法，该方法包括：

语音活动检测解码层获取由语音活动检测编码层已编码的深层特征，所述深层特征从用于语音活动检测编码和语音唤醒编码的数字音频信号中提取；

根据所述数字音频信号中的每一音频帧的语音概率，判断所述数字音频信号中的每一音频段是否为语音，所述每一音频段包含多个音频帧；

针对每一音频段，若该音频段为语音，则语音活动检测解码层指示将该音频段的深层特征输入到语音唤醒解码层，进行语音唤醒。

所述根据所述数字音频信号中的每一音频帧的语音概率，判断所述数字音频信号中的每一音频段是否为语音，包括：

对于每一音频帧，若该音频帧的语音概率大于预设第一阈值，则判定该音频帧为语音帧；

对于每一音频段，统计该音频段中包含语音帧的数目，若该数目大于预设第二阈值，则判定该音频段为语音。

所述语音活动检测编码层的结构为：两个全连接层、一个一维卷积层、一个全连接层和一个一维卷积层；

所述语音活动检测解码层的结构为：一个全连接层。

所述语音唤醒解码层的结构为：两个二维卷积层、一个池化层和一个全连接层。

语音活动检测解码层指示将该音频段的深层特征输入到语音唤醒解码层，包括：

语音活动检测解码层判断该音频段为语音，则缓存该深层特征，若每一音频段的长度小于预设长度值，则判定为语音的、且还未进行语音唤醒的各音频段的总长度大于等于预设长度值时，语音活动检测解码层指示语音活动检测编码层将所述判定为语音的、且还未进行语音唤醒的各音频段的深层特征输入到语音唤醒解码层；

所述预设长度值大于或等于预设的唤醒词的长度。

所述进行语音唤醒，包括：

若语音唤醒成功，则指示清除缓存中对应的深层特征；或者

若语音唤醒失败，并且检测到音频段中包括至少一部分唤醒词，则指示在缓存中继续保留该深层特征；或者

若语音唤醒失败，并且未检测到音频段中包括至少一部分唤醒词，则指示清除缓存中的深层特征。

一种语音活动检测解码层，包括：

获取模块，用于获取由语音活动检测编码层已编码的深层特征，所述深层特征从用于语音活动检测编码和语音唤醒编码的数字音频信号中提取；

判断模块，用于根据所述数字音频信号中的每一音频帧的语音概率，判断所述数字音频信号中的每一音频段是否为语音，所述每一音频段包含多个音频帧；

输出模块，用于针对每一音频段，若该音频段为语音，则指示将该音频段的深层特征输入到语音唤醒解码层，进行语音唤醒。

判断模块用于在该音频帧的语音概率大于预设第一阈值时，判定该音频帧为语音帧；用于对于每一音频段，统计该音频段中包含语音帧的数目，若该数目大于预设第二阈值，则判定该音频段为语音。

输出模块在该音频段为语音时，则指示缓存该深层特征，若每一音频段的长度小于预设长度值，且判定为语音的、且还未进行语音唤醒的各音频段的总长度大于等于预设长度值时，指示语音活动检测编码层将所述判定为语音的、且还未进行语音唤醒的各音频段的深层特征输入到语音唤醒解码层；

所述预设长度值大于或等于预设的唤醒词的长度。

输出模块在语音唤醒成功时，指示清除缓存中对应的深层特征；或者

在语音唤醒失败，并且检测到音频段中包括至少一部分唤醒词时，指示在缓存中继续保留该深层特征；或者

在语音唤醒失败，并且未检测到音频段中包括至少一部分唤醒词，指示清除缓存中的深层特征。

一种语音唤醒系统，包括语音活动检测编码层，语音唤醒解码层，还包括如上任一所述的语音活动检测解码层。

所述语音活动检测编码层的结构为：两个全连接层、一个一维卷积层、一个全连接层和一个一维卷积层。

所述语音活动检测解码层的结构为：一个全连接层。

一种非瞬时计算机可读存储介质，所述非瞬时计算机可读存储介质存储指令，所述指令在由处理器执行时使得所述处理器执行如上任一项所述的语音唤醒方法的步骤。

本发明中，通过对数字音频信号进行深层特征提取并得到数字音频信号中的每一音频帧的语音概率，根据音频帧的语音概率确定音频段是否为语音，只将判定为语音的音频段的深层特征输入到语音唤醒解码层神经网络模型进行唤醒判断，从而提高了语音唤醒的准确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例提供的语音唤醒方法流程图；

图2为本发明一实施例提供的VAD神经网络模型和语音唤醒解码层神经网络模型的结构和工作过程示意图；

图3为本发明实施例提供的VAD解码层的结构示意图；

图4为本发明实施例提供的一种电子设备的示例性结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含。例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。

下面以具体实施例对本发明的技术方案进行详细说明。下面几个具体实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

本发明提出一种语音唤醒方法，该方法中，VAD解码层获取由VAD编码层已编码的深层特征，该深层特征从用于VAD编码和语音唤醒编码的数字音频信号中提取；根据该数字音频信号中的每一音频帧的语音概率，判断该数字音频信号中的每一音频段是否为语音，其中，每一音频段包含多个音频帧；针对每一音频段，若该音频段为语音，则VAD解码层指示将该音频段的深层特征输入到语音唤醒解码层，进行语音唤醒。

图1为本发明一实施例提供的语音唤醒方法流程图，其具体步骤如下：

步骤101：VAD解码层获取由VAD编码层已编码的深层特征，该深层特征从用于VAD编码和语音唤醒编码的数字音频信号中提取。

步骤102：根据该数字音频信号中的每一音频帧的语音概率，判断该数字音频信号中的每一音频段是否为语音，其中，每一音频段包含多个音频帧。

一可选实施例中，步骤102具体包括：对于每一音频帧，若该音频帧的语音概率大于预设第一阈值，则判定该音频帧为语音帧；对于每一音频段，统计该音频段中包含语音帧的数目，若该数目大于预设第二阈值，则判定该音频段为语音。

其中，第一阈值、第二阈值的具体取值根据经验等设定。

步骤103：针对每一音频段，若该音频段为语音，则VAD解码层指示将该音频段的深层特征输入到语音唤醒解码层，进行语音唤醒。

实际应用中，语音唤醒解码层的输出可为检测到预设唤醒词的概率，若该概率大于预设概率值，则认为语音唤醒结果为唤醒成功，否则认为语音唤醒结果为唤醒失败。

上述实施例中，通过对数字音频信号进行深层特征提取并得到数字音频信号中的每一音频帧的语音概率，根据音频帧的语音概率确定音频段是否为语音，只将判定为语音的音频段的深层特征输入到语音唤醒解码层进行语音唤醒，从而提高了语音唤醒的准确率。

一可选实施中，步骤101中的深层特征通过如下方式得到：VAD编码层对采集的数字音频信号进行VAD编码和语音唤醒编码，提取到所述数字音频信号的深层特征。

其中，一可选实施例中，VAD编码层的结构为：两个全连接层、一个一维卷积层、一个全连接层和一个一维卷积层；VAD解码层的结构为：一个全连接层。

可见，上述实施例中，通过共用一个VAD编码层同时实现了VAD编码和语音唤醒编码，相比于采用两个网络分别实现VAD编码和语音唤醒编码，大大减少了整个语音唤醒过程的计算量；且，直接将时域的数字音频信号输入VAD编码层，而无需在进行VAD编码前对数字音频信号进行Fbank或Mel特征提取，即免去了提取时域的数字音频信号的前端特征的时间，因此不仅减少了对硬件资源的占用，十分适用于硬件资源较少的设备侧的语音唤醒，且加快了语音唤醒速度。

一可选实施例中，语音唤醒解码层神经网络模型的结构为：两个二维卷积层、一个池化层和一个全连接层。

在实际应用中，为了提高语音检测的精度和准确度，以最终提高语音唤醒的准确度，每个音频段的长度通常会小于预设的唤醒词的长度，例如：一个音频段的长度为100ms（毫秒），而唤醒词的长度为1s（秒）。即，VAD编码层的输出层的维度和语音唤醒解码层神经网络模型输入层的维度不同，因此，在将VAD编码层输出的深层特征输入到语音唤醒解码层神经网络模型时，要先进行一个维度转换，以使得语音唤醒解码层神经网络模型能够完整地检测出唤醒词。在实际实现时，该维度转换过程可以通过如下方式实现：

一可选实施例中，步骤103中，将该音频段的深层特征输入到语音唤醒解码层神经网络模型中，包括：VAD解码层判断该音频段为语音，则指示缓存该深层特征，若每一音频段的长度小于预设长度值，则判定为语音的、且还未进行语音唤醒的各音频段的总长度大于等于预设长度值时，VAD解码层指示VAD编码层将判定为语音的、且还未进行语音唤醒的各音频段的深层特征输入到语音唤醒解码层；其中，预设长度值大于或等于预设的唤醒词的长度。

考虑到：语音唤醒有可能成功，也有可能失败。当唤醒词包含多个词语时，将一段语音的深层特征输入到语音唤醒解码层中时，虽然唤醒失败，但是，失败的原因可能例如是：由于唤醒词是在该段语音的末尾出现的，且只包含了唤醒词的前面部分的词，而后面部分的词是包含在下一次输入的深层特征对应的语音中。上述提到的一部分唤醒词，可能是在末尾出现的语音的前半段，也有可能是后半段。针对这种情况，为了避免对唤醒词的漏检，也为了节省内存和读取深层特征方便，加快整个语音唤醒过程，本发明实施例给出如下优化方案：

步骤103中，进行语音唤醒，包括：若语音唤醒成功，则指示清除缓存中对应的深层特征；或者，若语音唤醒失败，并且检测到音频段中包括至少一部分唤醒词，则指示在缓存中继续保留该深层特征；或者，若语音唤醒失败，并且未检测到音频段中包括至少一部分唤醒词，则指示清除缓存中的深层特征。

一可选实施例中，步骤102中，判断该数字音频信号中的每一音频段是否为语音之后，进一步包括：若任一音频段不为语音，则清除缓存中的该音频段的深层特征。

一可选实施例中，步骤103中进行语音唤醒，包括：若语音唤醒结果为唤醒失败，则指示清除缓存中对应的深层特征中的位于最前面的预设长度的特征；其中，预设长度的具体取值可根据在实际经验中唤醒词的一部分深层特征位于输入语音唤醒解码层的深层特征末尾时，该部分对应的长度确定。例如：设每次输入语音唤醒解码层的深层特征的长度为n，唤醒词的深层特征的一部分位于输入语音唤醒解码层的深层特征末尾时，该部分对应的长度一般不大于m，则：若唤醒失败，则要至少保留输入语音唤醒解码层的深层特征的最后面的长度为m的特征，以保证唤醒词的深层特征不丢失，因此，此时上述的预设长度可设置为n-m。这里只是举例说明，在另外的实施例中，也可能是若语音唤醒结果为唤醒失败，则指示清除缓存中对应的深层特征中的位于最后面的预设长度的特征，此时，唤醒词的深层特征的一部分位于输入语音唤醒解码层的深层特征前面时。且，步骤103中，指示将该音频段的深层特征输入到语音唤醒解码层中，包括：指示VAD编码层按照深层特征提取时间的从先到后，依次读取深层特征并输入到语音唤醒解码层。

当在VAD编码层中输出深层特征到缓存时，通过上述处理后，缓存中存放的深层特征都是按照提取时间从先到后依次存放的。每次要从VAD编码层中读取深层特征输入到语音唤醒解码层时，也是按照时间从前到后的顺序，依次输出到语音唤醒解码层即可。

一可选实施例中，VAD编码层和VAD解码层包含在VAD神经网络模型中，且，VAD神经网络模型和语音唤醒解码层神经网络模型通过如下训练过程得到：

对于采集的数字音频信号样本的每一音频帧进行是否为语音帧的标注；

根据预设第一长度值，将该样本划分为多个音频组，对于每一音频组对其进行唤醒成功还是失败的标注，其中，第一长度值大于或等于预设的唤醒词的长度；对于任一音频组，若该音频组中包含唤醒词，则标注为唤醒成功，否则，标注为唤醒失败；

将样本中的音频帧输入到VAD编码层，根据各音频帧是否为语音的标注，设定VAD解码层的期望输出，将VAD编码层输出的深层特征放入缓存；

当音频帧标注为语音时，VAD编码层依次读取每一音频组的深层特征，并输入到语音唤醒解码层神经网络模型，且，根据输入的深层特征对应的音频组的唤醒成功或失败的标注，设定语音唤醒解码层神经网络模型的期望输出；

当语音唤醒解码层神经网络模型的输出满足预设的收敛条件时，停止训练，将此时的VAD神经网络模型和语音唤醒解码层神经网络模型作为最终使用的VAD神经网络模型和语音唤醒解码层神经网络模型。

图2给出了本发明一实施例提供的VAD神经网络模型和语音唤醒解码层神经网络模型的结构和工作过程。其中，VAD编码层的输入为时域的数字音频信号，VAD编码层既完成VAD编码的工作又完成语音唤醒编码的工作，VAD编码层的最后一层的输出（该输出即输入的数字音频信号的深层特征）要进行缓存，也作为VAD解码层的输入，并根据VAD解码层输出的各音频帧为语音帧的概率判断音频段是否为语音，当音频段不为语音时，将该音频段的深层特征从缓存中清除，只将判定为语音的音频段的深层特征输入到语音唤醒解码层神经网络模型进行语音唤醒处理。其中，维度转换指的是每次从VAD编码层中取出预设第一长度值的音频对应的深度特征输入到语音唤醒解码层神经网络模型中，以使得输入到语音唤醒解码层神经网络模型的深层特征的维度满足语音唤醒解码层神经网络模型的输入层的需要。

以下给出本发明的一个应用实例：

步骤01：从采集的原始音频信号中按照8k HZ的采样率进行采样，得到数字音频信号。

采样率为8k HZ，即，从每1s的原始音频信号中采样8k个采样点。

步骤02：设每一音频段的长度为100ms，则采样后的音频的维度为[1,800]，其中，1对应第一维度即音频段维度，表示1个音频段，800对应第二维度即采样点维度，表示1个音频段（100ms）包含的采样点数，由于要将音频段输入至VAD神经网络模型的VAD编码层，因此，需要对音频段进行维度转换，则将维度[1,800]转换成维度[1,10,80]，其中，10对应第二维度即音频帧维度，表示将每个100ms的音频段分成10帧，每帧为10ms，80对应第三维度即采样点维度，表示每帧（10ms）包含的采样点数。

步骤03：将数字音频信号以维度[1,10,80]输入到VAD神经网络模型。

本实例中，VAD编码层的结构是：2个全连接层，1个一维度卷积层，一个全连接层和1个一维卷积层。其中，全连接层是在第三维度（采样点维度）进行（即，是针对一个音频段内的所有采样点进行），而一维卷积层是在第二维度（即音频帧维度）进行（即是针对一个音频段的每个音频帧进行）。VAD编码层最后输出的是每个音频帧的深层特征，将VAD编码层输出的各音频帧的深层特征放入缓存。

VAD解码层对VAD编码层输出的深层特征进行解码。本实例中，VAD解码层由：一个全连接层组成，全连接层是在第三维度进行。VAD解码层输出的是每一音频帧的语音概率（即每一音频帧为语音帧的概率）。

步骤04：对于每一音频帧，若该音频帧的语音概率大于第一阈值，则认为该音频帧为语音帧；否则认为是非语音帧；对于每一音频段，统计该音频段中包含的语音帧的数目，若语音帧的数目大于第二阈值时，则认为该音频段为语音段，保留缓存中的该语音段的深层特征，否则，认为该音频段为非语音段，清除缓存中的该非语音段的深层特征。

步骤05：从VAD编码层中依次读取预设第一长度值的音频对应的深层特征输入到语音唤醒解码层神经网络模型中，得到语音唤醒结果；且，若唤醒结果为唤醒成功，则在缓存中查找到本步骤05从缓存中读取的深层特征，将该深层特征从缓存中清除，若唤醒结果为唤醒失败，则在缓存中查找到本步骤05从缓存中读取的深层特征，将该深层特征中的包含部分唤醒词的预设长度的特征予以保留，其他深层特征从缓存中清除。

通过上述处理后，非语音的语音段的深层特征、以及已经唤醒成功的音频段的深层特征、以及唤醒失败的音频段的深层特征的未包含部分唤醒词的深层特征都已经从缓存中删除了，从而，缓存中剩余的深层特征都是需要参与之后的语音唤醒过程的特征，之后，依次从VAD编码层中读取深层特征输入到语音唤醒解码层神经网络模型中进行语音唤醒即可。

本实例中，预设第一长度值为1s，即每次向语音唤醒解码层神经网络模型输入100帧10ms音频帧的深层特征。

本实例中，语音唤醒解码层神经网络模型的结构为：2个二维卷积层、一个池化（pooling）层和一个全连接层组成。

语音唤醒解码层神经网络模型输出的是语音唤醒概率值，若该概率值大于预设概率值，则判定为唤醒；否则，判定为不唤醒。

图3为本发明实施例提供的VAD解码层的结构示意图，该装置主要包括：获取模块31、判断模块32和输出模块33，其中：

获取模块31，用于获取由VAD编码层已编码的深层特征，该深层特征从用于VAD编码和语音唤醒编码的数字音频信号中提取。

判断模块32，用于根据获取模块31获取的深层特征检测数字音频信号中的每一音频帧的语音概率，根据数字音频信号中的每一音频帧的语音概率，判断数字音频信号中的每一音频段是否为语音，其中，每一音频段包含多个音频帧。

输出模块33，用于根据判断模块32对每一音频段的语音判定结果，针对每一音频段，若该音频段为语音，则指示获取模块31将该音频段的深层特征输入到语音唤醒解码层，进行语音唤醒。

一可选实施例中，判断模块32用于在该音频帧的语音概率大于预设第一阈值时，判定该音频帧为语音帧；用于对于每一音频段，统计该音频段中包含语音帧的数目，若该数目大于预设第二阈值，则判定该音频段为语音。

一可选实施例中，输出模块33在该音频段为语音时，则指示缓存该深层特征，若每一音频段的长度小于预设长度值，且判定为语音的、且还未进行语音唤醒的各音频段的总长度大于等于预设长度值时，指示VAD编码层将所述判定为语音的、且还未进行语音唤醒的各音频段的深层特征输入到语音唤醒解码层；其中，预设长度值大于或等于预设的唤醒词的长度。

一可选实施例中，输出模块33在语音唤醒成功时，指示清除缓存中对应的深层特征；或者，在语音唤醒失败，并且检测到音频段中包括至少一部分唤醒词时，指示在缓存中继续保留该深层特征；或者，在语音唤醒失败，并且未检测到音频段中包括至少一部分唤醒词，指示清除缓存中的深层特征。

本发明实施例还提供一种语音唤醒系统，包括VAD编码层，语音唤醒解码层，还包括如上所述的VAD解码层。

一可选实施例中，VAD编码层的结构为：两个全连接层、一个一维卷积层、一个全连接层和一个一维卷积层；或者，VAD解码层的结构为：一个全连接层；或者，语音唤醒解码层的结构为：两个二维卷积层、一个池化层和一个全连接层。

本申请实施例还提供一种计算机程序产品，包括计算机程序或指令，该计算机程序或指令被处理器执行时实现如上任一实施例所述的语音唤醒方法的步骤。

本申请实施例还提供一种非瞬时计算机可读存储介质，所述计算机可读存储介质存储指令，所述指令在由处理器执行时可执行如上所述语音唤醒方法中的步骤。实际应用中，所述的计算机可读介质可以是上述实施例各设备/装置/系统所包含的，也可以是单独存在，而未装配入该设备/装置/系统中。其中，在计算机可读存储介质中存储指令，其存储的指令在由处理器执行时可执行如上语音唤醒方法中的步骤。

根据本申请公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件，或者上述的任意合适的组合，但不用于限制本申请保护的范围。在本申请公开的实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

如图4所示，本发明实施例还提供一种电子设备。如图4所示，其示出了本发明实施例所涉及的电子设备的结构示意图，具体来讲：

该电子设备可以包括一个或一个以上处理核心的处理器41、一个或一个以上计算机可读存储介质的存储器42以及存储在存储器上并可在处理器上运行的计算机程序。在执行所述存储器42的程序时，可以实现上述语音唤醒方法。

具体的，实际应用中，该电子设备还可以包括电源43、输入输出单元44等部件。本领域技术人员可以理解，图4中示出的电子设备的结构并不构成对该电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器41是该电子设备的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或执行存储在存储器42内的软件程序和/或模块，以及调用存储在存储器42内的数据，执行服务器的各种功能和处理数据，从而对该电子设备进行整体监控。

存储器42可用于存储软件程序以及模块，即上述计算机可读存储介质。处理器41通过运行存储在存储器42的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器42可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器42可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器42还可以包括存储器控制器，以提供处理器41对存储器42的访问。

该电子设备还包括给各个部件供电的电源43，可以通过电源管理系统与处理器41逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源43还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该电子设备还可包括输入输出单元44，该输入单元输出44可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。该输入单元输出44还可以用于显示由用户输入的信息或提供给用户的信息以及各种图像用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。

本申请附图中的流程图和框图，示出了按照本申请公开的各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或者代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应该注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同附图中所标准的顺序发生。例如，两个连接地表示的方框实际上可以基本并行地执行，它们有时也可以按照相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或者流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本申请中。特别地，在不脱离本申请精神和教导的情况下，本申请的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，所有这些组合和/或结合均落入本申请公开的范围。

本文中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思路，并不用于限制本申请。对于本领域的技术人员来说，可以依据本发明的思路、精神和原则，在具体实施方式及应用范围上进行改变，其所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种语音唤醒方法，其特征在于，该方法包括：

针对每一音频段，若该音频段为语音，则语音活动检测解码层指示将该音频段的深层特征输入到语音唤醒解码层，进行语音唤醒；

其中，每个全连接层分别在采样点维度上针对每个音频段内的所有采样点进行处理；

每个一维卷积层分别在音频帧维度上针对每个音频段内的每个音频帧进行处理。

2.根据权利要求1所述的方法，其特征在于，所述根据所述数字音频信号中的每一音频帧的语音概率，判断所述数字音频信号中的每一音频段是否为语音，包括：

3.根据权利要求1所述的方法，其特征在于，所述语音活动检测解码层的结构为：一个全连接层。

4.根据权利要求1所述的方法，其特征在于，所述语音唤醒解码层的结构为：两个二维卷积层、一个池化层和一个全连接层。

5.根据权利要求1所述的方法，其特征在于，语音活动检测解码层指示将该音频段的深层特征输入到语音唤醒解码层，包括：

所述预设长度值大于或等于预设的唤醒词的长度。

6.根据权利要求5所述的方法，其特征在于，所述进行语音唤醒，包括：

若语音唤醒成功，则指示清除缓存中对应的深层特征；或者

7.一种语音活动检测解码层，其特征在于，包括：

获取模块，用于获取由语音活动检测编码层已编码的深层特征，所述深层特征从用于语音活动检测编码和语音唤醒编码的数字音频信号中提取；所述语音活动检测编码层的结构为：两个全连接层、一个一维卷积层、一个全连接层和一个一维卷积层；其中，每个全连接层分别在采样点维度上针对每个音频段内的所有采样点进行处理；每个一维卷积层分别在音频帧维度上针对每个音频段内的每个音频帧进行处理；

8.根据权利要求7所述的语音活动检测解码层，其特征在于，包括：

9.根据权利要求7所述的语音活动检测解码层，其特征在于，包括：

所述预设长度值大于或等于预设的唤醒词的长度。

10.根据权利要求7所述的语音活动检测解码层，其特征在于，包括：

11.一种语音唤醒系统，其特征在于，包括语音活动检测编码层，语音唤醒解码层，还包括如权利要求7至10任一所述的语音活动检测解码层。

12.根据权利要求11所述语音唤醒系统，其特征在于，所述语音活动检测解码层的结构为：一个全连接层。

13.根据权利要求11所述语音唤醒系统，其特征在于，所述语音唤醒解码层的结构为：两个二维卷积层、一个池化层和一个全连接层。

14.一种非瞬时计算机可读存储介质，所述非瞬时计算机可读存储介质存储指令，其特征在于，所述指令在由处理器执行时使得所述处理器执行如权利要求1至6中任一项所述的语音唤醒方法的步骤。