CN116705017A

CN116705017A - 语音检测方法及电子设备

Info

Publication number: CN116705017A
Application number: CN202211115975.XA
Authority: CN
Inventors: 吴彪; 高飞; 夏日升
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2022-09-14
Filing date: 2022-09-14
Publication date: 2023-09-05

Abstract

本申请公开了一种语音检测方法及电子设备，涉及终端领域，该方法包括：电子设备通过麦克风采集到第一音频信号。电子设备滤除第一音频信号中的噪声信号，得到无噪声的第二音频信号。然后，电子设备可以检测第二音频信号中是否包括语音信号。当电子设备确定第二音频信号中包括语音信号时，电子设备可以基于第一音频信号得到第一比例。接下来，电子设备可以基于第一比例，叠加第一音频信号和第二音频信号，得到第三音频信号。电子设备可以检测第三音频信号中是否包括预设关键词。当电子设备确定第三音频信号中包括预设关键词时，电子设备执行预设关键词对应的功能。

Description

语音检测方法及电子设备

技术领域

本申请涉及终端领域，尤其涉及一种语音检测方法及电子设备。

背景技术

随着终端技术的不断进步，越来越多地用户在日常使用电子设备处理各项事务。为了使得用户更方便地与电子设备进行交互，终端领域发展出了语音交互方式。在语音交互方式中，电子设备可以检测用户说出的语音指令中是否包括预设关键词，若包括，则电子设备可以执行预设关键词对应的功能。

然而，当用户身处于嘈杂环境中时，周围环境中的噪声往往会对语音检测过程造成干扰，从而导致电子设备的语音检测性能较差。

发明内容

本申请提供了一种语音检测方法及电子设备，实现了降低去噪算法(例如，SE算法)在低信噪比情况下滤除第一音频信号中噪声信号时，所造成的语音信号失真的影响，提高电子设备100的语音检测性能。同时，在周围存在噪声的情况下，也可以提高VAD算法检测语音信号的精确性。

第一方面，本申请提供了一种语音检测方法，包括：获取到第一音频信号。滤除该第一音频信号中的噪声信号，获取到第二音频信号。当确定该第二音频信号中包括语音信号时，基于该第一音频信号，获取到第一比例。其中，该第一比例用于指示该第一音频信号在多个频带上的信噪比。基于该第一比例，将该第一音频信号和该第二音频信号叠加成第三音频信号。当确定该第三音频信号中包括预设关键词时，该电子设备执行该预设关键词对应的功能。

在一种可能的实现方式中，该第二音频信号包括多帧音频信号，该多帧音频信号包括第N帧音频信号，当确定该第二音频信号中包括语音信号时，基于该第一音频信号，获取到第一比例，具体包括：对该第N帧音频信号提取声学特征。基于该第N帧音频信号的声学特征，判断该第N帧音频信号中是否包括语音信号。当确定该第N帧音频信号包括语音信号时，为该第N帧音频信号设置第一标记。当确定该多帧音频信号中有一帧或多帧被设置有第一标记时，确定该第二音频信号中包括语音信号。基于该第一音频信号，获取到第一比例。

在一种可能的实现方式中，当确定该第二音频信号中包括语音信号时，基于该第一音频信号，获取到第一比例，具体包括：当确定该第二音频信号中包括语音信号时，分别计算该第一音频信号在第一频带上的第一信噪比值，该第一音频信号在第二频带上的第二信噪比值，和，该第一音频信号在第三频带上的第三信噪比值。其中，该第一比例包括该第一信噪比值、该第二信噪比值和该第三信噪比值。

在一种可能的实现方式中，基于该第一比例，将该第一音频信号和该第二音频信号叠加成第三音频信号，具体包括：将该第一音频信号中第一频带信号的幅值与该第二音频信号中第一频带信号的幅值，按照该第一信噪比值：(1-第一信噪比值)比例进行叠加。该电子设备将，该第一音频信号中第二频带信号的幅值与该第二音频信号中第二频带信号的幅值，按照该第二信噪比值：(1-第二信噪比值)比例进行叠加。该电子设备将，该第一音频信号中第三频带信号的幅值与该第二音频信号中第三频带信号的幅值，按照该第三信噪比值：(1-第三信噪比值)比例进行叠加。

在一种可能的实现方式中，该声学特征包括以下的一种或多种：对数帧能量、基频、共振峰和过零率。

在一种可能的实现方式中，该第一频带为频率范围在0Hz-300Hz的频带，该第二频带为频率范围在301Hz-1000Hz的频带，该第三频带为频率范围在1001Hz及以上的频带。

第二方面，本申请实施例提供了一种电子设备，包括：一个或多个处理器、一个或多个存储器和显示屏。该一个或多个存储器与一个或多个处理器耦合，该一个或多个存储器用于存储计算机程序代码，计算机程序代码包括计算机指令，当该一个或多个处理器执行该计算机指令时，使得该电子设备执行上述第一方面任一项可能的实现方式中的方法。

第三方面，本申请实施例提供了一种计算机可读存储介质，包括计算机指令，当该计算机指令在电子设备上运行时，使得该电子设备执行上述第一方面任一项可能的实现方式中的方法。

第四方面，本申请实施例提供了一种芯片或芯片系统，包括处理电路和接口电路，该接口电路用于接收代码指令并传输至该处理电路，该处理电路用于运行该代码指令以执行上述第一方面任一项可能的实现方式中的方法。

第五方面，本申请实施例提供了一种计算机程序产品，当该计算机程序产品在电子设备上运行时，使得该电子设备执行上述第一方面任一项可能的实现方式中的方法。

附图说明

图1A为本申请实施例提供的一种语音检测流程示意图；

图1B为本申请实施例提供的一种应用场景示意图；

图2为本申请实施例提供的一种语音检测方法的具体流程示意图；

图3A为本申请实施例提供的第一音频信号中的部分音频信号示意图；

图3B为本申请实施例提供的一种音频信号的处理方法示意图；

图3C为本申请实施例提供的一种语音唤醒模型示意图；

图3D为本申请实施例提供的另一种语音唤醒模型示意图；

图4为本申请实施例提供的一种电子设备100的硬件结构示意图；

图5为本申请实施例提供的一种电子设备100的软件模块示意图。

具体实施方式

本申请以下实施例中所使用的术语只是为了描述特定实施例的目的，而并非旨在作为对本申请的限制。如在本申请得到说明书和所附权利要书中所使用的那样，单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括复数表达形式，除非其上下文中明确地有相反指示。还应当理解，本申请中使用的术语“和/或”是指包含一个或多个所列出醒目的任何或所有可能组合。在本申请实施例中，术语“第一”、“第二”仅用于描述目的，而不能理解为暗示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征，在本申请实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

首先，介绍本申请实施例提供的一种语音检测流程。

该流程可以应用于手机、平板电脑等电子设备上。后续统一使用电子设备100表示上述电子设备。不限于手机、平板电脑，电子设备100还可以是桌面型计算机、膝上型计算机、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本，以及蜂窝电话、个人数字助理(personal digital assistant，PDA)、增强现实(augmented reality，AR)设备、虚拟现实(virtual reality，VR)设备、人工智能(artificial intelligence，AI)设备、可穿戴式设备、车载设备、智能家居设备和/或智慧城市设备，本申请实施例对该电子设备100的具体类型不作特殊限制。

在一些应用场景中，根据是否可以进行语音交互来看，电子设备100可以被划分为两个状态：休眠状态和工作状态。其中，休眠状态可以指的是：电子设备100不能进行语音交互，无法基于用户的语音指令执行相应的操作。工作状态可以指的是：电子设备100可以进行语音交互，能够基于用户的语音指令执行相应的操作。因此，电子设备100从休眠状态转变为工作状态，则需要对电子设备100进行语音唤醒，也即是：电子设备100检测到用户说出的预设关键词，响应于该预设关键词，电子设备100可以开启语音交互功能，从休眠状态中被唤醒继而进入工作状态，以便后续电子设备100可以基于用户的语音指令执行相应的操作。

具体的，如图1A所示，在该语音检测流程中，首先，电子设备100可以通过设置于电子设备100上的麦克风实时采集周围的声音信号。其中，采集到的声音信号中包括用户发出的语音信号，和周围环境中的噪声信号。然后，电子设备100可以根据语音活动检测(voiceactivitydetection，VAD)算法，检测出采集到的声音信号中具有声音能量的区域和不具有声音能量的静默区域，并消除声音信号中不具有声音能量的静默区域。此时，电子设备100可以得到不包括静默区域的声音信号。接下来，电子设备100可以基于语音增强(speechenhancement，SE)算法，滤除不包括静默区域的声音信号中的噪声信号，得到语音信号。接下来，电子设备100可以基于关键词检测(keywordspotting，KWS)算法，检测语音信号中是否包括预设关键词。若语音信号中包括预设关键词，则电子设备100可以开启语音交互功能，从休眠状态中被唤醒继而进入工作状态，以便后续电子设备100可以基于用户的语音指令执行相应的操作。若语音信号中不包括预设关键词，则电子设备100可以不开启语音交互功能，电子设备100仍然处于休眠状态。

示例性的，如图1B所示，当用户发出语音信号时，电子设备100可以通过配置于电子设备上的麦克风实时采集到周围的声音信号。该声音信号中可以包括中：t1时间段为用户发出的语音信号；t2时间段的静默区域，也即是说在t2时间段电子设备100所采集到的声音信号的幅值大小小于指定阈值A；t3时间段的周围环境中的噪声信号。然后，电子设备100可以根据VAD算法，检测出上述声音信号中具有声音能量的区域(即是t1时间段区域和t3时间段区域)和不具有声音能量的静默区域(也即是t2时间段区域)，并消除声音信号中不具有声音能量的静默区域。此时，该不包括静默区域的声音信号中可以包括：t1时间段内用户发出的语音信号，和，t3时间段内周围环境中的噪声信号。接下来，电子设备100可以基于语音增强(speechenhancement，SE)算法，滤除不包括静默区域的声音信号中的噪声信号，获取到t1时间段内用户发出的语音信号。电子设备100可以基于关键词检测(keywordspotting，KWS)算法，检测语音信号中是否包括预设关键词如“你好YOYO”。若语音信号中包括预设关键词“你好YOYO”，则电子设备100可以开启语音交互功能，从休眠状态中被唤醒继而进入工作状态，以便后续电子设备100可以基于用户的语音指令执行相应的操作。需要说明的是，“你好YOYO”仅仅是示例性的预设关键词，在具体实现方式中，预设关键词还可以是其他的词语和/或短句等，在此不作限制。

然而，在实施上述语音检测的流程中，由于SE算法的性能不太稳定，在低信噪比的情况下滤除噪声信号时使得语音信号失真，经过SE算法处理后所获取到的语音信号无法被KWS识别的概率较高，因此会影响电子设备100语音检测的性能；并且，在周围存在噪声的环境下，VAD算法检测具有声音能量的区域和静默区域的精确性也会降低，从而影响电子设备100语音检测的性能。

因此，本申请实施例提供了一种语音检测方法。

具体的，在一些应用场景中，电子设备100可以通过设置于电子设备100上的麦克风实时采集周围的声音信号。其中，该采集到的声音信号包括第一音频信号。电子设备100可以滤除第一音频信号中的噪声信号，得到无噪声信号的第二音频信号。然后，电子设备100可以检测第二音频信号中是否包括语音信号。当电子设备100确定出第二音频信号中包括语音信号时，电子设备100可以将第一音频信号输入至SNR估计模块，得到第一比例。接下来，电子设备100可以基于第一比例，叠加第一音频信号和第二音频信号，得到第三音频信号。电子设备100可以检测第三音频信号中是否包括预设关键词。当电子设备100确定第三音频信号中包括预设关键词时，电子设备100可以开启语音交互功能，从休眠状态中被唤醒继而进入工作状态，以便后续电子设备100可以基于用户的语音指令执行相应的操作。

从上述执行步骤中可以看出，在本申请实施例提供的语音检测方法中，电子设备100将原始的第一音频信号和滤除噪声后的第二音频信号叠加起来，可以降低去噪算法(例如，SE算法)在低信噪比情况下滤除第一音频信号中噪声信号时，所造成的语音信号失真的影响，提高电子设备100的语音检测性能。同时，本申请实施例提供的语音检测方法在周围存在噪声的情况下，也可以提高VAD算法检测语音信号的精确性。

接下来，介绍本申请实施例提供的一种语音检测方法的具体流程。

请参考图2，图2示例性示出了本申请实施例提供的一种语音检测方法的具体流程示意图。

如图2所示，该方法的具体流程可以包括：

第一阶段：S201-S203，检测语音信号是否存在。

S201.电子设备100通过麦克风实时采集周围的声音信号。其中，该采集到的声音信号中包括第一音频信号。

具体的，电子设备100可以通过设置在电子设备100顶部，和/或底部，和/或背部的麦克风，实时采集周围的声音信号。也即是说，电子设备100可以通过一个麦克风或多个麦克风实时采集周围的声音信号。本申请实施例对电子设备100实时采集周围声音信号的方式不作限制。其中，电子设备100采集到的声音信号中包括第一音频信号，也即是说，该第一音频信号是电子设备100实时采集到的声音信号中，某个时间段上的声音信号。

在一些示例中，电子设备100也可以获取到其他电子设备发送的声音信号，或是，获取到服务器发送的声音信号，该声音信号包括第一音频信号。也即是说，电子设备100获取到的包括第一音频信号的声音信号也可以不是通过电子设备100上的麦克风采集到的，而是从其他途径获取，本申请对此不作限制。

S202.电子设备100通过语音增强(SE)模型，从第一音频信号中滤除噪声信号，得到第二音频信号。

其中，SE模型可以由神经网络算法组成的模型。其中，神经网络算法可以是循环神经网络(recurrent neural networks，RNN)算法、深度神经网络(deep neural networks，DNN)算法、双路径循环神经网络(dual-pathrecurrent neural networks，DPRNN)算法、深度复杂卷积循环神经网络(deep complex convolution recurrent network，DCCRNN)算法等等，本申请对此不作限制。

具体的，首先，电子设备100可以对第一音频信号作短时傅里叶变换(short-timefourier transform，STFT)，具体流程如下：

A).电子设备100将第一音频信号作分帧处理。

具体的，电子设备100可以将第一音频信号划分为多帧具有指定时长的音频信号。一帧音频信号的指定时长可以是10毫秒(millisecond，ms)、20ms或者30ms等，本申请对此不作限制。同时，为了保证后续电子设备100根据分帧后的音频信号处理所得第二音频信号的连续性，因此，两帧之间的音频信号可以具有重叠(也即是帧重叠)。帧重叠可以是5ms、6ms或10ms。通常的，一帧音频信号的指定时长为帧重叠的2-3倍。

示例性的，以图3A所示的第一音频信号中的部分音频信号为例。该图3A示出该部分音频信号的时域图，横轴X为时间，纵轴Y为幅值。可以看出，该时域图示出了该部分音频信号的幅值随时间变化的关系。电子设备100可以对该部分音频信号进行分帧处理，得到如图3A中示例性所示的第一帧音频信号和第二帧音频信号等。其中，每一帧的长度可以是20ms，帧重叠可以是10ms。也即是，每一帧音频信号的时间起点为0ms，每一帧音频信号的时间终点为20ms。第三帧音频信号、第四帧音频信号等后续每一帧音频信号的长度以及相邻帧间的重叠可以参考第一帧音频信号和第二帧音频信号所示，在此不再赘述。

B).电子设备100对分帧处理后的每一帧音频信号作加窗处理。

具体的，电子设备100对每一帧音频信号作加窗处理，也即是说，电子设备100可以将每一帧音频信号与窗函数相乘，使得每帧音频信号的两端的幅度渐变至0，以用于减轻后续傅里叶变换处理时音频信号对应的频谱中各谱线之间的相互影响。其中，窗函数可以是三角形窗函数、矩形窗函数、汉明窗函数等窗函数。

示例性的，以窗函数为沃尔比斯(vorbis)窗函数为例，来对每一帧音频信号作加窗处理。

沃尔比斯窗函数的公式如下：

其中，该公式中y为加窗处理时的加权值，N的值为电子设备100对上述部分音频信号作分帧处理时每一帧的帧长度，在本示例中N为20；n的取值小于或等于N，其对应每帧的时间点。例如，当n的值为10时，对应帧中的时间点为10ms，y计算所得的加权值为1，则该加权值1应乘以帧中时间点为10ms时的音频信号，即是对帧中该时间点的音频信号作加窗处理。

如图3B所示，该vorbis窗函数的纵轴Y表示阈值为[0，1]的加权值，横轴X表示每帧的时间点，长度为每一帧的帧长，即是20ms。电子设备100基于vorbis窗函数针对第一帧音频信号进行加窗处理所得信号可以如图3B中的(a)所示；基于vorbis窗函数针对第二帧音频信号进行加窗处理所得信号可以如图3B中的(b)所示。可以看出，加窗处理后的第一帧音频信号和第二帧音频信号的两端幅值渐变至0。

C).电子设备100对加窗处理后的每一帧音频信号作离散傅里叶变换。

具体的，当电子设备100对加窗处理后的每一帧音频信号，作离散傅里叶变换后，可以得到以时间为横坐标，以频率为纵坐标的每一帧音频信号的时频图像。在一些示例中，电子设备100也可以对加窗处理后的每一帧音频信号，作快速傅里叶变换，本申请对此不作限制。

然后，电子设备100可以通过SE模型，对上述经过步骤C)处理后的每一帧音频信号作滤除噪声信号处理，得到第二音频信号。

S203.电子设备100通过VAD模型，判断第二音频信号是否包括语音信号。

其中，VAD模型可以由神经网络算法组成的模型。其中，神经网络算法可以是RNN算法、DNN算法、DPRNN算法或者DCCRNN算法等等，本申请对此不作限制。并且，电子设备100经过上述步骤S202的处理后，得到的第二音频信号，是一帧一帧无噪声信号的音频信号，因此，在本步骤中，电子设备100可以通过VAD模型，一帧一帧检测第二音频信号中每一帧音频信号是否包括语音信号。

具体的，电子设备100可以通过SE模型对第二音频信号中每一帧音频信号进行声学特征提取。其中，音频信号的声学特征可以包括但不限于以下信息：对数帧能量，和/或基频，和/或共振峰，和/或过零率(即是每帧中音频信号通过零点的次数)等等。然后，电子设备100可以通过VAD模型，基于上述每帧音频信号提取出的声学特征，检测每帧音频信号是否包括语音信号。若电子设备100通过VAD模型检测出第N帧音频信号中包括语音信号，则电子设备100可以将该帧语音信号作标记“1”(也可以被称为第一标记)；若电子设备100通过VAD模型检测出第N帧音频信号中不包括语音信号，则电子设备100可以将该帧语音信号作标记“0”。当电子设备100确定第二音频信号中包括一帧或多帧包括标记为“1”的音频信号时，电子设备100可以确定第二音频信号包括语音信号。需要说明的是，这里的语音信号可以指的是人或动物所发出的声音。

第二阶段：S204-S207，检测语音信号中是否包括预设关键词，若包括，则电子设备100执行预设关键词对应的功能。

S204.当电子设备100确定第二音频信号包括语音信号时，电子设备100将第一音频信号输入至信噪比(signal to noise ratio，SNR)估计模块中，获取到第一比例。

其中，1.SNR可以反映第一音频信号中噪声信号的多寡，其计算方式可以是语音信号的功率与第一音频信号的功率之比。当SNR的数值越高时(也即高信噪比)，即是表示第一音频信号中的噪声信号越少。当SNR的数值越低时(也即低信噪比)，即是表示第一音频信号中的噪声信号越多；2.SNR估计模块可以由神经网络算法组成的模型。其中，神经网络算法可以是RNN算法、DNN算法、DPRNN算法或者DCCRNN算法等等，本申请对此不作限制。

具体的，由于不同类型的噪声信号在频带上的分布特性不同，例如：白噪声信号分布于全频带，有风环境下产生的风噪主要分布于低频带。因此，当SNR估计模块基于第一音频信号得到第一比例之前，SNR估计模块可以先确定出指定数量的频带。优选的，S NR估计模块可以确定出三个频带：低频带0Hz-300Hz(也可以被称为第一频带)，中频带301Hz-1000Hz(也可以被称为第二频带)，高频带1001Hz及以上(也可以被称为第三频带)。然后，SNR估计模块可以分别计算第一音频信号在这三个频带上的SNR数值，记为output_snr1(也可以被称为第一信噪比值)，output_snr2(也可以被称为第二信噪比值)，output_snr3(也可以被称为第三信噪比值)，上述三个频带上的SNR数值小于1。其中，output_snr1为第一音频信号在低频带上的SNR数值，output_snr2为第一音频信号在中频带上的SNR数值，output_snr3为第一音频信号在高频带上的SNR数值。需要说明的是，第一比例a即是包括output_snr1，output_snr2，output_snr3，该第一比例a可以由如下表达式表示：

a＝[output_snr1，output_snr2，output_snr3]

需要说明的是，除上述划分的三个频带外，电子设备100也可以确定出其他数量的频带，例如一个频带、四个频带或五个频带等等。每个频带的频率范围也可以不同于本实施例的示例，例如：低频带可以是0Hz-100Hz，中频带可以是101Hz-200Hz，本申请对此不作限制。

在一些示例中，电子设备100可以计算第一音频信号在全频带上的SNR值，然后，再通过该SNR值除以SNR估计模块所确定出的频带个数(例如，前述中的3个)，得到第一音频信号在不同频带上对应的SNR值，以得到第一比例。

S205.电子设备100基于第一比例，将第一音频信号和第二音频信号叠加成第三音频信号。

具体的，在将第一音频信号和第二音频信号叠加成第三音频信号的过程中，电子设备100通过第一比例调整第一音频信号的幅度值，通过第一比例对应的比例调整第二音频信号的幅度值。第一比例越高，则第一比例对应的比例越低。这样，当电子设备100滤除噪声信号使得第二音频信号出现语音信号失真的情况时，电子设备100可以叠加第一音频信号，改善语音信号失真的情况，同时在叠加时也不会引入太多噪声信号。

示例性的，电子设备100已获取到的第一比例包括：output_snr1，output_snr2，output_snr3，其说明可以参考前述描述，在此不再赘述。则电子设备100可以基于第一比例，按照如下公式将第一音频信号和第二音频信号进行叠加：

input_KWS＝a×y+(1-a)×output_SE

其中，input_KWS表示第三音频信号，a表示第一比例，y表示第一音频信号，(1-a)表示第一比例对应的比例，output_SE表示第二音频信号。该公式表示，第一音频信号中的低频带信号的幅值与第二音频信号中的低频带信号的幅值按照output_snr1：(1-output_snr1)比例进行叠加；第一音频信号中的中频带信号的幅值与第二音频信号中的中频带的幅值信号按照output_snr2：(1-output_snr2)比例进行叠加；第一音频信号中的高频带信号的幅值与第二音频信号中的高频带信号的幅值按照output_snr3：(1-output_snr3)比例进行叠加，然后，电子设备100可以得到第三音频信号。

S206.电子设备100通过KWS模块，判断第三音频信号中是否包括预设关键词。

具体的，电子设备100可以预先存储包括有预设关键词的音频信号模板。电子设备100可以从音频信号模板中获取到对应的特征序列。

在前述步骤中，电子设备100已对第一音频信号进行分帧处理，第一音频信号由多帧音频信号表示。且，第二音频信号是经由电子设备100滤除第一音频信号中的噪声信号而获取到的，因此，第二音频信号亦由多帧音频信号表示。所以，由第一音频信号以及第二音频信号按第一比例叠加获取到的第三音频信号，也是由多帧音频信号进行表示的。则在该步骤中，电子设备100可以将以多帧音频信号来表示的第三音频信号转换为时域上连续表示的音频信号。

然后，电子设备100可以对在时域上连续表示的第三音频信号做分帧处理，然后基于每一帧音频信号提取用于检测预设关键词的特征序列。关于分帧处理的说明可以参考前述描述，在此不再赘述。接下来，电子设备100可以在第三音频信号的多帧音频信号中逐帧移动预设滑动窗，通过动态时间规整(dynamictimewarping，DTW)算法，计算音频信号模板的特征序列与滑动窗中第三音频信号的特征序列之间的局部最小距离(localminimundistance，LMD)。当电子设备100确定第三音频信号中存在连续多帧的LMD值小于第一阈值(例如，0.1、0.2)时，电子设备100确定第三音频信号中包括预设关键词。否则，电子设备100确定第三音频信号中不包括预设关键词。

需要说明的是，上述检测第三音频信号中是否包括预设关键词的方法仅仅用于示例性解释本申请，在具体的实现中，电子设备100还可以通过其他方式检测第三音频信号中是否包括预设关键词，本申请对此不作限制。

S207.当电子设备100确定第三音频信号中包括预设关键词时，电子设备100执行预设关键词对应的功能。

在一些示例中，当电子设备100确定第三音频信号中包括预设关键词时，电子设备100可以开启语音交互功能，从休眠状态中被唤醒继而进入工作状态，以便后续电子设备100可以基于用户的语音指令执行相应的操作。关于休眠状态的说明和工作状态的说明，可以参考前述中的描述，在此不再赘述。

在另一些示例中，当电子设备100确定第三音频信号中包括预设关键词时，电子设备100可以执行预设关键词对应的操作。例如，当电子设备100确定第三音频信号中包括预设关键词“播放音乐”时，电子设备100可以启动音乐应用，播放音乐。

基于上述图2所示语音唤醒方法的具体流程，介绍本申请实施例提供的一种包括SE模型、VAD模型和SNR估计模块等模块的语音唤醒模型的网络构成，及各个模块之间的交互。

1).首先，在语音唤醒模型训练阶段，如图3C所示，SE模型可以包括：编码器(encoder)和解码器(decoder)；VAD模型可以包括：门控循环单元(gated recurrent unit，GRU)A和全连接层(fullconnectionlayer，FC)A；SNR估计模块可以包括：全连接层B、门控循环单元B和三层全连接层结构的全连接层C。其中，全连接层(如上述的全连接层A、全连接层B和全连接层C)可以包括多个权重值和多个偏置值，用于表征音频信号中各声学特征之间的关联；门控循环单元(如上述这门控循环单元A和门控循环单元B等)可以用于将当前时刻输入的信息与历史输入信息结合，从而获取各模块对应的输出。全连接层A包括一层全连接层结构，全连接层C包括三层全连接层结构。

在语音唤醒模型训练阶段，电子设备100可以获取到用于训练的音频训练信号，以及基于音频训练信号获得的无噪音频训练信号A、正确标记的语音信号帧、用于音频信号叠加的比例A和正确的预设关键词检测结果A。关于音频训练信号的说明，可以参考第一音频信号的说明。电子设备100通过音频训练信号进行语音唤醒的过程可以参考前述图2所示具体流程的说明。需要说明的是，训练阶段中语音唤醒模型的输入，是电子设备100将音频训练信号进行分帧、加窗和STFT处理后所获得的多帧音频信号，具体说明可参考前述图2所示说明。

然后，基于音频训练信号，SE模型中的编码器encoder可以输出无噪声音频信号B和无噪声音频信号B的声学特征，SE模型中的解码器decoder可以输出无噪声音频信号C。其中：无噪声音频信号C比无噪声音频信号B更为清晰，可以用于提高语音唤醒模型的精确度。SE模型中编码器encoder输出的无噪声音频信号B的声学特征可以作为VAD模型的输入，以用于VAD模型检测语音信号；

VAD模型可以输出标记语音信号帧，以用于确定无噪声音频信号B中是否包括语音信号；

当VAD模型确定无噪声音频信号B中包括语音信号时，可以触发SNR估计模块基于音频训练信号，输出比例B，以使得电子设备100可以基于比例B、音频训练信号、无噪声音频信号B和无噪声音频信号C，获取到音频检测信号。其中，音频训练信号和无噪声音频信号B，根据比例B进行混合的方法可以参考前述S205的描述，混合后再叠加无噪声音频信号C，得到音频检测信号；

KWS模型可以基于音频检测信号，输出预设关键词检测结果B。

接下来，电子设备100可以通过包括上述数据信息的预设损失函数loss_all，根据指定数值间隔(例如，0.001、0.002等)调整SE模型、VAD模型、SNR估计模块和KWS模型中的部分权重值和部分偏置值，得到更新后的语音唤醒模型。该更新后的语音唤醒模型可以再次用于根据音频训练信号进行语音唤醒，并基于本次SE模型、VAD模型、SNR估计模块和KWS模型的输出，通过预设损失函数loss_all再次调整上述四个模块的部分权重值和部分偏置值。循环执行上述过程，直到电子设备100调整出使得损失函数最值化的各模块的权重值以及偏置值，电子设备100以此确定最终的语音唤醒模型。

示例性的，损失函数loss_all的表达式可以如下：

loss_all＝a*loss_vad+b*loss_se+c*loss_kws+d*loss_snr

其中，a、b、c、d是预设的系数，loss_vad表示VAD模型的损失函数，loss_se表示SE模型的损失函数，loss_kws表示KWS模型的损失函数，loss_snr表示SNR估计模块的损失函数。其中：

VAD模型的损失函数loss_vad表达式可以如下：

loss_vad＝f(output_vad，label_vad)

在该表达式中，output_vad可以表示VAD模型输出的标记语音信号帧，label_vad可以表示正确标记的语音信号帧。

SE模型的损失函数loss_se表达式可以如下：

loss_se＝f(output_vad*output_se，label_se)

在该表达式中，output_vad的说明可以参考前述描述，output_se可以表示SE模型输出的无噪声音频信号B和/或无噪声音频信号C，label_se可以表示无噪音频训练信号A。

KWS模型的损失函数loss_kws表达式可以如下：

loss_kws＝f(output_kws，label_kws)

在该表达式中，output_kws可以表示KWS模型输出的预设关键词检测结果B，label_kws可以表示正确的预设关键词检测结果A。

SNR估计模块的损失函数loss_snr表达式可以如下：

loss_snr＝f(output_snr，label_snr)

在该表达式中，output_snr可以表示SNR估计模块输出的比例B，label_snr可以表示比例A。

2).然后，在语音唤醒模型使用阶段，也即是应用于图2所示语音唤醒方法的具体流程中时，如图3D所示，VAD模型和SNR估计模块的结构可以参考图3C所示实施例，SE模型可以包括编码器(encoder)，而不包括解码器(decoder)，可以提升语音检测的效率，使得语音唤醒模型更为轻便。在使用阶段，电子设备100可以通过麦克风采集到第一音频信号，并通过该第一音频信号和语音唤醒模型进行语音唤醒，其中：

SE模型中的编码器encoder可以输出第二音频信号和第二音频信号的声学特征。其中，第二音频信号的声学特征可以作为VAD模型的输入，以用于检测语音信号；

VAD模型可以基于第二音频信号的声学特征，确定第二音频信号是否包括语音信号；

当VAD模型确定第二音频信号中包括语音信号时，可以触发SNR估计模块基于第一音频信号，计算得到第一比例，以使得电子设备100可以根据第一比例，叠加第一音频信号和第二音频信号得到第三音频信号；

KWS模型可以检测第三音频信号是否包括预设关键词。

具体实现方式可以参考前述图2所示流程的说明。

不限于上述的网络结构，在具体实现方式中，SE模型、VAD模型和SNR估计模块还可以是其他的网络结构。本申请对此不作限制。

接下来，介绍本申请实施例提供的一种电子设备100的硬件结构。

请参考图4，图4示例性示出了本申请实施例提供的一种电子设备100的硬件结构示意图。

电子设备100可以是手机、平板电脑、桌面型计算机、膝上型计算机、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本、以及蜂窝电话、个人数字助理(personal digital assistant，PDA)、增强现实(augmentedreality，AR)设备、虚拟现实(virtual reality，VR)设备、人工智能(artificialintelligence，AI)设备、可穿戴式设备、车载设备、智能家居设备和/或智慧城市设备，本申请实施例对该电子设备100的具体类型不作特殊限制。

如图4所示，电子设备100可以包括处理器401、存储器402、无线通信模块403、显示屏404、麦克风405、音频模块406和扬声器407。

可以理解的是，本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100还可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合来实现。

处理器401可以包括一个或多个处理器单元，例如处理器401可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器401中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器401中的存储器为高速缓冲存储器。该存储器可以保存处理器401刚用过或循环使用的指令或数据。如果处理器401需要再次使用该指令或数据，可以从所述存储器中直接调用。避免了重复存取，减少了处理器401的等待时间，因而提高了系统的效率。

在一些实施例中，处理器401可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriberidentity module，SIM)接口，和/或USB接口等。

存储器402与处理器401耦合，用于存储各种软件程序和/或多组指令。具体实现中，存储器402可以包括易失性存储器(volatile memory)，例如随机存取存储器(randomaccessmemorV，RAM)；也可以包括非易失性存储器(non-vlatile memory)，例如ROM、快闪存储器(flash memory)、硬盘驱动器(Hard Disk Drive，HDD)或固态硬盘(SolidState Drives，SSD)；存储器402还可以包括上述种类的存储器的组合。存储器402还可以存储一些程序代码，以便于处理器401调用存储器402中存储的程序代码，以实现本申请实施例在电子设备100中的实现方法。存储器402可以存储操作系统，例如uCOS、VxWorks、RTLinux等嵌入式操作系统。

无线通信模块403可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块403可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块403经由天线接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器401。无线通信模块403还可以从处理器401中接收待发送的信号，对其进行调频、放大，经天线转为电磁波辐射出去。在一些实施例中，电子设备100还可以通过无线通信模块403中的蓝牙模块(图4未示出)、WLAN模块(图4未示出)发射信号探测或扫描在电子设备100附近的设备，并与该附近的设备建立无线通信连接以传输数据。其中，蓝牙模块可以提供包括经典蓝牙(basic rate/enhanceddatarate，BR/EDR)或蓝牙低功耗(bluetooth low energy，BLE)中一项或多项蓝牙通信的解决方案，WLAN模块可以提供包括Wi-Fi direct、Wi-Fi LAN或Wi-Fi softAP中一项或多项WLAN通信的解决方案。

显示屏404可以用于显示图像、视频等。显示屏404可以包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emitting diode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emitting diode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dotlight emitting diodes，QLED)等。在一些实施例中，电子设备100可以包括1个或N个显示屏404，N为大于1的正整数。

麦克风405，也可以称“话筒”，“传声器”，可以用于采集电子设备周围环境中的声音信号，再将该声音信号转换为电信号，再将该电信号经过一系列处理，例如模数转换等，得到电子设备的处理器401可以处理的数字形式的音频信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风405发声，将声音信号输入到麦克风405。电子设备100可以设置至少一个麦克风405。在另一些实施例中，电子设备100可以设置两个麦克风405，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，电子设备100还可以设置三个，四个或更多麦克风405，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

音频模块406可以用于将数字音频信息转换成模拟音频信号输出，也可以用于将模拟音频输入转换成数字音频信号。音频模块406还可以用于对音频信号编码和解码。在一些实施例中，音频模块406还可以设置于处理器401中，或将音频模块406的部分功能模块设置于处理器401中。

扬声器407，也可以称为“喇叭”，用于将音频电信号转换成为声音信号。电子设备100可以通过扬声器407收听音乐，或收听免提电话。

电子设备100还可以包括传感器模块(图4未示出)和/或触摸传感器(图4未示出)。触摸传感器也可以称为“触控器件”。触摸传感器可以设置于显示屏404，由触摸传感器与显示屏404组成触摸屏，也称“触控屏”。触摸传感器可以用于检测作用于其上或附近的触摸操作。可选的，传感器模块还可以包括有陀螺仪传感器(图4未示出)、加速度传感器(图4未示出)等等。其中，陀螺仪传感器可以用于确定电子设备100的运动姿态，在一些实施例中，电子设备100可以通过陀螺仪传感器确定出电子设备100围绕三个轴(即，x，y和z轴)的角速度。加速度传感器可以用于检测电子设备100在各个方向上(一般为x，y和z轴)的加速度大小，当电子设备100静止时也可以检测出重力的大小及方向。

电子设备100还可以包括移动通信模块(图4未示出)。该移动通信模块可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。

需要说明的是，图4中示出的电子设备100仅仅用于示例性解释本申请所提供的电子设备的硬件结构，并不对本申请构成具体限制。

下面，介绍本申请实施例提供的一种电子设备100的软件模块。

请参考图5，图5示例性示出了本申请实施例提供的一种电子设备100的软件模块示意图。

如图5所示，电子设备100可以包括：存储模块501、噪声信号滤除模块502、语音信号判断模块503、音频信号叠加模块504和预设关键词检测模块505。其中：

存储模块50l可以用于存储包括预设关键词的音频信号模板、第一音频信号和第二音频信号。存储模块501还可以存储一些程序代码，以实现本申请实施例在电子设备100中的实现方法。具体的实现方式可以参考前述图2流程图所示的步骤，在此不再赘述。

噪声信号滤除模块502可以用于从第一音频信号中滤除噪声信号，以用获取到第二音频信号。具体的实现方式可以参考前述图2流程图所示的步骤，在此不再赘述。

语音信号判断模块503可以用于判断第二音频信号中是否包括语音信号。具体的实现方式可以参考前述图2流程图所示的步骤，在此不再赘述。

音频信号叠加模块504可以用于基于第一音频信号获取到第一比例，然后基于第一比例叠加第一音频信号和第二音频信号，得到第三音频信号。具体的实现方式可以参考前述图2流程图所示的步骤，在此不再赘述。

预设关键词检测模块505可以用于判断第三音频信号中是否包括预设关键词。当预设关键词检测模块505确定第三音频信号中包括预设关键词时，电子设备100可以执行预设关键词对应的功能。具体的实现方式可以参考前述图2流程图所示的步骤，在此不再赘述。

上述实施例中所用，根据上下文，术语“当…时”可以被解释为意思是“如果…”或“在…后”或“响应于确定…”或“响应于检测到…”。类似地，根据上下文，短语“在确定…时”或“如果检测到(所陈述的条件或事件)”可以被解释为意思是“如果确定…”或“响应于确定…”或“在检测到(所陈述的条件或事件)时”或“响应于检测到(所陈述的条件或事件)”。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如DVD)、或者半导体介质(例如固态硬盘)等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。

Claims

1.一种语音检测方法，其特征在于，包括：

获取到第一音频信号；

滤除所述第一音频信号中的噪声信号，获取到第二音频信号；

当确定所述第二音频信号中包括语音信号时，基于所述第一音频信号，获取到第一比例；其中，所述第一比例用于指示所述第一音频信号在多个频带上的信噪比；

基于所述第一比例，将所述第一音频信号和所述第二音频信号叠加成第三音频信号；

当确定所述第三音频信号中包括预设关键词时，所述电子设备执行所述预设关键词对应的功能。

2.根据权利要求1所述的方法，其特征在于，所述第二音频信号包括多帧音频信号，所述多帧音频信号包括第N帧音频信号，当确定所述第二音频信号中包括语音信号时，基于所述第一音频信号，获取到第一比例，具体包括：

对所述第N帧音频信号提取声学特征；

基于所述第N帧音频信号的声学特征，判断所述第N帧音频信号中是否包括语音信号；

当确定所述第N帧音频信号包括语音信号时，为所述第N帧音频信号设置第一标记；

当确定所述多帧音频信号中有一帧或多帧被设置有第一标记时，确定所述第二音频信号中包括语音信号；

基于所述第一音频信号，获取到第一比例。

3.根据权利要求1或2所述的方法，其特征在于，当确定所述第二音频信号中包括语音信号时，基于所述第一音频信号，获取到第一比例，具体包括：

当确定所述第二音频信号中包括语音信号时，分别计算所述第一音频信号在第一频带上的第一信噪比值，所述第一音频信号在第二频带上的第二信噪比值，和，所述第一音频信号在第三频带上的第三信噪比值；其中，所述第一比例包括所述第一信噪比值、所述第二信噪比值和所述第三信噪比值。

4.根据权利要求3所述的方法，其特征在于，基于所述第一比例，将所述第一音频信号和所述第二音频信号叠加成第三音频信号，具体包括：

将所述第一音频信号中第一频带信号的幅值与所述第二音频信号中第一频带信号的幅值，按照所述第一信噪比值：(1-第一信噪比值)比例进行叠加；

所述电子设备将，所述第一音频信号中第二频带信号的幅值与所述第二音频信号中第二频带信号的幅值，按照所述第二信噪比值：(1-第二信噪比值)比例进行叠加；

所述电子设备将，所述第一音频信号中第三频带信号的幅值与所述第二音频信号中第三频带信号的幅值，按照所述第三信噪比值：(1-第三信噪比值)比例进行叠加。

5.根据权利要求2所述的方法，其特征在于，所述声学特征包括以下的一种或多种：

对数帧能量、基频、共振峰和过零率。

6.根据权利要求3所述的方法，其特征在于，所述第一频带为频率范围在0Hz-300Hz的频带，所述第二频带为频率范围在301Hz-1000Hz的频带，所述第三频带为频率范围在1001Hz及以上的频带。

7.一种电子设备，其特征在于，包括：一个或多个处理器、一个或多个存储器和显示屏；所述一个或多个存储器与一个或多个处理器耦合，所述一个或多个存储器用于存储计算机程序代码，计算机程序代码包括计算机指令，当所述一个或多个处理器执行所述计算机指令时，使得所述电子设备执行如权利要求1-6中的任一项所述的方法。

8.一种计算机可读存储介质，其特征在于，包括计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行如权利要求1-6中的任一项所述的方法。

9.一种芯片或芯片系统，其特征在于，包括处理电路和接口电路，所述接口电路用于接收代码指令并传输至所述处理电路，所述处理电路用于运行所述代码指令以执行如权利要求1-6中任一项所述的方法。

10.一种计算机程序产品，其特征在于，当所述计算机程序产品在电子设备上运行时，使得所述电子设备执行如权利要求1-6中的任一项所述的方法。