CN115995231B

CN115995231B - 语音唤醒方法、装置、电子设备及可读存储介质

Info

Publication number: CN115995231B
Application number: CN202310273450.7A
Authority: CN
Inventors: 鲁勇; 刘波; 丁萌; 李逸洋
Original assignee: Beijing Intengine Technology Co Ltd
Current assignee: Beijing Intengine Technology Co Ltd
Priority date: 2023-03-21
Filing date: 2023-03-21
Publication date: 2023-06-16
Anticipated expiration: 2043-03-21
Also published as: CN115995231A

Abstract

本申请公开了一种语音唤醒方法、装置、电子设备及可读存储介质，所述语音唤醒方法包括：在预设时长内采集语音信号；对所述语音信号进行分帧处理，得到所述语音信号对应的多个语音帧；确定每个所述语音帧对应的三阶累积量；获取当前环境对应的背景值；基于所述三阶累积量和背景值，唤醒目标设备。本申请提供的语音唤醒方案可以提高对目标设备唤醒的准确性。

Description

语音唤醒方法、装置、电子设备及可读存储介质

技术领域

本申请涉及通信领域，具体涉及一种语音唤醒方法、装置、电子设备及可读存储介质。

背景技术

随着移动互联网和人工智能时代的来临，语音交互近些年获得了前所未有的增长，其中，语音唤醒技术作为一种特别的语音识别技术，成为用户和机器进行交互重要组成部分。语音唤醒系统的目标，是在无手动操作的情况下，对设备进行唤醒。

目前的语音唤醒方案中，一般是利用过零率判断是否唤醒设备，然而，当环境的噪声过大，会影响利用过零率对于语音信号中清浊音的判断，进而影响后续的语音唤醒流程。

发明内容

针对上述技术问题，本申请提供一种语音唤醒方法、装置、电子设备及可读存储介质，可以提高语音唤醒的准确性。

为解决上述技术问题，本申请提供一种语音唤醒方法，包括：

在预设时长内采集语音信号；

对所述语音信号进行分帧处理，得到所述语音信号对应的多个语音帧；

确定每个所述语音帧对应的三阶累积量；

获取当前环境对应的背景值；

基于所述三阶累积量和背景值，唤醒目标设备。

可选的，在本申请的一些实施例中，所述确定每个所述语音帧对应的三阶累积量，包括：

确定所述语音帧对应的采样数；

计算所述采样数对应的立方和，得到每个所述语音帧对应的三阶累积量。

可选的，在本申请的一些实施例中，所述基于所述三阶累积量和背景值，唤醒目标设备，包括：

计算所述三阶累积量和背景值之间的差值；

当所述差值大于预设值时，唤醒目标设备。

可选的，在本申请的一些实施例中，还包括：

采集当前环境的环境信号；

基于所述环境信号中每帧环境帧对应的信号值，计算所述环境信号对应的背景值。

可选的，在本申请的一些实施例中，所述基于所述环境信号中每帧环境帧对应的信号值，计算所述环境信号对应的背景值，包括：

在所述环境信号中每帧环境帧确定初始帧以及初始帧之外的其他帧；

获取所述当前环境对应的参考背景值；

计算所述初始帧对应的初始信号值与参考背景值之间的差值；

根据所述差值调整所述考背景值，得到所述环境信号对应的背景值。

相应的，本申请还提供一种语音唤醒装置，包括：

采集模块，用于在预设时长内采集语音信号；

处理模块，用于对所述语音信号进行分帧处理，得到所述语音信号对应的多个语音帧；

确定模块，用于确定每个所述语音帧对应的三阶累积量；

获取模块，用于获取当前环境对应的背景值；

唤醒模块，用于基于所述三阶累积量和背景值，唤醒目标设备。

可选的，在本申请的一些实施例中，所述确定模块具体用于：

确定所述语音帧对应的采样数；

可选的，在本申请的一些实施例中，所述唤醒模块具体用于：

计算所述三阶累积量和背景值之间的差值；

当所述差值大于预设值时，唤醒目标设备

本申请还提供一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如上述方法的步骤。

本申请还提供一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述方法的步骤。

如上所述，本申请提供一种语音唤醒方法、装置、电子设备及可读存储介质，该语音唤醒方法包括：在预设时长内采集语音信号；对所述语音信号进行分帧处理，得到所述语音信号对应的多个语音帧；确定每个所述语音帧对应的三阶累积量；获取当前环境对应的背景值；基于所述三阶累积量和背景值，唤醒目标设备。在本申请提供的语音唤醒方案中，获取当前环境对应的背景值，并确定语音帧对应的三阶累积量，基于三阶累积量和背景值对目标设备进行唤醒，可以避免噪声过大利用过零率会影响对于语音信号中清浊音的判断，由此，可以提高对目标设备唤醒的准确性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的语音唤醒系统的结构示意图；

图2是本申请实施例提供的语音唤醒方法的流程示意图；

图3是本申请实施例提供的语音唤醒装置的结构示意图；

图4是本申请实施例提供的语音唤醒装置的另一结构示意图；

图5是本申请实施例提供的智能终端的结构示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素，此外，本申请不同实施例中具有同样命名的部件、特征、要素可能具有相同含义，也可能具有不同含义，其具体含义需以其在该具体实施例中的解释或者进一步结合该具体实施例中上下文进行确定。

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或者“单元”的后缀仅为了有利于本申请的说明，其本身没有特定的意义。因此，“模块”、“部件”或者“单元”可以混合地使用。

以下对本申请涉及的实施例进行具体描述，需要说明的是，在本申请中对实施例的描述顺序不作为对实施例优先顺序的限定。

本申请实施例提供一种语音唤醒方法、装置、存储介质及电子设备。具体地，本申请实施例的语音唤醒方法可以由电子设备执行，其中，该电子设备可以为终端。该电子设备可以为智能手机、平板电脑、笔记本电脑、触控屏幕、游戏机、个人计算机（PC，PersonalComputer）、个人数字助理(Personal Digital Assistant，PDA)等电子设备，电子设备还可以包括客户端，该客户端可以是语音唤醒客户端或其他客户端。电子设备可以通过有线或无线的方式与服务器连接，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

例如，当该语音唤醒方法运行于电子设备时，电子设备在预设时长内采集语音信号后，电子设备对语音信号进行分帧处理，得到语音信号对应的多个语音帧，接着，电子设备确定每个语音帧对应的三阶累积量，并获取当前环境对应的背景值，最后，电子设备基于三阶累积量和背景值，唤醒目标设备。

请参阅图1，图1为本申请实施例提供的语音唤醒装置的系统示意图。该系统可以包括至少一个电子设备1000，至少一个服务器或个人电脑2000。用户持有的电子设备1000可以通过网络连接到不同的服务器或个人电脑。电子设备1000可以是具有计算硬件的电子设备，该计算硬件能够支持和执行与多媒体对应的软件产品。另外，电子设备1000还可以具有用于感测和获得用户通过在一个或者多个触控显示屏的多个点执行的触摸或者滑动操作的输入的一个或者多个多触敏屏幕。另外，电子设备1000可以通过网络与服务器或个人电脑2000相互连接。网络可以是无线网络或者有线网络，比如无线网络为无线局域网(WLAN)、局域网(LAN)、蜂窝网络、2G网络、3G网络、4G网络、5G网络等。另外，不同的电子设备1000之间也可以使用自身的蓝牙网络或者热点网络连接到其他嵌入式平台或者连接到服务器以及个人电脑等。服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。

本申请实施例提供了一种语音唤醒方法，该方法可以由电子设备执行。其中，该电子设备包括触控显示屏和处理器，该触控显示屏用于呈现图形用户界面以及接收用户作用于图形用户界面产生的操作指令。用户通过触控显示屏对图形用户界面进行操作时，该图形用户界面可以通过响应于接收到的操作指令控制电子设备本地的内容，也可以通过响应于接收到的操作指令控制服务器端的内容。例如，用户作用于图形用户界面产生的操作指令包括用于对初始音频数据进行处理的指令，处理器被配置为在接收到用户提供的指令之后启动对应的应用程序。此外，处理器被配置为在触控显示屏上渲染和绘制与应用程序相关联的图形用户界面。触控显示屏是能够感测屏幕上的多个点同时执行的触摸或者滑动操作的多触敏屏幕。用户在使用手指在图形用户界面上执行触控操作，图形用户界面在检测到触控操作时，控制应用的图形用户界面中显示对应的操作。

本申请提供的语音唤醒方案，获取当前环境对应的背景值，并确定语音帧对应的三阶累积量，基于三阶累积量和背景值对目标设备进行唤醒，可以避免噪声过大利用过零率会影响对于语音信号中清浊音的判断，由此，可以提高对目标设备唤醒的准确性。

以下分别进行详细说明。需说明的是，以下实施例的描述顺序不作为对实施例优先顺序的限定。

一种语音唤醒方法，包括：在预设时长内采集语音信号；对语音信号进行分帧处理，得到语音信号对应的多个语音帧；确定每个语音帧对应的三阶累积量；获取当前环境对应的背景值；基于三阶累积量和背景值，唤醒目标设备。

请参阅图2，图2为本申请实施例提供的语音唤醒方法的流程示意图。该数语音唤醒方法的具体流程可以如下：

101、在预设时长内采集语音信号。

其中，该语音信号可以内置于电子设备的声音传感器（如麦克风）进行采集，预设时长可以为10分钟、20分钟或100分钟，也可以为50秒、120秒或300秒，具体可以根据实际情况进行设置，在此不再赘述。

102、对语音信号进行分帧处理，得到语音信号对应的多个语音帧。

由于语音信号在宏观上是不平稳的，在微观上是平稳的，具有短时平稳性（10---30ms内可以认为语音信号近似不变），为可以将长时间的样本信号划分为一些短段来处理，每一个短段则为本申请的语音帧，在这一帧内，语音信号的特性可是视为是稳定的，而分帧的原则在于它必须足够短来保证帧内信号是平稳的，一帧的长度应该小于一个音素的长度，正常语速下一个音素持续时间大约为50ms。此外，要进行傅里叶分析这一帧必须包含足够多的振动周期，考虑到男声在 100赫兹左右，女声在 200 赫兹左右，换算成周期就是10ms和 5 ms，即，每一帧语音帧长度介于10ms~40ms，具体可以根据实际情况选择每一帧样本帧的长度。

103、确定每个语音帧对应的三阶累积量。

在分帧得到语音信号的语音帧后，可以确定每个语音帧对应的采样数，并基于该采样数确定语音帧对应的三阶累积量，即，可选的，在一些实施例中，步骤“确定每个语音帧对应的三阶累积量”，具体可以包括：

（11）确定语音帧对应的采样数；

（12）计算采样数对应的立方和，得到每个语音帧对应的三阶累积量。

需要说明的是，高阶累积量对高斯噪声的干扰具有免疫能力，其中，三阶累积量可以很好地抑制正弦噪声这种对称分布的噪声。由于高阶噪声的三阶累积量为零，因此，对于收到高斯噪声污染的语音来说，语音帧与噪声帧之间具有很大的区别，故，本申请采用语音帧对应的三阶累积量进行后续的语音唤醒。

104、获取当前环境对应的背景值。

其中，当前环境对应的背景值可以是预先计算得到的，比如，可以通过采集当前环境的环境信号，并基于该环境信号对应的信号值计算相应的背景值，即，可选的，在一些实施例中，步骤“获取当前环境对应的背景值”，具体可以包括：

（21）采集当前环境的环境信号；

（22）基于环境信号中每帧环境帧对应的信号值，计算环境信号对应的背景值。

例如，具体的，可以采集当前环境的环境信号，同样的，在采集完环境信号后，可以对该环境信号进行分帧处理，得到环境信号对应的多个环境帧，进一步的，对一帧信号可以施加离散傅里叶变换（也叫短时离散傅里叶变换），来获取信号在这一帧内，有关频率-能量的分布信息，将各帧在频域的图像拼接起来，用横轴是频率，纵轴是幅度，即可得到环境信号的频谱图，而在本申请中，将幅度确定为环境帧对应的信号值，随后，基于该信号值与参考背景值，确定该环境信号对应的背景值，即，可选的，在一些实施例中，步骤“基于环境信号中每帧环境帧对应的信号值，计算环境信号对应的背景值”，具体可以包括：

（31）在环境信号中每帧环境帧确定初始帧以及初始帧之外的其他帧；

（32）获取当前环境对应的参考背景值；

（33）计算初始帧对应的初始信号值与参考背景值之间的差值；

（34）根据差值调整考背景值，得到环境信号对应的背景值。

其中，该参考背景值可以是根据历史时段采集的历史环境信号计算得到，即，在历史时段内，计算该历史环境信号中每一帧对应信号值之和的平均值，从而得到参考背景值。进一步的，计算初始信号值与参考背景值之间的差值，并基于该差值调整参考背景值，随后，计算初始信号值的下一帧信号对应的信号值与调整后背景值之间的差值，并基于该差值对调整后背景值进一步调整，直到样本信号中所有样本帧均处理完毕，最后，计算所有调整后背景值的平均值，得到环境信号对应的背景值。

可选的，在一些实施例中，当前环境对应的背景值可以基于初始帧以及初始帧之前的历史帧进行计算，例如，具体的，在采集语音信号之后，该语音信号包括语音帧A1、语音帧A2以及语音帧A3，计算语音帧A1的方法为：计算语音帧A1的三阶累积量Q1，同时，获取该语音帧A1之前的多个历史帧，如获取该语音帧A1之前4095个历史帧，该历史帧同样可以为语音帧，随后，分别计算这4095个历史帧的三阶累积量Dn，其中，n为1至4095中任一自然数，自后，计算Q1和Dn的和平均值，得到当前环境对应的背景值。

105、基于三阶累积量和背景值，唤醒目标设备。

例如，具体的，可以计算三阶累积量和背景值之间的差值，当差值大于预设值时，唤醒目标设备，即，可选的，在一些实施例中，步骤“基于三阶累积量和背景值，唤醒目标设备”，具体可以包括：

（41）计算三阶累积量和背景值之间的差值；

（42）当差值大于预设值时，唤醒目标设备。

其中，预设值可以为0，即三阶累积量大于背景值时，唤醒目标设备，当然，还可以是其他的数值，具体可以根据实际情况进行设置，在此不作赘述。

以上完成本申请的语音唤醒流程。

由上可知，本申请提供一种语音唤醒方法，在预设时长内采集语音信号后，然后，对语音信号进行分帧处理，得到语音信号对应的多个语音帧，接着，确定每个语音帧对应的三阶累积量，再然后，获取当前环境对应的背景值，最后，基于三阶累积量和背景值，唤醒目标设备，在本申请提供的语音唤醒方案，获取当前环境对应的背景值，并确定语音帧对应的三阶累积量，基于三阶累积量和背景值对目标设备进行唤醒，可以避免噪声过大利用过零率会影响对于语音信号中清浊音的判断，由此，可以提高对目标设备唤醒的准确性。

为便于更好的实施本申请的语音唤醒方法，本申请还提供一种基于上述语音唤醒装置。其中名词的含义与上述语音唤醒方法中相同，具体实现细节可以参考方法实施例中的说明。

请参阅图3，图3为本申请提供的语音唤醒装置的结构示意图，其中该语音唤醒装置可以包括采集模块201、处理模块202、确定模块203、获取模块204以及唤醒模块205，具体可以如下：

采集模块201，用于在预设时长内采集语音信号；

处理模块202，用于对语音信号进行分帧处理，得到语音信号对应的多个语音帧。

确定模块203，用于确定每个语音帧对应的三阶累积量。

在分帧得到语音信号的语音帧后，可以确定每个语音帧对应的采样数，并基于该采样数确定语音帧对应的三阶累积量，即，可选的，在一些实施例中，确定模块203具体可以用于：确定语音帧对应的采样数；计算采样数对应的立方和，得到每个语音帧对应的三阶累积量。

获取模块204，用于获取当前环境对应的背景值。

其中，当前环境对应的背景值可以是预先计算得到的，比如，可以通过采集当前环境的环境信号，并基于该环境信号对应的信号值计算相应的背景值，即，可选的，在一些实施例中，获取模块204具体可以用于：采集当前环境的环境信号；基于环境信号中每帧环境帧对应的信号值，计算环境信号对应的背景值。

可选的，请参阅图4，本申请的语音唤醒装置具体还可以包括计算模块206，该计算模块206具体可以包括：

采集单元，用于采集当前环境的环境信号；

计算单元，用于基于环境信号中每帧环境帧对应的信号值，计算环境信号对应的背景值。

可选的，在一些实施例中，计算单元具体可以用于：在环境信号中每帧环境帧确定初始帧以及初始帧之外的其他帧；获取当前环境对应的参考背景值；计算初始帧对应的初始信号值与参考背景值之间的差值；根据差值调整考背景值，得到环境信号对应的背景值。

唤醒模块205，用于基于三阶累积量和背景值，唤醒目标设备。

例如，具体的，可以计算三阶累积量和背景值之间的差值，当差值大于预设值时，唤醒目标设备，即，可选的，在一些实施例中，唤醒模块205具体可以用于：计算三阶累积量和背景值之间的差值；当差值大于预设值时，唤醒目标设备。

以上完成本申请的语音唤醒流程。

由上可知，本申请提供一种语音唤醒装置，采集模块201在预设时长内采集语音信号后，然后，处理模块202对语音信号进行分帧处理，得到语音信号对应的多个语音帧，接着，确定模块203确定每个语音帧对应的三阶累积量，再然后，获取模块204获取当前环境对应的背景值，最后，基于三阶累积量和背景值，唤醒目标设备，在本申请提供的语音唤醒方案，获取当前环境对应的背景值，并确定语音帧对应的三阶累积量，基于三阶累积量和背景值对目标设备进行唤醒，可以避免噪声过大利用过零率会影响对于语音信号中清浊音的判断，由此，可以提高对目标设备唤醒的准确性。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

本发明实施例还提供一种电子设备500，如图5所示，该电子设备500可以集成上述语音唤醒装置，还可以进一步包括射频（RF，Radio Frequency）电路501、包括有一个或一个以上计算机可读存储介质的存储器502、输入单元503、显示单元504、传感器505、音频电路506、无线保真（WiFi，Wireless Fidelity)模块507、包括有一个或者一个以上处理核心的处理器508、以及电源509等部件。本领域技术人员可以理解，图5中示出的电子设备500结构并不构成对电子设备500的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路501可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器508处理；另外，将涉及上行的数据发送给基站。通常，RF电路501包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块（SIM，SubscriberIdentity Module）卡、收发信机、耦合器、低噪声放大器（LNA，Low NoiseAmplifier）、双工器等。此外，RF电路501还可以通过无线通信与网络和其他设备通信。无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统（GSM，Global Systemof Mobile communication）、通用分组无线服务（GPRS ，GeneralPacketRadio Service）、码分多址（CDMA，Code DivisionMultiple Access）、宽带码分多址（WCDMA，Wideband CodeDivision Multiple Access）、长期演进（LTE，LongTermEvolution)、电子邮件、短消息服务（SMS，ShortMessaging Service)等。

存储器502可用于存储软件程序以及模块，处理器508通过运行存储在存储器502的软件程序以及模块，从而执行各种功能应用以及信息处理。存储器502可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序（比如声音播放功能、目标数据播放功能等）等；存储数据区可存储根据电子设备500的使用所创建的数据（比如音频数据、电话本等）等。此外，存储器502可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器502还可以包括存储器控制器，以提供处理器508和输入单元503对存储器502的访问。

输入单元503可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，在一个具体的实施例中，输入单元503可包括触敏表面以及其他输入设备。触敏表面，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作（比如用户使用手指、触笔等任何适合的物体或附件在触敏表面上或在触敏表面附近的操作），并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器508，并能接收处理器508发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面。除了触敏表面，输入单元503还可以包括其他输入设备。具体地，其他输入设备可以包括但不限于物理键盘、功能键（比如音量控制按键、开关按键等）、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元504可用于显示由用户输入的信息或提供给用户的信息以及电子设备500的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元504可包括显示面板，可选的，可以采用液晶显示器（LCD，Liquid CrystalDisplay）、有机发光二极管（OLED，Organic Light-EmittingDiode）等形式来配置显示面板。进一步的，触敏表面可覆盖显示面板，当触敏表面检测到在其上或附近的触摸操作后，传送给处理器508以确定触摸事件的类型，随后处理器508根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图5中，触敏表面与显示面板是作为两个独立的部件来实现输入和输入功能，但是在某些实施例中，可以将触敏表面与显示面板集成而实现输入和输出功能。

电子设备500还可包括至少一种传感器505，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板的亮度，接近传感器可在电子设备500移动到耳边时，关闭显示面板和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上（一般为三轴）加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用（比如横竖屏切换、相关游戏、磁力计姿态校准）、振动识别相关功能（比如计步器、敲击）等;至于电子设备500还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路506、扬声器，传声器可提供用户与电子设备500之间的音频接口。音频电路506可将接收到的音频数据转换后的电信号，传输到扬声器，由扬声器转换为样本信号输出；另一方面，传声器将收集的样本信号转换为电信号，由音频电路506接收后转换为音频数据，再将音频数据输出处理器508处理后，经RF电路501以发送给比如另一电子设备500，或者将音频数据输出至存储器502以便进一步处理。音频电路506还可能包括耳塞插孔，以提供外设耳机与电子设备500的通信。

WiFi属于短距离无线传输技术，电子设备500通过WiFi模块507可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图5示出了WiFi模块507，但是可以理解的是，其并不属于电子设备500的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器508是电子设备500的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器502内的软件程序和/或模块，以及调用存储在存储器502内的数据，执行电子设备500的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器508可包括一个或多个处理核心；优选的，处理器508可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器508中。

电子设备500还包括给各个部件供电的电源509（比如电池），优选的，电源可以通过电源管理系统与处理器508逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源509还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源数据指示器等任意组件。

尽管未示出，电子设备500还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，电子设备500中的处理器508会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器502中，并由处理器508来运行存储在存储器502中的应用程序，从而实现各种功能：

在预设时长内采集语音信号；对语音信号进行分帧处理，得到语音信号对应的多个语音帧；确定每个语音帧对应的三阶累积量；获取当前环境对应的背景值；基于三阶累积量和背景值，唤醒目标设备。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见上文语音唤醒方法的详细描述，此处不再赘述。

由上可知，本发明实施例的电子设备500获取当前环境对应的背景值，并确定语音帧对应的三阶累积量，基于三阶累积量和背景值对目标设备进行唤醒，可以避免噪声过大利用过零率会影响对于语音信号中清浊音的判断，由此，可以提高对目标设备唤醒的准确性。

为此，本申请实施例还提供一种存储介质，其上存储有多条指令，所述指令适于处理器进行加载，以执行上述语音唤醒方法中的步骤。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

其中，该存储介质可以包括：只读存储器（ROM，Read OnlyMemory）、随机存取记忆体（RAM，Random AccessMemory）、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本发明实施例所提供的任一种语音唤醒方法中的步骤，因此，可以实现本发明实施例所提供的任一种语音唤醒方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本发明实施例所提供的语音唤醒方法、装置、系统及存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种语音唤醒方法，其特征在于，包括：

在预设时长内采集语音信号；

确定每个所述语音帧对应的三阶累积量；

采集当前环境的环境信号，并对所述环境信号进行分帧处理，得到所述环境信号对应的多个环境帧；

对每帧环境帧进行离散傅里叶变换，得到每帧环境帧在频域的图像；

将各环境帧在频域的图像进行拼接，得到所述环境信号的频谱图；

根据所述频谱图确认所述环境信号中每帧环境帧对应的信号值；

获取所述当前环境对应的参考背景值；

根据所述差值调整所述参考背景值，得到所述环境信号对应的背景值；

基于所述三阶累积量和背景值，唤醒目标设备。

2.根据权利要求1所述的方法，其特征在于，所述确定每个所述语音帧对应的三阶累积量，包括：

确定所述语音帧对应的采样数；

3.根据权利要求1所述的方法，其特征在于，所述基于所述三阶累积量和背景值，唤醒目标设备，包括：

计算所述三阶累积量和背景值之间的差值；

当所述差值大于预设值时，唤醒目标设备。

4.一种语音唤醒装置，其特征在于，包括：

采集模块，用于在预设时长内采集语音信号；

确定模块，用于确定每个所述语音帧对应的三阶累积量；

获取模块，用于采集当前环境的环境信号，并对所述环境信号进行分帧处理，得到所述环境信号对应的多个环境帧；对每帧环境帧进行离散傅里叶变换，得到每帧环境帧在频域的图像；将各环境帧在频域的图像进行拼接，得到所述环境信号的频谱图；根据所述频谱图确认所述环境信号中每帧环境帧对应的信号值；在所述环境信号中每帧环境帧确定初始帧以及初始帧之外的其他帧；获取所述当前环境对应的参考背景值；计算所述初始帧对应的初始信号值与参考背景值之间的差值；根据所述差值调整所述参考背景值，得到所述环境信号对应的背景值；

5.根据权利要求4所述的装置，其特征在于，所述确定模块具体用于：

确定所述语音帧对应的采样数；

6.根据权利要求4所述的装置，其特征在于，所述唤醒模块具体用于：

计算所述三阶累积量和背景值之间的差值；

当所述差值大于预设值时，唤醒目标设备。

7.一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至3中任一项所述语音唤醒方法的步骤。

8.一种可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至3中任一项所述语音唤醒方法的步骤。