CN110312235A

CN110312235A - 实时语音唤醒的音频设备、运行方法、装置及存储介质

Info

Publication number: CN110312235A
Application number: CN201910405965.1A
Authority: CN
Inventors: 刘涛; 朱彪; 王丽
Original assignee: Shenzhen Horn Audio Co Ltd
Current assignee: Shenzhen Horn Audio Co Ltd
Priority date: 2019-05-16
Filing date: 2019-05-16
Publication date: 2019-10-08
Also published as: WO2020228095A1

Abstract

本发明涉及一种实时语音唤醒的音频设备、运行方法、装置及存储介质，该运行方法通过功耗较低的第一声电换能器检测当前环境中的语音输入信号，并在语音输入信号的分贝值超过预设阈值时，开启第二声电换能器进行语音输入信号的采集和处理，并检测处理结果是否包括唤醒关键词；若检测到唤醒关键词，建立音频设备与终端之间的第一蓝牙通信连接，从而解决传统技术中为了实现全天候语音唤醒，待机状态下的蓝牙耳机与终端一直保持着经典蓝牙通信连接导致的功耗较高的技术问题。

Description

实时语音唤醒的音频设备、运行方法、装置及存储介质

技术领域

本发明涉及通信技术领域，特别是涉及一种实时语音唤醒的音频设备、运行方法、装置及存储介质。

背景技术

随着智能音箱的流行，市场上出现了一种能随身佩戴的实时语音助手耳机。目前采用的方案是：实时语音助手耳机与终端建立经典蓝牙通信连接，实时语音助手耳机被语音唤醒后，耳机通过免提规格协议(Hands-free Profile，简称HFP)或自定义串行线性仿真(RFCOMM)协议将耳机采集的语音数据发送至终端，终端将语音数据发送至云端服务器进行语音识别，并向终端返回与语音数据对应的回答。终端将与语音数据对应的回答发送至耳机进行播放。

在传统技术中，实时语音助手耳机的待机状态存在功耗较高的技术问题。

发明内容

基于此，有必要针对传统技术中实时语音助手耳机存在功耗较高的技术问题，提供一种实时语音唤醒的音频设备、运行方法、装置及存储介质。

一种实时语音唤醒的音频设备的运行方法，所述运行方法包括：

当所述音频设备处于待机状态时，通过第一声电换能器检测当前环境中的语音输入信号；

当所述语音输入信号的分贝值大于预设分贝阈值时，开启第二声电换能器，通过所述第二声电换能器采集所述语音输入信号，对所述语音输入信号进行波束成型和降噪处理并保存处理结果，其中，所述第一声电换能器的功耗低于所述第二声电换能器的功耗；

对所述处理结果进行检测；

当检测到所述处理结果中包含唤醒关键词时，建立所述音频设备与终端之间的第一蓝牙通信连接。

在其中一个实施例中，所述第一声电换能器为压电唤醒麦克风；所述当所述音频设备处于待机状态时，通过第一声电换能器检测当前环境中的语音输入信号，包括：

当所述音频设备处于待机状态时，在预设频段内，通过所述压电唤醒麦克风检测当前环境中的语音输入信号。

在其中一个实施例中，所述第二声电换能器包括第一数字麦克风和第二数字麦克风；所述当所述语音输入信号的分贝值大于预设分贝阈值时，开启第二声电换能器，通过所述第二声电换能器采集所述语音输入信号，对所述语音输入信号进行波束成型和降噪处理并保存处理结果，包括：

将所述语音输入信号的分贝值大于预设分贝阈值时，开启所述第一数字麦克风和所述第二数字麦克风；

通过所述第一数字麦克风和所述第二数字麦克风采集所述语音输入信号的声波相位差并计算出每个频段的加权系数，对所述第一数字麦克风和所述第二数字麦克风分别采集的语音输入信号进行加权叠加处理输出单路波束成型后的语音数据；

对所述语音数据进行降噪处理，并保存至预设的环形缓存。

在其中一个实施例中，所述方法还包括：

将所述环形缓存内的语音数据进行压缩；

通过所述第一蓝牙通信连接将压缩后的语音数据发送至所述终端；所述压缩后的语音数据用于被语音识别以得到语音识别结果。

在其中一个实施例中，所述方法还包括：

当通过光学接近传感器或电容传感器或压力传感器或霍尔传感器检测到所述音频设备处于佩戴状态，判定所述音频设备处于使用状态；

建立所述音频设备与所述终端之间的第二蓝牙通信连接，其中，所述第一蓝牙通信连接的功耗低于所述第二蓝牙通信连接的功耗；

通过所述第二蓝牙通信连接，接收所述终端发送的所述语音识别结果；

通过所述音频设备的电声换能器将所述语音识别结果进行播放。

在其中一个实施例中，所述方法还包括：

当通过光学接近传感器或电容传感器或压力传感器或霍尔传感器检测到所述音频设备处于非佩戴状态，判定所述音频设备处于非使用状态；

通过所述终端的电声换能器将所述语音识别结果进行播放。

在其中一个实施例中，所述音频设备设有语音唤醒按键；在所述建立所述音频设备与终端之间的第一蓝牙通信连接之前，所述方法还包括：

检测所述语音唤醒按键上是否发生触发操作；

所述建立所述音频设备与终端之间的第一蓝牙通信连接，包括：

若发生所述触发操作，建立所述音频设备与终端之间的第一蓝牙通信连接。

一种音频设备的运行装置，所述运行装置包括：

语音输入检测模块，用于当所述音频设备处于待机状态时，通过第一声电换能器检测当前环境中的语音输入信号；

语音输入处理模块，用于当所述语音输入信号的分贝值大于预设分贝阈值时，开启第二声电换能器，通过第二声电换能器采集所述语音输入信号，对所述语音输入信号进行波束成型和降噪处理并保存处理结果，其中，所述第一声电换能器的功耗低于所述第二声电换能器的功耗；

处理结果检测模块，用于对所述处理结果进行检测；

第一通信连接模块，用于当检测到所述处理结果中包含唤醒关键词时，并建立所述音频设备与终端之间的第一蓝牙通信连接。

一种实时语音唤醒的音频设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一实施例所述的方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一实施例所述的方法的步骤。

上述实时语音唤醒的音频设备、运行方法、装置及存储介质，通过功耗较低的第一声电换能器检测当前环境中的语音输入信号，并在语音输入信号的分贝值超过预设阈值时，开启第二声电换能器进行语音输入信号的采集和处理，并检测处理结果是否包括唤醒关键词；若检测到唤醒关键词，建立音频设备与终端之间的低功耗蓝牙通信连接，从而解决传统技术中为了实现全天候语音唤醒，待机状态下的蓝牙耳机与终端一直保持着经典蓝牙通信连接导致的功耗较高的技术问题。

附图说明

图1为一个实施例中音频聆听设备的运行方法的应用环境图；

图2为一个实施例中音频聆听设备的运行方法的流程示意图；

图3为一个实施例中音频聆听设备的运行方法的流程示意图；

图4为一个实施例中音频聆听设备的运行方法的流程示意图；

图5为一个实施例中音频聆听设备的运行方法的流程示意图；

图6为一个实施例中音频聆听设备的运行方法的流程示意图；

图7a为一个实施例中音频聆听设备的组成示意图；

图7b为一个实施例中音频聆听设备的运行方法的时序图；

图8为一个实施例中音频聆听设备的运行装置的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供一种实时语音唤醒的音频设备的运行方法，可以应用于如图1所示的应用环境中。其中，音频设备110设有第一蓝牙通信模块、第二蓝牙通信模块、第一声电换能器和第二声电换能器，第一声电换能器的功耗低于第二声电换能器，第一蓝牙通信连接的功耗低于第二蓝牙通信连接的功耗。终端120设有第一蓝牙通信模块和第二蓝牙通信模块。通过第一蓝牙通信模块或者第二蓝牙通信模块，建立终端120与音频设备110之间蓝牙通信连接。音频设备110处于待机状态时，音频设备110断开与终端120之间的第一蓝牙通信连接和第二蓝牙通信连接，第二声电换能器处于关闭状态，而第一声电换能器处于声音检测模式。通过第一声电换能器检测当前环境中的语音输入信号，当检测到的语音输入信号的分贝值大于预设分贝阈值时，开启第二声电换能器，通过第二声电换能器采集语音输入信号，对语音输入信号进行降噪处理并保存处理结果。音频聆听设备设有本地语音识别引擎，通过本地语音识别引擎检测该处理结果是否包括唤醒关键词，若检测到唤醒关键词，建立音频聆听设备与终端之间的第一蓝牙通信连接。

进一步地，音频设备110对采集到的语音输入信号进行处理并保存至缓存内，从而对缓存内的语音数据进行压缩。通过低功耗蓝牙通信连接，音频设备110将压缩后的语音数据发送至终端120，通过终端120与云端服务器130之间的网络连接，终端120将压缩后的语音数据转发至云端服务器130进行语音识别，云端服务器130向终端120返回语音识别结果。

可以理解的是，音频设备110被广泛地与许多类终端的聆听或回放特征相关地使用，可以但不限于项带式耳机、头戴式耳机、耳麦、入耳耳机等音频聆听设备。终端120可以但不限于是便携式音频播放设备、便携式多媒体设备、个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。云端服务器130可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

需要说明的是，本发明所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说，在不脱离本发明的范围的情况下，可以将第一蓝牙通信连接称为第二蓝牙通信连接，且类似地，可将第二蓝牙通信连接称为第一蓝牙通信连接。第一蓝牙通信连接和第二蓝牙通信连接两者都是蓝牙通信连接，但其是不同方式的蓝牙通信连接。

本申请中的各个实施例以第一蓝牙通信连接为低功耗蓝牙通信连接、第二蓝牙通信连接为经典蓝牙通信连接、实时语音唤醒的音频设备为音频聆听设备为例进行具体地说明。

在一个实施例中，本申请提供一种音频聆听设备的运行方法，以该方法应用于图1中的音频聆听设备为例进行说明，如图2所示，该运行方法包括以下步骤：

S210、当音频聆听设备处于待机状态时，通过第一声电换能器检测当前环境中的语音输入信号。

其中，音频聆听设备能够接收自然语言命令、请求、询问等形式的用户请求，用户请求可以指示音频聆听设备做出信息性回答或者指示执行对应的任务。待机状态指的是音频聆听设备开机但不进行任何实质性工作(如播放音频)的状态。第一声电换能器是指用于接收声音输入信号，并转换为电输出信号的器件,使声音输入信号的某些所需特征在输出信号中反映出来。语音输入信号是指为请求音频聆听设备做出回答或者执行任务用户所发出的语音信号。具体地，音频聆听设备设有第一声电换能器，当音频聆听设备处于开机但不工作的状态时，通过第一声电换能器检测环境中的语音输入信号以监测音频聆听设备是否需要唤醒。

S220、当语音输入信号的分贝值大于预设分贝阈值时，开启第二声电换能器，通过第二声电换能器采集语音输入信号，对语音输入信号进行波束成型和降噪处理并保存处理结果。

其中，第一声电换能器的功耗低于第二声电换能器的功耗。具体地，为了降低音频聆听设备待机状态下的功耗，第二声电换能器默认处于关闭状态。当第一声电换能器检测到的语音输入信号的分贝值超过预设分贝阈值时，唤醒音频聆听设备，并开启第二声电换能器。通过第二声电换能器对当前环境中的语音输入进行录音，对该语音输入信号进行波束成型和降噪处理并将处理结果保存在音频聆听设备的缓存内。

S230、对处理结果进行检测。

S240、当检测到处理结果中包含唤醒关键词时，建立音频聆听设备与终端之间的低功耗蓝牙通信连接。

其中，音频聆听设备设有本地语音识别引擎，唤醒关键词是指用于唤醒音频聆听设备使其工作的预设的特定关键词，比如可以是“你好”或者音频聆听设备的名称之类的简单特定用语。具体地，通过本地语音识别引擎检测缓存内的处理结果是否包含唤醒关键词。若检测到处理结果中包含唤醒关键词时，建立音频聆听设备与终端之间的低功耗蓝牙通信连接。低功耗蓝牙(Bluetooth Low Energy，简称BLE)是蓝牙技术联盟设计的个人局域网技术。相对于经典蓝牙，低功耗蓝牙旨在保持同等通信范围的同时显著降低功耗和成本。因此，为了降低功耗，优选地，音频聆听设备与终端之间的第一蓝牙通信连接为低功耗蓝牙通信连接。

本实施例中，通过功耗较低的第一声电换能器检测当前环境中的语音输入信号，并在语音输入信号的分贝值超过预设阈值时，开启第二声电换能器进行语音输入信号的采集和处理，并检测处理结果是否包括唤醒关键词；若检测到唤醒关键词，建立音频聆听设备与终端之间的低功耗蓝牙通信连接，从而解决传统技术中为了实现全天候语音唤醒，待机状态下的蓝牙耳机与终端一直保持着经典蓝牙通信连接且麦克风一直处于开启状态导致的功耗较高的技术问题。

在一个实施例中，第一声电换能器为压电唤醒麦克风。当音频聆听设备处于待机状态时，通过第一声电换能器检测当前环境中的语音输入信号，包括：当音频聆听设备处于待机状态时，在预设频段内，通过压电唤醒麦克风检测当前环境中的语音输入信号。

其中，压电唤醒麦克风指的是具有压电感测元件的麦克风，其电流消耗在在微安(μA)量级，远小于普通的数字麦克风。具体地，当前环境中可能存在各种频段的声音，而人的发声频率是固定频段内，为了提升声音检测的准确性，可以根据人的发声频率预设压电唤醒麦克风的工作频段。音频聆听设备设有压电唤醒麦克风，当音频聆听设备处于开机但不工作的状态时，在预设频段内，通过压电唤醒麦克风检测当前环境中的语音输入信号以监测音频聆听设备是否需要唤醒。

本实施例中，通过采用微安量级电流消耗的压电唤醒麦克风进行当前环境中的声音监测，能够极大地降低待机状态下的音频聆听设备的功耗。

在一个实施例中，第二声电换能器包括第一数字麦克风和第二数字麦克风。如图3所示，当语音输入信号的分贝值大于预设分贝阈值时，开启第二声电换能器，通过第二声电换能器采集语音输入信号，对语音输入信号进行降噪处理并保存处理结果，包括以下步骤：

S310、当语音输入信号的分贝值大于预设分贝阈值时，开启第一数字麦克风和第二数字麦克风。

S320、通过第一数字麦克风和第二数字麦克风采集语音输入信号，并对语音输入信号进行波束成型和降噪处理。

S330、将处理结果保存至预设的环形缓存。

具体地，为了节省功耗，第一数字麦克风和第二数字麦克风默认处于关闭状态，当检测到的语音输入信号的分贝值大于预设分贝阈值时，开启第一数字麦克风和第二数字麦克风。通过第一数字麦克风和第二数字麦克风开始录音，采集当前环境中的语音输入信号。并通过第一数字麦克风和第二数字麦克风对采集到的语音数据进行波束成型和降噪处理。具体地，通过第一数字麦克风和第二数字麦克风采集语音输入信号的声波相位差并计算出每个频段的加权系数，对第一数字麦克风和第二数字麦克风分别采集的语音输入信号进行加权叠加处理输出单路波束成型后的语音数据。为了保证语音数据的完整性，将处理后的语音数据保存在预设大小的环形缓存内。

在一个实施例中，音频聆听设备的运行方法还包括：将环形缓存内的语音数据进行压缩；通过低功耗蓝牙通信连接将压缩后的语音数据发送至终端。

其中，压缩后的语音数据用于被语音识别以得到语音识别结果。终端用于将压缩后的语音数据发送至云端服务器进行语音识别，并接收语音识别结果。具体地，为了解决传统技术中录音缓存不足的技术问题，音频聆听设备利用OPUS(声音编码格式)或者MSBC(Modified Sub-Band Code,改进型子带编码)等协议，并预设一定的压缩比，通过压缩算法对环形缓存内的语音数据进行序列化等压缩处理以节省带宽比，解决传统技术中时间延迟较大的技术问题。

进一步地，通过低功耗蓝牙通信连接，音频聆听设备将压缩后的语音数据发送至终端。终端接收压缩后的语音数据，压缩后的语音数据可以包括用户请求音频聆听设备执行某一任务或者向音频聆听设备的信息询问等语音信息，终端与云端服务器之间设有网络连接，终端将接收到的语音数据发送至云端服务器，云端服务器对语音数据进行语音识别并返回语音识别结果给终端，终端接收语音识别结果。可以理解的是，终端也可以设有语音识别引擎，通过终端的语音识别引擎对接收的语音数据进行语音识别。

在一个实施例中，音频聆听设备的运行方法还包括：通过光学接近传感器或电容传感器或压力传感器或霍尔传感器判断音频聆听设备处于使用状态或者非使用状态。

其中，光学接近传感器内部设有光敏二极管，用于检测来自外部的反射光信号，比如红外信号。霍尔传感器用于判断音频聆听设备的两个音频聆听器(如耳塞)是否处于磁吸状态。压力传感器用于判断音频聆听设备的两个音频聆听器(如耳塞)是否处于受压状态。电容传感器用于判断音频聆听设备的两个音频聆听器(如耳塞)是否处于和人体耳道接触的状态。如果光学接近传感器检测到反射光信号或者两个耳塞处于分离的状态，可以判断音频聆听设备处于使用状态。如果光学接近传感器未检测到反射光信号或者两个耳塞处于磁吸状态，可以判断音频聆听设备处于非使用状态。

在一个实施例中，如图4所示，音频聆听设备的运行方法还包括以下步骤：

S410、当通过光学传感器或电容传感器或压力传感器或霍尔传感器检测到音频聆听设备处于佩戴状态，判定音频聆听设备处于使用状态。

S420、建立音频聆听设备与终端之间的经典蓝牙通信连接。

S430、通过经典蓝牙通信连接，接收终端发送的语音识别结果。

S440、通过音频聆听设备的电声换能器将语音识别结果进行播放。

其中，声电换能器是指用于接收电信号，并转换为声音信号的器件。具体地，若通过光学接近传感器检测到反射光信号，则音频聆听设备的耳塞位于用户的耳道内，即音频聆听设备处于佩戴状态。或者，未佩戴的项带式耳机的两个耳塞未放置在用户耳道内时，两个耳塞处于磁吸状态，则若通过霍尔传感器检测到音频聆听设备的两个耳塞处于分离状态，音频聆听设备处于佩戴状态。

具体地，若通过光学传感器或电容传感器或压力传感器或霍尔传感器检测到音频聆听设备处于佩戴状态，可以判定音频聆听设备处于使用状态。处于使用状态的音频聆听设备需要与终端建立蓝牙通信连接。为了保证音频聆听设备播放音频的音质，建立处于使用状态的音频聆听设备与终端之间的经典蓝牙通信连接。通过该经典蓝牙通信连接，终端将接收到的语音识别结果发送至音频聆听设备。音频聆听设备接收语音识别结果，并通过音频聆听设备的电声换能器将语音识别结果进行播放。

本实施例中，通过光学传感器或电容传感器或压力传感器或霍尔传感器判断音频聆听设备处于使用状态时，则建立音频聆听设备与终端之间的经典蓝牙通信连接。此时建立经典蓝牙通信连接不仅可以减少音频聆听设备的功耗，而且通过经典蓝牙通信连接传输音频数据可以改善音质，避免播放音频数据的瑕疵。

在一个实施例中，音频聆听设备的运行方法还包括：当通过光学传感器或电容传感器或压力传感器或霍尔传感器检测到音频聆听设备处于非佩戴状态，判定音频聆听设备处于非使用状态；通过终端的电声换能器将语音识别结果进行播放。

其中，若通过光学接近传感器没有检测到反射光信号，则音频聆听设备的耳塞并不位于用户的耳道内，即处于非佩戴状态；或者通过霍尔传感器检测到音频聆听设备的两个耳塞处于磁吸状态时，判定音频聆听设备处于非佩戴状态。或者通过压力传感器检测到音频聆听设备的两个耳塞并未处于受压状态，判定音频聆听设备处于非佩戴状态。或者通过电容传感器检测到音频聆听设备的两个耳塞并未处于和人体耳道接触的状态，判定音频聆听设备处于非佩戴状态。可以理解的是，可以通过光学传感器、电容传感器、压力传感器和霍尔传感器中的任意一种或至少两种的结合检测音频聆听设备的状态。

具体地，若音频聆听设备处于非佩戴状态，判定音频聆听设备处于非使用状态，则不能够通过音频聆听设备播放语音识别结果，也不需要建立音频聆听设备与终端之间的经典蓝牙通信连接，可以直接通过终端的电声换能器将语音识别结果进行播放，从而方便用户的使用。

在一个实施例中，音频聆听设备设有语音唤醒按键。如图5所示，在建立音频聆听设备与终端之间的低功耗蓝牙通信连接之前，方法还包括：

S510、检测语音唤醒按键上是否发生触发操作；

建立音频聆听设备与终端之间的低功耗蓝牙通信连接，包括：

S520、若发生触发操作，建立音频聆听设备与终端之间的低功耗蓝牙通信连接。

其中，语音唤醒按键是指用于唤醒音频聆听设备的按键，可以是触摸按键也可以是机械按键。具体地，当用户触发语音唤醒按键时，表示需要建立音频聆听设备与终端之间的低功耗蓝牙通信连接，则检测语音唤醒按键上是否发生触发操作，若检测到语音唤醒按键上发生触发操作，建立音频聆听设备与终端之间的低功耗蓝牙通信连接。可以理解的是，语音唤醒按键被触发后，音频聆听设备也能够通过第二声电换能器对当前环境中的语音输入信号进行录音。

在一个实施例中，如图6所示，提供了一种音频聆听设备的运行方法，采用压电唤醒麦克风监测当前环境中的语音输入信号，第二声电换能器采用第一数字麦克风和第二数字麦克风。该方法包括以下步骤：

S602、当音频聆听设备处于待机状态时，在预设频段内，通过压电唤醒麦克风检测当前环境中的语音输入信号。

S604、当语音输入信号的分贝值大于预设分贝阈值时，开启第一数字麦克风和第二数字麦克风。

S606、通过第一数字麦克风和第二数字麦克风采集语音输入信号，并对语音输入信号进行波束成型和降噪处理。

S608、将处理结果保存至预设的环形缓存。

S610、对处理结果进行检测，判断处理结果是否包括唤醒关键词。

S612、当检测到唤醒关键词时，建立音频聆听设备与终端之间的低功耗蓝牙通信连接。

S614、通过光学接近传感器或电容传感器或压力传感器或霍尔传感器判断音频聆听设备处于使用状态或者非使用状态。

S616、当检测到音频聆听设备处于使用状态时，建立音频聆听设备与终端之间的经典蓝牙通信连接。

S618、通过经典蓝牙通信连接，接收终端发送的语音识别结果。

S620、通过音频聆听设备的电声换能器将语音识别结果进行播放。

S622、当检测到音频聆听设备处于非使用状态时，通过终端的电声换能器将语音识别结果进行播放。

在一个实施例中，如图7a所示，音频聆听设备设有低功耗蓝牙通信模块710、经典蓝牙通信模块720。音频聆听设备包括与低功耗蓝牙通信模块710连接的压电唤醒麦克风711、第一数字麦克风712、第二数字麦克风713、光学接近传感器714、霍尔传感器715和语音唤醒按键716。音频聆听设备还包括与经典蓝牙通信模块720连接的LED指示灯721、耳机喇叭722、多功能按键723、音量按键724。

本实施例中，音频聆听设备处于待机状态，且低功耗蓝牙通信模块与经典蓝牙通信模块均处于低功耗模式，且音频聆听设备与终端断开低功耗蓝牙通信连接与经典蓝牙通信连接。第一数字麦克风、第二数字麦克风处于关闭状态。压电唤醒麦克风处于声音监测模式。如图7b所示，本实施例提供了一种音频聆听设备的运行方法，该方法包括如下步骤701至步骤715。具体过程如下：

步骤701，通过压电唤醒麦克风检测当前环境中的语音输入信号。

步骤702，当语音输入信号的分贝值大于预设分贝阈值时，压电唤醒麦克风发送终端至低功耗蓝牙通信模块，启动第一数字麦克风、第二数字麦克风。

步骤703，通过第一数字麦克风和第二数字麦克风采集语音输入信号。

步骤704，对语音输入信号进行波束成型和降噪处理，将处理结果保存至预设的环形缓存。

步骤705，通过音频聆听设备的本地语音识别引擎对环形缓存内的缓存数据进行唤醒关键词检测。

步骤706，当检测到唤醒关键词时，建立音频聆听设备与终端之间的低功耗蓝牙通信连接。

步骤707，将环形缓存内的缓存数据进行压缩。

步骤708，通过低功耗蓝牙通信连接将压缩后的语音数据发送至终端。

步骤709，终端接收压缩后的语音数据，发送至云端服务器。

步骤710，云端服务器对接收到的语音数据进行语音识别。

步骤711，云端服务器向终端发送语音识别结果。

步骤712，终端接收语音识别结果，并向音频聆听设备发送。

步骤713，语音识别的同时，若音频聆听设备处于使用状态，建立音频聆听设备与终端之间的经典蓝牙通信连接。

具体地，低功耗蓝牙通信模块唤醒经典蓝牙通信模块，建立音频聆听设备与终端之间的经典蓝牙通信连接。

步骤714，通过经典蓝牙通信连接，接收终端发送的语音识别结果。

步骤715，通过音频聆听设备的喇叭将语音识别结果进行播放。

应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图8所示，提供了一种实时语音唤醒的音频设备的运行装置800。该运行装置包括：

语音输入检测模块810，用于当音频设备处于待机状态时，通过第一声电换能器检测当前环境中的语音输入信号。

语音输入处理模块820，用于当语音输入信号的分贝值大于预设分贝阈值时，开启第二声电换能器，通过第二声电换能器采集语音输入信号，对语音输入信号进行波束成型和降噪处理并保存处理结果，其中，第一声电换能器的功耗低于第二声电换能器的功耗。

处理结果检测模块830，用于对所述处理结果进行检测。

第一通信连接模块840，用于当检测到处理结果中包含唤醒关键词时，并建立音频设备与终端之间的第一蓝牙通信连接。

在一个实施例中，第一声电换能器为压电唤醒麦克风；语音输入检测模块810，还用于当音频设备处于待机状态时，在预设频段内，通过压电唤醒麦克风检测当前环境中的语音输入信号。

在一个实施例中，第二声电换能器包括第一数字麦克风和第二数字麦克风。语音输入处理模块820，还用于将语音输入信号的分贝值大于预设分贝阈值时，开启第一数字麦克风和第二数字麦克风；通过第一数字麦克风和第二数字麦克风采集语音输入信号的声波相位差并计算出每个频段的加权系数，对第一数字麦克风和第二数字麦克风分别采集的语音输入信号进行加权叠加处理输出单路波束成型后的语音数据；对语音数据进行降噪处理，并保存至预设的环形缓存。

在一个实施例中，该装置还包括语音数据压缩模块和语音数据发送模块，其中，语音数据压缩模块，用于将环形缓存内的语音数据进行压缩；语音数据发送模块，用于通过第一蓝牙通信连接将压缩后的语音数据发送至终端；压缩后的语音数据用于被语音识别以得到语音识别结果。

在一个实施例中，该装置还包括使用状态判断模块，用于通过光学接近传感器或霍尔传感器判断音频设备处于使用状态或者非使用状态。

在一个实施例中，使用状态判断模块，还用于若通过光学接近传感器或霍尔传感器检测到音频设备处于佩戴状态，判定音频设备处于使用状态。该装置还包括第二通信连接模块、语音识别结果接收模块和播放模块，其中：

第二通信连接模块，用于建立音频设备与终端之间的第二蓝牙通信连接，其中，第一蓝牙通信连接的功耗低于第二蓝牙通信连接的功耗

语音识别结果接收模块，用于通过第二蓝牙通信连接，接收终端发送的语音识别结果。

播放模块，用于通过音频设备的电声换能器将语音识别结果进行播放。

在一个实施例中，音频设备设有语音唤醒按键；该装置还包括触发操作检测模块，用于检测语音唤醒按键上是否发生触发操作；第一通信连接模块，还用于若发生触发操作，建立音频设备与终端之间的第一蓝牙通信连接。

关于音频设备的运行装置的具体限定可以参见上文中对于音频聆听设备的运行方法的限定，在此不再赘述。上述音频设备的运行装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种实时语音唤醒的音频设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任一实施例所述的方法的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中的方法步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种实时语音唤醒的音频设备的运行方法，其特征在于，所述运行方法包括：

对所述处理结果进行检测；

2.根据权利要求1所述的方法，其特征在于，所述第一声电换能器为压电唤醒麦克风；所述当所述音频设备处于待机状态时，通过第一声电换能器检测当前环境中的语音输入信号，包括：

3.根据权利要求1所述的方法，其特征在于，所述第二声电换能器包括第一数字麦克风和第二数字麦克风；所述当所述语音输入信号的分贝值大于预设分贝阈值时，开启第二声电换能器，通过所述第二声电换能器采集所述语音输入信号，对所述语音输入信号进行波束成型和降噪处理并保存处理结果，包括：

对所述语音数据进行降噪处理，并保存至预设的环形缓存。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

将所述环形缓存内的语音数据进行压缩；

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

6.根据权利要求4所述的方法，其特征在于，所述方法还包括：

通过所述终端的电声换能器将所述语音识别结果进行播放。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述音频设备设有语音唤醒按键；在所述建立所述音频设备与终端之间的第一蓝牙通信连接之前，所述方法还包括：

检测所述语音唤醒按键上是否发生触发操作；

8.一种实时语音唤醒的音频设备的运行装置，其特征在于，所述运行装置包括：

处理结果检测模块，用于对所述处理结果进行检测；

9.一种实时语音唤醒的音频设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任意一项方法中的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述方法的步骤。