CN114520002A

CN114520002A - 一种处理语音的方法及电子设备

Info

Publication number: CN114520002A
Application number: CN202011301549.6A
Authority: CN
Inventors: 孙渊; 屈伸; 李树为
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-11-19
Filing date: 2020-11-19
Publication date: 2022-05-20

Abstract

本申请提供了一种处理语音的方法及电子设备，用以解决现有技术中用户唤醒率普遍下降的问题。该方法包括：电子设备检测到音频数据；电子设备确定音频数据是否包括至少一个预设关键词；若确定音频数据包括至少一个预设关键词且电子设备处于唤醒状态，则电子设备将音频数据作为响应语音指令的输入；和/或，若确定音频数据包括至少一个预设关键词且电子设备处于非唤醒状态，则电子设备不将音频数据作为响应唤醒指令的输入；和/或，若确定音频数据不包括至少一个预设关键词时，且音频数据包括预设唤醒词，则电子设备进入唤醒状态；和/或，若确定音频数据不包括至少一个预设关键词时，且音频数据不包括预设唤醒词，则电子设备保持非唤醒状态。

Description

一种处理语音的方法及电子设备

技术领域

本申请涉及终端技术领域，特别涉及一种处理语音的方法及电子设备。

背景技术

智能语音设备，为了兼容不同口音以及方言的唤醒率，会让类似预设唤醒词的语音也能唤醒设备，比如预设唤醒词是“小艺小艺”，那么类似的、“声音小一点”、“下月一号”“小米小米”、“聊一聊”、“老弟老弟”等词也会被识别为预设唤醒词进而唤醒智能语音设备，从而使智能语音设备被误唤醒。

一种解决方案为，通过把预设唤醒词类似的词语的音频数据加入负向集合对语音唤醒模型进行训练，例如，预设唤醒词是“小艺小艺”，可以将类似的词语如“声音小一点”、“下月一号”、“小米小米”、“聊一聊”、“老弟老弟”等的音频数据加入负向集合进行训练。并提高语音唤醒模型的唤醒阈值，以达到不让这些类似的词语唤醒的目的。但是，通过这种方式会导致用户唤醒率普遍下降。

发明内容

本申请提供了一种处理语音的方法及电子设备，用以解决现有技术中用户唤醒率普遍下降的问题。

第一方面提供的一种处理语音的方法，包括：电子设备检测到音频数据；电子设备确定音频数据是否包括至少一个预设关键词；若确定音频数据包括至少一个预设关键词且电子设备处于唤醒状态，则电子设备将音频数据作为响应语音指令的输入；和/或，若确定音频数据包括至少一个预设关键词且电子设备处于非唤醒状态，则电子设备不将音频数据作为响应唤醒指令的输入；和/或，若确定音频数据不包括至少一个预设关键词时，且音频数据包括预设唤醒词，则电子设备进入唤醒状态；和/或，若确定音频数据不包括至少一个预设关键词时，且音频数据不包括预设唤醒词，则电子设备保持非唤醒状态。

本申请实施例中通过在唤醒电子设备之前对预设唤醒词的相似词进行拦截，可以在降低电子设备的误唤醒率。

在一种可能的设计中，若确定音频数据包括至少一个预设关键词，且电子设备处于非唤醒状态，该方法还包括：若至少一个预设关键词在预设时长内被检测到的次数不大于预设值，且音频数据包括预设唤醒词，则电子设备进入唤醒状态。上述设计，通过结合预设关键词被检测到的次数确定是否唤醒电子设备，使得在降低电子设备的误唤醒率的同时可以极大程度保证用户唤醒率的不下降。

在一种可能的设计中，若确定音频数据包括至少一个预设关键词，且电子设备处于非唤醒状态，该方法还包括：若至少一个预设关键词在预设时长内被检测到的次数大于预设值，则电子设备保持非唤醒状态。上述设计，通过结合预设关键词被检测到的次数确定是否唤醒电子设备，可以进一步降低电子设备的误唤醒率。

在一种可能的设计中，电子设备检测下一个音频数据。通过上述设计，电子设备可以及时进入唤醒状态。

第二方面提供的一种处理语音的方法，包括：电子设备检测到音频数据；电子设备在确定音频数据包括预设唤醒词时进入唤醒状态；电子设备确定音频数据是否包括至少一个预设关键词；在确定音频数据包括至少一个预设关键词，且至少一个预设关键词在预设时长内被检测到的次数大于预设值时，电子设备进入非唤醒状态；和/或，在确定音频数据包括至少一个预设关键词，且至少一个预设关键词在预设时长内被检测到的次数不大于预设值时，电子设备将音频数据作为响应语音指令的输入；和/或，在确定音频数据不包括至少一个预设关键词时，电子设备将音频数据作为响应语音指令的输入。

本申请实施例中通过在唤醒电子设备之后对预设唤醒词的相似词进行拦截，可以在降低电子设备的误唤醒率。并且，通过结合预设关键词被检测到的次数确定是否进入非唤醒状态，使得在降低电子设备的误唤醒率的同时可以极大程度上避免用户唤醒率的降低。

在一种可能的设计中，在电子设备进入非唤醒状态之后，检测下一个音频数据。通过上述设计，电子设备可以及时进入唤醒状态。

第三方面提供的一种处理语音的电子设备，包括：麦克风以及处理器。处理器，用于执行：通过麦克风检测到音频数据；确定音频数据是否包括至少一个预设关键词；若确定音频数据包括至少一个预设关键词且电子设备处于唤醒状态，则将音频数据作为响应语音指令的输入；和/或，若确定音频数据包括至少一个预设关键词且电子设备处于非唤醒状态，则不将音频数据作为响应唤醒指令的输入；和/或，若确定音频数据不包括至少一个预设关键词时，且音频数据包括预设唤醒词，则控制电子设备进入唤醒状态；和/或，若确定音频数据不包括至少一个预设关键词时，且音频数据不包括预设唤醒词，则控制电子设备保持非唤醒状态。

在一种可能的设计中，若确定音频数据包括至少一个预设关键词，且电子设备处于非唤醒状态，处理器，还用于：若至少一个预设关键词在预设时长内被检测到的次数不大于预设值，且音频数据包括预设唤醒词，则控制电子设备进入唤醒状态。

在一种可能的设计中，若确定音频数据包括至少一个预设关键词，且电子设备处于非唤醒状态，处理器，还用于：若至少一个预设关键词在预设时长内被检测到的次数大于预设值，则控制电子设备保持非唤醒状态。

在一种可能的设计中，处理器，还用于：通过麦克风检测下一个音频数据。

第四方面提供的一种处理语音的电子设备，包括：麦克风以及处理器。处理器，用于执行：通过麦克风检测到音频数据；在确定音频数据包括预设唤醒词时控制电子设备进入唤醒状态；确定音频数据是否包括至少一个预设关键词；在确定音频数据包括至少一个预设关键词，且至少一个预设关键词在预设时长内被检测到的次数大于门限值时，控制电子设备进入非唤醒状态；和/或，在确定音频数据包括至少一个预设关键词，且至少一个预设关键词在预设时长内被检测到的次数不大于门限值时，将音频数据作为响应语音指令的输入；和/或，在确定音频数据不包括至少一个预设关键词时，将音频数据作为响应语音指令的输入。

在一种可能的设计中，处理器，还用于：在控制电子设备进入非唤醒状态之后，通过麦克风检测下一个音频数据。

第五方面提供一种装置，该装置可以为单独的一个芯片单元，或者该装置也可以是芯片系统。该装置包括至少一个处理器和一个存储器，所述存储器与所述至少一个处理器耦合，所述至少一个处理器用于执行：通过麦克风检测到音频数据；确定音频数据是否包括至少一个预设关键词；若确定音频数据包括至少一个预设关键词且电子设备处于唤醒状态，则将音频数据作为响应语音指令的输入；和/或，若确定音频数据包括至少一个预设关键词且电子设备处于非唤醒状态，则不将音频数据作为响应唤醒指令的输入；和/或，若确定音频数据不包括至少一个预设关键词时，且音频数据包括预设唤醒词，则控制电子设备进入唤醒状态；和/或，若确定音频数据不包括至少一个预设关键词时，且音频数据不包括预设唤醒词，则控制电子设备保持非唤醒状态。

在一种可能的设计中，处理器，还用于：检测下一个音频数据。

第六方面提供另一种装置，该装置可以为单独的一个芯片单元，或者该装置也可以是芯片系统。所述装置包括至少一个处理器和一个存储器，所述存储器与所述至少一个处理器耦合，所述至少一个处理器用于执行：通过麦克风检测到音频数据；在确定音频数据包括预设唤醒词时控制电子设备进入唤醒状态；确定音频数据是否包括至少一个预设关键词；在确定音频数据包括至少一个预设关键词，且至少一个预设关键词在预设时长内被检测到的次数大于门限值时，控制电子设备进入非唤醒状态；和/或，在确定音频数据包括至少一个预设关键词，且至少一个预设关键词在预设时长内被检测到的次数不大于门限值时，将音频数据作为响应语音指令的输入；和/或，在确定音频数据不包括至少一个预设关键词时，将音频数据作为响应语音指令的输入。

在一种可能的设计中，处理器，还用于：在控制电子设备进入非唤醒状态之后，检测下一个音频数据。

第七方面提供一种计算机可读存储介质，所述计算机可读存储介质中存储指令，当该指令在其在所述电子设备上运行时，使得所述电子设备执行上述第一方面或第二方面以及相应可能的设计中任意一项所述的方法。

第八方面提供一种包括指令的计算机程序产品，当所述计算机程序产品在电子设备上运行时，使得所述电子设备执行上述第一方面或第二方面以及相应可能的设计中任意一项所述的方法。

第九方面提供一种电子设备，该电子设备包括：一个或多个处理器、显示屏、存储器以及通信模块；其中，所述存储器中存储有一个或多个计算机程序，所述一个或多个计算机程序包括指令，当所述指令被所述电子设备执行时，使得所述电子设备执行上述第一方面或第二方面以及相应可能的设计中任意一项所述的方法。

附图说明

图1为本申请实施例提供的一种电子设备的硬件结构示意图；

图2为本申请实施例提供的一种电子设备的软件结构示意图；

图3为本申请实施例提供的另一种电子设备的软件结构示意图；

图4为本申请实施例提供的一种处理语音的方法的流程示意图；

图5为本申请实施例提供的另一种处理语音的方法的流程示意图。

具体实施方式

智能语音设备，为了兼容不同口音以及方言的唤醒率，会让类似预设唤醒词的语音也能唤醒设备，比如预设唤醒词是“小艺小艺”，那么类似的、“声音小一点”、“下月一号”“小米小米”、“聊一聊”、“老弟老弟”等词也会被识别为预设唤醒词进而唤醒设备，从而使智能语音设备被误唤醒。

基于此，本申请实施例提供一种处理语音的方法及电子设备，本申请实施例的处理语音的方法可以在不影响用户唤醒率的情况下进行误唤醒拦截，从而可以提升用户体验。其中，方法和装置是基于同一发明构思的，由于方法及装置解决问题的原理相似，因此装置与方法的实施可以相互参见，重复之处不再赘述。

应理解，在本申请中除非另有说明，“/”表示或的意思，例如，A/B可以表示A或B；本申请中的“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。“至少一个”是指一个或者多个，“多个”是指两个或两个以上。

在本申请中，“示例的”、“在一些实施例中”、“在另一些实施例中”等用于表示作例子、例证或说明。本申请中被描述为“示例”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用示例的一词旨在以具体方式呈现概念。

下面对本申请涉及的部分名词进行解释，以便于本领域技术人员的理解。

1、语音交互。语音交互就是用人类最自然的语言给机器下达语音指令，达成自己的目的过程。语音交互的过程，包括五个环节：唤醒、响应、输入、理解、反馈。其中，唤醒是设备从待机状态切换到工作状态。可以理解的，设备被唤醒后处于的状态可以称为唤醒状态也可以称为工作状态，为了描述上的方便，下面将设备被唤醒后处于的状态称为唤醒状态。

2、预设唤醒词。智能语音设备可以通过一个预设的词语或者语句来唤醒，也就是智能语音设备通过接收包括预设唤醒词的音频数据来触发进入唤醒状态。例如，以智能音箱为例，“小艺”是华为智能音箱的预设唤醒词，“小度小度”是小度智能音箱的预设唤醒词，“Hey Google”是唤醒谷歌家庭(Google Home)的预设唤醒词，等等。当智能语音设备采集到包括预设唤醒词的音频数据时，它就会进入唤醒状态或者工作状态。

3、唤醒率，指用户通过发出预设唤醒词唤醒智能语音设备的成功率。

4、误唤醒，指用户未发出预设唤醒词而智能语音设备被唤醒。

5、唤醒指令，指用于唤醒智能语音设备的指令，例如，预设唤醒词、预设唤醒句等。

6、语音指令，指用于控制智能语音设备的指令，如打开某个APP，又如控制播放音量升降，再如拨打电话等。

以下介绍电子设备、用于这样的电子设备的图形用户界面(graphical userinterface，GUI)、和用于使用这样的电子设备的实施例。为描述方便，以下将GUI简称为用户界面。

本申请实施例中的电子设备包括智能语音设备，诸如手机、平板电脑、可穿戴设备、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、车载终端、智能家居设备(例如智能电视、智能音箱)、智能机器人等。具体的，电子设备的操作系统包括但不限于搭载鸿蒙

或者其它操作系统。在另一些实施例中，本申请实施例的电子设备还可以为其它电子设备，如笔记本电脑等。

示例的，如图1所示，为本申请实施例的一种电子设备的硬件结构示意图。具体的如图所示，电子设备包括处理器110、内部存储器121、外部存储器接口122、摄像头131、显示屏132、传感器模块140、用户标识模块(subscriber identification module，SIM)卡接口151、按键152、音频模块160、扬声器161、受话器162、麦克风163、耳机接口164、通用串行总线(universal serial bus，USB)接口170、充电管理模块180、电源管理模块181、电池182、移动通信模块191和无线通信模块192。在另一些实施例中，电子设备还可以包括马达、指示器、按键等。

应理解，图1所示的硬件结构仅是一个示例。本申请实施例的电子设备可以具有比图中所示电子设备更多的或者更少的部件，可以组合两个或更多的部件，或者可以具有不同的部件配置。图中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。

其中，处理器110可以包括一个或多个处理单元。例如：处理器110可以包括应用处理器(application processor，AP)、调制解调器、图形处理器(graphics processingunit，GPU)、图像信号处理器(image signal processor，ISP)、控制器、视频编解码器、数字信号处理器(digital signal processor，DSP)、基带处理器、和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

在一些实施例中，处理器110中还可以设置缓存器，用于存储指令和/或数据。示例的，处理器110中的缓存器可以为高速缓冲存储器。该缓存器可以用于保存处理器110刚用过的、生成的、或循环使用的指令和/或数据。如果处理器110需要使用该指令或数据，可从该缓存器中直接调用。有助于减少了处理器110获取指令或数据的时间，从而有助于提高系统的效率。

内部存储器121可以用于存储程序和/或数据。在一些实施例中，内部存储器121包括存储程序区和存储数据区。其中，存储程序区可以用于存储操作系统(如Android、IOS等操作系统)、至少一个功能所需的计算机程序(比如语音唤醒功能以及响应语音指令的功能)等。存储数据区可以用于存储电子设备使用过程中所创建、和/或采集的数据(比如音频数据)等。示例的，处理器110可以通过调用内部存储器121中存储的程序和/或数据，使得电子设备执行相应的方法，从而实现一种或多种功能。例如，处理器110调用内部存储器中的某些程序和/或数据，使得电子设备执行本申请实施例中所提供的处理语音的方法、从而实现语音唤醒功能以及响应语音指令的功能。其中，内部存储器121可以采用高速随机存取存储器、和/或非易失性存储器等。例如，非易失性存储器可以包括一个或多个磁盘存储器件、闪存器件、和/或通用闪存存储器(universal flash storage，UFS)等中的至少一个。

外部存储器接口122可以用于连接外部存储卡(例如，Micro SD卡)，实现扩展电子设备的存储能力。外部存储卡通过外部存储器接口122与处理器110通信，实现数据存储功能。例如电子设备可以通过外部存储器接口122将图像、音乐、视频等文件保存在外部存储卡中。

摄像头131可以用于捕获动、静态图像等。通常情况下，摄像头131包括镜头和图像传感器。其中，物体通过镜头生成的光学图像投射到图像传感器上，然后转换为电信号，在进行后续处理。示例的，图像传感器可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。图像传感器把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。需要说明的是，电子设备可以包括1个或N个摄像头131，其中，N为大于1的正整数。

显示屏132可以包括显示面板，用于显示用户界面。显示面板可以采用液晶显示屏(liquid crystal display，LCD)、有机发光二极管(organic light-emitting diode，OLED)、有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organiclight emitting diode，AMOLED)、柔性发光二极管(flex light-emitting diode，FLED)、Miniled、MicroLed、Micro-oLed、量子点发光二极管(quantum dot light emittingdiodes，QLED)等。需要说明的是，电子设备可以包括1个或M个显示屏132，M为大于1的正整数。示例的，电子设备可以通过GPU、显示屏132、应用处理器等实现显示功能。

传感器模块140可以包括一个或多个传感器。例如，触摸传感器140A、陀螺仪140B、加速度传感器140C、指纹传感器140D、压力传感器140E等。在一些实施例中，传感器模块140还可以包括环境光传感器、距离传感器、接近光传感器、骨传导传感器、温度传感器等。

其中，触摸传感器140A，也可称为“触控面板”。触摸传感器140A可以设置于显示屏132，由触摸传感器140A与显示屏132组成触摸屏，也称“触控屏”。触摸传感器140A用于检测作用于其上或附近的触摸操作。触摸传感器140A可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。电子设备可以通过显示屏132提供与触摸操作相关的视觉输出等。在另一些实施例中，触摸传感器140A也可以设置于电子设备的表面，与显示屏132所处的位置不同。

陀螺仪140B可以用于确定电子设备的运动姿态。在一些实施例中，可以通过陀螺仪140B确定电子设备围绕三个轴(即，x、y和z轴)的角速度。陀螺仪140B可以用于拍摄防抖。示例性的，当按下快门，陀螺仪140B检测电子设备抖动的角度，根据角度计算出镜头模组需要补偿的距离，让镜头通过反向运动抵消电子设备的抖动，从而实现防抖。陀螺仪传感器140B还可以用于导航、体感游戏场景。

加速度传感器140C可检测电子设备在各个方向上(一般为三轴)加速度的大小。当电子设备静止时可检测出重力的大小及方向。加速度传感器140C还可以用于识别电子设备的姿态，应用于横竖屏切换、计步器等应用。

指纹传感器140D用于采集指纹。电子设备可以利用采集的指纹特性实现指纹解锁、访问应用锁、指纹拍照、指纹接听来电等。

压力传感器140E用于感受压力信号，可以将压力信号转换成电信号。示例的，压力传感器140E可以设置于显示屏132。其中，作用于相同触摸位置，但不同触摸操作强度的触摸操作，可以对应不同的操作指令。

SIM卡接口151用于连接SIM卡。SIM卡可以通过插入SIM卡接口151，或从SIM卡接口151拔出，实现和电子设备的接触和分离。电子设备可以支持1个或K个SIM卡接口151，K为大于1的正整数。SIM卡接口151可以支持Nano SIM卡、Micro SIM卡、和/或SIM卡等。同一个SIM卡接口151可以同时插入多张卡。所述多张卡的类型可以相同，也可以不同。SIM卡接口151也可以兼容不同类型的SIM卡。SIM卡接口151也可以兼容外部存储卡。电子设备通过SIM卡和网络交互，实现通话以及数据通信等功能。在一些实施例中，电子设备还可以采用eSIM，即：嵌入式SIM卡。eSIM卡可以嵌在电子设备中，不能和电子设备分离。

按键152可以包括开机键、音量键等。按键152可以是机械按键，也可以是触摸式按键。电子设备可以接收按键输入，产生与电子设备的用户设置以及功能控制有关的键信号输入。

电子设备可以通过音频模块160、扬声器161、受话器162、麦克风163、耳机接口164以及应用处理器等实现音频功能。例如，音频播放功能、录音功能、音频采集功能、语音唤醒功能等。

音频模块160可以用于对音频数据进行数模转换、和/或模数转换，还可以用于对音频数据进行编码和/或解码。示例的，音频模块160可以独立于处理器设置，也可以设置于处理器110中，或将音频模块160的部分功能模块设置于处理器110中。

扬声器161，也称“喇叭”，用于将音频数据转换为声音，并播放声音。例如，电子设备100可以通过扬声器161收听音乐、接听免提电话、或者发出语音提示等。

受话器162，也称“听筒”，用于将音频数据转换成声音，并播放声音。例如，当电子设备100接听电话时，可以通过将受话器162靠近人耳进行接听。

麦克风163，也称“话筒”、“传声器”，用于采集声音(例如周围环境声音，包括人发出的声音、设备发出的声音等)，并将声音转换为音频电数据。当拨打电话或发送语音时，用户可以通过人嘴靠近麦克风163发出声音，麦克风163采集用户发出的声音。当电子设备的声纹识别功能已开启的情况下，麦克风163可以实时采集周围环境声音，获取音频数据。其中，麦克风163采集声音的情况与所处的环境相关。例如，当周围环境较为嘈杂时，用户说出唤醒指令(预设唤醒词)或者语音指令时，则麦克风163采集的声音包括周围环境噪声和用户发出唤醒指令(预设唤醒词)或者语音指令的声音。再例如，当周围环境较为安静时，用户说出唤醒指令(预设唤醒词)或者语音指令，则麦克风163采集的声音为用户发出唤醒指令(预设唤醒词)或者语音指令的声音。再例如，当周围环境为远场条件时，用户说出唤醒指令(预设唤醒词)或者语音指令，则麦克风163采集的声音为周围环境噪音的叠加以及混响，用户发出唤醒指令(预设唤醒词)或者语音指令的混响。又例如，当周围环境较为嘈杂时，用户并未说出唤醒指令(预设唤醒词)或者语音指令，则麦克风163采集的声音仅为周围环境噪声。

需要说明的是，电子设备可以设置至少一个麦克风163。例如，电子设备中设置两个麦克风163，除了采集声音，还可以实现降噪功能。又示例如，电子设备中还可以设置三个、四个或更多个麦克风163，从而可以在实现声音采集、降噪的基础上，还可以实现声音来源的识别、或定向录音功能等。

耳机接口164用于连接有线耳机。耳机接口164可以是USB接口170，也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform，OMTP)标准接口、美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口等。

USB接口170是符合USB标准规范的接口，具体可以是Mini USB接口、Micro USB接口、USB Type C接口等。USB接口170可以用于连接充电器为电子设备充电，也可以用于电子设备与外围设备之间传输数据。也可以用于连接耳机，通过耳机播放音频。示例的，USB接口170除了可以为耳机接口164以外，还可以用于连接其他电子设备，例如AR设备、计算机等。

充电管理模块180用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。在一些有线充电的实施例中，充电管理模块180可以通过USB接口170接收有线充电器的充电输入。在一些无线充电的实施例中，充电管理模块180可以通过电子设备的无线充电线圈接收无线充电输入。充电管理模块180为电池182充电的同时，还可以通过电源管理模块180为电子设备供电。

电源管理模块181用于连接电池182、充电管理模块180与处理器110。电源管理模块181接收电池182和/或充电管理模块180的输入，为处理器110、内部存储器121、显示屏132、摄像头131等供电。电源管理模块181还可以用于监测电池容量、电池循环次数、电池健康状态(漏电、阻抗)等参数。在其他一些实施例中，电源管理模块181也可以设置于处理器110中。在另一些实施例中，电源管理模块181和充电管理模块180也可以设置于同一个器件中。

移动通信模块191可以提供应用在电子设备上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块191可以包括滤波器、开关、功率放大器、低噪声放大器(low noiseamplifier，LNA)等。

无线通信模块192可以提供应用在电子设备上的包括WLAN(如Wi-Fi网络)、蓝牙(Bluetooth，BT)、全球导航卫星系统(global navigation satellite system，GNSS)、调频(frequency modulation，FM)、近距离无线通信技术(near field communication，NFC)、红外技术(infrared，IR)等无线通信的解决方案。无线通信模块192可以是集成至少一个通信处理模块的一个或多个器件。

在一些实施例中，电子设备的天线1和移动通信模块191耦合，天线2和无线通信模块192耦合，使得电子设备可以与其他设备通信。具体的，移动通信模块191可以通过天线1与其它设备通信，无线通信模块193可以通过天线2与其它设备通信。

电子设备可以包括拾音模块、误唤醒拦截模块、语音唤醒模块、语音识别模块、业务处理模块。本申请实施例中，拾音模块、误唤醒拦截模块、语音唤醒模块、语音识别模块、业务处理模块可以为图1所示处理器110中的功能模块，可以理解的，拾音模块、误唤醒拦截模块、语音唤醒模块、语音识别模块、业务处理模块可以是处理器110中同一个处理单元的功能模块，也可以是处理器110中不同处理单元的功能模块，这里不做具体限定。

图2示出了本申请实施例提供的电子设备的一种软件结构，图3示出了本申请实施例提供的电子设备的另一种软件结构。

其中，拾音模块可以实现采集音频数据。其中，拾音模块可以通过图1所示的音频模块160采集音频数据。

误唤醒拦截模块可以实现预设关键词的识别、判断预设关键词在预设时长内被检测到次数是否超过门限值等，其中，预设关键词可以为需要拦截的词语，例如，预设唤醒词的相似词等。一种示例性说明中，误唤醒拦截模块中可以包括黑名单配置文件。该黑名单配置文件可以是记录预设关键词的配置文件，即误唤醒拦截模块根据黑名单配置文件训练识别预设关键词的模型。

一种示例性说明中，误唤醒拦截模块可以根据黑名单配置文件训练得到一个模型，该模型可以识别输入的音频数据是否为预设关键词。例如，若想要拦截“小米小米”、“老弟老弟”、“聊一聊”等词语，该模型基于“小米小米”、“老弟老弟”、“聊一聊”等预设关键词的样本数据进行训练，经过训练模型可以识别输入的音频数据是否为预设关键词。误唤醒拦截模块可以将拾音模块采集的音频数据输入该模型，从而可以确定音频数据是否包括预设关键词。

另一种示例性说明中，误唤醒拦截模块可以根据黑名单配置文件训练每个预设关键词分别对应的模型。例如，比如想要拦截“小米小米”，需要大量的“小米小米”的音频做机器学习，得到“小米小米”的自动语音识别(automatic speech recognition，ASR)模型或者命令词模型，通过ASR参照，识别输入的音频是否包括“小米小米”。误唤醒拦截模块可以将拾音模块采集的音频数据分别输入黑名单配置文件包括的各个模型中，从而可以确定音频数据是否包括预设关键词。

或者，黑名单配置文件也可以包括已经训练好的可以识别预设关键词的模型，即基于需要被拦截的预设关键词的样本数据训练得到的模型，该模型可以识别预设关键词。

一种示例性说明中，黑名单配置文件可以包括一个模型，该模型可以识别输入的音频数据是否包括预设关键词。例如，若想要拦截“小米小米”、“老弟老弟”、“聊一聊”等词语，该模型基于“小米小米”、“老弟老弟”、“聊一聊”等预设关键词的样本数据进行训练，经过训练模型可以识别输入的音频数据是否包括预设关键词。误唤醒拦截模块可以将拾音模块采集的音频数据输入该模型，从而可以确定音频数据是否包括预设关键词。

另一种示例性说明中，黑名单配置文件也可以包括多个预设关键词分别对应的模型。例如，比如想要拦截“小米小米”，需要大量的“小米小米”的音频做机器学习，得到“小米小米”的自动语音识别(automatic speech recognition，ASR)模型或者命令词模型，通过ASR参照，识别输入的音频是否包括“小米小米”。误唤醒拦截模块可以将拾音模块采集的音频数据分别输入黑名单配置文件包括的各个模型中，从而可以确定音频数据是否包括预设关键词。

可选的，该黑名单配置文件可以是在电子设备初始加载系统或者更新系统时接收到的。例如，服务器通过采集用户反馈的触发误唤醒的词语，将这些词语设置为预设关键词。服务器根据这些词语生成黑名单配置文件，并发送给电子设备，电子设备在初始加载系统或者更新系统时收到黑名单配置文件。

语音唤醒模块可以实现唤醒功能。一种实现方式中，语音唤醒模块可以通过唤醒引擎实现，唤醒引擎可以理解为是封装的代码或函数库，可以通过调用代码或函数库的接口来实现唤醒功能。一般情况下，语音唤醒模块可以通过判断采集的音频数据是否包括预设唤醒词确定是否要唤醒电子设备。可选的，语音唤醒模块还可以通过判断采集的音频数据是否包括预设唤醒词、以及对音频数据进行声纹识别以判断是否为特定用户发出的语音这两种条件来确定是否要唤醒电子设备。

语音识别模块可以用于对用户输入的语音指令进行语音识别。例如，用户输入“播放《夏天》”，语音识别模块可以对“播放《夏天》”这个音频数据进行语音识别，确定用户想要听音乐《夏天》，语音识别模块将播放《夏天》的控制指令传输给业务处理模块，业务处理模块根据播放《夏天》的控制指令获取《夏天》的音频数据并播放《夏天》。需要说明的是：作为一种可能的设计，业务处理模块可以根据播放《夏天》的控制指令，在电子设备的内部存储器获取《夏天》的音频数据，或者，在外部资源中获取《夏天》的音频数据，外部资源包括：与电子设备保持无线连接的其他设备，或者与电子设备保持无线连接的云服务器或其它服务器。作为另一种可能的设计，播放《夏天》的控制指令可以携带《夏天》的统一资源定位符(uniform resource locator，URL)地址或者《夏天》的音频数据在电子设备的存储地址。又例如，若用户发出“声音小一点”，语音识别模块可以对用户发出的音频数据进行语音识别，确定用户想要降低播放音量，语音识别模块可以将降低播放音量的控制指令传输给业务处理模块，业务处理模块根据降低播放音量的控制指令控制电子设备降低播放音量。

或者，语音识别模块可以用于将用户输入的语音指令传输至服务器进行语音识别。例如，用户发出“播放《夏天》”，电子设备将“播放《夏天》”这个音频数据传输给服务器，由服务器对“播放《夏天》”这个音频数据进行语音识别，确定用户想要听音乐《夏天》，服务器向电子设备发送播放《夏天》的控制指令，电子设备的业务处理模块在接收到该播放《夏天》的控制指令后获取《夏天》的音频数据并播放。需要说明的是：作为一种可能的设计，该播放《夏天》控制指令可以携带《夏天》的URL地址或《夏天》的音频数据在电子设备中的存储地址，其中，《夏天》的音频数据在电子设备中的存储地址可以是电子设备向服务器上报的。作为另一种可能的设计，该播放《夏天》控制指令也可以不携带《夏天》的URL地址或《夏天》的音频数据在电子设备中的存储地址。业务处理模块可以根据播放《夏天》的控制指令，在电子设备的内部存储器获取《夏天》的音频数据，或者，在外部资源中获取《夏天》的音频数据，外部资源包括：与电子设备保持无线连接的其他设备，或者与电子设备保持无线连接的云服务器或其它服务器。又例如，若用户发出“声音小一点”，语音识别模块将“声音小一点”这个音频数据传输给服务器，由服务器对“声音小一点”这个音频数据进行语音识别，确定用户想要降低播放音量，服务器可以将降低播放音量的控制指令传输给电子设备，电子设备的业务处理模块在接收到降低播放音量的控制指令后控制电子设备降低播放音量。

业务处理模块可以根据语音识别的结果执行相应业务，例如，若用户发出“播放《夏天》”，业务处理模块根据播放《夏天》的控制指令获取《夏天》的音频数据并播放《夏天》。需要说明的是：作为一种可能的设计，业务处理模块可以根据播放《夏天》的控制指令，在电子设备的内部存储器获取《夏天》的音频数据，或者，在外部资源中获取《夏天》的音频数据，外部资源包括：与电子设备保持无线连接的其他设备，或者与电子设备保持无线连接的云服务器或其它服务器。作为另一种可能的设计，播放《夏天》的控制指令可以携带《夏天》的统一资源定位符(uniform resource locator，URL)地址或者《夏天》的音频数据在电子设备的存储地址。又例如，若用户发出“声音小一点”，语音识别模块可以对用户发出的音频数据进行语音识别，确定用户想要降低播放音量，语音识别模块可以将降低播放音量的控制指令传输给业务处理模块，业务处理模块根据降低播放音量的控制指令控制电子设备降低播放音量。应理解：本文所涉及的无线连接包括但不限于利用蓝牙协议，Wi-Fi协议，NFC协议，2G协议，3G协议，4G协议，5G协议以及6G协议等后续协议，或其他协议建立的无线连接。

本申请实施例以下将结合附图和应用场景，对本申请实施例提供的处理语音的方法进行详细介绍。以下实施例均可以在具有上述硬件结构的电子设备100中实现。

基于图2所示的电子设备，本申请实施例提供的一种处理语音的方法。参见图4，示例性的示出了本申请实施例提供的一种处理语音的方法的流程，该方法可以由电子设备执行。

S401，电子设备检测到音频数据。执行步骤S402。

其中，该音频数据可能包括预设唤醒词，或者，也可能包括预设唤醒词的相似词，例如，假设预设唤醒词是小艺小艺，该音频数据可以包括“小艺小艺”，或者，该音频数据也可以包括相似词“小米小米”“小姨小姨”，或者，也可以包括控制指令“声音小一点”“聊一聊”等。

一种实现方式中，电子设备的拾音模块可以执行步骤S401。例如，拾音模块可以通过麦克风等音频设备采集用户发出的音频数据。

S402，电子设备确定该音频数据是否包括至少一个预设关键词。若是，执行步骤S403；若否，执行步骤S406。

其中，预设关键词为需要拦截的词语，例如，预设关键词可以为预设唤醒词的相似词。预设关键词可以是用户设置的，也可以是用户反馈的触发误唤醒的词语，也可以是其他方式采集的词语。

一种实现方式中，电子设备的误唤醒拦截模块可以执行步骤S402。

例如，误唤醒拦截模块可以将该音频数据输入黑名单配置文件，该黑名单配置文件用于识别预设关键词。

又例如，黑名单配置文件是记录预设关键词的配置文件。误唤醒拦截模块可以基于黑名单配置文件训练模型，并将该音频数据输入训练好的模型中，以识别音频数据是否包括至少一个预设关键词。

其中，误唤醒拦截模块基于黑名单配置文件训练模型的过程可以参阅上述误唤醒拦截模块的相关描述，这里不再重复赘述。

S403，电子设备确定是否处于唤醒状态。若是，执行步骤S404。若否，执行步骤S405。

可选的，步骤S403可以是由电子设备的误唤醒拦截模块执行的。

S404，电子设备将该音频数据作为响应语音指令的输入。

一种实现方式中，电子设备可以启动语音识别模块对音频数据进行语音识别，并将语音识别的结果传输至业务处理模块进行处理。

例如，用户发出的音频数据为“声音小一点”，电子设备的语音识别模块对音频数据进行语音识别后，将降低播放音量的控制指令传输给业务处理模块，业务处理模块根据该降低播放音量的控制指令降低播放音量。

又例如，用户发出的音频数据为“讲故事《秋天》”，电子设备的语音识别模块对“讲故事《秋天》”音频数据进行语音识别后，向业务处理模块发送播放故事《秋天》的控制指令，业务处理模块根据播放《秋天》的控制指令获取《秋天》的音频数据并播放《秋天》。具体实现可以参见前述相应描述，此处不再赘述。

另一种实现方式中，电子设备可以启动语音识别模块将音频数据传输给服务器进行语音识别，电子设备的业务处理模块在接收到服务器发送的语音识别结果后进行处理。

例如，用户发出的音频数据为“讲故事《秋天》”，电子设备的语音识别模块将“讲故事《秋天》”音频数据传输至服务器进行语音识别，服务器对该音频数据进行语音识别后将播放故事《秋天》的控制指令发送给电子设备，电子设备的业务处理模块在接收到播放故事《秋天》的控制指令后获取《秋天》的音频数据或者文本数据，业务处理模块根据《秋天》的音频数据/文本数据播放故事《秋天》需要说明的是：作为一种可能的设计，该播放《秋天》控制指令可以携带《秋天》的URL地址或《秋天》的音频数据在电子设备中的存储地址，其中，《秋天》的音频数据在电子设备中的存储地址可以是电子设备向服务器上报的。作为另一种可能的设计，该播放《秋天》控制指令也可以不携带《秋天》的URL地址或《秋天》的音频数据在电子设备中的存储地址。业务处理模块可以根据播放《秋天》的控制指令，在电子设备的内部存储器获取《秋天》的音频数据，或者，在外部资源中获取《秋天》的音频数据，外部资源包括：与电子设备保持无线连接的其他设备，或者与电子设备保持无线连接的云服务器或其它服务器。又例如，电子设备的语音识别模块将音频数据传输至服务器进行语音识别，服务器将降低播放音量的控制指令传输给电子设备，电子设备的业务处理模块根据该降低播放音量的控制指令降低播放音量。

再一种实现方式中，若当前音频数据中只有预设唤醒词，电子设备可以启动语音识别模块，使语音识别模块处于工作状态，以等待用户的下一个音频数据，在电子设备检测到下一个音频数据后，语音识别模块对该下一个音频数据进行语音识别或者将该下一个音频数据传输至服务器进行识别。

S405，电子设备确定该至少一个预设关键词的命中次数是否超过预设值。若否，执行步骤S406。若是，执行步骤S408。其中，该至少一个预设关键词的命中次数可以理解为：该至少一个预设关键词在预设时长内被检测到的次数。示例性的，预设时长可以为该电子设备开机以后的一段时间，例如，预设时长可以为电子设备开机后的一天，或者，预设时长也可以为电子设备开机后的一周，等等。

一种实现方式中，步骤S405可以由电子设备的误唤醒拦截模块执行。

S406，电子设备启动语音唤醒模块。执行步骤S407。

电子设备启动语音唤醒模块，语音唤醒模块处于工作状态，语音唤醒模块准备执行唤醒流程。

S407，语音唤醒模块确定是否进入唤醒状态。若是，执行步骤S404。若否，执行步骤S408。

一种实现方式中，语音唤醒模块可以通过判断检测的音频数据是否包括预设唤醒词来确定是否进入唤醒状态。若该音频数据包括预设唤醒词，则电子设备进入唤醒状态，若该音频数据不包括预设唤醒词，则电子设备保持非唤醒状态。

另一种实现方式中，语音唤醒模块可以通过判断检测到的音频数据是否包括预设唤醒词，以及对该音频数据进行声纹识别的结果确定是否进入唤醒状态。若该音频数据包括预设唤醒词且该音频数据与电子设备的机主的声纹一致，则电子设备进入唤醒状态。若该音频数据包括预设唤醒词但该音频数据与电子设备的机主的声纹不一致，或者，若该音频数据不包括预设唤醒词，则电子设备保持非唤醒状态。当然，语音唤醒模块也可以通过其他方式确定是否进入唤醒状态。

S408，电子设备保持非唤醒状态。

可选的，电子设备在处于非唤醒状态时，可以继续检测下一个音频数据。一种实现方式中，电子设备可以通过拾音模块检测下一个音频数据。

可选的，在电子设备检测到下一个音频数据之前，电子设备的误唤醒拦截模块、语音唤醒模块以及业务处理模块可以退出启动状态，或者退出工作状态，或者进入休眠状态。

本申请实施例中通过在唤醒电子设备之前对预设唤醒词的相似词进行拦截，可以在降低电子设备的误唤醒率。并且，通过结合预设关键词被检测到的次数确定是否唤醒电子设备，使得在降低电子设备的误唤醒率的同时可以极大程度上避免用户唤醒率的降低。

基于图3所示的电子设备，本申请实施例提供的一种处理语音的方法。参见图5，示例性的示出了本申请实施例提供的另一种处理语音的方法的流程，该方法可以由电子设备执行。

S501，电子设备检测到音频数据。执行S502。

其中，S501具体可以参阅上述S401的相关描述，这里不再重复赘述。

S502，电子设备启动语音唤醒模块。执行S503。

其中，S502具体可以参阅上述S406的相关描述，这里不再重复赘述。

S503，语音唤醒模块确定是否进入唤醒状态。若是，执行步骤S504。若否，执行步骤S508。

其中，S503具体可以参阅上述S407的相关描述，这里不再重复赘述。

S504，电子设备确定该音频数据是否包括至少一个预设关键词。若是，执行步骤S505；若否执行步骤S506。

其中，S504具体可以参阅上述S402的相关描述，这里不再重复赘述。

S505，电子设备确定该被至少一个预设关键词的命中次数是否超过预设值。若否，执行步骤S506。若是，执行步骤S507。其中，该至少一个预设关键词的命中次数可以理解为：该至少一个预设关键词在预设时长内被检测到的次数。示例性的，预设时长可以为该电子设备开机以后的一段时间，例如，预设时长可以为电子设备开机后的一天，或者，预设时长也可以为电子设备开机后的一周，等等。

其中，S505具体可以参阅上述S405的相关描述，这里不再重复赘述。

S506，电子设备将该音频数据作为响应语音指令的输入。

其中，S506具体可以参阅上述S404的相关描述，这里不再重复赘述。

S507，电子设备进入非唤醒状态。执行步骤S508。

S508，电子设备检测下一个音频数据。

一种实现方式中，电子设备可以通过拾音模块检测下一个音频数据。

本申请实施例中通过在唤醒电子设备之后对预设唤醒词的相似词进行拦截，可以在降低电子设备的误唤醒率。并且，通过结合预设关键词被检测到的次数确定是否进入非唤醒状态，使得在降低电子设备的误唤醒率的同时可以极大程度保证用户唤醒率的不下降。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种处理语音的方法，其特征在于，所述方法包括：

电子设备检测到音频数据；

所述电子设备确定所述音频数据是否包括至少一个预设关键词；

若确定所述音频数据包括所述至少一个预设关键词且所述电子设备处于唤醒状态，则所述电子设备将所述音频数据作为响应语音指令的输入；和/或，

若确定所述音频数据包括所述至少一个预设关键词且所述电子设备处于非唤醒状态，则所述电子设备不将所述音频数据作为响应唤醒指令的输入；和/或，

若确定所述音频数据不包括所述至少一个预设关键词时，且所述音频数据包括预设唤醒词，则所述电子设备进入唤醒状态；和/或，

若确定所述音频数据不包括所述至少一个预设关键词时，且所述音频数据不包括预设唤醒词，则所述电子设备保持非唤醒状态。

2.如权利要求1所述的方法，其特征在于，若确定所述音频数据包括至少一个所述预设关键词，且所述电子设备处于非唤醒状态，所述方法还包括：

若所述至少一个预设关键词在预设时长内被检测到的次数不大于预设值，且所述音频数据包括所述预设唤醒词，则所述电子设备进入唤醒状态。

3.如权利要求1或2所述的方法，其特征在于，若确定所述音频数据包括至少一个所述预设关键词，且所述电子设备处于非唤醒状态，所述方法还包括：

若所述至少一个预设关键词在所述预设时长内被检测到的次数大于所述预设值，则所述电子设备保持非唤醒状态。

4.如权利要求1至3任一项所述的方法，其特征在于，所述方法还包括：

所述电子设备检测下一个音频数据。

5.一种处理语音的方法，其特征在于，所述方法包括：

电子设备检测到音频数据；

所述电子设备在确定所述音频数据包括预设唤醒词时进入唤醒状态；

在确定所述音频数据包括所述至少一个预设关键词，且所述至少一个预设关键词在预设时长内被检测到的次数大于预设值时，所述电子设备进入非唤醒状态；和/或，

在确定所述音频数据包括所述至少一个预设关键词，且所述至少一个预设关键词在预设时长内被检测到的次数不大于所述预设值时，所述电子设备将所述音频数据作为响应语音指令的输入；和/或，

在确定所述音频数据不包括至少一个所述预设关键词时，所述电子设备将所述音频数据作为响应语音指令的输入。

6.如权利要求5所述的方法，其特征在于，在所述电子设备进入非唤醒状态之后，所述方法还包括：

所述电子设备检测下一个音频数据。

7.一种电子设备，其特征在于，包括：

一个或多个处理器；

显示屏；

存储器；

通信模块；

其中，所述存储器中存储有一个或多个计算机程序，所述一个或多个计算机程序包括指令，当所述指令被所述电子设备执行时，使得所述电子设备执行如权利要求1至4任一所述的方法或者权利要求5至6任一所述的方法。

8.一种装置，其特征在于，所述装置包括至少一个处理器和一个存储器，所述存储器与所述至少一个处理器耦合，所述至少一个处理器用于执行如权利要求1至4任一所述的方法或者权利要求5至6任一所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储指令，当该指令在所述电子设备上运行时，使得所述电子设备执行如权利要求1至4中任一项所述的方法或者权利要求5至6任一所述的方法。

10.一种计算机程序产品，其特征在于，当所述计算机程序产品在电子设备上运行时，使得所述电子设备执行如权利要求1至4任一所述的方法或者权利要求5至6任一所述的方法。