CN113488042B

CN113488042B - 一种语音控制方法及电子设备

Info

Publication number: CN113488042B
Application number: CN202110728832.5A
Authority: CN
Inventors: 王志超; 高欢
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2022-12-13
Anticipated expiration: 2041-06-29
Also published as: CN113488042A; WO2023273321A1

Abstract

一种语音控制方法及电子设备。实施本申请提供的技术方案，在一些特定应用场景中，电子设备不需要打开语音交互功能，也可以接收用户输入的非特定语音指令，并确定该非特定语音指令中的预设关键词，电子设备可以响应该非特定语音指令，执行该预设关键词对应的操作。

Description

一种语音控制方法及电子设备

技术领域

本申请涉及终端及人工智能领域，尤其涉及一种语音控制方法及电子设备。

背景技术

随着电子设备的发展，已经实现用户可以通过语音控制电子设备了。一种实现语音控制的典型代表就是语音交互。现阶段，越来越多的电子设备具有语音交互功能，配置有可以与用户进行语音交互的应用，例如语音助手。用户可以通过语音助手与电子设备进行语音交互，来实现以前需要多次手动操作才能实现的功能。例如，打电话、播放音乐等。浪费电子设备的功耗。

目前，电子设备要先检测到开启语音交互功能的输入，电子设备才能实现语音交互功能。该电子设备开启语音交互功能的过程较繁琐。如何简化用户通过语音控制电子设备的流程是当前研究的主要方向。

发明内容

本申请提供了一种语音控制方法及电子设备，在一些特定应用场景中，电子设备不需要打开语音交互功能，也可以接收用户输入的非特定语音指令，并响应该非特定语音指令。

第一方面，本申请提供了一种语音控制方法，该方法包括：电子设备确定当前处于第一应用场景；该电子设备检测到第一语音指令；该第一语音指令为不用于打开语音交互功能的非特定语音指令；该电子设备确定该第一语音指令中是否包括第一预设关键词；该第一预设关键词为该第一应用场景对应的全部预设关键词中的任一预设关键词；在确定该第一语音指令中包括第一预设关键词的情况下，该电子设备不打开语音交互功能，响应该第一语音指令，执行该第一预设关键词对应的操作；在确定该第一语音指令中不包括第一预设关键词的情况下，该电子设备不响应该第一语音指令。

实施第一方面的方法，电子设备不需要打开语音交互功能，也可以接收用户输入的非特定语音指令，并响应该非特定语音指令。通常，打开语音交互是需要消耗电子设备的功耗的，且语音交互状态下也需要消耗电子设备的功耗，采用该方法，可以不要大考语音交互，也能实现语音控制电子设备，这样可以节约电子设备的功耗。

结合第一方面，在一种实施方式中，电子设备确定当前处于第一应用场景之前，该方法还包括：该电子设备显示第一用户界面；该电子设备不打开语音交互功能，响应该第一语音指令，执行该第一预设关键词对应的操作，具体包括：该电子设备不打开语音交互功能，响应该第一语音指令，执行该第一预设关键词对应的操作，显示第二用户界面，该第二用户界面与该第一用户界面不同。

在上述实施例中，在一些特定应用场景下，电子设备可以根据语音指令更改电子设备的用户界面，使得电子设备可以为用户提供一些可视化服务。例如电子设备打开视频应用时，电子设备可以响应该第一语音指令，为用户提供视频播放的相关功能，不需要用户手动触摸电子设备的显示屏，即可实现对电子设备的控制。

结合第一方面，在一种实施方式中，根据权利要求1该的方法，其特征在于，该电子设备确定当前处于第一应用场景，具体包括：该电子设备前台运行第一应用程序，则该电子设备确定当前处于第一应用场景。

在上述实施例中，对于前台运行特定应用的情况，电子设备也可以确定当前处于特定应用场景，可以实现非特定语音指令语音控制电子设备。电子设备可以前台执行响应操作，实现语音控制电子设备。例如，在电子设备打开视频应用时，第一语音指令为：“播放下一集”，电子设备可以前台执行该操作，播放下一集。

结合第一方面，在一种实施方式中，该电子设备确定当前处于第一应用场景，具体包括：

该电子设备后台运行第一应用程序，则该电子设备确定当前处于第一应用场景。

在上述实施例中，对于后台运行特定应用的情况，电子设备也可以确定当前处于特定应用场景，可以实现非特定语音指令语音控制电子设备。电子设备可以后台执行响应操作，实现语音控制电子设备。例如，在电子设备打开音乐应用时，第一语音指令为：“播放声音大一点”，电子设备可以后台执行该操作，不涉及用户界面的改变，不影响用户使用前台正在运行的电子设备。

结合第一方面，在一种实施方式中，该电子设备确定该第一语音指令中是否包括第一预设关键词，具体包括：该电子设备加载该第一应用场景对应的全部预设关键词；该电子设备根据该第一语音指令与该第一应用场景对应的全部预设关键词，确定第一语音指令中是否包括第一语音数据，该第一语音数据中至少包括该第一预设关键词；在确定该第一语音指令中包括第一语音数据的情况下，该电子设备确定该第一语音指令中包括第一预设关键词；在确定该第一语音指令中不包括第一语音数据的情况下，该电子设备确定该第一语音指令中不包括第一预设关键词。

在上述实施例中，电子设备首先确定第一语音指令中是否包括第一语音数据，该过程涉及的算法不需要太复杂，只要可以确定出第一语音即可，电子设备可以利用数字信号处理器完成该过程，节约电子设备的计算资源。

结合第一方面，在一种实施方式中，该电子设备确定第一语音指令中包括第一语音数据之后，该方法还包括：该电子设备加载全部特定应用场景对应的全部预设关键词，该全部特定应用场景包括该第一应用场景，该全部预设关键词中包括第一预设关键词；该电子设备根据第一语音数据与该全部特定应用场景对应的全部预设关键词，确定第一语音数据中的一部分作为第二语音数据，该第二语音数据只包括第一预设关键词；响应该第一语音指令，执行该第一预设关键词对应的操作，具体包括：该电子设备根据该第二语音数据中的第一预设关键词生成该第一预设关键词对应的操作；响应该第一语音指令，执行该第一预设关键词对应的操作。

在上述实施例中，当电子设备通过比较简单的算法确定该第一语音指令中包括预设关键词之后，电子设备可以通过比较精确的算法，提取该第一语音指令中的预设关键词，并利用该第一语音指令中的预设关键词生成相应的操作，电子设备可以响应该操作，实现语音控制电子设备。

结合第一方面，在一种实施方式中，该电子设备确定第一语音指令中包括第一语音数据之后，该方法还包括：该电子设备加载全部特定应用场景对应的全部预设关键词，该全部特定应用场景包括该第一应用场景，该全部预设关键词中包括第一预设关键词；该电子设备根据第一语音数据与该全部特定应用场景对应的全部预设关键词，确定第一语音数据中的一部分作为第二语音数据，该第二语音数据只包括第一预设关键词；该电子设备确定该第二语音数据的声纹是否与预设声纹匹配，该预设声纹为该电子设备录入的用户的语音数据的声纹标识，用于标识用户的身份；响应该第一语音指令，执行该第一预设关键词对应的操作，具体包括：在确定该第二语音数据的声纹与预设声纹匹配的情况下，该电子设备根据该第二语音数据中的第一预设关键词生成该第一预设关键词对应的操作；响应该第一语音指令，执行该第一预设关键词对应的操作；在确定该第二语音数据的声纹与预设声纹不匹配的情况下，不响应该第一语音指令。

在上述实施例中，电子设备在识别出第一语音指令中的预设关键词之后，还需要再判断一下该第一语音指令是否为电子设备的“拥有者”输入的。通常，电子设备的“拥有者”会通过电子设备输入自己的生物信息，例如声纹，则电子设备根据第一语音指令的声纹以及“拥有者”通过电子设备输入的声纹进行匹配即可确定该一语音指令是否为电子设备的“拥有者”输入的。若是才可以响应该第一语音指令，这样可避免任何人都可以语音控制电子设备，增加了实施该方法的安全性。

结合第一方面，在一种实施方式中，该特定应用场景是预先设置好，存储在电子设备中的，该特定应用场景至少包括一个应用运行时的场景，该第一应用场景为任一该特定应用场景。

结合第一方面，在一种实施方式中，该该特定应用场景对应的全部预设关键词是预先设置好，存储在电子设备中的，所述特定应用场景对应的全部预设关键词中任一预设关键词都对应一个与该预设关键词同意义的操作。

第二方面，本申请提供了一种电子设备，该电子设备包括：一个或多个处理器和存储器；该存储器与该一个或多个处理器耦合，该存储器用于存储计算机程序代码，该计算机程序代码包括计算机指令，该一个或多个处理器调用该计算机指令以使得该电子设备执行：确定当前处于第一应用场景；检测到第一语音指令；该第一语音指令为不用于打开语音交互功能的非特定语音指令；确定该第一语音指令中是否包括第一预设关键词；该第一预设关键词为该第一应用场景对应的全部预设关键词中的任一预设关键词；在确定该第一语音指令中包括第一预设关键词的情况下，不打开语音交互功能，响应该第一语音指令，执行该第一预设关键词对应的操作；在确定该第一语音指令中不包括第一预设关键词的情况下，不响应该第一语音指令。

上述实施例中，电子设备不需要打开语音交互功能，也可以接收用户输入的非特定语音指令，并响应该非特定语音指令。通常，打开语音交互是需要消耗电子设备的功耗的，且语音交互状态下也需要消耗电子设备的功耗，采用该方法，可以不要大考语音交互，也能实现语音控制电子设备，这样可以节约电子设备的功耗。

结合第二方面，在一种实施方式中，该一个或多个处理器还用于调用该计算机指令以使得该电子设备执行：显示第一用户界面；该一个或多个处理器具体用于调用该计算机指令以使得该电子设备执行：不打开语音交互功能，响应该第一语音指令，执行该第一预设关键词对应的操作，显示第二用户界面，该第二用户界面与该第一用户界面不同。

结合第二方面，在一种实施方式中，该一个或多个处理器具体用于调用该计算机指令以使得该电子设备执行：前台运行第一应用程序，则确定当前处于第一应用场景。

结合第二方面，在一种实施方式中，该一个或多个处理器具体用于调用该计算机指令以使得该电子设备执行：后台运行第一应用程序，则确定当前处于第一应用场景。

结合第二方面，在一种实施方式中，该一个或多个处理器具体用于调用该计算机指令以使得该电子设备执行：加载该第一应用场景对应的全部预设关键词；根据该第一语音指令与该第一应用场景对应的全部预设关键词，确定第一语音指令中是否包括第一语音数据，该第一语音数据中至少包括该第一预设关键词；在确定该第一语音指令中包括第一语音数据的情况下，确定该第一语音指令中包括第一预设关键词；在确定该第一语音指令中不包括第一语音数据的情况下，确定该第一语音指令中不包括第一预设关键词。

结合第二方面，在一种实施方式中，该一个或多个处理器还用于调用该计算机指令以使得该电子设备执行：加载全部特定应用场景对应的全部预设关键词，该全部特定应用场景包括该第一应用场景，该全部预设关键词中包括第一预设关键词；根据第一语音数据与该全部特定应用场景对应的全部预设关键词，确定第一语音数据中的一部分作为第二语音数据，该第二语音数据只包括第一预设关键词；该一个或多个处理器具体用于调用该计算机指令以使得该电子设备执行：根据该第二语音数据中的第一预设关键词生成该第一预设关键词对应的操作；响应该第一语音指令，执行该第一预设关键词对应的操作。

结合第二方面，在一种实施方式中，该一个或多个处理器还用于调用该计算机指令以使得该电子设备执行：加载全部特定应用场景对应的全部预设关键词，该全部特定应用场景包括该第一应用场景，该全部预设关键词中包括第一预设关键词；根据第一语音数据与该全部特定应用场景对应的全部预设关键词，确定第一语音数据中的一部分作为第二语音数据，该第二语音数据只包括第一预设关键词；确定该第二语音数据的声纹是否与预设声纹匹配，该预设声纹为该电子设备录入的用户的语音数据的声纹标识，用于标识用户的身份；该一个或多个处理器具体用于调用该计算机指令以使得该电子设备执行：在确定该第二语音数据的声纹与预设声纹匹配的情况下，根据该第二语音数据中的第一预设关键词生成该第一预设关键词对应的操作；响应该第一语音指令，执行该第一预设关键词对应的操作；在确定该第二语音数据的声纹与预设声纹不匹配的情况下，不响应该第一语音指令。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括一个或多个处理器和一个或多个存储器；其中，该一个或多个存储器与该一个或多个处理器耦合，该一个或多个存储器用于存储计算机程序代码，该计算机程序代码包括计算机指令，当该一个或多个处理器执行该计算机指令时，该一个或多个处理器用于调用该计算机指令以使得该电子设备执行如第一方面或第一方面的任意一种实施方式所描述的方法。

第四方面，本申请实施例提供了一种芯片系统，该芯片系统包括一个或多个处理器，该处理器用于调用计算机指令以使得该电子设备执行如第一方面或第一方面的任意一种实施方式所描述的方法。

第五方面，本申请实施例提供了一种包含指令的计算机程序产品，当该计算机程序产品在电子设备上运行时，使得该电子设备执行如第一方面或第一方面的任意一种实施方式所描述的方法。

第六方面，本申请实施例提供了一种计算机可读存储介质，当该指令在电子设备上运行时，使得该电子设备执行如第一方面或第一方面的任意一种实施方式所描述的方法。

附图说明

图1a-图1d是一种方案中用户通过语音控制电子设备的一组用户界面；

图2a-图2d为本申请提的用户通过语音控制电子设备的一组示例性用户界面；

图3是本申请实施例提供的电子设备的结构示意图；

图4是本申请实施例提供的电子设备的软件结构框图；

图5为本申请中涉及的语音控制方法的一个示例性信息流示意图；

图6为本申请实施例提供的语音控制方法的一个示意性流程图；

图7为本申请实施例中确定第一语音数据的一个示意图。

具体实施方式

本申请以下实施例中所使用的术语只是为了描述特定实施例的目的，而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样，单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括复数表达形式，除非其上下文中明确地有相反指示。还应当理解，本申请中使用的术语“和/或”是指并包含一个或多个所列出项目的任何或所有可能组合。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为暗示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征，在本申请实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

本申请以下实施例中的术语“用户界面(user interface，UI)”，是应用程序或操作系统与用户之间进行交互和信息交换的介质接口，它实现信息的内部形式与用户可以接受形式之间的转换。用户界面是通过java、可扩展标记语言(extensible markuplanguage，XML)等特定计算机语言编写的源代码，界面源代码在电子设备上经过解析，渲染，最终呈现为用户可以识别的内容。用户界面常用的表现形式是图形用户界面(graphicuser interface，GUI)，是指采用图形方式显示的与计算机操作相关的用户界面。它可以是在电子设备的显示屏中显示的文本、图标、按钮、菜单、选项卡、文本框、对话框、状态栏、导航栏、Widget等可视的界面元素。

下面首先介绍本申请中涉及的相关术语。

(1)预设关键词

本申请实施中，预设关键词是预先设置好，存储在电子设备中的。任一预设关键词都对应一个与该预设关键词同意义的操作。例如，在特定应用场景为音乐场景时，当预设关键词为“暂停”时。则表示该预设关键词对应的操作为暂停音乐播放。当电子设备确定语音指令中包括某一预设关键词时则可以实现对电子设备的语音控制。

其中，特定应用场景是预先设置的，电子设备运行某一应用程序，则对应一个应用场景。特定应用场景则是可以对电子设备进行语音控制的应用场景，可以设定电子设备运行(包括后台运行与前台运行)第一应用程序时，电子设备则进入该第一应用程序对应的特定应用场景，例如，该第一应用程序可以为音乐类应用程序、视频类应用程序、导航类应用程序以及通话类应用程序等。

电子设备运行音乐类应用程序时为音乐场景，音乐场景中对应的预设关键词可以包括：“播放下一首”、“播放上一首”、“声音大一点”、“声音小一点”、“暂停”等常用的关键词。

电子设备运行视频类应用程序时为音乐场景，视频场景中对应的预设关键词可以包括：“播放下一首”、“播放上一首”、“声音大一点”、“声音小一点”、“暂停”等常用的关键词。

电子设备运行导航类应用程序时为音乐场景，导航场景中对应的预设关键词可以包括：“导航回家”、“导航上班”、“声音大一点”、“声音小一点”等常用的关键词。

电子设备运行通话类应用程序时为音乐场景，通话场景中对应的预设关键词可以包括：“声音大一点”、“声音小一点”等常用的关键词。

可以理解的是，本申请中还可以包括其他的特定应用场景，每个特定应用场景中可以包括比上述更多或者更少的预设关键词。

下面介绍一种方案中涉及的语音控制方法，在该方案中，电子设备要先检测到用户打开语音交互功能的输入才能打开语音交互功能，使得用户可以通过语音控制电子设备。其中，打开语音交互功能的输入可以是预设的特定语音指令，例如“YOYO，YOYO”，也可以是长按电源键等。

在一些实施例中，该特定语音指令也可以被称为唤醒词或者唤醒指令。

图1a-图1d示出了该方案中用户通过语音控制电子设备的一组用户界面。

如图1a所示，电子设备可以显示用户界面11，该用户界面11可以为电子设备的一个音乐播放界面，电子设备当前播放的是“第一音乐”。此时，电子设备可以检测到用户打开语音交互功能的特定语音指令：“YOYO，YOYO”。响应于该特定语音指令，电子设备可以显示如图1b所示的用户界面12。

如图1b所示，用户界面12中可以包括语音提示框121，该语音提示框121中可以显示提示信息121A：“你说，我在听…”以及语音采集标识121B，该提示信息121A以及语音采集标识121B可以用于提示用户：当前电子设备可以接收语音指令，用户可以语音控制电子设备了。

如图1c所示，用户界面13可以为电子设备播放音乐时检测到用户输入的第一语音指令时的一个用户界面，该第一语音指令为非特定语音指令，非特定语音指令是指不同于特定语音指令的其他语音指令。此时，电子设备可以将检测到的第一语音指令显示到用户界面13所示的语音提示框131中。例如，用户输入的第一语音指令可以为：“播放下一首”。响应于该第一语音指令，电子设备可以执行播放下一首音乐，显示如图1d所示的用户界面14。

如图1d所示的用户界面14中，电子设备播放的音乐，已经从“第一音乐”切换到了“第二音乐”。

在该方案中，电子设备一直打开语音交互功能检测用户的语音指令会浪费电子设备的功耗，所以电子设备通常会设置在响应完一次非特定语音指令之后，就关闭语音交互功能。则下一次用户需要与电子设备进行语音交互时，有需要重新检测到特定语音指令，才能重新打开语音交互功能，使得用户可以再次语音控制电子设备。

如图1d所示，此时电子设备在响应了第一语音指令之后，就会关闭语音交互功能，则当用户输入第二语音指令：“播放上一首”时，电子设备不会响应该第二语音指令，仍然显示用户界面14。该第二语音指令为非特定语音指令。

这样，为了节约电子设备的功耗同时满足用户可以语音控制电子设备的需求，则需要用户在每一次输入非特定语音指令之前，都要打开语音交互功能，才能使得用户可以语音控制电子设备。例如，在输入第一定语音指令之前，先输入特定语音指令，才能使得电子设备响应该第一语音指令，使得用户可以语音控制电子设备。

为了解决上述方案中的缺陷，本申请实施例提供了一种语音控制方法，实施本申请实施例中的语音控制方法，在一些特定应用场景中，电子设备不需要打开语音交互功能，也可以接收用户输入的非特定语音指令，并响应该非特定语音指令。

在本申请实施例中，电子设备运行音乐类应用程序的应用场景为音乐场景，运行视频类应用程序的应用场景为视频场景，运行导航类应用程序的应用场景为导航场景，运行通话类应用程序的应用场景为通话场景。

非特定指令是指不同于特定语音指令的其他语音指令，不用于打开电子设备的语音交互功能。

电子设备可以针对不同的特定应用场景分别设置一些预设关键词，当电子设备检测到用户输入的语音指令中包括该预设关键词时，则电子设备可以响应该语音指令，执行第一操作。

如图2a-图2d为本申请提的用户通过语音控制电子设备的一组示例性用户界面。

假设此时，预先设置的特定应用场景中包括电子设备运行音乐类应用程序的应用场景。预设关键词可以包括：“播放上一首”、“播放下一首”。

如图2a所示，用户界面21可以为电子设备在进行音乐播放时，检测到用户输入第一语音指令时的一个用户界面，电子设备播放的是“第一音乐”。此时，电子设备可以将检测到的第一语音指令显示到用户界面21所示的语音提示框211中，该第一语音指令是非特定语音指令。例如，用户输入的第一语音指令可以为：“播放下一首”。由于该第一语音指令中包括预设关键词，则电子设备可以响应该第一语音指令，执行播放下一首音乐的操作，显示如图2b所示的用户界面22。

如图2b所示，用户界面22中，电子设备已经将当前播放的音乐，从“第一音乐”切换到了“第二音乐”。

在本申请提供的语音控制方法中，如果用户连续输入的任一语音指令中都包括预设关键词，则电子设备可以连续响应用户输入的任一语音指令。

如图2c所示，用户界面23可以为电子设备在进行音乐播放时，检测到用户输入第二语音指令时的一个用户界面，电子设备播放的是“第二音乐”。在电子设备响应了用户输入第一语音指令之后，用户又输入了第二语音指令，该第二语音指令是非特定语音指令。电子设备可以检测到该第二语音指令，并将其显示到用户界面23所示的语音提示框231中。例如，该第二语音指令可以为：“播放上一首”。由于该第二语音指令中包括预设关键词，则电子设备可以响应该第二语音指令，执行播放上一首音乐的操作，显示如图2d所示的用户界面24。

如图2d所示，用户界面24中，电子设备已经将当前播放的音乐，从“第二音乐”再一次切换到了“第一音乐”。

这样，电子设备既可以节约功耗，也可以满足用户语音控制电子设备的需求。用户不需要在每一次输入非特定语音指令之前，都输入特定语音指令打开语音交互功能，就可以实现语音控制电子设备。

下面首先介绍本申请实施例提供的示例性电子设备。

图3是本申请实施例提供的电子设备的结构示意图。

下面以电子设备为例对实施例进行具体说明。应该理解的是，电子设备可以具有比图中所示的更多的或者更少的部件，可以组合两个或多个的部件，或者可以具有不同的部件配置。图中所示出的各种部件可以在包括一个或多个信号处理和/或专用集成电路在内的硬件、软件、或硬件和软件的组合中实现。

电子设备可以包括：处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本发明实施例示意的结构并不构成对电子设备的具体限定。在本申请另一些实施例中，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

其中，控制器可以是电子设备的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

可以理解的是，本发明实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备的结构限定。在本申请另一些实施例中，电子设备也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，外部存储器，显示屏194，摄像头193，和无线通信模块160等供电。

电子设备的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。电子设备中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在电子设备上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A，受话器170B等)输出声音信号，或通过显示屏194显示图像或视频。

无线通信模块160可以提供应用在电子设备上的包括无线局域网(wirelesslocal area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，电子设备的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得电子设备可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(code divisionmultiple access，CDMA)等。

电子设备通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode，AMOLED)等。

电子设备可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当电子设备在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。电子设备可以支持一种或多种视频编解码器。这样，电子设备可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，从而执行电子设备的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。

电子设备可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。电子设备可以通过扬声器170A收听音乐，或收听免提通话。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当电子设备接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。

耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

压力传感器180A用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多，如电阻式压力传感器，电感式压力传感器，电容式压力传感器等。

陀螺仪传感器180B可以用于确定电子设备的运动姿态。在一些实施例中，可以通过陀螺仪传感器180B确定电子设备围绕三个轴(即，x，y和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。

气压传感器180C用于测量气压。在一些实施例中，电子设备通过气压传感器180C测得的气压值计算海拔高度，辅助定位和导航。

磁传感器180D包括霍尔传感器。电子设备可以利用磁传感器180D检测翻盖皮套的开合。

加速度传感器180E可检测电子设备在各个方向上(一般为三轴)加速度的大小。

距离传感器180F，用于测量距离。电子设备可以通过红外或激光测量距离。在一些实施例中，拍摄场景，电子设备可以利用距离传感器180F测距以实现快速对焦。

接近光传感器180G可以包括例如发光二极管(LED)和光检测器，

环境光传感器180L用于感知环境光亮度。电子设备可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合，检测电子设备是否在口袋里，以防误触。

指纹传感器180H用于采集指纹。电子设备可以利用采集的指纹特性实现指纹解锁，访问应用锁，指纹拍照，指纹接听来电等。

温度传感器180J用于检测温度。在一些实施例中，电子设备利用温度传感器180J检测的温度，执行温度处理策略。

触摸传感器180K，也称“触控面板”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备可以接收按键输入，产生与电子设备的用户设置以及功能控制有关的键信号输入。

马达191可以产生振动提示。马达191可以用于来电振动提示，也可以用于触摸振动反馈。

指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。

SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195，或从SIM卡接口195拔出，实现和电子设备的接触和分离。

图4是本申请实施例提供的电子设备的软件结构框图。

分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将系统分为五层，从上至下分别为应用程序层，应用程序框架层，硬件抽象层(hardware abstraction layer，HAL)，数字信号处理层以及内核层。

应用程序层可以包括一系列应用程序包。

如图4所示，应用程序包可以包括短信息，图库，相机，日历，蓝牙，地图等应用程序(也可以称为应用)。

本申请实施例中，应用程序包还可以包括语音助手，音乐，视频，导航，通话等应用程序。

其中，语音助手为第一系统应用，可以为电子设备提供管理语音控制的功能。

语音助手可以包括应用场景消息下发模块、命令词处理模块。

其中，应用场景消息下发模块用于监测电子设备当前处于何种场景，并确定该应用场景对应的应用程序的标识。当检测到电子设备处于预设的某一特定应用场景时，则将本机处于该特定应用场景的消息下发到下述的动态加载模块，同时将该场景对应的应用程序的标识下发到命令词处理模块。

本申请实施例中涉及的特定应用场景至少可以包括音乐场景、视频场景、导航场景、通话场景，还可以包括其他的应用场景，本申请实施例对此不作限定。

如何监测电子设备当前处于何种场景将在下文详细描述，此处暂不赘述。

命令词处理模块用于根据预设关键词生成该预设关键词对应的指令。然后根据从上述应用场景消息下发模块中接收的应用程序的标识，将该指令下发到该标识对应的应用程序中。

应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。

如图4所示，应用程序框架层可以包括窗口管理器，内容提供器，视图系统，电话管理器，资源管理器，通知管理器等。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。

电话管理器用于提供电子设备的通信功能。例如通话状态的管理(包括接通，挂断等)。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话界面形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，电子设备振动，指示灯闪烁等。

视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

硬件抽象层是位于操作系统与电子设备的硬件(例如麦克风170C)之间的接口层，其目的在于将硬件抽象化，为操作系统提供虚拟硬件平台。

本申请实施例中，硬件抽象层至少可以包括声纹识别模块以及二级命令词模块。

其中，二级命令词识别模块用于接收语音数据，并识别出该语音数据中只包括预设关键词的那部分语音数据，然后将该只包括预设关键的那部分语音数据下发到下述声纹识别模块。

该二级命令词识别模块还用于记录下述特定应用场景中对应的全部预设关键词。

关于预设关键词的详细描述可以参考下文，该处暂不赘述。

声纹识别模块用于记录预设声纹，该预设声纹为电子设备录入的用户的语音数据的声纹标识，用于标识用户的身份。

该声纹识别模块还用于对只包括预设关键词的那部分语音数据进行声纹识别，以得到该语音数据的声纹，判断该声纹是否与预设声纹匹配。

数字信号处理层用于处理数字信号。

本申请实施例中，数字信号处理层至少可以包括特定应用场景模块、动态加载模块以及一级命令词识别模块。

其中，特定应用场景模块用于记录特定应用场景对应的预设关键词组，可以包括音乐场景模块、视频场景模块、导航场景模块以及通话场景模块。该特定应用场景涉及的对应关键词组为该特定应用场景对应的预设关键词的集合。

其中，音乐场景模块用于记录音乐场景中对应的预设关键词组。

视频场景模块用于记录视频场景中对应的预设关键词组。

导航场景模块用于记录导航场景中对应的预设关键词组。

通话场景模块用于记录通话场景中对应的预设关键词组。

动态加载模块用于接收在电子设备处于何种特定应用场景的消息之后，从特定应用场景模块中加载该特定应用场景涉及的预设关键词。并将该特定应用场景涉及的预设关键词下发给一级命令词识别模块。

一级命令词识别模块用于接收内核层发送的语音指令。还可以获取特定应用场景模块中记录的特定应用场景涉及的预设关键词，结合预设关键词识别出该语音指令中包括预设关键词的那部分语音数据，然后将该部分语音数据下发到上述二级命令词识别模块。

内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动。

其中，音频驱动用于接收麦克风170C采集的语音指令，将该语音指令下发到一级命令词识别模块。

示意性的，结合图4所示的电子设备的软件结构框图。

图5为本申请中涉及的语音控制方法的一个示例性信息流示意图。

可以理解的是，图5中示出的仅仅为电子设备中的部分软件模块，不应对电子设备的软件构架构成限定。

图5示出的示例性信息流示意图描述了电子设备在音乐场景下，检测到用户的第一语音指令之后，电子设备识别出该第一语音指令中的第一预设关键词并响应该第一语音指令，执行该第一预设关键词对应的操作。该第一预设关键词不为打开语音交互功能的特定关键词；

具体的，当电子设备开启了音乐类应用程序时，电子设备的第一系统应用151中的应用场景消息下发模块151A可以监测到电子设备当前处于音乐场景，并确定该音乐类应用152(音乐类应用程序)的标识。然后将电子设备当前处于音乐场景的消息下发到动态加载模块155，并将该音乐类应用程序的标识下发到命令词处理模块151B中。动态加载模块155从音乐场景模块157A中加载该音乐场景下涉及的全部预设关键词。然后，动态加载模块155可以将该音乐场景下涉及的全部预设关键词下发到一级命令词识别模块156中。电子设备的麦克风170C可以采集语音指令，并将该语音指令传输给电子设备的音频驱动158。电子设备的音频驱动158可以将该语音指令下发到电子设备的一级命令词识别模块156中。

电子设备的一级命令词识别模块156可以根据该音乐场景下涉及的全部预设关键词，判断该语音指令中是否包括第一语音数据，该第一语音数据中至少包括第一预设关键词。该第一预设关键词为该音乐场景下涉及的全部预设关键词中的某一个预设关键词。如果包括第一语音数据，则将该第一语音数据下发到第二级命令词识别模块153中。如果不包括第一语音数据，则不会向第二级命令词识别模块153下发任何消息。

第二级命令词识别模块根据该第一语音数据以及应用场景中涉及的全部预设关键词。识别该第一语音数据中的第二语音数据，该第二语音数据中只包括第一预设关键词，并将该第二语音数据下发给声纹识别模块154。

声纹识别模块154用于对第二语音数据进行声纹识别。如果该第二语音数据的声纹与预设声纹匹配，则将该第二语音数据传输到命令词处理模块151B中。如果该第二语音数据的声纹与预设声纹不匹配，则不会向命令词处理模块151B下发任何消息。

命令词处理模块151B用于将第二语音数据中的第一预设关键词生成该预设关键词对应的指令，然后根据从上述应用场景消息下发模块中接收的音乐类应用程序的标识，将该指令下发到该标识对应的音乐类应用程序中。

该音乐类应用程序在接收到该第一预设关键词对应的指令之后，可以执行相应的操作，来响应该指令。例如，如果该语音指令中包括的第一预设关键词为“播放下一首”，则电子设备的音乐类应用程序执行播放下一首音乐。

可以理解的是，上述涉及的各个模块可以为一组代码、一组函数、包括一个或多个信号处理和/或专用集成电路在内的硬件，也可以是其中的一个或者多个的组合。本申请实施例对此不作限定。

在一些实施例中，电子设备的DSP可以处理数字信号并且其功耗低，则电子设备可以将该动态加载模块155、一级命令词识别模块156以及特定应用场景模块157存储在电子设备的DSP中内置的存储器中，由DSP调用这些功能模块对应的指令实现这些模块的功能。这样可以使得这些功能模块在运行的过程中不会浪费电子设备的功耗，其他的功能模块，例如二级命令词识别模块可以存储到电子设备的内部存储器121中，由处理器110调用这些功能模块对应的指令实现这些模块的功能。

下面结合上述示例性电子设备的软硬件结构，对本申请实施例中的方法进行具体描述：

在本申请实施例中，电子设备针对不同的特定应用场景分别设置了一些预设关键词。当电子设备检测到用户输入的语音指令中包括该预设关键词时，则电子设备可以响应该语音指令，执行第一操作。该第一操作为第一语音指令对应的操作。该过程涉及的详细解释可以参考下述对图6的介绍。

图6为本申请实施例提供的语音控制方法的一个示意性流程图。

S101.电子设备确定当前处于第一应用场景；

第一应用场景为特定应用场景。电子设备在该第一应用场景下可以不打开语音交互功能，也可以实现语音控制电子设备。例如，该第一应用场景可以是音乐场景。

例如，如图2a所示，为电子设备的一个音乐播放界面，由于电子设备打开了音乐类应用程序，则电子设备可以确定当前处于音乐场景。

在一种可能的实现方式中，电子设备可以设置开始运行第一应用程序，则进入了第一应用场景。该第一应用程序可以为音乐类应用程序，也可以为其他的应用程序，例如视频类应用程序、导航类应用程序等，本申请实施例对此不作限定。

具体的，当电子设备开启一个应用程序时，可以获取该应用程序对应的标识，该标识用于唯一表示一个应用程序。

电子设备可以记录第一应用程序的第一标识，当电子设备开启一个应用程序时，则获取该应用程序对应的第二标识，电子设备检查该第二标识与第一标识是否相同，如果相同则认为当前电子设备开始运行第一应用程序，确定电子设备当前处于第一应用场景。

在另一种可能的实现方式中，电子设备可以监测本机的数据输出，根据电子设备输出的是何种数据，判断本机的是否进入了第一应用场景。

其中，数据输出是指电子设备传输给用户的数据，例如，视频数据、音频数据等。

电子设备可以预先设置输出的数据为何种数据时本机处于何种应用场景。例如，电子设备可以设置本机输出的数据为音频数据时，电子设备处于音乐场景，电子设备输出的是视频数据时，电子设备为视频场景等。

应该理解的是，还可以有其他的方式可以确定电子设备当前处于第一应用场景，本申请实施例对此不作限定。

该步骤S101可以由前述图5中的应用场景消息下发模块151A以及动态加载模块155完成。具体的，该应用场景消息下发模块151A可以确定电子设备确定当前处于第一应用场景并将该消息下发到动态加载模块155中。详细过程可以参考前述对图5中相关部分的描述，此处不再赘述。

S102.电子设备加载该第一应用场景对应的第一预设关键词组，该第一预设关键词组至少包括第一预设关键词；

该第一预设关键词组为第一应用场景涉及的预设关键词的集合，其中，该第一预设关键词组中的任一预设关键词可以被称为第一预设关键词。电子设备处于第一应用场景时，用户可以输入包括该第一预设关键词的语音指令对电子设备进行语音控制。

例如，当电子设备处于音乐场景时，该第一预设关键词可以是“播放下一首”。

该步骤S102可以由前述图5中的动态加载模块155以及特定应用场景模块157完成。具体的，该动态加载模块155可以从特定应用场景模块157中加载该第一应用场景对应的第一预设关键词组。并将其下发到一级命令词识别模块156中。详细过程可以参考前述对图5中相关部分的描述，此处不再赘述。

S103.电子设备检测到第一语音指令；

例如，图2a所示电子设备中，用户输入第一语音指令，该第一语音指令为“播放下一首”，电子设备可以检测到该第一语音指令。图2c所示电子设备中，用户输入第一语音指令，该第一语音指令为“播放上一首”，电子设备可以检测到该第一语音指令。

具体的，电子设备可以在按照一定的频率检测电子设备周围的语音信息，电子设备的麦克风可以采集电子设备周围的语音数据，其中包括第一语音指令。

第一语音指令中既可以只包括第一预设关键词，也可以包括其他的语音数据。其中，第一语音数据中还包括其他语音数据以外的情况可以分为以下三种：

情况1：在一些实施例中，电子设备检测到的第一语音指令可以是一句话，该第一语音指令中除第一预设关键词外，还可以包括其他的语音数据。例如，第一语音指令可以是：“XXX，播放下一首XXXX”，则在该第一语音指令中，“播放下一首”为第一预设关键词，但其他的语音数据不是预设关键词。

情况2：在一些实施例中，该第一语音指令中除第一预设关键词外，还可以包括其他一个或多个预设关键词，例如第二预设关键词以及其他的语音数据。该第二预设关键词为第一应用场景对应的预设关键词，出现在第一预设关键词之后，可以与第一预设关键词相同，也可以不相同。例如，第一语音指令可以是：“XXX播放下一首暂停XXXX”，则在该第一语音指令中，第一预设关键词可以为“播放下一首”，第二预设关键词可以为“播放”，但其他的语音数据不是预设关键词。

情况3：在另一些实施例中，该第一语音指令中不包括任何预设关键词。

该步骤S103可以由前述图5中的音频驱动158完成。具体的，该音频驱动158可以检测到第一语音指令，并将其下发到一级命令词识别模块156中。详细过程可以参考前述对图5中相关部分的描述，此处不再赘述。

S104.电子设备根据第一语音指令与第一预设关键词组，确定第一语音指令中是否包括第一语音数据，该第一语音数据中至少包括第一预设关键词；

第一语音数据为第一语音指令中的一部分，其中，至少包括第一预设关键词。

第一语音指令的长度为t秒。电子设备从该第一语音指令的第0秒开始，依次获取长度为m秒的语音数据，其中，m小于t。该长度为m秒的语音数据对应一个字符。最近获取的连续N个长度为m秒的语音数据中，如果包括第一预设关键词，则电子设备不再获取下一个长度为m秒的语音数据，直接将该最近获取的连续N个长度为m秒的语音数据确定为第一语音数据。

在一些实施例中，电子设备可以设置该第一语音数据的长度为X秒，并设置N*m＝X。X一般可以设置为1.5-2.5，例如2。在一种特殊情况下，如果电子设备已经确定了第一语音指令中，前0秒-M秒的语音数据中包括第一预设关键词，其中M小于X。则电子设备可以将该M个长度为m秒的语音数据确定为第一语音数据。

在一些实施例中，两个连续的长度为m秒的语音数据没有交叠部分。

在另一些实施中，两个连续的长度为m秒的语音数据之间有n秒交叠部分，n小于m，即前一个长度为m秒的语音数据中最后n秒的语音数据为后一个长度为m秒的语音数据开始n秒的语音数据。

在一些实施例中，电子设备确定连续N个长度为m秒的语音数据中包括第一预设关键词的过程为：首先，电子设备从第一语音指令中获取第i个长度为m秒的语音数据。其中。第一个长度为m秒的语音数据为第一语音指令中长度为0秒-m秒的语音数据。并获取第一预设关键词中的第j(j为大于等于1的正整数)个字符。其中，第一预设关键词中的第一个字符对应的j为1。然后，电子设备判断第i个长度为m秒的语音数据对应的字符与第一预设关键词中的第j个字符是否相同。

如果第i个长度为m秒的语音数据对应的字符与第一预设关键词中的第j个字符不相同且j不等于1，则电子设备将j置为1，即获取第一预设关键词中的第一个字符，然后，电子设备判断第i个长度为m秒的语音数据对应的字符与第一预设关键词中的第一个字符是否相同；如果第i个长度为m秒的语音数据对应的字符与第一预设关键词中的第j个字符不相同且j等于1，则电子设备继续获取第i+1个长度为m秒的语音数据，然后，电子设备判断第i+1个长度为m秒的语音数据对应的字符与第一预设关键词中的第一个字符是否相同。

如果第i个长度为m秒的语音数据对应的字符与第一预设关键词中的第j个字符相同，则电子设备继续获取第i+1个长度为m秒的语音数据，以及获取第一预设关键词中的第j+1个字符，然后，电子设备判断第i+1个长度为m秒的语音数据对应的字符与第一预设关键词中的第j+1个字符是否相同。

依次类推，直到电子设备根据第一语音指令与第一预设关键词组，确定出第一语音数据。

如图7所示，为确定第一语音数据的一个示意图。

电子设备设置第一语音数据为连续六个长度为m秒的语音数据。

首先电子设备获取第一个长度为m秒的语音数据对应的字符“X”，并获取第一预设关键词中的第一个字符“声”，此时i＝1，j＝1。然后，电子设备判断字符“X”与字符“声”不相同。

由于j＝1，则电子设备继续获取第二(i+1)个长度为m秒的语音数据对应的字符“播”，此时i＝2，j＝1。然后，电子设备判断字符“播”与字符“声”不相同。

由于j＝1，则电子设备继续获取第三(i+1)个长度为m秒的语音数据对应的字符“放”，此时i＝3，j＝1。然后，电子设备判断字符“放”与字符“声”不相同。

由于j＝1，则电子设备继续获取第四(i+1)个长度为m秒的语音数据对应的字符“声”，此时i＝3，j＝1。然后，电子设备判断字符“声”与字符“声”相同。

电子设备继续获取第五(i+1)个长度为m秒的语音数据对应的字符“音”，并获取第一预设关键词中的第二(j+1)个字符“声”，此时i＝5，j＝2。然后，电子设备判断字符“声”与字符“声”相同。

依次类推，电子设备获取第八个长度为m秒的语音数据对应的字符“点”，并获取第一预设关键词中的第五个字符“点”，此时i＝8，j＝5。然后，电子设备判断字符“点”与字符“点”相同。

则电子设备确定最近获取的六个长度为m秒的语音数据“放声音大一点”为第一数据。

在一些实施例中，则电子设备根据该步骤S104所述的方法识别出第一语音数据之后，还可以继续判断第一语音指令中没有被判断过的语音数据中是否还包含另外的第一语音数据。

如果第一语音指令为步骤S103中的情况1和情况2所述，则对于第一语音指令中的任一第一语音数据，电子设备都可以利用其执行下述步骤S105-步骤S108。

如果第一语音指令为步骤S103中的情3所述，不包含任何第一预设关键词，则电子设备执行步骤S108。

在该步骤S104可以由前述图5中的一级命令词识别模块156完成。具体的，该一级命令词识别模块156可以根据音频驱动158检测到的第一语音指令与动态加载模块155下发的第一预设关键词组，确定第一语音数据。并将其下发到二级命令词识别模块153中。详细过程可以参考前述对图5中相关部分的描述，此处不再赘述。为了节约手机功耗，一级命令词识别模块156中确定第一语音数据涉及的算法简单，该过程由DSP调用这些功能模块完成。

S105.电子设备根据第一语音数据与特定应用场景对应的全部预设关键词，确定第二语音数据，该第二语音数据只包括第一预设关键词；

该步骤S105中根据第一语音数据与特定应用场景对应的全部预设关键词，确定第二语音数据的过程可以参考前述对步骤S104的相关描述。

该过程中，电子设备只需要确定出第一语音数据中只包括第一预设关键词的那分语音数据作为第二语音数据。

在该步骤S105可以由前述图5中的二级命令词识别模块153完成。具体的，该二级命令词识别模块153可以根据一级命令词识别模块156下发的第一语音数据与其记录的特定应用场景对应的全部预设关键词，确定第二语音数据。并将其下发到声纹识别模块154中。详细过程可以参考前述对图5中相关部分的描述，此处不再赘述。为了提高准确率，二级命令词识别模块153中确定第二语音数据涉及的算法相比于一级命令词识别模块156中确定第一语音数据的算法复杂，该过程由处理器调用这些功能模块完成。

S106.电子设备判断该第二语音数据的声纹是否与预设声纹匹配；

该预设声纹为电子设备录入的用户的语音数据的声纹标识，用于标识用户的身份。

电子设备可以利用提取第二语音数据中的声纹，与该预设声纹进行匹配，如果一致，则电子设备判断该第二语音数据来自与预设声纹匹配的用户，可以对该第一语音指令进行响应，执行步骤S107。

如果不一致，则电子设备判断该第二语音数据不是来自与预设声纹匹配的用户，可以不对该第一语音指令进行响应，执行步骤S108。

在该步骤S106可以由前述图5中的声纹识别模块154完成。具体的，该声纹识别模块154可以根据二级命令词识别模块153下发的第二语音数据与其记录的预设声纹，确定第二语音数据是否来自与预设声纹匹配的用户。详细过程可以参考前述对图5中相关部分的描述，此处不再赘述。

在一些实施例中，该步骤S106是可选的，电子设备可以在执行步骤S105之后，可以不执行该步骤S106，直接执行步骤S107。

S107.电子设备响应该第一语音指令，执行该第二语音数据中的第一预设关键词对应的操作；

例如，图2b示出的用户界面，以及图2d示出的用户界面，为电子设备响应该第一语音指令的两个用户界面。可以看出，电子设备显示的是执行该第一预设关键词对应的操作之后的用户界面。

电子设备根据第二语音数据中的第一预设关键词生成该预设关键词对应的操作，执行该第二语音数据中的第一预设关键词对应的操作来响应该第一语音指令。

在该步骤S107可以由前述图5中的命令词处理模块151B完成。具体的，该命令词处理模块151B可以根据二级命令词识别模块153下发的第二语音数据转换成该第二语音数据对应的操作并下发到第一应用场景涉及的应用程序，应用程序执行该操作来响应该第一语音指令。详细过程可以参考前述对图5中相关部分的描述，此处不再赘述。

S108.电子设备不响应该第一语音指令；

用户输入第一语音指令之后，电子设备没有显示执行该第一预设关键词对应的操作之后的用户界面，即电子设备不响应该第一语音指令。

本申请实施例中，电子设备处于第一应用场景时，显示的用户界面可以被称为第一用户界面，响应第一语音指令之后显示的用户界面可以被称为第二用户界面。

可以理解的是，上述特定应用场景下，电子设备都可以利用本申请实施例涉及的语音控制方法。该特定应用场景是电子设备预先设置的。例如，电子设备设置当本机打开视频类应用程序时，则进入视频场景。电子设备可以设置该视频场景为一格特定应用场景。则为当电子设备打开视频类应用程序时，检测到用户输入的非特定语音指令中如果包含该视频场景下的预设关键词，则电子设备可以响应该非特定语音指令，执行第一操作，例如，该非特定语音指令可以为“声音大一点”。该第一操作为该非特定语音指令对应的操作，例如当该非特定语音指令为“声音大一点”时，电子设备可以设置播放视频的声音大一点。

应该理解的是，该特定应用场景还可以包括其他应用场景，本申请实施例对此不作限定。

本申请实施例中，电子设备的内部存储器121中或者外部存储接口120外接的存储设备中可以预先存储预设关键词以及本申请实施例涉及的语音控制方法涉及的相关指令以及预设声纹，电子设备在DSP中设置存储器，并将特定应用场景涉及的预设关键词存储在其中，使得电子设备执行本申请实施例中的语音控制方法。

下面结合步骤S101-步骤S108为例，示例性说明电子设备的工作流程。

1.电子设备确定当前处于第一应用场景；

在一些实施例中，电子设备的触摸传感器180K接收到触摸操作(用户触摸拍摄控件时触发的)，相应的硬件中断被发给内核层。内核层将触摸操作加工成原始输入事件(包括触摸坐标，触摸操作的时间戳等信息)。原始输入事件被存储在内核层。应用程序框架层从内核层获取原始输入事件，识别该输入事件所对应的控件的应用。

例如，一第一应用场景为音乐场景为例，以上触摸操作是触摸单击操作，该单击操作所对应的控件为音乐类应用程序的图标。音乐类应用程序调用应用框架层的接口，启动音乐应用类应用程序，进而确定当前处于音乐场景。

2.电子设备加载该第一应用场景对应的第一预设关键词组，该第一预设关键词组至少包括第一预设关键词。

电子设备的DSP处理器可以从DSP中内置的存储器中加载其存储的该第一应用场景对应的第一预设关键词组。

3.电子设备检测到第一语音指令。

电子设备可以在按照一定的频率检测电子设备周围的语音信息，电子设备的麦克风可以采集电子设备周围的语音数据，其中包括第一语音指令。并将检测到第一语音指令存储在内部存储器121中或者外部存储接口120外接的存储设备中。

4.电子设备根据第一语音指令与第一预设关键词组，确定第一语音数据。

电子设备可以通过DSP从存储器中获取第一语音指令与第一预设关键词组，并调用相关计算机指令，确定第一语音数据。并将该第一语音数据存储在内部存储器121中或者外部存储接口120外接的存储设备中。

5.电子设备根据第一语音数据与特定应用场景对应的全部预设关键词，确定第二语音数据。

电子设备可以通过处理器110从内部存储器121中获取第一语音数据与特定应用场景对应的全部预设关键词，并调用相关计算机指令，确定第二语音数据。并将该第二语音数据存储在内部存储器121中或者外部存储接口120外接的存储设备中。

6.电子设备判断该第二语音数据的声纹是否与预设声纹匹配。

电子设备可以过处理器110从内部存储器121中获取第二语音数据以及预设声纹匹配，并调用相关计算机指令，判断该第二语音数据的声纹是否与预设声纹匹配。

7.电子设备响应该第一语音指令，执行该第二语音数据中的第一预设关键词对应的操作。

电子设备可以调用应用框架层的接口，执行该第二语音数据中的第一预设关键词对应的操作。进而通过调用内核层启动显示驱动，显示执行该第二语音数据中的第一预设关键词对应的操作之后的用户界面。

综上所述，实施本申请实施例涉及的语音控制方法，电子设备可以一些特定应用场景中，不需要打开语音交互功能，也可以接收用户输入的非特定语音指令，并响应该非特定语音指令。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

上述实施例中所用，根据上下文，术语“当…时”可以被解释为意思是“如果…”或“在…后”或“响应于确定…”或“响应于检测到…”。类似地，根据上下文，短语“在确定…时”或“如果检测到(所陈述的条件或事件)”可以被解释为意思是“如果确定…”或“响应于确定…”或“在检测到(所陈述的条件或事件)时”或“响应于检测到(所陈述的条件或事件)”。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如DVD)、或者半导体介质(例如固态硬盘)等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，该流程可以由计算机程序来指令相关的硬件完成，该程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法实施例的流程。而前述的存储介质包括：ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。

Claims

1.一种语音控制方法，其特征在于，包括：

电子设备确定当前处于第一应用场景；

所述电子设备检测到第一语音指令；所述第一语音指令为不用于打开语音交互功能的非特定语音指令；

所述电子设备加载所述第一应用场景对应的全部预设关键词；

所述电子设备根据所述第一语音指令与所述第一应用场景对应的全部预设关键词，判断所述第一语音指令中包括携带了第一预设关键词的第一语音数据；所述第一预设关键词为所述第一应用场景对应的全部预设关键词中的任一预设关键词；

所述电子设备加载全部特定应用场景对应的全部预设关键词，所述全部特定应用场景包括所述第一应用场景；

所述电子设备基于所述第一语音数据与所述全部特定应用场景对应的全部预设关键词，确定第一语音数据中是否包括第一预设关键词；在确定第一语音数据中包括第一预设关键词的情况下，确定所述第一语音数据中的一部分作为第二语音数据，所述第二语音数据只包括第一预设关键词；在确定所述第一语音数据中不包括第一预设关键词的情况下，所述电子设备不响应所述第一语音指令；

在确定所述第二语音数据的声纹与预设声纹匹配的情况下，所述电子设备根据所述第二语音数据中的第一预设关键词生成所述第一预设关键词对应的操作；所述电子设备不打开语音交互功能，响应所述第一语音指令，执行所述第一预设关键词对应的操作；所述预设声纹为所述电子设备录入的用户的语音数据的声纹标识，用于标识用户的身份；

在确定所述第二语音数据的声纹与预设声纹不匹配的情况下，所述电子设备不执行所述第一预设关键词对应的操作。

2.根据权利要求1所述的方法，其特征在于，电子设备确定当前处于第一应用场景之前，所述方法还包括：

所述电子设备显示第一用户界面；

所述电子设备不打开语音交互功能，响应所述第一语音指令，执行所述第一预设关键词对应的操作，具体包括：

所述电子设备不打开语音交互功能，响应所述第一语音指令，执行所述第一预设关键词对应的操作，显示第二用户界面，所述第二用户界面与所述第一用户界面不同。

3.根据权利要求1所述的方法，其特征在于，所述电子设备确定当前处于第一应用场景，具体包括：

所述电子设备前台运行第一应用程序，则所述电子设备确定当前处于第一应用场景；或者，

所述电子设备后台运行第一应用程序，则所述电子设备确定当前处于第一应用场景。

4.根据权利要求1-3中任一项所述的方法，所述电子设备确定所述第一语音指令中是否包括第一预设关键词，具体包括：

所述电子设备根据所述第一语音指令与所述第一应用场景对应的全部预设关键词，确定第一语音指令中是否包括第一语音数据，所述第一语音数据中至少包括所述第一预设关键词；

在确定所述第一语音指令中包括第一语音数据的情况下，所述电子设备确定所述第一语音指令中包括第一预设关键词；

在确定所述第一语音指令中不包括第一语音数据的情况下，所述电子设备确定所述第一语音指令中不包括第一预设关键词。

5.根据权利要求1-3中任一项所述的方法，其特征在于，所述特定应用场景是预先设置好，存储在电子设备中的，所述特定应用场景至少包括一个应用运行时的场景，所述第一应用场景为任一所述特定应用场景。

6.根据权利要求1-3中任一项所述的方法，其特征在于，所述特定应用场景对应的全部预设关键词是预先设置好，存储在电子设备中的，所述特定应用场景对应的全部预设关键词中任一预设关键词都对应一个与该预设关键词同意义的操作。

7.一种电子设备，其特征在于，所述电子设备包括一个或多个处理器和一个或多个存储；其中，所述一个或多个存储器与所述一个或多个处理器耦合，所述一个或多个存储器用于存储计算机程序代码，所述计算机程序代码包括计算机指令，当所述一个或多个处理器执行所述计算机指令时，所述一个或多个处理器用于调用所述计算机指令以使得所述电子设备执行：

确定当前处于第一应用场景；

检测到第一语音指令；所述第一语音指令为不用于打开语音交互功能的非特定语音指令；

加载所述第一应用场景对应的全部预设关键词；

根据所述第一语音指令与所述第一应用场景对应的全部预设关键词，判断所述第一语音指令中包括携带了第一预设关键词的第一语音数据；所述第一预设关键词为所述第一应用场景对应的全部预设关键词中的任一预设关键词；

加载全部特定应用场景对应的全部预设关键词，所述全部特定应用场景包括所述第一应用场景；

基于所述第一语音数据与所述全部特定应用场景对应的全部预设关键词，确定第一语音数据中是否包括第一预设关键词；在确定第一语音数据中包括第一预设关键词的情况下，确定所述第一语音数据中的一部分作为第二语音数据，所述第二语音数据只包括第一预设关键词；在确定所述第一语音数据中不包括第一预设关键词的情况下，不响应所述第一语音指令；

在确定所述第二语音数据的声纹与预设声纹匹配的情况下，根据所述第二语音数据中的第一预设关键词生成所述第一预设关键词对应的操作；不打开语音交互功能，响应所述第一语音指令，执行所述第一预设关键词对应的操作；所述预设声纹为所述电子设备录入的用户的语音数据的声纹标识，用于标识用户的身份；

在确定所述第二语音数据的声纹与预设声纹不匹配的情况下，不执行所述第一预设关键词对应的操作。

8.根据权利要求7所述的电子设备，其特征在于，所述一个或多个处理器还用于调用所述计算机指令以使得所述电子设备执行：

显示第一用户界面；

不打开语音交互功能，响应所述第一语音指令，执行所述第一预设关键词对应的操作，具体包括：

不打开语音交互功能，响应所述第一语音指令，执行所述第一预设关键词对应的操作，显示第二用户界面，所述第二用户界面与所述第一用户界面不同。

9.根据权利要求7所述的电子设备，其特征在于，所述一个或多个处理器具体用于调用所述计算机指令以使得所述电子设备执行：

前台运行第一应用程序，则确定当前处于第一应用场景；或者，

后台运行第一应用程序，则确定当前处于第一应用场景。

10.根据权利要求7-9中任一项所述的电子设备，其特征在于，所述一个或多个处理器具体用于调用所述计算机指令以使得所述电子设备执行：

加载所述第一应用场景对应的全部预设关键词；

根据所述第一语音指令与所述第一应用场景对应的全部预设关键词，确定第一语音指令中是否包括第一语音数据，所述第一语音数据中至少包括所述第一预设关键词；

在确定所述第一语音指令中包括第一语音数据的情况下，确定所述第一语音指令中包括第一预设关键词；

在确定所述第一语音指令中不包括第一语音数据的情况下，确定所述第一语音指令中不包括第一预设关键词。

11.一种芯片系统，所述芯片系统应用于电子设备，所述芯片系统包括一个或多个处理器，所述处理器用于调用计算机指令以使得所述电子设备执行如权利要求1-7中任一项所述的方法。

12.一种计算机可读存储介质，包括指令，其特征在于，当所述指令在电子设备上运行时，使得所述电子设备执行如权利要求1-7中任一项所述的方法。