CN109584879B

CN109584879B - 一种语音控制方法及电子设备

Info

Publication number: CN109584879B
Application number: CN201811407531.7A
Authority: CN
Inventors: 周轩; 王守诚; 龙嘉裕; 高越
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2018-11-23
Filing date: 2018-11-23
Publication date: 2021-07-06
Anticipated expiration: 2038-11-23
Also published as: WO2020103764A1; CN113794800A; EP3872807A4; JP2022508176A; KR20210092795A; EP3872807A1; CN109584879A; AU2019385366A1; US20210407507A1; EP3872807B1; CN113794800B; AU2019385366B2; JP7142783B2; KR102470275B1; RU2766255C1; CN113056901A; US11450322B2; ES2964533T3

Abstract

本申请提供一种语音控制方法及电子设备，涉及通信技术领域，可在运行应用的过程中提示用户执行与该应用相关的语音任务，提高电子设备的语音控制效率和用户体验。该方法包括：显示应用的第一界面，第一界面包括用于更新第一界面的控件；响应于用户输入的唤醒信号，在后台启动语音应用；在第一界面上显示M条语音输入提示，其中每条语音输入提示与第一界面中的至少一个控件对应；采集到用户输入的语音控制信号，所述语音控制信号与M条语音输入提示中的第一语音输入提示对应；响应于语音控制信号，显示应用的第二界面，第二界面是第一界面中第一控件被触发后更新的界面，第一控件与第一语音输入提示对应。

Description

一种语音控制方法及电子设备

技术领域

本申请涉及通信技术领域，尤其涉及一种语音控制方法及电子设备。

背景技术

语音识别技术是指让机器(例如手机、可穿戴设备等)通过识别和理解把声音信号转变为相应的文本或命令的技术。目前，许多手机都安装了语音助手(例如，小爱同学、Siri以及小E等)等用于语音识别的语音APP。一般，手机会预先设置一个或多个唤醒信号(例如，敲击信号或者“你好，小E”等唤醒词)。当检测到用户输入这些唤醒信号时，说明用户此时有使用语音识别功能的意图，因此，可触发手机启动语音APP进行语音识别，进而执行相应的语音任务。

一般，手机在出厂前会预先配置好手机能够识别并执行的具体语音任务，例如查询天气的语音任务、呼叫联系人的语音任务等。如图1所示，用户可以在语音APP的设置界面101中统一查看每个应用具体支持哪些语音任务。但由于这些语音任务种类繁杂，用户在具体使用应用的过程中很可能已经忘记该应用是否支持语音识别功能，或者忘记该应用中具体有哪些任务可以通过语音的方式控制，从而导致语音APP在手机中的使用率不高，手机无法充分发挥语音APP的语音识别功能，不能很好的帮助用户解放双手。

发明内容

本申请的实施例提供一种语音控制方法及电子设备，可在运行应用的过程中提示用户执行与该应用相关的语音任务，提高电子设备中语音APP的语音控制效率和用户体验。

为达到上述目的，本申请采用如下技术方案：

第一方面，本申请的实施例提供一种语音控制方法，包括：电子设备显示应用的第一界面，第一界面中包括用于更新该第一界面的控件；如果接收到用户输入的唤醒信号，则电子设备可在后台启动语音应用；并且，电子设备可在第一界面上显示语音应用提供的M(M为大于0的整数)条语音输入提示，其中，每条语音输入提示与第一界面中的至少一个控件对应；后续，电子设备可通过已启动的语音应用(例如Siri、小E等语音助手)采集用户输入的语音控制信号，如果该语音控制信号与上述M条语音输入提示中的第一语音输入提示对应，则电子设备可响应该语音控制信号显示上述应用的第二界面，该第二界面是指第一界面中第一控件(第一控件与上述第一语音输入提示对应)被触发后更新的界面。

也就是说，电子设备在显示某一应用的界面时，如果检测到用户唤醒了语音应用，则电子设备可通过语音应用在当前的界面中提示用户输入语音输入提示，该语音输入提示是与界面中的一个或多个控件相关联的。这样，一旦检测到用户输入了与某一语音输入提示对应的语音控制信号，电子设备便可根据该语音控制信号触发相应的控件，使得电子设备更新正在显示的界面。这样，在使用应用的过程中用户可以根据语音输入提示，向电子设备输入能够在当前界面执行的语音控制信号，从而提高了电子设备中语音APP的语音控制效率，提升了用户体验。

在一种可能的设计方法中，在电子设备在后台启动语音应用之后，还包括：若检测到用户对第一界面中控件的触控操作，则电子设备执行与该触控操作对应的操作指令。也就是说，电子设备在后台启动语音应用后，用户仍然可以在正在显示的第一界面中操作第一界面中的控件，在后台运行的语音应用不会影响用户与前台应用的交互。

在一种可能的设计方法中，在电子设备在后台启动语音应用之后，还包括：电子设备可在第一界面上显示语音应用的标识，从而提示用户语音应用正在已经在后台启动。其中，语音应用的标识可以以悬浮按钮的形式显示在第一界面上，用户可以调整该标识在第一界面上的位置。

在一种可能的设计方法中，在电子设备显示应用的第一界面之后，还包括：电子设备在第一界面上显示提示按钮；如果电子设备接收用户点击该提示按钮的点击操作，则电子设备可响应于该点击操作，在第一界面上显示该M条语音输入提示。

在一种可能的设计方法中，在电子设备显示应用的第一界面之后，还包括：电子设备获取与第一界面关联的配置文件，该配置文件中记录了在第一界面中电子设备能够执行的N(N为大于或等于M的整数)项语音任务；此时，电子设备在第一界面上显示M条语音输入提示，包括：电子设备根据该配置文件在第一界面上显示M条语音输入提示，那么，每条语音输入提示均与配置文件中的一项语音任务相关联。例如，语音输入提示“播放”与配置文件中的播放任务相关联。

示例性的，上述M条语音输入提示可与上述N项语音任务中使用频率大于阈值的M项语音任务一一对应。

在一种可能的设计方法中，上述配置文件还包括第一语音任务与第一控件的第一触控事件之间的对应关系，第一语音任务为上述N项语音任务中的一个；其中，在电子设备采集到用户输入的语音控制信号之后，还包括：电子设备确定上述语音控制信号对应的语音任务为第一语音任务；其中，响应于语音控制信号，电子设备显示该应用的第二界面，包括：响应于语音控制信号，电子设备对第一控件执行第一触控事件，使得电子设备将第一界面更新为第二界面。

也就是说，电子设备可根据第一界面的配置文件将用户输入的语音控制信号转换为对应的触控事件，进而执行该触控事件，从而实现通过语音控制第一界面中各个操作按钮的功能。这样一来，电子设备可以应用的界面为粒度实现对界面中各个操作按钮的语音控制功能，从而提高手机的语音控制效率和用户体验。

在一种可能的设计方法中，电子设备对第一控件执行第一触控事件时，还包括：电子设备显示用户对第一控件执行第一触控事件时的动画效果，使得用户在GUI和VUI中均获得良好的用户体验。

在一种可能的设计方法中，在电子设备采集到用户输入的语音控制信号之后，还包括：电子设备将该语音控制信号和第一界面的界面信息发送给服务器，以使得服务器根据该界面信息识别与该语音控制信号对应的语音任务；其中，该界面信息包括第一界面的标识、第一界面的页面类型或第一界面所属应用的类型中的至少一项。那么，由于该界面信息可以反映出当前电子设备的实际使用场景，因此，服务器可以结合该界面信息更加准确的对用户输入的语音控制信号进行语音识别，从而更加准确的确定出用户需要执行的实际语音任务。

第二方面，本申请提供一种电子设备，包括：触摸屏，所述触摸屏包括触敏表面和显示屏；一个或多个处理器；一个或多个存储器；通信模块；以及一个或多个计算机程序；其中，处理器与触摸屏、通信模块以及存储器均耦合，上述一个或多个计算机程序被存储在存储器中，当电子设备运行时，该处理器执行该存储器存储的一个或多个计算机程序，以使电子设备执行上述任一项所述的语音控制方法。

第三方面，本申请提供一种计算机存储介质，包括计算机指令，当计算机指令在电子设备上运行时，使得电子设备执行如第一方面中任一项所述的语音控制方法。

第四方面，本申请提供一种计算机程序产品，当计算机程序产品在电子设备上运行时，使得电子设备执行如第一方面中任一项所述的语音控制方法。

可以理解地，上述提供的第二方面所述的终端、第三方面所述的计算机存储介质，以及第四方面所述的计算机程序产品均用于执行上文所提供的对应的方法，因此，其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。

附图说明

图1为现有技术中语音应用的设置界面的示意图；

图2为本申请实施例提供的一种电子设备的结构示意图一；

图3为本申请实施例提供的一种电子设备内操作系统的架构示意图；

图4为本申请实施例提供的一种语音控制方法的场景示意图一；

图5为本申请实施例提供的一种语音控制方法的流程示意图；

图6为本申请实施例提供的一种语音控制方法的场景示意图二；

图7A为本申请实施例提供的一种语音控制方法的场景示意图三；

图7B为现有技术中语音应用在前台运行时的场景示意图；

图8为本申请实施例提供的一种语音控制方法的场景示意图四；

图9为本申请实施例提供的一种语音控制方法的场景示意图五；

图10为本申请实施例提供的一种语音控制方法的场景示意图六；

图11为本申请实施例提供的一种语音控制方法的场景示意图七；

图12为本申请实施例提供的一种语音控制方法的场景示意图八；

图13为本申请实施例提供的一种语音控制方法的场景示意图九；

图14为本申请实施例提供的一种电子设备的结构示意图二。

具体实施方式

下面将结合附图对本实施例的实施方式进行详细描述。

本申请实施例提供的一种语音控制方法可应用于手机、平板电脑、桌面型、膝上型、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、手持计算机、上网本、个人数字助理(personal digital assistant，PDA)、可穿戴电子设备、虚拟现实设备等电子设备中，本申请实施例对此不做任何限制。

示例性的，图2示出了电子设备100的结构示意图。

电子设备100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中，传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本申请实施例示意的结构并不构成对电子设备100的具体限定。在本申请另一些实施例中，电子设备100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

其中，控制器可以是电子设备100的神经中枢和指挥中心。控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从所述存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuitsound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purposeinput/output，GPIO)接口，用户标识模块(subscriberidentity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

I2C接口是一种双向同步串行总线，包括一根串行数据线(serial data line，SDA)和一根串行时钟线(derail clock line，SCL)。在一些实施例中，处理器110可以包含多组I2C总线。处理器110可以通过不同的I2C总线接口分别耦合触摸传感器180K，充电器，闪光灯，摄像头193等。例如：处理器110可以通过I2C接口耦合触摸传感器180K，使处理器110与触摸传感器180K通过I2C总线接口通信，实现电子设备100的触摸功能。

I2S接口可以用于音频通信。在一些实施例中，处理器110可以包含多组I2S总线。处理器110可以通过I2S总线与音频模块170耦合，实现处理器110与音频模块170之间的通信。在一些实施例中，音频模块170可以通过I2S接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能。

PCM接口也可以用于音频通信，将模拟信号抽样，量化和编码。在一些实施例中，音频模块170与无线通信模块160可以通过PCM总线接口耦合。在一些实施例中，音频模块170也可以通过PCM接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能。所述I2S接口和所述PCM接口都可以用于音频通信。

UART接口是一种通用串行数据总线，用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中，UART接口通常被用于连接处理器110与无线通信模块160。例如：处理器110通过UART接口与无线通信模块160中的蓝牙模块通信，实现蓝牙功能。在一些实施例中，音频模块170可以通过UART接口向无线通信模块160传递音频信号，实现通过蓝牙耳机播放音乐的功能。

MIPI接口可以被用于连接处理器110与显示屏194，摄像头193等外围器件。MIPI接口包括摄像头串行接口(camera serial interface，CSI)，显示屏串行接口(displayserial interface，DSI)等。在一些实施例中，处理器110和摄像头193通过CSI接口通信，实现电子设备100的拍摄功能。处理器110和显示屏194通过DSI接口通信，实现电子设备100的显示功能。

GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号，也可被配置为数据信号。在一些实施例中，GPIO接口可以用于连接处理器110与摄像头193，显示屏194，无线通信模块160，音频模块170，传感器模块180等。GPIO接口还可以被配置为I2C接口，I2S接口，UART接口，MIPI接口等。

USB接口130是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB接口，USB Type C接口等。USB接口130可以用于连接充电器为电子设备100充电，也可以用于电子设备100与外围设备之间传输数据。也可以用于连接耳机，通过耳机播放音频。该接口还可以用于连接其他电子设备，例如AR设备等。

可以理解的是，本申请实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对电子设备100的结构限定。在本申请另一些实施例中，电子设备100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。在一些有线充电的实施例中，充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中，充电管理模块140可以通过电子设备100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时，还可以通过电源管理模块141为电子设备供电。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，外部存储器，显示屏194，摄像头193，和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量，电池循环次数，电池健康状态(漏电，阻抗)等参数。在其他一些实施例中，电源管理模块141也可以设置于处理器110中。在另一些实施例中，电源管理模块141和充电管理模块140也可以设置于同一个器件中。

电子设备100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。电子设备100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在电子设备100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A，受话器170B等)输出声音信号，或通过显示屏194显示图像或视频。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器110，与移动通信模块150或其他功能模块设置在同一个器件中。

无线通信模块160可以提供应用在电子设备100上的包括无线局域网(wirelesslocal area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，电子设备100的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得电子设备100可以通过无线通信技术与网络以及其他设备通信。所述无线通信技术可以包括全球移动通讯系统(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(codedivision multiple access，CDMA)，宽带码分多址(wideband code division multipleaccess，WCDMA)，时分码分多址(time-division code division multiple access，TD-SCDMA)，长期演进(long term evolution，LTE)，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。所述GNSS可以包括全球卫星定位系统(global positioning system，GPS)，全球导航卫星系统(global navigation satellite system，GLONASS)，北斗卫星导航系统(beidounavigation satellite system，BDS)，准天顶卫星系统(quasi-zenith satellitesystem，QZSS)和/或星基增强系统(satellite based augmentation systems，SBAS)。

电子设备100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emittingdiode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrixorganic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emittingdiode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot lightemitting diodes，QLED)等。在一些实施例中，电子设备100可以包括1个或N个显示屏194，N为大于1的正整数。

电子设备100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，电子设备100可以包括1个或N个摄像头193，N为大于1的正整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当电子设备100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。电子设备100可以支持一种或多种视频编解码器。这样，电子设备100可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现电子设备100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展电子设备100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器110通过运行存储在内部存储器121的指令，从而执行电子设备100的各种功能应用以及数据处理。内部存储器121可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储电子设备100使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。

电子设备100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。电子设备100可以通过扬声器170A收听音乐，或收听免提通话。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当电子设备100接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。电子设备100可以设置至少一个麦克风170C。在另一些实施例中，电子设备100可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，电子设备100还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm的开放移动电子设备平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

压力传感器180A用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多，如电阻式压力传感器，电感式压力传感器，电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A，电极之间的电容改变。电子设备100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194，电子设备100根据压力传感器180A检测所述触摸操作强度。电子设备100也可以根据压力传感器180A的检测信号计算触摸的位置。在一些实施例中，作用于相同触摸位置，但不同触摸操作强度的触摸操作，可以对应不同的操作指令。例如：当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时，执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时，执行新建短消息的指令。

陀螺仪传感器180B可以用于确定电子设备100的运动姿态。在一些实施例中，可以通过陀螺仪传感器180B确定电子设备100围绕三个轴(即，x，y和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。示例性的，当按下快门，陀螺仪传感器180B检测电子设备100抖动的角度，根据角度计算出镜头模组需要补偿的距离，让镜头通过反向运动抵消电子设备100的抖动，实现防抖。陀螺仪传感器180B还可以用于导航，体感游戏场景。

气压传感器180C用于测量气压。在一些实施例中，电子设备100通过气压传感器180C测得的气压值计算海拔高度，辅助定位和导航。

磁传感器180D包括霍尔传感器。电子设备100可以利用磁传感器180D检测翻盖皮套的开合。在一些实施例中，当电子设备100是翻盖机时，电子设备100可以根据磁传感器180D检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态，设置翻盖自动解锁等特性。

加速度传感器180E可检测电子设备100在各个方向上(一般为三轴)加速度的大小。当电子设备100静止时可检测出重力的大小及方向。还可以用于识别电子设备姿态，应用于横竖屏切换，计步器等应用。

距离传感器180F，用于测量距离。电子设备100可以通过红外或激光测量距离。在一些实施例中，拍摄场景，电子设备100可以利用距离传感器180F测距以实现快速对焦。

接近光传感器180G可以包括例如发光二极管(LED)和光检测器，例如光电二极管。发光二极管可以是红外发光二极管。电子设备100通过发光二极管向外发射红外光。电子设备100使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时，可以确定电子设备100附近有物体。当检测到不充分的反射光时，电子设备100可以确定电子设备100附近没有物体。电子设备100可以利用接近光传感器180G检测用户手持电子设备100贴近耳朵通话，以便自动熄灭屏幕达到省电的目的。接近光传感器180G也可用于皮套模式，口袋模式自动解锁与锁屏。

环境光传感器180L用于感知环境光亮度。电子设备100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合，检测电子设备100是否在口袋里，以防误触。

指纹传感器180H用于采集指纹。电子设备100可以利用采集的指纹特性实现指纹解锁，访问应用锁，指纹拍照，指纹接听来电等。

温度传感器180J用于检测温度。在一些实施例中，电子设备100利用温度传感器180J检测的温度，执行温度处理策略。例如，当温度传感器180J上报的温度超过阈值，电子设备100执行降低位于温度传感器180J附近的处理器的性能，以便降低功耗实施热保护。在另一些实施例中，当温度低于另一阈值时，电子设备100对电池142加热，以避免低温导致电子设备100异常关机。在其他一些实施例中，当温度低于又一阈值时，电子设备100对电池142的输出电压执行升压，以避免低温导致的异常关机。

触摸传感器180K，也称“触控面板”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器180K也可以设置于电子设备100的表面，与显示屏194所处的位置不同。

骨传导传感器180M可以获取振动信号。在一些实施例中，骨传导传感器180M可以获取人体声部振动骨块的振动信号。骨传导传感器180M也可以接触人体脉搏，接收血压跳动信号。在一些实施例中，骨传导传感器180M也可以设置于耳机中，结合成骨传导耳机。音频模块170可以基于所述骨传导传感器180M获取的声部振动骨块的振动信号，解析出语音信号，实现语音功能。应用处理器可以基于所述骨传导传感器180M获取的血压跳动信号解析心率信息，实现心率检测功能。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。电子设备100可以接收按键输入，产生与电子设备100的用户设置以及功能控制有关的键信号输入。

马达191可以产生振动提示。马达191可以用于来电振动提示，也可以用于触摸振动反馈。例如，作用于不同应用(例如拍照，音频播放等)的触摸操作，可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作，马达191也可对应不同的振动反馈效果。不同的应用场景(例如：时间提醒，接收信息，闹钟，游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。

指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。

SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195，或从SIM卡接口195拔出，实现和电子设备100的接触和分离。电子设备100可以支持1个或N个SIM卡接口，N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡，Micro SIM卡，SIM卡等。同一个SIM卡接口195可以同时插入多张卡。所述多张卡的类型可以相同，也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。电子设备100通过SIM卡和网络交互，实现通话以及数据通信等功能。在一些实施例中，电子设备100采用eSIM，即：嵌入式SIM卡。eSIM卡可以嵌在电子设备100中，不能和电子设备100分离。

上述电子设备100的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。本申请实施例以分层架构的Android系统为例，示例性说明电子设备100的软件结构。

图3是本申请实施例的电子设备100的软件结构框图。

分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时(Android runtime)和系统库，以及内核层。

应用程序层可以包括一系列应用程序包。

如图3所示，应用程序包可以包括相机，图库，日历，通话，地图，导航，蓝牙，音乐，视频，短信息等应用程序。

在本申请实施例中，应用程序层中还可以包括具有语音识别功能的语音APP。语音APP有时也可称为语音助手APP，例如，语音助手小E、小爱同学以及Siri等。

语音APP开启后可采集用户发出的语音控制信号，并将该语音控制信号转换为对应的语音任务。进而，语音APP可调用相关应用的接口完成该语音任务，使用户通过语音这种方式实现对电子设备的控制。

应用程序框架层为应用程序层的应用程序提供应用编程接口(applicationprogramming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。

如图3所示，应用程序框架层可以包括窗口管理器，内容提供器，视图系统，电话管理器，资源管理器，通知管理器等。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。所述数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。

视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供电子设备100的通信功能。例如通话状态的管理(包括接通，挂断等)。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，电子设备振动，指示灯闪烁等。

在本申请实施例中，应用程序框架层中还包括VUI(voice user interface，声音用户界面)管理器。VUI管理器可以监测语音APP的运行状态，也可作为语音APP与其他APP之间的桥梁，将语音APP识别出的语音任务传递给相关的APP执行。

示例性的，应用程序层中的应用可以提供一个配置文件，在配置文件中可以记录该应用中相关界面所支持的语音任务。以音乐APP举例，电子设备在安装音乐APP时，可将音乐APP提供的配置文件1存储在电子设备内。配置文件1中可以记录音乐APP在显示音乐播放界面时，音乐APP支持的语音任务，例如，该语音任务包括：播放、暂停、切换上一首/下一首歌曲、加/减音量等。

那么，电子设备在前台运行音乐APP的音乐播放界面时，如果检测到用户输入“你好，小E”的唤醒词，则电子设备可以在后台启动语音APP。VUI管理器检测到语音APP启动后，可获取与当前显示的音乐播放界面对应的配置文件1。进而，如图4所示，VUI管理器可将配置文件1中记录的语音任务以语音输入提示401的形式显示在正在运行的音乐播放界面402上。

这样，用户在使用音乐APP时，电子设备可向用户提示当前的应用界面支持哪些语音任务，后续用户可根据音乐播放界面402上显示的语音输入提示401，向电子设备发出相应的语音控制信号，从而触发电子设备执行当前应用界面支持的语音任务，可以提高电子设备中语音APP的语音控制效率，从而提升用户体验。

需要说明的是，在前台运行的应用一般是指手机正在屏幕中显示的界面所属的应用，该界面一般处于展开状态，用户在该界面中可以与前台应用进行交互。例如，手机正在显示微信APP的界面，则此时在前台运行的应用为微信APP；再比如，图4中的音乐APP以展开的状态显示在手机屏幕上，此时音乐APP为前台应用；又比如，图6的视频APP以展开的状态显示在手机屏幕上，此时视频APP为前台应用。而应用在后台运行时手机一般不会将应用的界面以展开的状态显示在屏幕中，该应用的界面对用户而言是不可视的。但手机可将后台应用的入口(例如应用的图标)显示在屏幕中。例如，如图7A或图8所示，手机可以悬浮菜单的形式将后台运行的语音APP的标识701显示在前台应用的界面中。用户可以将标识701拖拽至当前界面的任意位置。另外，手机在显示语音APP的标识701时，用户仍然可以与前台应用的界面进行交互。例如，如图7A所示，用户可点击视频APP的界面601中的播放按钮602等控件。

一般，语音APP包括两部分，一部分是运行在后台的语音服务(service)，用于采集用户输入的声音信号、对声音信号进行提取、文本转换或语音识别等，另一部分是指在手机屏幕中的显示内容，用于展示语音APP的界面，例如用户与语音APP的对话内容等。在本申请实施例中，可将手机在后台运行语音APP理解为手机在后台运行语音服务。当然，在后台运行语音服务时，手机也可以以悬浮菜单等形式显示语音APP的标识等信息，本申请实施例对此不做任何限制。

Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。

核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

系统库可以包括多个功能模块。例如：表面管理器(surface manager)，媒体库(Media Libraries)，三维图形处理库(例如：OpenGL ES)，2D图形引擎(例如：SGL)等。

表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如:MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。

三维图形处理库用于实现三维图形绘图，图像渲染，合成，和图层处理等。

2D图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动等，本申请实施例对此不做任何限制。

以下将结合附图详细阐述本申请实施例提供的一种语音控制方法。

如图5所示，本申请提供的一种语音控制方法包括下述步骤S501-S505。其中，步骤S501-S505中是以手机作为电子设备举例说明的。

S501、手机显示应用的第一界面，第一界面中包括用于更新第一界面的一个或多个控件。

手机中一般安装有一个或多个应用，手机检测到用户打开某一应用的操作后，可将该应用作为前台应用开始运行。此时，手机可在触摸屏中显示该应用的界面。以第一界面举例，手机在显示应用的第一界面时一般以展开的状态显示该第一界面，使得用户可以在第一界面中与应用进行交互。

手机显示的第一界面中一般包括一个或多个控件。一般，可将在GUI(图形用户界面)中呈现的元素称为控件，其能够为用户提供一定的操作。如图6所示，手机显示的第一界面为视频APP的播放界面601，播放界面601中设置有播放按钮、返回按钮以及输入框等多个控件。用户可操作这些控件更新手机的显示内容，使手机显示出更新后的第二界面。例如，如果检测到用户点击播放界面601中的返回按钮，则手机响应该点击操作显示播放界面601的上一级菜单(即第二界面)。又例如，如果检测到用户点击播放界面601中的播放按钮，则手机响应该点击操作播放播放界面601中的视频，此时手机显示的界面从第一界面更新为第二界面。

S502、响应于手机接收到预设的唤醒信号，手机在后台启动语音APP开始采集用户输入的语音控制信号。

示例性的，手机在启动语音APP前可将麦克风设置为常开状态(always on)。那么，手机在显示某一应用的界面(例如第一界面)的同时，手机的麦克风也在以一定的工作频率采集声音信号。

如图6所示，手机正在显示视频APP中《权利的游戏》(《Game of Thrones》)的播放界面601(即第一界面)，当麦克风采集到声音信号，则手机可进一步识别采集到的声音信号是否为预设的唤醒信号。例如，用户发出“你好，小E”的声音信号后，手机通过麦克风可采集到该声音信号。如果手机识别出该声音信号为预设的唤醒信号，说明用户此时希望使用语音APP提供的语音识别功能完成相关的语音任务。那么，为了避免遮挡手机正在显示的第一界面(例如上述播放界面601)，手机可在后台启动语音APP。例如，如图7A所示，手机在后台启动语音APP后，可在播放界面601中显示语音APP的图标701。该图标701用于指示语音APP正在手机后台运行。由于语音APP正在手机后台运行，因此，手机仍可响应用户在播放界面601中的各项操作，例如用户点击播放按钮的操作等。当然，也可以预先设置手机在后台启动语音APP时无法响应用户在第一界面(例如播放界面601中的各项操作)，本申请实施例对此不做任何限制。

手机在后台启动语音APP后，用户可以开始向语音APP输入希望手机执行的语音控制信号，例如，给联系人Sam打电话、开始播放视频等。因此，手机在后台启动语音APP后，可继续使用麦克风采集用户输入的语音控制信号。例如，手机可以设置语音APP启动后自动开启麦克风5秒，以采集用户在这5秒中输入的语音控制信号。又例如，手机可以将上述语音APP的图标701设置为麦克风的开关按钮，如果检测到用户点击上述图标701，则手机可开启麦克风5秒，以采集用户在这5秒中输入的语音控制信号。又例如，如果检测到用户点击上述图标701，则手机开启麦克风，并保持麦克风为工作状态，以采集用户输入的语音控制信号，直至检测到用户再次点击图标701后，手机可关闭麦克风。

需要说明的是，上述唤醒信号除了包括用户通过语音输入的唤醒词外，还可以包括其他信号。例如，上述唤醒信号可以是用户对某一按键的点击信号，或者，上述唤醒信号可以是用户的某一触摸手势等，本申请实施例对此不做任何限制。

另外，手机可以预先设置向哪些应用开放使用语音APP的权限。例如，可设置微信APP具有使用语音APP的权限，而支付宝APP没有使用语音APP的权限。那么，当手机在前台运行该具有使用语音APP权限的应用时，如果接收到用户输入的唤醒信号，手机可在后台启动语音APP。相应的，如果手机在前台运行的应用或应用的界面没有使用语音APP的权限，则手机接收到用户输入的唤醒信号后，可在前台运行语音APP。如图7B所示，手机在前台运行语音APP时，可以展开的状态显示语音APP的界面702。界面702中可以包括语音APP的各个控件。在界面702中手机可显示用户与语音APP之间的对话内容。

S503、手机获取与第一界面关联的配置文件，该配置文件中记录了第一界面中允许手机执行的语音任务。

由于用户是在手机显示第一界面时启动了语音APP，因此，启动语音APP后用户很可能是希望通过语音APP执行与第一界面相关的语音任务。以第一界面为上述播放界面601举例，如果手机在显示播放界面601时检测到用户输入的唤醒信号，则说明用户很可能需要通过语音APP对播放界面601中的操作按钮执行一定的操作。例如，当用户双手不方便点击播放界面601中播放按钮602时，用户可能希望通过语音APP的语音控制功能实现在播放界面601中打开视频《权利的游戏》的操作。

在本申请实施例中，手机可以预先存储各个应用的配置文件，比如每个应用对应一个或多个配置文件。对一个配置文件而言，该配置文件中记录了一个应用的不同界面中语音APP所支持的语音任务。一个配置文件也可以只记录一个应用的一个界面中语音APP所支持的语音任务。以上述视频APP举例，视频APP的开发人员可以在视频APP的安装包中设置播放界面的配置文件1以及首页的配置文件2。配置文件1中记录了在视频APP的播放界面中允许语音APP执行的语音任务，例如，播放、快进、切换下一集等。配置文件2中记录了在视频APP的首页中允许语音APP执行的语音任务，例如，查看历史播放记录、搜索某一关键词等。那么，手机安装视频APP时可将视频APP的安装包中提供的配置文件1和配置文件2存储在本地。

又或者，手机也可以自动生成上述配置文件1和配置文件2。例如，手机在运行视频APP的播放界面601时可以获取播放界面601中包含的各个按钮以及按钮的属性。以播放按钮602为例，播放按钮602的属性为可点击的button类型的按钮，点击播放按钮602可用于开始播放视频或停止播放视频。那么，手机可以将播放任务和暂停任务作为播放界面601支持的语音任务记录在配置文件1中。类似的，手机在配置文件1中记录播放界面601中其他按钮所对应的语音任务，最终生成与播放界面601对应的配置文件1。

示例性的，上述配置文件可以是XML(Extensible Markup Language，可扩展标记语言)格式的文件。例如，上述配置文件1的具体内容如下：

可以看出，上述配置文件1中记录了在视频APP的播放界面中允许语音APP执行的一个或多个语音任务。以上述语音任务1举例，intentId字段记录了语音任务1的具体内容为播放任务，bindViewId字段记录了执行语音任务1时所作用的按钮为播放界面中的播放按钮，voiceOnClick字段记录了执行语音任务1时手机的具体操作为点击播放按钮的操作。

也就是说，配置文件1中还记录了语音任务1与点击播放界面中的播放按钮这一触控事件的对应关系。对手机而言，手机接收到用户输入播放任务的语音控制信号时，相当于手机检测到用户点击播放界面中的播放按钮。可选的，voiceTags字段记录了对语音任务1的备注，例如，有些用户习惯将播放操作称为电源控制，因此可将电源控制备注为播放任务的另一种表达方式。后续如果检测到用户输入电源控制的相关语音控制信号，手机也可结合语音任务1的备注确定出用户希望执行的语音任务为播放任务。

那么，如果后续手机确定出用户输入的语音控制信号对应的是上述播放任务，则手机可根据配置文件1中的bindViewId字段和voiceOnClick字段执行视频APP中点击播放按钮所对应的相关函数(例如上述voiceSwitchPower回调函数)，从而实现在视频APP中通过语音控制信号控制手机执行播放任务的功能。

具体的，在步骤S503中，手机在应用程序层中启动了语音APP后，语音APP可向应用程序框架层中的VUI管理器上报语音APP的启动事件。VUI管理器监测到该启动事件后，可获取与当前显示的第一界面关联的配置文件。例如，VUI管理器可以先确定正在前台运行的界面为视频APP的播放界面601，进而，VUI管理器可根据播放界面601的标识读取视频APP中为播放界面601设置的配置文件1。配置文件1中记录了在视频APP的播放界面中允许语音APP执行的一个或多个语音任务。

S504、手机根据上述配置文件在第一界面中显示语音输入提示。

用户从第一界面中启动了语音APP后，可能并不清楚语音APP能够在第一界面中具体执行哪些语音任务，从而导致用户无法准确使用语音APP提供的各项语音识别功能。在步骤S504中，手机获取到与上述第一界面关联的配置文件后，由于该配置文件中记录的语音任务都是语音APP在上述第一界面中能够执行的，因此，手机可将配置文件中的一项或多项语音任务作为语音输入提示显示在第一界面中，从而提示用户发出准确的语音控制信号控制第一界面中的各项功能。

示例性的，VUI管理器获取到上述播放界面601的配置文件1后，可将配置文件1中记录的语音任务以语音输入提示的形式显示在播放界面601中。如图8所示，手机可在语音APP的图标701附近显示一条或多条语音输入提示801。其中，每一条语音输入提示801都与配置文件1中的一项语音任务对应。一般，每一项语音任务都与播放界面601中的一个或多个控件相关联，因此，每一条语音输入提示也是与第一界面中的一个或多个控件关联的。例如，配置文件1中记录有播放任务，播放任务与播放界面601中的播放按钮对应，则手机可显示对应的“播放”这一语音输入提示；配置文件1中记录有快进的任务，快进的任务与播放界面601中的快进按钮以及视频进度条上的滑块对应，则手机可显示对应的“快进x秒”这一语音输入提示等，x为任意正整数，比如图8中为“快进10秒”。

当语音输入提示的数目较多时，可在播放界面601中显示“更多”按钮802。如果检测到用户点击“更多”按钮802，则手机可将隐藏的语音输入提示801完整的显示在播放界面601中。在用户点击“更多”按钮之前，手机根据用户的使用习惯，可以只显示用户最常用的几个语音输入提示801。更进一步的，手机可以智能的识别用户的语音。比如图8中显示的语音输入提示801中，有一个语音提示为“快进10秒”，如果用户给出的语音指令为“快进15秒”，手机通过将指令拆解为“快进”和“15秒”两个指令，依然可以理解用户的意图，将视频快进15秒播放。

上述实施例中是以在播放界面601中显示语音输入提示801举例说明的。可以理解的是，当手机显示其他应用的界面时，手机也可按照上述方法将当前界面所支持的语音任务以语音输入提示的形式提示给用户。例如，如图9中的(a)所示，当手机显示相机APP的拍摄界面901时，如果检测到手机在后台启动了语音APP，则手机可获取与相机APP的拍摄界面901关联的配置文件，进而将该配置文件中的语音任务以语音输入提示902的形式显示在拍摄界面901中。例如，语音输入提示902可以包括“拍照”、“录像”、“自拍”、“查看照片”等。其中，“拍照”与拍摄界面901中的拍照按钮对应，“录像”与拍摄界面901中的录像按钮对应，“自拍”与拍摄界面901中的开启前置摄像头的按钮对应，“查看照片”与拍摄界面901中的照片缩略图903对应。这些语音输入提示902所对应的语音任务均为语音APP能够在拍摄界面901中执行的任务。

示例性的，手机在显示如图9中的(a)所示的拍摄界面901时，如果检测到用户输入“拍照”这一语音控制信号，则手机可调用语音APP响应该语音控制信号执行与对应的拍照操作。手机完成拍照操作可继续显示相机APP的拍摄界面901，此时，如图9中的(b)所示，手机上一次拍照得到的照片缩略图903也可以显示在拍摄界面901中。并且，手机可继续显示拍摄界面901对应的语音输入提示902。那么，如果用户希望查看上一次拍照得到的照片，用户可向手机输入“查看照片”的语音控制信号。响应于该语音控制信号，如图10所示，手机可打开图库APP显示最近一张图片的浏览界面904。并且，手机可获取与浏览界面904关联的配置文件，进而将该配置文件中的语音任务以语音输入提示905的形式显示在浏览界面904中。例如，语音输入提示905可以包括“放大”、“缩小”、“下一张”、“返回相机”等。其中，浏览界面904中显示的照片也可以作为一个控件，“放大”、“缩小”和“下一张”等语音输入提示905均与该照片对应。其中，“放大”与在该照片中进行放大操作对应，“缩小”与在该照片中进行缩小操作对应，“下一张”与在该照片上执行滑动操作对应。如果浏览界面904中包含用于显示下一张的按钮，则“下一张”还可与该用于显示下一张的按钮对应。

进一步地，如果手机具有人像识别功能，则手机还可以自动识别浏览界面904中包含的人像，例如用户A。进而，如果接收到用户输入的语音控制信号为“放大用户A”，则手机可以用户A(例如用户A的脸部)所在的位置为中心放大当前显示的图片。

也就是说，手机进入某一应用的界面，并在后台启动语音APP后，手机可将语音APP在当前界面中能够执行的语音任务提示给用户。这样，用户能够准确的获知如何使用语音APP通过语音控制当前界面中的各项功能，从而提高语音APP的使用效率。

另外，在同一应用的界面中手机显示的语音输入提示也可以是动态变化的。例如，如果手机检测到播放界面601中正在播放视频，则手机可隐藏“播放”这一语音输入提示。相应的，如果检测到用户暂停了播放界面601中正在播放视频，则手机可显示“播放”这一语音输入提示，同时，手机可隐藏“暂停”这一语音输入提示，本申请实施例对此不做任何限制。

示例性的，手机可以在启动语音APP后立即显示与第一界面相关的语音输入提示。或者，手机在启动语音APP后，如果在一定时间(例如2秒)内没有采集到用户输入的语音控制信号，说明此时用户可能不知道如何使用语音APP，因此，手机可显示与第一界面相关的语音输入提示。又或者，如图11所示，手机在启动语音APP后，还可以在第一界面(例如上述播放界面601)中显示提示按钮1001。如果检测到用户点击该提示按钮1001，则手机可按照上述方法在播放界面601中显示如图8所示的相关语音输入提示801。

当手机在第一界面中显示了上述语音输入提示一段时间(例如3秒)后，可自动隐藏上述语音输入提示。或者，手机在第一界面中显示出上述语音输入提示后，如果在一定时间内没有采集到用户输入的语音控制信号，或者，在一定时间内没有检测到用户在触摸屏中的输入事件，则手机可在第一界面中自动隐藏上述语音输入提示。

需要说明的是，手机在第一界面中显示上述语音输入提示这一步骤(即步骤S504)为可选步骤。也就是说，手机在后台启动语音APP后也可以不向用户提示语音APP在当前界面中支持的语音任务，本申请实施例对此不做任何限制。

无论手机是否显示上述语音输入提示，当手机在后台启动语音APP后，用户便可以使用语音APP向手机输入语音控制信号，那么，语音APP采集到用户输入的语音控制信号后可继续执行下述步骤S505。

S505、响应于语音APP采集到的语音控制信号，手机执行与该语音控制信号对应的语音任务，使得手机将显示的第一界面更新为第二界面。

仍以上述播放界面601举例，手机在上述播放界面601中显示出语音输入提示801后，用户可根据语音输入提示801向手机输入相应的语音控制信号。此时，语音APP仍在后台运行，因此，语音APP可通过麦克风采集到用户输入的语音控制信号。例如，用户输入“播放”或“开始播放”等语音控制信号后，语音APP可使用预设的语音识别算法将用户输入的语音控制信号转换为文本信号并进行语义理解，识别出与该语音控制信号对应的实际语音任务。进而，语音APP可将识别出的实际语音任务上报给应用程序框架层中的VUI管理器，由VUI管理器将该实际语音任务与步骤S503中获取的配置文件1中记录的语音任务进行比较，从而确定用户输入的语音控制信号是否为配置文件1中支持的语音任务。

如果用户输入的语音控制信号是配置文件1中的某一语音任务，例如，用户输入的语音控制信号“播放”为配置文件1中的语音任务1，则VUI管理器可根据配置文件1执行与语音任务1对应的触控事件。仍以语音任务1举例，配置文件1中记录了语音任务1与播放按钮对应，具体与点击播放界面中的播放按钮这一触控事件对应，说明用户输入语音控制信号“播放”是希望控制播放界面601中的播放按钮602实现播放功能。那么，VUI管理器可按照配置文件1中的bindViewId字段和voiceOnClick字段执行视频APP中点击播放按钮所对应的相关函数(例如语音任务1中的voiceSwitchPower回调函数)，从而在视频APP中实现“播放”这一语音控制信号对应的语音任务。此时，如图12所示，播放界面601中的播放按钮602被点击后，手机播放的视频内容发生改变，并且，原本显示的播放按钮602可更新为暂停按钮1103，即手机显示的界面从第一界面更新为第二界面1102。

另外，如图12所示，实现“播放”这一语音控制信号对应的语音任务后，语音APP还可以显示对用户输入的语音控制信号的响应信息1101，提示用户已经完成对语音控制信号的响应。后续，用户还可以继续与语音APP对话完成对其他语音控制信号的响应。

或者，手机确定出用户输入的语音控制信号是配置文件1中的语音任务1后，由于语音任务1中记录了该任务具体为播放任务，且该任务作用的按钮为播放按钮，因此，VUI管理器还可以将播放按钮的点击事件上报给视频APP。例如，VUI管理器可将播放按钮的坐标携带在点击事件中上报给视频APP。进而，视频APP响应该点击事件可调用框架层的相关函数执行播放视频的播放任务。

可以看出，本申请实施例中可以为应用中的各个界面设置相应的配置文件，配置文件中记录了对应的界面所支持的语音任务，以及该语音任务所对应的具体触控事件。这样，在运行该应用的某一界面时，手机可根据该界面的配置文件将用户输入的语音控制信号转换为对应的触控事件，进而执行该触控事件，从而实现通过语音控制应用的界面中各个操作按钮的功能。这样一来，手机可以应用的界面为粒度实现对界面中各个操作按钮的语音控制功能，从而提高手机的语音控制效率和用户体验。

另外，手机确定出用户输入的语音控制信号是配置文件1中的播放任务后，还可以在播放界面601中将点击播放按钮602这一触控操作的动画效果显示出来，从视觉上提示用户手机正在响应用户输入的语音控制信号。又例如，用户通过语音向手机正在显示的界面中输入文本(例如电话号码等)时，手机也可以在该界面中将电话号码的输入过程呈现给用户，使得用户在GUI(graphical user interface，图形用户界面)和VUI中均获得良好的用户体验。

示例性的，手机确定出用户输入的语音控制信号是配置文件1中的播放任务后，手机可通过执行以下代码在触摸屏中模拟点击事件的显示过程。

相应的，如果用户输入的语音控制信号不属于第一界面的配置文件中的某一语音任务，则说明手机不支持在当前的第一界面中执行用户发出的语音控制信号，那么，手机可通过语音APP提示用户无法完成该语音任务或提示用户重新输入语音任务。

在另一些实施例中，如图13所示，手机通过语音APP采集到用户输入的语音控制信号后，还可将该语音控制信号发送给服务器。例如，当用户输入的语音控制信号较为复杂导致语音APP难以识别时，手机可将用户输入的语音控制信号发送给服务器，由服务器对用户输入的语音控制信号进行语义识别和理解，识别出该语音控制信号对应的实际语音任务。后续，服务器可将识别出的实际语音任务发送给手机，使得手机将该实际语音任务与对应的配置文件中的语音任务进行比对，从而确定用户输入的语音控制信号是否为配置文件中支持的语音任务。

示例性的，在本申请实施例中，手机除了可将用户输入的语音控制信号发送给服务器，还可以将第一界面的界面信息发送给服务器。例如，第一界面的界面信息可以是第一界面的标识，也可以是第一界面的页面类型(例如设置界面、聊天界面等)，还可以是第一界面所属应用的类型(例如视频类应用)或包名(package name)等。

例如，用户的手机中同时安装了携程App和Booking App，其中，Booking App为手机中语音APP默认使用的应用之一。仍如图13所示，当前手机显示携程APP的首页1201，当手机在后台启动了语音APP时，语音APP采集到用户输入了“我要订机票”的语音控制信号。进而，手机可将语音APP采集到的语音控制信号发送给服务器。并且，手机还可以将当前运行的首页1201的界面信息(例如携程APP的包名)发送给服务器。这样，服务器可结合该界面信息对“我要订机票”这一语音控制信号进行语音识别，识别出用户发出的实际语音任务为：使用携程APP预定机票，而不是使用Booking App预定机票。那么，服务器将识别出的实际语音任务发送给手机后，手机可根据该实际语音任务自动打开携程APP的机票搜索界面，完成对“我要订机票”这一语音控制信号的响应。

相应的，如果手机当前显示的不是携程APP中的某一界面。例如，当手机当前显示桌面(也可称为主屏幕，homescreen)时，如果手机在后台启动了语音APP，且语音APP采集到用户输入了“我要订机票”的语音控制信号，则手机可将语音APP采集到的语音控制信号发送给服务器。并且，手机还可以将当前运行的桌面的界面信息发送给服务器。这样，服务器可结合该界面信息对“我要订机票”这一语音控制信号进行语音识别，识别出用户发出的实际语音任务为：使用默认的Booking App预定机票，而不是使用携程APP预定机票。那么，服务器将识别出的实际语音任务发送给手机后，手机可根据该实际语音任务自动打开Booking App的机票搜索界面，完成对“我要订机票”这一语音控制信号的响应。

也就是说，本申请实施例中手机可以主动将正在运行的应用的界面信息发送给服务器，由于该界面信息可以反映出手机当前的实际使用场景，因此，服务器可以结合该界面信息更加准确的对用户输入的语音控制信号进行语音识别，从而更加准确的确定出用户发出的实际语音任务。

如图14所示，本申请实施例公开了一种电子设备，包括：触摸屏1401，所述触摸屏1401包括触敏表面1406和显示屏1407；一个或多个处理器1402；存储器1403；通信模块1408；一个或多个应用程序(未示出)；以及一个或多个计算机程序1404，上述各器件可以通过一个或多个通信总线1405连接。其中该一个或多个计算机程序1404被存储在上述存储器1403中并被配置为被该一个或多个处理器1402执行，该一个或多个计算机程序1404包括指令，该指令可以用于执行上述实施例中的各个步骤，例如，该指令可以用于执行图5中所示的各个步骤。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请实施例各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：快闪存储器、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请实施例的具体实施方式，但本申请实施例的保护范围并不局限于此，任何在本申请实施例揭露的技术范围内的变化或替换，都应涵盖在本申请实施例的保护范围之内。因此，本申请实施例的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音控制方法，其特征在于，包括：

电子设备显示第一应用的第一界面，所述第一界面包括用于更新所述第一界面的控件；

响应于用户输入的唤醒信号，所述电子设备在后台启动语音应用；

所述电子设备在所述第一界面上显示M条语音输入提示，其中所述M条语音输入提示中的每条语音输入提示与所述第一界面中的一个控件对应，M为大于0的整数；

所述电子设备采集到用户输入的第一语音控制信号，所述第一语音控制信号与所述M条语音输入提示中的第一语音输入提示对应；

响应于所述第一语音控制信号，所述电子设备显示所述第一应用的第二界面，所述第二界面是所述第一界面中第一控件被触发后更新的界面，所述第一控件与所述第一语音输入提示对应；

所述电子设备显示第二应用的第三界面，并在所述第三界面上显示L条语音输入提示，其中，所述第三界面包括用于更新所述第三界面的控件，所述L条语音输入提示中每条语音输入提示与所述第三界面中的一个控件对应，L为大于0的整数，所述L条语音输入提示不同于所述M条语音输入提示；

所述电子设备采集到用户输入的第二语音控制信号，所述第二语音控制信号与所述L条语音输入提示中的第二语音输入提示对应；

响应于所述第二语音控制信号，所述电子设备显示所述第二应用的第四界面，所述第四界面是所述第三界面中第二控件被触发后更新的界面，所述第二控件与所述第二语音输入提示对应。

2.根据权利要求1所述的方法，其特征在于，在所述电子设备在后台启动语音应用之后，还包括：

若检测到用户对所述第一界面中控件的触控操作，则所述电子设备执行与所述触控操作对应的操作指令。

3.根据权利要求2所述的方法，其特征在于，在所述电子设备在后台启动语音应用之后，还包括：

所述电子设备在所述第一界面上显示一个图标用于表示所述电子设备的麦克风正在后台采集语音信号。

4.根据权利要求3所述的方法，其特征在于，所述第一应用为音乐应用，所述第一界面为所述音乐应用的音乐播放界面，所述方法还包括：

在所述第一界面显示以下内容中的一个或多个：

播放控件以及与所述播放控件对应的语音输入提示，或

暂停控件以及与所述暂停控件对应的语音输入提示，或

上一首控件以及与所述上一首控件对应的语音输入提示，或

下一首控件以及与所述下一首控件对应的语音输入提示，或

增加音量控件以及与所述增加音量控件对应的语音输入提示，或

减小音量控件以及与所述减小音量控件对应的语音输入提示。

5.根据权利要求3所述的方法，其特征在于，所述第一应用为相机应用，所述第一界面为所述相机应用的拍摄界面，所述方法还包括：

在所述第一界面显示以下内容中的一个或多个：

拍照控件以及与所述拍照控件对应的语音输入提示，或

录像控件以及与所述录像控件对应的语音输入提示，或

开启前置摄像头控件以及与所述开启前置摄像头控件对应的语音输入提示，或

查看照片控件以及与所述查看照片控件对应的语音输入提示。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

在所述拍摄界面，接收用户输入的拍照的语音控制信号；

响应于所述拍照的语音控制信号，拍摄一张照片，并继续显示所述拍摄界面以及所述拍摄界面上的语音输入提示，并在所述拍摄界面显示所述照片的缩略图。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

在所述拍摄界面，接收用户输入的查看照片的语音控制信号；

响应于所述查看照片的语音控制信号，显示所述照片。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括以下操作中的一个或多个：

在显示所述照片的界面，接收用户输入的放大的语音控制信号，放大所述照片，或

在显示所述照片的界面，接收用户输入的缩小的语音控制信号，缩小所述照片，或

在显示所述照片的界面，接收用户输入的下一张的语音控制信号，在所述照片上执行滑动操作，或

在显示所述照片的界面，接收用户输入的返回相机的语音控制信号，显示所述相机的拍摄画面。

9.根据权利要求4所述的方法，其特征在于，在所述第一界面，显示所述暂停控件以及与所述暂停控件对应的语音输入提示；所述方法还包括：

接收用户输入的暂停的语音控制信号，响应于所述暂停的语音控制信号，显示所述第二界面，其中，所述第二界面为所述暂停控件被触发后更新的界面，所述第二界面显示所述播放控件以及与所述播放控件对应的语音输入提示，且不显示所述暂停控件以及与所述暂停控件对应的语音输入提示。

10.根据权利要求1-9任一项所述的方法，其特征在于，所述第一语音控制信号包括所述第一控件的名称，或，所述第二语音控制信号包括所述第二控件的名称。

11.根据权利要求10所述的方法，其特征在于，通过配置文件获取所述第一控件的名称，或，通过配置文件获取所述第二控件的名称。

12.根据权利要求10所述的方法，其特征在于，所述唤醒信号包括用户输入的唤醒词。

13.根据权利要求10所述的方法，其特征在于，所述唤醒信号为用户对按键的点击信号。

14.根据权利要求1-9或11-13任一项所述的方法，其特征在于，响应于所述第一语音控制信号，所述电子设备显示所述第一应用的第二界面，具体为：

响应于所述第一语音控制信号，所述电子设备通过模拟触摸操作，将所述第一界面更新为所述第二界面。

15.根据权利要求1-9或11-13任一项所述的方法，其特征在于，还包括：

在启动所述语音应用后，在所述第一界面上，立即显示所述M条语音输入提示。

16.根据权利要求1-9或11-13任一项所述的方法，其特征在于，还包括：

在启动所述语音应用后，在预设时间后，在所述第一界面上显示所述M条语音输入提示。

17.根据权利要求1-9或11-13任一项所述的方法，其特征在于，还包括：

在所述电子设备采集到用户输入的第一语音控制信号之前，自动隐藏所述M条语音输入提示。

18.一种电子设备，其特征在于，包括：

触摸屏，其中，所述触摸屏包括触敏表面和显示屏；

一个或多个处理器；

一个或多个存储器；

以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述一个或多个存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述电子设备执行时，使得所述电子设备执行以下步骤：

显示第一应用的第一界面，所述第一界面包括用于更新所述第一界面的控件；

响应于用户输入的唤醒信号，在后台启动语音应用；

在所述第一界面上显示M条语音输入提示，其中所述M条语音输入提示中的每条语音输入提示与所述第一界面中的一个控件对应，M为大于0的整数；

采集到用户输入的第一语音控制信号，所述第一语音控制信号与所述M条语音输入提示中的第一语音输入提示对应；

响应于所述第一语音控制信号，显示所述应用的第二界面，所述第二界面是所述第一界面中第一控件被触发后更新的界面，所述第一控件与所述第一语音输入提示对应；

显示第二应用的第三界面，并在所述第三界面上显示L条语音输入提示，其中，所述第三界面包括用于更新所述第三界面的控件，所述L条语音输入提示中每条语音输入提示与所述第三界面中的一个控件对应，L为大于0的整数，所述L条语音输入提示不同于所述M条语音输入提示；

采集到用户输入的第二语音控制信号，所述第二语音控制信号与所述L条语音输入提示中的第二语音输入提示对应；

响应于所述第二语音控制信号，显示所述第二应用的第四界面，所述第四界面是所述第三界面中第二控件被触发后更新的界面，所述第二控件与所述第二语音输入提示对应。

19.根据权利要求18所述的电子设备，其特征在于，所述电子设备在后台启动语音应用之后，所述电子设备还用于执行：

若检测到用户对所述第一界面中控件的触控操作，则执行与所述触控操作对应的操作指令。

20.根据权利要求18所述的电子设备，其特征在于，所述电子设备在后台启动语音应用之后，所述电子设备还用于执行：

在所述第一界面上显示一个图标用于表示所述电子设备的麦克风正在后台采集语音信号。

21.根据权利要求20所述的电子设备，其特征在于，所述第一应用为音乐应用，所述第一界面为所述音乐应用的音乐播放界面，，所述电子设备还用于执行：

在所述第一界面显示以下内容中的一个或多个：

播放控件以及与所述播放控件对应的语音输入提示，或

暂停控件以及与所述暂停控件对应的语音输入提示，或

上一首控件以及与所述上一首控件对应的语音输入提示，或

下一首控件以及与所述下一首控件对应的语音输入提示，或

22.根据权利要求20所述的电子设备，其特征在于，所述第一应用为相机应用，所述第一界面为所述相机应用的拍摄界面，所述电子设备还用于执行：

在所述第一界面显示以下内容中的一个或多个：

拍照控件以及与所述拍照控件对应的语音输入提示，或

录像控件以及与所述录像控件对应的语音输入提示，或

23.根据权利要求22所述的电子设备，其特征在于，所述电子设备还用于执行：

在所述拍摄界面，接收用户输入的拍照的语音控制信号；

24.根据权利要求23所述的电子设备，其特征在于，所述电子设备还用于执行：

响应于所述查看照片的语音控制信号，显示所述照片。

25.根据权利要求24所述的电子设备，其特征在于，所述电子设备还用于执行以下步骤中的一个或多个：

26.根据权利要求21所述的电子设备，其特征在于，在所述第一界面，显示所述暂停控件以及与所述暂停控件对应的语音输入提示；所述电子设备还用于执行：

27.根据权利要求18-26任一项所述的电子设备，其特征在于，所述第一语音控制信号包括所述第一控件的名称，或，所述第二语音控制信号包括所述第二控件的名称。

28.根据权利要求27所述的电子设备，其特征在于，通过配置文件获取所述第一控件的名称，或，通过配置文件获取所述第二控件的名称。

29.根据权利要求27所述的电子设备，其特征在于，所述唤醒信号包括用户输入的唤醒词。

30.根据权利要求27所述的电子设备，其特征在于，所述唤醒信号为用户对按键的点击信号。

31.根据权利要求18-26或28-30任一项所述的电子设备，其特征在于，所述电子设备执行响应于所述第一语音控制信号，显示所述第一应用的第二界面，具体为：

响应于所述第一语音控制信号，通过模拟触摸操作，将所述第一界面更新为所述第二界面。

32.根据权利要求18-26或28-30任一项所述的电子设备，其特征在于，所述电子设备还用于执行：

33.根据权利要求18-26或28-30任一项所述的电子设备，其特征在于，所述电子设备还用于执行：

34.根据权利要求18-26或28-30任一项所述的电子设备，其特征在于，所述电子设备还用于执行：

35.一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，其特征在于，当所述指令在电子设备上运行时，使得所述电子设备执行如权利要求1-17中任一项所述的语音控制方法。