CN115472156A

CN115472156A - 语音控制方法、装置、存储介质及电子设备

Info

Publication number: CN115472156A
Application number: CN202211080475.7A
Authority: CN
Inventors: 马浩
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2022-09-05
Filing date: 2022-09-05
Publication date: 2022-12-13

Abstract

本申请实施例公开了一种语音控制方法、装置、存储介质及电子设备，其中，本申请实施例提供的方法包括：获取外部的语音数据；确定语音数据包括的第一关键词，并对第一关键词进行分类；根据第一关键词的分类结果，确定针对第一关键词的目标响应策略；根据目标响应策略对第一关键词进行响应。其中，对语音数据包括的第一关键词进行分类，并根据分类结果执行对应的响应策略，提高了语音控制的灵活性。

Description

语音控制方法、装置、存储介质及电子设备

技术领域

本申请涉及智能语音技术领域，具体涉及一种语音控制方法、装置、存储介质及电子设备。

背景技术

语音免唤醒技术为不需要唤醒词即可与电子设备进行语音交互的智能语音技术。在语音控制电子设备时，通过使用语音免唤醒技术能够更加便捷地控制电子设备。然而，现有技术的语音控制方式不够灵活。

发明内容

本申请实施例提供一种语音控制方法、装置、存储介质及电子设备，能够提高语音控制的灵活性。

第一方面，本申请实施例提供一种语音控制方法，包括：

获取外部的语音数据；

确定语音数据包括的第一关键词，并对第一关键词进行分类；

根据第一关键词的分类结果，确定针对第一关键词的目标响应策略；

根据目标响应策略对第一关键词进行响应。

第二方面，本申请实施例还提供一种语音控制装置，包括：

语音获取模块，用于获取外部的语音数据；

关键词检测模块，用于确定语音数据包括的第一关键词，并对第一关键词进行分类；

分类处理模块，用于根据第一关键词的分类结果，确定针对第一关键词的目标响应策略；

语音控制模块，用于根据目标响应策略对第一关键词进行响应。

第三方面，本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，当计算机程序在计算机上运行时，使得计算机执行如本申请任一实施例提供的语音控制方法。

第四方面，本申请实施例还提供一种电子设备，包括处理器和存储器，存储器有计算机程序，处理器通过调用计算机程序，用于执行如本申请任一实施例提供的语音控制方法。

本申请实施例提供的技术方案，通过对第一关键词进行分类，以根据分类结果确定对应的目标响应策略，并根据目标响应策略对第一关键词进行响应，其中，不同类别的第一关键词配置有不同的响应策略。相比于现有技术中仅通过固定的响应策略进行语音控制而言，本申请方案能够动态地根据第一关键词的类别适配对应的目标响应策略，从而提高语音控制的灵活性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的语音控制方法的应用场示意图。

图2为本申请实施例提供的语音控制方法的流程示意图。

图3为本申请实施例提供的语音控制装置的结构示意图。

图4为本申请实施例提供的语音控制装置的另一结构示意图。

图5为本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都属于本申请的保护范围。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请实施例中提及了一种语音控制方法，该语音控制方法的执行主体可以是本申请实施例提供的语音控制装置，或者集成了该语音控制装置的电子设备，其中该语音控制装置可以采用硬件或者软件的方式实现。其中，电子设备可以是智能手机、折叠屏手机、平板电脑、掌上电脑、笔记本电脑、智能屏、智能家居、智能机器人、智能穿戴设备、智能音箱等，其中，智能家居包括但不限于智能台灯、智能洗衣机、智能空调、智能门锁等，智能穿戴设备包括但不限于智能手表、智能腰带、智能眼镜等。

本申请中的电子设备可基于对其功能的改进以实现本申请提供的语音控制方法，其中，可在电子设备中增加免唤醒模块，或者对现存模块进行改进，以使得电子设备具有免唤醒功能。即在开启电子设备的免唤醒功能之后，电子设备即可直接响应用户语音，以执行用户语音对应的操作，以此能够提高语音控制的效率。

比如，请参阅图1，图1为本申请实施例提供的语音控制方法的应用场示意图。图1中，电子设备为手机，手机可采集外部的语音数据。每当接收到一条语音数据，即可确定语音数据包括的第一关键词，以当语音数据包括第一关键词时，即可执行对应的语音控制操作。

具体方案请参阅图2，图2为本申请实施例提供的语音控制方法的流程示意图。本申请实施例提供的语音控制方法的具体流程可以如下：

101、获取外部的语音数据。

其中，外部的语音数据指的是电子设备所处外界环境中的声音，而该声音可通过电子设备自带的麦克风采集得到，也可通过与电子设备连接的外部设备采集得到。比如，可通过手机采集外界环境中的声音，或者通过与手机连接的外部麦克风采集外界环境中的声音。

当电子设备通过自带的麦克风采集外界环境中的声音时，可先通过开启音频采集功能，以使得电子设备自带的麦克风启动。其中，音频采集功能可在电子设备开机时自启动，或者由用户控制而启动。

示例性地，电子设备可默认开启免唤醒功能。也可在需要使用免唤醒功能的时候再开启免唤醒功能。其中，可同时启动电子设备的免唤醒功能和音频采集功能，或者在启动免唤醒功能后启动音频采集功能，两者的启动顺序此处并不进行限定。其中，免唤醒功能的启动方式包括用户手动启动、用户语音控制启动、通过预设条件触发电子设备自启动、用户手势启动等其中的任意一种。

当用户手动启动免唤醒功能时，可比如为电子设备的设置界面显示有免唤醒功能的触摸按键，用户通过操作该触摸按键即可启动免唤醒功能，当然地，通过对既有的触摸按键进行设定，还可使其既能启动原有的功能也能启动免唤醒功能，比如，通过蓝牙的触摸按键既可启动蓝牙功能又可启动免唤醒功能，即蓝牙功能和免唤醒功能同时启动。

当用户语音控制启动免唤醒功能时，可比如为通过相关技术中的语音助手控制电子设备的免唤醒功能启动。

当通过预设条件触发电子设备自启动免唤醒功能时，预设条件可比如为用户启动指定的应用程序时控制免唤醒功能自启动，而该指定的应用程序可为一个或多个；预设条件还比如可为当检测到电子设备处于指定环境时控制免唤醒功能自启动，而该指定环境可比如为驾驶环境、通话环境、文件传输环境等。

当用户手势启动免唤醒功能时，可比如为用户通过手指关节在电子设备的屏幕上画出指定图案，也可比如为用户在摄像头面前展示指定手势。

由于启动免唤醒功能的方式有多种，此处不再列举。可以理解地，还可对上述多种启动方式进行结合以启动免唤醒功能，而启动免唤醒功能后，电子设备即进入免唤醒模式，当关闭免唤醒功能后，则退出免唤醒模式。电子设备在退出免唤醒模式后还可执行相关技术中通用的语音控制方法，故而，本申请通过在电子设备中增设免唤醒功能能够更加灵活地对电子设备进行语音控制，既可通过相关技术中既有方式语音控制电子设备，也可通过本申请提供的方式语音控制电子设备。

102、确定语音数据包括的第一关键词，并对第一关键词进行分类。

示例性地，可通过音素识别的方式检测出语音数据中的一个或多个关键词，进而根据检测出的关键词确定语音数据中包括的第一关键词。

当确定出语音数据中包括的第一关键词之后，可对第一关键词进行分类。其中，可预先设置多个关键词类别，进而将第一关键词划分至多个关键词类别的其中之一。其中，关键词类别包括：免唤醒词和语音唤醒词，其中，免唤醒词分为命令词和非命令词，其中，命令词是不需要进行语音识别和语义理解处理的，非命令词是需要进行语音识别和语义理解处理的。非命令词包括第一非命令词和第二非命令词，其中，第一非命令词包括隐私信息，第二非命令词不包括隐私信息。

103、根据第一关键词的分类结果，确定针对第一关键词的目标响应策略。

其中，分类结果与响应策略是一一对应关系或者是多对一关系。而响应策略指的是电子设备所采用的对第一关键词进行响应的方法。为不同类别的第一关键词配置不同的响应策略，能够灵活地对不同类别的第一关键词进行响应。

104、根据目标响应策略对第一关键词进行响应。

当确定目标响应策略之后，即可按照目标响应策略对语音数据进行处理以完成对电子设备的语音控制。

具体实施时，本申请不受所描述的各个步骤的执行顺序的限制，在不产生冲突的情况下，某些步骤还可以采用其它顺序进行或者同时进行。

由上可知，本申请实施例提供的语音控制方法，通过获取外部的语音数据，并对语音数据进行检测以确定语音数据包括的第一关键词，进而可对第一关键词进行分类，以得到分类结果，而后根据分类结果确定针对第一关键词的目标响应策略，其中，不同类别的第一关键词对应不同的响应策略，以此能够避免现有技术中仅通过固定响应策略进行语音控制的弊端，本申请能够动态地根据第一关键词的类别实施不同的响应策略，从而提高语音控制的灵活性。

在一些实施例中，对第一关键词进行分类之前，方法还包括：

确定语音数据是否包括第一关键词；

若是，则对第一关键词进行分类；

若否，则忽略语音数据，并继续获取外部的语音数据。

示例性地，仅当语音数据包括第一关键词时，才说明用户需要通过该语音数据控制电子设备，而当语音数据不包括第一关键词时，说明用户并不需要通过该语音数据控制电子设备，以此能够避免误控制电子设备。

其中，通过对语音数据进行音素识别以确定其是否包括第一关键词，而音素识别区别于语音识别，即并不需要采用语音识别方式以将语音数据转换成文本来确定第一关键词，相比于语音识别而言，通过音素识别第一关键词能够减小电子设备的功耗。

在一些实施例中，可通过如下几种方式之一确定语音数据是否包括第一关键词：

作为一种实施例，可以对语音数据的句首进行关键词检测，若语音数据的句首位置上出现指定的关键词，即可确定语音数据包括第一关键词。比如，若语音数据为“打开***”、“播放***”、“导航到***”、“关闭***”、“下一首”、“上一首”、“暂停播放”、“继续播放”等，即可将语音数据中的“打开”、“播放”、“导航到”、“关闭”、“下一首”、“上一首”、“暂停播放”、“继续播放”等作为语音数据包括的第一关键词。可以理解地，也可对语音数据的句尾或句中进行关键词检测，以确定句尾或句中是否出现指定的关键词。

作为又一种实施例，若语音数据中出现与预设的关键词关联的关键词，即可确定语音数据包括第一关键词。其中，可将语音数据中的关键词与预设的关键词进行比对，以从中确定是否有与预设的关键词匹配的第一关键词。可以理解地，预设的关键词有多个，可将关键词与每一个预设的关键词逐一进行匹配，进而将匹配成功的预设的关键词作为语音数据的第一关键词。此种方式利于防止语音控制的误触发，提高语音控制的安全性。

示例性地，确定语音数据包括的第一关键词，包括：

确定语音数据中是否包含预设的关键词；

若是，则将语音数据中包含的预设的关键词作为语音数据包括的第一关键词。

其中，预设的关键词有多个，其包括但不限于：“打开”、“第一个”、“下一个”、“搜索”、“关闭”、“播放”等。或者，也可以指示应用，比如为“打开微信”、“打开淘宝”、“关闭腾讯视频”等。

如上，本申请实施例中设定预设的关键词，从而当语音数据中具有同样的另一个关键词时，即可视为该语音数据中包含有预设的关键词，而若语音数据中不具有同样的另一个关键词时即可忽略该语音数据，以此避免了需要对语音数据进行语音识别或语义理解，节省了电子设备的功耗。

示例性地，确定语音数据包括的第一关键词，还包括：

对语音数据进行关键词检测，得到目标关键词；

从预设的关键词中确定与目标关键词匹配的第二关键词；

将第二关键词确定为语音数据包括的第一关键词。

示例性地，可通过检测句首位置的关键词作为目标关键词，进而从预设的关键词中确定与目标关键词匹配的第二关键词。当然地，确定目标关键词的方式并不局限于此，可比如为先对语音数据进行音素识别得到关键词，进而从关键词中确定出目标关键词，当有一个关键词时该一个关键词即为目标关键词，当有多个关键词时可从多个关键词中确定出一个作为目标关键词。

进一步，还可设置筛选目标关键词的条件，比如为筛选词性为动词的关键词作为目标关键词，故而，若语音数据中包括目标关键词则继续执行后续的步骤，即从预设的关键词中确定与目标关键词匹配的第二关键词。而若语音数据中不包括目标关键词即忽略语音数据，继续采集外部的语音数据。可以理解地，筛选条件还可为关键词是否指示某一应用，若是，则该关键词为目标关键词。

当得到目标关键词之后，即可将目标关键词与预设的关键词进行匹配，其中，预设的关键词有多个，在进行匹配时，可从预设的关键词中选择一个与目标关键词之间的相似度大于预设相似阈值的第二关键词，进而将该第二关键词作为语音数据包括的第一关键词。

其中，确定预设的关键词与目标关键词之间的相似度的方式可比如为通过训练好的相似度模型判别、通过向量方式计算相似度、通过语义关联判别相似度中的至少一种，但并不局限于此。当得到每一预设的关键词与目标关键词之间的相似度之后，即可将相似度与相似度阈值进行比较，继而仅将相似度大于相似度阈值的预设的关键词称为第二关键词。其中，相似度阈值可按照经验设置、或者为常规设置、或者可由用户自定义设置。

对此，此处进行举例说明，比如，语音数据为“开启电视”，目标关键词为“开启”，而预设的关键词中并没有“开启”，但“打开”与“开启”之间的相似度大于相似度阈值，即可将“打开”作为语音数据的第一关键词，得到的语音数据指示“打开电视”。

由此可见，此实施例中通过确定与目标关键词匹配的第二关键词，也能够避免语音数据中必须包含预设的关键词之一，以此能够提高语音控制电子设备的效率和有效性。

在一些实施例中，根据第一关键词的分类结果，确定针对第一关键词的目标响应策略，包括：

若分类结果指示第一关键词属于命令词，则确定目标响应策略为确定待执行对象，并针对待执行对象执行第一关键词对应的第一命令词；或者，

若分类结果指示第一关键词属于第一非命令词，则确定目标响应策略为通过本地语音识别引擎对语音数据进行语音识别处理，得到第一语音识别结果，并根据第一语音识别结果确定第二命令词；或者，

若分类结果指示第一关键词属于第二非命令词，则确定目标响应策略为通过云端语音识别引擎或本地语音识别引擎对语音数据进行语音识别处理，得到第二语音识别结果，并根据第二语音识别结果确定第三命令词；或者，

若分类结果指示第一关键词属于语音唤醒词，则确定目标响应策略为从语音数据中截取位于语音唤醒词之后的待执行语音，并通过云端语音识别引擎或本地语音识别引擎对待执行语音进行语音识别处理，得到第三语音识别结果，并根据第三语音识别结果确定第四命令词。

在该实施例中，若第一关键词被划分至语音唤醒词、命令词、第一非命令词以及第二非命令词中的一个，则根据分类结果确定目标响应策略。

其中，命令词属于免唤醒词，且可以直接指示动作。比如，命令词可以为“上一首”、“下一首”、“下一集”、“下一个”、“返回”、“关闭”、“调高音量”、“调低音量”等。当第一关键词属于命令词时，先确定出待执行对象，进而针对待执行对象执行第一关键词对应的第一命令词。其中，待执行对象指的是电子设备当前正在运行的应用，或者当前显示的界面。待执行对象执行第一关键词对应的第一命令词，比如为控制当前正在运行的应用启动或关闭某些功能等，其中，某些功能可比如为“导航”、“定位”、“循环播放”等。再比如，控制当前显示的界面上的某些虚拟按键触发，其中虚拟按键可比如“下一首”、“暂停”、“继续播放”、“退出播放”等。

示例性地，电子设备能够调用本地语音识别引擎、云端语音识别引擎以及语义理解引擎。且本地语音识别引擎、云端语音识别引擎以及语义理解引擎默认处于关闭状态。

对于命令词而言，并不需要对命令词进行语音识别和语义理解处理，故而，当第一关键词属于命令词时，电子设备控制本地语音识别引擎、云端语音识别引擎以及语义理解引擎均处于关闭状态。以此，能够极大地减小需使用本地语音识别引擎、云端语音识别引擎以及语义理解引擎所带来的功耗，从而提高了电子设备的续航能力。

其中，第一非命令词属于免唤醒词、不直接指示动作、且包含隐私信息。其中，第一非命令词可比如为“解锁”、“输入密码”、“银行卡号是”、“打开通讯录”、“查看日程”、“打开备忘录”等涉及用户个人隐私信息的敏感关键词。当第一关键词属于第一非命令词时，需要对语音数据进行语音识别和语义理解处理。

当第一关键词属于第一非命令词时，通过启动本地语音识别引擎，并基于本地语音识别引擎对语音数据进行语音识别处理，得到第一语音识别结果。以此，避免了将语音数据传输至云端服务器进行语音识别处理，能够隐藏第一语音识别结果的声纹特征、电子设备标识等信息，提高了语音处理的安全性，并且保护了用户隐私。

其中，在根据第一语音识别结果确定第二命令词时，通过调用语义理解引擎先将第一语音识别结果发送至语义理解服务器，由语义理解服务器对第一语音识别结果进行语义理解，并返回对应的语义理解结果，再根据该语义理解结果确定第二命令词。电子设备根据第二命令词指示的待执行对象响应该第二命令词。

在此情形下，仅启动本地语音识别引擎和语义理解引擎，而云端语音识别引擎处于关闭状态。且仅在进行语音识别处理时才启动本地语音识别引擎，在语音识别处理完成后关闭本地语音识别引擎，以及仅在进行语义理解处理时才启动语义理解引擎，在语义理解处理完成后关闭语义理解引擎。其中，通过调用本地语音识别引擎对语音数据进行语音识别处理，能够保护用户隐私。同时，由于本地语音识别引擎可在离线条件下使用，并不受网络环境的限制，能够提高语音识别的有效性。另外，由于调用本地语音识别引擎，相比于通过调用云端语音识别引擎以将语音数据发送至云端服务器进行语音识别处理而言，能够降低电子设备的功耗。

其中，第二非命令词属于免唤醒词、不直接指示动作、且不包含隐私信息。当第一关键词属于第二非命令词时，在本地语音识别引擎和云端语音识别引擎中择其一以进行语音识别处理，得到第二语音识别结果。之后，可继续对第二语音识别结果进行语义理解处理，具体参照上述内容，此处不再赘述。

当第一关键词属于第二非命令词时，通过在本地语音识别引擎和云端语音识别引擎中选择一个进行语音识别处理，能够兼顾两者的优势。其中，启动本地语音识别引擎进行语音识别处理具有保护用户隐私、不受网络环境限制以及功耗低的优势，而通过调用云端语音识别引擎进行语音识别处理具有语音识别准确高、语音识别效率高的优势。

在此情形下，可通过启动本地语音识别引擎和云端语音识别引擎中的一个，以及启动语义理解引擎，且在进行语音识别处理之后关闭选中的本地语音识别引擎或云端语音识别引擎，在进行语义理解处理后关闭语义理解引擎，能够降低电子设备的功耗。

其中，语音唤醒词可为电子设备默认的唤醒词，或者可为用户自定义的唤醒词，还可为通过分析用户惯常用语得到的使用频繁的一个或多个词语以用作语音唤醒词。可以理解地，语音唤醒词可为一个或多个，其可比如为“小布小布”、“你好小布”、“哈喽小布”等。通过设定语音唤醒词可提高唤醒电子设备的灵活性，更符合用户使用习惯，避免了相关技术中通过生硬的一个唤醒词唤醒电子设备。

当第一关键词属于语音唤醒词时，从语音数据中截取位于语音唤醒词之后的待执行语音。并通过启动云端语音识别引擎或本地语音识别引擎中的一个以对待执行语音进行语音识别处理，得到第三语音识别结果。之后，通过启动语义理解引擎对第三语音识别结果进行语义理解处理，得到语义理解结果，并接收从语义理解服务器发送的语义理解结果，以根据语义理解结果得到第四命令词。

其中，语音数据由前半部分的语音唤醒词和后半部分的待执行语音构成，能够实现Oneshot(即语音指令一句直达功能)，可应对低频语音控制场景。比如，语音数据为：“你好小布讲个笑话”，其中，“你好小布”为语音唤醒词，“讲个笑话”为待执行语音；又比如，语音数据为“小布小布背个古诗”，其中，“小布小布”为语音唤醒词，“背个古诗”为待执行语音。其中，通过设置Oneshot响应策略能够提高电子设备的语音控制的有效性，以及提高用户体验。

在此情形下，仅启动本地语音识别引擎和语义理解引擎，或者仅启动云端语音识别引擎和语义理解引擎，且在语音识别处理完成后关闭本地语音识别引擎或云端语音识别引擎，以及在语义理解处理完成后关闭语义理解引擎，以此，能够节省电子设备的功耗。

在一些实施例中，在通过云端语音识别引擎或本地语音识别引擎对语音数据进行语音识别处理，得到第二语音识别结果，并根据第二语音识别结果确定第三命令词，根据目标响应策略对第一关键词进行响应。也可为通过云端语音识别引擎和本地语音识别引擎协同对语音数据进行语音识别处理，得到第二语音识别结果，并根据第二语音识别结果确定第三命令词，根据目标响应策略对第一关键词进行响应，实施方式如下：

作为一种实施例，若确定的目标响应策略为通过云端语音识别引擎或本地语音识别引擎对语音数据进行语音识别处理，得到第二语音识别结果，并根据第二语音识别结果确定第三命令词，根据目标响应策略对第一关键词进行响应，包括：

从云端语音识别引擎和本地语音识别引擎中确定出目标语音识别引擎；

通过目标语音识别引擎对语音数据进行语音识别处理，得到第二语音识别结果；

根据第二语音识别结果确定第三命令词，并响应第三命令词。

在该实施例中，可从云端语音识别引擎和本地语音识别引擎中则其一作为目标语音识别引擎，而选择条件可为本地存储空间、网络环境、语音数据的数据量等。

比如，若本地存储空间较小，可选择本地语音识别引擎作为目标语音识别引擎，而若本地存储空间较大，则选择云端语音识别引擎作为目标语音识别引擎。同理，若网络环境较差，可选择本地语音识别引擎作为目标语音识别引擎，反之则选择云端语音识别引擎作为目标语音识别引擎。以及，若语音数据的数据量较大，可选择本地语音识别引擎作为目标语音识别引擎，反之则选择云端语音识别引擎作为目标语音识别引擎。

可以理解地，本实施例中的较大和较小是相对而言的，可通过与一个或多个预设阈值进行比较确定是否较大或较小，此处则不详述。

示例性地，从云端语音识别引擎和本地语音识别引擎中确定出目标语音识别引擎，包括：

检测当前网络环境，并确定当前网络环境是否为预设网络环境；

若是，则将云端语音识别引擎确定为目标语音识别引擎；

若否，则将本地语音识别引擎确定为目标语音识别引擎。

其中，网络环境可指示网络安全性、网络稳定性、网速、丢包情况、带宽情况等，网络环境影响云端服务器的响应速度。其中，若将语音数据发送至云端服务器，通过云端服务器的云端语音识别引擎进行语音识别处理时，若网络环境较好，则云端服务器能够较快地处理完成语音数据得到第二语音识别结果。

示例性地，可将网络环境较好的情况视为预设网络环境，而网络环境可分为较好和较差两种情况，当网络环境较差时，说明其不为预设网络环境。其中，网络环境较好的情况可指示网络安全、网络稳定、网速高、丢包少、带宽大等其中之一或多个。而网络安全、网络稳定、网速高、丢包少、带宽大等判别方式可为经验所得，或通过与预设阈值进行比较所得，或者由用户自定义设定所得，具体实施例方式此处并不限定。

作为另一种实施例，若确定的目标响应策略为通过云端语音识别引擎和本地语音识别引擎协同对语音数据进行语音识别处理，得到第二语音识别结果，并根据第二语音识别结果确定第三命令词，根据目标响应策略对第一关键词进行响应，包括：

通过本地语音识别引擎和云端语音识别引擎分别对语音数据进行语音识别处理，得到本地识别结果和云端识别结果；

从本地识别结果和云端识别结果中确定出置信度最大的作为第二语音识别结果；

在此实施例，还可通过本地语音识别引擎和云端语音识别引擎分别对语音数据进行语音识别处理，其中，通过本地语音识别引擎得到本地识别结果，通过云端语音识别引擎得到云端识别结果，进而可对两者的识别结果进行对比，选择其中之一作为第二语音识别结果。

其中，本地识别结果和云端识别结果均具有一个置信度，可从两者中选择一个最大的作为第二语音识别结果。

当然地，还可设置一个预设识别阈值，即确定本地识别结果和云端识别结果中是否存在置信度大于预设识别阈值的第二语音识别结果，若是，则将本地识别结果和云端识别结果中置信度大于预设识别阈值的确定为第二语音识别结果，而若两者的置信度均大于预设识别阈值，可将两者中置信度最大的作为第二语音识别结果。

当然地，还存在本地识别结果和云端识别结果的置信度均不大于预设识别阈值的情况，在此情况下，可重新对语音数据进行协同的语音识别处理，或者忽略此语音数据，或者提醒用户识别失败等。

作为又一种实施例，若确定的目标响应策略为通过云端语音识别引擎和本地语音识别引擎协同对语音数据进行语音识别处理，得到第二语音识别结果，并根据第二语音识别结果确定第三命令词，根据目标响应策略对第一关键词进行响应，包括：

通过本地语音识别引擎和云端语音识别引擎分别对语音数据进行语音识别处理；

根据云端语音识别引擎在预设时长内的响应结果确定第二语音识别结果；

本实施例中，考虑到一般情况下通过本地语音识别引擎对语音数据进行语音识别处理得到本地识别结果的时间与通过云端语音识别引擎对语音数据进行语音识别处理得到云端识别结果的时间具有差异。故而，通过对云端语音识别引擎在预设时长内的响应结果判断得到本地识别结果和云端识别结果之间的时间差是否较大，若得到本地识别结果的时间远大于得到云端识别结果的时间，则将本地识别结果作为第二语音识别结果，且忽略云端识别结果，从而提高语音识别的效率。若得到本地识别结果的时间和得到云端识别结果的时间差较小，则将云端识别结果作为第二语音识别结果，且忽略本地识别结果，从而提高语音识别的准确度。

示例性地，根据云端语音识别引擎在预设时长内的响应结果确定第二语音识别结果，包括：

若云端语音识别引擎在预设时长内未得到云端识别结果，则将本地语音识别引擎在预设时长内得到本地识别结果作为第二语音识别结果；

若云端语音识别引擎在预设时长内得到云端识别结果，则将云端识别结果作为第二语音识别结果。

在本实施例中，通过判断云端语音识别引擎在预设时长内的响应结果，即可判断当前网络环境，并不需要对网络进行检测。比如，在网络环境较好的情况下，通过本地语音识别引擎对语音数据进行语音识别处理，在预设时长内能够得到本地识别结果，以及通过云端语音识别引擎对语音数据进行语音识别处理，在预设时长内能够得到云端识别结果。而在网络环境较差的情况下，在预设时长内仅能够得到本地识别结果，不能得到云端识别结果。故而，可当在预设时长内得到云端识别结果时直接采用云端识别结果，而忽略本地识别结果；当在预设时长内未得到云端识别结果时直接采用本地识别结果，而忽略云端识别结果。

其中，预设时长可为默认值，该默认值通过经验所得或由用户自定义设定。预设时长还可动态变更，动态变更的条件包括但不限于当前网络环境、用户与电子设备之间的距离等。比如，当前网络环境较差时，可调高预设时长，当前网络环境较好时，可调低预设时长。再比如，用户与电子设备之间距离较大时，可调高预设时长，用户与电子设备之间距离较小时，可调低预设时长。由于动态变更预设时长的方式有多种，此处不再列举，凡是能够通过动态变更预设时长以确定是否使用本地识别结果作为第二语音识别结果的方案均属于本申请所要求的保护范围。

在一些实施例中，确定目标响应策略为通过云端语音识别引擎或本地语音识别引擎对语音数据进行语音识别处理，得到第二语音识别结果，并根据第二语音识别结果确定第三命令词之前，还包括：

确定电子设备的运行功耗；

若运行功耗大于预设功耗，则确定目标响应策略为通过云端语音识别引擎或本地语音识别引擎对语音数据进行语音识别处理，得到第二语音识别结果，并根据第二语音识别结果确定第三命令词；

若运行状态不大于预设功耗，则确定目标响应策略为通过云端语音识别引擎和本地语音识别引擎协同对语音数据进行语音识别处理，得到第二语音识别结果，并根据第二语音识别结果确定第三命令词，根据目标响应策略对第一关键词进行响应。

在此实施例中，通过判断电子设备的运行功耗，运行功耗大于预设功耗时，说明电子设备的运行功耗较大，仅启动本地语音识别引擎和云端语音识别引擎中的一个进行语音识别处理，从而降低功耗。而当运行功耗不大于预设功耗时，说明电子设备的运行功耗较小，通过同时启动本地语音识别引擎和云端语音识别引擎进行语音识别处理，能够提高语音识别准确度。

可以理解地，也可通过判断电子设备的剩余电量、运行内存等方式确定是否同时启动本地语音识别引擎和云端语音识别引擎。比如，当剩余电量较多时，可同时启动本地语音识别引擎和云端语音识别引擎，否则，仅启动本地语音识别引擎和云端语音识别引擎中的一个。再比如，当运行内存较大时，可同时启动本地语音识别引擎和云端语音识别引擎，否则，仅启动本地语音识别引擎和云端语音识别引擎中的一个。

在一些实施例中，获取外部的语音数据之前，还包括：

确定当前使用场景；

若当前使用场景为预设使用场景，则启动免唤醒功能，并获取外部的语音数据，预设使用场景包括驾驶场景、音频播放场景、通话场景以及拍摄场景中的至少一种。

其中，确定当前使用场景可通过当前应用程序使用的电子设备的功能而定。比如，若正在通过导航类软件使用定位功能，则说明当前使用场景为驾驶场景。再比如，若通过某些应用使得电子设备的扬声器使能，以进行音频播放，则说明当前使用场景为音频播放场景，其中，应用可比如为酷狗音乐、QQ音乐、网易云音乐、酷我音乐、抖音、快手、腾讯视频、优酷视频、爱奇艺视频等。又比如，若通过某些应用使得电子设备连接网络且麦克风使能，以进行网络通信，则说明当前使用场景为通话场景，而应用可比如为电话、微信、QQ等。还比如，若通过某些应用使得电子设备的摄像头使能，以进行图像采集，则说明当前使用场景为拍摄场景，而应用可比如为电子设备自带的相机、微信、支付宝等。

可以理解地，上述的预设使用场景仅限于举例，目的在于说明电子设备在进入此类预设使用场景时，免唤醒功能可自启动，以此避免了需要用户手动操作免唤醒功能，方便用户使用，也提高了免唤醒功能的启动效率。

还需说明的是，若在检测当前使用场景之前免唤醒功能已启动，则此处并不对操作免唤醒功能，仅当在此之前免唤醒功能已关闭时，才启动免唤醒功能。

在一些实施例中，若当前使用场景为音频播放场景，确定语音数据包括的第一关键词之前，还包括：

获取当前播放的音频数据；

根据音频数据对语音数据进行回声消除处理，得到回声消除后的语音数据；

确定语音数据包括的第一关键词，包括：

确定回声消除后的语音数据包括的第一关键词。

在此实施例中，可先对音频播放场景中的语音数据进行回声消除，以从语音数据中过滤电子设备外放的音频数据，使得回声消除后的语音数据中不再包含当前电子设备播放的音频数据，此种方式能够避免音频数据在语音识别过程中对语音数据的干扰，有利于提高语音识别的准确性。

其中，在进行回声消除时，可使得回声通道数量与扬声器播放音频数据的通道数量一致，从而利于消除语音数据中关于音频数据的回声。

在一些实施例中，若当前使用场景为驾驶场景或通话场景，确定语音数据包括的第一关键词之前，还包括：

对语音数据进行降噪处理，得到降噪处理后的语音数据；

确定语音数据包括的第一关键词，包括：

确定降噪处理后的语音数据包括的第一关键词。

在此实施例中，通过对语音数据进行降噪处理，能够对语音数据中的外界环境噪音进行过滤，利于提高语音数据在进行语音识别时的准确性。

其中，外界环境噪音可比如为驾驶场景中的汽车鸣笛声、汽车引擎声等，也可比如为通话场景中其它用户的嘈杂声、环境噪音等。

在一些实施例中，确定语音数据包括的第一关键词，并对第一关键词进行分类，包括：

获取当前使用场景对应的关键词集合；

对语音数据进行关键词检测，得到目标关键词；

从关键词集合中确定与目标关键词匹配的第二关键词；

将第二关键词确定为语音数据包括的第一关键词。

示例性地，对于预设的关键词，还可针对其使用场景进行分类，也即不同的使用场景可对应有不同的关键词集合，或者不同的应用可对应有不同的关键词集合，而不同的关键词集合中包含的预设的关键词中的部分不相同。可以理解地，可仅对预设使用场景或该预设使用场景对应的应用设置对应的关键词集合，而同一预设使用场景的不同应用可对应相同的关键词集合，也可对应不同的关键词集合，此处并不进行限定。

其中，当预设使用场景有多个时，通过设定不同的多个关键词集合，且从多个关键词集合选择当前使用场景对应的一个关键词集合，以此能够减小匹配第二关键词的数据量，从而提高匹配效率，且提高匹配准确度。

而每一当前使用场景对应的关键词集合中预设的关键词可和该场景相关，比如，驾驶场景对应的关键词集合可包括“导航”、“定位”、“查看路线”之类预设的关键词，也可包括通用的关键词，如“打开”、“关闭”、“返回”、“退出”等。同理，音频播放场景对应的关键词集合可包括“下一首”、“上一首”、“调高音量”、“调低音量”等预设的关键词。

在一些实施例中，启动免唤醒功能之后，还包括：

若当前使用场景发生变更，且变更后的使用场景不为预设使用场景，则关闭免唤醒功能。

其中，当前使用场景发生变更可指的是电子设备退出当前使用场景，或者电子设备的其它应用启动。在当前使用场景发生变更时，还可判断变更后的使用场景是否为预设使用场景，若是，则保持免唤醒功能的启动状态，若否，则关闭免唤醒功能。

可以理解地，当关闭免唤醒功能后，电子设备还可以执行相关技术中的语音控制方法，且当关闭免唤醒功能后，也关闭音频采集功能、本地语音识别引擎、云端语音识别引擎、语义理解引擎等，具体实施方式可由本领域技术人员根据实际需求选择，此处并不进行限定。

由上可知，本发明实施例提出的语音控制方法，通过控制免唤醒功能的启动或关闭，既可通过相关技术中既有方式语音控制电子设备，也可通过本申请提供的方式语音控制电子设备，能够更加灵活地对电子设备的语音控制模式进行切换。另外，还通过检测语音数据中包括的第一关键词，从而提高语音控制的安全性和准确性。再者，还为不同类别的第一关键词配置相应的响应策略能够实现对语音控制方式的细分，提高语音控制的灵活性和有效性。在面对有隐私信息和没有隐私信息的语音数据时，可通过本地语音识别引擎对语音数据进行处理，从而实现对语音数据脱敏的效果，保护用户隐私，且提高处理效率、降低功耗。而当没有隐私信息时，可通过本地语音识别引擎和云端语音识别引擎协同对语音数据进行处理，从而兼顾语音识别的效率、功耗、隐私保护等方面的需求。再者，还可通过检测当前使用场景，以决定是否自启动免唤醒功能或自关闭免唤醒功能，方便用户使用，且在当前使用场景下还可根据其对应的关键词集合确定语音数据包括的第一关键词，从而缩小第一关键词的匹配范围，提高匹配效率，且提高匹配准确度。其次，还可先对语音数据进行回声消除或降噪处理，以利于提高语音数据在进行语音识别时的准确性。

在一实施例中还提供一种语音控制装置。请参阅图3，图3为本申请实施例提供的语音控制装置200的结构示意图。其中该语音控制装置200应用于电子设备，该语音控制装置200包括：

语音获取模块210，用于获取外部的语音数据；

关键词检测模块220，用于确定语音数据包括的第一关键词，并对第一关键词进行分类；

分类处理模块230，用于根据第一关键词的分类结果，确定针对第一关键词的目标响应策略；

语音控制模块240，用于根据目标响应策略对第一关键词进行响应。

在一些实施例中，请参阅图4，图4为本申请实施例提供的语音控制装置200的另一结构示意图。语音获取模块210还包括录音模块211；

语音获取模块210用于启动免唤醒功能；

录音模块211用于获取外部的语音数据。

在一些实施例中，关键词检测模块220还用于：

对语音数据进行关键词检测，得到目标关键词；

从预设的关键词中确定与目标关键词匹配的第二关键词；

将第二关键词确定为语音数据包括的第一关键词。

在一些实施例中，语音控制模块240还包括指令执行模块246、本地语音识别模块242、云端语音识别模块243、唤醒词唤醒模块244、语义理解模块245以及端云识别模块241，端云识别模块241用于协同云端语音识别模块243和本地语音识别模块242；

若分类结果指示第一关键词属于命令词，则指令执行模块246用于确定待执行对象，并针对待执行对象执行第一关键词对应的第一命令词；或者，

若分类结果指示第一关键词属于第一非命令词，则本地语音识别模块242用于通过本地语音识别引擎对语音数据进行语音识别处理，得到第一语音识别结果，语义理解模块245用于根据第一语音识别结果确定第二命令词；或者，

若分类结果指示第一关键词属于第二非命令词，则端云识别模块241用于通过云端语音识别引擎或本地语音识别引擎对语音数据进行语音识别处理，得到第二语音识别结果，语义理解模块245用于根据第二语音识别结果确定第三命令词；或者，

若分类结果指示第一关键词属于语音唤醒词，则端云识别模块241用于从语音数据中截取位于语音唤醒词之后的待执行语音，并通过云端语音识别引擎或本地语音识别引擎对待执行语音进行语音识别处理，得到第三语音识别结果，语义理解模块245用于根据第三语音识别结果确定第四命令词。

在一些实施例中，端云识别模块241还用于：

语义理解模块245还用于：将第二语音识别结果发送至语义理解服务器，并接收从语义理解服务器返回的语义理解结果，并根据语义理解结果确定第三命令词；

指令执行模块246还用于：响应第三命令词。

在一些实施例中，端云识别模块241还用于：

若是，则将云端语音识别引擎确定为目标语音识别引擎；

若否，则将本地语音识别引擎确定为目标语音识别引擎。

在一些实施例中，端云识别模块241还用于：通过本地语音识别引擎和云端语音识别引擎分别对语音数据进行语音识别处理，得到本地识别结果和云端识别结果；

语义理解模块245还用于：根据第二语音识别结果确定第三命令词；

指令执行模块246还用于：响应第三命令词。

在一些实施例中，启动免唤醒功能之前，语音获取模块210还用于：

确定当前使用场景；

若当前使用场景为预设使用场景，则启动免唤醒功能，并并获取外部的语音数据，预设使用场景包括驾驶场景、音频播放场景、通话场景以及拍摄场景中的至少一种。

在一些实施例中，语音控制装置还包括回声消除模块250，若当前使用场景为音频播放场景，确定语音数据包括的第一关键词之前，回声消除模块250用于：

获取当前播放的音频数据；

关键词检测模块220还用于：

确定回声消除后的语音数据包括的第一关键词。

在一些实施例中，语音获取模块210还用于：

应当说明的是，本申请实施例提供的语音控制装置与上文实施例中的语音控制方法属于同一构思，通过该语音控制装置可以实现语音控制方法实施例中提供的任一方法，其具体实现过程详见语音控制方法实施例，此处不再赘述。

由上可知，本申请实施例提出的语音控制装置，通过控制免唤醒功能的启动或关闭，既可通过相关技术中既有方式语音控制电子设备，也可通过本申请提供的方式语音控制电子设备，能够更加灵活地对电子设备的语音控制模式进行切换。另外，还通过检测语音数据中包括的第一关键词，从而提高语音控制的安全性和准确性。再者，还为不同类别的第一关键词配置相应的响应策略能够实现对语音控制方式的细分，提高语音控制的有效性。在面对有隐私信息和没有隐私信息的语音数据时，可通过本地语音识别引擎对语音数据进行处理，从而实现对语音数据脱敏的效果，保护用户隐私，且提高处理效率、降低功耗。而当没有隐私信息时，可通过本地语音识别引擎和云端语音识别引擎协同对语音数据进行处理，从而兼顾语音识别的效率、功耗、隐私保护等方面的需求。再者，还可通过检测当前使用场景，以决定是否自启动免唤醒功能或自关闭免唤醒功能，方便用户使用，且在当前使用场景下还可根据其对应的关键词集合确定语音数据包括的第一关键词，从而缩小第一关键词的匹配范围，提高匹配效率，且提高匹配准确度。其次，还可先对语音数据进行回声消除或降噪处理，以利于提高语音数据在进行语音识别时的准确性。

本申请实施例还提供一种电子设备，该电子设备可以是智能手机、折叠屏手机、平板电脑、掌上电脑、笔记本电脑、智能屏、智能家居、智能机器人、智能穿戴设备、智能音箱等，其中，智能家居包括但不限于智能台灯、智能洗衣机、智能空调、智能门锁等，智能穿戴设备包括但不限于智能手表、智能腰带、智能眼镜等。如图5所示，图5为本申请实施例提供的电子设备的结构示意图。该电子设备300包括有一个或者一个以上处理核心的处理器301、有一个或一个以上计算机可读存储介质的存储器302及存储在存储器302上并可在处理器上运行的计算机程序。其中，处理器301与存储器302电性连接。本领域技术人员可以理解，图中示出的电子设备结构并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

处理器301是电子设备300的控制中心，利用各种接口和线路连接整个电子设备300的各个部分，通过运行或加载存储在存储器302内的软件程序和/或模块，以及调用存储在存储器302内的数据，执行电子设备300的各种功能和处理数据，从而对电子设备300进行整体监控。

在本申请实施例中，电子设备300中的处理器301会按照如下的步骤，将一个或一个以上的应用程序的进程对应的指令加载到存储器302中，并由处理器301来运行存储在存储器302中的应用程序，从而实现各种功能：

获取外部的语音数据；

根据目标响应策略对第一关键词进行响应。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

尽管图5中未示出，电子设备300还可以包括录音模块、扬声器模块、摄像头、连网模块、蓝牙模块等，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

由上可知，本实施例提供的电子设备，通过控制免唤醒功能的启动或关闭，既可通过相关技术中既有方式语音控制电子设备，也可通过本申请提供的方式语音控制电子设备，能够更加灵活地对电子设备的语音控制模式进行切换。另外，还通过检测语音数据中包括的第一关键词，从而提高语音控制的安全性和准确性。再者，还为不同类别的第一关键词配置相应的响应策略能够实现对语音控制方式的细分，提高语音控制的有效性。在面对有隐私信息和没有隐私信息的语音数据时，可通过本地语音识别引擎对语音数据进行处理，从而实现对语音数据脱敏的效果，保护用户隐私，且提高处理效率、降低功耗。而当没有隐私信息时，可通过本地语音识别引擎和云端语音识别引擎协同对语音数据进行处理，从而兼顾语音识别的效率、功耗、隐私保护等方面的需求。再者，还可通过检测当前使用场景，以决定是否自启动免唤醒功能或自关闭免唤醒功能，方便用户使用，且在当前使用场景下还可根据其对应的关键词集合确定语音数据包括的第一关键词，从而缩小第一关键词的匹配范围，提高匹配效率，且提高匹配准确度。其次，还可先对语音数据进行回声消除或降噪处理，以利于提高语音数据在进行语音识别时的准确性。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条计算机程序，该计算机程序能够被处理器进行加载，以执行本申请实施例所提供的任一种语音控制方法中的步骤。例如，该计算机程序可以执行如下步骤：

获取外部的语音数据；

根据目标响应策略对第一关键词进行响应。

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。由于该存储介质中所存储的计算机程序，可以执行本申请实施例所提供的任一种语音控制方法中的步骤，因此，可以实现本申请实施例所提供的任一种语音控制方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本申请实施例所提供的一种语音控制方法、装置、介质及电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本申请的限制。

Claims

1.一种语音控制方法，其特征在于，包括：

获取外部的语音数据；

确定所述语音数据包括的第一关键词，并对所述第一关键词进行分类；

根据所述第一关键词的分类结果，确定针对所述第一关键词的目标响应策略；

根据所述目标响应策略对所述第一关键词进行响应。

2.如权利要求1所述的语音控制方法，其特征在于，所述确定所述语音数据包括的第一关键词，包括：

对所述语音数据进行关键词检测，得到目标关键词；

从预设的关键词中确定与所述目标关键词匹配的第二关键词；

将所述第二关键词确定为所述语音数据包括的第一关键词。

3.如权利要求1所述的语音控制方法，其特征在于，所述第一关键词属于语音唤醒词、命令词、第一非命令词以及第二非命令词中的一个，所述命令词、所述第一非命令词以及所述第二非命令词均为免唤醒词，所述第一非命令词包括隐私信息，所述第二非命令词不包括隐私信息；所述根据所述第一关键词的分类结果，确定针对所述第一关键词的目标响应策略，包括：

若所述分类结果指示所述第一关键词属于所述命令词，则确定所述目标响应策略为确定待执行对象，并针对所述待执行对象执行所述第一关键词对应的第一命令词；或者，

若所述分类结果指示所述第一关键词属于所述第一非命令词，则确定所述目标响应策略为通过本地语音识别引擎对所述语音数据进行语音识别处理，得到第一语音识别结果，并根据所述第一语音识别结果确定第二命令词；或者，

若所述分类结果指示所述第一关键词属于所述第二非命令词，则确定所述目标响应策略为通过云端语音识别引擎或所述本地语音识别引擎对所述语音数据进行语音识别处理，得到第二语音识别结果，并根据所述第二语音识别结果确定第三命令词；或者，

若所述分类结果指示所述第一关键词属于所述语音唤醒词，则确定所述目标响应策略为从所述语音数据中截取位于所述语音唤醒词之后的待执行语音，并通过所述云端语音识别引擎或所述本地语音识别引擎对所述待执行语音进行语音识别处理，得到第三语音识别结果，并根据所述第三语音识别结果确定第四命令词。

4.如权利要求3所述的语音控制方法，其特征在于，若确定的目标响应策略为通过云端语音识别引擎或所述本地语音识别引擎对所述语音数据进行语音识别处理，得到第二语音识别结果，并根据所述第二语音识别结果确定第三命令词，所述根据所述目标响应策略对所述第一关键词进行响应，包括：

检测当前网络环境，根据所述当前网络环境从所述云端语音识别引擎和所述本地语音识别引擎中确定出目标语音识别引擎；

通过所述目标语音识别引擎对所述语音数据进行语音识别处理，得到第二语音识别结果；

根据所述第二语音识别结果确定第三命令词，并响应所述第三命令词。

5.如权利要求4所述的语音控制方法，其特征在于，所述根据所述当前网络环境从所述云端语音识别引擎和所述本地语音识别引擎中确定出目标语音识别引擎，包括：

确定所述当前网络环境是否为预设网络环境；

若是，则将所述云端语音识别引擎确定为所述目标语音识别引擎；

若否，则将所述本地语音识别引擎确定为所述目标语音识别引擎。

6.如权利要求1至5任一项所述的语音控制方法，其特征在于，所述获取外部的语音数据之前，还包括：

确定当前使用场景；

若所述当前使用场景为预设使用场景，则启动免唤醒功能，并获取外部的语音数据，所述预设使用场景包括驾驶场景、音频播放场景、通话场景以及拍摄场景中的至少一种。

7.如权利要求6所述的语音控制方法，其特征在于，若当前使用场景为音频播放场景，所述确定所述语音数据包括的第一关键词之前，还包括：

获取当前播放的音频数据；

根据所述音频数据对所述语音数据进行回声消除处理，得到回声消除后的语音数据；

所述确定所述语音数据包括的第一关键词，包括：

确定所述回声消除后的语音数据包括的第一关键词。

8.如权利要求6所述的语音控制方法，其特征在于，所述启动免唤醒功能之后，还包括：

若当前使用场景发生变更，且变更后的使用场景不为所述预设使用场景，则关闭所述免唤醒功能。

9.一种语音控制装置，其特征在于，包括：

语音获取模块，用于获取外部的语音数据；

关键词检测模块，用于确定所述语音数据包括的第一关键词，并对所述第一关键词进行分类；

分类处理模块，用于根据所述第一关键词的分类结果，确定针对所述第一关键词的目标响应策略；

语音控制模块，用于根据所述目标响应策略对所述第一关键词进行响应。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，当所述计算机程序在计算机上运行时，使得所述计算机执行如权利要求1至8任一项所述的语音控制方法。

11.一种电子设备，包括处理器和存储器，所述存储器存储有计算机程序，其特征在于，所述处理器通过调用所述计算机程序，用于执行如权利要求1至8任一项所述的语音控制方法。