CN107832036B

CN107832036B - 语音控制方法、装置及计算机可读存储介质

Info

Publication number: CN107832036B
Application number: CN201711171472.3A
Authority: CN
Inventors: 武小军; 林形省; 冯智勇
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2017-11-22
Filing date: 2017-11-22
Publication date: 2022-01-18
Anticipated expiration: 2037-11-22
Also published as: CN107832036A

Abstract

本公开提供了一种语音控制方法、装置及计算机可读存储介质，属于语音处理技术领域。所述方法包括：接收到语音辅助指令后，在当前显示的用户界面中确定至少一个可操作对象；在用户界面中，为至少一个可操作对象中的每一个可操作对象添加视觉可读的标识信息；接收语音指令；当接收到的语音指令指示目标可操作对象的标识信息时，对目标可操作对象执行预设操作，目标可操作对象为至少一个可操作对象中的任一个可操作对象。本公开使得用户在不需要记忆语音指令的指令格式的前提下就能成功实现语音控制，提高了语音控制的效率。

Description

语音控制方法、装置及计算机可读存储介质

技术领域

本公开涉及语音处理技术领域，尤其涉及一种语音控制方法、装置及计算机可读存储介质。

背景技术

当前，语音控制技术在人们的日常生活中已经越来越常见了，所谓语音控制技术指的是用户向电子设备输入语音指令，而后，电子设备对该语音指令进行识别，并基于识别结果执行相应操作的技术。

目前，在进行语音控制时，用户需要基于预设的指令格式向电子设备输入语音指令，而后电子设备可以基于该预设的指令格式识别用户输入的语音指令类别，以根据该语音指令执行相应操作。例如，拨打电话的语音指令的指令格式可以为“打电话给某某”，导航的语音指令的指令格式可以为“导航到某地”。

在实现现有技术的过程中，发明人发现现有技术至少存在以下问题：

现有技术要求用户记忆不同语音指令对应的指令格式，而在用户遗忘了某一语音指令的指令格式时，语音控制就无法正常进行，导致语音控制的效率较低。

发明内容

本公开实施例提供了一种语音控制方法、装置及计算机可读存储介质，本公开实施例提供的技术方案能够提高语音控制的效率。

根据本公开实施例的第一方面，提供一种语音控制方法，所述方法包括：

接收到语音辅助指令后，在当前显示的用户界面中确定至少一个可操作对象；

在所述用户界面中，为所述至少一个可操作对象中的每一个可操作对象添加视觉可读的标识信息；

接收语音指令；

当接收到的所述语音指令指示目标可操作对象的标识信息时，对所述目标可操作对象执行预设操作，所述目标可操作对象为所述至少一个可操作对象中的任一个可操作对象。

可选的，所述标识信息为编号信息，在所述用户界面中，为所述至少一个可操作对象中的每一个可操作对象添加视觉可读的标识信息，包括：

根据所述至少一个可操作对象在所述用户界面中的排列顺序，生成所述每一个可操作对象对应的编号信息；

在所述用户界面中显示所述每一个可操作对象对应的编号信息。

可选的，所述用户界面为包含物品图像的图像界面，所述在当前显示的用户界面中确定至少一个可操作对象，包括：

对所述图像界面进行图像识别，确定所述图像界面中包括的至少一个物品图像；

将所述至少一个物品图像确定为所述至少一个可操作对象。

可选的，所述图像界面为虚拟现实图像界面，所述对所述图像界面进行图像识别，确定所述图像界面中包括的至少一个物品图像，包括：

获取所述虚拟现实图像界面的建模信息；

从所述虚拟现实图像界面的建模信息中确定至少一个虚拟物品建模信息；

在所述虚拟现实图像界面中确定每一个所述虚拟物品建模信息所对应的虚拟物品图像。

可选的，所述图像界面为虚拟现实图像界面，所述可操作对象为虚拟物品图像，所述对所述目标可操作对象执行预设操作，包括：

对目标虚拟物品图像执行缩放操作，并在所述虚拟现实图像界面中展示经过缩放操作的所述目标虚拟物品图像；或者，

获取所述目标虚拟物品图像对应的下级虚拟物品图像的建模信息，基于所述下级虚拟物品图像的建模信息在所述虚拟现实图像界面中展示所述下级虚拟物品图像。

可选的，所述图像界面为增强现实图像界面，所述对所述图像界面进行图像识别，确定所述图像界面中包括的至少一个物品图像，包括：

利用预设物品图像模型对所述增强现实图像界面进行检测，确定所述增强现实图像界面包括的至少一个现实物品图像，所述预设物品图像模型根据多个物品图像样本训练得到。

可选的，所述图像界面为增强现实图像界面，所述可操作对象为现实物品图像，所述对所述目标可操作对象执行预设操作，包括：

对目标现实物品图像执行缩放操作，并在所述增强现实图像界面中展示经过缩放操作的所述目标现实物品图像；或者，

当所述目标现实物品图像对应的目标现实物品为电子设备时，向所述电子设备发送预设操作指令；或者，

在所述增强现实图像界面中展示所述目标现实物品图像对应的所述目标现实物品的描述信息。

可选的，所述可操作对象为图标，所述对所述目标可操作对象执行预设操作，包括：

开启目标图标所对应的应用程序；或者，打开所述目标图标所对应的用户界面。

可选的，所述当接收到的所述语音指令指示目标可操作对象的标识信息时，对所述目标可操作对象执行预设操作，包括：

将所述语音指令转换为文本信息；

当所述文本信息包括指示所述目标可操作对象的标识信息的内容时，对所述目标可操作对象执行所述预设操作。

根据本公开实施例的第二方面，提供一种语音控制装置，所述装置包括：

确定模块，用于在接收到语音辅助指令后，在当前显示的用户界面中确定至少一个可操作对象；

添加模块，用于在所述用户界面中，为所述至少一个可操作对象中的每一个可操作对象添加视觉可读的标识信息；

接收模块，用于接收语音指令；

控制模块，用于在接收到的所述语音指令指示目标可操作对象的标识信息时，对所述目标可操作对象执行预设操作，所述目标可操作对象为所述至少一个可操作对象中的任一个可操作对象。

可选的，所述添加模块，用于：

可选的，所述用户界面为包含物品图像的图像界面，所述确定模块，用于：

将所述至少一个物品图像确定为所述至少一个可操作对象。

可选的，所述图像界面为虚拟现实图像界面，所述确定模块，用于：

获取所述虚拟现实图像界面的建模信息；

可选的，所述图像界面为虚拟现实图像界面，所述可操作对象为虚拟物品图像，所述控制模块，用于：

可选的，所述图像界面为增强现实图像界面，所述确定模块，用于：

可选的，所述图像界面为增强现实图像界面，所述可操作对象为现实物品图像，所述控制模块，用于：

可选的，所述可操作对象为图标，所述控制模块，用于：

可选的，所述控制模块，用于：

将所述语音指令转换为文本信息；

根据本公开实施例的第三方面，提供一种语音控制装置，所述装置包括：

处理器；

用于存储处理器可执行的指令的存储器；

其中，所述处理器被配置为：

接收语音指令；

根据本公开实施例的第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理组件执行时能够实现如上述第一方面任一所述的语音控制方法。

本公开的实施例提供的技术方案可以包括以下有益效果：

通过在接收到语音辅助指令后，为当前显示的用户界面中的每一个可操作对象添加视觉可读的标识信息，并在接收到的语音指令指示该用户界面中的目标可操作对象的标识信息时，对目标可操作对象执行预设操作，使得用户在进行语音控制时不需要记忆语音指令的指令格式，而只需要根据用户界面中显示的可操作对象的标识信息，向电子设备输入能够指示某一可操作对象的标识信息的语音指令即可，从而使得用户在不需要记忆语音指令的指令格式的前提下就能成功实现语音控制，提高了语音控制的效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种语音控制方法的流程图。

图2A是根据一示例性实施例示出的一种语音控制方法的流程图。

图2B是根据一示例性实施例示出的一种用户界面的示意图。

图2C是根据一示例性实施例示出的一种用户界面的示意图。

图2D是根据一示例性实施例示出的一种用户界面的示意图。

图2E是根据一示例性实施例示出的一种用户界面的示意图。

图3是根据一示例性实施例示出的一种语音控制装置的框图。

图4是根据一示例性实施例示出的一种语音控制装置的框图。

图5是根据一示例性实施例示出的一种语音控制装置的框图。

图6是根据一示例性实施例示出的一种语音控制装置的框图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚，下面将结合附图对本公开实施方式作进一步地详细描述。

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

当前，越来越多的电子设备都能够支持语音控制功能了。在进行语音控制时，用户需要根据预设的语音指令的指令格式向电子设备输入语音指令，例如，拨打电话的语音指令的指令格式可以为：打电话给某某，导航的语音指令的指令格式可以为：导航到某地。电子设备在接收到用户输入的语音指令后，可以识别该语音指令的指令格式，并基于识别出的指令格式确定该语音指令对应的操作，而后电子设备可以从该语音指令中提取执行该语音指令对应的操作所需的信息，以根据该信息执行语音指令对应的操作。

例如，用户在想要拨打电话给小王时，可以向手机输入语音指令：打电话给小王，手机接收到该语音指令后可以识别得到该语音指令的指令格式为：打电话给某某，此时手机可以确定该语音指令对应的操作为拨打电话的操作。而后，手机可以从用户输入的语音指令中提取出拨打电话的对象为“小王”，则手机就可以执行拨打电话给小王的操作。

如上所述，在进行语音控制时，用户需要记忆不同的操作对应的语音指令的指令格式，当用户遗忘了某一语音指令的指令格式时，电子设备很可能就无法正确识别用户输入的语音指令，从而导致语音控制无法正常进行，进而导致语音控制的效率较低。

为了提高语音控制的效率，本公开实施例提供了一种语音控制方法，该语音控制方法应用于具有语音控制功能的电子设备中，如VR(Virtual Reality，虚拟现实)设备、AR(Augmented Reality，增强现实)设备或移动终端等，如图1所示，该语音控制方法包括以下步骤：

步骤101、接收到语音辅助指令后，电子设备在当前显示的用户界面中确定至少一个可操作对象。

步骤102、在用户界面中，电子设备为至少一个可操作对象中的每一个可操作对象添加视觉可读的标识信息。

步骤103、电子设备接收语音指令。

步骤104、当接收到的语音指令指示目标可操作对象的标识信息时，电子设备对目标可操作对象执行预设操作，其中，目标可操作对象为至少一个可操作对象中的任一个可操作对象。

综上所述，本公开实施例提供的语音控制方法，通过在接收到语音辅助指令后，为当前显示的用户界面中的每一个可操作对象添加视觉可读的标识信息，并在接收到的语音指令指示该用户界面中的目标可操作对象的标识信息时，对目标可操作对象执行预设操作，使得用户在进行语音控制时不需要记忆语音指令的指令格式，而只需要根据用户界面中显示的可操作对象的标识信息，向电子设备输入能够指示某一可操作对象的标识信息的语音指令即可，从而使得用户在不需要记忆语音指令的指令格式的前提下就能成功实现语音控制，提高了语音控制的效率。

本公开实施例还提供了另一种语音控制方法，该语音控制方法应用于具有语音控制功能的电子设备中，如VR设备、AR设备或移动终端等，如图2A所示，该语音控制方法包括以下步骤：

步骤201、电子设备接收语音辅助指令。

当用户需要令电子设备执行本公开实施例所提供的语音控制方法时，用户可以向电子设备输入语音辅助指令，电子设备在接收到该语音辅助指令后即可触发执行本公开实施例所提供的语音控制方法。

实际应用中，用户向电子设备输入语音辅助指令的方式可以有许多种。在一种可能的实施方式中，用户可以按压电子设备上的预设按键(该预设按键可以为实体按键也可以为虚拟按键)，电子设备检测到该预设按键被按压后即可接收语音辅助指令，并触发执行本公开实施例所提供的语音控制方法。在另一种可能的实施方式中，用户可以向电子设备输入预设的语音指令，例如，该预设的语音指令可以为“语音助手，请辅助描述”，电子设备在识别到该预设的语音指令后即可接收语音辅助指令，并触发执行本公开实施例所提供的语音控制方法。在又一种可能的实施方式中，用户可以控制电子设备做预设运动，例如，该预设运动可以为向下的加速度大于预设加速度阈值的运动，电子设备在检测到自身正在做预设运动后即可接收语音辅助指令，并触发执行本公开实施例所提供的语音控制方法。当然，实际应用中还可能有其他的向电子设备输入语音辅助指令的方式，本公开实施例在此就不一一说明了。

步骤202、电子设备在当前显示的用户界面中确定至少一个可操作对象。

在实际应用中，电子设备当前显示的用户界面可以为包含至少一个图标和/或至少一个选项的界面，也可以为包含物品图像的图像界面。用户界面中的可操作对象指的是用户界面中可供触发的对象。

在电子设备当前显示的用户界面为包含至少一个图标和/或至少一个选项的界面时，该用户界面中的可操作对象即为图标和/或选项。在这种情况下，步骤202中，电子设备可以获取自身当前显示的用户界面的页面信息，并根据该页面信息在用户界面中确定至少一个可操作对象，也即是，在用户界面中确定至少一个图标和/或至少一个选项。

在电子设备当前显示的用户界面为包含物品图像的图像界面时，该图像界面中的可操作对象即为物品图像。在这种情况下，步骤202中，电子设备可以对自身当前显示的图像界面进行图像识别，确定该图像界面中包括的至少一个物品图像，而后电子设备可以将该至少一个物品图像确定为该图像界面中的至少一个可操作对象。在本公开的一个实施例中，电子设备在通过图像识别确定自身当前显示的图像界面中包括的至少一个物品图像后，还可以从该至少一个物品图像中确定可供触发的至少一个物品图像，而后用户设备可以将该可供触发的至少一个物品图像确定为该图像界面中的至少一个可操作对象。

实际应用中，包含物品图像的图像界面可以为VR图像界面，也可以为AR图像界面，其中，VR图像界面中可以包括至少一个虚拟物品图像，AR图像界面中可以包括至少一个现实物品图像。

在电子设备当前显示的用户界面为VR图像界面时，由于VR图像界面一般是基于建模信息建模得到的，因此，电子设备可以通过下述方法对VR图像界面进行图像识别，以确定该VR图像界面中包括的虚拟物品图像：

电子设备获取自身当前显示的VR图像界面的建模信息，其中，该VR图像界面的建模信息可以包括环境建模信息和虚拟物品建模信息，该环境建模信息为VR图像界面中的背景图像的建模信息，该虚拟物品建模信息为VR图像界面中的虚拟物品图像的建模信息。而后，电子设备可以从自身当前显示的VR图像界面的建模信息中确定至少一个虚拟物品建模信息，并在该VR图像界面中确定每一个虚拟物品建模信息所对应的虚拟物品图像。

如图2B所示为一个示例性的VR图像界面，该VR图像界面中可以包括背景图像和虚拟物品图像，该背景图像可以包括山的图像a和太阳的图像b，该虚拟物品图像可以包括小鹿玩偶的图像c和哆啦A梦玩偶的图像d。由于VR图像界面一般是通过建模方式生成的，因此，图2B中的VR图像界面可以对应于多个建模信息，该多个建模信息可以包括环境建模信息和虚拟物品建模信息，其中，该环境建模信息可以包括山的图像a的建模信息和太阳的图像b的建模信息，虚拟物品建模信息可以包括小鹿玩偶的图像c的建模信息和哆啦A梦玩偶的图像d的建模信息。电子设备可以从图2B中的VR图像界面的多个建模信息中确定虚拟物品图像建模信息，并根据该虚拟物品图像建模信息在该VR图像界面中确定出虚拟物品图像c和d。

在电子设备当前显示的用户界面为AR图像界面时，由于AR图像界面一般可以包括真实环境的图像，因此，电子设备可以通过下述方法对AR图像界面进行图像识别，以确定该AR图像界面中包括的现实物品图像：

电子设备利用预设物品图像模型对AR图像界面进行检测，确定AR图像界面包括的至少一个现实物品图像。

在实际应用中，上述预设物品图像模型可以根据多个物品图像样本训练得到。在一种可能的实现方式中，上述预设物品图像模型可以基于深度学习算法训练得到，在训练过程中，可以先收集大量的物品图像样本和非物品图像样本，例如，物品图像样本的张数可以为一百万张，非物品图像样本的张数可以为五百万张，并将该物品图像样本和非物品图像样本分别作为训练的正样本和负样本，基于上述正样本和负样本进行训练，训练完成后即可得到上述预设物品图像模型。

在利用预设物品图像模型对AR图像界面进行检测的过程中，电子设备可以将该AR图像界面作为该预设物品图像模型的输入，并基于输出结果得到AR图像界面包括的至少一个现实物品图像。

步骤203、在用户界面中，电子设备为至少一个可操作对象中的每一个可操作对象添加视觉可读的标识信息。

电子设备在确定了用户界面包括的至少一个可操作对象后，可以为该至少一个可操作对象中的每一个可操作对象生成一个视觉可读的标识信息，例如，该视觉可读的标识信息可以为编号信息、图标信息或颜色信息等。可选的，根据视觉可读标识信息的不同，电子设备为该至少一个可操作对象中的每一个可操作对象生成一个视觉可读的标识信息的技术过程可以包括：

在该视觉可读的标识信息为编号信息时，电子设备可以根据步骤202中确定的至少一个可操作对象在用户界面中的排列顺序，生成每一个可操作对象对应的编号信息。在本公开的一个实施例中，该排列顺序可以为由上至下以及由左至右的顺序，例如，如图2C所示，用户界面y中包括4个图标t1、t2、t3和t4，该4个图标t1、t2、t3和t4为用户界面y中的4个可操作对象，电子设备可以根据由上至下及由左至右的顺序生成该4个图标t1、t2、t3和t4的编号信息，其中，图标t1的编号信息为1，图标t2的编号信息为2，图标t3的编号信息为3，图标t4的编号信息为4。当然，上述排列顺序还可以为其他形式的排列顺序，本公开实施例对此就不一一说明了。

在视觉可读的标识信息为图标信息时，电子设备可以根据步骤202中确定的至少一个可操作对象的个数在预设的图标数据库(存储有多个图标的数据库)中选取与该至少一个可操作对象的个数相同个数的图标，在实际应用中，该图标可以为三角形图标、矩形图标或圆形图标等。而后，电子设备可以为每一个可操作对象分配一个图标以作为该可操作对象的图标信息。

在视觉可读的标识信息为颜色信息时，电子设备可以根据步骤202中确定的至少一个可操作对象的个数在预设的颜色数据库(存储有多个颜色的数据库)中选取与该至少一个可操作对象的个数相同个数的颜色，在实际应用中，该颜色可以为红色、绿色或蓝色等。而后，电子设备可以为每一个可操作对象分配一个颜色以作为该可操作对象的颜色信息。

需要指出的是，上述视觉可读的标识信息还可以为其他类型的能被人类视觉感知的标识信息，例如文字信息或高亮信息等，本公开实施例在此就不一一说明了。

在为每一个可操作对象生成一个视觉可读的标识信息后，电子设备可以在自身当前显示的用户界面中展示该标识信息，可选的，电子设备可以在自身当前显示的用户界面中的每一个可操作对象的周围展示该可操作对象的标识信息，或者，电子设备也可以在自身当前显示的用户界面中的每一个可操作对象之上展示该可操作对象的标识信息。

例如，如图2D所示，电子设备可以在自身当前显示的VR图像界面中的小鹿玩偶图像c的周围展示该小鹿玩偶的图像c的标识信息“1”，并可以在哆啦A梦玩偶的图像d的周围展示该哆啦A梦玩偶图像d的标识信息“2”。

步骤204、电子设备接收语音指令。

在电子设备为至少一个可操作对象中的每一个可操作对象添加视觉可读的标识信息后，用户可以基于该视觉可读的标识信息向电子设备输入语音指令，例如，在标识信息为编号信息时，用户输入的语音指令可以为“1号”，在标识信息为图标信息时，用户输入的语音指令可以为“三角形”。

步骤205、电子设备将语音指令转换为文本信息。

电子设备在接收到该语音指令后，可以利用语音识别技术将该语音指令转换为文本信息，以根据该文本信息确定语音指令所指示的可操作对象。

步骤206、当文本信息包括指示目标可操作对象的标识信息的内容时，电子设备对目标可操作对象执行预设操作，其中，目标可操作对象为至少一个可操作对象中的任一个可操作对象。

电子设备可以识别该文本信息包括的内容，并根据该文本信息包括的内容确定用户输入的语音指令所指示的可操作对象，该可操作对象即为上文所述的目标可操作对象。例如，在电子设备当前显示图2D所示的VR图像界面时，电子设备接收到某一语音指令，该语音指令转换的文本信息为“1号”，则根据该文本信息，电子设备可以确定接收到的语音指令所指示的可操作对象为小鹿玩偶的图像c。

在确定了用户输入的语音指令所指示的可操作对象，也即是目标可操作对象后，电子设备可以对该目标可操作对象执行预设操作。

当可操作对象为图标时，目标可操作对象为目标图标。在这种情况下，电子设备对目标可操作对象执行预设操作可以为：电子设备开启目标图标所对应的应用程序，例如，该目标图标为A应用的图标，则电子设备对该目标图标执行预设操作可以为：电子设备开启该A应用。

在目标可操作对象为目标图标时，电子设备对目标可操作对象执行预设操作还可以为：电子设备打开目标图标所对应的用户界面，例如，该目标图标为B新闻的标题图标，则电子设备对该目标图标执行预设操作可以为：电子设备打开B新闻的新闻页面。

当可操作对象为虚拟物品图像时，目标可操作对象为目标虚拟物品图像。在这种情况下，电子设备对目标可操作对象执行预设操作可以为：电子设备对目标虚拟物品图像执行缩放操作(缩小或放大操作)，并在当前显示的VR图像界面中展示经过缩放操作的目标虚拟物品图像，例如，如图2E所示，目标虚拟物品图像可以为小鹿玩偶的图像c，电子设备对该目标虚拟物品图像执行预设操作可以为：电子设备对小鹿玩偶的图像c进行缩小操作，而后，电子设备在自身当前显示的VR图像界面中展示经过缩小操作的小鹿玩偶的图像c。

在目标可操作对象为目标虚拟物品图像时，电子设备对目标可操作对象执行预设操作还可以为：电子设备获取目标虚拟物品图像对应的下级虚拟物品图像的建模信息，而后，电子设备基于该下级虚拟物品图像的建模信息在当前显示的VR图像界面中展示下级虚拟物品图像，其中，目标虚拟物品图像对应的下级虚拟物品图像可以为该目标虚拟物品图像被触发后，VR图像界面中展示的虚拟物品图像，例如，该目标虚拟物品图像可以为炸弹图像，该炸弹图像被触发后，VR图像界面中可以展示爆炸的火焰图像，则该火焰图像即为该炸弹图像(也即是目标虚拟物品图像)的下级虚拟物品图像，又例如，该目标虚拟物品图像可以为礼盒图像，该礼盒图像被触发后，VR图像界面中可以展示礼盒中的物品图像，则该礼盒中的物品图像即为该礼盒图像(也即是目标虚拟物品图像)的下级虚拟物品图像。

在可操作对象为现实物品图像时，目标可操作对象为目标现实物品图像。在这种情况下，电子设备对目标可操作对象执行预设操作可以为：电子设备对目标现实物品图像执行缩放操作，并在当前显示的AR图像界面中展示经过缩放操作的目标现实物品图像。

在目标可操作对象为目标现实物品图像时，电子设备对目标可操作对象执行预设操作还可以为：当目标现实物品图像对应的目标现实物品为电子设备时，电子设备向该目标现实物品图像对应的目标现实物品发送预设操作指令，例如，该目标现实物品图像对应的目标现实物品可以为电灯，电子设备对该目标现实物品图像执行预设操作可以为：电子设备向该电灯发送开启指令，又例如，该目标现实物品图像对应的目标现实物品可以为音箱，电子设备对该目标现实物品图像执行预设操作可以为：电子设备可以向该音箱发送提高音量指令。

在目标可操作对象为目标现实物品图像时，电子设备对目标可操作对象执行预设操作还可以为：电子设备在当前显示的AR图像界面中展示目标现实物品图像对应的目标现实物品的描述信息，例如，该目标现实物品图像对应的目标现实物品可以为书籍，电子设备对该目标现实物品图像执行预设操作可以为：电子设备可以在自身当前显示的AR图像界面中展示该书籍的描述信息，例如，该描述信息可以为书籍名称、作者、出版社或简介等。

本公开实施例提供了一种语音控制装置300，如图3所述，该语音控制装置300包括确定模块301、添加模块302、接收模块303和控制模块304。

该确定模块301，用于在接收到语音辅助指令后，在当前显示的用户界面中确定至少一个可操作对象。

该添加模块302，用于在该用户界面中，为该至少一个可操作对象中的每一个可操作对象添加视觉可读的标识信息。

该接收模块303，用于接收语音指令。

该控制模块304，用于在接收到的该语音指令指示目标可操作对象的标识信息时，对该目标可操作对象执行预设操作，该目标可操作对象为该至少一个可操作对象中的任一个可操作对象。

在本公开的一个实施例中，该添加模块302，用于：根据该至少一个可操作对象在该用户界面中的排列顺序，生成该每一个可操作对象对应的编号信息；在该用户界面中显示该每一个可操作对象对应的编号信息。

在本公开的一个实施例中，该用户界面为包含物品图像的图像界面，该确定模块301，用于：对该图像界面进行图像识别，确定该图像界面中包括的至少一个物品图像；将该至少一个物品图像确定为该至少一个可操作对象。

在本公开的一个实施例中，该图像界面为虚拟现实图像界面，该确定模块301，用于：获取该虚拟现实图像界面的建模信息；从该虚拟现实图像界面的建模信息中确定至少一个虚拟物品建模信息；在该虚拟现实图像界面中确定每一个该虚拟物品建模信息所对应的虚拟物品图像。

在本公开的一个实施例中，该图像界面为虚拟现实图像界面，该可操作对象为虚拟物品图像，该控制模块304，用于：对目标虚拟物品图像执行缩放操作，并在该虚拟现实图像界面中展示经过缩放操作的该目标虚拟物品图像；或者，获取该目标虚拟物品图像对应的下级虚拟物品图像的建模信息，基于该下级虚拟物品图像的建模信息在该虚拟现实图像界面中展示该下级虚拟物品图像。

在本公开的一个实施例中，该图像界面为增强现实图像界面，该确定模块301，用于：利用预设物品图像模型对该增强现实图像界面进行检测，确定该增强现实图像界面包括的至少一个现实物品图像，该预设物品图像模型根据多个物品图像样本训练得到。

在本公开的一个实施例中，该图像界面为增强现实图像界面，该可操作对象为现实物品图像，该控制模块304，用于：对目标现实物品图像执行缩放操作，并在该增强现实图像界面中展示经过缩放操作的该目标现实物品图像；或者，当该目标现实物品图像对应的目标现实物品为电子设备时，向该电子设备发送预设操作指令；或者，在该增强现实图像界面中展示该目标现实物品图像对应的该目标现实物品的描述信息。

在本公开的一个实施例中，该可操作对象为图标，该控制模块304，用于：开启目标图标所对应的应用程序；或者，打开该目标图标所对应的用户界面。

在本公开的一个实施例中，该控制模块304，用于：将该语音指令转换为文本信息；当该文本信息包括指示该目标可操作对象的标识信息的内容时，对该目标可操作对象执行该预设操作。

综上所述，本公开实施例提供的语音控制装置，通过在接收到语音辅助指令后，为当前显示的用户界面中的每一个可操作对象添加视觉可读的标识信息，并在接收到的语音指令指示该用户界面中的目标可操作对象的标识信息时，对目标可操作对象执行预设操作，使得用户在进行语音控制时不需要记忆语音指令的指令格式，而只需要根据用户界面中显示的可操作对象的标识信息，向电子设备输入能够指示某一可操作对象的标识信息的语音指令即可，从而使得用户在不需要记忆语音指令的指令格式的前提下就能成功实现语音控制，提高了语音控制的效率。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图4是根据一示例性实施例示出的一种语音控制装置400的框图。例如，装置400可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图4，装置400可以包括以下一个或多个组件：处理组件402，存储器404，电源组件406，多媒体组件408，音频组件410，输入/输出(I/O)的接口412，传感器组件414，以及通信组件416。

处理组件402通常控制装置400的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件402可以包括一个或多个处理器420来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件402可以包括一个或多个模块，便于处理组件402和其他组件之间的交互。例如，处理组件402可以包括多媒体模块，以方便多媒体组件408和处理组件402之间的交互。

存储器404被配置为存储各种类型的数据以支持在装置400的操作。这些数据的示例包括用于在装置400上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件406为装置400的各种组件提供电力。电源组件406可以包括电源管理系统，一个或多个电源，及其他与为装置400生成、管理和分配电力相关联的组件。

多媒体组件408包括在所述装置400和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件408包括一个前置摄像头和/或后置摄像头。当装置400处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件410被配置为输出和/或输入音频信号。例如，音频组件410包括一个麦克风(MIC)，当装置400处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件416发送。在一些实施例中，音频组件410还包括一个扬声器，用于输出音频信号。

I/O接口412为处理组件402和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件414包括一个或多个传感器，用于为装置400提供各个方面的状态评估。例如，传感器组件414可以检测到装置400的打开/关闭状态，组件的相对定位，例如所述组件为装置400的显示器和小键盘，传感器组件414还可以检测装置400或装置400一个组件的位置改变，用户与装置400接触的存在或不存在，装置400方位或加速/减速和装置400的温度变化。传感器组件414可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件414还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件416被配置为便于装置400和其他设备之间有线或无线方式的通信。装置400可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件416经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件416还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置400可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器404，上述指令可由装置400的处理器420执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

图5是根据一示例性实施例示出的一种语音控制装置500的框图，例如，该语音控制装置500可以是VR设备。请参照图5，该语音控制装置500可以包括处理组件501、显像组件502和音频组件503。

其中，处理组件501可以利用环境建模信息和虚拟物品建模信息等生成VR图像界面，处理组件501还可以利用虚拟物品建模信息确定VR图像界面中包括的虚拟物品图像，并为每一个虚拟物品图像生成标识信息。

显像组件502可以显示处理组件501生成的VR图像界面，并可以在VR图像界面中显示每一个虚拟物品图像的标识信息，在实际应用中，显像组件502可以为显示屏。

音频组件503可以包括一个麦克风，音频组件503可以接收用户输入的语音指令，并将该语音指令发送至处理组件501中，处理组件501还可以对语音指令所指示的虚拟物品图像执行预设操作。

图6是根据一示例性实施例示出的一种语音控制装置600的框图，例如，该语音控制装置600可以是AR设备。请参照图6，该语音控制装置600可以包括处理组件601、显像组件602和音频组件603。

其中，处理组件601可以确定AR图像界面中包括的现实物品图像，并为每一个现实物品图像生成标识信息。

显像组件602可以在AR图像界面中显示每一个现实物品图像的标识信息，在实际应用中，显像组件602可以为显示屏。

音频组件603可以包括一个麦克风，音频组件603可以接收用户输入的语音指令，并将该语音指令发送至处理组件601中，处理组件601还可以对语音指令所指示的现实物品图像执行预设操作。

在示例性实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质为非易失性的存储介质，该计算机可读存储介质中存储有计算机程序，当该计算机可读存储介质中的计算机程序由电子设备的处理组件执行时，使得电子设备能够执行一种语音控制方法，例如，该语音控制方法可以为：接收到语音辅助指令后，在当前显示的用户界面中确定至少一个可操作对象；在用户界面中，为至少一个可操作对象中的每一个可操作对象添加视觉可读的标识信息；接收语音指令；当接收到的语音指令指示目标可操作对象的标识信息时，对目标可操作对象执行预设操作，目标可操作对象为至少一个可操作对象中的任一个可操作对象。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音控制方法，其特征在于，所述方法包括：

接收到语音辅助指令后，对用户界面进行图像识别，确定所述用户界面中包括的至少一个物品图像，将所述至少一个物品图像确定为至少一个可操作对象，所述用户界面为包含物品图像的图像界面，所述图像界面为增强现实图像界面或虚拟现实图像界面；

在所述用户界面中，为所述至少一个可操作对象中的每一个可操作对象添加视觉可读的标识信息和/或视觉感知的标识信息，所述标识信息为编号信息、图标信息、颜色信息、文字信息和高亮信息中的至少一项，在所述标识信息为颜色信息的情况下，所述颜色信息为所述可操作对象本身的颜色信息；

在所述每一个可操作对象的周围展示所述可操作对象的标识信息，或者，在所述每一个可操作对象之上展示所述可操作对象的标识信息；

接收语音指令，所述语音指令为用户基于所述标识信息输入的；

当接收到的所述语音指令指示目标可操作对象的标识信息时，对所述目标可操作对象执行预设操作，所述目标可操作对象为所述至少一个可操作对象中的任一个可操作对象，所述预设操作为预先存储的对所述目标可操作对象可执行的操作，且所述可执行的操作与所述目标可操作对象本身的属性相关；

响应于所述图像界面为虚拟现实图像界面，所述可操作对象为虚拟物品图像，所述对所述目标可操作对象执行预设操作，包括：

对目标虚拟物品图像执行缩放操作，并在所述虚拟现实图像界面中展示经过缩放操作的所述目标虚拟物品图像；或者，获取所述目标虚拟物品图像对应的下级虚拟物品图像的建模信息，基于所述下级虚拟物品图像的建模信息在所述虚拟现实图像界面中展示所述下级虚拟物品图像，所述下级虚拟物品图像为所述目标可操作对象被触发后在所述图像界面中展示的虚拟物品图像。

2.根据权利要求1所述的方法，其特征在于，所述标识信息为编号信息，在所述用户界面中，为所述至少一个可操作对象中的每一个可操作对象添加视觉可读的标识信息，包括：

3.根据权利要求1所述的方法，其特征在于，所述图像界面为虚拟现实图像界面，所述对用户界面进行图像识别，确定所述用户界面中包括的至少一个物品图像，包括：

获取所述虚拟现实图像界面的建模信息；

4.根据权利要求1所述的方法，其特征在于，所述图像界面为增强现实图像界面，所述对用户界面进行图像识别，确定所述用户界面中包括的至少一个物品图像，包括：

5.根据权利要求1所述的方法，其特征在于，所述图像界面为增强现实图像界面，所述可操作对象为现实物品图像，所述对所述目标可操作对象执行预设操作，包括：

6.根据权利要求1所述的方法，其特征在于，所述可操作对象为图标，所述对所述目标可操作对象执行预设操作，包括：

7.根据权利要求1所述的方法，其特征在于，所述当接收到的所述语音指令指示目标可操作对象的标识信息时，对所述目标可操作对象执行预设操作，包括：

将所述语音指令转换为文本信息；

8.一种语音控制装置，其特征在于，所述装置包括：

确定模块，用于在接收到语音辅助指令后，对用户界面进行图像识别，确定所述用户界面中包括的至少一个物品图像，将所述至少一个物品图像确定为至少一个可操作对象，所述用户界面为包含物品图像的图像界面，所述图像界面为增强现实图像界面或虚拟现实图像界面；

添加模块，用于在所述用户界面中，为所述至少一个可操作对象中的每一个可操作对象添加视觉可读的标识信息和/或视觉感知的标识信息，所述标识信息为编号信息、图标信息、颜色信息、文字信息和高亮信息中的至少一项，在所述标识信息为颜色信息的情况下，所述颜色信息为所述可操作对象本身的颜色信息；在所述每一个可操作对象的周围展示所述可操作对象的标识信息，或者，在所述每一个可操作对象之上展示所述可操作对象的标识信息；

接收模块，用于接收语音指令，所述语音指令为用户基于所述标识信息输入的；

控制模块，用于在接收到的所述语音指令指示目标可操作对象的标识信息时，对所述目标可操作对象执行预设操作，所述目标可操作对象为所述至少一个可操作对象中的任一个可操作对象，所述预设操作为预先存储的对所述目标可操作对象可执行的操作，且所述可执行的操作与所述目标可操作对象本身的属性相关；

响应于所述图像界面为虚拟现实图像界面，所述可操作对象为虚拟物品图像，所述控制模块，用于对目标虚拟物品图像执行缩放操作，并在所述虚拟现实图像界面中展示经过缩放操作的所述目标虚拟物品图像；或者，所述控制模块，用于获取所述目标虚拟物品图像对应的下级虚拟物品图像的建模信息，基于所述下级虚拟物品图像的建模信息在所述虚拟现实图像界面中展示所述下级虚拟物品图像，所述下级虚拟物品图像为所述目标可操作对象被触发后在所述图像界面中展示的虚拟物品图像。

9.根据权利要求8所述的装置，其特征在于，所述添加模块，用于：

10.根据权利要求8所述的装置，其特征在于，所述图像界面为虚拟现实图像界面，所述确定模块，用于：

获取所述虚拟现实图像界面的建模信息；

11.根据权利要求8所述的装置，其特征在于，所述图像界面为增强现实图像界面，所述确定模块，用于：

12.根据权利要求8所述的装置，其特征在于，所述图像界面为增强现实图像界面，所述可操作对象为现实物品图像，所述控制模块，用于：

13.根据权利要求8所述的装置，其特征在于，所述可操作对象为图标，所述控制模块，用于：

14.根据权利要求8所述的装置，其特征在于，所述控制模块，用于：

将所述语音指令转换为文本信息；

15.一种语音控制装置，其特征在于，所述语音控制装置包括：

处理器；

用于存储处理器可执行的指令的存储器；

其中，所述处理器被配置为：

16.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理组件执行时能够实现如权利要求1至7任一所述的语音控制方法。