CN109992237B

CN109992237B - 智能语音设备控制方法、装置、计算机设备和存储介质

Info

Publication number: CN109992237B
Application number: CN201810005208.0A
Authority: CN
Inventors: 梁栋
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-01-03
Filing date: 2018-01-03
Publication date: 2022-04-22
Anticipated expiration: 2038-01-03
Also published as: CN114860187A; CN109992237A

Abstract

本发明涉及一种智能语音设备控制方法、装置、计算机设备和存储介质，该方法包括：获取在视频监控范围内采集的图像；识别所述图像中的面部图像；根据所述面部图像，确定相应的视线方向；当确定出的视线方向指向在智能语音设备本地呈现的虚拟交互角色时，控制所述智能语音设备进入唤醒状态。本申请的方案提高了对智能语音设备唤醒处理的准确性。

Description

智能语音设备控制方法、装置、计算机设备和存储介质

技术领域

本发明涉及计算机技术领域，特别是涉及一种智能语音设备控制方法、装置、计算机设备和存储介质。

背景技术

随着科学技术的飞速发展，人工智能技术凭借其带来的良好的便利性，越来越受到大家的欢迎。一些人工智能产品应运而生。比如，智能音箱，用户可以对智能音箱讲话，来实现一系列的交互控制。

传统的在使用智能音箱进行交互控制时，智能音箱要采集语音数据，从采集的语音数据中识别关键词来进行激活，然而语音数据中往往具有大量的干扰音，比如，房间外的马路上的嘈杂音等，由于这些大量的干扰，会造成根据语音数据来激活智能音箱的准确率较低。

发明内容

基于此，有必要针对传统方法根据语音数据来激活智能音箱的准确率较低的问题，提供一种智能语音设备控制方法、装置、计算机设备和存储介质。

一种智能语音设备控制方法，所述方法包括：

获取在视频监控范围内采集的图像；

识别所述图像中的面部图像；

根据所述面部图像，确定相应的视线方向；

当确定出的视线方向指向在智能语音设备本地呈现的虚拟交互角色时，控制所述智能语音设备进入唤醒状态。

一种智能语音设备控制装置，所述装置包括：

获取模块，用于获取在视频监控范围内采集的图像；

图像识别模块，用于识别所述图像中的面部图像；

视线方向确定模块，用于根据所述面部图像，确定相应的视线方向；

控制模块，用于当确定出的视线方向指向在智能语音设备本地呈现的虚拟交互角色时，控制所述智能语音设备进入唤醒状态。

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

获取在视频监控范围内采集的图像；

识别所述图像中的面部图像；

根据所述面部图像，确定相应的视线方向；

一种存储有计算机程序的存储介质，所述计算机程序被处理器执行时，使得处理器执行如下步骤：

获取在视频监控范围内采集的图像；

识别所述图像中的面部图像；

根据所述面部图像，确定相应的视线方向；

上述智能语音设备控制方法、装置、计算机设备和存储介质，获取在视频监控范围内采集的图像，根据图像中识别到的面部图像，确定相应的视线方向。通过视频监控范围内识别的且能够识别出视线方向的面部图像，通常与智能语音设备比较近，更加有可能是想要对智能语音设备进行唤醒操作的用户，排除了很远的其他用户的干扰。当确定出的视线方向指向在智能语音设备本地呈现的虚拟交互角色时，控制智能语音设备进入唤醒状态，模拟了现实场景中一般需要展开交谈时，看向对方的这一场景，所以，在视线指向智能语音设备本地程序的虚拟交互角色时，唤醒智能语音设备，使得对智能语音设备唤醒的更加准确。

附图说明

图1为一个实施例中智能语音设备控制方法的应用场景图；

图2为另一个实施例中智能语音设备控制方法的应用场景图；

图3为一个实施例中智能语音设备控制方法的流程示意图；

图4为一个实施例中智能语音设备的架构示意图；

图5为一个实施例中唤醒控制步骤的流程示意图；

图6为一个实施例中多个智能语音设备的监控场景示意图；

图7为一个实施例中多个智能语音设备场景下的智能语音设备控制方法的原理图；

图8为一个实施例中智能语音设备响应于语音控制的场景示意图；

图9为一个实施例中持续供电示意图；

图10为另一个实施例中智能语音设备控制方法的流程示意图；

图11为一个实施例中智能语音设备控制装置的框图；

图12为另一个实施例中智能语音设备控制装置的框图；

图13为又一个实施例中智能语音设备控制装置的框图；

图14为一个实施例中计算机设备的内部结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1为一个实施例中智能语音设备控制方法的应用场景图。参照图1，该应用场景中包括通过网络连接的智能语音设备110和服务器120。其中，智能语音设备110是具备语音采集及输出功能、以及智能运算功能的设备。可以理解，智能语音设备110还可以具备其他功能，这里不作限定。智能语音设备110中可以包括视频采集装置和显示装置。视频采集装置用于采集图像，视频采集装置可以是摄像头。显示装置可用于显示虚拟交互角色。

在一个实施例中，智能语音设备110可以是全息智能语音成像设备，其中，全息智能语音成像设备，是具备全息成像功能的智能语音设备。本实施例中，智能语音设备110的显示装置可以包括全息显示装置，比如，液晶投影装置和全息膜。

在一个实施例中，智能语音设备110还可以是具有显示功能和语音采集及输出功能的终端。本实施例中，显示装置可以是普通的显示屏。终端可以是具有显示功能的智能音箱、智能电视机、台式计算机或移动终端，移动终端可以包括手机、平板电脑、笔记本电脑、个人数字助理和穿戴式设备等中的至少一种。服务器120可以用独立的服务器或者是多个物理服务器组成的服务器集群来实现。

智能语音设备110可以获取在视频监控范围内采集的图像；识别图像中的面部图像。智能语音设备110可以根据面部图像，确定相应的视线方向；当确定出的视线方向指向在智能语音设备本地呈现的虚拟交互角色时，控制该智能语音设备110进入唤醒状态。可以理解，智能语音设备110在进入唤醒状态后，用户可以使用命令式语句向智能语音设备110下发操作指令，智能语音设备110可以采集相应语音数据，并将语音数据发送至服务器120，服务器120可以对语音数据进行语义分析判断用户所想要执行的操作。

图2为另一个实施例中智能语音设备控制方法的应用场景图。参照图2，智能语音设备110为多个，多个智能语音设备110之间连接至同一网络，连接至同一网络的多个智能语音设备110之间可以相互发送与接收广播。多个智能语音设备110分别与服务器120通过网络通信。可以理解，多个智能语音设备110之间可以并行地响应语音交互控制(即每个智能语音设备相互间可以独立的响应语音交互控制)，也可以是其中一个智能语音设备110被唤醒后，向其他尚未被唤醒的智能语音设备发送角色独占状态广播，以使其他智能语音设备110角色独占状态结束前不响应语音交互控制。可以理解，本申请各实施例中的智能语音设备控制方法可适用于每个智能语音设备110。

图3为一个实施例中智能语音设备控制方法的流程示意图。本实施例主要以该智能语音设备控制方法应用于图1或图2中的智能语音设备110来举例说明。参照图3，该方法具体包括如下步骤：

S302，获取在视频监控范围内采集的图像。

需要说明的是，智能语音设备在未进入唤醒状态时，处于半休眠状态。

半休眠状态，是在进入唤醒状态前的、且能够进行图像采集、人脸识别以及语音采集等事件的逻辑处理的状态。即智能语音设备处于半休眠状态时，能够进行图像采集、人脸识别以及语音采集等事件的逻辑处理。

唤醒状态，是能够执行与语音数据相应的命令的状态。即智能语音设备在进入唤醒状态后，能够执行与语音数据相应的命令。

其中，视频监控范围是能够采集到图像的区域范围。即智能语音设备能够采集位于该视频监控范围内的图像。

在一个实施例中，智能语音设备可以直接获取在视频监控范围内采集的图像。在一个实施例中，智能语音设备可以通过视频采集装置在视频监控范围内采集图像。

S304，识别图像中的面部图像。

在一个实施例中，智能语音设备可以在本地对获取的图像进行人脸识别处理，从图像中识别出面部图像。可以理解，智能语音设备可以根据人脸的组成特征从图像中识别出面部图像。智能语音设备也可以根据人脸在身体结构中所处的位置、且结合皮肤特征，从图像中定位面部图像。

在一个实施例中，智能语音设备也可以将图像发送至人脸识别平台，由人脸识别平台从图像中识别面部图像，并获取人脸识别平台返回的面部图像识别结果。

可以理解，可能存在从图像中识别出面部图像和未识别出面部图像的情况。在从图像中识别出面部图像时，智能语音设备可以执行步骤S306。在一个实施例中，在从图像中未识别出面部图像时，可以通过语音唤醒智能语音设备，控制智能语音设备进入唤醒状态。

S306，根据面部图像，确定相应的视线方向。

在一个实施例中，步骤S306包括：识别面部图像中的瞳孔位置；根据识别到的瞳孔位置确定相应的视线方向。

其中，瞳孔位置，是瞳孔在面部图像中的位置。

具体地，智能语音设备可以根据预设瞳孔特征，从面部图像中识别出瞳孔，以确定瞳孔位置(即瞳孔在面部图像中的位置)。智能语音设备可以根据识别到的瞳孔位置确定相应的视线方向。

在一个实施例中，智能语音设备可以根据瞳孔位置确定瞳孔中心，并从面部图像中确定眼球中心，将瞳孔中心与眼球中心的连线，作为视线方向。可以理解，智能语音设备可以将直接取面部图像中的眼球的中心点，得到眼球中心。智能语音设备也可以根据预设的眼球中心与瞳孔中心的位置差，以及确定的瞳孔中心，从面部图像中确定出眼球中心。

在一个实施例中，步骤S306包括：根据面部图像确定面部相对于智能语音设备的朝向；根据面部相对于智能语音设备的朝向，确定相应的视线方向。

具体地，智能语音设备可以解析面部图像，确定面部图像中两侧面部的面积之间的比例，根据该比例确定面部相对于智能语音设备的朝向。在一个实施例中，当两侧面部的面积之间的比例的差值小于等于第一阈值时，则判定面部相对于智能语音设备的朝向为正面面向。当两侧面部的面积之间的比例的差值大于第一阈值、且小于等于第二阈值时，则判定面部相对于智能语音设备的朝向为侧面面向。当两侧面部的面积之间的比例的差值大于第二阈值，则判定面部未面向智能语音设备。

比如，面部图像中左右脸的面部之间的比例小于等于1.05时，即左右脸在面部图像中所占面积近似相等，则可以认为面部相对于智能语音设备的朝向为正面面向。

可以理解，可能存在从图像中识别出面部图像和未识别出面部图像的情况，在从图像中识别出面部图像时，智能语音设备可以执行步骤S306。在一个实施例中，在从图像中未识别出面部图像时，可以通过语音唤醒智能语音设备，控制智能语音设备进入唤醒状态。

S308，当确定出的视线方向指向在智能语音设备本地呈现的虚拟交互角色时，控制智能语音设备进入唤醒状态。

其中，虚拟交互角色，是用于与用户互动的虚拟形象。可以理解，虚拟交互角色是虚拟的、没有硬件实体的形象。唤醒状态，是能够执行与语音数据相应的命令的状态。即智能语音设备在进入唤醒状态后，能够执行与语音数据相应的命令。可以理解，在智能语音设备本地呈现的虚拟交互角色与该智能语音设备之间具有绑定关系。

在一个实施例中，智能语音设备进入唤醒状态后预设时间内未接收到语音数据，则可以重新进入半休眠状态。

在一个实施例中，该方法还包括角色绑定步骤，具体包括以下步骤：扫描表征虚拟交互角色身份的角色二维码；从角色二维码中提取相应虚拟交互角色信息的下载链接地址；按照下载链接地址下载虚拟交互角色信息，并按照所下载的虚拟交互角色信息，将相应虚拟交互角色与本地进行绑定。

其中，角色二维码用于表征虚拟交互角色身份。角色二维码中包括相应虚拟交互角色信息的下载链接地址。

具体地，智能语音设备可以扫描角色二维码；从角色二维码中提取相应虚拟交互角色信息的下载链接地址，按照下载链接地址下载虚拟交互角色信息。智能语音设备可以按照所下载的虚拟交互角色信息，将相应虚拟交互角色与该智能语音设备本地进行绑定。

可以理解，在智能语音设备在进入唤醒状态前(即处于半休眠状态时)，就可以在本地呈现虚拟交互角色。在一个实施例中，虚拟交互角色可以是显示于显示屏内的虚拟形象。

在一个实施例中，虚拟交互角色可以是三维全息虚拟交互角色。三维全息虚拟交互角色，是以全息投影技术(front-projected holographic display)投影的、在现实环境的空间中以立体形态呈现的虚拟交互角色。

在一个实施例中，智能语音设备可以是全息智能语音成像设备，其中，全息智能语音成像设备，是具备全息成像功能的智能语音设备。本实施例中，该方法还包括：通过全息智能语音成像设备中的液晶投影装置，将虚拟交互角色信息进行三维全息投影至全息智能语音成像设备中的全息膜；在全息智能语音成像设备的全息膜上呈现三维全息虚拟交互角色。

其中，全息膜，即全息投影膜，是将全息投影的成像进行显示的膜，能够在保持清晰显像的同时，能让观众透过投影膜看见背后的现实场景。

图4为一个实施例中智能语音设备的架构示意图。参照图4，网关用于与外接通信，比如，与智能电视机或者服务器之间的通信。音频接收阵列用于采集语音数据。智能运算中心用于进行运算逻辑处理。液晶投影装置和全息膜用于进行三维全息投影，液晶投影装置可以将虚拟交互角色信息进行三维全息投影至全息膜。摄像头用于采集视频监控范围内的图像。音频输出阵列用于输出语音数据。

在一个实施例中，步骤S308包括：获取语音数据；当视线方向指向智能语音设备、且语音数据中存在预设唤醒词时，控制智能语音设备进入唤醒状态，并在智能语音设备本地呈现所绑定的虚拟交互角色。

可以理解，本实施例中，在视线方向指向智能语音设备、且获取的语音数据中存在预设唤醒词，控制智能语音设备进入唤醒状态之后，智能语音设备在本地呈现所绑定的虚拟交互角色。在一个实施例中，智能语音设备可以是具有显示功能以及语音接收和发送功能的终端。比如，智能语音设备可以是手机、平板电脑或台式计算机等。可以理解，智能语音设备可以用手机等通用终端来实现，而不需要专门的语音设备，节省了成本，同时提高了资源的利用率。

在一个实施例中，该方法还包括：在智能语音设备处于半休眠状态时，从智能语音设备对应的图库中选取目标图片；展示所选取的目标图片。

其中，半休眠状态，是在进入唤醒状态前的、且能够进行图像采集、人脸识别以及语音采集等事件的逻辑处理的状态。图库是存储图片的库。图库中包括图片的集合。与智能语音设备对应的图库包括智能语音设备本地存储的图库和/或与该智能语音设备对应的云端存储的图库。

在一个实施例中，智能语音设备可以从对应的图库中选取时间最近的图片或预设的封面图片作为目标图片。智能语音设备可以将选取的目标图片进行展示，可以达到一种智能相框的效果。

可以理解，智能语音设备可以单独地根据视线方向，来判断是否控制智能语音设备进入唤醒状态，当确定出的视线方向指向在智能语音设备本地呈现的虚拟交互角色时，控制智能语音设备进入唤醒状态。智能语音设备也可以获取语音数据，根据获取的语音数据和视线方向，来判断是否控制智能语音设备进入唤醒状态。

在一个实施例中，智能语音设备进入唤醒状态后预设时间内未接收到语音数据，则可以重新进入半休眠状态，再次展示目标图片。

在一个实施例中，步骤S308包括：获取语音数据；当确定出的视线方向指向在智能语音设备本地呈现的虚拟交互角色、且语音数据中存在预设唤醒词时，控制智能语音设备进入唤醒状态。

在一个实施例中，判定语音数据中存在预设唤醒词的步骤包括：提取语音数据中的特征词；将提取的特征词与预设唤醒词进行匹配；当特征词与预设唤醒词匹配时，判定语音数据中存在预设唤醒词。

其中，特征词，是能够体现语义特征的词。预设唤醒词，是预先设置的、用于使智能语音设备进入唤醒状态的词。

具体地，智能语音设备可以对语音数据进行语义分析，提取其中的特征词。智能语音设备中预先存储了预设唤醒词。智能语音设备库将提取的特征词与预设唤醒词进行匹配。当特征词与预设唤醒词匹配时，则判定语音数据中存在预设唤醒词。可以理解，当特征词与预设唤醒词匹配时，则可以判定语音数据中不存在预设唤醒词。

需要说明的是，该判定语音数据中存在预设唤醒词的步骤，可以应用于本申请其他需要判定语音数据中的预设唤醒词的实施例中。

上述智能语音设备控制方法，获取在视频监控范围内采集的图像，根据图像中识别到的面部图像，确定相应的视线方向。通过视频监控范围内识别的且能够识别出视线方向的面部图像，通常与智能语音设备比较近，更加有可能是想要对智能语音设备进行唤醒操作的用户，排除了很远的其他用户的干扰。当确定出的视线方向指向在智能语音设备本地呈现的虚拟交互角色时，控制智能语音设备进入唤醒状态，模拟了现实场景中一般需要展开交谈时，看向对方的这一场景，所以，在视线指向智能语音设备本地程序的虚拟交互角色时，唤醒智能语音设备，使得对智能语音设备唤醒的更加准确。

此外，通过虚拟交互角色模拟实际交谈的场景，增强了智能语音设备的拟人性。且相较于实体机器人的交互，降低了硬件成本，且不受限于硬件的限制，提高了可扩展性。

在一个实施例中，该方法还包括：获取语音数据；当视线方向未指向在智能语音设备本地呈现的虚拟交互角色、且语音数据中存在预设唤醒词时，控制智能语音设备进入唤醒状态。

具体地，智能语音设备可以直接获取已有的语音数据进行预设唤醒词的检测，也可以采集所处现实环境中的语音数据。智能语音设备可以在当视线方向未指向在智能语音设备本地呈现的虚拟交互角色、且语音数据中存在预设唤醒词时，控制智能语音设备进入唤醒状态。

在一个实施例中，当根据面部图像未能确定出相应的视线方向、且语音数据中存在预设唤醒词时，控制智能语音设备进入唤醒状态。比如，因面部图像比较模糊而未能确定出相应的视线方向，则智能语音设备也可以在语音数据中存在预设唤醒词时，控制智能语音设备进入唤醒状态。

上述实施例中，不仅仅依赖于从面部图像中识别的视线方向，而是将面部图像中的视线方向的识别与语音识别的唤醒词结合起来，在视线方向未指向虚拟交互角色时，可以通过识别语音数据中的预设唤醒词来控制智能语音设备进入唤醒状态，提高了对智能语音设备进行唤醒的灵活性。此外，也提高了唤醒的效率。

在一个实施例中，该方法还包括：当在图像中识别到用户对象时，则进入近场交互模式，执行步骤S304；当在图像中未识别到用户对象、且获取到语音数据时，则进入远场交互模式，则在获取的语音数据符合远场交互模式下的唤醒条件时，控制智能语音设备进入唤醒状态。

其中，用户对象，是在获取的图像中表征用户的图像内容。近场交互模式，是表征用户出现在视频监控范围内与智能语音设备进行交互的这种近距离的交互模式。远场交互模式，是表征用户未出现在视频监控范围内与智能语音设备进行交互的这种远距离的交互模式。

可以理解，近场交互模式和远场交互模式分别对应不同的交互处理逻辑。图像中识别到用户对象可以判定用户出现在视频监控范围内。图像中未识别到用户对象，可以判定用户未出现在视频监控范围内。

需要说明的是，在图像中识别到用户对象、且未识别到面部图像的情况(比如用户对象背向智能语音设备)，也可以属于近场交互模式下的情况。

其中，远场交互模式下的唤醒条件，是在远场交互模式下唤醒智能语音设备的条件。

在一个实施例中，远场交互模式下的唤醒条件包括：获取的语音数据中包括在预设周期内出现预设次数的预设唤醒词。比如，语音数据中包括在3秒内出现2次的预设唤醒词，则可以判定该语音数据符合远场交互模式下的唤醒条件。

上述实施例中，针对在图像中是否能够识别到用户对象，分别进入了不同的交互模式时，通过不同的交互模式的交互逻辑控制智能语音设备进入唤醒状态，提高了唤醒的准确性。

在一个实施例中，本地与绑定于虚拟交互角色的至少一个非本地的智能语音设备连接于同一网络。

如图5所示，本实施例中，在获取的语音数据符合远场交互模式下的唤醒条件时，控制智能语音设备进入唤醒状态的步骤(简称唤醒控制步骤)，具体包括以下步骤：

S502，在获取的语音数据符合远场交互模式下的唤醒条件时，发送获取的语音数据至服务器。

本实施例中，多个智能语音设备绑定于同一个虚拟交互角色，并连接于同一网络。图6为一个实施例中多个智能语音设备的监控场景示意图。参照图6，智能语音设备601、602、603和604分别设置于不同的房间，这4个智能语音设备皆绑定于同一虚拟交互角色，并连接于同一局域网。这4个智能语音设备皆有各自对应的视频监控范围。

具体地，每个智能语音设备可以分析自身所处于的交互模式，在每个智能语音设备皆处于远场交互模式下时，每个智能语音设备可以获取并分析自身采集的语音数据，判断自身的语音数据是否符合远场交互模式下的唤醒条件，并在符合远场交互模式下的唤醒条件时，发送自身获取的语音数据至服务器。

在一个实施例中，当每个智能语音设备获取的图像中都未识别到用户对象、且每个智能语音设备都获取到语音数据时，则可以判定每个智能语音设备皆处于远场交互模式下。

S504，接收服务器返回的目标设备指定指令，目标设备指定指令是在语音数据与相似的语音数据相比音量最大时接收到，相似的语音数据为非本地的智能语音设备发送的与语音数据相似的语音数据。

其中，目标设备指定指令，用于指定进入唤醒状态的目标智能语音设备。

具体地，服务器接收到各智能语音设备发送的语音数据时，可以对接收到的各语音数据进行语义分析，确定各语音数据之间的相似性。服务器可以从相似的语音数据中选取音量最大的语音数据，将该音量最大的语音数据所对应的智能语音设备指定为目标设备，生成目标设备指定指令，并将该目标设备指定指令返回至选取的音量最大的语音数据所对应的智能语音设备。

可以理解，对于接收到目标设备指定指令的智能语音设备而言，其所接收的目标设备指定指令则是该设备发送的语音数据与相似的语音数据相比音量最大时接收到的，该相似的语音数据，为非本地的智能语音设备发送的与该智能语音设备本地发送的语音数据相似的语音数据。

比如，智能语音设备A发送语音数据1至服务器，智能语音设备B发送语音数据2至服务器，智能语音设备C发送语音数据3至服务器。服务器比对这3个语音数据之间的相似性，确定出语音数据1和2为相似的语音数据，其中，语音数据1的音量大于语音数据2，则服务器可以指定发送语音数据1的智能语音设备A作为目标设备，返回目标设备指定指令至智能语音设备A。

在其他实施例中，S404中的目标设备指定指令还可以是在语音数据与相似的语音数据相比发送时间最早时接收到。即服务器可以从所接收的相似的语音数据中，选取发送时间最早的语音数据，将发送时间最早的语音数据所对应的智能语音设备指定为目标设备，生成目标设备指定指令，并将该目标设备指定指令返回至发送时间最早的语音数据所对应的该智能语音设备。

S506，响应于目标设备指定指令，控制智能语音设备本地进入唤醒状态。

具体地，接收到目标设备指定指令的智能语音设备可以响应于目标设备指定指令，控制该智能语音设备的本地进入唤醒状态。

上述实施例中，在有多个智能语音设备连接于同一网络、且绑定于同一虚拟交互角色时，通过进行语音数据相似性分析，确定发出语音数据中音量最大的智能语音设备作为目标设备，并控制该智能语音设备的本地进入唤醒状态。其中，发出相似语音数据中音量最大的智能语音设备离用户最近，则用户最有可能对其发出语音控制，所以，控制该发出相似语音数据中音量最大的智能语音设备进入唤醒状态更加的准确。此外，由于音量比较大，语音数据则会更加的清晰，使得后续执行用户发出的语音控制指令时更加的准确。

在一个实施例中，在本地与绑定于虚拟交互角色的至少一个非本地的智能语音设备连接于同一网络的情况下，智能语音设备在控制智能语音设备进入唤醒状态时，还可以向该非本地的智能语音设备发送角色独占状态广播，角色独占状态广播用于指示接收到角色独占状态广播的智能语音设备在角色独占状态结束前不响应语音交互控制。

其中，角色独占状态，是处于独占虚拟交互角色的状态。角色独占状态广播，是将本地处于角色独占状态的信息传递至非本地的智能语音设备的广播。角色独占状态广播用于指示接收到角色独占状态广播的智能语音设备在角色独占状态结束前不响应语音交互控制。

可以理解，本申请实施例中所述的非本地的智能语音设备，是指与智能语音设备本地绑定于同一虚拟交互角色、且连接于同一网络的智能语音设备。比如，与智能语音设备A本地绑定于同一虚拟交互角色、且连接于同一网络的智能语音设备为B和C，则智能语音设备B和C相对于智能语音设备A而言，则为非本地的智能语音设备。

需要说明的是，智能语音设备可以向非本地的所有智能语音设备发送角色独占状态广播。智能语音设备也可以向发送相似的语音数据的非本地的智能语音设备，发送角色独占状态广播。同样结合步骤404中所举的例子，智能语音设备A可以向智能语音设备B和C发送角色独占状态广播，也可以仅向发送相似的语音数据的智能语音设备B发送角色独占状态广播。

上述实施例中，智能语音设备在控制智能语音设备进入唤醒状态时，还可以向该非本地的智能语音设备发送角色独占状态广播，使得接收到角色独占状态广播的智能语音设备在角色独占状态结束前不响应语音交互控制，避免了多个智能语音设备之间的冲突，而且节省了资源。

图7为一个实施例中多个智能语音设备场景下的智能语音设备控制方法的原理图。各智能语音设备连接于同一无线网络。各智能语音设备在各自视频监控范围内获取的图像中检测到用户对象(图像中检测到用户对象，即说明用户出现在视频监控范围内)、且识别到视线方向时，可以向其他非本地智能语音设备发送角色独占状态广播，且该处于角色独占状态的智能语音设备(简称独占设备)进入唤醒状态等待语音指令。若各智能语音设备在各自视频监控范围内获取的图像中都未识别到用户对象、但获取到语音数据，则可以将各自语音数据发送至服务器，进行语音相似性分析，通过音量判定或时间判定，从具有相似语音数据的智能语音设备中指定目标设备，被指定为目标设备的智能语音设备可以向其他非本地智能语音设备发送角色独占状态广播，且该处于角色独占状态的智能语音设备(简称独占设备)进入唤醒状态等待语音指令。

在一个实施例中，该方法还包括：识别图像中的用户对象位置；将用户对象位置映射为现实场景中的用户位置；控制虚拟交互角色的朝向，使朝向随着用户位置的移动而变化、且保持始终朝向用户位置所处的方位。

其中，用户对象，是在获取的图像中表征用户的图像内容。用户对象位置，是用户对象在图像中所处的位置。现实场景中的用户位置，是用户对象所对应的用户在现实场景中所处的位置。

可以理解，用户对象位置，可以根据用户对象的全部图像内容在获取的图像中所位于的位置进行表征，也可以根据用户对象中的部分图像内容在获取的图像中所处的位置进行表征。比如用户对象中的面部图像在图像中所处的位置。

具体地，智能语音设备可以识别图像中的用户对象，确定识别的用户对象在图像中所处的位置，得到用户对象位置。智能语音设备也可以识别图像中的面部图像，根据面部图像在图像中所处的位置，得到用户对象位置。

可以理解，图像是对现实场景进行图像采集得到的。各图像内容在图像中的位置分布情况与现实场景中的位置分布情况相匹配，各图像内容在图像中的位置与其实体在现实场景中的位置之间具有映射关系。智能语音设备可以根据该映射关系，将用户对象位置映射为现实场景中的用户位置。

智能语音设备可以按照映射得到的用户位置控制虚拟交互角色的朝向。在一个实施例中，智能语音设备可以控制虚拟交互角色的朝向，使该朝向随着用户位置的移动而变化、且保持始终朝向用户位置所处的方位。

在一个实施例中，用户对象位置为多个。控制虚拟交互角色的朝向，使朝向随着用户位置的移动而变化、且保持始终朝向用户位置所处的方位包括：从映射得到的各用户位置中，确定距离最近的用户位置；控制虚拟交互角色始终朝向距离最近的用户位置所处的方位。

具体地，智能语音设备可以确定映射得到的各用户位置与智能语音设备之间的距离，从映射得到的用户位置中，确定距离智能语音设备最近的用户位置。智能语音设备可以控制虚拟交互角色始终朝向距离最近的用户位置所处的方位。

在一个实施例中，用户对象位置为多个。控制虚拟交互角色的朝向，使朝向随着用户位置的移动而变化、且保持始终朝向用户位置所处的方位包括：从各用户对象位置所对应的用户对象中确定目标用户对象；控制虚拟交互角色的朝向，使朝向随着与目标用户对象对应的映射得到的目标用户位置的移动而变化、且保持始终朝向目标用户位置所处的方位。

其中，目标用户位置，是将目标用户对象位置映射为现实场景中的用户位置。目标用户对象位置，是目标用户对象在图像中所处的位置。

在一个实施例中，智能语音设备可以对各用户对象位置所对应的用户对象进行权限鉴定，将权限鉴定通过的用户对象确定为目标用户对象。在一个实施例中，智能语音设备可以将各用户对象位置所对应的用户对象与预存储的权限用户图像进行匹配，将与权限用户图像匹配的用户对象判定为权限鉴定通过，可确定为目标用户对象。

上述实施例中，控制虚拟交互角色的朝向，使朝向随着用户位置的移动而变化、且保持始终朝向用户位置所处的方位。更好地模拟了实际交谈的场景，提高了智能语音设备的拟人性，同时提高了交互效率和交互的准确性。

在一个实施例中，该方法还包括：获取包括命令语句的语音数据；在进入唤醒状态后，对命令语句进行语义分析；根据语义分析的结果，生成与命名语句相应的操作指令并执行。

其中，命令语句，是描述所要下发的命令的语句。可以理解，命令语句可以是直接命令语句或隐含命令语句。直接命令语句，是直接以命令语气表达的语句。隐含命令语句是用非命令语气表达出所要下发的命令的语句。比如，“打开电视”就是直接命令语句，“我想看电视”就是“隐含命令语句”。

可以理解，智能语音设备可以在进入唤醒状态前获取包括命令语句的语音数据，也可以在进入唤醒状态后获取包括命令语句的语音数据。

具体地，智能语音设备可以解析语音数据，提取语音数据中的命令语句。对命名语句进行语义分析，根据语义分析的结果，生成与命名语句相应的操作指令并执行。

在一个实施例中，对命名语句进行语义分析的步骤包括：对命令语句进行分词处理，对得到的各分词进行上下文语义分析，得到语义分析的结果。

在一个实施例中，在进入唤醒状态后，对命令语句进行语义分析包括：在进入唤醒状态后，从面部图像中提取面部特征以及从语音数据中提取声纹特征；根据面部特征和声纹特征进行操作权限识别；当操作权限识别通过时，对命令语句进行语义分析。

具体地，智能语音设备在进入唤醒状态后，可以从面部图像中提取面部特征，以及从语音数据中提取声纹特征。

在一个实施例中，智能语音设备可以将提取的面部特征与预存储的面部特征进行匹配，以及将提取的声纹特征与预存储的声纹特征进行匹配，当提取的面部特征与预存储的面部特征匹配、且提取的声纹特征与预存储的声纹特征匹配时，判定操作权限识别通过。在一个实施例中，当面部特征匹配和声纹特征匹配中的任何一个匹配未通过时，则可以判定操作权限识别未通过。

可以理解，智能语音设备可以在操作权限识别通过时，对命令语句进行语义分析。

在一个实施例中，该方法还包括：当操作权限识别未通过时，输出授权提示信息；获取与授权提示信息对应的授权信息；根据授权信息对面部图像对应的用户进行授权；在授权成功后，对命令语句进行语义分析。

其中，授权提示信息，是用于提示授权的信息。在一个实施例中，授权提示信息可以是文字、图片、视频、语音等格式的信息。

授权信息，是授予操作权限的信息。在一个实施例中，授权信息可以是语音、文字、图片、视频等格式的信息。比如，具有授权权限的用户可以说一段授予操作权限的语音、或者发一段授予操作权限的视频等。具有授权权限的用户，是具有授予操作权限的功能的用户。

在一个实施例中，授权信息还可以是待授权用户所使用的设备与虚拟交互角色之间的绑定信息。其中，待授权用户所使用的设备是通过人脸识别进行操作权限认证的设备。可以理解，比如设备1是需要通过人脸识别进行操作权限认证的设备，那么设备1与虚拟交互角色之间绑定，代表设备1对虚拟交互角色所绑定的智能语音设备具有控制权限，而待授权用户可以通过人脸识别对设备1进行操作，所以待授权用户所使用的设备与虚拟交互角色之间的绑定信息，可以用于表征授予待授权用户对绑定有虚拟交互角色的智能语音设备的操作权限。

具体地，智能语音设备在获取到授权信息后，可以根据授权信息对面部图像对应的用户进行授权；在授权成功后，对命令语句进行语义分析。

在一个实施例中，智能语音设备可以记录该面部特征以及声纹特征，以实现对面部图像对应的用户进行授权。在一个实施例中，智能语音设备还可以展示展示授权信息录入界面，通过该授权信息录入界面对面部图像对应的用户的面部特征进行多角度的采集，并记录采集的面部特征及之前提取的声纹特征，以实现对面部图像对应的用户进行授权。

上述实施例中，智能语音设备在进入唤醒状态后，对语音数据中的命令语句进行语义分析；根据语义分析的结果，生成与命名语句相应的操作指令并执行。实现了语音控制，而不需要用户手动操作，提高了操作效率。其次，将实现与语音控制结合，相较于单一的语音控制而言，降低了误操作的概率，提高了准确性。

此外，将对命令语句进行语义分析与操作权限识别结合，提高了安全性。

在一个实施例中，根据语义分析的结果，生成与命名语句相应的操作指令并执行包括：当进行语义分析得到命令语句中包括可视化对象展示关键词时，则获取可视化对象展示关键词在命令语句中针对的可视化对象关键词；根据可视化对象关键词，查询与该可视化关键词所对应的可视化对象相应的展示信息；输出查询到的与可视化对象相应的展示信息。

其中，可视化对象，是可用于展示的对象。可视化对象包括视频、图片或文字等。可视化对象展示关键词，是指示将可视化对象进行展示的词语，比如，播放、看、放或播等词语。可视化对象关键词，是描述可视化对象的词语，可以是直接描述可视化对象名称的词语，也可以是表意描述可视化对象的词语。比如，“我要看生活大爆炸”，其中，“看”就是可视化对象展示关键词，“生活大爆炸”就是“看”所针对的视频关键词，可以理解“生活大爆炸”是直接描述可视化对象名称——“生活大爆炸”这一视频的词语。再比如，“我想看以南北战争为背景、女主叫斯嘉丽的电影”中“以南北战争为背景、女主叫斯嘉丽的电影”则是表意描述可视化对象——“乱世佳人”这一视频的词语。

与可视化对象相应的展示信息，包括可视化对象的实质内容以及描述信息。

在一个实施例中，可视化对象为视频；可视化对象展示关键词为视频播放关键词；可视化对象关键词为视频关键词。根据可视化对象关键词，查询与所对应的可视化对象相应的展示信息包括：将视频关键词与预设的视频库中的视频名称进行匹配；从视频库中获取与匹配到的视频名称相应的视频信息。

其中，视频播放关键词，是用于指示播放视频的词语，比如“播放”或“看”等。视频关键词，是描述视频的词语。在一个实施例中，视频关键词可以是视频名称，也可以是间接描述视频的关键词。

具体地，智能语音设备可以对命令语句进行语义分析。在进行语义分析得到命令语句中包括视频播放关键词时，将视频播放关键词在命令语句中针对的视频关键词与预设的视频库中的视频名称进行匹配；从视频库中查询与匹配到的视频名称相应的视频信息。

其中，视频库，是存储视频集合的库。视频库中包括视频信息和相应的视频名称。视频信息包括视频内容和视频描述信息。

具体地，智能语音设备中预先设置了视频库。智能语音设备可以响应于视频播放指令，将视频关键词与预设的视频库中的视频名称进行匹配。智能语音设备可以按照匹配到的视频名称，从视频库中查找相应的视频信息。

在一个实施例中，智能语音设备可以将视频关键词与预设的视频库中的视频名称分别进行匹配，得到相应的匹配概率，将匹配概率与预设匹配阈值进行比对，当匹配概率大于或等于预设匹配阈值时，则判定视频关键词与该视频名称匹配。可以理解，当匹配概率小于预设匹配阈值时，则判定视频关键词与该视频名称不匹配。

可以理解，预设匹配阈值可以是单一的匹配阈值，也可以是多阶段的匹配阈值，比如，第一匹配阈值和第二匹配阈值，其中，第一匹配阈值大于第二匹配阈值。

在一个实施例中，智能语音设备可以将视频关键词逐字的与视频库中的各视频名称进行匹配，根据每个字的匹配结果得到每个字的匹配概率，根据视频关键词中各字的匹配概率得到视频关键词的相应匹配概率。可以理解，智能语音设备可以对视频关键词中各字的匹配概率求和或求均值，得到视频关键词的相应匹配概率。

在一个实施例中，根据语义分析的结果，生成与命名语句相应的操作指令并执行还包括：当进行语义分析确定命令语句为搜索命令语句时，则确定与命令语句对应的目标搜索对象；生成针对目标搜索对象相应的搜索指令；响应于搜索指令，获取与目标搜索对象相应的搜索结果并展示。

其中，搜索命令语句，是用于指示进行内容搜索的命令语句。目标搜索对象，是需要搜索的对象。

具体地，智能语音设备可以直接从命令语句中提取目标搜索对象，也可以根据命名语句的上下文语义，确定所描述、表达的目标搜索对象。比如，“我想知道贾斯汀比伯的年龄”，命令语句中包括目标搜索对象“贾斯汀比伯的年龄”，又比如“我想知道唱‘baby’的歌手的年龄”，则可以根据上下文语义，确定出目标搜索对象“贾斯汀比伯的年龄”。

智能语音设备可以生成针对目标搜索对象相应的搜索指令；响应于搜索指令，获取与目标搜索对象相应的搜索结果并展示。在一个实施例中，智能语音设备可以从服务器中获取与目标搜索对象相应的搜索结果，并将搜索结果进行展示。智能语音设备可以在自身本地将搜索结果进行展示，也可以通过智能电视机将搜索结果进行展示。

可以理解，智能语音设备可以在智能电视机处于打开状态时，将搜索结果发生至智能电视机进行展示，也可以在智能电视机处于关闭状态时，打开智能电视机，并控制智能电视机显示搜索结果。

上述实施例中，当进行语义分析得到命令语句中包括可视化对象展示关键词时，获取可视化对象展示关键词在命令语句中针对的可视化对象关键词；根据可视化对象关键词，查询与所对应的可视化对象相应的展示信息；输出查询到的与可视化对象相应的展示信息。相较于传统的智能音箱仅能输出语音信息而言，能够实现信息展示相关的处理，增强了智能语音设备的功能。

在一个实施例中，输出查询到的与可视化对象相应的展示信息包括：打开与智能语音设备绑定的智能电视机；控制智能电视机展示与匹配到的视频名称相应的视频信息。

其中，智能电视机，是具有计算机处理功能的电视机。视频信息包括视频内容和视频描述信息。

具体地，智能语音设备可以预先将智能语音设备与智能电视机进行绑定。智能语音设备从视频库中获取与匹配到的视频名称相应的视频信息之后，可以触发打开与该智能语音设备绑定的智能电视机；控制智能电视机展示与匹配到的视频名称相应的视频信息。

可以理解，在其他实施例中，当智能电视机本身已处于打开状态时，智能语音设备可以直接控制已打开的智能电视机展示与匹配到的视频名称相应的视频信息。

可以理解，一个智能语音设备可以绑定一个或多个智能电视机。当绑定有多个智能电视机时，智能语音设备可以打开所有绑定的智能电视机，也可以打开距该智能语音设备最近的智能电视机或者默认的智能电视机。

在一个实施例中，智能语音设备可以控制智能电视机运行与视频库对应的视频客户端，通过打开的视频客户端展示与匹配到的视频名称相应的视频信息。比如，智能语音设备中存储的是腾讯视频客户端(腾讯公司研发的视频播放客户端)的视频库，则将视频关键词与腾讯视频客户端的视频库中的视频名称匹配后，智能语音设备可以打开绑定的智能电视机，并控制该智能电视机运行腾讯视频客户端，通过腾讯视频客户端展示与匹配到的视频名称相应的视频信息。

在一个实施例中，控制智能电视机展示与匹配到的视频名称相应的视频信息包括：当视频关键词与匹配的视频名称的匹配概率大于或等于第一匹配阈值，控制智能电视机播放与所匹配的视频名称相应的视频内容。当视频关键词与匹配的视频名称的匹配概率大于或等于第二匹配阈值、且小于第一匹配阈值时，控制智能电视机展示与所匹配的视频名称相应的视频描述信息。

其中，视频描述信息，是描述视频的基本信息。

图8为一个实施例中智能语音设备响应于语音控制的场景示意图。参照图8，智能语音设备802上呈现虚拟交互角色“小Q”804，用户806的视线方向指向“小Q”804，智能语音设备802则进入唤醒状态。智能语音设备802获取用户806发出的包括命令语句的语音数据，并进行语义分析。当智能语音设备802分析命令语句中包括视频播放关键词时，可获取该视频播放关键词在命令语句中针对的视频关键词，从视频库中查询与该视频关键词相应的视频信息。智能语音设备802可以打开所绑定的智能电视机808，控制智能电视机808播放该视频信息。

上述实施例中，通过绑定智能电视机，控制智能电视机展示与匹配到的视频名称相应的视频信息，提高了视频信息展示的质量。

在一个实施例中，智能语音设备中还可以整合持续供电装置。可以理解，持续供电装置可以与智能语音设备的卡槽所在装置整合，也可以整合到电源所在装置。智能语音设备通过持续供电装置来实现持续供电。在一个实施例中，智能语音设备可以在放置于该持续供电装置上时，被触发实现本申请各实施例中的智能语音设备控制方法。图9为一个实施例中持续供电示意图。参照图9，持续供电装置与智能语音设备卡槽连接。上述实施例中，通过整合持续供电装置，能够保持持续供电，避免了电量不足而无法工作的情况，提高了智能语音设备的实用性。

如图10所示，在一个实施例中，提供了一种智能语音设备控制方法，该方法具体包括以下步骤：

S1002，扫描表征虚拟交互角色身份的角色二维码；从角色二维码中提取相应虚拟交互角色信息的下载链接地址；按照下载链接地址下载虚拟交互角色信息，并按照所下载的虚拟交互角色信息，将相应虚拟交互角色与智能语音设备本地进行绑定。

在一个实施例中，智能语音设备为全息智能语音成像设备；虚拟交互角色信息为三维全息虚拟交互角色信息。该方法还包括：通过全息智能语音成像设备中的液晶投影装置，将虚拟交互角色信息进行三维全息投影至全息智能语音成像设备中的全息膜；在全息智能语音成像设备的全息膜上呈现三维全息虚拟交互角色。

S1004，通过本地与绑定于同一虚拟交互角色的、非本地的智能语音设备连接于同一网络。

S1006，获取在视频监控范围内采集的图像。当在图像中识别到用户对象时，则进入近场交互模式，执行步骤S1008，当在图像中未识别到用户对象、且获取到语音数据时，则进入远场交互模式，执行步骤S1014。

S1008，识别图像中的面部图像；根据面部图像，确定相应的视线方向。当确定出的视线方向指向在智能语音设备本地呈现的虚拟交互角色时，进入步骤S1010，当视线方向未指向在智能语音设备本地呈现的虚拟交互角色时，进入步骤S1012。

在一个实施例中，根据面部图像，确定相应的视线方向包括：识别面部图像中的瞳孔位置；根据识别到的瞳孔位置确定相应的视线方向；或根据面部图像确定面部相对于智能语音设备的朝向；根据面部相对于智能语音设备的朝向，确定相应的视线方向。

S1010，控制智能语音设备进入唤醒状态。

在一个实施例中，智能语音设备还可以获取语音数据，当视线方向指向智能语音设备、且语音数据中存在预设唤醒词时，控制智能语音设备进入唤醒状态。可以理解，本实施例中，虚拟交互角色可以在智能语音设备进入唤醒状态前(即处于半休眠状态时)呈现，也可以在控制智能语音设备进入唤醒状态后，在智能语音设备本地呈现。

在一个实施例中，该方法还包括：在智能语音设备处于半休眠状态时，从与智能语音设备对应的图库中选取目标图片；展示所选取的目标图片。

S1012，获取语音数据；当语音数据中存在预设唤醒词时，控制智能语音设备进入唤醒状态。

在一个实施例中，智能语音设备可以通过以下步骤判定语音数据中是否存在预设唤醒词，具体如下：提取语音数据中的特征词；将提取的特征词与预设唤醒词进行匹配；当特征词与预设唤醒词匹配时，判定语音数据中存在预设唤醒词。

S1014，在符合远场交互模式下的唤醒条件时，发送获取的语音数据至服务器；接收服务器返回的目标设备指定指令；响应于目标设备指定指令，控制智能语音设备本地进入唤醒状态。

其中，目标设备指定指令是在语音数据与相似的语音数据相比音量最大时接收到，相似的语音数据为非本地的智能语音设备发送的与语音数据相似的语音数据；

S1016，向非本地的智能语音设备发送角色独占状态广播，角色独占状态广播用于指示接收到角色独占状态广播的智能语音设备在角色独占状态结束前不响应语音交互控制。

S1018，识别图像中的用户对象位置；将用户对象位置映射为现实场景中的用户位置；控制虚拟交互角色的朝向，使朝向随着用户位置的移动而变化、且保持始终朝向用户位置所处的方位。

在一个实施例中，用户对象位置为多个。控制虚拟交互角色的朝向，使朝向随着用户位置的移动而变化、且保持始终朝向用户位置所处的方位包括：从映射得到的各用户位置中，确定距离最近的用户位置；控制虚拟交互角色始终朝向距离最近的用户位置所处的方位；或，从各用户对象位置所对应的用户对象中确定目标用户对象；控制虚拟交互角色的朝向，使朝向随着与目标用户对象对应的映射得到的目标用户位置的移动而变化、且保持始终朝向目标用户位置所处的方位。

S1020，获取包括命令语句的语音数据；在进入唤醒状态后，从面部图像中提取面部特征以及从语音数据中提取声纹特征；根据面部特征和声纹特征进行操作权限识别。当操作权限识别未通过时，进入步骤S1022；当操作权限识别通过时，进入步骤S1024。

S1022，输出授权提示信息；获取与授权提示信息对应的授权信息；根据授权信息对面部图像对应的用户进行授权。在授权成功后，进入步骤S1024。

S1024，对命令语句进行语义分析，当进行语义分析得到命令语句中包括视频播放关键词时，将视频播放关键词在命令语句中针对的视频关键词与预设的视频库中的视频名称进行匹配；从视频库中获取与匹配到的视频名称相应的视频信息。

S1026，打开与智能语音设备绑定的智能电视机；当视频关键词与匹配的视频名称的匹配概率大于或等于第一匹配阈值，控制智能电视机播放与所匹配的视频名称相应的视频内容；当视频关键词与匹配的视频名称的匹配概率大于或等于第二匹配阈值、且小于第一匹配阈值时，控制智能电视机展示与所匹配的视频名称相应的视频描述信息。

如图11所示，在一个实施例中，提供了一种智能语音设备控制装置1100，该装置1100包括：获取模块1102、图像识别模块1104、视线方向确定模块1106以及控制模块1108，其中：

获取模块1102，用于获取在视频监控范围内采集的图像。

图像识别模块1104，用于识别图像中的面部图像。

视线方向确定模块1106，用于根据面部图像，确定相应的视线方向。

控制模块1108，用于当确定出的视线方向指向在智能语音设备本地呈现的虚拟交互角色时，控制智能语音设备进入唤醒状态。

在一个实施例中，视线方向确定模块1106还用于识别面部图像中的瞳孔位置；根据识别到的瞳孔位置确定相应的视线方向；或根据面部图像确定面部相对于智能语音设备的朝向；根据面部相对于智能语音设备的朝向，确定相应的视线方向。

在一个实施例中，控制模块1108还用于获取语音数据；当确定出的视线方向指向在智能语音设备本地呈现的虚拟交互角色、且语音数据中存在预设唤醒词时，控制智能语音设备进入唤醒状态。

在一个实施例中，控制模块1108还用于提取语音数据中的特征词；将提取的特征词与预设唤醒词进行匹配；当特征词与预设唤醒词匹配时，判定语音数据中存在预设唤醒词。

在一个实施例中，控制模块1108还用于获取语音数据；当视线方向指向智能语音设备、且语音数据中存在预设唤醒词时，控制智能语音设备进入唤醒状态，并在智能语音设备本地呈现所绑定的虚拟交互角色。

在一个实施例中，控制模块1108还用于在智能语音设备处于半休眠状态时，从与智能语音设备对应的图库中选取目标图片；展示所选取的目标图片。

在一个实施例中，控制模块1108还用于获取语音数据；当视线方向未指向在智能语音设备本地呈现的虚拟交互角色、且语音数据中存在预设唤醒词时，控制智能语音设备进入唤醒状态。

如图12所示，在一个实施例中，装置1100还包括：

交互模式确定模块1103，用于当在图像中识别到用户对象时，则进入近场交互模式，通知图像识别模块1104执行识别图像中的面部图像的步骤；当在图像中未识别到用户对象、且获取到语音数据时，则进入远场交互模式，则通知控制模块1108执行在获取的语音数据符合远场交互模式下的唤醒条件时，控制智能语音设备进入唤醒状态的步骤。

在一个实施例中，远场交互模式下的唤醒条件包括：获取的语音数据中包括在预设周期内出现预设次数的预设唤醒词。

在一个实施例中，本地与绑定于虚拟交互角色的至少一个非本地的智能语音设备连接于同一网络。控制模块1108还用于在符合远场交互模式下的唤醒条件时，发送获取的语音数据至服务器；接收服务器返回的目标设备指定指令，目标设备指定指令是在语音数据与相似的语音数据相比音量最大时接收到，相似的语音数据为非本地的智能语音设备发送的与语音数据相似的语音数据；响应于目标设备指定指令，控制智能语音设备本地进入唤醒状态。

在一个实施例中，本地与绑定于虚拟交互角色的至少一个非本地的智能语音设备连接于同一网络。控制模块1108还用于向非本地的智能语音设备发送角色独占状态广播，角色独占状态广播用于指示接收到角色独占状态广播的智能语音设备在角色独占状态结束前不响应语音交互控制。

在一个实施例中，控制模块1108还用于识别图像中的用户对象位置；将用户对象位置映射为现实场景中的用户位置；控制虚拟交互角色的朝向，使朝向随着用户位置的移动而变化、且保持始终朝向用户位置所处的方位。

在一个实施例中，用户对象位置为多个。控制模块1108还用于从映射得到的各用户位置中，确定距离最近的用户位置；控制虚拟交互角色始终朝向距离最近的用户位置所处的方位；或，从各用户对象位置所对应的用户对象中确定目标用户对象；控制虚拟交互角色的朝向，使朝向随着与目标用户对象对应的映射得到的目标用户位置的移动而变化、且保持始终朝向目标用户位置所处的方位。

如图13所示，在一个实施例中，装置1100还包括：

命令执行模块1110，用于获取包括命令语句的语音数据；在进入唤醒状态后，对命令语句进行语义分析；根据语义分析的结果，生成与命名语句相应的操作指令并执行。

在一个实施例中，命令执行模块1110还用于在进入唤醒状态后，从面部图像中提取面部特征以及从语音数据中提取声纹特征；根据面部特征和声纹特征进行操作权限识别；当操作权限识别通过时，对命令语句进行语义分析。

在一个实施例中，命令执行模块1110还用于当操作权限识别未通过时，输出授权提示信息；获取与授权提示信息对应的授权信息；根据授权信息对面部图像对应的用户进行授权；在授权成功后，对命令语句进行语义分析。

在一个实施例中，命令执行模块1110还用于当进行语义分析得到命令语句中包括可视化对象展示关键词时，则获取可视化对象展示关键词在命令语句中针对的可视化对象关键词；根据可视化对象关键词，查询与所对应的可视化对象相应的展示信息；输出查询到的与可视化对象相应的展示信息。

在一个实施例中，可视化对象为视频；可视化对象展示关键词为视频播放关键词；可视化对象关键词为视频关键词。命令执行模块1110还用于将视频关键词与预设的视频库中的视频名称进行匹配；从视频库中获取与匹配到的视频名称相应的视频信息。

在一个实施例中，命令执行模块1110还用于打开与智能语音设备绑定的智能电视机；控制智能电视机展示与匹配到的视频名称相应的视频信息。

在一个实施例中，命令执行模块1110还用于当视频关键词与匹配的视频名称的匹配概率大于或等于第一匹配阈值，控制智能电视机播放与所匹配的视频名称相应的视频内容；当视频关键词与匹配的视频名称的匹配概率大于或等于第二匹配阈值、且小于第一匹配阈值时，控制智能电视机展示与所匹配的视频名称相应的视频描述信息。

在一个实施例中，命令执行模块1110还用于当进行语义分析确定命令语句为搜索命令语句时，则确定与命令语句对应的目标搜索对象；生成针对目标搜索对象相应的搜索指令；响应于搜索指令，获取与目标搜索对象相应的搜索结果并展示。

在一个实施例中，该装置1100还包括：

角色绑定模块(图中未示出)，用于扫描表征虚拟交互角色身份的角色二维码；从角色二维码中提取相应虚拟交互角色信息的下载链接地址；按照下载链接地址下载虚拟交互角色信息，并按照所下载的虚拟交互角色信息，将相应虚拟交互角色与本地进行绑定。

在一个实施例中，智能语音设备为全息智能语音成像设备；虚拟交互角色信息为三维全息虚拟交互角色信息。该装置1100还包括：

角色呈现模块(图中未示出)，用于通过全息智能语音成像设备中的液晶投影装置，将虚拟交互角色信息进行三维全息投影至全息智能语音成像设备中的全息膜；在全息智能语音成像设备的全息膜上呈现三维全息虚拟交互角色。

图14为一个实施例中计算机设备的内部结构示意图。参照图14，该计算机设备可以是图1中所示的智能语音设备，该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质可存储操作系统和计算机程序。该计算机程序被执行时，可使得处理器执行一种智能语音设备控制方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该内存储器中可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行一种智能语音设备控制方法。计算机设备的网络接口用于进行网络通信。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏等。计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是终端外壳上设置的按键、轨迹球或触控板，也可以是外接的键盘、触控板或鼠标等。该计算机设备可以是个人计算机、移动终端或车载设备，移动终端包括手机、平板电脑、个人数字助理或可穿戴设备等中的至少一种。

本领域技术人员可以理解，图14中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的智能语音设备控制装置可以实现为一种计算机程序的形式，计算机程序可在如图14所示的计算机设备上运行，计算机设备的非易失性存储介质可存储组成该智能语音设备控制装置的各个程序模块，比如，图11所示的获取模块1102、图像识别模块1104、视线方向确定模块1106以及控制模块1108。各个程序模块所组成的计算机程序用于使该计算机设备执行本说明书中描述的本申请各个实施例的智能语音设备控制方法中的步骤，例如，计算机设备可以通过如图11所示的智能语音设备控制装置1100中的获取模块1102获取在视频监控范围内采集的图像，并通过图像识别模块1104识别图像中的面部图像。智能语音设备可以通过视线方向确定模块1106根据面部图像确定相应的视线方向，并通过控制模块1108当确定出的视线方向指向在智能语音设备本地呈现的虚拟交互角色时，控制智能语音设备进入唤醒状态。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，计算机程序被处理器执行时，使得处理器执行如下步骤：获取在视频监控范围内采集的图像；识别图像中的面部图像；根据面部图像，确定相应的视线方向；当确定出的视线方向指向在智能语音设备本地呈现的虚拟交互角色时，控制智能语音设备进入唤醒状态。

在一个实施例中，当确定出的视线方向指向在智能语音设备本地呈现的虚拟交互角色时，控制智能语音设备进入唤醒状态包括：获取语音数据；当确定出的视线方向指向在智能语音设备本地呈现的虚拟交互角色、且语音数据中存在预设唤醒词时，控制智能语音设备进入唤醒状态。

在一个实施例中，计算机程序还使得处理器执行以下步骤：提取语音数据中的特征词；将提取的特征词与预设唤醒词进行匹配；当特征词与预设唤醒词匹配时，判定语音数据中存在预设唤醒词。

在一个实施例中，当确定出的视线方向指向在智能语音设备本地呈现的虚拟交互角色时，控制智能语音设备进入唤醒状态包括：获取语音数据；当视线方向指向智能语音设备、且语音数据中存在预设唤醒词时，控制智能语音设备进入唤醒状态，并在智能语音设备本地呈现所绑定的虚拟交互角色。

在一个实施例中，计算机程序还使得处理器执行以下步骤：在智能语音设备处于半休眠状态时，从与智能语音设备对应的图库中选取目标图片；展示所选取的目标图片。

在一个实施例中，计算机程序还使得处理器执行以下步骤：获取语音数据；当视线方向未指向在智能语音设备本地呈现的虚拟交互角色、且语音数据中存在预设唤醒词时，控制智能语音设备进入唤醒状态。

在一个实施例中，计算机程序还使得处理器执行以下步骤：当在图像中识别到用户对象时，则进入近场交互模式，执行识别图像中的面部图像的步骤；当在图像中未识别到用户对象、且获取到语音数据时，则进入远场交互模式，则在获取的语音数据符合远场交互模式下的唤醒条件时，控制智能语音设备进入唤醒状态。

在一个实施例中，本地与绑定于虚拟交互角色的至少一个非本地的智能语音设备连接于同一网络。在获取的语音数据符合远场交互模式下的唤醒条件时，控制智能语音设备进入唤醒状态包括：在符合远场交互模式下的唤醒条件时，发送获取的语音数据至服务器；接收服务器返回的目标设备指定指令，目标设备指定指令是在语音数据与相似的语音数据相比音量最大时接收到，相似的语音数据为非本地的智能语音设备发送的与语音数据相似的语音数据；响应于目标设备指定指令，控制智能语音设备本地进入唤醒状态。

在一个实施例中，本地与绑定于虚拟交互角色的至少一个非本地的智能语音设备连接于同一网络。计算机程序还使得处理器执行以下步骤：向非本地的智能语音设备发送角色独占状态广播，角色独占状态广播用于指示接收到角色独占状态广播的智能语音设备在角色独占状态结束前不响应语音交互控制。

在一个实施例中，计算机程序还使得处理器执行以下步骤：识别图像中的用户对象位置；将用户对象位置映射为现实场景中的用户位置；控制虚拟交互角色的朝向，使朝向随着用户位置的移动而变化、且保持始终朝向用户位置所处的方位。

在一个实施例中，计算机程序还使得处理器执行以下步骤：获取包括命令语句的语音数据；在进入唤醒状态后，对命令语句进行语义分析；根据语义分析的结果，生成与命名语句相应的操作指令并执行。

在一个实施例中，计算机程序还使得处理器执行以下步骤：当操作权限识别未通过时，输出授权提示信息；获取与授权提示信息对应的授权信息；根据授权信息对面部图像对应的用户进行授权；在授权成功后，对命令语句进行语义分析。

在一个实施例中，根据语义分析的结果，生成与命名语句相应的操作指令并执行包括：当进行语义分析得到命令语句中包括可视化对象展示关键词时，则获取可视化对象展示关键词在命令语句中针对的可视化对象关键词；根据可视化对象关键词，查询与所对应的可视化对象相应的展示信息；输出查询到的与可视化对象相应的展示信息。

在一个实施例中，可视化对象为视频；可视化对象展示关键词为视频播放关键词；可视化对象关键词为视频关键词。根据可视化对象关键词，查询与所对应的可视化对象相应的展示信息包括：当进行语义分析得到命令语句中包括视频关键词时，将视频关键词与预设的视频库中的视频名称进行匹配；从视频库中获取与匹配到的视频名称相应的视频信息。

在一个实施例中，控制智能电视机展示与匹配到的视频名称相应的视频信息包括：当视频关键词与匹配的视频名称的匹配概率大于或等于第一匹配阈值，控制智能电视机播放与所匹配的视频名称相应的视频内容；当视频关键词与匹配的视频名称的匹配概率大于或等于第二匹配阈值、且小于第一匹配阈值时，控制智能电视机展示与所匹配的视频名称相应的视频描述信息。

在一个实施例中，计算机程序还使得处理器执行以下步骤：扫描表征虚拟交互角色身份的角色二维码；从角色二维码中提取相应虚拟交互角色信息的下载链接地址；按照下载链接地址下载虚拟交互角色信息，并按照所下载的虚拟交互角色信息，将相应虚拟交互角色与本地进行绑定。

在一个实施例中，智能语音设备为全息智能语音成像设备；虚拟交互角色信息为三维全息虚拟交互角色信息。计算机程序还使得处理器执行以下步骤：通过全息智能语音成像设备中的液晶投影装置，将虚拟交互角色信息进行三维全息投影至全息智能语音成像设备中的全息膜；在全息智能语音成像设备的全息膜上呈现三维全息虚拟交互角色。

在一个实施例中，提供了一种存储有计算机程序的存储介质，计算机程序被处理器执行时，使得处理器执行如下步骤：获取在视频监控范围内采集的图像；识别图像中的面部图像；根据面部图像，确定相应的视线方向；当确定出的视线方向指向在智能语音设备本地呈现的虚拟交互角色时，控制智能语音设备进入唤醒状态。

应该理解的是，虽然本申请各实施例中的各个步骤并不是必然按照步骤标号指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种智能语音设备控制方法，所述方法包括：

在全息智能语音成像设备处于半休眠状态时，通过所述全息智能语音成像设备中的液晶投影装置，将虚拟交互角色对应的虚拟交互角色信息进行三维全息投影至全息智能语音成像设备中的全息膜；所述虚拟交互角色与该全息智能语音成像设备之间具有绑定关系；

在所述全息膜上呈现三维全息虚拟交互角色；所述三维全息虚拟交互角色，是以全息投影技术投影的、在现实环境的空间中以立体形态呈现的虚拟交互角色；

获取在视频监控范围内采集的图像；

当在所述图像中识别到用户对象时，则进入近场交互模式，并按照所述近场交互模式对应的交互处理逻辑，识别所述图像中的用户对象位置；将所述用户对象位置映射为现实场景中的用户位置；控制所述三维全息虚拟交互角色的朝向，使所述朝向随着所述用户位置的移动而变化、且保持始终朝向所述用户位置所处的方位；

识别所述图像中的面部图像；

根据所述面部图像，确定相应的视线方向；

当确定出的视线方向指向所述三维全息虚拟交互角色、且获取到存在预设唤醒词的语音数据时，控制所述全息智能语音成像设备进入唤醒状态；所述唤醒状态，是能够执行与语音数据相应的命令的状态；

当在所述图像中未识别到用户对象、且获取到语音数据时，则进入远场交互模式，并按照远场交互模式下的交互处理逻辑在确定获取的语音数据符合远场交互模式下的唤醒条件的情况下，控制所述全息智能语音成像设备进入唤醒状态；

在所述虚拟交互角色所绑定的非本地的智能语音设备与所述全息智能语音成像设备连接于同一网络的情况下，所述全息智能语音成像设备在进入唤醒状态后，向所述非本地的智能语音设备发送角色独占状态广播；角色独占状态广播用于指示接收到角色独占状态广播的智能语音设备在角色独占状态结束前不响应语音交互控制；所述非本地的智能语音设备，是所述全息智能语音成像设备之外的、且与所述虚拟交互角色绑定的智能语音设备。

2.根据权利要求1所述的方法，其特征在于，本地与绑定于所述虚拟交互角色的至少一个非本地的智能语音设备连接于同一网络；

所述在确定获取的语音数据符合远场交互模式下的唤醒条件的情况下，控制所述全息智能语音成像设备进入唤醒状态包括：

在符合远场交互模式下的唤醒条件时，发送获取的语音数据至服务器；

接收服务器返回的目标设备指定指令，所述目标设备指定指令是在所述语音数据与相似的语音数据相比音量最大时接收到，所述相似的语音数据为非本地的智能语音设备发送的与所述语音数据相似的语音数据；

响应于所述目标设备指定指令，控制全息智能语音成像设备本地进入唤醒状态。

3.根据权利要求1所述的方法，其特征在于，还包括：

在进入唤醒状态后，对所述语音数据中包括的命令语句进行语义分析；

根据所述语义分析的结果，生成与所述命名语句相应的操作指令并执行。

4.根据权利要求3所述的方法，其特征在于，所述根据所述语义分析的结果，生成与所述命名语句相应的操作指令并执行包括：

当进行语义分析得到所述命令语句中包括可视化对象展示关键词时，则获取所述可视化对象展示关键词在所述命令语句中针对的可视化对象关键词；

根据所述可视化对象关键词，查询与所对应的可视化对象相应的展示信息；

输出查询到的与所述可视化对象相应的展示信息。

5.根据权利要求4所述的方法，其特征在于，所述可视化对象为视频；所述可视化对象展示关键词为视频播放关键词；所述可视化对象关键词为视频关键词；

所述根据所述可视化对象关键词，查询与所对应的可视化对象相应的展示信息包括：

将所述视频关键词与预设的视频库中的视频名称进行匹配；

从所述视频库中获取与匹配到的视频名称相应的视频信息。

6.根据权利要求5所述的方法，其特征在于，所述输出查询到的与所述可视化对象相应的展示信息包括：

打开与全息智能语音成像设备绑定的智能电视机；

控制所述智能电视机展示与匹配到的视频名称相应的视频信息。

7.根据权利要求6所述的方法，其特征在于，所述控制所述智能电视机展示与匹配到的视频名称相应的视频信息包括：

当所述视频关键词与匹配的视频名称的匹配概率大于或等于第一匹配阈值，控制所述智能电视机播放与所匹配的视频名称相应的视频内容；

当所述视频关键词与匹配的视频名称的匹配概率大于或等于第二匹配阈值、且小于第一匹配阈值时，控制智能电视机展示与所匹配的视频名称相应的视频描述信息。

8.一种智能语音设备控制装置，其特征在于，所述装置包括：

角色呈现模块，用于在全息智能语音成像设备处于半休眠状态时，通过所述全息智能语音成像设备中的液晶投影装置，将虚拟交互角色对应的虚拟交互角色信息进行三维全息投影至全息智能语音成像设备中的全息膜；在所述全息膜上呈现三维全息虚拟交互角色；所述虚拟交互角色与该全息智能语音成像设备之间具有绑定关系；所述三维全息虚拟交互角色，是以全息投影技术投影的、在现实环境的空间中以立体形态呈现的虚拟交互角色；

获取模块，用于获取在视频监控范围内采集的图像；

图像识别模块，用于识别所述图像中的面部图像；

控制模块，用于当在所述图像中识别到用户对象时，则进入近场交互模式，并按照所述近场交互模式对应的交互处理逻辑，识别所述图像中的用户对象位置；将所述用户对象位置映射为现实场景中的用户位置；控制所述三维全息虚拟交互角色的朝向，使所述朝向随着所述用户位置的移动而变化、且保持始终朝向所述用户位置所处的方位；当确定出的视线方向指向所述三维全息虚拟交互角色、且获取到存在预设唤醒词的语音数据时，控制所述全息智能语音成像设备进入唤醒状态；所述唤醒状态，是能够执行与语音数据相应的命令的状态；当在所述图像中未识别到用户对象、且获取到语音数据时，则进入远场交互模式，并按照远场交互模式下的交互处理逻辑在确定获取的语音数据符合远场交互模式下的唤醒条件的情况下，控制所述全息智能语音成像设备进入唤醒状态；

控制模块还用于在所述虚拟交互角色所绑定的非本地的智能语音设备与所述全息智能语音成像设备连接于同一网络的情况下，所述全息智能语音成像设备在进入唤醒状态后，向所述非本地的智能语音设备发送角色独占状态广播；角色独占状态广播用于指示接收到角色独占状态广播的智能语音设备在角色独占状态结束前不响应语音交互控制；所述非本地的智能语音设备，是所述全息智能语音成像设备之外的、且与所述虚拟交互角色绑定的智能语音设备。

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。

10.一种存储有计算机程序的存储介质，所述计算机程序被处理器执行时，使得处理器执行如权利要求1至7中任一项所述方法的步骤。