CN109032345B

CN109032345B - 设备控制方法、装置、设备、服务端和存储介质

Info

Publication number: CN109032345B
Application number: CN201810726053.XA
Authority: CN
Inventors: 王峰磊; 张丽川; 陈果果
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd; Shanghai Xiaodu Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Shanghai Xiaodu Technology Co Ltd
Priority date: 2018-07-04
Filing date: 2018-07-04
Publication date: 2022-11-29
Anticipated expiration: 2038-07-04
Also published as: CN109032345A

Abstract

本发明实施例公开了一种设备控制方法、装置、设备、服务端和存储介质。该方法包括：采集并向服务端上报用户的脸部特征和/或手势特征；接收服务端依据所述用户的脸部特征和/或手势特征识别的用户意图；依据接收的用户意图控制本机设备的工作状态。本发明通过增加触控和声控之外的人机交互方式，依据用户的脸部特征和/或手势特征反映的用户意图对设备进行控制，实现在任何场景下人与设备之间新的人机交互方式，解决了在较为嘈杂的环境中无法对设备进行远距离控制的问题。

Description

设备控制方法、装置、设备、服务端和存储介质

技术领域

本发明实施例涉及人机交互技术领域，尤其涉及一种设备控制方法、装置、设备、服务端和存储介质。

背景技术

随着人工智能技术的快速发展，越来越多的智能设备应用于生活中的各个方面，用户可以通过与智能设备的触控或语音交互等方式对设备进行控制。

在采用智能设备播放音频、视频等多媒体文件或玩游戏过程中，智能设备所处的环境较为嘈杂。如果用户急需处于安静环境，当用户与设备距离处于可触及的范围内时，可以完全依靠用户对设备的触控操作,通过下拉菜单调出音量控制的界面手动调节音量，或者使用硬件音量按钮控制音量大小；当用户离设备有一定距离时，可以通过语音交互进行控制。

然而，现有技术中人与智能设备之间的交互方式较为单一，无法克服特殊场景下的应用需要，例如难以在较为嘈杂的环境中实现远距离的设备控制，降低设备性能以及用户的使用体验。

发明内容

本发明实施例提供了一种设备控制方法、装置、设备、服务端和存储介质，能够增加人机交互方式。

第一方面，本发明实施例提供了一种设备控制方法，包括：

采集并向服务端上报用户的脸部特征和/或手势特征；

接收服务端依据所述用户的脸部特征和/或手势特征识别的用户意图；

依据接收的用户意图控制本机设备的工作状态。

第二方面，本发明实施例提供了一种设备控制方法，包括：

接收用户端上报的用户的脸部特征和/或手势特征；

依据所述用户的脸部特征和/或手势特征识别用户意图；

向所述用户端下发所述用户意图，使所述用户端依据识别的用户意图控制本机设备的工作状态。

第三方面，本发明实施例提供了一种设备控制装置，包括：

特征采集模块，用于采集并向服务端上报用户的脸部特征和/或手势特征；

意图接收模块，用于接收服务端依据所述用户的脸部特征和/或手势特征识别的用户意图；

设备控制模块，用于依据接收的用户意图控制本机设备的工作状态。

第四方面，本发明实施例提供了一种设备控制装置，包括：

特征接收模块，用于接收用户端上报的用户的脸部特征和/或手势特征；

意图识别模块，用于依据所述用户的脸部特征和/或手势特征识别用户意图；

意图下发模块，用于向所述用户端下发所述用户意图，使所述用户端依据识别的用户意图控制本机设备的工作状态。

第五方面，本发明实施例提供了一种设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明任意实施例所述的设备控制方法。

第六方面，本发明实施例提供了一种服务端，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

第七方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明任意实施例所述的由设备或服务端执行的设备控制方法。

本发明实施例通过对用户的脸部特征和/或手势特征进行采集和上报，依据服务端对用户特征识别和下发的用户意图控制本机设备调整工作状态。本发明通过增加触控和声控之外的人机交互方式，依据用户的脸部特征和/或手势特征反映的用户意图对设备进行控制，实现新的人机交互方式，解决了在较为嘈杂的环境中无法对设备进行远距离控制的问题。

附图说明

图1为本发明实施例一提供的一种设备控制方法的流程图；

图2为本发明实施例二提供的一种设备控制方法的流程图；

图3为本发明实施例三提供的一种设备控制方法的流程图；

图4为本发明实施例四提供的一种设备控制方法的流程图；

图5为本发明实施例五提供的一种设备控制方法的流程图；

图6为本发明实施例六提供的一种设备控制装置的结构示意图；

图7为本发明实施例七提供的一种设备控制装置的结构示意图；

图8为本发明实施例八提供的一种设备的结构示意图；

图9为本发明实施例九提供的一种服务端的结构示意图。

具体实施方式

下面结合附图和实施例对本发明实施例作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明实施例，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明实施例相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种设备控制方法的流程图，本实施例可适用于控制设备工作状态的情况，该方法可由配置于用户端的一种设备控制装置来执行。该方法具体包括如下步骤：

S110、采集并向服务端上报用户的脸部特征和/或手势特征。

在本发明具体实施例中，可以通过本机设备中的摄像头和/或红外传感器采集用户的脸部特征和/或手势特征等视觉特征。其中，本机设备可以是底座固定且带有摄像头或红外传感器等图像传感器的设备，例如智能音箱、平板电脑、电脑以及电视等。该设备可以具备播放影音媒体文件或者闹钟提醒等可发出声音的功能。

具体的，用户对设备进行控制时，可以摆出具体静态或动态的脸部状态或手势，或者是脸部与手势所组成的姿势，从而设备通过摄像头等图像采集装置采集用户的控制姿势图像或图像序列，并提取其脸部特征和/或手势特征。进一步的，鉴于设备在执行音视频或游戏等娱乐类应用时，或者闹钟提醒响起时，设备所发出的声音较大，导致其所处的环境较为嘈杂，本实施例可以对预设的监控应用进行运行状态的检测，当预设的监控应用启动时，则实时采集用户的脸部特征和/或手势特征，并上报给服务端。其中，监控应用可以是预设的音频、视频或游戏应用等；监控应用也可以是具有提醒功能的应用，例如若检测到闹钟提醒事件，则实时采集用户的脸部特征和/或手势特征。

S120、接收服务端依据用户的脸部特征和/或手势特征识别的用户意图。

在本发明具体实施例中，服务端中可以依据预先建立的预设特征库或者意图分类器，对接收到的用户的脸部特征和/或手势特征进行意图识别，并将识别结果下发给用户端，以使用户端接收服务端依据用户的脸部特征和/或手势特征识别的用户意图。

S130、依据接收的用户意图控制本机设备的工作状态。

在本发明具体实施例中，可以预先建立设备控制意图与设备控制指令之间的关联关系，进而在接收到用户意图时，可以直接执行关联的指令实现对设备的控制。

具体的，若接收的用户意图是设备静音，则将设备音量调节为零，控制本机设备处于静音状态；若接收的用户意图是暂停，则控制暂停播放多媒体内容；若接收的用户意图是停止提醒，则关闭闹钟提醒事件。

本实施例的技术方案，通过对用户的脸部特征和/或手势特征进行采集和上报，依据服务端对用户特征识别和下发的用户意图控制本机设备调整工作状态。本发明通过增加触控和声控之外的人机交互方式，依据用户的脸部特征和/或手势特征反映的用户意图对设备进行控制，实现在任何场景下人与设备之间新的人机交互方式，解决了在较为嘈杂的环境中无法对设备进行远距离控制的问题。

实施例二

本实施例在上述实施例一的基础上，提供了设备控制方法的一个优选实施方式，能够对处于嘈杂环境中的设备进行控制。图2为本发明实施例二提供的一种设备控制方法的流程图，如图2所示，该方法包括以下具体步骤：

S210、若检测到本机设备中的预设的监控应用启动，则实时采集并向服务端上报用户的脸部特征和/或手势特征。

在本发明具体实施例中，预设的监控应用是指运行时能发出较大声音的应用，例如视频、音频、游戏等娱乐类应用以及闹钟。鉴于设备在执行娱乐类应用时，或者闹钟提醒事件发起时，设备所发出的声音较大，导致其所处的环境较为嘈杂，因此若检测到本机设备中的预设的监控应用启动即娱乐类应用启动是，或者检测到闹钟提醒事件，则实时采集用户的脸部状态和/或手势，并提取其中的脸部特征和/或手势特征上报给服务端，作为用户意图识别和设备控制的依据。

S220、接收服务端依据用户的脸部特征和/或手势特征识别的用户意图。

在本发明具体实施例中，服务端通过将接收的用户的脸部特征和/或手势特征与预设特征库中各预定义特征进行匹配，确定与当前用户的脸部特征和/或手势特征匹配度最高的预定义特征，并依据预设特征库中各预定义特征与用户意图的关联关系，确定当前用户的设备控制意图，从而用户端接收服务端下发的用户意图。

S230、若接收的用户意图是设备静音，则控制本机设备处于静音状态。

在本发明具体实施例中，当接收的用户意图是设备静音时，则依据控制意图与设备控制指令之间的关联关系，确定当前用户的设备控制指令为静音操作，从而控制本机设备的降低音量为零，或者直接关闭设备的声音外放功能，实现设备的静音控制。

此外，设备的控制不局限于静音状态的控制，还可以在接收的用户意图为暂停时，确定当前用户的设备控制指令为暂停操作，从而控制本机设备暂停当前播放的音视频文件。对于闹钟提醒事件的产生，当接收的用户意图是停止提醒时，则关闭当前的闹钟提醒事件。

本实施例的技术方案，通过对本机设备中预设的监控应用的运行状态进行检测，当检测到上述有声音产生的娱乐类应用启动或闹钟事件产生时，实时采集用户的脸部状态和/或手势图像，并响应接收到的用户的设备静音意图控制本机设备处于静音状态。本实施例通过增加触控和声控之外的人机交互方式，在指定应用启动时，依据用户的脸部特征和/或手势特征反映的用户意图对设备进行控制，实现在任何场景下尤其是较为嘈杂的环境中，人与设备之间新的人机交互方式，提高了设备对用户指令的监控效率，解决了在较为嘈杂的环境中无法对设备进行远距离控制的问题。

实施例三

本实施例在上述实施例一的基础上，提供了设备控制方法的一个优选实施方式，能够依据用户的多维度特征对设备进行控制。图3为本发明实施例三提供的一种设备控制方法的流程图，如图3所示，该方法包括以下具体步骤：

S310、采集用户的脸部特征和/或手势特征，以及用户的会话语音。

在本发明具体实施例中，用以控制设备工作状态的特征包括但不局限于视觉维度、语音维度和语义维度。其中，可以通过本机设备中的摄像头和/或红外传感器等图像采集装置采集用户的视觉维度特征，获取用户的脸部特征和/或手势特征，同时可以通过本机设备中的麦克风等声音采集装置采集用户的会话语音。

具体的，用户对设备进行控制时，可以摆出具体静态或动态的脸部状态或手势，或者是脸部与手势所组成的姿势，同时还可以说出与脸部状态和手势一致的会话语音。从而，设备通过图像采集装置采集用户的控制姿势图像或图像序列，并提取其脸部特征和/或手势特征；通过声音采集装置采集用户的会话语音。进一步的，当检测到预设的监控应用启动时，例如音频、视频或游戏等娱乐类应用的启动以及闹钟提醒事件的产生，则实时采集用户的脸部特征和/或手势特征以及用户的会话语音。通过对用户特征采集的时机的限定，避免了设备无效地采集特征操作，提高了设备利用率和特征采集的效率。

S320、接收服务端依据用户的脸部特征和/或手势特征，以及用户的语音特征和/或语义特征识别的用户意图。

在本发明具体实施例中，服务端基于接收的用户语音确定用户的语音特征和/或语义特征，通过将用户的脸部特征、手势特征、语音特征和语义特征中的至少一种特征与预设特征库中各预定义特征进行匹配，确定与当前用户特征匹配度最高的预定义特征，并依据预设特征库中各预定义特征与用户意图的关联关系，确定当前用户的设备控制意图，从而用户端接收服务端下发的用户意图。

S330、依据接收的用户意图控制本机设备的工作状态。

在本发明具体实施例中，可以预先建立设备控制意图与设备控制指令之间的关联关系，进而在接收到用户意图时，可以直接执行关联的指令实现对设备的控制。具体的，若接收的用户意图是设备静音，则将设备音量调节为零，控制本机设备处于静音状态；若接收的用户意图是暂停，则控制暂停播放多媒体内容；若接收的用户意图是停止提醒，则关闭闹钟提醒事件。

本实施例的技术方案，通过对视觉维度、语音维度和语义维度等不同维度的用户特征进行采集，并接收服务端针对多维度用户特征识别出的意图识别结果，从而依据用户意图控制本机设备调整工作状态。本发明通过综合视觉和听觉等多种人机交互方式，依据反映用户意图的脸部特征、手势特征、语音特征和语义特征中的至少一种对设备进行控制，不同维度的特征之间能够得到互补，实现在任何场景下人与设备之间新的人机交互方式，提高意图识别和设备控制的准确度，解决了在较为嘈杂的环境中无法对设备进行远距离控制的问题。

实施例四

图4为本发明实施例四提供的一种设备控制方法的流程图，本实施例可适用于控制设备工作状态的情况，该方法可由配置于服务端的一种设备控制装置来执行。该方法具体包括如下步骤：

S410、接收用户端上报的用户的脸部特征和/或手势特征。

在本发明具体实施例中，用户端是指可以与用户进行人机交互的智能设备。用户端当检测到预设的监控类应用启动时，或检测到闹钟提醒事件时，则实时采集用户的脸部特征和/或手势特征，并随即上报给服务端，以使用于意图识别的服务端接收用户端上报的用户的脸部特征和/或手势特征。

S420、依据用户的脸部特征和/或手势特征识别用户意图。

在本发明具体实施例中，可以依据人们的常用肢体语言与所表达意图的对应关系，在服务端预先建立预设特征库，预设特征库中设置有多个预定义特征，至少可以包括脸部特征、手势特征或者脸部与手势共同所组成的特征，每个预定义特征对应于用户具体的设备控制意图，例如任意一只手指竖起放在嘴部中央可以表示静音或调低音量意图，将一只手掌心向下另一只手的任意一只手指竖直于该掌心下可以表示停止或暂停意图。其中，预定义特征与设备控制意图可以是一对一或者是多对一的关系。

具体的，预设特征库可以在设备出厂时预先建立完成，并赋予各预定义特征的解释说明和使用方法；或者，可以由用户在使用过程中通过控制设备采集自定义脸部状态和/或手势，或将自定义脸部状态和/或手势图像传输至设备中，以供设备通过特征提取，获取用户自定义的脸部特征和/或手势特征，并建立与用户控制意图的对应关系上报给服务端，实现预设特征的用户自定义。或者，服务端中通过训练好的分类器，例如神经网络分类器、最大熵分类器等，将用户特征输入至分类器中，得到用户的视觉特征对应的用户意图。

在本发明具体实施例中，服务端将接收的用户的脸部特征和/或手势特征与预设特征库中各预定义特征进行匹配，确定与当前用户的脸部特征和/或手势特征匹配度最高的预定义特征，并依据预设特征库中各预定义特征与用户意图的关联关系，确定当前用户的设备控制意图。

具体的，若依据采集的脸部特征和手势特征识别到静音需求特征，则确定用户意图是设备静音；若依据采集的脸部特征和手势特征识别到暂停需求特征，则确定用户意图是设备播放暂停；若依据采集的脸部特征和手势特征识别到功能关闭需求，则确定用户意图是关闭相应的功能；若依据采集的脸部特征和手势特征识别到设备关闭需求，则确定用户意图是关闭设备。除此之外，本实施例还可以通过服务端识别用户的其他设备控制意图，而不局限于上述意图。

示例性的，姿势将任意一只手指竖起放在嘴部中央可以表示静音或调低音量意图，姿势将一只手掌心向下另一只手的任意一只手指竖直于该掌心下可以表示停止或暂停意图。相应的，服务端依据用户特征，若识别到用户的静音需求，则确定用户意图为设备静音；若识别到用户的暂停需求，则确定用户意图为设备播放暂停。

S430、向用户端下发用户意图，使用户端依据识别的用户意图控制本机设备的工作状态。

在本发明具体实施例中，服务端在识别出用户意图后，随即将识别的用户意图下发给用户端，为用户端控制设备工作状态提供依据，以使用户端依据设备控制意图与设备控制指令之间的关联关系，确定当前的设备控制指令，实现用户通过与设备的人机交互来控制设备的工作状态。

本实施例的技术方案，通过对接收到的用户的脸部特征和/或手势特征进行意图识别，并将识别的用户意图下发给用户端中，以使用户端依据接收到的意图识别结果控制本机设备调整工作状态。本发明通过增加触控和声控之外的人机交互方式，依据用户的脸部特征和/或手势特征反映的用户意图对设备进行控制，实现在任何场景下人与设备之间新的人机交互方式，解决了在较为嘈杂的环境中无法对设备进行远距离控制的问题。

实施例五

本实施例在上述实施例四的基础上，提供了设备控制方法的一个优选实施方式，能够对处于嘈杂环境中的设备进行控制。图5为本发明实施例五提供的一种设备控制方法的流程图，如图5所示，该方法包括以下具体步骤：

S510、接收用户端上报的用户的脸部特征和/或手势特征，以及用户语音。

在本发明具体实施例中，用户端是指可以与用户进行人机交互的智能设备。用户端当检测到预设的监控类应用启动时，或检测到闹钟提醒事件时，则实时采集用户的脸部特征和/或手势特征以及用户语音，并随即上报给服务端，以使用于意图识别的服务端接收用户端上报的用户的脸部特征和/或手势特征以及用户语音。

S520、基于用户语音确定用户的语音特征和/或语义特征。

在本发明具体实施例中，用以控制设备工作状态的特征包括但不局限于视觉维度、语音维度和语义维度。服务端可以基于接收的用户语音确定用户的语音特征和/或语义特征。进一步的，可以将人机交互时用于控制设备工作状态经常出现的语音关键词作为语音特征，例如“设置音量为零”以及“静音”等可以直观表述设备工作状态的关键词；同时还可以通过对用户语音进行语义识别，将描述设备工作状态的语义作为语义特征，例如“嘘”以及“安静一会儿”等通过语义识别可以间接表述设备工作状态的语义特征。

S530、依据用户的脸部特征和/或手势特征，以及用户的语音特征和/或语义特征识别用户意图。

在本发明具体实施例中，可以将采集的视觉维度、语音维度和语义维度等多维度的用户特征与预设特征库中的预定义特征进行匹配，从而确定相匹配的预定义特征及其关联的用户意图。其中，预定义特征与设备控制意图可以是一对一或者是多对一的关系，即不同的脸部特征和/或手势特征以及用户的语音特征和/或语义特征可以关联于同一个用户意图。

或者，可以预先通过对大量的已明确表示用户意图的脸部特征和/或手势特征，以及语音特征和语义特征，输入至分类器中进行用户意图分类器的训练，从而训练出能够从视觉维度、语音维度和语义维度等不同维度识别出用户意图的分类器。鉴于每个用户的用户特征有所区别，以及即使是相同用户其在不同时间表现出来的用户特征也有所区别，因此本实施例中的意图分类器的优势在于可以对各种形态的用户特征进行有效的分类和识别，而不局限于固定的特征模板中。其中，本实施例不对训练分类器的算法进行限定，任何可以训练分类器的算法都可以应用于本实施例中，例如神经网络分类器或最大熵分类器等。

示例性的，若依据脸部特征、手势特征、语音特征和语义特征中的至少一种识别到静音需求特征，例如用户将一只手指放在嘴唇中央，同时说出“嘘”字，则通过对用户的脸部特征和手势特征的组合，以及用户的语义特征，确定用户意图是设备静音。同理，若依据脸部特征、手势特征、语音特征和语义特征中的至少一种识别到暂停需求特征，则确定用户意图是设备播放暂停；若依据脸部特征、手势特征、语音特征和语义特征中的至少一种识别到功能关闭需求，则确定用户意图是关闭相应的功能；若依据脸部特征、手势特征、语音特征和语义特征中的至少一种识别到设备关闭需求，则确定用户意图是关闭设备。除此之外，本实施例还可以识别用户的其他设备控制意图，而不局限于上述意图。

S540、向用户端下发所述用户意图，使用户端依据识别的用户意图控制本机设备的工作状态。

本实施例的技术方案，通过对接收到的用户语音提取其语音特征和/或语义特征，依据用户的脸部特征、手势特征、语音特征和语义特征中的至少一种进行意图识别，并将识别的用户意图下发给用户端中，以使用户端依据接收到的意图识别结果控制本机设备调整工作状态。本发明通过增加触控和声控之外的人机交互方式，依据用户的脸部特征和/或手势特征反映的用户意图对设备进行控制，实现在任何场景下人与设备之间新的人机交互方式，解决了在较为嘈杂的环境中无法对设备进行远距离控制的问题。

实施例六

图6为本发明实施例六提供的一种设备控制装置的结构示意图，本实施例可适用于控制设备工作状态的情况，该装置可实现本发明任意实施例所述的设备控制方法，配置于用户端中。该装置具体包括：

特征采集模块610，用于采集并向服务端上报用户的脸部特征和/或手势特征；

意图接收模块620，用于接收服务端依据所述用户的脸部特征和/或手势特征识别的用户意图；

设备控制模块630，用于依据接收的用户意图控制本机设备的工作状态。

可选的，所述特征采集模块610具体用于：

若检测到本机设备中的预设的监控应用启动，则实时采集用户的脸部特征和/或手势特征。

可选的，所述特征采集模块610具体用于：

若检测到闹钟提醒事件，则实时采集用户的脸部特征和/或手势特征。

可选的，所述设备控制模块630具体用于：

若接收的用户意图是停止提醒，则关闭所述闹钟提醒事件。

可选的，所述设备控制模块630具体用于：

若接收的用户意图是设备静音，则控制本机设备处于静音状态；

若接收的用户意图是暂停，则控制暂停播放多媒体内容。

本实施例的技术方案，通过各个功能模块之间的相互配合，实现了设备应用的检测、用户的脸部特征和/或手势特征的采集、用户语音的采集、用户的脸部特征和/或手势特征以及用户语音的上报、用户意图的接收以及设备的控制等功能。本发明通过增加触控和声控之外的人机交互方式，依据用户的脸部特征和/或手势特征反映的用户意图对设备进行控制，实现在任何场景下尤其是较为嘈杂的环境中，人与设备之间新的人机交互方式，解决了在较为嘈杂的环境中无法对设备进行远距离控制的问题。

实施例七

图7为本发明实施例七提供的一种设备控制装置的结构示意图，本实施例可适用于控制设备工作状态的情况，该装置可实现本发明任意实施例所述的设备控制方法，配置于服务端中。该装置具体包括：

特征接收模块710，用于接收用户端上报的用户的脸部特征和/或手势特征；

意图识别模块720，用于依据所述用户的脸部特征和/或手势特征识别用户意图；

意图下发模块730，用于向所述用户端下发所述用户意图，使所述用户端依据识别的用户意图控制本机设备的工作状态。

可选的，所述意图识别模块720具体用于：

若依据采集的脸部特征和手势特征识别到静音需求特征，则确定用户意图是设备静音。

可选的，所述意图识别模块720具体用于：

若依据采集的脸部特征和手势特征识别到暂停需求特征，则确定用户意图是设备播放暂停。

可选的，所述意图识别模块720具体用于：

基于所述用户语音确定用户的语音特征和/或语义特征；

依据所述用户的脸部特征和/或手势特征，以及用户的语音特征和/或语义特征识别用户意图。

本实施例的技术方案，通过各个功能模块之间的相互配合，实现了用户脸部特征和/或手势特征的接收、用户语音的接收、语音特征和/或语义特征的提取、用户意图的识别以及下发等功能。本发明通过增加触控和声控之外的人机交互方式，依据用户特征反映的用户意图对设备进行控制，实现在任何场景下人与设备之间新的人机交互方式，解决了在较为嘈杂的环境中无法对设备进行远距离控制的问题。

实施例八

图8为本发明实施例八提供的一种设备的结构示意图，图8示出了适于用来实现本发明实施例实施方式的示例性设备的框图。图8显示的设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

图8显示的设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图8所示，设备12以通用计算设备的形式表现。设备12的组件可以包括但不限于：一个或者多个处理器16，系统存储器28，连接不同系统组件(包括系统存储器28和处理器16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图8未显示，通常称为“硬盘驱动器”)。尽管图8中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明实施例各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如系统存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明实施例所描述的实施例中的功能和/或方法。

设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该设备12交互的设备通信，和/或与使得该设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与设备12的其它模块通信。应当明白，尽管图中未示出，可以结合设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的设备控制方法。

实施例九

图9为本发明实施例九提供的一种服务端的结构示意图，图9示出了适于用来实现本发明实施例实施方式的示例性服务端的框图。图9显示的服务端仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

图9显示的服务端12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图9所示，服务端12以通用计算服务端的形式表现。服务端12的组件可以包括但不限于：一个或者多个处理器16，系统存储器29，连接不同系统组件(包括系统存储器29和处理器16)的总线19。

总线19表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

服务端12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被服务端12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器29可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。服务端12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图9未显示，通常称为“硬盘驱动器”)。尽管图9中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线19相连。系统存储器29可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明实施例各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如系统存储器29中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明实施例所描述的实施例中的功能和/或方法。

服务端12也可以与一个或多个外部服务端14(例如键盘、指向服务端、显示器24等)通信，还可与一个或者多个使得用户能与该服务端12交互的服务端通信，和/或与使得该服务端12能与一个或多个其它计算服务端进行通信的任何服务端(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，服务端12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线19与服务端12的其它模块通信。应当明白，尽管图中未示出，可以结合服务端12使用其它硬件和/或软件模块，包括但不限于：微代码、服务端驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理器16通过运行存储在系统存储器29中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的设备控制方法。

实施例十

本发明实施例十还提供一种计算机可读存储介质，其上存储有计算机程序(或称为计算机可执行指令)，该程序被处理器执行时可实现上述任意实施例中由用户端执行的设备控制方法或者实现上述任意实施例中由服务端执行的设备控制方法。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明实施例进行了较为详细的说明，但是本发明实施例不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种设备控制方法，其特征在于，包括：

在本机设备发出的声音导致环境嘈杂的情况下，采集并向服务端上报用户的脸部特征和/或手势特征，所述本机设备发出的声音导致环境嘈杂的情况包括检测到预设的监控应用启动，所述预设的监控应用包括音频应用、视频应用、游戏应用或提醒功能的应用；

依据接收的用户意图控制所述本机设备的工作状态；

所述依据接收的用户意图控制所述本机设备的工作状态，包括：

若接收到的用户意图是设备静音，则将所述本机设备音量调节为零，或者直接关闭设备的声音外放功能，控制所述本机设备处于静音状态；若接收的用户意图是暂停，则控制暂停播放多媒体内容；若接收的用户意图是停止提醒，则关闭闹钟提醒事件；若接收到的用户意图是功能关闭，则控制关闭相应的功能；若接收到的用户意图是设备关闭，则控制关闭设备。

2.根据权利要求1所述的方法，其特征在于，采集用户的脸部特征和/或手势特征，包括：

3.根据权利要求1所述的方法，其特征在于，采集用户的脸部特征和/或手势特征，包括：

4.一种设备控制方法，其特征在于，包括：

接收用户端在本机设备发出的声音导致环境嘈杂的情况下，上报的用户的脸部特征和/或手势特征，所述本机设备发出的声音导致环境嘈杂的情况包括检测到预设的监控应用启动，所述预设的监控应用包括音频应用、视频应用、游戏应用或提醒功能的应用；

依据所述用户的脸部特征和/或手势特征识别用户意图；

向所述用户端下发所述用户意图，使所述用户端依据识别的用户意图控制所述本机设备的工作状态；

所述依据所述用户的脸部特征和/或手势特征识别用户意图，包括：

若依据采集的脸部特征和手势特征识别到静音需求特征，则确定所述用户意图是设备静音；若依据采集的脸部特征和手势特征识别到暂停需求特征，则确定所述用户意图是暂停；若依据采集的脸部特征和手势特征识别到停止提醒需求特征，则确定所述用户意图是停止提醒；若依据采集的脸部特征和手势特征识别到功能关闭需求，则确定所述用户意图是关闭相应的功能；若依据采集的脸部特征和手势特征识别到设备关闭需求，则确定所述用户意图是关闭设备。

5.根据权利要求4中所述的方法，其特征在于，所述依据所述用户的脸部特征和/或手势特征识别用户意图，包括：

基于所述用户语音确定用户的语音特征和/或语义特征；

6.一种设备控制装置，其特征在于，包括：

特征采集模块，用于在本机设备发出的声音导致环境嘈杂的情况下，采集并向服务端上报用户的脸部特征和/或手势特征，所述本机设备发出的声音导致环境嘈杂的情况包括检测到预设的监控应用启动，所述预设的监控应用包括音频应用、视频应用、游戏应用或提醒功能的应用；

设备控制模块，用于依据接收的用户意图控制所述本机设备的工作状态；

所述设备控制模块，具体用于若接收到的用户意图是设备静音，则将所述本机设备音量调节为零，或者直接关闭设备的声音外放功能，控制所述本机设备处于静音状态；若接收的用户意图是暂停，则控制暂停播放多媒体内容；若接收的用户意图是停止提醒，则关闭闹钟提醒事件；若接收到的用户意图是功能关闭，则控制关闭相应的功能；若接收到的用户意图是设备关闭，则控制关闭设备。

7.一种设备控制装置，其特征在于，包括：

特征接收模块，用于接收用户端在本机设备发出的声音导致环境嘈杂的情况下，上报的用户的脸部特征和/或手势特征，所述本机设备发出的声音导致环境嘈杂的情况包括检测到预设的监控应用启动，所述预设的监控应用包括音频应用、视频应用、游戏应用或提醒功能的应用；

意图下发模块，用于向所述用户端下发所述用户意图，使所述用户端依据识别的用户意图控制所述本机设备的工作状态；

所述意图识别模块，具体用于若依据采集的脸部特征和手势特征识别到静音需求特征，则确定所述用户意图是设备静音；若依据采集的脸部特征和手势特征识别到暂停需求特征，则确定所述用户意图是暂停；若依据采集的脸部特征和手势特征识别到停止提醒需求特征，则确定所述用户意图是停止提醒；若依据采集的脸部特征和手势特征识别到功能关闭需求，则确定所述用户意图是关闭相应的功能；若依据采集的脸部特征和手势特征识别到设备关闭需求，则确定所述用户意图是关闭设备。

8.一种计算机设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1至3中任一项所述的设备控制方法。

9.一种服务端，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求4至5中任一项所述的设备控制方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至3中任一项所述的设备控制方法，或者执行时实现如权利要求4至5中任一项所述的设备控制方法。