CN110730115A

CN110730115A - 语音控制方法及装置、终端、存储介质

Info

Publication number: CN110730115A
Application number: CN201910860214.9A
Authority: CN
Inventors: 付文君
Original assignee: Beijing Xiaomi Mobile Software Co Ltd
Current assignee: Beijing Xiaomi Mobile Software Co Ltd
Priority date: 2019-09-11
Filing date: 2019-09-11
Publication date: 2020-01-24
Anticipated expiration: 2039-09-11
Also published as: CN110730115B; US20210074293A1; EP3793202A1; US11335345B2

Abstract

本公开是关于一种语音控制方法及装置、终端、存储介质。该方法包括：采集语音获得语音信号；获得图像信息；根据所述图像信息，确定发出所述语音的目标对象的姿态属性是否满足预设条件；响应于所述目标对象的姿态属性满足所述预设条件，执行所述语音信号指示的操作。通过该方法，能有效提升语音交互的效率。

Description

语音控制方法及装置、终端、存储介质

技术领域

本公开涉及智能家居领域，尤其涉及一种语音控制方法及装置、终端、存储介质。

背景技术

随着智能家居设备的不断发展和生活水平的不断提高，人们对智能家居设备的使用越来越频繁。语音控制是目前智能家居设备的控制方法中比较流行的人机交互方式，也是未来的趋势。

例如，用户使用语音指令控制智能音箱进行上网，点播歌曲、或是了解天气预报、或者是对其他智能家居设备进行控制，比如打开窗帘、设置冰箱温度、提前让热水器升温等。

但是，存在语音控制交互效率低的问题。

发明内容

本公开提供一种语音控制方法及装置、终端、存储介质。

根据本公开实施例的第一方面，提供一种语音控制方法，包括：

采集语音获得语音信号；

获得图像信息；

根据所述图像信息，确定发出所述语音的目标对象的姿态属性是否满足预设条件；

响应于所述目标对象的姿态属性满足所述预设条件，执行所述语音信号指示的操作。

在一些实施例中，所述姿态属性包括所述目标对象的脸部朝向；所述根据所述图像信息，确定发出所述语音的目标对象的姿态属性是否满足预设条件，包括：

根据所述图像信息，确定所述目标对象的脸部朝向是否满足所述预设朝向条件；

或者，

根据所述图像信息，确定所述目标对象的脸部朝向是否满足所述预设朝向条件，以及确定所述目标对象的脸部朝向满足所述预设朝向条件的持续时长是否满足预设时长条件。在一些实施例中，确定所述目标对象的脸部朝向满足所述预设朝向条件的持续时长是否满足预设时长条件，包括：

确定所述目标对象的脸部朝向满足所述预设朝向条件的持续时长是否达到时长阈值；

或者，

确定所述目标对象的脸部朝向满足所述预设朝向条件的持续时长，与采集到所述语音信号的持续时长的时长差是否小于差值阈值。

在一些实施例中，所述确定所述脸部朝向是否满足预设朝向条件，包括：

响应于所述目标对象的人脸面向采集所述语音信号的语音设备时，确定所述脸部朝向满足所述预设朝向条件；

或者，

响应于所述目标对象的人脸面向所述语音信号所指示操作的执行设备时，确定所述脸部朝向满足所述预设朝向条件。

在一些实施例中，所述响应于所述目标对象的姿态属性满足所述预设条件，执行所述语音信号指示的操作，包括：

响应于所述目标对象的姿态属性满足所述预设条件，控制语音设备的语音服务从休眠状态进入到唤醒状态；并利用处于所述唤醒状态的所述语音服务，执行或者指示对应的执行设备执行所述语音信号指示的所述操作。

在一些实施例中，所述方法还包括：

当所述目标对象的姿态属性不满足所述预设条件时，所述语音服务保持于所述休眠状态。

根据本公开实施例的第二方面，提供一种语音控制装置，包括：

采集模块，配置为采集语音获得语音信号；

获得模块，配置为获得图像信息；

确定模块，配置为根据所述图像信息，确定发出所述语音的目标对象的姿态属性是否满足预设条件；

执行模块，配置为响应于所述目标对象的姿态属性满足所述预设条件，执行所述语音信号指示的操作。

在一些实施例中，所述确定模块，具体配置为根据所述图像信息，确定所述目标对象的脸部朝向是否满足所述预设朝向条件；

或者，

根据所述图像信息，确定所述目标对象的脸部朝向是否满足所述预设朝向条件，以及确定所述目标对象的脸部朝向满足所述预设朝向条件的持续时长是否满足预设时长条件。

在一些实施例中，所述确定模块，具体配置为确定所述目标对象的脸部朝向满足所述预设朝向条件的持续时长是否达到时长阈值；

或者，

在一些实施例中，所述确定模块，具体配置为响应于若所述目标对象的人脸面向采集所述语音信号的语音设备，确定所述脸部朝向满足所述预设朝向条件；

或者，

响应于所述目标对象的人脸面向所述语音信号所指示操作的执行设备，确定所述脸部朝向满足所述预设朝向条件。

在一些实施例中，所述执行模块，具体配置为响应于所述目标对象的姿态属性满足所述预设条件，控制语音设备的语音服务从休眠状态进入到唤醒状态；并利用处于所述唤醒状态的所述语音服务，执行或者指示对应的执行设备执行所述语音信号指示的所述操作。

在一些实施例中，所述保持模块，配置为当所述目标对象的姿态属性不满足所述预设条件时，所述语音服务保持所述休眠状态。

根据本公开实施例的第三方面，提供一种终端，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行如上述第一方面中所述的语音控制方法。

根据本公开实施例的第四方面，提供一种存储介质，包括：

当所述存储介质中的指令由终端的处理器执行时，使得终端能够执行如上述第一方面中所述的语音控制方法。

本公开的实施例提供的技术方案可以包括以下有益效果：

在本公开的实施例中，语音设备在接收到语音信号后，可基于获得的图像信息来确定发出语音的目标对象的姿态属性，而在目标对象的姿态属性满足预设条件时，执行语音信号指示的操作。由此，语音设备不用先通过唤醒词来唤醒语音服务，而是直接基于得到的图像信息确定目标对象的姿态属性，并在姿态属性满足预设条件时执行语音信号指示的操作，因而能提升语音交互的效率以及用户的使用体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是本公开实施例示出的一种语音控制方法流程图一。

图2是本公开实施例示出的一种语音控制方法流程图二。

图3是本公开实施例示出的一种语音控制方法的流程图三。

图4是本公开实施例示出的一种语音控制方法的流程示例图。

图5是根据一示例性实施例示出的一种语音控制装置图一。

图6是根据一示例性实施例示出的一种语音控制装置图二。

图7是本公开实施例示出的一种终端的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是本公开实施例示出的一种语音控制方法流程图一，如图1所示，应用于语音设备中的语音控制方法包括以下步骤：

S11、采集语音获得语音信号；

S12、获得图像信息；

S13、根据图像信息，确定发出语音的目标对象的姿态属性是否满足预设条件；

S14、响应于目标对象的姿态属性满足预设条件，执行语音信号指示的操作。

在本公开的实施例中，语音设备包括：支持语音服务的移动设备和固定设备，包括：手机、平板电脑、个人电脑(Personal Computer，PC)、智能音箱、智能电视、智能冰箱、智能空调、智能空气净化器等智能家居设备。

需要说明的是，在本公开的实施例中，语音设备可获得图像信息，一种方式是语音设备中包括图像采集组件，使得语音设备可通过自身的图像采集组件来采集图像获得图像信息；另一种方式是语音设备通过和外部图像采集组件的连接来获得图像信息。

以语音设备是智能音箱为例，智能音箱和外部摄像头连接，因此智能音箱可通过外部连接的摄像头采集图像而获得图像信息。

在一种实施方式中，作为执行主体的语音设备可以处于非唤醒状态，直到S14中目标对象姿态属性满足预设条件时，唤醒，并执行语音信号指示的操作。

在步骤S13和S14中，语音设备在获得图像信息后，根据图像信息来确定发出语音的目标对象的姿态属性是否满足预设条件，并在姿态属性满足预设条件的情况下执行语音信号指示的操作。

其中，姿态属性包括以下至少之一：

脸部表情、脸部朝向、眼睛聚焦状态及手势。

在本公开的实施例中，语音设备执行语音信号指示的操作前，语音设备会根据语音信号所包括的语音内容来执行相应的操作。例如，当智能音箱根据语音信号获得的语音内容是“打开空调”，则智能音箱会发送相应的控制指令给空调；而当语音内容是“播放歌曲”，则智能音箱自身会执行播放歌曲的操作。

需要说明的是，语音设备获取语音内容的方式包括语音设备利用自身的语音识别功能获得语音内容。此外，当语音设备根据语音内容确定是控制其它设备执行操作，如“空调”执行操作时，受控的其它设备为本公开中提及的执行设备。

在一种实施例中，以姿态属性包括目标对象的脸部朝向为例进行说明，对应的，预设条件包括预设朝向条件，步骤S13包括：

语音设备根据图像信息，确定目标对象的脸部朝向是否满足预设朝向条件。

其中，语音设备根据图像信息，确定目标对象的脸部朝向的方式包括语音设备将图像信息发送给服务器端，并接收服务器端返回的图像信息中目标对象的脸部朝向；还包括语音设备对采集到的图像信息进行分析处理来确定目标对象的脸部朝向。

在本公开的实施例中，语音设备对图像信息进行分析处理来确定脸部朝向的方法包括：语音设备检测图像信息中的目标人脸；并基于人脸姿态模型识别目标人脸的脸部朝向；其中，人脸姿态模型中包括不同脸部朝向的人脸图像。

当然，还可在图像信息中检测到目标人脸后，基于人脸五官的结构特征来确定目标人脸的脸部朝向。具体的，基于人脸五官结构特征确定目标人脸的脸部朝向的方法包括：语音设备基于目标人脸，确定目标人脸中第一人眼和鼻头的第一距离以及第二人眼和鼻头的第二距离，基于第一距离和第二距离来确定目标人脸的脸部朝向。

在本公开的实施例中，若语音设备中内置摄像头，包括前置摄像头和后置摄像头，则语音设备基于内置的摄像头获取的图像信息来确定的脸部朝向即为目标对象相对语音设备的脸部朝向。

示例性的，当预设朝向条件是目标对象的脸部朝向为正向，即人脸五官正面朝向语音设备时，语音设备根据人脸姿态模型确定目标人脸的脸部朝向为0度时，则说明目标对象的脸部朝向满足预设朝向条件；而若根据图像信息中的五官结构特征来确定脸部朝向时，当第一距离和第二距离之间的差值小于设定距离差阈值时，例如第一距离和第二距离相等或者小于预设距离差阈值时，说明脸部朝向满足预设朝向条件。

而在本公开的实施例中，当语音设备通过连接外置的摄像头来获取图像信息时，语音设备可基于界面显示或语音提醒的方式，提示用户输入摄像头与语音设备的相对方向。语音设备在基于获取的图像信息来获得目标对象相对于摄像头的脸部朝向后，即可根据目标对象相对于摄像头的脸部朝向、以及摄像头与语音设备的相对方向来计算获得目标对象相对于语音设备的脸部朝向。

示例性的，智能音箱通过和外置摄像头连接而获得图像信息，其中，摄像头置于智能音箱的正上方，智能音箱基于用户的输入操作获得摄像头和语音设备的相对方向为0度。当预设朝向条件是目标对象的脸部朝向为正向时，因此在摄像头和语音设备的相对方向为0度的情况下，当获得的图像信息中目标对象的脸部朝向为0度时，则说明目标对象的人脸正对着智能音箱，满足预设朝向条件。

在另一实施例中，无论是内置图像采集装置还是外置图像采集装置，都可以预先采集表征用户脸部朝向语音设备或者语音信号所指示操作的执行设备为正向的图像，在后续图像采集过程中，通过将采集的图像与预设的表征正向的图像进行比对，相似度小于预设阈值时，可以确定用户当前脸部朝向为正向。

针对以用户脸部朝向语音设备为判断条件的情况，若图像采集装置为外置，且与语音设备具有一定的角度，则当用户脸部正向朝向语音设备时，那么相对外置图像采集装置可能非正向，则确定该相对于外置图像采集装置的非正向图像，为用户脸部正向朝向语音设备的正向基准图像；

针对以用户脸部朝向语音信号所指示操作的执行设备为判断条件的情况，该执行设备与语音设备的位置可能存在一定的角度，此时不论语音设备的图像采集装置是内置还是外置，对于图像采集装置来说，采集到的对应执行设备是正向的图像可能都不是正向，则确定该相对于图像采集装置的非正向图像，为用户脸部正向朝向执行设备的正向基准图像。

其他姿态例如脸部表情、眼睛聚焦状态及手势同理，这里不再赘述。

此外，在本公开的实施例中，在获得目标对象的脸部朝向之前，为确保采集获得的语音信号和图像信息来自于同一目标对象，在本公开的实施例中，语音设备还可在语音信号中提取声纹特征来确定语音信号所属的第一对象的第一身份标识，以及在图像信息中检测人脸图像来确定图像信息所属的第二对象的第二身份标识，当语音设备确认第一身份标识和第二身边标识相匹配时，确定语音信号和图像信息来自于同一目标对象。

当然，在本公开的实施例中，语音设备也可将采集到的语音信号和图像信息一起发送给服务器端，并在服务器端执行上述处理过程，并将处理结果反馈给语音设备，以便语音设备决定是否获取目标对象的脸部朝向。

可以理解的是，在该实施例中，通过确保采集获得的语音信号和图像信息来自于同一目标对象后，再确认了目标对象的脸部朝向，以及脸部朝向满足预设朝向条件时控制语音设备执行语音信号指示的操作，能提升语音控制的准确性。

在另一种实施例中，姿态属性还包括目标对象的脸部朝向的维持时长，预设条件还包括预设时长条件，步骤S13还包括：

根据图像信息，确定目标对象的脸部朝向是否满足预设朝向条件，以及确定目标对象的脸部朝向满足预设朝向条件的持续时长是否满足预设时长条件。

在该实施例中，当用户无意说出了可使语音设备执行操作的语音信号，且语音设备抓拍到了用户符合预设朝向条件的图像信息，但用户并非有意要控制语音设备时，语音设备可能执行了不必要的操作。因此，为提升控制的准确性，语音设备不仅要确定脸部朝向满足预设朝向条件，还要监控目标对象的脸部朝向的维持时长。

其中，预设时长条件可以是用户根据喜好自己设置，也可以是采用默认的配置，如1s或2s等，本公开实施例不做限制。

在一种实施例中，语音设备确定目标对象的脸部朝向满足预设朝向条件的持续时长是否满足预设时长条件，包括：

确定目标对象的脸部朝向满足预设朝向条件的持续时长是否达到时长阈值；

或者，

确定目标对象的脸部朝向满足预设朝向条件的持续时长，与采集到所述语音信号的持续时长的时长差是否小于差值阈值。

在该实施例中，预设时长可以包括预设的目标对象的脸部朝向的持续时长，而为了确保语音采集和图像采集同步，以提升语音控制的准确性，预设时长还可以包括预设的脸部朝向的持续时长与采集到的语音信号的持续时长的时长差。

在一种实施例中，语音设备确定脸部朝向是否满足预设朝向条件，包括：

响应于目标对象的人脸面向采集语音信号的语音设备，确定脸部朝向满足预设朝向条件；

或者，

响应于目标对象的人脸面向语音信号所指示操作的执行设备，确定脸部朝向满足预设朝向条件。

在该实施例中，预设朝向条件是指目标对象的人脸与采集语音信号的语音设备或者语音信号所指示操作的执行设备的相对位置条件。

示例性的，采集语音信号的语音设备是手机，而语音信号指示智能音箱执行操作，那么语音设备采集的图像信息中，目标对象的人脸面向手机发出语音或者面向智能音箱发出语音，都属于脸部朝向满足预设朝向条件的情况。

其中，人脸是否面向语音设备的判断方式，包括语音设备检测图像信息中的目标人脸，并基于人脸姿态模型来判断脸部朝向的方式；人脸是否面向执行设备的判断方式，包括语音设备基于和执行设备之间的通信连接，先确定和执行设备间的相对方向关系，再根据图像信息中目标人脸的脸部朝向，即目标人脸和语音设备间的相对方向关系，来换算获得目标人脸与执行设备间的相对方向关系。

其中，语音设备确定和执行设备间的相对方向关系的方式包括：语音设备基于和执行设备的通信连接，通过全球定位系统(Global Positioning System，GPS)数据获得的和执行设备间的相对方向关系。

在一种实施例中，语音设备根据图像信息，获得了发出语音的目标对象的姿态属性之后，步骤S14包括：

响应于目标对象的姿态属性满足预设条件，控制语音设备的语音服务从休眠状态进入到唤醒状态；并利用处于唤醒状态的语音服务，执行或者指示对应的执行设备执行语音信号指示的操作。

需要说明的是，在本公开的一个实施例中，语音设备处于休眠状态时可以采集语音信号，但是不会对语音信号进行识别，并执行语音信号所指示的操作，而只有在唤醒状态下才会识别语音信号并执行或者指示对应的执行设备执行语音信号指示的操作。

可以理解的是，在本公开的实施例中，语音设备不用先通过唤醒词来唤醒语音服务，而是直接根据采集到的图像信息中目标对象的姿态属性来唤醒语音服务，语音设备利用唤醒状态的语音服务来执行语音信号指示的操作，提升了语音交互的效率以及用户的使用体验。

图2为本公开实施例示出的一种语音控制方法流程图二，在该实施例中，语音控制方法包括如下步骤：

S21、采集语音获得语音信号；

S22、获得图像信息；

S23、根据图像信息，确定发出语音的目标对象的姿态属性是否满足预设条件；

S24、当目标对象的姿态属性不满足预设条件时，语音服务保持休眠状态。

在该实施例中，当目标对象的姿态属性不满足预设条件时，语音设备的语音服务保持休眠状态，减少了语音设备的用电消耗。

图3是本公开实施例示出的一种语音控制方法的流程图三，如图3所示，语音控制方法包括如下步骤：

S31、智能设备采集用户的语音时通过摄像头获得用户的图像信息。

在该实施例中，智能设备即语音设备，用户即目标对象。

S32、智能设备识别图像信息中用户的脸部朝向。

在该实施例中，用户的脸部朝向即发出语音的目标对象的姿态属性。

S33、智能设备根据脸部朝向确定用户是否对着智能设备发音，若不是，执行步骤S35；若是，执行步骤S34。

在该实施例中，用户是否对着智能设备发出语音，即用户发出语音时的姿态属性是否满足预设条件。

S34、智能设备识别语音内容并执行语音内容对应的操作。本流程结束。

在该实施例中，当用户是对着智能设备发音时，智能设备从休眠状态进入到唤醒状态，因而在唤醒状态时能识别语音内容并执行对应的操作。

S35、智能设备不对语音内容进行识别。本流程结束。

在该实施例中，当用户不是对着智能设备发音时，智能设备不对语音内容进行识别，其原因在于智能设备的语音服务处于休眠状态，在休眠状态时，智能设备不识别语音内容，因而智能设备不执行语音内容对应的操作。

下面以语音设备是智能音箱，执行设备是空调为例进行说明，智能音箱支持语音服务功能以及图像采集功能，能实时获取用户发出语音时的图像信息。

图4是本公开实施例示出的一种语音控制方法的流程示例图，如图4所示，语音控制方法包括如下步骤：

S41、智能音箱接收“打开空调”的语音信号。

S42、智能音箱通过摄像头采集用户的图像信息。

S43、智能音箱根据图像信息识别用户是否是对着智能音箱发出语音的，若是，执行步骤S44；若否，执行步骤S45。

在该实施例中，智能音箱识别用户是否是对着智能音箱发出语音的，即语音设备确定发出语音的目标对象的姿态属性是否满足预设条件。

S44、智能音箱向空调发送开机指令。本流程结束。

在本公开的实施例中，智能音箱向空调发送开机指令即语音设备的语音服务功能处于唤醒状态，语音设备可执行语音信号所指示的操作。

S45、智能音箱不向空调发送开机指令。本流程结束。

在本公开的实施例中，智能音箱不向空调发送开机指令，即语音设备不执行语音信号所指示的操作。

在本公开的实施例中，智能音箱在接收到“打开空调”的语音信号后，可基于采集到的图像信息来确定用户是否对着智能音箱发出语音。并在用户是对着智能音箱发出语音的情况下，智能音箱才控制空调打开。由此，智能音箱不用先通过唤醒词来唤醒语音服务，而是直接利用用户发出语音时采集到的图像信息，识别图像信息中的人脸的朝向来唤醒语音服务，提升了语音交互的效率以及用户的使用体验。

图5是根据一示例性实施例示出的一种语音控制装置图一。参照图5，该语音控制装置包括采集模块121，获得模块122，确定模块123，执行模块124。

所述采集模块121，配置为采集语音获得语音信号；

所述获得模块122，配置为获得图像信息；

所述确定模块123，配置为根据所述图像信息，确定发出所述语音的目标对象的姿态属性是否满足预设条件；

所述执行模块124，配置为响应于所述目标对象的姿态属性满足所述预设条件，执行所述语音信号指示的操作。

在一些实施例中，所述确定模块123，具体配置为根据所述图像信息，确定所述目标对象的脸部朝向是否满足所述预设朝向条件；或者根据所述图像信息，确定所述目标对象的脸部朝向是否满足所述预设朝向条件，以及确定所述目标对象的脸部朝向满足所述预设朝向条件的持续时长是否满足预设时长条件。

在一些实施例中，所述确定模块123，具体配置为确定所述目标对象的脸部朝向满足所述预设朝向条件的持续时长是否达到时长阈值；

或者，

在一些实施例中，所述确定模块123，具体配置为响应于所述目标对象的人脸面向采集所述语音信号的语音设备，确定所述脸部朝向满足所述预设朝向条件；

或者，

在一些实施例中，所述执行模块124，具体配置为响应于所述目标对象的姿态属性满足所述预设条件，控制语音设备的语音服务从休眠状态进入到唤醒状态；并利用处于所述唤醒状态的所述语音服务，执行或者指示对应的执行设备执行所述语音信号指示的所述操作。

图6是根据一示例性实施例示出的一种语音控制装置图二。参照图6，该语音控制装置包括采集模块121，获得模块122，确定模块123，维持模块125。

所述采集模块121，配置为采集语音获得语音信号；

所述获得模块122，配置为获得图像信息；

所述保持模块125，配置为当所述目标对象的姿态属性不满足所述预设条件时，所述语音服务保持所述休眠状态。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图7是本公开实施例示出的一种终端装置800的框图。例如，装置800可以是移动电话，移动电脑等。

参照图7，装置800可以包括以下一个或多个组件：处理组件802，存储器804，电源组件806，多媒体组件808，音频组件810，输入/输出(I/O)的接口812，传感器组件814，以及通信组件816。

处理组件802通常控制装置800的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件802可以包括一个或多个模块，便于处理组件802和其他组件之间的交互。例如，处理组件802可以包括多媒体模块，以方便多媒体组件808和处理组件802之间的交互。

存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统，一个或多个电源，及其他与为装置800生成、管理和分配电力相关联的组件。

多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件810被配置为输出和/或输入音频信号。例如，音频组件810包括一个麦克风(MIC)，当装置800处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中，音频组件810还包括一个扬声器，用于输出音频信号。

I/O接口812为处理组件802和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件814包括一个或多个传感器，用于为装置800提供各个方面的状态评估。例如，传感器组件814可以检测到设备800的打开/关闭状态，组件的相对定位，例如所述组件为装置800的显示器和小键盘，传感器组件814还可以检测装置800或装置800一个组件的位置改变，用户与装置800接触的存在或不存在，装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件814还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络，如Wi-Fi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件816还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器804，上述指令可由装置800的处理器820执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由终端的处理器执行时，使得终端能够执行控制方法，所述方法包括：

采集语音获得语音信号；

获得图像信息；

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种语音控制方法，其特征在于，所述方法包括：

采集语音获得语音信号；

获得图像信息；

2.根据权利要求1所述的方法，其特征在于，所述姿态属性包括所述目标对象的脸部朝向；所述根据所述图像信息，确定发出所述语音的目标对象的姿态属性是否满足预设条件，包括：

或者，

3.根据权利要求2所述的方法，其特征在于，确定所述目标对象的脸部朝向满足所述预设朝向条件的持续时长是否满足预设时长条件，包括：

或者，

4.根据权利要求2所述的方法，其特征在于，所述确定所述脸部朝向是否满足预设朝向条件，包括：

响应于所述目标对象的人脸面向采集所述语音信号的语音设备，确定所述脸部朝向满足所述预设朝向条件；

或者，

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述响应于所述目标对象的姿态属性满足所述预设条件，执行所述语音信号指示的操作，包括：

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

当所述目标对象的姿态属性不满足所述预设条件时，所述语音服务保持所述休眠状态。

7.一种语音控制装置，其特征在于，所述装置包括：

采集模块，配置为采集语音获得语音信号；

获得模块，配置为获得图像信息；

8.根据权利要求7所述的装置，其特征在于，所述姿态属性包括所述目标对象的脸部朝向，

所述确定模块，具体配置为根据所述图像信息，确定所述目标对象的脸部朝向是否满足所述预设朝向条件；或者根据所述图像信息，确定所述目标对象的脸部朝向是否满足所述预设朝向条件，以及确定所述目标对象的脸部朝向满足所述预设朝向条件的持续时长是否满足预设时长条件。

9.根据权利要求8所述的装置，其特征在于，

所述确定模块，具体配置为确定所述目标对象的脸部朝向满足所述预设朝向条件的持续时长是否达到时长阈值；

或者，

10.根据权利要求8所述的装置，其特征在于，

所述确定模块，具体配置为响应于所述目标对象的人脸面向采集所述语音信号的语音设备，确定所述脸部朝向满足所述预设朝向条件；

或者，

11.根据权利要求7至10中任一项所述的装置，其特征在于，

所述执行模块，具体配置为响应于所述目标对象的姿态属性满足所述预设条件，控制语音设备的语音服务从休眠状态进入到唤醒状态；并利用处于所述唤醒状态的所述语音服务，执行或者指示对应的执行设备执行所述语音信号指示的所述操作。

12.根据权利要求11所述的装置，其特征在于，所述装置还包括：

保持模块，配置为当所述目标对象的姿态属性不满足所述预设条件时，所述语音服务保持所述休眠状态。

13.一种终端，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行如权利要求1至6中任一项所述的语音控制方法。

14.一种非临时性计算机可读存储介质，当所述存储介质中的指令由终端的处理器执行时，使得终端能够执行如权利要求1至6中任一项所述的语音控制方法。