CN108198553B

CN108198553B - 语音交互方法、装置、设备和计算机可读存储介质

Info

Publication number: CN108198553B
Application number: CN201810063682.9A
Authority: CN
Inventors: 高亮; 谢继亮
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-01-23
Filing date: 2018-01-23
Publication date: 2021-08-06
Anticipated expiration: 2038-01-23
Also published as: US10991372B2; US20190228773A1; CN108198553A

Abstract

本公开的实施例涉及一种在电子设备处执行的语音交互方法、装置、设备和计算机可读存储介质。该方法包括从与电子设备相耦合的图像捕获装置接收关于用户的图像序列。该方法还包括从图像序列中检测用户的头部特征的变化。之后，该方法包括确定头部特征的变化与预定变化模式是否匹配。该方法进一步包括响应于确定头部特征的变化与预定变化模式匹配，使得电子设备进入激活状态，电子设备在激活状态下能够响应用户的语音命令。本公开的技术方案可以避免由于多次重复发出特定的语音指令所造成的用户体验的降低，并且，对于诸如聋哑人群的用户、以及对于需要静音背景的工作环境均是极为适用的。

Description

语音交互方法、装置、设备和计算机可读存储介质

技术领域

本公开总体上涉及智能交互领域，更具体地，涉及语音交互方法、装置、设备和计算机可读介质。

背景技术

智能交互系统，尤其是语音交互系统，目前已经较为普遍地应用于人们的日常生活、工作、甚至生产过程中。例如，作为语音交互系统中的重要应用，具有语音交互功能的音箱由于其广泛的应用而极大地便利了人们的生活。当家庭中布置有具有语音交互功能的音箱时，用户只需对音箱发出特定的语音指令，即可将音箱唤醒至激活状态，并可以开始于用户进行语音交互。语音交互的过程通常是在一定的时间段内完成的。

当完成一系列语音交互之后，具有语音交互功能的音箱会休眠至非激活状态。如果用户还需要与该音箱进行交互，则需要用户重新对音箱发出特定的语音指令。如此多次地重复发出上述特定的语音指令可能会极大地降低用户体验，并且仅设置有语音唤醒和交互功能的音箱对于特定人群是不可用的。

发明内容

根据本公开的示例实施例，提供了一种在电子设备处执行的语音交互方案。

在本公开的第一方面中，提供了一种在电子设备处执行的语音交互方法。该方法包括从与电子设备相耦合的图像捕获装置接收关于用户的图像序列。该方法还包括从图像序列中检测用户的头部特征的变化。之后，该方法包括确定头部特征的变化与预定变化模式是否匹配。该方法进一步包括响应于确定头部特征的变化与预定变化模式匹配，使得电子设备进入激活状态，电子设备在激活状态下能够响应用户的语音命令。

在本公开的第二方面中，提供了一种在电子设备处实现的装置。该装置包括图像序列接收模块。图像序列接收模块被配置为从与电子设备相耦合的图像捕获装置接收关于用户的图像序列。该装置还包括变化检测模块。变化检测模块被配置为从图像序列中检测用户的头部特征的变化。该装置还包括匹配确定模块。匹配确定模块被配置为确定头部特征的变化与预定变化模式是否匹配。该装置还包括激活模块。激活模块被配置为响应于确定头部特征的变化与预定变化模式匹配，使得电子设备进入激活状态，电子设备在激活状态下能够响应用户的语音命令。

在本公开的第三方面中，提供了一种设备，包括一个或多个处理器；以及存储装置，用于存储一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现根据本公开的第一方面的方法。

在本公开的第四方面中，提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现根据本公开的第一方面的方法。

应当理解，发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征，亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了本公开的多个实施例能够在其中实现的示例环境的示意图；

图2示出了根据本公开的实施例的在电子设备处执行的过程的流程图；

图3A示出了根据本公开的一些实施例的接收图像序列的过程的流程图；

图3B示出了根据本公开的一些实施例的检测头部特征的变化的过程的流程图；

图4示出了根据本公开的一些实施例的确定头部特征的变化与预定变化模式是否匹配的头部轮廓的变化的示意图；

图5示出了根据本公开的一些实施例的确定头部特征的变化与预定变化模式是否匹配的面部位置的变化的示意图；

图6示出了根据本公开的一些实施例的确定头部特征的变化与预定变化模式是否匹配的眼部状态的变化的示意图；

图7示出了根据本公开的一些实施例的确定头部特征的变化与预定变化模式是否匹配的口部状态的变化的示意图；

图8示出了根据本公开的一些实施例的确定头部特征的变化与预定变化模式是否匹配的耳部轮廓的变化的示意图；

图9示出了根据本公开的实施例的在电子设备处执行的装置的示意框图；以及

图10示出了能够实施本公开的多个实施例的计算设备的框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

在本公开的实施例的描述中，术语“包括”及其类似用语应当理解为开放性包含，即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。

如以上提及的，为了将智能交互设备唤醒至激活状态，在传统方案中，通常会基于来自用户的语音命令来实现。这样的方案在用户体验以及普适性方面均有缺陷。例如，由于每次需要进行智能交互时均需要经由语音命令完成唤醒操作，故多次地重复发出特定的语音指令可能会极大地降低用户体验。此外，由于需要经由语音命令完成唤醒操作，对于诸如聋哑人群的用户、以及对于需要静音背景的工作环境，仅设置有语音唤醒和交互功能的智能设备具有局限性。

针对上述问题和潜在的其他相关问题，本公开的实施例提出了一种在电子设备处执行的技术方案。在该方案中，并不是如现有技术那样经由用户的语音指令对电子设备执行唤醒操作，而是通过从与电子设备相耦合的图像捕获装置接收关于用户的图像序列，根据该图像序列中的关于头部特征的变化与预定变化模式是否匹配，来推断是否将该电子设备唤醒，以进入激活状态。用户通过在电子设备的感测范围内执行相应的头部特征的动作，即可使电子设备进入激活状态。通过采用上述方式来唤醒或激活电子设备，可以有效改善用户体验，并且可以扩展智能交互系统的适用人群。

在本文中，术语“头部特征”是指与电子设备相耦合的图像捕获装置所感测到的与用户的头部有关的图像。例如，头部特征可以包括但不限于图像捕获装置所感测到的用户的头部轮廓、面部(五官中的多个器官的组合)、眼部、口部或耳部等。也就是说，用户可以通过摆头、眨眼、张嘴等动作或类似多个动作的组合来使得电子设备进入激活状态。备选地或附加地，头部特征还可以包括用户的表情。

在本公开的实施例中，由于诸如智能交互系统的电子设备是通过识别用户的头部特征的变化，进而判定该变化与预定变化模式是否匹配，故电子设备不仅可以应用为目前使用的语音交互音箱，也可以应用为其他智能交互系统，如物联网智能交互系统。

以下将参照附图来具体描述本公开的实施例。

图1示出了本公开的多个实施例能够在其中实现的示例环境100的示意图。该示例环境100包含电子设备110。电子设备110可以是诸如语音音箱的语音交互系统。该示例环境100还包含用户120。用户120与电子设备110经由交互链路130进行交互。与传统的通过用户的语音指令唤醒电子设备的技术方案不同，用户120对电子设备110的唤醒操作是通过电子设备110识别用户120的图像信息来实现的。

下面将参照图2详细描述在电子设备110处执行的过程。图2示出了根据本公开的实施例的在电子设备110处执行的过程或方法200的流程图。在某些实施例中，方法200可以在下文图10示出的设备中实现。

在框210，从与电子设备110相耦合的图像捕获装置(未示出)接收关于用户120的图像序列。在一些实施例中，图像捕获装置可操作地耦合至电子设备110，以将捕获的一个或多个用户120的图像序列传输至电子设备110。备选地或附加地，可以在用户120的生活或工作区域内布置与电子设备110无线地耦合的多个图像捕获装置，以便能够随时随地感测到位于生活或工作区域内的用户120的图像序列。

作为示例，图3A示出了根据本公开的一些实施例的接收图像序列的过程300的流程图。在某些实施例中，过程300可以在下文图10示出的设备中实现。在框310中，确定电子设备110是否处于非激活状态。这里，电子设备110在非激活状态下不能够响应用户120的语音命令。此外，在框320中，当确定电子设备110处于非激活状态时，接收图像序列。作为示例，当确定电子设备110处于非激活状态时，可以仅开启与电子设备110可操作地耦合的图像捕获装置，以对于用户120有关的图像进行实时感测。附加地或备选地，当确定电子设备110处于非激活状态时，可以根据用户120的需求以特定时序开启或关闭与电子设备110可操作地耦合的图像捕获装置。作为示例，用户120可以设置电子设备110在诸如睡眠时间的特定时间段全部关闭(包括该图像捕获装置)。通过获取关于用户120的图像序列，可以使图像识别代替语音识别，成为唤醒电子设备110的主要依据。

继续参考图2，在框220，从图像序列中检测用户120的头部特征的变化。在一些实施例中，当检测到与用户120有关的图像时，可以根据预定算法检测是否存在头部特征。图3B示出了根据本公开的一些实施例的检测头部特征的变化的过程301的流程图。在某些实施例中，过程301可以在下文图10示出的设备中实现。作为示例，在框311，从图像序列中的图像识别用户120的头部特征。备选地或附加地，按照预定的时间间隔来检测多个图像序列中的图像，当检测到其中的一个图像中存在与用户120有关的部分数据时，进一步识别用户120的头部特征。在框321，当从图像中识别出至少一个头部特征时，从图像序列中的、图像之后的至少一个图像中检测头部特征的变化。作为示例，当在多个图像序列中的一个图像中检测到用户120的头部特征时，继续检测后续图像中的头部特征，并对具有预定时间间隔的两个图像的头部特征进行比对，以检测出头部特征是否发生改变。

仍然参考图2，在框230，确定头部特征的变化与预定变化模式是否匹配。在一些实施例中，该预定变化模式可以是摆头或眨眼动作。也就是说，当感测到用户120执行摆头或眨眼动作时，使得电子设备110进入激活状态。备选地或附加地，当感测到用户120执行微笑的动作时，使得电子设备110进入激活状态。下文在描述图4至图8时将对上述实施例进行详细描述。与传统的语音识别(即，确定用户的语音指令与预定语音是否匹配)相比，本公开采取了用户120通过特定的头部动作唤醒电子设备110的技术方案。

在框240，当确定头部特征的变化与预定变化模式匹配时，使电子设备110进入激活状态，电子设备110在激活状态下能够响应用户120的语音命令。在一些实施例中，当电子设备110是提供语音交互功能的音箱时，该音箱能够在激活状态下响应用户120的诸如播放特定歌曲的语音指令。备选地或附加地，当电子设备110是提供信息检索功能的智能导引设备时，该智能导引设备能够在激活状态下响应用户120的诸如医院特定诊室的语音指令。

在一些实施例中，方法200中还可以包括(但未示出)：当电子设备处于激活状态并且在第一阈值时间间隔内未接收到来自用户的语音命令时，使电子设备110进入非激活状态，电子设备110在非激活状态下不能够响应用户120的语音命令。

通过上述方法200，用户120可以通过简洁的头部动作来激活电子设备110。通过这种方式，可以避免由于多次重复发出特定的语音指令所造成的用户体验的降低。此外，由于用于激活电子设备110的头部动作不需产生声音，故对于诸如聋哑人群的用户、以及对于需要静音背景的工作环境均是极为适用的。

为便于理解，现结合图4至图8来描述确定头部特征的变化与预定变化模式是否匹配的各实施例。应注意，图4至图8中示出的头部特征的检测与匹配均是示例性的。在本公开所要求的保护范围内的其他修改和变形也均适用于本公开描述的实施方式。

图4示出了根据本公开的一些实施例的确定头部特征的变化与预定变化模式是否匹配的头部轮廓的变化的示意图。如图4所示，该预定变化模式可以是头部轮廓从侧面轮廓410转变为正面轮廓420。也就是说，当确定用户120的头部轮廓从侧面轮廓410转变为正面轮廓420时，确定头部特征的变化与预定变化模式匹配。通过这种方式，可以较为简便地感测出用户120的将面部转向电子设备110以期进行交互的开始动作(即，唤醒动作)。

图5示出了根据本公开的一些实施例的确定头部特征的变化与预定变化模式是否匹配的面部位置的变化的示意图。如图5所示，该预定变化模式可以是用户120的面部从第一位置510移动到第二位置520。第一位置510是面部没有朝向与电子设备110耦合的图像捕获装置的位置，以及第二位置520是面部至少部分地朝向图像捕获装置的位置。也就是说，当确定用户120的面部从第一位置510移动到第二位置520时，确定头部特征的变化与预定变化模式匹配。备选地或附加地，还可以通过其他方式来检测用户120的面部变化。作为示例，该预定变化模式可以是用户120的面部从第三位置移动到第四位置。第三位置是面部的侧面朝向图像捕获装置的位置，该位置与第一位置510基本相同，且可以具有0到30°的角度差。第四位置是面部的正面朝向图像捕获装置的位置，该位置与第二位置520基本相同，且可以具有0到30°的角度差。通过这种方式，避免了将后脑朝向图像捕获装置感测为将面部朝向图像捕获装置的情况，故可以更为精确地感测出用户120的将面部转向电子设备110以期进行交互的开始动作(即，唤醒动作)。

图6示出了根据本公开的一些实施例的确定头部特征的变化与预定变化模式是否匹配的眼部状态的变化的示意图。如图6所示，该预定变化模式可以是用户120的眼部从睁开状态610转变为闭合状态620。也就是说，当确定用户120的眼部从睁开状态610转变为闭合状态620时，确定头部特征的变化与预定变化模式匹配。作为示例，当电子设备110的图像捕获装置检测到用户120的眨眼动作时，则判定用户120向电子设备110发出了唤醒指令。备选地或附加地，当电子设备110的图像捕获装置检测到用户120的一只眼睛完成了眨眼动作而另一只眼睛基本保持不变时，则判定用户120向电子设备110发出了唤醒指令。备选地或附加地，当电子设备110的图像捕获装置检测到用户120的预定次数(例如，2次)的眨眼动作时，则判定用户120向电子设备110发出了唤醒指令。备选地或附加地，当电子设备110的图像捕获装置检测到用户120的预定时长的闭眼动作时，则判定用户120向电子设备110发出了唤醒指令。通过这种方式，可以利用特定的眨眼动作来唤醒电子设备110。与传统的语音唤醒相比，眨眼唤醒更为方便，且普适性更强。

图7示出了根据本公开的一些实施例的确定头部特征的变化与预定变化模式是否匹配的口部状态的变化的示意图。如图7所示，该预定变化模式可以是口部从闭合状态710转变为张开状态720持续预定时长。也就是说，当确定用户120的口部从闭合状态710转变为张开状态720持续预定时长的时候，确定头部特征的变化与预定变化模式匹配。通过这种方式，可以利用特定的张口动作来唤醒电子设备110。与传统的语音唤醒相比，张口唤醒更为方便，且普适性更强。

图8示出了根据本公开的一些实施例的确定头部特征的变化与预定变化模式是否匹配的耳部轮廓的变化的示意图。如图8所示，该预定变化模式可以是用户120的耳部从正面轮廓830转变为侧面轮廓840。也就是说，通过检测用户120的耳部的朝向来判定用户120的摆头动作。其判定方式与图4的头部轮廓从侧面轮廓410转变为正面轮廓420的判定方式类似。也就是说，在确定用户120的耳部从正面轮廓830转变为侧面轮廓840的情况下，可以确定头部特征的变化与预定变化模式匹配。备选地或附加地，还可以通过感测用户120的耳部在用户120的头部轮廓中的投影位置的变化来判定用户120的摆头动作。这是因为，当用户120的面部的侧面朝向图像捕获装置时，耳部轮廓830的投影位置位于用户120的头部轮廓810内。当用户120的面部的正面朝向图像捕获装置时，耳部轮廓840的投影位置位于头部轮廓820内。实际上，基于用户120的耳部轮廓的唤醒方式是基于用户120的摆头唤醒的一个实施方式，与上文所述的其他唤醒方式相比，基于用户120的耳部轮廓的唤醒方式仅需着眼于检测的耳部轮廓，从而简化了识别和匹配的算法。

应理解，为了达到更好的技术效果，如上述图4至图8所示的判定是否匹配的方式还可以按照任意组合的方式执行。

图9示出了根据本公开的实施例的在电子设备110处实现的装置900的示意框图。结合图4至图8的描述，图9所示的装置900包括：图像序列接收模块910。图像序列接收模块910被配置为从与电子设备110相耦合的图像捕获装置接收关于用户120的图像序列。该装置900还包括变化检测模块920。变化检测模块920被配置为从图像序列中检测用户120的头部特征的变化。该装置900还包括匹配确定模块930。匹配确定模块930被配置为确定头部特征的变化与预定变化模式是否匹配。该装置900还包括激活模块940。激活模块940被配置为在确定头部特征的变化与预定变化模式匹配时，使电子设备110进入激活状态，电子设备110在激活状态下能够响应用户120的语音命令。

在某些实施例中，图像序列接收模块910包括：状态确定子模块(未示出)，被配置为确定电子设备110是否处于非激活状态，电子设备110在非激活状态下不能够响应用户120的语音命令；以及接收子模块(未示出)，被配置为在确定电子设备110处于非激活状态时，接收图像序列。

在某些实施例中，装置900还可以包括：去激活模块(未示出)，被配置为响应于电子设备110处于激活状态并且在第一阈值时间间隔内未接收到来自用户的语音命令，使得电子设备110进入非激活状态，电子设备110在非激活状态下不能够响应用户120的语音命令。

在某些实施例中，变化检测模块920包括：头部特征识别子模块(未示出)，被配置为从图像序列中的图像识别用户120的头部特征；以及变化检测子模块(未示出)，被配置为在从图像中识别出至少一个头部特征时，从图像序列中的、图像之后的至少一个图像中检测头部特征的变化。

在某些实施例中，匹配确定模块930包括：第一匹配确定子模块(未示出)，被配置为在确定用户120的头部轮廓从侧面轮廓410转变为正面轮廓420时，确定头部特征的变化与预定变化模式匹配。

在某些实施例中，匹配确定模块930包括：第二匹配确定子模块(未示出)，被配置为在确定用户120的面部从第一位置510移动到第二位置520，确定头部特征的变化与预定变化模式匹配，第一位置510是面部没有朝向图像捕获装置的位置，以及第二位置520是面部至少部分地朝向图像捕获装置的位置。

在某些实施例中，匹配确定模块930包括：第三匹配确定子模块(未示出)，被配置为在确定用户120的面部从第三位置移动到第四位置时，确定头部特征的变化与预定变化模式匹配，第三位置是面部的侧面朝向图像捕获装置的位置，以及第四位置是面部的正面朝向图像捕获装置的位置。

在某些实施例中，匹配确定模块930包括：第四匹配确定子模块(未示出)，被配置为在确定用户120的眼部从睁开状态610转变为闭合状态620时，确定头部特征的变化与预定变化模式匹配。

在某些实施例中，匹配确定模块930包括：第五匹配确定子模块(未示出)，被配置为在确定用户120的口部从闭合状态710转变为张开状态720持续第三阈值时间间隔时，确定头部特征的变化与预定变化模式匹配。

在某些实施例中，匹配确定模块930包括：第六匹配确定子模块(未示出)，被配置为在检测到用户120的耳部从正面轮廓830转变为侧面轮廓840时，确定头部特征的变化与预定变化模式匹配。

应理解，在确定匹配的实际应用中，第一至第六匹配确定子模块可以分别单个执行，也可以任意组合执行。

图10示出了可以用来实施本公开的实施例的示例设备1000的示意性框图。如图所示，设备1000包括中央处理单元(CPU)1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序指令或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序指令，来执行各种适当的动作和处理。在RAM 1003中，还可存储设备1000操作所需的各种程序和数据。CPU 1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理单元1001执行上文所描述的各个方法和处理，例如过程200、300和/或301。例如，在一些实施例中，过程200、300和/或301可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由CPU 1001执行时，可以执行上文描述的过程200、300和/或301的一个或多个步骤。备选地，在其他实施例中，CPU 1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行过程200、300和/或301。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)等等。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

此外，虽然采用特定次序描绘了各操作，但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行，或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地，在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

1.一种在电子设备处执行的语音交互方法，包括：

从与所述电子设备相耦合的图像捕获装置接收关于用户的图像序列；

从所述图像序列中检测所述用户的头部特征的变化；

确定所述头部特征的所述变化与预定变化模式是否匹配；以及

响应于确定所述头部特征的所述变化与所述预定变化模式匹配，使得所述电子设备进入激活状态，所述电子设备在所述激活状态下能够响应所述用户的语音命令，

其中检测所述头部特征的所述变化包括：

当所述图像序列中的一个图像中检测到所述用户的所述头部特征时，继续从所述图像序列的后续图像中检测所述用户的附加头部特征；以及

对具有预定时间间隔的所述一个图像中的所述头部特征和所述后续图像中的所述附加头部特征进行比对，以检测出头部特征是否发生改变。

2.根据权利要求1所述的方法，其中接收所述图像序列包括：

确定所述电子设备是否处于非激活状态，所述电子设备在所述非激活状态下不能够响应所述用户的所述语音命令；以及

响应于确定所述电子设备处于非激活状态，接收所述图像序列。

3.根据权利要求1所述的方法，还包括：

响应于所述电子设备处于所述激活状态并且在第一阈值时间间隔内未接收到来自所述用户的所述语音命令，使得所述电子设备进入非激活状态，所述电子设备在所述非激活状态下不能够响应所述用户的所述语音命令。

4.根据权利要求1所述的方法，其中确定所述头部特征的所述变化与预定变化模式是否匹配包括：

响应于确定所述用户的头部轮廓从侧面轮廓转变为正面轮廓，确定所述头部特征的所述变化与所述预定变化模式匹配。

5.根据权利要求1所述的方法，其中确定所述头部特征的所述变化与预定变化模式是否匹配包括：

响应于确定所述用户的面部从第一位置移动到第二位置，确定所述头部特征的所述变化与所述预定变化模式匹配，所述第一位置是所述面部没有朝向所述图像捕获装置的位置，以及所述第二位置是所述面部至少部分地朝向所述图像捕获装置的位置。

6.根据权利要求1所述的方法，其中确定所述头部特征的所述变化与预定变化模式是否匹配包括：

响应于确定所述用户的面部从第三位置移动到第四位置，确定所述头部特征的所述变化与所述预定变化模式匹配，所述第三位置是所述面部的侧面朝向所述图像捕获装置的位置，以及所述第四位置是所述面部的正面朝向所述图像捕获装置的位置。

7.根据权利要求1所述的方法，其中确定所述头部特征的所述变化与预定变化模式是否匹配包括：

响应于确定所述用户的眼部从睁开状态转变为闭合状态，确定所述头部特征的所述变化与所述预定变化模式匹配。

8.根据权利要求1所述的方法，其中确定所述头部特征的所述变化与预定变化模式是否匹配包括：

响应于确定所述用户的口部从闭合状态转变为张开状态持续第二阈值时间间隔，确定所述头部特征的所述变化与所述预定变化模式匹配。

9.根据权利要求1所述的方法，其中确定所述头部特征的所述变化与预定变化模式是否匹配包括：

响应于检测到所述用户的耳部从正面轮廓转变为侧面轮廓，确定所述头部特征的所述变化与所述预定变化模式匹配。

10.根据权利要求1所述的方法，其中所述电子设备是提供语音交互功能的音箱。

11.一种在电子设备处实现的装置，包括：

图像序列接收模块，被配置为从与所述电子设备相耦合的图像捕获装置接收关于用户的图像序列；

变化检测模块，被配置为从所述图像序列中检测所述用户的头部特征的变化；

匹配确定模块，被配置为确定所述头部特征的所述变化与预定变化模式是否匹配；以及

激活模块，被配置为响应于确定所述头部特征的所述变化与所述预定变化模式匹配，使得所述电子设备进入激活状态，所述电子设备在所述激活状态下能够响应所述用户的语音命令，

其中所述变化检测模块被配置为：

12.根据权利要求11所述的装置，其中所述图像序列接收模块包括：

状态确定子模块，被配置为确定所述电子设备是否处于非激活状态，所述电子设备在所述非激活状态下不能够响应所述用户的所述语音命令；以及

接收子模块，被配置为响应于确定所述电子设备处于非激活状态，接收所述图像序列。

13.根据权利要求11所述的装置，还包括：

去激活模块，被配置为响应于所述电子设备处于所述激活状态并且在第一阈值时间间隔内未接收到来自所述用户的所述语音命令，使得所述电子设备进入非激活状态，所述电子设备在所述非激活状态下不能够响应所述用户的所述语音命令。

14.根据权利要求11所述的装置，其中所述匹配确定模块包括：

第一匹配确定子模块，被配置为响应于确定所述用户的头部轮廓从侧面轮廓转变为正面轮廓，确定所述头部特征的所述变化与所述预定变化模式匹配。

15.根据权利要求11所述的装置，其中所述匹配确定模块包括：

第二匹配确定子模块，被配置为响应于确定所述用户的面部从第一位置移动到第二位置，确定所述头部特征的所述变化与所述预定变化模式匹配，所述第一位置是所述面部没有朝向所述图像捕获装置的位置，以及所述第二位置是所述面部至少部分地朝向所述图像捕获装置的位置。

16.根据权利要求11所述的装置，其中所述匹配确定模块包括：

第三匹配确定子模块，被配置为响应于确定所述用户的面部从第三位置移动到第四位置，确定所述头部特征的所述变化与所述预定变化模式匹配，所述第三位置是所述面部的侧面朝向所述图像捕获装置的位置，以及所述第四位置是所述面部的正面朝向所述图像捕获装置的位置。

17.根据权利要求11所述的装置，其中所述匹配确定模块包括：

第四匹配确定子模块，被配置为响应于确定所述用户的眼部从睁开状态转变为闭合状态，确定所述头部特征的所述变化与所述预定变化模式匹配。

18.根据权利要求11所述的装置，其中所述匹配确定模块包括：

第五匹配确定子模块，被配置为响应于确定所述用户的口部从闭合状态转变为张开状态持续第三阈值时间间隔，确定所述头部特征的所述变化与所述预定变化模式匹配。

19.根据权利要求11所述的装置，其中所述匹配确定模块包括：

第六匹配确定子模块，被配置为响应于检测到所述用户的耳部从正面轮廓转变为侧面轮廓，确定所述头部特征的所述变化与所述预定变化模式匹配。

20.根据权利要求11所述的装置，其中所述电子设备是提供语音交互功能的音箱。

21.一种设备，所述设备包括：

一个或多个处理器；以及

存储装置，用于存储一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-10中任一项所述的方法。

22.一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如权利要求1-10中任一项所述的方法。