CN103137128B

CN103137128B - 用于设备控制的手势和语音识别

Info

Publication number: CN103137128B
Application number: CN201210442180.XA
Authority: CN
Inventors: 松林浩司
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2011-11-18
Filing date: 2012-11-07
Publication date: 2015-11-18
Anticipated expiration: 2032-11-07
Also published as: US20130127712A1; CN103137128A; US9363549B2; US20140289778A1; US8847881B2

Abstract

本公开涉及用于设备控制的手势和语音识别。一种用户界面允许一个或多个手势由用户设计并且被映射为或者关联于电视或其它设备的一个或多个命令或操作。用户可以选择与他/她设计或创建的每个手势相关联的命令/操作。用户不被限制为使用被预先编程到系统中的预置的手势，也不被限制为使用预先与预置的手势相关联的预置的命令/操作。在可替代的实施例中，语音命令或其他可听见的信号是由用户设计，并且被映射为或关联于设备的命令/操作。

Description

用于设备控制的手势和语音识别

相关申请的交叉引用

本申请要求2011年11月18日提交的题为“GestureandVoiceRecognitionforControlofaDevice”的美国临时专利申请No.61/561,669的优先权，该申请的全部内容通过引用被结合于此。

技术领域

本发明涉及一种被配置为提供用于基于手势或音频输入来操作电子设备的用户界面的信息处理装置和方法以及程序。

背景技术

电子设备(包括电视机)已被使用位于设备上的、与预置功能相关联的按钮来控制。另外，遥控器被开发以允许用户在其位置超出他们够得着单元上按钮的物理范围时操作该设备。但是，遥控器的使用经常是繁琐的并且往往不是特别的直观。此外，遥控器很容易放错地方，需要更换电池，并且提供了病菌在用户之间传播的手段。最近，已经提出在电子设备显示器中使用手势来控制虚拟光标和其他对象。但这些方法的使用遇到了困难。

发明内容

广义地说，本发明的某些实施例涉及用户界面，其中，一个或多个手势由用户设计并且被映射为或者关联于诸如以TV为例的计算设备的一个或多个命令或操作。用户可以选择与他/她设计或创建的每个手势相关联的命令/操作。用户并不被限制为使用被制造商或第三方预先编程到系统中的预置的手势，也不被限制为使用预先与预置的手势相关联的预置的命令/操作。在可替代的实施例中，语音命令或其他音频信号被用于代替手势。

在一个方面，诸如TV的计算设备通过与所述设备通信的摄像机来接收用户的第一手势。用于所述设备的操作的选择被输入到设备中，其中，所述操作是可供所述用户选择的多个不同的操作中的一个。所述设备将所述操作与所述第一手势相关联。所述设备通过所述摄像机接收第二手势，其中，所述第二手势与第一手势基本相同。所述设备响应于所述第二手势的接收来执行所述操作。

在另一个方面，用户将用于设备的第二操作的第二选择输入到所述设备。第二操作是可供用户进行第二选择的多个不同操作中的第二个。接下来，用户将预定时间段输入到所述设备，所述预定时间段是可供用户选择的多个时间段中的一个。将第一操作与第一手势相关联包括将所述第一手势与所述第一操作和所述第二操作二者相关联。响应于接收所述第二手势(与所述第一手势基本相同)，所述设备执行第一操作，并在等待了所述预定时间段后，自动执行所述第二操作。

在可替代的实施例中，第一计算设备通过与所述第一设备通信的第一摄像机接收第一用户的第一手势。所述用户将用于第二设备的操作的选择输入到所述第一设备中，其中所述操作是可供所述用户选择的多个不同的操作中的一个。所述第一设备将所述该操作与所述第一手势相关联。所述第一设备将对应于所述第一手势和对应于所述第二计算设备的所述操作的所述选择的数据发送到第二设备。所述第二设备通过与所述第二设备通信的第二摄像机接收第二手势(与所述第一手势基本相同)。所述第二设备响应于所述第二手势的接收来执行所述操作。

在可替代的实施例中，计算设备通过与所述设备通信的摄像机接收第一手势。所述设备通过所述摄像机接收第一个人的面部图像。所述设备还通过所述摄像机接收第二个人的面部图像。所述设备通过所述摄像机接收基本上与所述第一手势相同的第二手势。所述设备确定所述第二手势是否由所述第一个人做出并且在确定所述第二手势已经由所述第一个人做出的情况下响应于所述第二手势的接收来执行所述操作。在另一个方面，如果确定所述第二手势已经由所述第一个人之外的某个人做出，则所述设备响应于所述第二手势的接收而避免执行所述操作。

在另一个方面中，所述第一个人将用于所述设备的操作的选择输入到所述设备，其中，所述操作是可供第一个人选择的多个不同的操作中的一个。然后所述设备将所述操作与所述第一手势相关联。

在可替代的实施例中，计算设备通过与所述设备通信的麦克风接收由用户生成的第一音频信号。用户将用于所述设备的操作的选择输入到所述设备，其中所述操作是可供所述用户选择的多个不同的操作中的一个。所述设备将所述操作与所述第一音频信号相关联。所述设备通过麦克风接收与所述第一音频信号基本相同的第二音频信号。所述设备响应于所述第二音频信号的接收来执行所述操作。

在另一个方面中，所述第一音频信号是说出的词语、打响指、鼓掌或吹口哨。

在又一方面中，用户将用于所述设备的第二操作的第二选择输入到所述设备中，其中，所述第二操作是可供所述用户进行第二选择的多个不同的操作中的第二个。所述设备将所述第一音频信号与第一操作相关联进一步包括将所述第一音频信号与所述第一操作和所述第二操作二者相关联。所述设备响应于所述第二音频信号的接收来执行所述第一操作进一步包括响应于所述第二音频信号的接收来自动执行所述第一操作和所述第二操作。

在一个可替代的实施例中，计算设备通过与所述设备通信的麦克风接收由第一个人生成的第一语音命令。所述设备将所述第一语音命令与第一个人相关联。所述第一个人将用于所述设备的操作的选择输入到所述设备中，其中所述操作是可供第一个人选择的多个不同的操作中的一个。然后所述设备将所述设备与所述第一语音命令相关联。所述设备通过所述麦克风接收基本上与所述第一语音命令相同的第二语音命令，由此所述设备确定所述第二语音命令是否由所述第一个人生成。如果确定所述第二语音命令是由所述第一个人生成，则所述设备响应于所述第二语音命令的接收来执行所述操作。另一方面，如果确定所述第二语音命令是由不同于所述第一个人的另一个人生成，则所述设备避免执行所述操作。

在又一实施例中，一种设备包括存储器、以及耦合到所述存储器的处理器。所述设备进一步包括耦合到所述处理器的摄像机或麦克风(或两者)。所述处理器可操作以执行任何上述实施例的步骤。

在又一实施例中，提供了一种非临时性的计算机可读存储介质。所述存储介质包含指令，当由耦合到摄像机或麦克风(或两者)的处理器执行时，所述指令使所述处理器执行任何上述实施例的步骤。

存在本发明的其它方面。因此，应当了解，在前的描述仅仅是本发明的一些实施例和一些方面的概要。以下将提及其它实施例和方面。还应当了解，在不脱离本发明的精神或范围的情况下可以对所公开的实施例进行许多改变。因此，之前的概要并不意味着限制本发明的范围。相反，本发明的范围由所附权利要求和其等同物来确定。

附图说明

结合附图，从以下特定实施例的详细描述中，本发明的上述和/或其他方面以及优点将变得显而易见，并且更容易理解，其中：

图1是本发明的实施例可被实施的示例性操作环境的简化的框图；

图2是根据本发明的实施例的图1中的TV的简化框图；

图3是根据本发明的实施例的提供包含了手势使用的用户界面的方法的简化流程；

图4是根据本发明的可替代的实施例的提供包含了手势的使用的用户界面的另一个方法的简化流程；

图5是根据本发明的另一个可替代的实施例的提供包含了手势使用的用户界面的另一个方法的简化流程；以及

图6是根据本发明的又一个可替代的实施例的提供包含了手势使用的用户界面的另一个方法的简化流程。

具体实施方式

以下是对当前被构思为实现本发明的最佳方式的描述。将详细提及本发明的实施方式，其示例在附图中示出，其中在全部附图中相同的参考标号表示相同的元件。应当理解，可以使用其他实施方式，并且可以在不偏离本发明范围的情况下进行结构和操作的改变。

本发明的实施例涉及到用户界面，其中，一个或多个手势由用户设计并且被映射为或者关联于电视或其它设备的一个或多个命令或操作。用户可以选择与他/她设计或创建的每个手势相关联的命令/操作。用户不需要采用被预先编程到系统中的预置的手势，也不需要采用预先与预置的手势相关联的预置的命令/操作。在可替代的实施例中，语音命令或其他音频信号由用户设计，并且被映射为或关联于设备的命令/操作。

图1是本发明的实施例可被实施的示例性操作环境的简化的框图。诸如以视频、音频、数据提供者和TV服务提供者为例的内容和服务提供者为用户提供了通常被提供给接收设备的节目和/或数据，所述接收设备例如是与电视(TV)104通信的机顶盒102，或其他具有显示屏并被配置为接收和显示节目的设备。

机顶盒102进而与被配置为从通信卫星108接收信号的卫星天线106通信。在可替代的实施例中，机顶盒102与提供了节目或数据的其他数据源或节目源通信，例如，以太网门户网站、电话公司网络、电缆头端、地面天线等。机顶盒102处理和传送所选择的节目到TV104和/或一个或多个其他TV、演示设备或存储设备。

虽然示出的实施例中示出了机顶盒102，但是可替代的实施例包括任何合适的可用于接收节目的转换器设备或电子设备。这种替代设备的示例包括电视录像设备、电视调谐器、电视转换器、接收器、卫星接收器、有线机顶盒、有线接收器、媒体播放器、和/或电视接收设备。在一些实施例中，遥控器110可操作以控制所述TV104和其他用户设备。

虽然示出的实施例中示出了TV104，但是替代的实施例包括用于呈现内容或数据的其他设备，诸如，数字视频录像机(DVR)、游戏系统、个人计算机、音响系统接收器、致密盘(CD)设备等。这些设备中的一些设备有一个或多个扬声器、显示器、或其它输出组件以向用户呈现视频或音频内容。

在一些实施例中，用于呈现内容/数据的多个TV或相关设备被设置在用户住所112或靠近用户住所112，并且直接或间接地与机顶盒102通信。另外，机顶盒102和TV104可以被集成到除了具有其它功能之外，还具有上述的机顶盒102和TV104的功能的单一设备中。除了节目内容，电子节目指南(“EPG”)数据或类似这样的数据从节目数据源通过互联网116被提供到用户住所112。

接收机天线106被设置在用户住所112或靠近于用户住所112，用户住所包括例如住宅、企业、或任何可用于接收卫星信号的其他位置。所接收到的卫星信号被传送到该机顶盒102，机顶盒102将所接收的信号放大和转换成适合于传送到TV104或另一用户设备(例如DVR114)的信号。

在可替代的实施例中，不是DVR114而是(或除了DVR114之外还有)其他设备可操作以从该机顶盒102、另一个终端设备、或从住所112外部的其他设备接收信号。这样的设备的示例包括致密盘(CD)记录器、数字视频盘(DVD)录像机、其他光学媒体录像机、个人视频录像机(PVR)、游戏设备、磁带记录机、RF收发器、以及个人计算机(PC)。

遥控器110作为用户和机顶盒102之间的一类接口。遥控器110使用诸如红外线(IR)、RF、蓝牙等无线介质与机顶盒102通信。(在可替代的实施例中，遥控器110直接地并且无线地与TV104和DVR114以及该机顶盒102通信)。除了与机顶盒102通信的DVR114之外，其他设备(未示出)也可以与机顶盒102通信，例如指点设备、游戏设备控制器、键盘等。

在可替代的实施例中，机顶盒102可从天线106之外的、例如从本地广播RF信号、通过使用本地网络118(通过直播流或其他方式)从互联网116、或从其他通信系统的其他源接收内容、视频流和数据。

用户住所112包括与互联网116通信的其它设备。它们包括本地网络118，其中本地PC120和TV104可通信地耦合到本地网络118。在可替代的实施例中，诸如以数据存储设备、机顶盒102、游戏系统、声音系统接收器、互联网连接设备、数字订户环路(DSL)设备、无线局域网、WiFi、全球微波接入互操作性(WiMax)等为例的其他设备可通信地耦合到本地网络118，这样所有这些设备可以彼此通信并且与互联网116通信。此外，被设置在住所112外部的远程PC122通过互联网116和本地网络118来与本地PC120和TV104通信。因此，本地网络118允许这些相互连通的设备以及机顶盒102相互通信。

包括用户住所112和其中布置的各种设备在内的操作环境的以上描述旨在作为本发明实施例可被实施的操作环境的多个实施例之一的非限制性的概述。用户住所112中的设备以及内部和外部的通信系统可以含有此处没有具体描述的其它设备、系统和媒体。

图2是根据本发明的实施例的图1中的TV104的简化框图。TV104能够通过外部接口204连接到摄像机202。然而，在可替代的实施例中，摄像机202是集成或嵌入在TV104中的组件。另外，TV104通过无线接口206无线连接到遥控器110。

中央处理单元(CPU)或处理器208执行各单元的中央控制，并通过系统总线210与它们通信。所述处理器208执行暂时存储在随机存取存储器(RAM)212中的一个或多个程序。所述程序在其传送到RAM212以供使用之前，被进一步存储在非易失性存储器214中。所述非易失性存储器(或存储单元)包括非临时性的、计算机可读的存储介质，并且用于存储相对大量的数据、应用等。所述非易失性存储器可以是一个或多个硬盘驱动器、闪存设备、光盘驱动器等。所述处理器208读取程序，并根据所述程序执行各种处理和控制各种单元。

作为另一种类型的用户界面，TV104检测一个或多个用户的手(或其他身体部分)的运动，并且将该运动或手势识别为用于执行操作的命令。特别地，处理器208从摄像机202接收与放置在摄像机202之前(例如，在TV104之前)的物体或人的图像相对应的数据。用户的一只或两只手(或其他身体部分)的运动也被检测。然后，处理器208从所检测的例如他或她的(一只或两只)手的运动中识别用户执行的手势，并根据这些操作执行处理。

作为另一个用户界面，处理器208还根据从遥控器110发送的命令识别由用户通过遥控器110发起的命令，并根据该操作执行处理。

此外，TV104具有广播处理功能。当用户命令指示TV104输出广播信号时，所述TV104将外部天线218接收的地面广播信号输入到调谐器216中。处理器208使调谐器216通过由用户执行的操作来获得所选择的信道的广播信号，并发送该信号到广播信号处理单元220。

处理器208使广播信号处理单元220通过对广播信号执行处理来从该广播信号获得节目的视频数据和音频数据。在这些数据中，视频数据被从广播信号处理单元220发送到显示处理单元222，并且音频数据被从所述广播信号处理单元220发送到音频处理单元224。处理器208进一步使显示处理单元222通过对视频数据执行显示处理来获得视频信号，并发送该视频信号到显示器226。结果，节目的视频被显示给用户。处理器208还使得音频处理单元224通过对音频数据执行音频处理来获得音频信号，并发送该音频信号到扬声器228。结果，节目的音频被从扬声器228输出。

除了通过天线218接收地面广播信号外，TV104进一步通过机顶盒102从卫星天线106接收信号(图1)。这些信号被发送到机顶盒接口236，所述机顶盒接口236进而处理这些信号并且将它们发送到总线210，以便以大致类似于上面所描述的方式进一步处理。

网络接口卡(NIC)230被连接到总线210，并通过本地网络118用作与互联网116的接口，这样处理器208可以向互联网和与本地网络118通信的其他组件发送数据以及从互联网和与本地网络118通信的其他组件接收数据。此外，麦克风232通过麦克风接口234连接到总线210，从而允许处理器208接收和处理音频数据。

摄像机202通过TV104的外部接口204连接到TV104，这样由摄像机202生成的图像数据可以被发送到处理器208。根据一个实施例，TV104根据从摄像机202发送的图像数据来识别在TV104前面的一个或多个用户。具体地，TV104的处理器208执行面部检测和识别处理，以及对由摄像机202生成的图像数据执行用户的动态手势运动的手势识别。处理器208通过执行该检测处理检测一个或多个用户的手的运动以及面部。

存在有多种已知的面部检测和面部识别的算法。例如根据一种算法，从摄像机图像中提取皮肤颜色区域以及该皮肤颜色区域内的特征值(假定为眼睛和嘴巴的部分)，并且根据这些特征值之间的位置关系确定皮肤颜色的区域是否是面部。通过使用这样的算法，处理器208从摄像机图像中检测每一个被确定为面部的区域，并且获得每一个检测到的面部区域的坐标。

此外，人类手势被检测、处理并且与命令或功能相关联。根据一个实施例，由TV104从用户接收她/他希望创建手势并将其分配给一个或多个命令或功能的指示。用于发起创建分配的处理的指示通过使用一个或多个不同类型的输入(例如，遥控器按键、运动、其他手势、触摸屏等)而被接收。根据特定的用户创建的手势，用户移动一只或两只手(或其他身体部分)，这样摄像机202捕捉图像运动并且为手势生成进而由TV104接收的原始运动数据。所记录的原始运动数据被处理以确定与原始运动数据相关联的一个或多个运动或手势。

在一些实施例中，所述运动在数据库中被存储为手势。在用户根据用户创建的手势移动他/她的(一只或两只)手之后，用于手势创建和分配的指示可被接收。例如，用户可根据当前不能被TV104识别的由用户创建的手势来移动他/她的(一只或两只)手。TV104询问用户以确定用户是否希望存储未识别的手势并将它与特定的命令或功能相关联。如果有肯定的响应，手势可被用作运动输入或命令以备将来使用。

用于手势的功能映射信息被从用户接收，并且例如可以包括用户希望映射为或关联于用户创建的手势的功能、操作、命令、输入指令和/或任务。在一些实施例中，这样的功能映射信息可包括与特定手势相关联的一系列功能(例如，宏或批命令)。功能映射信息被存储在另一个数据库中。

图1中的本地PC120和远程PC122的每一个也可包含大致相似的组件，所述组件被布置为与图2中的TV104大致相似的配置。在一些实施例中，本地PC120、远程PC122和TV104之间的连接可以是无线的、或通过一个或多个线缆、或通过它们的任意组合。在所示的示例中，只有两个PC和一个TV被示出，但本领域中的技术人员应当理解，任何数量的设备和TV可被连接到本地网络118、互联网116或其它类型的网络。PC120、122提供从一个设备传输电子消息和其他数据到另一个设备或者到TV104的功能，有时途径其他消息服务器或电子设备。

以类似于TV104的方式，远程PC122包括处理器、只读存储器(ROM)、RAM和存储单元，所有这些都通过总线耦合或相互连接。处理器被配置为执行由存储在ROM中的、或者从存储单元加载到RAM中的程序和应用所指示的各种处理操作。存储单元或非易失性存储器包括非临时性的计算机可读存储介质，并且用于存储相对大量的数据、应用等。存储单元可以是一个或多个硬盘驱动器、闪存设备、光学驱动器等。RAM还按需要存储处理器执行各种应用和处理操作所必要的数据等。ROM、RAM和/或存储单元存储与处理器一起使用的操作软件和应用以使能远程PC122的操作。

远程PC122还包括至少一个输入设备，例如键盘和鼠标、用于接收语音或其他声音输入的麦克风、用于接收图像的摄像机、指点设备、触摸屏显示器或遥控无线输入单元(如电视遥控型单元)。可替代的实施例可以包括前述类型的输入设备的任何组合，以及其它输入设备。因此，远程PC122允许经由用户动作的用户输入，所述用户动作包括当光标位于输出设备(如基于LCD的显示单元)的预先定义的区域上时点击鼠标按钮。(输出设备可以进一步包括用于提供语音提示和说出的词语、音乐和系统音调的扬声器。)其他用于输入的用户动作可以包括：由用户生成声音或手势、使用电视型遥控单元进行选择、按压键盘上的键、移动指点设备、用指点设备或用户的手指在指点设备显示器上触摸、或选择所显示的指令。

远程PC122的总线进一步耦合或连接到输入设备、输出设备、存储单元和通信设备。通信设备可以是例如调制解调器、网络接口卡(NIC)、无线接入卡或适配器、或其他终端适配器。通信设备经由网络执行通信处理，发送从所述处理器提供的数据，并将从网络接收到的数据输出到处理器、RAM、以及存储单元中。通信设备还与其它电子设备传递模拟信号或数字信号。

远程PC122的总线也根据需要被连接或耦合到驱动器，所述驱动器上加载了具有包含指令的计算机应用或从任何这些存储介质读取的其他数据的非临时性计算机可读存储介质，如例如磁盘，光盘，磁光盘，或半导体存储器。当这些指令和数据被处理器执行时，使处理器执行多个方法或功能。本地PC120包括以与远程PC122大致类似的方式操作的大致类似的组件。此外，图1的机顶盒102和DVR114每一个都包含了如上所述用于远程PC122和TV104中的一些组件，这些组件以大致类似的方式操作。

虽然图1和2示出了电视104、远程PC122、本地PC120和其他设备的一个配置，但是可替代的实施例包括蜂窝电话、所谓的“智能”电话、便携式数字助理、平板计算机和任何其他类型的计算机或处理器驱动的设备。此外，可替代的实施例中不需要包含TV，而是包括PC之间相互的直接通信。

正如前面所提到的，本发明的实施例提供了用户界面，其中，一个或多个手势由用户设计并且被映射为或关联于TV或其它设备的一个或多个命令或操作。用户可以选择与他/她设计或创建的每个手势相关联的命令/操作。用户不需要采用被预先编程到系统中的预置的手势，也不需要采用预先与预置的手势相关联的预置的命令/操作。图3示出了一个这样的实施例的简化处理流程。该处理开始于由TV(或其他计算设备)通过与TV通信的摄像机接收用户的第一手势(步骤302)。用户将用于操作的选择输入到TV，所述操作是可供选择的多个不同操作中的一个(步骤304)。TV响应于选择的输入将操作与第一手势相关联(步骤306)。TV通过摄像机接收第二手势，第二手势与第一手势基本相同(步骤308)。可以由创建手势的用户或由另一个用户执行第二手势。响应于所述第二手势的接收，TV执行所述操作(步骤310)。由TV执行操作可以包括例如启动应用，所述应用例如是视频游戏，或指向例如预选网站(诸如例如Facebook^TM、YouTube^TM、或Skype^TM)的互联网浏览器。其他的操作可以包括显示用户可获得的内容的预选频道。另外的操作可以包括暂停内容的呈现、快进所述内容的呈现、记录内容和修改所述内容的音频的音量级别。

虽然图3示出了涉及一个手势及相关的操作的实施例，但应当理解，可替代的实施例涉及多个手势和操作。例如，根据一个实施例，计算设备接收用户的第一组多个手势。用户将用于计算设备的多个操作或命令的多个选择输入到所述计算设备。所述计算设备将多个操作与所述第一组多个手势相关联，这样所述多个操作的每一个与多个选择中的不同的一个相关联。然后，计算设备接收第二组多个手势，其中所述第二组多个手势中的每一个与第一组多个手势中的相应那个基本相同。所述计算设备响应于第二组多个手势中的每一相应手势的接收来执行多个操作的每一个，一次执行一个操作。

上述的实施例一般涉及创建用户定义的手势和将它们分配给TV或其他计算设备的操作或命令。图4示出了替代实施例的简化流程，其中单个手势被定义用于执行一系列操作，例如，一种宏或批命令操作。因此，基于手势的快捷方式类型被创建。该处理开始于由TV(或其他计算设备)通过与TV通信的摄像机接收用户的第一手势(步骤402)。用户将用于第一操作的第一选择输入到TV，所述第一操作是可供选择的多个不同操作中的一个(步骤404)。然后，用户输入用于TV的第二操作的第二选择(步骤406)。所述TV将第一操作和第二操作二者与第一手势相关联(步骤408)。TV通过摄像机接收第二手势，第二手势与第一手势基本上相同(步骤410)。响应于第二手势的接收，TV自动执行第一操作，然后执行第二操作，而不需要任何进一步的用户输入或命令(步骤412)。

多个操作例如可以包括在TV上显示预选第一频道的节目的第一操作，以及在第一频道被显示了预定时间段后，显示预选第二频道的节目的第二操作。因此，例如，用户可能希望创建被TV识别为自动调到并显示第一频道的命令的特殊手势，其中第一频道是例如专用于新闻内容的频道。所述新闻内容频道被显示了预定时间量(如5分钟)后，所述TV(无需接收任何进一步的用户输入或命令)自动改变频道并显示第二频道，所述第二频道是另一个用户喜爱的频道。此外，根据可替代实施例，用户可以为在发起第二TV操作之前将经过的时间量选择并向TV输入用户选择的任何预定时间段(并且因此不会被限制为任何固定的、系统决定的时间段)。

使用多个操作的另一个示例包括显示内容项的第一操作，以及当它被显示时记录内容项的第二操作。因此，例如，响应于由用户创建和定义的特殊手势的接收，TV将自动调到和显示用户选择的第一频道(无需接收任何进一步的用户输入或命令)，并当被显示时开始记录该频道的内容。

图5示出了可替代的实施例的简化流程，其中，手势在计算机或其他设备处被定义用于由单独的设备(如TV)执行操作动作。这样的实施例例如在这些情况下是很有用的：本地用户缺乏创建和定义用于控制他/她的本地设备的手势的技能或期望，但另一个人可以使用远程设备并且通过在远程设备处创建和定义手势远程地协助本地用户。该手势有关的信息被发送到本地设备以由本地用户使用。

所述处理开始于由第一计算设备(例如PC)通过与第一设备通信的第一摄像机接收用户的第一手势(步骤502)。接下来，用户将用于由第二计算设备(例如TV)执行的操作或命令的选择输入到所述第一设备，其中，所述操作是可供用户选择的多个不同的操作中的一个(步骤504)。然后，第一设备响应于所述选择的输入来将所述操作与第一手势相关联(步骤506)。接着，与所述第一手势相对应且与将由第二计算设备执行的所分配的操作的选择相对应的数据被从第一设备发送到第二设备(步骤508)。根据某些实施例，该数据通过本地网络或者经由互联网或者二者来发送。所述第二设备通过第二摄像机接收第二手势，第二手势与第一手势基本相同(步骤510)。第二手势可以在所述第二设备处由在第一设备处创建了第一手势和分配的用户或由另一个用户执行。响应于所述第二手势的接收，第二设备自动执行所分配的操作(步骤512)。根据各种实施例，第一设备可以是膝上型计算机、台式计算机、平板计算机、手持式设备、或者TV，并且第二设备可以是另一台膝上型计算机、台式计算机、平板计算机、手持式设备、或者TV。

图6示出了实施例的简化流程，其中，面部识别被使用，使得只有一个或多个特定用户的手势被计算设备接受，忽略其他可能存在的人的手势。该处理开始于TV(或其他计算设备)通过与TV通信的摄像机接收第一手势(步骤602)。第一个人的面部图像也由TV通过摄像机接收(步骤604)。第二个人的面部图像也由TV通过摄像机接收(步骤606)。与第一手势基本相同的第二手势随后由TV通过摄像机接收(步骤608)。使用面部识别确定第二手势是否由第一个人做出(步骤610)。响应于接收到所述第二手势，如果确定第二手势由第一个人做出，则所述TV执行操作(步骤612)。在另一方面，如果确定第二手势是由所述第二个人做出的(或由第一个人以外的任何人做出的)，则TV避免执行操作(步骤614)。

所有的上述实施例均涉及被计算设备接收和识别为执行各种操作或功能的命令的手势。然而，在可替代的实施例中，由用户生成的语音命令或其他音频信号以与上述相类似的方式被用于手势。例如，在一个实施例中，由用户生成的第一音频信号被计算设备通过与所述计算设备通信的麦克风接收。用户将用于所述设备的操作的选择输入到该设备。响应于该选择的输入，所述设备将操作与第一音频信号相关联。响应于用户生成的与第一音频信号基本相同的第二音频信号的接收，所述设备执行操作。所述音频信号可以是各种可听见的信号或噪声中的任何一个或组合，包括但不限于，一个或多个说出的词语、打响指、鼓掌或吹口哨。

在又一个实施例中，语音识别被用来仅对一个或多个特定用户的音频命令做出响应，并忽略其他人的音频命令。例如，在一个实施例中，计算设备通过与所述设备通信的麦克风接收由第一个人生成的第一语音命令。所述设备将第一语音命令与第一个人相关联。所述设备通过麦克风接收与第一语音命令基本相同的第二语音命令。确定第二语音命令是否由第一个人生成。如果确定第二语音命令由第一个人生成，则所述设备执行操作。另一方面，如果确定第二话音命令时由另一人所生成，则所述设备避免执行操作。

可替代的实施例并不限于只接收手势或只接收音频信号。而是，某些实施例包括接收手势和音频信号的组合，所述手势和音频信号被计算设备识别为执行如这里之前所描述的各种操作或功能的命令。

鉴于上述情况，将理解的是，本发明的实施例通过提供以下用户界面克服了本领域中许多长期存在的问题，所述用户界面中，一个或多个手势可由用户设计并被映射为或关联于TV或其它电子设备的一个或多个命令或操作。用户可以选择与他/她设计或创建的每个手势相关联的命令/操作。用户不需要采用被预先编程到系统中的预置的手势，也不需要采用预先与预置的手势相关联的预置的命令/操作。在可替代的实施例中，语音命令或其他可听见的信号由用户设计并且被映射为或关联于电子设备的命令/操作。

虽然以上描述参考了本发明的特定实施例，但是将了解，在不脱离本发明的精神的情况下可以进行许多修改。权利要求旨在覆盖这样的修改，只要这些修改落在本发明的真实范围和精神内。因此，当前公开的实施例在各个方面都应当被视为是说明性的而非限制性的，本发明的范围由权利要求而不是由之前的描述来指示，因此，在权利要求的等同物的含义和范围内的所有改变都旨在被包含于此。

Claims

1.一种用于提供界面的方法，包括：

由计算设备通过与所述计算设备通信的摄像机接收用户的第一手势；

由所述计算设备接收用于所述计算设备的操作的选择，其中，所述操作是可供所述用户选择的多个不同的操作中的一个；

由所述计算设备将所述操作与所述第一手势相关联；

由所述计算设备通过所述摄像机接收第二手势，其中，所述第二手势与所述第一手势基本相同；以及

由所述计算设备响应于所述第二手势的接收来执行所述操作，

其中，用于所述计算设备的所述操作的所述选择是第一操作的第一选择，所述方法进一步包括：

从所述用户将用于所述计算设备的第二操作的第二选择接收到所述计算设备中，其中，所述第二操作是可供所述用户进行第二选择的所述多个不同的操作中的第二个，

其中，将所述第一手势与所述第一操作相关联包括将所述第一操作和所述第二操作二者与所述第一手势相关联，并且

其中，执行所述第一操作包括由所述计算设备响应于所述第二手势的接收来自动执行所述第一操作和所述第二操作。

2.根据权利要求1所述的方法，其中，所述操作是由所述计算设备开始应用，所述计算设备是电视机并且其中所述摄像机被嵌入在所述电视中。

3.根据权利要求1所述的方法，其中，所述计算设备具有显示器并且其中所述操作是显示可提供给所述用户的内容的多个频道中的预选的一个频道。

4.根据权利要求1所述的方法，其中，所述计算设备在显示器上呈现内容，并且其中所述操作是暂停所述内容的呈现、快进所述内容的呈现、记录所述内容和修改所述内容的音频的音量级别中的一个。

5.根据权利要求1所述的方法，其中，所述计算设备具有显示器，其中，所述第一操作是在所述显示器上显示预选的第一频道，其中所述第二操作是在所述预选的第一频道已被显示了预定时间段之后在所述显示器上显示预选的第二频道，并且其中所述第一频道和所述第二频道的每一个是可提供给所述用户的内容的多个频道中的频道。

6.根据权利要求5所述的方法，进一步包括：由所述用户将所述预定时间段输入到所述计算设备，所述预定时间段是多个可供用户选择的时间段中的一个。

7.根据权利要求1所述的方法，其中，所述计算设备具有显示器，其中所述第一操作是在所述显示器上显示内容项，并且其中所述第二操作是当所述内容项被显示时记录所述内容项。

8.一种用于提供界面的方法，包括：

由第一计算设备通过与所述第一计算设备通信的第一摄像机接收用户的第一手势；

从所述用户将用于第二计算设备的操作的选择接收到所述第一计算设备中，其中所述操作是可供所述用户选择的多个不同的操作中的一个；

由所述第一计算设备将所述操作与所述第一手势相关联；

从所述第一计算设备向所述第二计算设备发送对应于所述第一手势且对应于所述第二计算设备的所述操作的所述选择的数据；

由所述第二计算设备通过与所述第二计算设备通信的第二摄像机接收第二手势，其中所述第二手势与所述第一手势基本相同；以及

由所述第二计算设备响应于所述第二手势的接收来执行所述操作。

9.根据权利要求8所述的方法，其中，所述第一计算设备是膝上型计算机、台式计算机、平板计算机和手持式设备中的一个，并且其中所述第二计算设备是电视机。

10.一种用于提供界面的方法，包括：

由计算设备通过与所述计算设备通信的摄像机接收第一手势；

由所述计算设备通过所述摄像机接收第一个人的面部图像；

由所述计算设备通过所述摄像机接收第二个人的面部图像；

由所述计算设备通过所述摄像机接收与所述第一手势基本相同的第二手势；

确定所述第二手势是否由所述第一个人做出；

如果确定所述第二手势是由所述第一个人做出的，则由所述计算设备响应于所述第二手势的接收来执行操作；以及

如果确定所述第二手势是由所述第一个人之外的人做出的，则避免由所述计算设备响应于所述第二手势的接收来执行所述操作。

11.根据权利要求10所述的方法，进一步包括：

由所述第一个人将用于所述计算设备的所述操作的选择输入到所述计算设备，其中，所述操作是可供所述第一个人选择的多个不同的操作中的一个；以及

由所述计算设备将所述操作与所述第一手势相关联。

12.一种由用户使用的设备，包括：

用于通过摄像机接收所述用户的第一手势的装置；

用于接收所述用户做出的对要由所述设备执行的操作的选择的装置，其中，所述操作是可供所述用户选择的多个不同的操作中的一个；

用于将所述操作与所述第一手势相关联的装置；

用于通过所述摄像机接收第二手势的装置，其中，所述第二手势与所述第一手势基本相同；以及

用于响应于所述第二手势的接收来执行所述操作的装置，

其中，用于所述对要由设备执行的操作的选择是第一操作的第一选择，并且其中所述设备还包括：

用于从所述用户接收对要由所述设备执行的第二操作的第二选择的装置，其中，所述第二操作是可供所述用户进行所述第二选择的所述多个不同的操作中的第二个，

其中，用于将所述第一手势与所述第一操作相关联的装置包括用于将所述第一手势与所述第一操作和所述第二操作二者相关联的装置，并且

其中，用于执行所述第一操作的装置包括用于响应于所述第二手势的接收来自动执行所述第一操作和所述第二操作的装置。

13.根据权利要求12所述的设备，其中，所述操作是由所述设备开始应用，所述设备具有显示器并且其中所述操作是显示可提供给所述用户的内容的多个频道中的预选的一个频道。

14.根据权利要求12所述的设备，其中，所述设备具有显示器并且被配置为在所述显示器上呈现内容，并且其中所述操作是暂停所述内容的呈现、快进所述内容的呈现、记录所述内容和修改所述内容的音频的音量级别中的一个。

15.根据权利要求12所述的设备，其中，所述设备具有显示器，其中，所述第一操作是在所述显示器上显示预选的第一频道，其中所述第二操作是在所述预选的第一频道已被显示了预定时间段之后在所述显示器上显示预选的第二频道，并且其中所述第一频道和所述第二频道的每一个是可提供给所述用户的内容的多个频道中的频道。

16.根据权利要求15所述的设备，还包括：用于接收来自所述用户的所述预定时间段的装置，所述预定时间段是可供所述用户选择的多个时间段中的一个。

17.根据权利要求12所述的设备，其中，所述设备具有显示器，其中所述第一操作是在所述显示器上显示内容项，并且其中所述第二操作是当所述内容项被显示时记录所述内容项。