CN102467235A

CN102467235A - 多媒体设备中用户姿态识别的方法及其多媒体设备

Info

Publication number: CN102467235A
Application number: CN2011101197884A
Authority: CN
Inventors: 姜敏九
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2010-11-12
Filing date: 2011-05-10
Publication date: 2012-05-23
Also published as: EP2453388A1; US20120119985A1; KR20120051212A

Abstract

多媒体设备中用户姿态识别的方法及其多媒体设备。一种显示设备，该显示设备包括对人的第一图像进行检测的第一传感器和对所述人的第二图像进行检测的第二传感器。存储设备存储第一信息和第二信息，其中所述第一信息识别映射到由所述第二信息识别的多个功能中的相应功能的多个姿态。处理器基于所述第一图像和所述第二图像来识别所述人的姿态，并且基于所述第一信息和所述第二信息来执行与所识别的姿态相对应的功能。

Description

多媒体设备中用户姿态识别的方法及其多媒体设备

技术领域

这里描述的一个或更多个实施方式涉及显示设备。

背景技术

已经针对电视机、计算机、移动终端和其它类型的显示设备开发了各种命令输入技术。然而，特别是为了满足不断增加的期望通过这些设备提供给消费者的各种多媒体业务的需求，这些技术仍需要改进。

发明内容

相应地，本发明致力于提供一种在多媒体设备中用户姿态识别的方法和用于控制该方法的多媒体设备，其基本上能够克服由于相关技术的限制和不足而导致的一个或更多个问题。

本发明的目的是提供一种用于对期望通过多媒体设备(例如，电视、计算机、移动终端和其他类型的显示装置)提供给消费者的多媒体业务进行处理的方案。

本发明的另一目的是提供按照比相关技术更精确和更方便的方式设计的用户接口。

本发明的附加优点、目的和特征将在下面的描述中部分阐述，且对于本领域技术人员来说部分内容可以通过阅读以下内容显见，或者可以通过本发明的实践来了解。通过书面的说明及其权利要求以及附图中具体指出的结构可以实现和获得本发明的目的和其他优点。

为了实现这些目的和其他优点并且根据本发明的原理，如在这里实施的和广泛描述的，一种显示设备，该显示设备包括：第一传感器，其获取人的第一图像；第二传感器，其获取所述人的第二图像；存储设备，其存储第一信息和第二信息，所述第一信息识别映射到由所述第二信息识别的多个功能中的相应功能的多个姿态；以及处理器，其基于所述第一图像和所述第二图像来识别所述人的姿态，并且基于存储在所述存储设备中的所述第一信息和所述第二信息来执行与所识别的姿态相对应的功能，其中：基于所述第一图像来检测所述第二图像，所述多个功能是所述显示设备的不同功能，并且利用在所述第二图像中拍摄的所述人的至少一个身体部位做出所述多个姿态。

在本发明的另一方面，一种控制方法，该控制方法包括以下步骤：存储第一信息和第二信息，所述第一信息识别映射到由所述第二信息识别的多个功能中的相应功能的多个姿态；以及检测人的第一图像；检测所述人的第二图像；基于所述第一图像和所述第二图像来识别所述人的姿态；以及基于所述第一信息和所述第二信息来执行与所识别的姿态相对应的功能，其中基于所述第一图像来检测所述第二图像，所述多个功能是显示设备的不同功能，并且利用在所述第二图像中拍摄的所述人的至少一个身体部位做出所述多个姿态。

应当理解，本发明的以上一般描述和以下详细描述是示例性和说明性的，且旨在提供所要求保护的本发明的进一步解释。

附图说明

图1示出了多媒体系统的一个实施方式。

图2示出了系统中的多媒体设备的一个示例。

图3示出了基于多个异质图像传感器和摄像机拍摄画面操作的多媒体设备的一个实施方式。

图4示出了使用图像传感器检测和识别信息的一个实施方式中包括的步骤。

图5示出了数据库中存储的脸部矢量。

图6示出了与多媒体设备交互的多个异质图像传感器的操作的一个实施方式。

图7示出了多个异质图像传感器和多媒体设备的一个实施方式。

图8示出了多个异质图像传感器和多媒体设备的另一实施方式。

图9示出了多个异质图像传感器。

图10示出了多个异质图像传感器的第一图像传感器的一个示例。

图11示出了第一图像传感器的另一示例。

图12示出了使用如图11中的第一图像传感器计算距离的一种方法中包括的步骤。

图13示出了图1和图2中的多媒体设备的详细视图。

图14示出了包括多媒体设备的广播系统的一个实施方式。

图15示出了用于在多媒体设备中识别姿态的方法的一个实施方式中包括的步骤。

图16示出了描述与前述方法相关的特定命令的执行的一种类型的流程图。

图17示出了在前述方法中组合距离信息和图像信息的一种方式。

图18示出了具有用于识别姿态的菜单的显示画面。

图19示出了包括通知消息的显示画面。

图20示出了识别出的姿态的图像的显示画面。

图21示出了包括一种类型的警告消息的显示画面。

图22示出了具有姿态映射菜单的显示画面。

图23示出了具有用户姿态列表的显示画面。

图24示出了允许使用姿态输入字母(或字符)的显示画面。

图25示出了用于加载针对各个用户的用户姿态数据的画面。

图26示出了针对用户姿态的数据库的一个实施方式。

图27示出了用于改变用户姿态输入模式的显示画面。

图28示出了具有用户专用用户姿态设置菜单的画面。

具体实施方式

图1示出了包括多媒体设备的系统的一个示例。尽管示出了电视机，但包括移动终端、计算机显示器、平板电脑以及实际上任意其它能够显示信息的设备的其它设备都可对应于多媒体设备。

如图1所示，该系统包括内容提供商(CP)10、服务提供商(SP)20、网络提供商(NP)30和家庭网络终端用户(HNED)40。HNED 40例如对应于作为多媒体设备的一个示例的客户100。

内容提供商10生产各种内容并提供这些内容。如图1所示，内容提供商10的示例包括地面广播商、有线电视系统运营商(SO)、多系统运营商(MSO)、卫星广播商和互联网广播商。并且，内容提供商10可提供除广播内容之外的各种应用程序。

服务提供商20能通过对内容提供商10提供的内容进行服务包装来提供内容。例如，图1的服务提供商20能包装第一地面广播、第二地面广播、有线电视MSO、卫星广播、各种互联网广播、应用程序等，并将包装的内容提供给用户。

网络提供商30可提供用于向客户100提供服务的网络。客户100可构建家庭网络终端用户(HNED)来接收服务。

客户100可通过网络提供内容。在这种情况下，客户100可以是与前述情况相反的内容提供商。内容提供商10可从客户100接收内容。在这种情况下，有利于提供双向内容服务或数据服务。

图2示出图1中的多媒体设备的一个示例，其包括网络接口201、TCP/IP管理器202、服务传送管理器203、解复用器(Demux)205、PSI&(PSIP和/或SI)解码器204、音频解码器206、视频解码器207、显示A/V和OSD模块208、服务控制管理器209、服务发现管理器210、元数据管理器212、SI&元数据DB 211、UI管理器214和服务管理器213。此外，多个异质图像传感器260例如通过USB模式的连接模式与多媒体设备200连接。并且，尽管在图2中多个异质图像传感器260设计为单独的模块，但可用将多个异质图像传感器260容纳在多媒体设备200中的方式来设计多个异质图像传感器260。

网络接口201从网络接收分组，并将分组发送到网络。换句话说，网络接口201通过网络从服务提供商接收服务、内容等。

TCP/IP管理器202参与在多媒体设备200中接收分组和从多媒体设备200发送分组，即，从源到目标的分组传输。服务传送管理器203起到控制接收的服务数据的作用。例如，如果服务传送管理器203控制实时流数据，其能使用RTP/RTCP。如果服务传送管理器203利用RTP发送实时流数据，其在服务管理器213的控制下根据RTP解析接收的分组，并将解析的分组发送到解复用器205，或将解析的分组存储在SI&元数据DB 211中。服务传送管理器203利用RTCP将接收的信息反馈回提供服务的服务器。

解复用器205将接收的分组解复用为音频、视频和PSI(节目专用信息)数据，然后将解复用的数据分别发送到音频解码器206、视频解码器207和PSI&(PSIP和/或SI)解码器204。

PSI&(PSIP和/或SI)解码器204接收由解复用器205解复用的PSI部分、PSIP(节目和服务信息协议)部分或SI(服务信息)部分并进行解码。

并且，PSI&(PSIP和/或SI)解码器204对接收的部分进行解码，以创建针对服务信息的数据库，并将针对服务信息的数据库存储在SI&元数据DB 211中。

音频/视频解码器206/207对从解复用器205接收的视频数据和音频数据进行解码。

UI管理器214利用屏幕显示器(OSD)等为用户提供图形用户接口(GUI)，并基于来自用户的按键输入执行接收操作。例如，如果从用户输入用于频道选择的按键输入信号，UI管理器214将按键输入信号发送到服务管理器213。

服务管理器213控制与服务相关的管理器(例如服务传送管理器203、服务发现管理器210、服务控制管理器209和元数据管理器212)。

并且，服务管理器213产生频道映射，并根据从UI管理器214接收的按键输入信号利用频道映射来选择频道。服务发现管理器210提供选择提供服务的服务提供商所需的信息。如果从服务管理器213接收了与频道选择相关的信号，服务发现管理器210利用接收到的信息发现相应的服务。

服务控制管理器209起到选择并控制服务的作用。例如，如果用户选择类似现有广播模式的直播服务，则服务控制管理器209使用IGMP或RTSP。如果用户选择视频点播(VOD)服务，则服务控制管理器209利用RTSP选择并控制服务。元数据管理器212管理与服务相关的元数据并将元数据存储在SI&元数据DB 211中。

SI&元数据DB 211存储由PSI&(PSIP和/或SI)解码器204解码的服务信息、由元数据管理器212管理的元数据、以及选择由服务发现管理器210提供的服务提供商所需的信息。并且，SI&元数据DB 211可存储针对系统的设置数据。

IG 250是聚集接入基于IMS的IPTV服务所需的功能的网关。

图2所示的多个异质图像传感器260设计为拍摄位于多媒体设备200周边的人或对象的单个图像或多个图像。更具体地，如后面将详细描述的，多个异质图像传感器260设计为在选择的时间或仅在特定条件下连续、周期性地操作单个图像或多个图像。

图3示出包括多个异质图像传感器的多媒体设备的一个实施方式。与深度数据处理相关的第一图像传感器包括由于有限分辨率(例如，最大VGA级)和识别距离(例如，3.5m)而不适合远距离脸部识别的场。与彩色数据处理相关的第二图像传感器具有识别速度低且对光照条件不健壮的缺点。为了解决图像传感器的缺点，根据一个实施方式的多媒体设备设计为与混合型图像传感器模块(其是第一图像传感器和第二图像传感器的混合型)交互。

IR摄像机或深度摄像机用作第一图像传感器。更具体地，已讨论了飞行时间(TOF)型IR摄像机或深度摄像机以及结构光型IR摄像机或深度摄像机。TOF型IR摄像机或深度摄像机利用红外线发射导致的时间差异来计算距离信息。结构光型IR摄像机或深度摄像机通过向特定图案发射红外线并分析修改的图案来计算距离信息。第一图像传感器在深度数据识别和处理速度方面较佳，即使在黑暗的地方，也容易感测对象、人等。然而，第一图像传感器具有在远距离处分辨率低的缺陷。

彩色摄像机或RGB摄像机用作第二图像传感器。更具体地，已经讨论了立体摄像机型彩色摄像机或RGB摄像机以及单摄像机型彩色摄像机或RGB摄像机。立体摄像机型彩色摄像机或RGB摄像机基于通过两个摄像机拍摄的图像时间比较信息来检测并跟踪手或脸部。单摄像机型彩色摄像机或RGB摄像机基于通过一个摄像机拍摄的形状和颜色信息来检测并跟踪手或脸部。第二图像传感器的优点是比第一图像传感器具有更加改进的分辨率，而第二图像传感器的缺点是对外围照明敏感，并且很难在黑暗的地方识别相应的对象。具体地，第二图像传感器的优点是很难识别精确深度。

为了解决前述问题，如图3所示，多媒体设备的一个实施方式设计为既具有第一图像传感器又具有第二图像传感器。可用将第一图像传感器和第二图像传感器嵌入到多媒体设备中的方式设计图像传感器，或可将其设计为单独的硬件模块。首先，如图3的(b)所示，第一图像传感器拍摄包括位于多媒体设备周边的用户的图像。按适当顺序在图3的(1)、(2)、(3)、(4)中示出详细的拍摄图像。

如果完成了第一图像传感器的图像拍摄和数据分析，如图3的(a)所示，第二图像传感器拍摄特定用户的脸部图像。按适当顺序在图3的(5)、(6)、(7)中示出详细的拍摄图像。

根据一个实施方式的多个异质图像传感器的第一图像传感器拍摄位于多媒体设备周边的第一图像，并从拍摄的第一图像中提取深度数据。如图3的(1)所示，能用根据距离以不同的对比度显示各对象的场的方式设计第一图像传感器。

此外，第一图像传感器能利用提取的深度数据识别至少一个用户的脸部。换句话说，如图3的(2)所示，第一图像传感器利用数据库等提取用户的身体信息(例如，脸部、手、脚、关节等)，并且如图3的(3)所示，获取特定用户脸部的位置坐标和距离信息。更具体地，第一图像传感器设计为计算值x、y、z，这些值是关于用户脸部的位置信息，其中x表示拍摄的第一图像中脸部在横轴上的位置，y表示拍摄的第一图像中脸部在纵轴上的位置，z表示用户脸部和第一图像传感器之间的距离。

并且，在多个异质图像传感器中，根据一个实施方式，用于提取彩色图像的第二图像传感器拍摄识别的用户脸部的第二图像，并在图3的(5)中示出。

如果图3所示的第一图像传感器和第二图像传感器设计为相互毗邻，可忽视由于物理位置差异导致的误差。然而，根据另一实施方式，第二图像传感器设计为利用关于物理位置差异的信息来补偿由第一图像传感器获取的坐标信息或距离信息，并利用补偿的坐标信息或距离信息拍摄用户。

并且，如果第一图像传感器和第二图像传感器设计为相对于地面水平排列，则能基于水平框架设置关于物理位置差异的信息。如图3的(7)所示，第二图像传感器从拍摄的第二图像中提取特征信息。特征信息是与用于识别使用多媒体设备的多个用户的特定部分(例如，嘴、鼻子、眼睛等)相对应的数据。

此外，第二图像传感器可基于通过第一图像传感器的图像拍摄得到的坐标值(值x、y、z)放大对应于用户脸部的区域。这意味着从图3的(5)切换到图3的(6)的过程。

如果执行第一图像传感器和第二图像传感器的图像拍摄和分析完成，则根据本发明一个实施方式的多媒体设备访问存储与提取的特征信息相对应的数据的存储器，并提取存储在存储器中的、用于识别特定用户的信息。

如果存储器中存在用于识别特定用户的信息，多媒体设备提供预先为特定用户设置的服务。

另一方面，如果存储器中不存在用于识别特定用户的信息，则多媒体设备设计为显示用于将识别的用户信息存储在存储器中的引导消息。

如上所述，根据一个实施方式，第一图像传感器设计为检测关于用户脸部的用户位置信息或坐标信息，而第二图像传感器设计为利用第一图像传感器获取的数据识别脸部。

此外，根据另一实施方式，用仅在特定条件下操作的方式设计第二图像传感器。例如，如果第一图像传感器的操作获取的用户和第一图像传感器之间的距离信息小于第一参考值，或者如果第一图像传感器的操作获取的关于用户脸部的识别率大于第二参考值，则仅由第一图像传感器检测并识别位于多媒体设备周边的用户的脸部。

另一方面，如果第一图像传感器的操作获取的距离信息超过第一参考值，或者如果第一图像传感器的操作获取的关于用户脸部的识别率小于第二参考值，则附加地使用第二图像传感器来识别用户脸部。

根据另一实施方式，第二图像传感器设计为利用在识别用户脸部的过程中由第一图像传感器获取的距离信息来执行放大，并且仅利用由第一图像传感器获取的脸部坐标信息来拍摄脸部。

相应地，如上使用不同类型的异质图像传感器，优点是使得比现有技术更加改进了远距离脸部识别和数据处理速度。

图4示出在根据一个实施方式的多个异质图像传感器和多媒体设备中使用检测数据和识别数据的过程。

通过不同于脸部识别的处理来执行脸部检测。脸部检测包括在一个图像内检测脸部区域的处理，而脸部识别是识别被检测脸部是否对应于特定用户的处理。具体地，将参照图4描述根据一个实施方式的利用第一图像传感器执行脸部检测的过程和利用第二图像传感器执行脸部识别的过程。

在图4中，根据一个实施方式的多媒体设备包括检测模块301、识别模块302、数据库(DB)303、第一图像传感器304和第二图像传感器305。如果需要，多媒体设备使用检测数据306和识别数据307。例如可根据基于知识的检测技术、基于特征的检测技术、模板匹配技术和基于外观的检测技术来生成检测数据306。并且，识别数据307例如包括用于识别特定用户的数据，例如眼睛、鼻子、嘴、颚、区域、距离、形状和角度。

此外，检测模块301利用从第一图像传感器304接收的图像数据来确定用户脸部的存在。并且，在估计用户脸部所在区域的过程中，使用与前述基于知识的检测技术、基于特征的检测技术、模板匹配技术和基于外观的检测技术相关的数据。

识别模块302利用从第二图像传感器305接收的图像数据来识别所识别的用户是否是特定用户。此时，识别模块302基于前述识别数据307对接收的图像数据与DB303中存储的脸部矢量信息进行比较。将参照图5更详细地对此进行描述。

图5示出了数据库中存储的脸部矢量列表的一个示例。这些脸部矢量是关于使用多媒体设备的用户的。脸部矢量例如是显现在用户脸部上的特征信息的数据组，并且用于识别各个特定用户。

图6示出了与根据这里描述的一个或更多个实施方式的多媒体设备交互的多个异质图像传感器的操作。在该实施方式中，多个异质图像传感器通过根据图像传感器的硬件场360和处理从图像传感器接收的数据的多媒体设备的软件场350输入的图像来执行操作。尽管在图6中硬件场360例示为单独的模块，但其可嵌入在处理软件场350的多媒体设备中。

硬件场360包括数据收集场340和固件场330。数据收集场340从图像传感器接收由多媒体设备识别的原始数据，并且包括IR投光器、深度图像传感器、彩色图像传感器(RGB图像传感器)、麦克风和摄像机芯片。

固件场330用于连接硬件场与软件场。并且，固件场330可用作特定应用所需的主机应用程序，并执行下采样和镜映(mirroring)。

相应地，数据收集场340和固件场330互相交互。数据收集场340和固件场330能通过它们的交互来控制硬件场360。并且，固件场能由摄像机芯片驱动。

并且，软件场350包括应用程序编程接口(API)场320和中间件场310。API场320能由多媒体设备的控制器实现。并且，如果摄像机模块配置为与多媒体设备分离的外部设备，则API场能由个人计算机、游戏机、机顶盒等实现。并且，API场320可以是允许多媒体设备驱动硬件场的传感器的简单的API。

中间件场310是识别算法场，并且可以包括深度处理中间件。并且，即使用户通过他(她)的手或他(她)的整个身体输入姿态，中间件场能提供应用程序以及明确的用户控制API。并且，中间件场能包括执行用于搜索用户手的位置的操作、用于跟踪用户位置的操作、用于提取用户骨架特征的操作、以及用于从输入的图像分别识别用户和背景的操作的算法。可以使用从硬件场获取的深度信息、颜色信息、IR信息和音频信息来操作该算法。

图7示出了根据一个实施方式的多个异质图像传感器和多媒体设备。尽管在图7中示出多个异质图像传感器和多媒体设备是单独的，但可用将多个传感器/摄像机嵌入在多媒体设备中的方式进行设计。

根据一个实施方式的多媒体设备400设计为包括诸如中央处理模块(CPU)401和图形处理模块404之类的模块，其中CPU 401包括应用程序402和脸部识别处理模块403。

根据一个实施方式的多个异质图像传感器420设计为包括诸如专用集成电路(ASIC)421、发射器422、第一图像传感器423和第二图像传感器424之类的模块。多媒体设备400通过有线或无线接口410与多个异质图像传感器420连接。例如，可使用通用串行总线(USB)接口作为有线或无线接口410。应该理解，图7的模块仅是示例性的。

发射器422向位于多媒体设备400周边的至少一个用户发射光。第一图像传感器423利用发射的光拍摄第一图像，从拍摄的第一图像提取深度数据，并利用提取的深度数据来检测该至少一个用户的脸部。并且，第二图像传感器424拍摄关于被检测用户脸部的第二图像，并从拍摄的第二图像提取特征信息。

通过接口410将提取的特征信息发送到多媒体设备的脸部识别处理模块403。尽管图7中未示出，但脸部识别处理模块403设计为包括接收器、存储器、提取器和控制器。

脸部识别处理模块403的接收器接收通过多个异质图像传感器420和接口410发送的特征信息。此外，脸部识别处理模块403的存储器存储关于至少一个用户的特征信息和对应于该特征信息的ID。

相应地，脸部识别处理模块403的提取器从存储器提取与接收的特征信息相对应的ID，并且脸部识别处理模块403的控制器设计为自动执行与ID相对应的、之前设置的功能。

如果脸部识别处理模块设计为如图7所示由多媒体设备的CPU执行，优点是降低了摄像机的设计成本，并且在诸如各种脸部识别和功能添加的可扩展性方面也是有利的。

图8示出了根据另一实施方式的多个异质图像传感器和多媒体设备。尽管在图8中以分立方式示出了图像传感器和多媒体设备，但在其它实施方式中可将多个摄像机嵌入在多媒体设备中。

根据一个实施方式的多媒体设备500设计为包括诸如中央处理模块(CPU)501和图形处理模块503之类的模块，其中CPU 501包括应用程序502。同时，根据本发明一个实施方式的多个异质图像传感器520设计为包括诸如脸部识别处理模块521、专用集成电路(ASIC)522、发射器523、第一图像传感器524和第二图像传感器525之类的模块。多媒体设备500通过有线或无线接口510与多个异质图像传感器520连接。例如，可使用通用串行总线(USB)接口作为有线或无线接口510。应该理解，图8的模块仅是示例性的，本发明的范围应主要由权利要求限定。

图8与图7的不同在于，脸部识别模块521内置于多个异质图像传感器520中。如图8所示，如果脸部识别处理模块设计为由多个异质图像传感器520执行，则能通过独立平台设计各种类型的摄像机。

图9示出了根据另一实施方式的多个异质图像传感器。多个异质图像传感器包括第一图像传感器组610、第二图像传感器620、控制器630、存储器640和接口650，并设计为在控制器630的控制下从麦克风670和外部音源660接收音频数据。

存储器640例如可设计为闪存。接口650设计为USB接口，并与外部多媒体设备连接。同时，第一图像传感器组610包括发射器680和第一图像传感器690。发射器例如能设计为红外(IR)发射器。

此外，发射器680的投光器682在控制器630的控制下向镜头681投射光，以向位于多媒体设备周边的至少一个用户发射光。

并且，在控制器630的控制下，第一图像传感器690利用通过镜头691接收的光拍摄第一图像，从拍摄的第一图像提取深度数据，并将提取的数据发送到控制器630。

控制器630利用发送的深度数据检测至少一个用户的脸部，并控制第二图像传感器620。

第二图像传感器620在控制器630的控制下拍摄关于通过镜头621应用的被检测用户脸部的第二图像。此外，第二图像传感器620将从拍摄的第二图像提取的特征信息发送到控制器630。

控制器630设计为利用接口650将提取的特征信息发送到多媒体设备。相应地，接收到特征信息的多媒体设备能迅速识别存储在DB中的用户中的哪个用户是对应于该拍摄到的图像的用户。

图10示出了根据一个实施方式的多个异质图像传感器的第一图像传感器的一个示例。如图所示，IR源710可对应于图9的发射器680，并且深度图像处理器720可对应于图9的第一图像传感器690。相应地，图9和图10的描述可互补地应用于此实施方式。并且，可按照前述结构光型设计图10所示的摄像机。

如图10所示，IR源710设计为连续将编码图案图像投射到目标用户730。深度图像处理器720利用由目标用户730变形的初始图案图像的信息来估计用户的位置。

图11示出了多个异质图像传感器的第一图像传感器的另一示例。如图所示，LED810可对应于图9的发射器680，并且图11所示的深度图像处理器820可对应于图9的第一图像传感器690。相应地，图9和图11的描述可互补地应用于此实施方式。并且，可按照前述TOF型设计图11所示的摄像机。

如图11所示，LED 810发射的光被发送到目标用户830。由目标用户830反射的光被发送到深度图像处理器820。与图10不同，图11中所示的模块利用关于时间差异的信息来计算目标用户830的位置。将参照图12更详细地对此进行描述。

图12示出了使用图11中所示的第一图像传感器来计算距离的方法的一个实施方式。如图12的左图所示，能通过发射光和反射光之间的时间差异得到由值t表示的到达时间。

并且，如图12右侧的方程所示，通过将光速与值t相乘计算LED 810和目标用户830之间的距离以及目标用户830和深度图像处理器820之间的距离。相应地，估计LED 810或深度图像处理器820与目标用户830之间的距离为1/d。

图13示出了如图1和图2所示的多媒体设备的一个示例性详细视图。图13所示的多媒体设备100可连接到广播网络和互联网网络。例如，多媒体设备100包括连接TV、智能TV、HBBTV(混合宽带TV)、机顶盒、DVD播放器、蓝光播放器、游戏设备、计算机等。

参照图13，多媒体设备100可包括广播接收模块105、外部设备接口模块135、存储模块140、用户接口模块150、控制器170、显示模块180、音频输出模块185和图像感测模块190。广播接收模块105可包括调谐器110、解调器120和网络接口模块130。

广播接收模块105可设计为配备有调谐器110和解调器120，并且不包括网络接口模块130。可选地，广播接收模块105还可设计为配备有网络接口模块130，并且不包括调谐器110和解调器120。

在通过天线接收的多个RF(射频)广播信号中，调谐器110选择关于由用户(或观众)选择的频道的RF广播信号，或选择关于所有预存储频道的RF广播信号。然后，调谐器110将选择的RF广播信号转换为中间频率(IF)信号或基带视频或音频信号。

调谐器110还可根据ATSC(先进电视系统委员会)方法或接收单载波RF广播信号，或根据DVB(数字视频广播)方法接收多载波RF广播信号。

在执行了解调和信道解码处理之后，解调器120可输出流信号(TS)。在这点上，流信号可对应于其中复用了视频信号、音频信号或数据信号的复用信号。例如，流信号可对应于包括复用了杜比(Dolby)AC-3标准音频信号的MPEG-2标准视频信号的MPEG-2 TS(传输流)。

从解调器120输出的流信号可输入到控制器170。控制器170对输入的流信号进行解复用和视频/音频信号处理过程。此后，控制器170将图像输出到显示模块180，并将声音输出到音频输出模块185。

外部设备接口模块135可连接外部设备和多媒体设备100。并且，外部设备接口模块135可通过有线/无线连接来连接到外部设备，例如DVD(数字多功能盘)、蓝光、游戏设备、图像传感器、摄像机、计算机(笔记本)等。外部设备接口模块135将通过连接到外部设备接口模块135的外部设备从外部源输入的图像、声音或数据信号传送给多媒体设备100的控制器170。

并且，经过控制器170处理的图像、声音或数据信号可输出到连接的外部设备。为此，外部设备接口模块135可包括A/V输入/输出模块(未示出)或无线(无线电)通信模块(未示出)。

A/V输入/输出模块可包括USB端子、CVBS(复合视频消隐和同步)端子、分量端子、S-视频端子(模拟)、DVI(数字视频接口)端子、HDMI(高清晰度多媒体接口)端子、RGB端子、D-SUB端子等，以便能够将外部设备的音频和视频信号输入到多媒体设备100。

无线(或无线电)通信模块能够与其它电子设备进行近距离无线(或无线电)通信。基于诸如蓝牙、RFID(射频识别)、IrDA(红外数据协会)、UWB(超宽带)、ZigBee、DLNA(数字生活网络联盟)等的电信标准，多媒体设备100可经由网络连接到其它电子设备。

此外，外部设备接口模块135可经由上述端子中的至少一个接入不同机顶盒，从而能够与各机顶盒进行输入/输出操作。

网络接口模块130提供用于将多媒体设备100连接到包括互联网网络的有线/无线网络的接口。为了提供到有线网络的连接(或接入)，网络接口模块130例如可设置有以太网端子。并且，为了提供到无线网络的连接(或接入)，网络接口模块可设置有各种电信标准，例如，WLAN(无线LAN)(Wi-Fi)、Wibro(无线宽带)、Wimax(全球微波接入互操作性)、HSDPA(高速下行分组接入)等。

网络接口模块130可通过连接的网络、或通过链接到连接的网络的另一网络向另一用户或另一电子设备发送数据或从另一用户或另一电子设备接收数据。

存储模块140可存储用于处理和控制控制器170内的各信号的程序，并且还可存储经信号处理的视频、音频或数据信号。

另外，存储模块140还可执行暂时存储从外部设备接口模块135或网络接口模块130输入的视频、音频或数据信号的功能。并且，存储模块140可通过频道存储功能存储与特定广播频道相关联的信息。

并且，存储模块140可存储由多媒体设备执行的姿态识别使用的控制信息，并且还可存储命令语言数据库。

当通过多媒体设备的图像感测模块(未示出)输入预定图像时，控制信息对应于组合从图像获取的多个信息所需的信息。更具体地，当图像感测模块(未示出)包括各个均能获取不同类型信息的多个图像传感器时，并且当组合各图像传感器获取的信息时，控制信息可包括与按照姿态识别对象(手、脚、头)通过各图像传感器获取的信息的重要性相关的信息，该姿态识别对象为用户输入姿态所用到的对象。

并且，命令语言数据库存储关于与用户姿态相对应的特定命令的映射数据。更具体地，命令语言数据库存储各用户姿态的特征信息，并且对应于特征信息，还存储可由多媒体设备运行的操作的列表，其中这些操作对应于各组特征信息。

因此，在通过图像感测模块(未示出)输入用户姿态的情况下，并且在从输入的图像提取特征信息的情况下，多媒体设备可从存储在存储模块140中的数据库搜索对应于特征信息的特定命令，并且可运行搜索的特定命令。

例如，存储模块140可包括闪存型、硬盘型、微型多媒体卡型、卡型存储器(如SD或XD存储器等)、RAM、ROM(EEPROM等)型的至少一个中的存储介质。

尽管图13示出了其中存储模块140与控制器170分立设置的一种示例，但是这些特征可与其它实施方式组合。存储模块140还可包括在控制器170中。

用户接口模块150或者将由用户输入的信号传送(或发送)给控制器170，或者将从控制器170输出的信号传送给用户。

例如，根据诸如RF(射频)通信、红外(IR)通信等的各种电信方法，用户接口模块150从遥控设备200接收诸如加电/断电、频道选择、画面设置等的控制信号，并处理接收的信号。可选地，用户接口模块150可处理从控制器170接收的控制信号，使得能将相应的信号发送到遥控设备200。

并且，例如，用户接口模块150可将从诸如电源键、频道键、音量键、设置键等的本机键(未示出)输入的控制信号传送给控制器170。

并且，例如，用户接口模块150可将从感测用户姿态的感测模块(未示出)输入的控制信号传送给控制器170，或者用户接口模块150可将从控制器170输出的信号发送给感测模块(未示出)。这里，感测模块(未示出)可包括触摸传感器、语音传感器、位置传感器、运动传感器等。

控制器170通过调谐器110或解调器120或外部设备接口模块135解复用输入流或处理解复用的信号，从而生成并输出用于视频或音频输出的信号。

由控制器170图像处理(或视频处理)的视频信号输入到显示模块180，使得能将处理的信号显示为关于对应的视频信号的图像。并且，由控制器170图像处理(或视频处理)的视频信号可通过外部设备接口模块135输入到外部输出设备。

由控制器170处理的音频信号可以是输出到音频输出模块185的音频。并且，由控制器170处理的音频信号可通过外部设备接口模块135输入到外部输出设备。

显示模块180分别将由控制器170处理的视频(或图像)信号、数据信号和OSD信号、或者通过外部设备接口模块135接收的视频(或图像)信号、数据信号等转换为R、G、B信号，从而生成驱动信号。

为了检测用户姿态，如上所述，还可在多媒体设备100中设置配置有触摸传感器、声音传感器、位置传感器和运动传感器中的至少一个的感测模块190。通过感测模块(未示出)检测的信号可通过用户接口模块150传送到控制器170。

同时，还可包括记录(或检测)用户的图像感测模块190。由图像感测模块190记录(或检测)的图像信息可输入到控制器170。

图像感测模块190可配置为包括多个图像传感器，各图像传感器能够获取不同类型的信息。并且，将参照图9对此进行详细描述。

为了检测(或感测)用户姿态，控制器170可单独或组合使用通过图像感测模块190记录的图像或从感测模块(未示出)检测的信号中的每个。

为此，控制器170可包括图像处理模块190，并且图像处理模块可对从通过图像感测模块190的至少一个或更多个图像传感器记录(或检测)的图像获取的信息进行组合。

并且，当输入通过图像感测模块190记录的图像时，控制器170从存储模块140加载用于对所检测到的图像进行组合的控制信息，并且，基于加载的控制信息，控制图像处理模块的组合。此外，从存储模块140搜索与组合的信息相对应的特定命令，可执行控制操作，使得能运行搜索的特定命令。

遥控设备200将用户输入发送到用户接口模块150。为此，遥控设备200可使用蓝牙、RF(射频)通信、IR(红外)通信、UWB(超宽带)、ZigBee方法。

并且，遥控设备200接收用户接口模块150输出的音频、视频或数据信号，从而能够从遥控设备200显示接收的信号或输出声音或振荡(或振动)。

作为固定类型，上述多媒体设备100可对应于能接收ATSC型(8-VSB型)数字广播节目、DVB-T型(COFDM型)数字广播节目、ISDB-T型(BST-OFDM型)数字广播节目等中的至少一个的数字广播接收器。

同时，图13所示的多媒体设备100的框图对应于用于示出根据本发明一个实施方式的示例的框图。根据实际实现的多媒体设备100的说明，框图的各元件可集成、添加或省略。更具体地，当需要时，2个或更多个元件可组合为单个元件，或者一个元件可分为2个或更多个元件。并且，在各框中执行的功能仅仅是示例性功能，并且不意图限制。

图14示出了根据一个实施方式的用户和多媒体设备。为了获得用户1903的距离信息，多媒体设备1900通过多媒体设备的图像感测模块1901、1902来获取用户图像。

并且，为了精确识别用户的距离信息，图像感测模块可配置两个图像传感器模块1901、1902，其中每个图像传感器模块获取不同类型的信息。更具体地，根据一个实施方式，图像感测模块可包括深度图像传感器和RGB图像传感器。

并且，如图所示，多媒体设备1900的图像感测模块1901、1902位于多媒体设备的较低位置，可用于容易地检测用户的身体中心，并且相对少地受到光照条件(或环境)的影响，图像感测模块可容易地执行姿态识别。

根据上述配置，多媒体设备获取关于用户的特征信息和距离信息的信息，从而能够根据获取的信息提供适于用户的特征和位置的多媒体设备的控制环境(或控制条件)。特征信息可包括用于识别用户或用户姿态的脸部信息、骨架信息和颜色信息。

图15示出了在多媒体设备中识别姿态的方法的一个实施方式。在多媒体设备试图识别用户姿态的情况下，操作第一图像传感器(S2001)，并且分析通过第一图像传感器输入的图像，使得能获取用户的距离信息(S2002)。

根据此实施方式，第一图像传感器可对应于深度图像传感器，其能通过来自图像传感器的图像获取对象的距离信息。并且，还可通过深度图像传感器与用户的距离信息一起获取用户的骨架信息。

根据此实施方式，首先通过第一图像传感器获取用户的距离信息和至少一个身体部位的坐标信息。然后，由于可基于获取的信息通过第二图像传感器获取颜色信息，可增强第二图像传感器操作中的精度和速度。

随后，基于通过第一图像传感器获取的距离信息，操作第二图像传感器(S2003)，并且分析通过第二图像传感器输入的图像，使得能获取图像信息(S2004)。

第二图像传感器可对应于RGB图像传感器，其能通过图像获取对象的颜色信息。RGB图像传感器可获取高分辨率图像，从而能够详细识别用于识别用户姿态的图像。反过来，在RGB图像传感器识别通过RGB图像传感器识别的图像的所有图像的情况下，可能出现降低处理速率的问题。

因此，基于通过第一图像传感器获取的距离信息，可放大(或扩大)用户身体的一部分，使得能获取相应身体部位的高分辨率图像。

并且，当第二图像传感器接收通过第一图像传感器获取的距离信息时，第二图像传感器利用通过第一图像传感器获取的距离信息来识别对象。并且，在对象移动的情况下，可跟踪对象的运动。

然而，当用户的运动超出第二图像传感器的识别范围时，并且当第二图像传感器的跟踪结束时，通过第一图像传感器再次获取(或重新获取)距离信息和坐标信息。并且，第二图像传感器可利用获取的距离信息和坐标信息继续跟踪对象。

此后，组合从第一图像传感器和第二图像传感器获取的距离信息和颜色信息(S2005)。

根据此实施方式，基于存储在多媒体设备中的控制信息，可确定距离信息和颜色信息的重要性，并且可根据确定的重要性来组合距离信息和颜色信息。并且，可基于用户和多媒体设备之间的距离或基于输入用户姿态的身体部位的大小来决定控制信息。

更具体地，控制信息可包括由多媒体设备的第一图像传感器检测(或记录)的图像、以及用于决定由第二图像传感器检测(或记录)的图像的重要性的数据。

例如，由于第一图像传感器可对应于深度图像传感器，所以可获取用户位置或用户身体的骨架信息。然而，第一图像传感器不能获取颜色信息或高分辨率信息。并且，由于第二图像传感器可对应于RGB图像传感器，所以可获取颜色信息或高分辨率信息。然而，第二图像传感器不能获取运动中对象的图像信息。并且，由于第二图像传感器具有慢的处理速度，所以可组合利用各图像传感器拍摄的图像，从而能够执行精确的姿态识别。

因此，通过组合通过第一图像传感器获取的距离信息和通过第二图像传感器获取的颜色信息，能容易地获取特征信息。

并且，根据多媒体设备和用户之间的距离，对于各组合的重要性是变化的。因此，可执行更精确的姿态识别。例如，当距离变短(或近)时，如果可增加通过RGB图像传感器获取高分辨率图像的比率，并且，当距离变长(或远)时，可使用深度图像传感器，使得能从背景注意到用户距离信息。

并且，还可存储关于对象大小而非对象距离的控制信息。更具体地，随着对象变小，由于可能出现通过深度图像传感器识别姿态存在困难的问题，当通过第一图像传感器搜索对象的大小信息时，随着搜索的大小信息变小，当组合图像时增加RGB图像传感器的重要性的控制信息可存储在数据库中。

并且，根据一个实施方式，控制信息可包括通过第一图像传感器和第二图像传感器检测的图像的重要性，并且控制信息可包括图像的过滤图像以及放大信息。

随后，基于组合信息，从多媒体设备运行基于组合信息的特定命令(S2006)。更具体地，利用通过多媒体设备的第一图像传感器和/或第二图像传感器向多媒体设备输入预定姿态，用户能够执行期望操作。

图16示出了详细描述图15的执行特定命令步骤的流程图。当在步骤(S2005)中组合从第一图像传感器和第二图像传感器获取的信息时，多媒体设备从组合信息提取特征信息，使得多媒体设备能够执行预定操作(S2101)。

更具体地，通过估计通过第一图像传感器和第二图像传感器获取的图像的质量，多媒体设备决定是否使用获取的图像。然后，在通过图像处理模块调节获取的图像之后，多媒体设备执行提取特征信息的处理。

作为用于区分通过第一图像传感器和第二图像传感器输入的姿态与另一姿态的信息，提取的特征信息可包括能通过第一图像传感器获取的关于各身体部位之间的距离的信息和关于倾角的信息，提取的特征信息还可包括能通过第二图像传感器获取的关于颜色的信息和关于色散的信息。

随后，多媒体设备基于提取的特征信息搜索多媒体设备的数据库。数据库存储预存储在多媒体设备中的姿态的映射数据、以及特定命令的映射数据，并且数据库还存储用户随机设置的姿态的映射数据、以及特定命令的映射数据。

因此，根据提取的特征信息，多媒体设备从数据库中搜索与特征信息相对应的特定命令。

并且，基于搜索结果，如果对应的特定命令不存在，多媒体设备不执行任何操作或可输出出错消息。并且，如果对应的特定命令存在，则多媒体设备可执行对应的特定命令，或者可请求有关是否将要执行特定命令的验证命令(S2103)。

在经历了执行特定命令的上述处理之后，用户可使得多媒体设备能够经由姿态输入来执行期望操作。

图17示出了描述图15的对距离信息和图像信息进行组合的步骤的流程图。根据此实施方式，多媒体设备的第一图像传感器可包括深度图像传感器，多媒体设备的第二图像传感器可包括RGB图像传感器。

这里，尽管深度图像传感器便于获取对象的距离信息，但由于深度图像传感器不能获取高分辨率信息，所以在详细分析检测的图像方面存在限制。此外，尽管RGB图像传感器能获取高分辨率图像，但是处理速度太低。因此，通过组合从第一图像传感器和第二图像传感器获取的信息，可增强姿态识别的精度。

并且，当考虑第一图像传感器和第二图像传感器的特性时，组合信息的重要性可根据用户和多媒体设备之间的距离、或执行姿态输入的对象的大小而变化。因此，当预定姿态输入到多媒体设备时，可从输入的图像获取关于对象的信息和距离信息(S2201)。

并且，当获取对象信息和距离信息时，搜索并决定与获取的信息相对应的控制信息(S2202)。

基于获取的信息，多媒体设备可搜索存储在多媒体设备中的数据库，以便决定控制信息。

已经在图15的步骤(S2005)中描述了控制信息。根据一个实施方式，控制信息可包括通过第一图像传感器和第二图像传感器检测的图像的重要性，并且控制信息还可包括图像的过滤信息和放大信息。

因此，根据上述控制信息，并且，根据用户和多媒体设备之间的距离，或根据对象的距离，多媒体设备可不同地组合从第一图像传感器和第二图像传感器拍摄的图像，使得能更容易地实现姿态识别。

随后，多媒体设备根据决定的控制信息来组合通过第一图像传感器获取的信息和通过第二图像传感器获取的信息(S2203)。

更具体地，当从第一图像传感器和第二图像传感器中的每个获取信息时，可根据控制信息对所获取的信息进行组合，以便提取输入的用户姿态的特征信息。

相应地，由于可通过提取的特征信息执行对应于特征信息的特定命令，因此用户可以能够更容易地执行姿态识别处理。

图18示出了包括用于识别姿态的菜单的显示画面。根据此实施方式，多媒体设备可显示深度图像传感器的、用于识别用户的骨架信息的图像(2401)，根据本发明的此实施方式，还可显示输入通过RGB图像传感器放大的姿态的用户的身体部位的扩大(或放大)图像(2405)。

参照图18，多媒体设备可通过从深度图像传感器拍摄的图像(2401)获取关于用户各身体部位的坐标信息。更具体地，例如，可获取用户许多身体部位中仅关于用户的右肘(2402)的坐标信息。

并且，相应地，在用户试图仅利用用户身体的部分(2403)输入预定姿态的情况下，可获取该相应身体部位的坐标信息，并且通过RGB图像传感器放大相应身体部位所在的区域，使得能识别更详细和放大的图像(2405)。

并且，当用户通过移动他或她的身体执行特定运动时，检测到骨架信息的位置移位，从而使得能够识别用户的运动。

并且，利用放大菜单(2404)中包括的放大图像(2405)，用户可验证是否安全地输入了当前输入的姿态。因此，可防止关于多媒体设备的姿态识别的失常。

图19示出了包括通知消息的显示画面(2500)的一个实施方式。根据此实施方式，多媒体设备显示通知消息(2501)，以便通知：该多媒体设备当前识别出用户的姿态。

根据一个实施方式，多媒体设备通过第一图像传感器获取用户坐标信息。并且，相应地，可利用通知消息(2501)减少获取用户坐标信息时可能出现的错误。

通知消息(2501)可包括通知多媒体设备当前正在获取用户坐标信息的消息，并且还可包括取消菜单项(2502)。

当由多媒体设备执行的用户坐标信息获取完成时，通知消息(2501)自动消失，并且用户可选择取消菜单项(2502)以取消位置识别处理。

并且，为了防止多媒体设备中当前使用的内容或服务的显示画面中断，可在未显示内容或服务的预定区域中显示通知消息(2501)，或者可用半透明颜色显示通知消息(2501)。

相应地，当用户试图对多媒体设备执行姿态输入时，用户可通过维持一致用户位置容易地执行姿态输入处理。

图20示出了根据一个实施方式的包括识别出的姿态的图像的显示画面(2600)。根据此实施方式，多媒体设备显示通知消息(2601)，以便通知搜索到与输入到多媒体设备的用户姿态相对应的特定命令。

并且，通知消息(2601)可显示通过多媒体设备输入的图像(2602)和用于取消识别处理的取消项(2603)，该通过多媒体设备输入的图像(2602)为了方便识别姿态。

通知消息(2601)可包括通知搜索到与输入到多媒体设备的用户姿态相对应的特定命令的消息。

并且，图像(2602)可对应于静态图像或运动图像。并且，可仅放大并显示通过多媒体设备的图像感测模块输入的图像中的、用于识别姿态的图像的部分。

当从用户接收到取消项(2603)的选择信号时，多媒体设备取消特定操作的搜索处理，显示画面返回显示通知消息(2601)之前的画面。

并且，为了防止多媒体设备中当前使用的内容或服务的显示画面中断，可在未显示内容或服务的预定区域中显示通知消息(2601)，或者可用半透明颜色显示通知消息(2601)。

相应地，当用户可以能够意识到当前搜索到与输入到多媒体设备的用户姿态相对应的特定命令时，用户可以验证识别的姿态图像，从而能够执行更精确的操作。

图21示出了包括警告消息的显示画面。根据一个实施方式，当从用户输入预定姿态时，并且当执行对应于姿态的特定操作时，显示关于是否将要执行特定操作的验证消息(2701)。

更具体地，在特定操作对应于可导致多媒体设备中使用的内容或服务数据丢失的操作的情况下，可通过显示验证消息(2701)防止数据丢失。

例如，在对应于输入姿态的特定命令对应于关掉多媒体设备电源的情况下，并且当关掉多媒体设备的电源时，也终止多媒体设备当前执行的所有操作。因此，通过显示菜单(2701)，多媒体设备可向用户请求关于是否关闭多媒体设备电源的验证命令。

并且，验证消息(2701)可包括关于特定操作的信息、关于用户输入的姿态的信息(2702)、以及用于取消姿态输入处理的取消菜单项(2703)。

更具体地，在用户验证输入的姿态(2702)和特定操作的情况下，并且在用户试图取消执行特定操作的情况下，用户可选择取消项(2703)，以便取消特定操作。

并且，为了防止多媒体设备中当前使用的内容或服务的显示画面中断，可在未显示内容或服务的预定区域中显示验证消息(2701)，或者可用半透明颜色显示验证消息(2701)。

相应地，当错误地识别输入到多媒体设备的姿态时，或者当错误地输入姿态时，可防止执行误操作。

图22示出了包括姿态映射菜单的显示画面(2800)的一个实施方式。根据此实施方式，用户可将随机姿态设置为用于运行多媒体设备中的预定功能、或用于提供服务的输入手段。

参照图22，在用户输入用于设置随机姿态的预定菜单项的选择信号的情况下，或者在用户向多媒体设备输入热键输入信号的情况下，可显示姿态登记菜单(2801)。

姿态登记菜单(2801)可包括用户用于将姿态设置为输入手段而输入的姿态(2802)，以及要与输入的姿态映射的多媒体设备的功能列表(2803)。

并且，姿态登记菜单(2801)可在功能列表(2803)中包括已输入了姿态的用户频繁使用的功能或服务的列表，并且可显示功能列表(2803)。并且，姿态登记菜单(2801)还可包括用于选择列表中不存在的功能或服务的菜单项(2804)。

用户可通过菜单(2801)输入随机姿态，并且可将输入的姿态映射到多媒体设备的预定功能或服务，从而将映射的信息存储在数据库中。

相应地，通过将期望功能或服务指定到期望姿态，可增强用户操作多媒体设备的方便性。

图23示出了包括用户姿态列表的显示画面(3000)。根据此实施方式，利用用户姿态列表，多媒体设备可向用户提供存储在多媒体设备中的用户姿态的映射信息、以及特定命令。

更具体地，对于各用户姿态，多媒体设备可映射并存储能由多媒体设备运行的特定命令。并且，当通过多媒体设备的图像感测模块输入用户姿态时，提取输入的用户姿态的特征信息，并且搜索存储的映射数据，从而使得能够运行搜索的特定命令。

用户姿态列表可包括关于映射的用户姿态的信息(例如，图像)，并且还可包括关于映射的特定命令的信息(例如，图像或文本)。

因此，参照图23，当用户姿态对应于向上或向下移动手的姿态时，可将姿态识别为用于向上或向下滚动多媒体设备显示画面的命令(3001)。并且，当用户姿态对应于向左侧或右侧移动手的姿态时，可将姿态识别为用于向左或向右滚动多媒体设备显示画面的命令(3002)。

当用户姿态对应于向下伸出大拇指的姿态时，可将姿态识别为用于关闭多媒体设备电源的命令(3003)。并且，当用户姿态对应于向上伸出大拇指的姿态时，可将姿态识别为用于取消多媒体设备的待机状态的命令(3004)。并且，当用户姿态对应于伸出两个手指的姿态时，可将姿态识别为用于调用首选频道列表的命令(3005)。

当用户姿态对应于伸出三个手指的姿态时，可将姿态识别为用于编辑频道列表的命令(3006)。并且，当用户姿态对应于画圆圈的姿态时，可将姿态识别为用于返回之前频道的命令(3007)。

并且，除了利用手或一个或更多个手指所作的姿态之外，用户姿态还可包括利用各种身体部位(例如，手臂、腿、头等)所作的各种姿态。

并且，用户姿态列表可包括用于登记新用户姿态的菜单项(3008)。相应地，当从用户接收菜单项(3008)的选择信号时，多媒体设备显示图22的菜单画面或下面显示的图28的菜单画面，从而能够执行用于登记用户姿态的过程。

图24示出了经由用户姿态执行字母(或字符)输入的显示画面的一个实施方式。根据此实施方式，由于多媒体设备能精确识别用户姿态，因此多媒体设备显示字母(或字符)输入菜单(3100)，如图24所示，从而能够通过用户姿态接收字符或字母。

根据此实施方式，字母输入菜单(3100)可包括字母输入窗口(3101)。并且，由于字母输入窗口(3101)显示通过用户姿态输入的字母，因此用户可通过参照字母输入窗口(3101)识别是否执行精确的字母输入。

并且，如图24(a)所示，可通过轨迹识别模式接收关于用户姿态的字母。更具体地，多媒体设备可通过多媒体设备的图像感测模块识别用户手指的位置，并且多媒体设备可跟踪手指位置，还可识别用户手指所画的轨迹。多媒体设备还可包括指示用户手指位置的手指图像(3103)，以及显示识别的轨迹的轨迹窗口(3102)。

因此，通过向字母输入窗口(3101)输入与用户手指所作的轨迹的形状匹配的字母，可通过用户姿态执行字母输入。

图27示出了用于改变用户姿态输入模式的显示画面的一个实施方式。根据此实施方式，在接收通过用户手指做出的用户姿态时，多媒体设备可通过轨迹识别模式和/或点击识别模式来识别输入的用户姿态。

轨迹识别模式对应于其中多媒体设备跟踪用户手指的位置移位并提取关于用户手指的运动路径的特征信息的模式，从而执行对应于提取的特征信息的操作。这里，图24(a)所示的字母输入方法对应于轨迹识别模式中执行的操作。

并且，点击识别模式对应于其中多媒体设备获取用户手指的距离信息的模式，并且，当输入用户手指的点击动作时，多媒体设备提取关于点击位置的特征信息，从而执行与提取的特征信息相对应的操作。这里，图24(b)所示的字母输入方法对应于点击识别模式中执行的操作。

因此，利用改变识别模式菜单(3401)，多媒体设备可改变轨迹识别模式和点击识别模式。

改变识别模式菜单(3401)可包括关于当前设置的识别模式的信息(3402)。并且，可接收用于改变识别模式的命令。

可用各种形式输入用于改变识别模式的命令。例如，如图27所示，当多媒体设备利用他或她的手指(3403)输入固定轨迹，同时当前设置为点击识别模式时，多媒体设备将输入的轨迹识别为用于改变识别模式的用户姿态。相应地，多媒体设备可将多媒体设备的用户姿态输入模式从点击识别模式改变为轨迹识别模式。

图26示出了针对用户姿态的数据库(3300)的一个实施方式。根据此实施方式，由于多个用户可使用单个多媒体设备，所以多媒体设备可存储关于各用户的用户姿态(3304)的映射数据。

参照图26，例如，当4个用户登记为多媒体设备的用户(3305、3306、3307、3308)时，可不同地确定并存储与各用户的各用户姿态(3301、3302、3303)相对应的特定命令。

更具体地，即使输入用手画圆圈的相同用户姿态时，当用户“用户1”输入该姿态时，多媒体设备执行更新(或升级)显示在当前多媒体设备中的画面的操作。并且，当用户“用户2”输入同一姿态时，多媒体设备可执行返回之前的频道的操作。

相应地，即使当多个用户共享同一多媒体设备时，可针对各用户设置个性化的用户姿态，从而增强用户方便性。

图25示出了包括加载对于多个用户的姿态数据的加载菜单的显示画面(3200)。如图所示，由于可针对各单独用户存储不同的用户姿态映射数据，因此当通过多媒体设备的图像感测模块识别用户时，多媒体设备可加载关于所识别的用户的用户姿态数据。

更具体地，当收到用于开启(或启动)用户姿态识别的信号，多媒体设备通过多媒体设备的图像感测模块识别相应的用户，并且多媒体设备可根据识别的用户来显示加载用户姿态数据菜单(3201)。

加载菜单(3201)可包括关于识别的用户的信息(3202)(例如用户的图像数据或用户的用户ID)。

并且，当显示加载菜单(3201)时，用户可通过参照用户信息(3202)确定识别的用户是否是正确的。然后，基于确定结果，如果用户识别正确，用户可输入验证菜单项(3203)的选择信号，以便加载识别用户的用户姿态数据，从而能够识别所识别的用户的用户姿态。

反之，在利用用户信息(3202)将识别的用户验证为不正确的情况下，用户可输入取消菜单项(3204)的选择信号，使得多媒体设备能执行用于重新识别用户的操作。

图28示出了包括用户专用用户姿态设置菜单的显示画面(3500)。如图所示，由于可对于各单独用户存储不同的用户姿态映射数据，多媒体设备可通过多媒体设备的图像感测模块输入用户姿态。并且，在执行将特定命令映射到输入的用户姿态的处理时，可对于各单独用户执行不同的映射处理，其中通过多媒体设备的图像感测模块来识别各用户。

更具体地，当接收到用于登记用户姿态的信号时，多媒体设备可通过多媒体设备的图像感测模块来识别对应的用户，并且多媒体设备然后可显示针对所识别的用户的用户姿态设置菜单(3501)。

设置菜单(3501)可包括关于所识别的用户的信息(3502)(例如，用户的图像数据或用户的用户ID)。

并且，当显示设置菜单(3501)时，用户可通过参照用户信息(3502)来确定识别的用户是否是正确的。然后，基于确定结果，如果用户识别正确，用户可输入验证菜单项(3503)的选择信号，以便执行用于将对于用户姿态的映射数据更新为所识别的用户的用户姿态数据的操作。

反之，在利用用户信息(3502)将识别的用户验证为不正确的情况下，用户可输入取消菜单项(3504)的选择信号，使得多媒体设备能执行用于重新识别用户的操作。

上面描述的本发明实施方式的配置和方法的应用将不仅限于根据本发明的多媒体设备和操作该多媒体设备的方法。为了允许对本发明上述实施方式进行广泛的变型，可选择性地(或可选地)整体或部分组合和配置本发明的各实施方式。

同时，根据本发明操作多媒体设备的方法可实现为能由处理器读取的记录介质中的、能由设置在多媒体设备中的处理器读取的代码。能由处理器读取的记录介质包括存储能由处理器读取的数据的各种类型的记录设备。能由处理器读取的记录介质的示例可包括ROM、RAM、CD-ROM、磁带、软盘、光数据存储设备等。

并且，还可包括以载波形式实现(例如经由互联网传输)的示例性记录介质。并且，能由处理器读取的记录介质可分散在通过网络连接的计算机系统内。并且，可利用离散(或分散)方法存储并运行能由处理器读取的代码。

另一实施方式可应用于游戏环境。例如，显示设备的第一图像传感器和第二图像传感器可识别用户做出的各种姿态或动作，然后处理器可可将这些动作或手势解释为对应于特定命令或输入值。然后这些命令和/或值可用作用于控制在显示设备上操作的游戏应用程序的功能的基础，并且随着各种游戏画面的显示，相应的改变例如可出现在游戏中。

另一实施方式可包括一旦识别出特定用户则自动运行应用程序或程序。应用程序实质上可以是任何应用程序，包括但不限于时间表或日历应用程序、相册应用程序、对应于该用户的e-mail帐户的e-mail应用程序、即时消息应用程序、自动运行或接入社交网络、视频聊天、金融、投资、网络摄像头、或其它类型的网站、自动接入预定网页浏览器、以及其它互联网或基于应用程序的功能。

前述网络摄像头可远离显示设备而设置，或直接连接到显示设备。如果远离设置，则显示设备可基于特定用户识别而接入并显示网络摄像头视频。数据可被存储在将多个用户中的每个的识别链接到各应用程序和/或程序的显示设备包括的数据库中，或由该显示设备访问的数据库中。

另一实施方式涉及基于由多媒体系统的传感器和处理器识别的姿态来控制在视频游戏或其它游戏应用程序的画面上的移动、出现或其它动作。

这里描述的一个或更多个实施方式提供一种能增加执行用户姿态识别时的精确性、从而增强使用方便性的多媒体设备和用于操作该多媒体设备的方法。

这里描述的一个或更多个实施方式还提供一种能提供各种用户接口以确保用户识别功能的精确性的多媒体设备和用于操作该多媒体设备的方法。

根据一个实施方式，一种多媒体设备的识别用户姿态的方法，该方法包括以下步骤：通过第一图像传感器获取用户距离信息；基于距离信息通过第二图像传感器获取图像信息；决定距离信息和图像信息的控制信息；基于控制信息对距离信息和图像信息进行组合，并且搜索与组合后的信息相对应的特定命令；以及执行搜索到的特定命令。

根据另一实施方式，一种多媒体设备，该多媒体设备包括：第一图像传感器，获取用户距离信息；第二图像传感器，基于距离信息来获取图像信息；图像处理模块，对通过第一图像传感器获得的距离信息和第二图像传感器获得图像信息进行组合；存储模块，存储与通过图像处理模块组合后的信息相对应的特定命令的列表，并且存储距离信息和图像信息的控制信息；以及控制器，其基于控制信息来控制图像处理模块的组合，通过存储模块搜索与组合后的信息相对应的特定命令，并且控制多媒体设备使得能运行搜索到的特定命令。

根据一个实施方式，通过精确地从多媒体设备识别用户姿态，以便执行必要操作，用户可以能够精确且高速地操作多媒体设备。

根据另一实施方式，在从多媒体设备识别用户姿态的过程中，本发明可提供各种用户接口，从而增强了用户的使用方便性。

这里描述的多媒体设备对应于例如接收和处理广播数据的各种类型的设备。此外，多媒体设备可对应于连接TV。除广播接收功能之外，连接TV可设置有例如有线和无线通信设备。相应地，连接TV可设置有更方便的接口，例如手动输入模块、触摸屏或动作识别遥控器。

并且，连接TV通过根据对有线或无线互联网功能的支持而接入互联网或计算机来实现收发e-mail、网页浏览、银行业务或游戏。对于这些各种功能，可以使用标准化的通用操作系统(OS)。

相应地，由于连接TV可以在通用OS内核上自由设置或删除各种应用程序，因此其可执行用户友好的各种功能。连接TV的具体示例包括网络TV、互联网TV、HBBTV、智能TV和DTV。连接TV视情况可应用于智能电话。

根据另一实施方式，一种显示设备，该显示设备包括：第一传感器，其获取人的第一图像；第二传感器，其获取所述人的第二图像；存储设备，其存储第一信息和第二信息，所述第一信息识别映射到由所述第二信息识别的多个功能中的相应功能的多个姿态；以及处理器，其基于所述第一图像和所述第二图像来识别所述人的姿态，并且基于存储在所述存储设备中的所述第一信息和所述第二信息来执行与所识别的姿态相对应的功能，其中：基于所述第一图像检测所述第二图像，所述多个功能是所述显示设备的不同功能，并且利用在所述第二图像中拍摄的人的至少一个身体部位做出所述姿态。

所述处理器可确定所述人在所述第一图像中的坐标信息，并且基于所述坐标信息来提取所述人在所述第二图像中的姿态。所述坐标信息可包括距离信息。此外，所述第一传感器可以是深度图像传感器，所述第二传感器可以是彩色图像传感器。

所述第二图像包括所述至少一个身体部位的放大视图，识别的姿态可对应于所述至少一个身体部位的方向。并且，所述第二图像可以是比所述第一图像具有更高分辨率的图像。

此外，所述处理器可基于所述第一图像和所述第二图像形成组合信息，并且基于所述组合信息识别姿态。当所述身体部位运动时，组合来自所述第一传感器和所述第二传感器的信息以识别姿态，来自所述第一传感器的信息包括距离信息，并且来自所述第二传感器的信息包括颜色信息。

并且，所述第二传感器可基于来自所述第一传感器的信息来跟踪所述至少一个身体部位的运动，并且所述姿态可对应于字母在空中的轨迹，并且其中所述至少一个身体部位是用于描绘所述字母的手指或手。

此外，所述显示设备可包括：存储设备，其存储识别针对多个用户中的每个的多个姿态的信息，所述多个姿态中的每个对应于多个功能中的不同功能，并且其中映射到第一用户的姿态的一个或更多个功能不同于映射到第二用户的同一姿态的一个或更多个功能。

根据另一实施方式，一种显示设备，该显示设备包括：第一传感器，其获取人的第一图像；第二传感器，其获取所述人的第二图像；存储设备，其存储第一信息和第二信息，所述第一信息识别映射到由所述第二信息识别的多个功能中的相应功能的多个姿态；以及处理器，其基于所述第一图像和所述第二图像执行功能。

在第一模式下，所述处理器基于所述第一图像和所述第二图像来识别所述人的姿态，并且基于存储在所述存储设备中的所述第一信息和所述第二信息执行与所识别的姿态相对应的功能。在第二模式下，所述处理器识别由用户移动的身体部位的轨迹，所述处理器基于所述第一图像和所述第二图像将所述身体部位的移动识别为字母或数字，所述处理器执行与所识别的移动相对应的功能。可基于所述第一图像检测所述第二图像，并且所述多个功能是所述显示设备的不同功能。

此外，所述第一传感器可以是深度图像传感器，所述第二传感器可以是彩色图像传感器。并且，在所述第一模式下，所述处理器确定所述人在所述第一图像中的坐标信息，并且基于所述坐标信息来提取所述人在所述第二图像中的姿态。所述坐标信息包括距离信息。所述第二图像可包括所述至少一个身体部位的放大视图。

根据另一实施方式，一种控制方法，该控制方法包括以下步骤：存储第一信息和第二信息，所述第一信息识别映射到由所述第二信息识别的多个功能中的相应功能的多个姿态；以及检测人的第一图像；检测所述人的第二图像；基于所述第一图像和所述第二图像来识别所述人的姿态；以及基于所述第一信息和所述第二信息来执行与识别的姿态相对应的功能，其中基于所述第一图像检测所述第二图像，所述多个功能是显示设备的不同功能，并且利用在所述第二图像中拍摄的所述人的至少一个身体部位做出所述多个姿态。

识别操作可包括确定所述人在所述第一图像中的坐标信息，并且基于所述坐标信息提取所述人在所述第二图像中的姿态。所述坐标信息可包括距离信息。

本说明书中对于“一个实施方式”、“实施方式”、“示例实施方式”等的任何引用都是指结合实施方式描述的具体的特征、结构或特性被包含在本发明的至少一个实施方式中。出现在本说明书各处的这种术语并不一定全都指代同一实施方式。此外，当结合任何实施方式描述具体的特征、结构或特性时，应当承认，结合其它多种实施方式实现这种特征、结构或特性在本领域技术人员的知识范围内。一个实施方式的特征可以与其他实施方式的特征相结合。

尽管已经参照本发明的多个示例性实施方式描述了本发明的实施方式，但是，应当理解的是，本领域技术人员能够设计将落入本发明的原理的精神和范围之内的多种其它修改例和实施方式。更具体地说，在本说明书、附图和所附权利要求的范围内，可以对主体组合装置中的组成部分和/或方案进行各种变化和修改。除了组成部分和/或方案的变化和修改以外，其它用途对于本领域技术人员也是明显的。

Claims

1.一种显示设备，该显示设备包括：

第一传感器，其获取人的第一图像；

第二传感器，其获取所述人的第二图像；

存储设备，其存储第一信息和第二信息，所述第一信息识别映射到由所述第二信息识别的多个功能中的相应功能的多个姿态；以及

处理器，其基于所述第一图像和所述第二图像来识别所述人的姿态，并且基于存储在所述存储设备中的所述第一信息和所述第二信息来执行与所识别的姿态相对应的功能，其中：

基于所述第一图像来检测所述第二图像，

所述多个功能是所述显示设备的不同功能，并且

利用在所述第二图像中拍摄的所述人的至少一个身体部位做出所述多个姿态。

2.根据权利要求1所述的显示设备，其中所述处理器确定所述人在所述第一图像中的坐标信息，并且基于所述坐标信息来提取所述人在所述第二图像中的姿态。

3.根据权利要求2所述的显示设备，其中所述坐标信息包括距离信息。

4.根据权利要求1所述的显示设备，其中所述第一传感器是深度图像传感器，并且所述第二传感器是彩色图像传感器。

5.根据权利要求1所述的显示设备，其中所述第二图像包括所述至少一个身体部位的放大视图。

6.根据权利要求1所述的显示设备，其中所识别的姿态对应于所述至少一个身体部位的取向。

7.根据权利要求1所述的显示设备，其中所述第二图像是比所述第一图像的分辨率更高的图像。

8.根据权利要求1所述的显示设备，其中所述处理器：

基于所述第一图像和所述第二图像来形成组合信息，并且

基于所述组合信息来识别姿态。

9.根据权利要求1所述的显示设备，其中当所述身体部位运动时：

对来自所述第一传感器和所述第二传感器的信息进行组合，以识别姿态，来自所述第一传感器的信息包括距离信息，而来自所述第二传感器的信息包括颜色信息。

10.根据权利要求1所述的显示设备，其中所述第二传感器基于来自所述第一传感器的信息来跟踪所述至少一个身体部位的运动。

11.根据权利要求1所述的显示设备，其中所述姿态对应于字母在空中的轨迹，并且其中所述至少一个身体部位是用于描绘所述字母的手指或手。

12.根据权利要求1所述的显示设备，所述显示设备还包括：

存储设备，其存储识别针对多个用户中的每个用户的多个姿态的信息，所述多个姿态中的每个姿态对应于所述多个功能中一个不同功能，并且其中映射到第一用户的姿态的一个或更多个功能不同于映射到第二用户的相同姿态的一个或更多个功能。

13.一种显示设备，该显示设备包括：

第一传感器，其获取人的第一图像；

第二传感器，其获取所述人的第二图像；

处理器，其基于所述第一图像和所述第二图像来执行功能，

其中，在第一模式下，所述处理器基于所述第一图像和所述第二图像来识别所述人的姿态，并且基于存储在所述存储设备中的所述第一信息和所述第二信息来执行与所识别的姿态相对应的功能，并且

其中，在第二模式下，所述处理器识别由用户移动的身体部位的轨迹，所述处理器基于所述第一图像和所述第二图像将所述身体部位的移动识别为字母或数字，所述处理器执行与所识别的移动相对应的功能，并且其中：

基于所述第一图像来检测所述第二图像，并且

所述多个功能是所述显示设备的不同功能。

14.根据权利要求13所述的显示设备，其中所述第一传感器是深度图像传感器，并且所述第二传感器是彩色图像传感器。

15.根据权利要求13所述的显示设备，其中，在所述第一模式下，所述处理器确定所述人在所述第一图像中的坐标信息，并且基于所述坐标信息来提取所述人在所述第二图像中的姿态。

16.根据权利要求13所述的显示设备，其中所述坐标信息包括距离信息。

17.根据权利要求13所述的显示设备，其中所述第二图像包括所述至少一个身体部位的放大视图。

18.一种控制方法，该控制方法包括以下步骤：

存储第一信息和第二信息，所述第一信息识别映射到由所述第二信息识别的多个功能中的相应功能的多个姿态；以及

检测人的第一图像；

检测所述人的第二图像；

基于所述第一图像和所述第二图像来识别所述人的姿态；以及

基于所述第一信息和所述第二信息来执行与所识别的姿态相对应的功能，其中基于所述第一图像来检测所述第二图像，所述多个功能是显示设备的不同功能，并且利用在所述第二图像中拍摄的所述人的至少一个身体部位做出所述多个姿态。

19.根据权利要求18所述的方法，其中所述基于所述第一图像和所述第二图像来识别所述人的姿态的步骤包括：

确定所述人在所述第一图像中的坐标信息，并且

基于所述坐标信息来提取所述人在所述第二图像中的姿态。

20.根据权利要求19所述的方法，其中所述坐标信息包括距离信息。