CN108431729A

CN108431729A - 用以增大显示区域的三维对象跟踪

Info

Publication number: CN108431729A
Application number: CN201680073858.8A
Authority: CN
Inventors: E·奥菲克; M·帕胡德; P·P·伊拉尼
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2016-01-04
Filing date: 2016-12-22
Publication date: 2018-08-21
Anticipated expiration: 2036-12-22
Also published as: US20170192493A1; US11188143B2; WO2017120052A1; CN108431729B; EP3400500A1; US20220129060A1

Abstract

在一些示例中，位于便携式电子设备前方或周围的诸如桌面之类的表面可以被用作与便携式电子设备交互的相对大的表面，便携式电子设备通常具有小型显示屏。用户可以使用诸如手指、笔或手写笔的任何对象在表面上书写或绘画。该表面也可被用于模拟部分或全尺寸键盘。使用相机来感测对象的三维(3D)定位或运动可以使得能够使用表面上方的手势、方向性的输入以及将真实对象捕获到由电子设备处理或存储的文档中。一个或多个对象可以被用于操纵由便携式电子设备显示的元素。

Description

用以增大显示区域的三维对象跟踪

背景技术

智能手机、平板电脑和许多类型的信息设备的普及推动了对便携式和功能电子设备的触摸屏和其他显示器的需求和接受度。触摸屏和其他显示器可以在医疗领域和重工业以及自动取款机(ATM)以及诸如博物馆显示器或房间自动化等自动服务终端中找到，其中键盘和鼠标系统不允许用户与显示器的内容进行适当的直观、快速或准确的交互。

通常，便携式电子设备具有相对较小的触摸屏，导致内容创建和修改方面的挑战，诸如在文字处理、绘图、绘制等方面。显示在由用户的手指操纵的触摸屏上的显示元素例如可以相对于显示元素相对较大，可以至少部分地被手指遮挡。而且，由于至少部分由于触摸屏的小型化，通过触摸的这种操作可能具有相对较低的分辨率。

发明内容

本申请描述了用户与由显示设备显示的元素的交互，其可能相对较小且便携。在便携式电子设备(例如，电话)前方或周围的表面(诸如桌面)可以被用作与便携式电子设备交互的相对较大的表面，该便携式电子设备通常具有小型显示屏。用户可以使用诸如手指、笔或手写笔的任何对象在表面上书写或绘图。该表面也可被用于模拟部分或全尺寸键盘。使用照相机来感测对象的三维(3D)位置或运动可以使得能够使用在表面之上的(例如悬停)手势、方向性的输入以及将真实对象捕获(扫描)到由电子设备处理或存储的文档中。一个或多个对象可以被用来操纵由便携式电子设备显示的元素。

本发明内容被提供以简化的形式介绍将在下文的具体实施方式中进一步描述的一些概念。本发明内容并非旨在识别所要求保护的主题的关键或基本特征，也不旨在被用作确定所要求保护的主题的范围的辅助手段。例如，术语“技术”可以指系统、方法、计算机可读指令、模块、算法、硬件逻辑(例如，现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD))和/或其他技术，如上文以及整个文件中所允许的。

附图说明

参考附图来说明具体实施方式。在这些图中，附图标记的最左边的数字表示附图标记在其中首次出现的附图。不同图中的相同附图标记表示相似或相同的项目。

图1是描绘本文描述的技术可以在其中被实现的示例环境的框图。

图2示出了用于与示例显示设备交互的手势或手的位置。

图3是包括图像处理模块的示例系统的框图。

图4是示例显示设备的正视图。

图5是鉴于示例显示设备的对象书写或做手势的透视图。

图6是鉴于显示设备在表面上方的一定距离的示例对象的透视图。

图7是鉴于示例显示设备的对象的透视图。

图8是鉴于示例显示设备的对象做手势的透视图。

图9是鉴于示例显示设备的多个对象书写或做手势的透视图。

图10是在示例显示设备中多个对象书写或做手势以建立用于显示的表面的区域的透视图。

图11是鉴于示例显示设备的对象做手势的透视图。

图12是用于确定用户界面的手势类型的示例过程的流程图。

图13是用于操作显示器和用户界面的示例过程的流程图。

图14是用于操作用户界面的示例过程的流程图。

图15是用于操作显示器和用户界面的示例过程的流程图。

具体实施方式

显示器可以与诸如游戏控制台、个人电脑、平板电脑、智能手机等设备一起来使用。显示器可以被附接到计算机或被用作网络的客户端设备(例如，作为终端)。显示器可以集成在诸如个人数字助理(PDA)，全球定位系统(GPS)导航设备，移动电话，平板电脑，视频游戏，电子书(E-book)等数字设备的设计中。

与其使用鼠标、触摸板或任何其他中间设备，包括显示器的一些设备(“显示设备”)可以允许用户直接与显示内容(例如，窗口、菜单、文本、绘图、图标、图像等等)交互。在一些示例中，显示设备(例如，包括显示器的电子计算设备)可以包括触摸屏，其可以感测和定位显示设备的显示器上的对象(例如，手指、指示笔等)的物理触摸。触摸屏可以包括层叠在信息处理系统的电子可视显示器之上或与之集成的输入设备。

尽管便携式电子设备的触摸屏提供了优点，但其相对较小的输入表面和可用模式通常限制了设备作为内容创建工具的使用。例如，对于相对较小的触摸屏，作为输入的手指触摸倾向于具有相对较低的分辨率，并且触摸手指可能遮挡小显示器的至少一部分(通常是对用户相对高兴趣的部分)。因此，诸如文字处理或绘图应用的任务可能难以在小型触摸屏上实现。尽管如此，便携式电子设备可能是高度移动的，并且在很多情况下，它是在一段时间内用户可用的唯一数字设备。例如，便携式电子设备可能足够小以适合人的口袋或手，以便被认为是手持设备。当然，本文的示例适用于较大的电子设备，诸如平板或相对较大的显示器。

在一些示例中，技术和系统允许与电子显示设备(诸如便携式显示设备)交互的各种过程。这种交互可以包括向显示设备输入信息并查看由显示设备显示的信息。这样的技术和系统通过利用显示设备前方(或至少部分围绕)的表面以及表面上方的空间来允许用于输入信息的相对较大的表面和/或体积。以这种方式，用户可以使用相对较大的表面和体积代替(或除此之外)显示设备的相对较小的显示器来输入。

在特定说明性示例中，位于咖啡馆中的用户将电话(例如，智能电话、显示设备)放置在桌子上。在这种情况下，电话被定位在桌子上的边缘(横向或纵向)(例如，使用折叠腿)。手机前方的桌子区域可用于输入，就像桌子是数字化平板电脑或触摸板一样。用户可以握住笔状对象(手写笔、笔、咖啡搅拌器、化妆笔等)，并以自然的方式在桌子上绘图或书写。与触摸界面相比，“手写笔”或“笔”(以下称为“对象”)的握持可以更好地使用手的灵活性。然而，在一些示例中，手指可以附加地或可选地被用作对象。例如，对象的位置和/或方向可以使用诸如相机或深度相机(其中之一或二者可以内置于电话中或者可以是分离的外围设备)之类的成像传感器来确定或感测。

因此，在各种示例中，显示设备可以被配置成在显示设备周围(例如，在显示设备的位置的前方或周围)的区域中感测对象(例如，手指、手写笔等)。感测对象可以包括确定对象相对于显示设备或其他参考点的三维(3D位置)的位置。例如，与显示器相关联的系统可以确定3D正交坐标系(例如，X、Y和Z轴)、极坐标系或圆柱坐标系中的对象相对于显示器的位置。在其他示例中，系统可以不止一次地确定对象的位置，并且因此能够确定对象的运动、速率或手势。在一些情况下，显示设备前方的表面可以被用作“虚拟触摸屏”，其中对象在表面上的触摸运动可以与电子触摸屏上的触摸运动相似或相同。这里，用户可以在使用单触或多触触摸手势的触摸事件期间通过用手写笔/笔(或其多个)、一个或多个手指、一个或多个手、或其他身体部位触摸表面来提供输入或控制显示设备的处理系统。例如，用户可以在表面使用触摸事件来监视显示器以对所显示的内容做出反应并且控制内容的显示方式(例如通过展开(缩放)文本大小、选择菜单项或对象等等)。在本文中，触摸事件可涉及对象(例如，用户的手指、手、手写笔或其它对象)与表面(例如，桌面、纸张、地板、平坦表面、非平坦表面或非水平表面)之间的物理触摸。

在一些示例中，屏幕显示器到表面的映射可以是动态的，以便能够改变位置以及缩放(例如，根据手/工具位置和/或手势)。在一些示例中，显示器可以被多个用户使用，诸如当一个用户正在生成草图以更好地对另一个用户解释他们的意思时的情况。来自显示器的输入的去耦能力可以允许在由一个或多个用户在表面上的输入期间显示器不被中断。在一些实施方式中，系统可以考虑并响应活跃用户的手(例如正在绘制或书写的用户)并且忽略其他用户的手。

在一些配置中，如果用户(或其他对象)的手指触摸虚拟触摸屏(例如，表面)，则“触地”事件可以通过应用程序编程接口(API)产生。该事件可以响应于手指已经物理接触虚拟触摸屏。在一些配置中，事件可能涉及例如可以允许处理器来确定在虚拟触摸屏上在何处发生了触地事件的信息。在一些示例中，系统可以通过在接收到可能的触地事件的图像之后的阈值时间量内接收特定类型的音频信号来感测触地事件。音频信号可以对应于触地事件(例如，手写笔点击中表面)的一般声音并且可以被用于确认图像中可能的触地事件是真实的触地事件。在一些示例中，加速度计可以以与麦克风相同的方式被使用。在一些示例中，导电表面可被用于检测手写笔或其他对象对表面的触摸。在一些示例中，无线(例如，蓝牙)手写笔(或有线手写笔)可以发送诸如压力之类的信息或与手写笔向上或手写笔向下事件相关联的其他参数。

在其他示例中，显示设备可以被配置成感测手写笔/笔、一个或多个手指、一个或多个手或者表面之上(例如，在虚拟触摸屏上方)的其他身体部位或对象，其中不需要涉及与表面的物理接触。在下文中，手写笔/笔、一个或多个手指、一个或多个手或其他身体部位或对象在下文中被称为对象(例如，在这种情况下，“对象”是一个包含任何可能在表面或表面之上相互作用的全部短语)。

在一些示例中，术语“悬停”(有时称为“3D触摸”)被用于描述对象位于表面之上(即，不接触)，并且位于表面上方的预定3D空间或体积内。相应地，悬停对象可以被定义为位于预定3D空间内的表面上方而不实际接触表面的对象。悬停相互作用在其中受到约束的3D空间的维度(具体是垂直于表面的维度)可取决于表面的面积和/或表面在其中使用的环境，如下文将更详细描述的。例如，表面的区域可以至少部分地取决于用于感测表面的相机(或多个相机)的视场。

在各种配置中，“系统”可被认为包括事物的任何组合。例如，在一些配置中，系统可以被认为是显示器和处理器。在其他示例中，系统可以包括存储器、图像处理器模块和显示器。在更多其他示例中，系统可以包括存储器、处理器、显示器、相机和桌面表面。要求保护的主题在这方面不受限制。

在一些示例配置中，系统的运动可以至少部分地基于确定对象的位置和/或取向。例如，系统可以通过对象的取向来感测具体手势。响应于这样的手势，系统可以因此修改由显示器显示的至少一个元素。本文中，术语“修改由显示器显示的至少一个元素”是指显示器改变显示器显示元素或显示背景的内容(例如，窗口、菜单、图标、图形对象、文本等)或显示方式(例如，触摸屏的具体部分的亮度和/或对比度)，尽管所要求保护的主题不限于此方面。在一些示例中，系统可以使用关于对象的位置和/或取向的信息来修改与显示器相关联的用户界面的行为。这种可被修改的行为包括程序执行(例如，将执行从一组代码移动到另一组代码(子程序))以及显示元素(如上所述)，仅举几个例子。

显示区域相对于输入表面可能较小，这可能会导致频繁希望放大以查看详细信息，并缩小以查看整个文档。相应地，一些示例可能涉及基于悬停对象的运动自动放大和缩小。如果用户触摸(例如，可能经由对象)表面，则显示器可以在触摸点周围显示高细节。如果用户停止触摸(例如，将笔尖从表面抬起)，则显示器可以逐渐缩小以显示全文档(较少细节，较大视图)。

各种示例在参考图1至图15被进一步描述。

下文描述的环境只是一个示例，并不旨在将权利要求限制于任何特定的操作环境。在不脱离所要求保护的主题的精神和范围的情况下，其他环境可以被使用。

图1示出了其中如本文所述的示例过程可以操作的示例环境100。在一些示例中，环境100的各种设备和/或组件包括各种计算设备102。作为示例而非限制，计算设备102可以包括设备102a-102f。尽管图示的为多种设备类型，但是计算设备102可以是其他设备类型并且不限于所示出的设备类型。计算设备102可以包括具有可操作地连接到输入/输出接口106和存储器108的一个或多个处理器104的任何类型的设备，例如经由总线110。计算设备102可以包括个人计算机，诸如台式计算机102a、膝上型计算机102b、平板电脑102c、电信设备102d、个人数字助理(PDA)102e、显示器102f、电子书阅读器、可穿戴计算机、汽车电脑、游戏设备、测量设备、电视机、机顶盒、护目镜、耳机等。计算设备102还可以包括面向商业或零售的设备，例如服务器计算机、瘦客户端、终端和/或工作站。在一些示例中，计算设备102可以包括例如用于集成到计算设备、装备或其他种类的设备中的组件。

本文中，除非特别指出相反的情况，否则“处理器”可以包括一个或多个处理器。例如，处理器104可以被用于操作显示器102f。例如，处理器104可以执行代码以允许显示器102f显示也可以被处理器104执行的多个应用中的任何应用生成的对象。可由处理器104访问的本地(例如，在显示器102f和处理器104的封装中硬连线)或远程(例如，在有线或无线计算机网络中)的存储器108可以存储这样的可执行代码或多个应用程序。

在一些示例中，被描述为由计算设备102执行的一些或全部功能可以由一个或多个远程对等计算设备、一个或多个远程服务器或者云计算资源来实现。

在一些示例中，如关于显示器102f所示，存储器108可存储可由处理器104执行的指令，所述指令包括操作系统(OS)112、图像处理器114以及可由处理器104加载和执行的程序或应用程序116。一个或多个处理器104可以包括一个或多个中央处理单元(CPU)、图形处理单元(GPU)、视频缓冲处理器等等。在一些实施方式中，图像处理器114包括存储在存储器108中的可执行代码，并且可由处理器104执行以经由输入/输出106在本地或远程通过计算设备102收集信息。该信息可以与一个或多个应用程序116相关联。图像处理器114可以选择性地应用存储在存储器108中以应用于输入数据(例如，捕获的图像)的颜色、光学纹理、图像和图案的许多示例中的任何一个，仅举几个示例。例如，图像处理可能涉及到涉及处理器104基于至少部分地存储在存储器108中的信息解释或确定悬停对象的图像的处理。

虽然某些模块已被描述为执行各种操作，但这些模块仅仅是示例，并且相同或相似的功能可以通过更多或更少数量的模块来执行。此外，由所描绘的模块执行的功能不一定是由单个设备本地执行的。相反，某些操作可以由远程设备(例如，对等，服务器，云等)执行。

可选地或附加地，本文描述的功能中的一些或全部可以至少部分地由一个或多个硬件逻辑组件来执行。例如但不限于，可以使用的示例性硬件逻辑组件的类型包括现场可编程门阵列(FPGAs)、程序专用集成电路(ASICs)、程序专用标准产品(ASSPs)、片上系统的系统(SOCs)、复杂可编程逻辑器件(CPLDs)等。

在一些示例中，计算设备102可以与深度相机相关联，深度相机可以被用于测量从相机到由相机捕获的图像的各个部分的距离。在一些情况下，图像的各个像素可具有关联的距离数据，该距离数据指定从相机到对应于相应像素的图像部分的距离。在一些示例中，计算设备102可以与能够捕捉图像和/或视频的相机和/或能够捕捉音频的麦克风相关联。本文中，除非特别指出相反的情况，否则“相机”可能包括一个或多个相机。例如，输入/输出模块106可以包含这样的相机和/或麦克风。例如，在表面上捕获的悬停对象的图像可以与各种对象和/或材料的数据库中的图像比较，并且这种比较可以被部分地使用来识别悬停对象。存储器108可以包括计算机可读介质中的一个或其组合。

在一些示例中，相机可能对非可见光带敏感，诸如近红外相机。在一些情况下，相机可能是激光雷达、雷达或立体深度相机。在一些情况下，相机可以包括结构化光图案的投影，作为测量来自相机的距离图的方法。在一些情况下，环境可以包括已知位置的光(例如，光束或光点)，并且从用户的手或对象到表面上的对应阴影的距离可以被用来估计悬停高度。在一些实施方式中，反射表面可以被使用，其中手和其反射之间的距离被用于估计悬停高度。在一些示例中，佩戴在手上的可佩戴标签(例如有源标签，诸如具有传感器和显示器的带；或无源标签，诸如塑料标签)、手指标签(例如，具有标签的指甲或活动指甲)、戒指、具有标签的手写笔(被动或主动)等可被用于追踪对象。

计算机可读介质可以包括计算机存储介质和/或通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括但不限于：相变存储器(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、闪存或其他存储器技术、光盘只读存储器(CD-ROM)、数字多功能盘(DVD)或其他光存储器、磁带盒、磁带、磁盘存储器或其他磁存储设备、或者可以用于存储供计算设备访问的信息的任何其他非传输介质。

相反，通信介质包含计算机可读指令、数据结构、程序模块或调制数据信号中的其他数据，诸如载波或其他传输机制。如本文所定义的，计算机存储介质不包括通信介质。在各种示例中，存储器108是存储计算机可执行指令的计算机存储介质的示例。当由处理器104执行时，计算机可执行指令配置处理器104来，在一些示例中，接收来自相机的图像(图像可以包括该区域中的表面和表面上或表面上方的对象的表示)；分析图像以确定对象相对于表面、显示器或相机的位置、定位、配置和/或取向；确定表面上方对象的至少一部分的距离；将图像与至少一个其他图像比较以确定对象的位置和取向是手势还是书写运动；以及至少部分地基于对象的位置和取向来驱动显示器以显示一个或多个显示元素。本文中，“取向”是指旋转的和/或平移的位置以及形状或配置。因此，手的取向可以指在3D空间中手的形状、轮廓以及旋转的和/或平移的位置。本文中，除非上下文另有说明或公开，否则“手”包括手本身、手指和拇指。因此，手的取向可以指手/手指/拇指组合的形状。

在各种示例中，输入/输出(I/O)接口106的输入设备可以是间接输入设备(例如，鼠标、键盘、相机或相机阵列等)或另一类型的非触觉设备，诸如音频输入设备。

计算设备102还可以包括一个或多个输入/输出(I/O)接口106以允许计算设备102与其他设备进行通信。输入/输出(I/O)接口106可以包括一个或多个网络接口，以实现计算设备102和其他联网设备(诸如其他设备102)之间的通信。输入/输出(I/O)接口106可以允许设备102与其他设备通信，诸如用户输入外围设备(例如，键盘、鼠标、笔、游戏控制器、语音输入设备、触摸输入设备，手势输入设备等)和/或输出外围设备(例如，显示器、打印机、音频扬声器、触觉输出等)。

在一些实施方式中，多个计算设备102中的任何一个可以经由网络120互连。例如，这样的网络可以包括存储和/或处理从计算设备102接收的和/或发送到计算设备102的信息(例如，数据)的一个或多个数据中心。

图2示出了示例手势或手位置，其可被用于与显示设备200交互。在所示的示例中，手势是使用手202和204来完成的，手202和204可以是在不同取向或多个不同手中示出的相同手(在不同时间)。在其他示例中，手势可以使用多个对象中的任何一个来完成，例如手写笔，铅笔等或其任何组合。相机206可以与显示设备200合并。相机206可以捕获手202和204的图像，手202和204可以位于相机的视场中的空间中。例如，手202和204可以距照相机几毫米至米左右，尽管所要求保护的主题在这方面不受限制。显示设备中的处理器208可以分析所捕获的图像以确定手202和204的定位或取向。这样的定位和取向可以相对于显示设备200的一部分或手202和204所位于的表面(图2中未示出)上的点。在一些示例中，相机206可以是深度相机，其可以被用于测量从相机到由相机捕获的图像的各个部分的距离。在一些情况下，图像的各个像素可具有关联的距离数据，该距离数据指定从相机到对应于相应像素的图像部分的距离。以这种方式，相机206可以用于确定从相机到手202的多个点的距离。类似地，相机206可以用于确定从相机到手204的多个点的距离。例如，一些这样的点在手202和204上被随机地示出。相机206可以被用于确定从相机到点202a、202b、202c、202d和202e中的每一个的距离。相应地，这样的距离可以被处理器208使用通过下文描述的一些处理来确定手202的定位和/或取向。类似地，相机206可以被用于确定从相机到点204a、204b、204c和204d中的每一个的距离。相应地，这样的距离可以被处理器208使用通过下文描述的一些处理来确定手204的定位和/或取向。

在一些示例中，手202和204可以握住手写笔或其他对象。在这样的示例中，相机206可以被用于确定从相机到手写笔或其他对象上的多个点中的每一个的距离。相应地，这样的距离可以被处理器208使用来确定手写笔和指针(或其组合)的定位和/或取向。

在其他示例中，相机206不需要是深度相机，而是可以是能够在没有距离数据情况下捕获图像的相机。在这些示例中，图像处理器可以分析由相机捕获的图像以确定手202和204或其他对象的定位和/或取向。在更多其他示例中，一个或多个额外的相机可以被包括以从不同的角度捕获对象的图像。例如，两个适当放置的相机可以捕获手或其他对象的立体图像。在这种情况下，视差可以是帮助处理器208确定手或其他对象的定位和/或取向的因素。

图3是包括相机302、图像处理器模块304和存储器306的示例系统300的框图。例如，相机302可以与相机206相同或相似。图像处理器模块304可以与图像处理器模块114相同或相似。在一些示例中，相机302可以捕获随后提供给图像处理器模块304的图像(例如，表示图像的数据)，图像处理器模块304可以分析图像中的对象的特征。在一些情况下，这样的对象可以包括表面和具有与表面接触的至少一部分的其他对象。在其他情况下，这样的对象可以包括表面和不与表面接触的其他对象(例如悬停对象)。在更多其他情况下，这样的对象可以包括表面和具有至少一部分与表面接触或不接触的单个对象。例如，图像处理器模块304可量化(例如，测量)图像中的对象的位置、取向、颜色和/或亮度。在一些情况下，图像处理器模块304可以基于对象的光学特性来区分对象的纹理。例如，与具有凹槽或纹理表面的对象相比，具有光滑金属表面的对象(例如，手写笔)可以在图像中看起来更亮。又例如，与具有光滑金属表面的对象(例如，手写笔)相比，具有米色表面的对象(例如，手指)可能在图像中看起来不同并且可区分。再举一个例子，与不具有检测到的(例如，纸张的)边缘的对象(例如，其上没有纸张的桌面)相比，具有与边缘之外的表面的边缘和颜色形成对比的边缘和颜色(例如，白色)的对象(例如，桌面上的纸张)可以在图像中看起来不同并且可区分。再举一个例子，与具有具体轮廓的对象(例如，放置在桌面上的手)相比，不具有检测到的边缘的对象(例如，桌面)可能在图像中看起来不同并且可区分。

图像处理器模块304可以访问存储器306，其可以存储包括材料的光学特性、纹理、轮廓、可能的取向以及候选对象的可能相对位置的图像数据的数据库。在一些示例中，图像处理器模块304还可以或者替代地访问经由互联网或云308可访问的多种类型的数据库或存储器中的任何一种。因此，例如，图像处理器模块304可以在识别对象类型的过程中识别对象和访问存储器306。以这种方式，图像处理器模块304可以确定对象是否是手写笔、手指、手、两个或更多个手指(以及它们相对于彼此的位置或定位)、伸展在展平位置或任何多个其他位置之一上的手、桌面、纸张、桌面上的纸张、或者各种取向或定位中的许多其他类型的对象中的任何一种。由图像处理器模块304执行的这种技术可以被扩展到图像中的多于一个对象。由图像处理器模块304执行的这些技术还可以使系统300能够确定对象是否与表面(例如，桌面)接触。在一些示例中，图像处理器模块304可以访问比较逻辑模块310，该比较逻辑模块310能够至少部分地基于由图像处理器模块304执行的图像分析来将图像彼此比较。

在一些配置中，在确定(一个或多个)对象的定位之后，系统300可以修改由显示器显示的多个特征或对象中的任何特征或对象。除了别的以外，这些特征或对象可以包括显示器的具体部分的文本、绘图、图形对象、窗口、菜单、图标、亮度和/或对比度，等等。

图4示出了示例环境402中的示例显示设备400的正视图，其中本文所述的示例过程可以操作。显示设备400可以包括显示器404和相机406。在一些示例中，显示器404不需要包括相机。在一些示例中，环境402可以包括在显示设备400外部(例如，不与之共处)的相机410。图4包括包含X轴、Y轴和Z轴的正交坐标系，其中X轴和Y轴描述与显示器404平行的平面，并且Z轴垂直于显示器(例如，沿着从图中“突出”的方向)，如圆点所示。

相机406可以与可以在诸如智能手机、平板电脑等的多种类型的显示设备中的任何一种上找到的前置相机类似或相同。在一些情况下，相机406可以是深度相机。相机406可以主要沿Z轴以发散角具有视场，使得随着Z的增加，在图像中捕获的区域也如此。

在示例中，相机406、显示设备400和显示器404不需要垂直于触摸表面。在各种示例中，相机406可以包括一些显示设备的正面和/或背面相机。

相机406可以将图像提供给例如与显示设备400相关联的处理器，诸如处理器104。这样的图像还可以(或替代地)被提供给图像处理器，诸如图像处理器114或图像处理器模块304(或其组合)。在一些示例中，光传感器408可以向处理器提供强度和/或光谱信息(例如，环境光的光谱)的测量结果。这样的测量结果也可以(或替代地)被提供给图像处理器。在一些示例中，光传感器408可以包括光电二极管、光电晶体管、光电池或其他光敏设备。在一些示例中，系统可以使用由光传感器408提供的关于显示设备400周围的区域中的环境光的测量结果。系统可以响应于测量的环境光来调整显示图案的多个特征(例如，分辨率、亮度、颜色等等)中的任何一个，如下所述。

在包括相机406和诸如410的附加相机(在一些示例中可以是深度相机)的一些示例中，附加相机可以具有处于发散角的主要沿X轴或Y轴(或者X和Y的组合，或者X轴、Y轴和Z轴的组合)的视场，使得随着距离附加相机的距离增加，在由附加相机产生的图像中捕获的区域也增加。在一些示例中，相机406(以及任何其他相机，诸如410)可以被配置为在显示设备400前方和/或周围的区域中和在可以是桌面、台面、地板或其他类型的表面(不需要是水平或平坦)的表面414上方的区域中捕获图像(或诸如用于视频的多个图像)。在一些情况下，显示设备400可以搁置(例如放下并设置)在表面414上。例如，显示设备400可以包括机械设备，例如允许显示设备在边缘(横向或纵向)竖立的支架(未示出)。在一些情况下，由相机(例如，406、410)在图像中捕获的一个或多个对象可以至少部分地与表面414接触(例如，触摸)，而在其他情况下，一个或多个对象可以在表面414上方并且不与表面414接触。在后一种情况下，这样的对象可以被称为悬停对象。

图5是包括位于显示设备504前方的区域中的对象502的系统500的透视图。在这个例子中，对象502是用户的手506的手指。对象502可以在表面510上追踪或“书写”图案、字符或形状508。在一些情况下，一张纸或其他类型的书写表面512可以被设置在表面510上。在其他情况下，纸不需要存在，并且书写表面512可以包括表面510的具体部分。图5包括对应于图4所示的正交坐标系，其包括X轴、Y轴和Z轴。

在一些示例中，显示设备504可以被设置在表面510的一部分上，该表面510在书写表面512“后”一定距离处。这样的距离可以在从大约几厘米到大约一米左右的范围内，尽管所要求保护的主题在这方面不受限制。在一些示例中，用户可以在观察显示设备504的显示器514的同时使用表面510或书写表面512与显示设备504交互。在一些示例中，用户可以直接和/或使用表面510与显示设备504交互，或者在观察显示设备504的显示器514的同时在表面512上书写。在表面510之上的3D空间上或在表面510之上的3D空间中发生的活动可以由显示器514实时显示。

可以被设置在显示设备504(例如，诸如相机406)中的相机516可以具有包括表面510(例如，书写表面512)和对象502的至少一部分的视场518。尽管虚线箭头指示视场518沿表面510，但视场也可包括表面510上方的3D空间。因此，由照相机516(和/或任何其他照相机)捕获的图像可以包括表面510上方的空间中的对象，诸如用户的手506以及对象502(手的手指)以及书写表面512(如果存在)的边缘。图像还可以包括形状508如果该形状是被实际绘制(例如，实际的绘图或不具有实际的绘图的轨迹或运动)在书写表面512之上，而不是其中形状508是虚拟的，而仅仅是手指的轨迹(例如，沿着路径的移动)。在一些配置中，用户可以(例如)在纸表面上使用笔或铅笔，并且纸上的墨水或石墨轨迹也可以被用于通过相机捕获笔/铅笔的运动。

在一些示例中，系统500的处理器可以使用图像处理技术，诸如上面描述的那些技术，例如来确定许多事物。例如，系统的处理器可以确定对象502是手指还是手写笔的尖端。系统可以检测手506的取向和位置(和/或手506的各个手指的取向和位置)，手506是否握住手写笔(未示出)或者是否多于一个手指(例如，除了对象502之外)与书写表面512接触。例如，检测取向和位置可以允许系统500的处理器确定手506(和/或任何其它对象)的手势或运动(如果存在)。

在一些示例中，多个图像(例如，以毫秒量级周期性地或不时地捕获的视频或图像)可以允许系统500感测形状508是否是虚拟的。如果形状508是真实的，则形状508可以被捕获在图像中并且使用图像处理技术与存储器中的形状比较，以确定形状508是否是特定字符，例如包括在ASCII或UTF-8中的特定字符。系统500的处理器可以实时地“再现”形状508和对象502作为显示设备504的显示器514中的显示元素520和522。显示元素520和522可以通过任何因素放缩，使得例如显示元素可以是形状508和对象502的放大或缩小表示。在下文进一步描述的一些示例中，这种放缩因子可以至少部分地基于对象502和手506的位置和/或取向。在另一个实例中，放缩因子可以至少部分地基于另一只手(一个或多个)、一个或多个手写笔、一个或多个对象和/或对象502和手506的取向的位置和/或取向。例如，如果对象502正在触摸或者相对接近表面510，则系统500的处理器可以以相对高的分辨率以特写方式显示元素520和522。另一方面，随着对象502远离表面510移动，系统500可以从元素520和522缩小，以在围绕对象502的区域中显示更多的表面510。

在书写表面512包括一张纸或可书写材料的一些示例中，通过图像处理和分析，系统500的处理器可以确定书写表面512是否、何时以及由书写表面512在表面510上旋转或平移多少。这样的运动(其示例由弯曲箭头指示)，例如可以关于诸如表面510上的特定点、显示设备504上的特定点或相机516之类的多个参考点中的任何参考点来确定。

图6和图7是包括在显示设备604前方的区域中的对象602的系统600的透视图。在这个例子中，对象602是手写笔，其可以由用户的手(未示出)握住。手写笔602可被用于在表面608上追踪或“书写”字符、形状、图案或绘图606。在一些情况下，一张纸或其他类型的书写表面610可以被设置在表面608上。在其他情况下，纸不需要存在，并且书写表面610可以包括表面608的特定部分。手写笔602的特定部分距书写表面610一段距离D。图6和图7包括对应于图4中所示的正交坐标系，其包括X轴、Y轴和Z轴。

在一些示例中，显示设备604可以被设置在表面608的一部分上，该表面608的一部分在书写表面610“后”一定距离处。这样的距离可以在从大约几厘米到大约一米左右的范围内，尽管所要求保护的主题在这方面不受限制。可以被设置在显示设备604(例如，诸如相机406)中的相机612可以具有包括表面608(例如，诸如书写表面610)和手写笔602的至少一部分的视场。该视场还可以包括表面608上方的3D空间。因此，由相机612(和/或任何其他相机)捕获的图像可以包括表面608上方的空间中的对象，诸如手写笔602、持有手写笔602的用户的手(如果存在)以及书写表面610(如果存在)的边缘。图像也可以包括绘图606如果该绘图被实际绘制在书写表面610上，这与绘图606是虚拟绘图的情况相反，仅仅是手写笔的轨迹(例如，沿着路径的移动)。

在一些示例中，系统600的处理器可以使用诸如上述那些的图像处理技术，例如来确定手写笔602是否是手指或手写笔的尖端。系统的处理器可以检测握住手写笔(未示出)的手的取向和位置。在一些示例中，处理器可以检测可被用于书写或指向书写表面610的部分的手写笔602的一部分。例如，在由相机612捕获的图像上使用图像处理技术，处理器可以确定距离D，该距离D是在手写笔602的可用于书写、绘图和/或指向的部分与表面608(或610)之间的距离。

系统600的处理器可以在显示设备604的显示器618中分别实时地将绘图606和手写笔602(和/或存储相关信息)“再现”为显示元素614和616。显示元素614和616可以按任何因子来放缩，使得例如显示元素可以是绘图606和/或手写笔602的放大或缩小表示。在一些示例中，这种放缩因子可以至少部分地基于距离D。在一些实施方式中，手写笔602可以在其尖端上包括压敏按钮，以感测手写笔何时被按压在表面上。手写笔也可以(或者替代地)包括加速计以感测倾斜和其他取向。例如，系统600的处理器可以在图7中以相对高分辨率以特写方式显示元素614和616，其中D被示为相对较小。另一方面，当手写笔602从表面610移开且D增加时，如图6所示，系统600的处理器可从元素614和616缩小，以在手写笔602周围的区域中显示更多的表面610。使缩放量响应于距离D可允许显示器自动地缩放显示的工作空间以进行编辑或绘制。例如，响应于用户将编辑或绘图工具(例如，手写笔)放置在靠近(或触摸)表面610的位置，显示器可以放大显示的工作空间，该显示的工作空间以显示器中的点为中心，该点对应于表面610上的绘制工具的定位。类似地，响应于用户将编辑或绘制工具移动离开表面610，显示器可以从显示的工作空间缩小，以便显示所显示的工作空间的较大部分。

图8是包括处理器(例如，处理器104)和位于显示设备804前方的区域中的对象802的系统800的透视图。在这个示例中，对象802是手。图8包括对应于图4中所示的正交坐标系，其包括X轴、Y轴和Z轴。

在一些示例中，显示设备804可以被设置在表面806的一部分上，该表面806的一部分在书写表面808“后”一定距离处。这样的距离可以在从大约几厘米到大约一米左右的范围内，尽管所要求保护的主题在这方面不受限制。可以被设置在显示设备804中的相机810可以具有包括表面806(例如，诸如书写表面808)和对象802的至少一部分的视场。该视场还可以包括表面806上方的3D空间，使得对象802的取向和/或定位可以被检测。因此，由相机810(和/或任何其他相机)捕获的图像可以包括表面806上方的空间中的对象，例如对象802和书写表面806和/或808。

对象802(在该示例中是手)可以由用户用来通过旋转、平移、手指伸展或伸长等中的一个或多个来描绘手势。本文中，手势被认为是手(或其他身体部位，其可以包括非身体部位，例如手写笔)的运动和/或取向，以表达或帮助表达处理器执行运动的意图。例如，一个手势可以是具有两个手指向外伸展的手(例如802)，另一个手势可以是具有一个手指向外伸展的手，并且另一个手势可以是处于水平取向的手，其可能在至少一段特定时间内不动。

在一些示例中，系统800的处理器可以使用诸如上文描述的那些图像处理技术，例如来确定由对象802描绘的手势。在一些示例中，系统的处理器可以通过分析包括对象802的图像(或一系列图像)或与图像相关联的深度数据来检测对象802的取向和位置。处理器可以使用图像处理技术将图像中的对象与存储器中的形状和手势比较。找到合理的匹配(例如，在预定阈值内的紧密匹配或图像和形状参数的匹配)可以导致处理器确定对应于对象802的取向和/或定位的手势。处理器可将手势映射或转换成可影响代码执行的命令，例如，这可改变显示器812中的元素(例如，文本、音频、绘图等)的显示方式。在一些示例中，这样的手势可以被用于控制显示器812中的元素的平移和缩放。在其他示例中，这样的手势可以被用来旋转或平移显示器812中的元素。在更多的其他示例中，这样的手势可以被用于显示器812中的元素的多个编辑过程中的任何一个，仅举几个例子。

在一些示例中，对象802的取向和/或定位可以随时间变化，并且系统的处理器可以测量这些变化，以确定对象或其部分的速度或速率。以这种方式，例如，处理器可以检测诸如挤压运动的用户运动以影响缩放或其他显示的对象。在更多的其他示例中，系统可以检测诸如手或手指旋转之类(例如，手指的相对位置的改变)的用户运动以影响所显示的对象的旋转。

图9是包括处理器(例如处理器104)和处于显示设备906前方的区域中的对象902和904的系统900的透视图。在下文中，对象902被认为是手写笔或其他细长对象(例如棒，咖啡搅拌器，发夹等)并且对象904被认为是手，尽管所要求保护的主题不限于此方面。图9包括对应于图4中所示的正交坐标系，其包括X轴、Y轴和Z轴。

在一些示例中，显示设备906可以被设置在表面908的一部分上，该表面908的一部分在书写表面910“后”一定距离处。这样的距离可以在从大约几厘米到大约一米左右的范围内，尽管所要求保护的主题在这方面不受限制。可以被设置在显示设备906中的相机912可以具有包括表面908(例如，诸如书写表面808)、手写笔902和手904的至少一部分的视场。该视场还可以包括表面908上方的3D空间，使得手写笔902和手904的取向和/或定位可以被检测。因此，由相机912(和/或任何其他相机)捕获的图像或视频可以包括表面908上方的空间中的对象，诸如手写笔902、手904和书写表面910和/或908。

在一些示例中，手写笔902和手904(或其部分)的运动、定位和/或取向可以被用来操作显示在显示器916上的放射状菜单914。在一些情况下，放射状菜单914可以包括各个区域918中的各种绘图颜色、纹理、特征、编辑命令等。例如，一些命令类可以由手904的手指在位置920处触摸表面908来实现，保持触摸位置以进入特定输入模式，然后在诸如由图中的径向箭头指示的多个方向中的任何方向上拖动手指。在一些情况下，触摸(例如，触地事件)可以通过可被构建到显示设备906中的麦克风922的音频输入来检测。在一些情况下，由相机912捕获的、由触摸产生的声音与触摸手指的图像或视频的组合，可以被用来检测触摸。在其他情况下，触摸(例如，触地事件)可以通过分析包括聚集在表面上的点或区域处的手指和手指阴影的图像来检测。

在另一个示例中，一些命令类可以由手904的手指在位置920处触摸表面908、保持触摸位置以进入特定输入模式、然后在特定方向上拖动或轻弹手指和/或手写笔902来实现。在更多的另一示例中，一些命令类可以由手904的多于一个手指在诸如924、926和/或928的定位处触摸表面908、将触摸位置保持超过阈值时间量以进入特定输入模式、然后在特定方向上拖动或轻弹手指和/或手写笔来实现。在更多的另一示例中，一些命令类可以通过将手904的一个或多个手指轻敲在表面908上来实现。这样的敲击可以通过敲击产生的声音、敲击手指的图像或视频、或两者来检测。在一些示例中，不同的放射状的菜单可以至少部分地基于手指触摸表面的次数来显示。

图10是包括处理器(例如处理器104)和处于显示设备1006前方的区域中的对象1002和1004的系统1000的透视图。在下文中，对象1002被认为是手写笔或其他细长对象，并且对象1004被认为是手，尽管所要求保护的主题不限于此方面。图10包括对应于图4中所示的正交坐标系，其包括X轴、Y轴和Z轴。

在一些示例中，显示设备1006可以被设置在表面1008的一部分上，该表面1008的一部分在手写笔1002和手1004“后”一定距离处。这样的距离可以在从大约几厘米到大约一米左右的范围内，尽管所要求保护的主题在这方面不受限制。可以被设置在显示设备1006中的相机1010可以具有包括表面1008、手写笔1002和手1004的至少一部分的视场。该视场还可以包括表面1008上方的3D空间，使得手写笔1002和手1004的取向和/或定位可以被检测。因此，由相机1010(和/或任何其他相机)捕获的图像或视频(例如，多个图像)可以包括表面1008上方的空间中的对象，诸如手写笔1002、手1004和表面1008。

在一些示例中，手写笔1002和手1004(或其部分)的运动、定位和/或取向可被用来控制显示器1012和/或显示器本身上显示的元素。在一些情况下，这种控制可以包括在表面1008上的绘制对象(例如，字符、绘图等(实际上或虚拟地绘制))以及显示在显示器1012上的绘制对象的大小和定位之间建立放缩因子。例如，包括伸出手指的手1004和伸出的拇指1014的特定手势可以被解释为操作显示器1012以使用与在表面1008上绘制的刻度一对一的刻度来显示绘制的对象的命令。在一些示例中，由伸出的拇指1014和食指1018限定的表面1008上的区域1016可以被处理器解释为控制显示器1012以显示区域1016以及已经在该区域中被绘制的任何虚拟或真实的对象的命令。在其他示例中，具有本文中所描述的特性的这样的区域可以使用其他手势来定义或建立，并且所要求保护的主题在这方面不受限制。在这种情况下，区域1016和它包括的对象可以以相对较高的分辨率来显示，因为基本上全部的显示器1012被用于显示区域1016。在一些示例中，区域1016可以在表面1008上被平移或旋转，对应于手1004的移动(保持伸出的拇指1014和食指1018)。

虽然区域1016继续由手1014的手势来限定和维持，但是如果对象在区域1016的边界内，则已经在表面1008上绘制的任何对象(虚拟或真实的)可以由显示器1012显示。相应地，当手1014在表面1008的不同部分中移动时，区域1016也是如此，并且由区域1016的边界包围的对象被显示。例如，如图所示(例如，“a b c”被显示)，在区域1016的边界内的文本串1020的部分可以被显示在显示器1012中。然而，如果手1004向右移动，使得位于区域1016的边界内的文本串1020的部分包括附加字母“d e”，则“a b c d e”将被显示。如果手1004进一步向右移动，使得位于区域1016的边界内的文本串1020的部分不再包括字母“a”但包含字母“b c d e f”，则“a”不再被显示而“b c d e f”被显示。例如，这些字母可以通过手写笔1002虚拟绘制(例如，手写笔的尖端遵循字母的轨迹，但表面1008上的实际书写不发生)或真实绘制(例如，手写笔的尖端包括诸如墨水的书写物质，遵循字母的轨迹，并且表面1008上的实际书写发生)。在这个示例中，如果手写笔1002绘制真实或虚拟字母，则如果字母在区域1016的边界内，则该绘图过程和所得字母可以由显示器1012实时显示。另一方面，如果手写笔1002绘制真实字母，则如果字母在区域1016的边界之外，则该绘制过程和所得字母可能不会被显示器1012实时显示。然而，如果手1004移动，则字母可以稍后被显示，使得区域1016的边界包含这些字母。相反，如果手写笔1002绘制虚拟字母，则如果字母在区域1016的边界之外，则该绘制过程和所得字母可能永远不会被显示器1012显示。

在一些示例中，系统可以识别笔(或其他对象)被卷在握着笔的手中，并且只有手的食指距表面(例如，1008)大致为零距离，因此食指可以自动切换模式以追踪套索(例如，为了能够选择页面上的对象)。在一些示例中，该系统可以识别出笔被卷入手中，并且该手的两个手指距表面(例如，1008)大致为零。除了使用捏的方式来缩放整个页面，小放大镜可能会出现在显示器的手指之间并放大该区域。在又一些其他示例中，用户可以用(例如，在优势手中的)手写笔跟踪，同时用另一只手(例如，在非优势手中)定位工作空间(平移/轻弹/缩放)。

图11是包括处理器(例如，处理器104)和处于显示设备1104前方的区域中的对象1102的系统1100的透视图。在该示例中，对象1102是手。图11包括对应于图4所示的正交坐标系，其包括X轴、Y轴和Z轴。

在一些示例中，显示设备1104可以(或可以不)被布置在表面1106的一部分上。可以布置在显示设备1104中的相机1108可以具有包括手1102的视场。例如，视场可以包括表面1106上方的3D空间，使得对象手的取向和/或定位可以被检测。因此，由相机1108(和/或任何其他相机)捕获的图像可以包括表面1106和表面1106上方空间中的对象，诸如手1102。

手1102可以被用户用来通过旋转、平移、手指伸展或伸长等来描绘手势。例如，这种手势可以由相对靠近(例如，小于20或30厘米)显示设备1104的显示器1110的手来描绘。手势可以包括手1102的特定形状或取向，手1102可以被保持在显示器1110的前方或穿过摄像机1108的视野。例如，一个手势可以是平坦配置中的手1102。在另一个示例中，手势可以是拳头状配置中的手1102。其他手势可涉及具有一个或多个手指伸展的手1102。在一些示例中，捕获图像的图像分析可以被用于确定特定手是否是用户的右手或左手。例如，与用右手描绘的特定手势相关联的命令可以不同于用左手描绘的相同特定手势。

在一些示例中，系统1100的处理器可以使用例如上述的图像处理技术来确定手1102描绘的手势。在一些示例中，系统的处理器可以通过分析包括手1102的图像或与图像相关联的深度数据来检测手1102的形状、取向和/或位置。处理器可以使用图像处理技术将图像中的对象与存储器中的形状和手势比较。寻找合理的匹配(例如，在预定阈值内的图像和形状参数的近似匹配或匹配)可以导致由处理器确定对应于手1102的形状、取向和/或定位的手势。处理器可将手势映射或转换成可影响代码执行的命令，例如，这可改变显示器1110中的元素(例如，文本，音频，图画等)的显示方式。在一些示例中，这样的手势可以被用于控制显示器1110中的元素的平移和缩放。在其他示例中，这种手势可以被用于旋转或平移显示器1110中的元素。在其他示例中，这样的手势可以被用于显示器1110中的元素的多个编辑过程中的任何一个，仅举几个例子。

在一些示例中，手1102的形状、取向和/或定位可以随时间改变，并且系统的处理器可以测量这种改变以确定手或其部分的速率或速度。以这种方式，例如，处理器可以检测用户运动，诸如手1102被向左或向右滑动。在其他示例中，系统可以检测诸如手1102旋转的用户运动。

图12是用于操作用户界面的示例过程1200的流程图。例如，过程1200可以由处理器执行。例如，过程1200可由计算设备102执行，如图1所示。在框1202处，处理器可以从相机接收对象和表面的图像数据。在框1204处，处理器可以分析图像数据以确定对象相对于表面的位置和取向。在框1206处，处理器可以至少部分地基于位置或取向来确定表面上方的对象的至少一部分的距离(例如，高度)。在菱形框1208处，处理器可以确定表面上方的对象的至少一部分的距离是否大致为零。如果是，则过程1200进行到框1210，在框1210中，处理器可以追踪对象的在表面上的至少部分以确定由对象的在表面上的部分遵循的图案。在框1212处，处理器可以将图案显示在显示器中。另一方面，如果对象的至少部分在表面上方的距离基本上不为零(例如，诸如高于阈值)，则过程1200进行到框1214，其中处理器可以将对象的取向与取向和相应手势的数据库比较以确定由对象执行的手势的类型。

图13是用于操作用户界面的示例过程1300的流程图。在一些示例中，过程1300可以是过程1200的延续。过程1300的每个框可以独立于其他框来执行，使得不需要执行所有框。例如，过程1300可以由处理器执行。例如，过程1300可以由计算设备102执行，如图1所示。在框1302处，处理器可以通过由对象执行的手势来控制显示器上的菜单。在框1304处，处理器可以显示与显示器的一个或多个显示元素叠加的对象的表示。

在框1306处，处理器可以将显示器的一部分与表面的参考部分进行协调。在框1308处，处理器可以确定对象相对于表面的参考部分的位置。在框1310处，处理器可以至少部分地基于对象相对于参考部分的位置在显示器的定位上显示对象。

图14是用于操作用户界面的示例过程1400的流程图。例如，过程1400可以由处理器执行。例如，过程1400可以由计算设备102执行，如图1所示。在框1402处，处理器可以从相机接收图像，图像包括该区域中的表面以及表面上或表面上方的对象的表示。

在框1404处，处理器可分析图像以确定对象相对于表面的位置和取向。在框1406处，处理器可以确定表面上方的对象的至少一部分的距离。在框1408处，处理器可将图像与至少一个其他图像比较以确定对象的位置和取向是手势还是书写运动。在框1410处，处理器可以驱动显示器以至少部分地基于对象的位置和取向来显示一个或多个显示元素。

图15是用于操作用户界面的示例过程1500的流程图。在一些示例中，过程1500可以是过程1400的延续。过程1500的每个框可以独立于其他框来执行，使得不需要执行所有框。例如，过程1500可以由处理器执行。例如，过程1500可以由计算设备102执行，如图1所示。在框1502处，处理器可分析图像以确定第二对象相对于表面或相对于第一对象的位置和取向。

在框1504处，处理器可以将图像与至少一个其他图像比较，以确定第一对象和第二对象的组合行为是手势还是书写运动。在框1506处，处理器可以驱动显示器以至少部分地基于第一对象和第二对象的组合行为来显示一个或多个显示元素。在框1508处，处理器可至少部分地基于表面上方的对象的至少一部分的距离来控制显示器的至少一部分的缩放水平。在框1510处，如果对象的至少一部分在表面上方的距离为零，则处理器可以确定对象的行为是书写运动。在框1512处，处理器可以将图像与至少一个其他图像比较以确定可写入表面的平移和/或旋转的量。在框1514处，处理器可以驱动显示器以显示与一个或多个显示元素叠加的对象的表示。在框1516处，处理器可通过将图像中的对象的表示与纹理或材料的数据库比较来识别对象的纹理或材料。

图12至图15中所示的操作流程被图示为表示可以用硬件、软件、固件或其组合来实现的操作序列的框和/或箭头的集合。描述框的序列不意图被解释为限制，并且任何数量的所描述的操作可以以任何顺序组合以实现一个或多个方法或替代方法。另外，在不脱离本文所述主题的精神和范围的情况下，单独的操作可以从操作流程中省略。在软件的上下文中，框表示计算机可读指令，当由一个或多个处理器执行时，该计算机可读指令配置处理器以执行所述的操作。在硬件的上下文中，框可以表示被配置为执行所述操作的一个或多个电路(例如，FPGA、专用集成电路-ASIC等)。

图12-15中所示的操作流程中的任何描述、元素或框可以表示包括用于实现例程中的特定逻辑功能或元素的一个或多个可执行指令的代码的模块、段或部分。

示例条款

A.一种系统，包括：显示器，能够由一个或多个处理器操作；相机，被配置为捕获显示器外部的区域的图像；以及存储器，该存储器存储指令，该指令在被一个或多个处理器执行时使一个或多个处理器执行包括以下的操作：从相机接收图像，该图像包括该区域中的表面和表面上或上方的对象的表示；分析图像，以确定对象相对于表面的位置和取向；确定对象的至少一部分在表面上方的距离；将图像与至少一个其他图像比较，以确定对象的位置和取向是否对应于手势或书写运动；以及至少部分地基于对象的位置和取向中的至少一个是否对应于手势或书写运动来驱动显示器，以输出一个或多个显示元素。

B.根据段落A所述的系统，其中该对象是第一对象，其中图像还包括第二对象的表示，并且其中所存储的指令在被该一个或多个处理器执行时使该一个或多个处理器执行包括以下的操作：分析图像，以确定第二对象相对于表面或第一对象中的至少一个的位置和取向；将图像与至少一个其他图像比较，以确定第一对象和第二对象的组合位置和取向是手势还是书写运动；以及至少部分地基于第一对象和第二对象的组合位置和取向来驱动显示器，以输出一个或多个显示元素。

C.根据段落B所述的系统，其中第一对象包括用户的手，并且第二对象包括由用户的手握住的手写笔。

D.根据段落A所述的系统，其中所存储的指令在被一个或多个处理器执行时使一个或多个处理器执行包括以下的操作：驱动所述显示器，以至少部分地基于手势或书写运动来输出放射状菜单。

E.根据段落A所述的系统，其中所存储的指令在由一个或多个处理器执行时使一个或多个处理器执行包括以下的操作：至少部分地基于对象的至少一部分在表面上方的距离来控制显示器的至少一部分的缩放水平。

F.根据段落A所述的系统，其中所存储的指令在由一个或多个处理器执行时使一个或多个处理器执行包括以下的操作：如果对象的至少一部分在表面上方的距离为零，则确定对象的位置和取向是书写运动。

G.根据段落A所述的系统，其中所存储的指令在被一个或多个处理器执行时使一个或多个处理器执行包括以下的操作：将图像与至少一个其他图像比较，以确定表面的平移或旋转的量。

H.根据段落A所述的系统，其中相机包括深度相机，其中来自相机的图像还包括对象的深度数据，并且其中一个或多个处理器至少部分地基于深度数据来确定对象相对于表面的位置和取向。

I.根据段落A所述的系统，其中所存储的指令在被一个或多个处理器执行时使一个或多个处理器执行包括以下的操作：驱动显示器，以输出与一个或多个显示元素叠加的对象的表示。

J.根据段落A所述的系统，其中系统包括手持式电子显示设备。

K.根据段落A所述的系统，其中所存储的指令在被一个或多个处理器执行时使一个或多个处理器执行包括以下的操作：通过将图像中的对象的表示与纹理或材料的数据库比较，来识别对象的纹理或材料。

L.一种设备，包括：显示器；深度相机，被指向显示器前方的空间，其中该空间包括表面；处理器，用以接收由深度相机捕获的深度数据，其中处理器被配置为从深度数据确定包括表面的空间中的对象的类型、对象距表面的距离、以及对象的取向或形状中的至少一个；以及其中处理器还被配置成至少部分地基于对象的类型、距离和取向或形状来确定由对象执行的手势或书写运动。

M.根据段落L所述的设备，其中处理器还被配置为：比较对象的距离或取向与对象的先前确定的距离或取向，以推断对象的运动方向或速度；以及至少部分地基于对象的运动方向或速度来确定手势的类型。

N.根据段落L所述的设备，还包括一个或多个麦克风，并且其中处理器被还被配置为：至少部分地基于来自一个或多个麦克风的音频信号来确定由对象执行的手势或书写运动。

O.根据段落L所述的设备，其中处理器还被配置为：至少部分地基于对象在表面上方的距离来控制显示器的至少一部分的缩放水平。

P.根据段落L所述的设备，其中处理器还被配置为：在显示器上显示对象的表示，其中至少部分地基于对象在表面上方的距离来放缩对象的表示。

Q.一种方法，包括：从相机接收对象和表面的三维(3D)图像数据；分析3D图像数据，以确定对象相对于表面的位置和取向；至少部分地基于位置或取向来确定对象的至少一部分在表面上方的距离；如果对象的至少一部分在表面上方的距离大致为零，则：追踪对象在表面上的至少一部分，以确定由对象的在表面上的一部分遵循的图案；并在显示器上输出图案；以及如果对象的至少一部分在表面上方的距离高于阈值，则：将对象的取向与取向和对应手势的数据库比较，以确定由对象执行的手势的类型；以及执行与由对象执行的手势的类型相对应的操作。

R.根据段落Q所述的系统，其中执行操作包括：通过由对象执行的手势来控制显示器上的菜单。

S.根据段落Q所述的系统，其中执行操作包括：显示与显示器的一个或多个显示元素叠加的对象的表示。

T.根据段落Q所述的系统，还包括：选择显示器的一部分，以对应于表面的参考部分；确定对象相对于表面的参考部分的位置；以及至少部分地基于对象相对于参考部分的位置在显示器的定位上输出对象。

虽然技术已经用特定于结构特征和/或方法动作的语言来进行了描述，但是应当理解，所附权利要求不一定限于所描述的特征或动作。相反，所述特征和行为被描述为这种技术的示例实现。

除非另有说明，否则上述的所有方法和过程可全部或部分地由一个或多个通用计算机或处理器执行的软件代码模块来实现。代码模块可以被存储在任何类型的计算机可读存储介质或其他计算机存储设备中。替代地，一些或全部方法可全部或部分地由专用计算机硬件(诸如FPGA，ASIC等)来实现。

除非另有特别说明，否则诸如“能够”、“可能”、“应该”或“可以”等的条件语言被用于指示某些示例包括但是其他示例不包括所述特征、元素和/或步骤。因此，除非另有说明，否则这样的条件语言并不意味着特征、元件和/或步骤对于一种或多种示例以任何方式是必须的，或者一个或多个示例必然包括用于在具有或不具有用户输入或提示的情况下决定这些特征、元素和/或步骤是否包括在或将在任何特定示例中执行的逻辑。

除非另有特别说明，诸如短语“X、Y或Z中的至少一个”的连接语言应被理解为表示项目、术语等可以是X、Y或Z，或者是它们的组合。

许多变化和修改可以对上述示例做出，其要素被理解为是其他可接受的示例。所有这些修改和变化旨在被包括在本公开的范围内。

Claims

1.一种系统，包括：

显示器，能够由一个或多个处理器操作；

相机，被配置为捕获所述显示器外部的区域的图像；以及

存储器，其存储指令，所述指令在被所述一个或多个处理器执行时，使所述一个或多个处理器执行包括以下的操作：

从所述相机接收图像，所述图像包括所述区域中的表面和在所述表面上或上方的对象的表示；

分析所述图像，以确定所述对象相对于所述表面的位置和取向；

确定所述对象的至少一部分在所述表面上方的距离；

将所述图像与至少一个其他图像比较，以确定所述对象的所述位置和所述取向是否对应于手势或书写运动；以及

至少部分地基于所述对象的所述位置和所述取向中的至少一个是否对应于所述手势或所述书写运动来驱动所述显示器，以输出一个或多个显示元素。

2.根据权利要求1所述的系统，其中所述对象是第一对象，其中所述图像还包括第二对象的表示，并且其中所存储的指令在被所述一个或多个处理器执行时，使所述一个或多个处理器执行包括以下的操作：

分析所述图像，以确定所述第二对象相对于所述表面或所述第一对象中的至少一个的位置和取向；

将所述图像与所述至少一个其他图像比较，以确定所述第一对象和所述第二对象的组合位置和取向是手势还是书写运动；以及

至少部分地基于所述第一对象和所述第二对象的所述组合位置和取向来驱动所述显示器，以输出一个或多个显示元素。

3.根据权利要求1所述的系统，其中所存储的指令在被所述一个或多个处理器执行时使所述一个或多个处理器执行包括以下的操作：

至少部分地基于所述对象的至少所述一部分在所述表面上方的所述距离来控制所述显示器的至少一部分的缩放水平。

4.根据权利要求1所述的系统，其中所存储的指令在被所述一个或多个处理器执行时使所述一个或多个处理器执行包括以下的操作：

如果所述对象的至少所述一部分在所述表面上方的所述距离为零，则确定所述对象的所述位置和所述取向是书写运动。

5.根据权利要求1所述的系统，其中所存储的指令在被所述一个或多个处理器执行时使所述一个或多个处理器执行包括以下的操作：

将所述图像与所述至少一个其他图像比较，以确定所述表面的平移或旋转的量。

6.根据权利要求1所述的系统，其中所述相机包括深度相机，其中来自所述相机的所述图像还包括针对所述对象的深度数据，并且其中所述一个或多个处理器至少部分地基于所述深度数据来确定所述对象相对于所述表面的所述位置和所述取向。

7.根据权利要求1所述的系统，其中所存储的指令在被所述一个或多个处理器执行时使所述一个或多个处理器执行包括以下的操作：

驱动所述显示器，以输出与所述一个或多个显示元素叠加的所述对象的表示。

8.根据权利要求1所述的系统，其中所存储的指令在被所述一个或多个处理器执行时使所述一个或多个处理器执行包括以下的操作：

通过将所述图像中的所述对象的所述表示与纹理或材料的数据库比较，来识别所述对象的纹理或材料。

9.一种设备，包括：

显示器；

深度相机，被指向所述显示器前方的空间，其中所述空间包括表面；

处理器，用以接收由所述深度相机捕获的深度数据，其中所述处理器被配置为从所述深度数据来确定：

包括所述表面的所述空间中的对象的类型；

所述对象距所述表面的距离；以及

所述对象的取向或形状中的至少一个；

并且其中所述处理器还被配置为至少部分地基于所述对象的所述类型、距离和取向或形状来确定由所述对象执行的手势或书写运动。

10.根据权利要求9所述的设备，其中所述处理器还被配置为：

比较所述对象的所述距离或所述取向与所述对象的先前确定的距离或取向，以推断所述对象的运动方向或速度；以及

至少部分地基于所述对象的所述运动方向或速度来确定所述手势的类型。

11.根据权利要求9所述的设备，还包括一个或多个麦克风，并且其中所述处理器还被配置为：

至少部分地基于来自所述一个或多个麦克风的音频信号来确定由所述对象执行的所述手势或所述书写运动。

12.根据权利要求9所述的设备，其中所述处理器还被配置为：

至少部分地基于所述对象在所述表面上方的所述距离来控制所述显示器的至少一部分的缩放水平。

13.根据权利要求9所述的设备，其中所述处理器还被配置为：

在所述显示器上显示所述对象的表示，其中至少部分地基于所述对象在所述表面上方的所述距离来放缩所述对象的所述表示。

14.一种方法，包括：

从相机接收对象和表面的三维(3D)图像数据；

分析所述3D图像数据，以确定所述对象相对于所述表面的位置和取向；

至少部分地基于所述位置或所述取向来确定所述对象的至少一部分在所述表面上方的距离；

如果所述对象的至少所述一部分在所述表面上方的所述距离大致为零，则：

追踪所述对象的在所述表面上的至少所述一部分，以确定由所述对象的在所述表面上的所述一部分遵循的图案；以及

在显示器上输出所述图案；以及

如果所述对象的至少所述一部分在所述表面上方的所述距离高于阈值，则：

将所述对象的所述取向与取向和对应手势的数据库比较，以确定由所述对象执行的手势的类型；以及

执行与由所述对象执行的手势的所述类型相对应的操作。

15.根据权利要求14所述的方法，还包括：

选择所述显示器的一部分，以对应于所述表面的参考部分；

确定所述对象相对于所述表面的所述参考部分的位置；以及

至少部分地基于所述对象相对于所述参考部分的所述位置在所述显示器的定位上输出所述对象。