CN105308535A

CN105308535A - 无需用手的协助

Info

Publication number: CN105308535A
Application number: CN201380077488.1A
Authority: CN
Inventors: D·丁; J·宋; W·李; Y·张
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2013-07-15
Filing date: 2013-07-15
Publication date: 2016-02-03
Also published as: WO2015009276A1; US20150193088A1

Abstract

设备、系统、媒体和/或方法可以涉及提供工作协助。可以识别可以由图像捕捉设备观察到的一个或多个用户动作，其中用户动作可指向不能以电子方式处理所述用户动作中的一个或多个的工作面。可以从工作面标识一个或多个感兴趣的区域，和/或可以从感兴趣的区域中提取内容，其中可至少基于用户动作中的一个或多个，确定感兴趣的区域。另外，还可以实现与内容相关联的一个或多个支持操作。

Description

无需用手的协助

背景技术

各实施例一般涉及协助。更具体而言，各实施例涉及基于用户动作，与工作面相关的，与从感兴趣的区域中提取的内容相关联的支持操作的提供无需用手的协助的实现。

协助可包括当用户正在与表面进行交互时，诸如当用户正在从基于纸张工作面中读取和/或向基于纸张工作面写时，向用户提供信息。在交互过程中，用户可以暂停阅读任务和/或写任务，以切换到笔扫描仪，用于协助。用户还可以暂停任务以握住摄像机，并捕捉内容，以获得定义。这样的技术可能不必要地给用户带来负担，通过，例如，要求用户切换到专门工具，要求用户握住摄像机或让摄像机静止，和/或中断阅读任务或写任务。另外，协助技术还可以涉及内容分析过程，该内容分析过程使用与工作面相关的参考材料，诸如通过访问印刷品的参考电子副本。这样的内容分析过程可能缺乏适当地辅助用户的足够粒度和/或不必要地浪费诸如功率、存储器、存储等资源。

附图简述

本领域内技术人员通过阅读下面的说明书和权利要求书并参照附图能清楚知道各实施例的各种优势，在附图中：

图1是根据一实施例的实现与基于用户动作从与工作面相关的感兴趣的区域中提取的内容相关联的支持操作的方法的示例的框图；

图2是根据一实施例的基于用户动作实现与工作面相关的与从感兴趣的区域中提取的内容相关联的支持操作的方法的示例的流程图；

图3是根据一实施例的实现从与基于工作面的用户动作相关的感兴趣的区域中提取的内容相关联的支持操作的基于显示器的方法的示例的流程图；

图4是根据一实施例的逻辑架构的示例的框图；

图5是根据一实施例的处理器的示例的框图；以及

图6是根据实施例的系统的示例的框图。

具体实施方式

图1示出了根据一实施例的基于一个或多个用户动作，实现与工作面相关的，与从一个或多个感兴趣的区域中提取的内容相关联的一个或多个支持操作的方法10。在所示示例中，支撑物12可以支撑工作面14。工作面14可包括用于完成任务的任何介质，其中任务可涉及读、写、绘图，编写，等等，或其组合。另外，可以由于某种原因，完成任务。例如，任务可包括个人任务(例如，业余活动)、学术任务(例如，作业活动)、专业任务(例如，职业分配活动)，等等，或其组合。

在一个示例中，工作面14可以涉及计算设备和/或数据平台的显示器，诸如能够以电子方式处理一个或多个用户动作(例如，触摸动作)的触摸屏。在另一个示例中，工作面14可能不能以电子方式处理用户动作中的一个或多个。工作面14可包括，例如，不能以电子方式处理一个或多个用户动作的写表面，诸如纸张、黑板(例如，粉笔板)、白板(例如，马克笔板)，支撑物12(例如，桌子的表面)，纸板，叠板，塑料、木材，等等的表面，或其组合。工作面14也可以包括不能以电子方式处理用户动作中的一个或多个的读表面，诸如杂志、书、报纸等等的表面，或其组合。

另外，支撑物12可以支撑设备16。设备16可包括诸如膝上型计算机、个人数字助理(PDA)、无线智能电话、媒体内容播放器、成像设备、移动因特网设备(MID)之类的任何计算设备和/或数据平台，诸如智能电话、智能平板、智能TV、计算机服务器等任何智能设备，或其任何组合。在一个示例中，设备16包括相对较高性能的移动平台，诸如具有相对较高的处理能力的笔记本(例如，可翻转笔记本、英特尔公司在美国和/或其他国家的注册商标)。设备16可包括显示器18，诸如触摸屏。例如，显示器18可以能够接收来自用户的触摸动作，和/或能够以电子方式处理触摸动作以实现与触摸动作相关联的目标(例如，突出显示单词、删去单词、选择链接，等等)。

另外，支撑物12还可以支撑图像捕捉设备，该图像捕捉设备可包括能够捕捉图像的任何设备。在一个示例中，图像捕捉设备可包括计算设备的集成摄像机、前向摄像机、后向摄像机、旋转摄像机、2D(二维)摄像机、3D(三维)摄像机、独立摄像机，等等，或其组合。在所示示例中，设备16包括可以由支撑物12支撑的集成的前向2D摄像机20。然而，图像捕捉设备和/或显示器可以被定位在任何位置。例如，支撑物12可以支撑独立摄像机，该独立摄像机可以，通过通信链路(例如，WiFi/无线保真，电气与电子工程师学会/IEEE802.11-2007、无线局域网/LAN媒体访问控制(MAC)和物理层(PHY)规范、以太网、IEEE802.3-2005，等等)，与不位于支撑物12上的一个或多个显示器(例如，壁装显示器)进行通信。在另一个示例中，可以使用不位于支撑物12上的独立摄像机(例如，壁装摄像机)，该独立摄像机可通过通信链路与一个或多个显示器进行通信，不管显示器是否由支撑物12支持。

另外，图像捕捉设备也可通过视场来定义一个或多个任务区域。在所示示例中，视场22可定义用户可以执行要由摄像机20观察到的任务(例如，读任务、写任务、绘图任务，等等)的一个或多个任务区域。例如，任务区域中的一个或多个可以由整个视场22、视场22的一部分，等等，或其组合来定义。相应地，支撑物12的至少一部分(例如，表面、边缘，等等)和/或工作面14(例如，表面、用户附近的区域，等等)可位于要由摄像机20观察到的任务区域和/或视场22中。类似地，在使用独立图像捕捉设备的情况下，支撑物12至少一部分和/或工作面14可以位于任务区域和/或独立图像捕捉设备的视场中，不管独立图像捕捉设备是否由支撑物12支撑。

如将比较详细地讨论的，设备16可包括识别一个或多个用户动作的手势模块。用户动作中的一个或多个可包括指向工作面14的一个或多个可见的手势，诸如指向手势、加下划线手势、画圈手势、标记手势、手指手势、手形手势，等等，或其组合。在一个示例中，可见的手势中的一个或多个可包括在工作面14的方向的请求协助的运动，诸如指向、加下划线、画圆圈，和/或标记运动。另外，可见的手势中的一个或多个可以不涉及物理地接触工作面14。例如，用户可以在的读操作过程中，圈出在工作面14之上且并与工作面14分离的一个区域，用于协助。用户还可以在写操作过程中，例如，指向工作面14之上并与工作面14分离的一个区域(例如，抬起写工具并指向，利用一只手上的手指指向同时利用另一只手写，等等)，用于协助。相应地，可见的手势中的一个或多个可包括使用一个或多个手指，手，和/或用于协助的工具，不管可见的手势中的一个或多个是否涉及接触工作面14。

工具可包括能够写和/或不能以电子方式处理用户动作中的一个或多个的手持式工具。在一个示例中，手持式工具中的一个或多个可包括墨水笔、马克笔、粉笔，等等，它们能够通过向工作面14喷涂颜料、染料、矿物等等来写。应该理解，手持式工具能够写，尽管它当前可能没有被装载(例如，墨水，铅，等等)，因为它可以被装载，以完成一项任务。如此，手持式工具中的一个或多个(例如，墨水笔)可能不能以电子方式处理用户动作中的一个或多个，因为这样的写用具可能不包括电子能力(例如，电子感应能力、电子处理能力等等)。另外，手持式工具中的一个或多个也可能不能用于以电子方式处理用户动作中的一个或多个(例如，作为指示笔)，因为这样的非电子写用具可能会损害电子工作面(例如，通过利用写尖擦伤触摸屏，通过向触摸屏喷涂马克笔颜料，等等)，可能不准确地传递用户动作(可能不准确地向触摸屏传递触摸动作，等等)等等，或其组合。

可以以任何所需的顺序和/或组合使用多个可见的手势。在一个示例中，可以使用多个同时发生的可见手势、多个连续的可见手势(例如，指向，然后画圈，等等)和/或多个随机的可见手势。例如，用户可以在读任务期间使用每一只手中的一个或多个手指同时生成指向工作面14的指向手势(例如，指向)，用于协助，可以同时生成手形手势(例如，在视场22中摇摆一只手)，同时作出指向工作面14的指向手势(例如，指向另一只手的手指)，用于协助，等等，或其组合。在另一个示例中，用户可以按顺序生成指向工作面14的指向手势(例如，指向)，然后，生成指向工作面14的画圈手势(例如，圈住区域)，用于协助。用户还可以，例如，以用于协助的随机和/或预定的模式一次或多次生成指向工作面14的指向手势(例如，敲击运动)。相应地，可以使用任何顺序和/或组合的用户动作来提供无需用手的协助。

另外，可见的手势可包括物理地接触工作面14。在一个示例中，用户可以在写任务过程中使用手持式工具，生成指向工作面14的加下划线手势(例如，在一个单词下划线，等等)，用于协助。在另一个示例中，用户可以使用一只手中的手指生成指向工作面14的指向手势(例如，指向)，并且同时使用另一只手中的手持式工具，同时生成指向工作面14的标记手势(例如，突出显示)。在所示示例中，用户的手24可以握住工具26(例如，墨水笔)，其中手势模块可识别由用户手24所生成的用户动作中的一个或多个(例如，可见的手势)和/或在视场22中的至少一部分发生并且由摄像机20观察到的指向工作面14(例如，纸张)的工具26。

当用户生成用户动作中的一个或多个时，可以由图像捕捉设备观察用户动作中的一个或多个和/或由手势模块独立于用户和图像捕捉设备之间的物理接触识别用户动作。在一个示例中，用户可能不需要触摸摄像机20和/或设备16，以便摄像机20观察可见的手势中的一个或多个。在另一个示例中，用户可能不需要触摸摄像机20和/或设备16，以便手势模块识别可见的手势中的一个或多个。如此，用户可以在无需用手的操作中作手势，和/或请求协助，例如，以最小化与要求用户握住专门工具，握住摄像机、握住摄像机静止相关联的，与中断读操作或写操作等等相关联的任何不必要的负担。

设备16可包括用于标识工作面14中的一个或多个感兴趣的区域28的感兴趣的区域模块。可以基于用户动作中的一个或多个来确定感兴趣的区域28中的一个或多个。在一个示例中，用户可以通过手24和/或指向工作面14的工具26生成可视手势，用于与工作面14中的可视手势的一个或多个目标相关联的协助。如此，可视手势可以使感兴趣的区域模块基于与可视手势的接近度、可视手势的方向，可视手势的类型，等等，或其组合，确定具有来自工作面14的目标的感兴趣的区域28中的一个或多个。例如，感兴趣的区域模块可以确定对应于可视手势(例如，无接触手势)的矢量(例如，角度、方向，等等)，并推断到工作面14的矢量，以导出感兴趣的区域28中的一个或多个。感兴趣的区域模块也可以，例如，确定对应于可视手势(例如，接触手势)的接触区域，以导出感兴趣的区域28中的一个或多个。可以理解，可以由感兴趣的区域模块确定多个矢量和/或接触区域，以标识感兴趣的区域28中的一个或多个，诸如，手势的组合，画圈手势，等等，或其组合。

另外，可以基于工作面14的内容，确定感兴趣的区域28中的一个或多个。在一个示例中，工作面14可包括文本内容，用户可以生成使感兴趣的区域模块标识一个或多个单词级别区域的可视手势。例如，感兴趣的区域模块可以判断可视手势的目标是单词，并标识包括单词级别区域的感兴趣的区域28中的一个或多个。在另一个示例中，工作面14可包括文本内容，用户可以生成可视手势以使感兴趣的区域模块标识一个或多个相对较高阶区域，诸如一个或多个句子级别区域，和/或相对较低级别区域，诸如一个或多个字母级别区域。例如，感兴趣的区域模块可以判断可视手势的目标是句子，并标识包括句子级别区域、段落级别区域，等等，或其组合的感兴趣的区域28中的一个或多个。在另一个示例中，感兴趣的区域模块可以判断目标包括图像内容的对象(例如，界标、图形等等)，图像内容的一部分(例如，风景画的一部分，等等)，等等，并标识包括对象级别区域、章节级别区域，等等，或其组合的感兴趣的区域28中的一个或多个。

另外，感兴趣的区域模块可以从感兴趣的区域28中的一个或多个中提取内容。在一个示例中，感兴趣的区域模块可以从单词级别区域、句子级别区域、段落级别区域、不定级别区域(例如，可视手势附近的几何区域)、等等，或其组合，提取单词。在另一个示例中，感兴趣的区域模块可以从段落级别区域、不定级别区域等等，或其组合提取句子。感兴趣的区域模块也可以，例如，从对象级别区域、章节级别区域，等等或其组合提取对象。

从感兴趣的区域28中的一个或多个中提取内容可以基于可视手势的类型(例如，加下划线手势、标记手势，等等)、可视手势的目标(例如，单词目标、句子目标，等等)，和/或工作面14的内容(例如，文本、图像，等等)。例如，从感兴趣的区域28中的一个或多个中提取单词可以基于标记手势(例如，突出显示的单词)，基于单词的目标(例如，来自标识的句子级别区域的单词)，基于图像内容(例如，视频、图片、帧等等的内容)，等等，或其组合。另外，可以由另一个工作面呈现来自感兴趣的区域28中的一个或多个的内容。在所示示例中，来自感兴趣的区域28中的一个或多个的提取的内容可以由显示器18作为提取的内容30来呈现。应该理解，提取的内容30可以在任何时间显示，例如，存储在数据存储中，并在完成工作任务之后显示，实时地显示，等等，或其组合。

设备16也可以包括用于实现与来自感兴趣的区域28中的一个或多个的内容30相关联的一个或多个支持操作的协助模块。在一个示例中，支持操作中的一个或多个可包括共享操作、存档操作、单词查询操作、读操作或内容变换操作，等等，或其组合。例如，共享操作可包括提供由一个或多个朋友、同事、家庭成员、社区成员(例如，社交媒体网络，或生活社区等等的)，等等，或其组合对内容30的访问。存档操作可包括，例如，将内容30存储在数据存储中。单词查询操作可包括，提供单词的同义词、单词的反义词、单词的定义、单词的发音，等等，或其组合。

读操作可包括读取内容30的条形码(例如，迅速响应/QR代码)，以自动地链接和/或提供到进一步的内容的链接，诸如可以与条形码相关联的网站、应用(例如，购物应用)，等等。内容变换操作可包括将内容30转换为相对于原始格式(例如，手写的格式，等等)的不同的数据格式(例如，PDF、JPEG、RTF，等等)，呈现重新格式化的数据，存储重新格式化的数据，等等，或其组合。内容变换操作也可包括将内容30从原始格式(例如，手写的格式)转换为工程制图格式(例如，VSD、DWG，等等)，呈现重新格式化的数据，存储重新格式化的数据，等等，或其组合。

现在转向图2，示出了基于一个或多个用户动作，实现与工作面相关的与从一个或多个感兴趣的区域中提取的内容相关联的一个或多个支持操作的方法302。方法102可实现为逻辑指令集和/或固件，该逻辑指令集和/或固件被存储在诸如随机存取存储器(RAM)、只读存储器(ROM)、可编程ROM(PROM)、闪存等机器或计算机可读存储介质中，存储在可配置逻辑中，诸如例如可编程逻辑阵列(PLA)、现场可编程门阵列(FPGA)、复杂可编程逻辑器件(CPLD)，存储在使用诸如例如专用集成电路(ASIC)、CMOS或晶体管-晶体管逻辑(TTL)技术之类的电路技术的固定功能逻辑硬件中，或其任意组合。例如，执行方法102中示出的操作的计算机程序代码可以以一种或多种编程语言的任何组合编写，包括诸如C++等面向对象的编程语言以及诸如“C”编程语言的传统程序性编程语言或类似的编程语言。此外，方法102还可以使用此处所提及的电路技术中的任何一种来实现。

所示出的处理框132用于识别一个或多个用户动作。在一个示例中，用户动作中的一个或多个可以指向一个或多个工作面。用户动作中的一个或多个可包括指向工作面中的一个或多个的一个或多个可见的手势。在一个示例中，可见的手势中的一个或多个可包括指向手势、加下划线手势、画圈手势、标记手势、手指手势、手形手势，等等，或其组合。例如，可见的手势中的一个或多个可包括在工作面的方向的运动，诸如指向、加下划线、圆圈，和/或标记运动，用于请求协助。另外，可见的手势中的一个或多个可包括使用一个或多个手指，手，和/或工具用于协助，不管可见的手势中的一个或多个是否涉及接触工作面。例如，工具中的一个或多个可包括能够写而不能以电子方式处理用户动作中的一个或多个的手持式工具。可以以任何所需的顺序和/或组合使用多个可见的手势。此外，可见的手势中的一个或多个可包括和/或排除用户和工作面之间的物理接触。

工作面中的一个或多个可能不能以电子方式处理用户动作中的一个或多个。例如，工作面可包括写表面，诸如纸张、黑板、白板、支撑物等等的表面，读表面，诸如杂志、书、报纸、支撑物等等的表面，等等，或其组合。另外，可以由一个或多个图像捕捉设备，诸如计算设备和/或数据平台的集成摄像机、前向摄像机、后向摄像机、旋转摄像机、2D摄像机、3D摄像机、独立摄像机，等等，或其组合，观察用户动作。

另外，图像捕捉设备中的一个或多个可以被定位在相对于工作面的任何位置。图像捕捉设备也可以通过视场来定义一个或多个任务区域。在一个示例中，图像捕捉设备的视场可以定义用户可以执行要通过图像捕捉设备观察到的任务的任务区域。任务区域可以由整个视场、视场的一部分，等等，或其组合来定义。在另一个示例中，可以识别在任务区域和/或视场中的一个或多个的至少一部分发生的用户动作。另外，当用户生成用户动作时，可以由图像捕捉设备观察用户动作和/或独立于用户和图像捕捉设备之间的物理接触识别用户动作。

所示出的处理框134用于标识工作面中的一个或多个感兴趣的区域。可以基于用户动作来确定感兴趣的区域中的一个或多个。在一个示例中，用户可以生成指向工作面的用户动作，用于与工作面中的用户动作的一个或多个目标相关联的协助，可以基于与可视手势的接近度、可视手势的方向、可视手势的类型，等等，或其组合，确定具有来自工作面的目标的感兴趣的区域中的一个或多个。例如，可以确定一个或多个矢量和/或接触区域，以标识感兴趣的区域。在另一个示例中，可以基于工作面的内容，确定感兴趣的区域。例如，工作面可包括文本内容、图像内容、等等，用户可以生成可视手势，以标识一个或多个单词级别区域、句子级别区域、段落级别区域、不定级别区域，对象级别区域、章节级别区域，等等，或其组合。相应地，可以选择定义感兴趣的区域的所希望的粒度的任何元素，诸如定义数字级别区域的数字、定义公式级别区域的公式、定义符号级别区域的符号，等等，或其组合。

所示出的处理框136用于从感兴趣的区域中的一个或多个中提取内容。在一个示例中，可以从字母级别区域、单词级别区域、句子级别区域、段落级别区域、不定级别区域、等等，或其组合中提取文本内容。在另一个示例中，可以从对象级别区域、从章节级别区域，等等，或其组合中提取图像内容。从区域中的一个或多个提取内容可以基于可视手势的类型、可视手势的目标、工作面的内容，等等，或其组合。此外，从感兴趣的区域中提取的内容可以由另一个工作面呈现，该另一个工作面能够以电子方式处理一个或多个用户动作(例如，能够以电子方式处理触摸动作的触摸屏)。提取的内容可以在任何时间显示，例如，存储在数据存储中，并在完成工作任务之后显示，实时地显示，等等，或其组合。

所示出的处理框138用于实现与来自感兴趣的区域的内容相关联的一个或多个支持操作。在一个示例中，支持操作可包括共享操作、存档操作、单词查询操作、读取操作或内容变换操作，等等，或其组合。例如，共享操作可包括提供对内容的访问。存档操作可包括将内容存储在数据存储中。单词查询操作可包括，提供与内容相关联的信息，诸如同义词、反义词、定义、发音，等等，或其组合。读取操作可包括读取内容的2D代码(例如，迅速响应代码)，以自动地链接和/或提供到进一步内容的链接。内容变换操作可包括将内容从原始数据格式转换为不同的数据格式，呈现重新格式化的数据，存储重新格式化的数据，等等，或其组合。

图3示出了基于一个或多个用户动作，实现与工作面相关的，与从一个或多个感兴趣的区域中提取的内容相关联的一个或多个支持操作的基于显示器的方法302。方法302可以使用此处所提及的技术中的任何一种来实现。所示出的处理框340可以检测一个或多个用户动作。例如，可以检测指向手势、加下划线手势、画圈手势、标记手势、手指手势和/或手形手势。另外，可以观察独立于用户和图像捕捉设备之间的物理接触的用户动作(例如，无需用手的用户动作)。可以在框342中作出用户动作中的一个或多个是否指向工作面的判断。如果不，则处理框344可以呈现(例如，显示)图像捕捉设备(例如，摄像机)的视场中的一个区域，该图像捕捉设备可以观察工作面、支撑物、用户(例如，一个或多个手指、手等等)、工具等等，或其组合。如果用户动作中的一个或多个指向工作面，则可以在处理框346标识一个或多个感兴趣的区域。例如，被标识的感兴趣的区域可包括单词级别区域、句子级别区域、段落级别区域、不定级别区域、对象级别区域、章节级别区域，等等，或其组合。

在框348可以作出是否可以基于用户动作中的一个或多个和/或工作面的内容来确定区域中的一个或多个的判断。如果不，则处理框344可以呈现图像捕捉设备的视场的一个区域，如上文所描述的。如果是，则可以在处理框350中从感兴趣的区域中的一个或多个中提取内容。在一个示例中，从区域中提取内容可以基于可视手势的类型、可视手势的目标、工作面的内容，等等，或其组合。例如，可以从字母级别区域、单词级别区域、句子级别区域、段落级别区域、不定级别区域、等等，或其组合中提取文本内容。所示出的处理框352可以实现与内容相关联的一个或多个支持操作。例如，支持操作可包括共享操作、存档操作、单词查询操作、读取操作或内容变换操作，等等，或其组合。处理框344可以呈现与支持操作相关联的信息，诸如提取的内容和/或任何支持信息(例如，定义、链接、文件格式，等等)。

现在转向图4，示出了设备402，包括基于一个或多个用户动作，实现与工作面相关的，与从一个或多个感兴趣的区域中提取的内容相关联的一个或多个支持操作的逻辑454。逻辑架构454可以一般性地包括到诸如膝上型计算机、个人数字助理(PDA)、无线智能电话、媒体播放器、成像设备、移动因特网设备(MID)之类的平台中，诸如智能电话、智能平板、智能TV、计算机服务器等等之类的任何智能设备中，或其组合中。可以在应用程序、操作系统、媒体框架、硬件组件，等等，或其组合中实现逻辑架构454。可以在工作协助流水线的任何组件中，诸如网络接口组件、存储器、处理器、硬盘驱动器、操作系统、应用程序等等，或其组合中，实现逻辑架构454。例如，可以在处理器，诸如中央处理单元(CPU)、图形处理单元(GPU)、视觉处理单元(VPU)、传感器、操作系统、应用、等等，或其组合中，实现逻辑架构454。设备402可包括存储器490、应用492、存储器494、显示器496、CPU498等等，或其组合和/或与它们进行交互。

在所示示例中，逻辑架构454包括识别一个或多个用户动作的手势模块456。用户动作可包括，例如，指向手势、加下划线手势、画圈手势、标记手势、手指手势，或手形手势。另外，用户动作还可包括能够写而不能以电子方式处理用户动作中的一个或多个的手持式工具，诸如墨水笔。也可以通过图像捕捉设备来观察用户动作。在一个示例中，可以通过移动平台的2D摄像机来观察用户动作，该移动平台可包括相对来说比较高的处理能力以最大化识别能力(例如，可转换的笔记本)。用户动作可以，例如，在2D摄像机的视场的至少一部分中发生。由手势模块456识别的用户动作可以指向诸如不能以电子方式处理用户动作的工作面之类的工作面(例如，纸张)。另外，由图像捕捉设备观察到的和/或由手势模块456识别的用户动作可以与用户和图像捕捉设备之间的物理接触无关(例如，无需用手的操作)。

另外，所示出的逻辑架构454可包括感兴趣的区域模块458，以从工作面标识一个或多个感兴趣的区域和/或从感兴趣的区域中的一个或多个提取内容。在一个示例中，可以基于用户动作中的一个或多个，确定感兴趣的区域。例如，感兴趣的区域模块458可以基于与用户动作中的一个或多个的接近度、用户动作中的一个或多个的方向、用户动作中的一个或多个的类型，等等，或其组合，确定工作面中的感兴趣的区域。在另一个示例中，可以基于工作面的内容，确定感兴趣的区域。例如，感兴趣的区域模块458可以标识单词级别区域、句子级别区域、段落级别区域、无定形级别区域、对象级别区域、章节级别区域，等等，或其组合。

另外，感兴趣的区域模块458可以基于，例如，一个或多个用户动作的类型、用户动作中的一个或多个的目标、一个或多个工作面的内容，等等，或其组合，从感兴趣的区域中的一个或多个提取内容。此外，从感兴趣的区域中提取的内容可以由另一个工作面呈现，诸如由能够以电子方式处理用户动作的显示器496(例如，能够处理触摸动作的触摸屏)呈现。提取的内容可以在任何时间显示，例如，存储在数据存储器490和/或存储器494中，并在完成工作操作之后显示(例如，通过应用492)，实时显示，等等，或其组合。

另外，所示出的逻辑架构454还可包括实现与内容相关联的一个或多个支持操作的助手模块460。在一个示例中，支持操作可包括共享操作、存档操作、单词查询操作、读取操作或内容变换操作，等等，或其组合。例如，共享操作可包括提供对内容的访问。存档操作可包括将内容存储在数据存储中，诸如存储490、存储器494，等等，或其组合中。单词查询操作可包括，例如，在显示器496上，提供与内容相关联的信息，诸如同义词、反义词、定义、发音，等等，或其组合。读操作可包括读内容的2D代码(例如，QR代码)，以自动地链接和/或提供到进一步的内容的链接，例如，在应用492上、显示器496，等等，或其组合中。内容变换操作可包括将内容从原始数据格式转换到不同的数据格式，呈现重新格式化的数据，存储重新格式化的数据(例如，使用存储器490，应用程序492，存储器494，显示器496和/或CPU498)，等等，或其组合。

另外，所示出的逻辑架构454可包括通信模块462。通信模块可以与网络接口进行通信和/或与其集成，以提供各种通信功能，诸如蜂窝电话(例如W-CDMA(UMTS)、CDMA2000(IS-856/IS-2000)等等)、WiFi、蓝牙(例如，IEEE802.15.1-2005，无线个域网)、WiMax(例如IEEE802.16-2004,LAN/MAN宽带无线LAN)、全球定位系统(GPS)、扩展频谱(例如900MHz)以及其它射频(RF)电话目的。

另外，所示出的逻辑架构454可包括用户界面模块464。用户界面模块464可以提供任何所需的界面，诸如，图形用户界面、命令行界面，等等，或其组合。用户界面模块464可以提供对与工作协助相关联的一个或多个设置的访问。设置可包括执行下列操作的选项，例如，定义一个或多个用户动作(例如，可视手势)、定义用于识别一个或多个用户动作的一个或多个参数(例如，识别是否指向工作面)，定义一个或多个图像捕捉设备(例如，选择摄像机)、定义一个或多个视场(例如，视野)、任务区域(例如，视场的一部分)、工作面(例如，不能以电子方式处理的表面)、内容(例如，识别文本内容)、感兴趣的区域(例如，单词级别区域)、标识一个或多个感兴趣的区域的参数(例如，使用矢量)、从一个或多个感兴趣的区域提取内容的参数(例如，基于确定的区域，提取单词)、呈现内容的参数(例如，在另一个工作面上呈现)、支持操作(例如，提供定义)，等等。设置可包括自动设置(例如，当观察到一个或多个用户动作时，自动地提供支持操作)，手动设置(例如，请求用户手动选择和/或确认支持操作)，等等，或其组合。

尽管为说明目的示出了单独的模块，但是，应该理解，可以在一个或多个组合的模块中实现逻辑架构454的模块中的一个或多个，诸如包括手势模块456、感兴趣的区域模块458、助手模块460、通信模块462，和/或用户界面模块464中的一个或多个的单一模块。另外，还应该理解，设备402的一个或多个逻辑组件可以在平台上、在平台之外，和/或与设备402驻留在相同或不同的现实的和/或虚拟空间中。例如，手势模块456、感兴趣的区域模块458和/或助手模块460可以驻留在服务器上的计算云环境中，而通信模块462和/或用户界面模块464中的一个或多个可以驻留在用户物理地所在的计算平台中，反之亦然，或其组合中。相应地，模块可以在功能上是单独的模块，进程，和/或线程，可以在同一个计算设备上运行和/或跨多个设备分布，以并行地、同时和/或按顺序运行，为便于说明，可以合并成一个或多个独立逻辑块或可执行程序，和/或被描述为单独的组件。

现在转向图5，示出了根据一实施例的处理器核200。在一个示例中，处理器核200一个或多个部分可以被包括在任何计算设备和/或数据平台中，诸如上文所描述的设备16中。处理器核200可以是任何类型的处理器，诸如微处理器、嵌入式处理器、数字信号处理器(DSP)、网络处理器，或执行代码以实现此处所描述的技术的其他设备的核。虽然在图5中只示出了一个处理器核200，但是，处理元件可以可另选地包括多于图5中所示出的处理器核200。处理器核200可以是单线程的核，或对于至少一个实施例，处理器核200可以是多线程的，它可每个核包括一个以上的硬件线程上下文(或“逻辑处理器”)。

图5还示出了耦合到处理器200的存储器270。存储器270可以是本领域技术人员当前已知或以别的方式可用的各种存储器中的任何一种(包括存储器层次结构的各层)。存储器270可包括由处理器200核执行的一个或多个代码213指令，其特征在于，代码213可以实现已经讨论的逻辑架构454(图4)。处理器核200遵循由代码213指出的程序指令序列。每一指令都可以进入前端部分210，并由一个或多个解码器220处理。解码器220可以以预定义的格式生成诸如固定宽度微操作之类的微操作，作为其输出，或可以生成其他指令、微指令，或反映原始代码指令的控制信号。所示出的前端210还包括寄存器重命名逻辑225以及调度逻辑230，它们一般分配资源并排队对应于转换指令的操作，供执行。

示出了包括具有一组执行单元255-1到255-N的执行逻辑250的处理器200。一些实施例可以包括专用于特定功能或功能组的若干个执行单元。其他实施例可只包括一个执行单元或可以执行特定的功能的一个执行单元。所示出的执行逻辑250执行由代码指令所指定的操作。

在由代码指令所指定的操作的执行完成之后，后端逻辑260引退代码213的指令。在一个实施例中，处理器200允许无序执行，但是，要求指令的按顺序引退。引退逻辑265可以呈现已知的各种形式(例如，重排序缓存等等)。如此，处理器核200在代码213的执行过程中被转换，至少就由解码器所生成的输出、硬件寄存器和由寄存器重命名逻辑225使用的表，以及由执行逻辑250修改的任何寄存器(未示出)而言。

虽然在图5中未示出，但是，处理元件与处理器核200一起可包括芯片上的其他元件。例如，处理元件可包括存储器控制逻辑以及处理器核200。处理元件可包括I/O控制逻辑和/或可包括与存储器控制逻辑集成的I/O控制逻辑。处理元件也可以包括一个或多个高速缓存。

图6示出了根据一实施例的计算系统1000的框图。在一个示例中，处理器核200一个或多个部分可以被包括在任何计算设备和/或数据平台中，诸如上文所描述的设备16中。图6所示出的是包括第一处理元件1070和第二处理元件1080的多处理器系统1000。尽管示出了两个处理元件1070和1080，但是，可以理解，系统1000的实施例还可以只包括一个这样的处理元件。

系统1000被示为点对点互连系统，其特征在于，第一处理元件1070和第二处理元件1080通过点对点互连1050耦合。应该理解，图6中所示出的任何或全部互连都可以实现为多点分支总线，而并非点对点互连。

如图6所示，处理元件1070和1080中的每一个都可以是多核处理器，包括第一和第二处理器核(即，处理器核1074a以及1074b以及处理器核1084a以及1084b)。这样的核1074、1074b、1084a、1084b可以被配置成以类似于上文参考图5所讨论的方式执行指令代码。

每一处理元件1070，1080都可以包括至少一个共享缓存1896。共享缓存1896a，1896b可以存储分别被处理器的一个或多个组件(诸如核1074a、1074b以及1084a，1084b)使用的数据(例如，指令)。例如，共享缓存可以本地缓存存储在存储器1032，1034中的数据，用于被处理器的组件更快的访问。在一个或多个实施例中，共享缓存可以包括一个或多个中级缓存，诸如级别2(L2)、级别3(L3)、级别4(L4)，或其他级别的缓存，末级缓存(LLC)，和/或其组合。

尽管只利用两个处理元件1070、1080来示出，但是，可以理解，范围不仅限于此。在其他实施例中，一个或多个额外的处理元件可以存在于给定处理器中。可另选地，一个或多个处理元件1070，1080可以是除处理器以外的元件，诸如加速器或场可编程门阵列。例如，额外的处理元件可包括与第一处理器1070相同的额外的处理器，与第一处理器1070异构或非对称的额外的处理器，加速器(诸如，例如，图形加速器或数字信号处理(DSP)单元)，场可编程门阵列，或任何其他处理元件。就包括架构、微架构、热的，功率消耗特征等等的一系列优点的度量而言，在处理元件1070，1080之间可能有各种差异。这些差异可能有效地将其本身表现为处理元件1070，1080之间的不对称性和异质性。对于至少一个实施例，各种处理元件1070，1080可以驻留在相同管芯封装中。

第一处理元件1070还可以包括存储器控制器逻辑(MC)1072以及点对点(P-P)接口1076以及1078。类似地，第二处理元件1080可包括MC1082以及P-P接口1086以及1088。如图6所示，MC1072和1082将处理器耦合到各自的存储器，即存储器1032和存储器1034，这些存储器可以是本地附连到各自处理器的主存储器的部分。尽管MC逻辑1072和1082被示为集成到处理元件1070，1080中，但是，对于替换实施例，MC逻辑可以是处理元件1070，1080外面的单独逻辑，而并非集成在其中。

第一处理元件1070以及第二处理元件1080可以分别通过P-P互连1086和1084，耦合到I/O子系统1090。如图10所示，I/O子系统1090包括P-P接口1094以及1098。此外，I/O子系统1090还包括将I/O子系统1090耦合高性能图形引擎1038的接口1092。在一个实施例中，总线1049可以被用来将图形引擎1038耦合到I/O子系统1090。交替地，点对点互连1039可以将这些组件耦合。

I/O子系统1090又可以通过接口1096耦合到第一总线1016。在一个实施例中，第一总线1016可以是外围组件互连(PCI)总线，或诸如PCIExpress总线之类的总线，或另一第三代I/O互连总线，虽然范围不仅限于此。

如图6所示，诸如显示器18(图1)和/或显示器496(图4)之类的各种I/O设备1014可以与可以将第一总线1016耦合到第二总线1020一起的总线桥接器1018，耦合到第一总线1016。在一个实施例中，第二总线1020可以是低引脚数(LPC)总线。在一个实施例中，各种设备可以耦合到第二总线1020，包括，例如，键盘/鼠标1012、通信设备1026(它们又可以与计算机网络进行通信)以及数据存储单元1019，诸如磁盘驱动器或可以包括代码1030的其他大容量存储设备。代码1030可以包括用于执行上文所描述的方法中的一个或多个的实施例的指令。如此，所示出的代码1030可以实现已经讨论的逻辑架构454(图4)。进一步，音频I/O1024可以耦合到第二总线1020。

请注意，其他实施例也是可以的。例如，代替图6的点对点架构，系统可以实现多点分支总线或另一这样的通信拓朴。此外，还可以使用比图6中所示出的多一些或少一些集成芯片，可另选地分区图6的元件。

额外的注意事项和示例：

示例可包括下列主题，诸如方法、用于执行方法的动作的装置，包括指令的至少一个机器可读取的介质，所述指令，当由机器执行时，使机器执行根据此处所描述的实施例和示例的用于提供协助的方法或设备或系统的动作。

示例1是提供协助的设备，包括：图像捕捉设备，观察指向不能以电子方式处理用户动作的工作面的用户动作，手势模块，识别所述用户动作，感兴趣的区域模块，基于所述用户动作从所述工作面标识一个区域并从所述区域提取内容，以及，助手模块，实现要与所述内容相关联的支持操作。

示例2包括示例1的主题，并进一步可任选地包括其中包括移动平台的摄像机的图像捕捉设备。

示例3包括示例1到示例2中的任何一个的主题，并进一步可任选地包括至少一个感兴趣的区域，其中包括单词级别区域，其中内容是单词。

示例4包括示例1到示例3中的任何一个的主题，并进一步可任选地包括由另一个工作面呈现的至少一个感兴趣的区域。

示例5包括示例1到示例4中的任何一个的主题，并进一步可任选地包括从共享操作、存档操作、单词查询操作、读取操作或内容变换操作的组中选择的至少一个操作。

示例6包括示例1到示例5中的任何一个的主题，并进一步可任选地包括识别从被指向所述工作面的指向手势、加下划线手势、画圈手势、标记手势、手指手势，或手形手势的组中选择的至少一个用户动作的手势模块。

示例7包括示例1到示例6中的任何一个的主题，并进一步可任选地包括识别至少一个用户动作的手势模块，包括能够写但不能以电子方式处理用户动作的手持工具。

示例8包括示例1到示例7中的任何一个的主题，并进一步可任选地包括识别独立于用户和图像捕捉设备之间的物理接触发生的至少一个用户动作的手势模块。

示例9是用于提供协助的计算机实现的方法，包括识别由图像捕捉设备观察到的用户动作，其中所述用户动作指向不能以电子方式处理用户动作的工作面，基于用户动作，标识工作面的感兴趣的区域，从所述区域提取内容，以及实现与内容相关联的支持操作。

示例10包括示例9的主题，并进一步可任选地包括识别在图像捕捉设备的视场的至少一部分发生的至少一个用户动作。

示例11包括示例9到示例10中的任何一个的主题，并进一步可任选地包括标识至少一个单词级别的感兴趣的区域。

示例12包括示例9到示例11中的任何一个的主题，并进一步可任选地包括由另一个工作面呈现至少一个感兴趣的区域。

示例13包括实现示例9到示例12中的任何一个的主题，并进一步可任选地包括实现从共享操作、存档操作、单词查询操作、读取操作或内容变换操作的组中选择的至少一个操作。

示例14包括示例9到示例13中的任何一个的主题，并进一步可任选地包括识别从被指向所述工作面的指向手势、加下划线手势、画圈手势、标记手势、手指手势，或手形手势的组中选择的至少一个用户动作。

示例15包括示例9到示例14中的任何一个的主题，并进一步可任选地包括识别至少一个用户动作，包括能够写但不能以电子方式处理用户动作中的一个或多个的手持工具。

示例16包括示例9到示例15中的任何一个的主题，并进一步可任选地包括识别独立于用户和图像捕捉设备之间的物理接触发生的至少一个用户动作。

示例17是包括一个或多个指令的至少一个计算机可读介质，所述指令，当在一个或多个计算设备上执行时，导致一个或多个计算设备执行示例9到示例16中的任何一个的方法。

示例18是包括用于执行示例9到示例16中的任何一个的方法的装置的设备。

各个实施例可利用硬件部件、软件部件或两者的组合来实现。硬件部件的示例可包括处理器、微处理器、电路、电路元件(例如晶体管、电阻器、电容器、电感器等)、集成电路、专用集成电路(ASIC)、可编程逻辑器件(PLD)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、逻辑门、寄存器、半导体器件、芯片、微芯片、芯片组等等。软件的示例可包括软件组件、程序、应用、计算机程序、应用、系统程序、机器程序、操作系统软件、中间件、固件、软件模块、例程、子例程、函数、方法、程序、软件接口、应用接口(API)、指令集、计算代码、计算机代码、代码片段、计算机代码片段、字、值、符号或它们的任意组合。判断一个实施例是否使用硬件元件或软件元件来实现可以根据任意数量的因素而不同，如所希望的计算速率、功率级别、耐热性、处理周期预算、输入数据率、输出数据率、存储器资源、数据总线速度，及其他设计或性能约束。

至少一个实施例的一个或多个方面可以由存储在机器可读介质上的表征性指令来实现，该指令表示处理器中的各种逻辑，该指令在被机器读取时使得该机器制作用于执行本文所述的技术的逻辑。被称为“IP核”的这样的表示可以存储在有形的机器可读介质中，并提供给各种客户或生产设施，以加载到实际制造逻辑或处理器的制造机器中。

各实施例适用于与各种类型的半导体集成电路(“IC”)芯片一起使用。这些IC芯片的示例包括，但不仅限于处理器、控制器、芯片组组件、可编程逻辑阵列(PLA)、存储器芯片、网络芯片等等。另外，在一些附图中，信号导线是用线表示的。一些线可以不同以表示更具构成性的信号路径，具有数字标号以表示构成性信号路径的数目，和/或在一端或多端具有箭头以表示主要信息流向。然而，这不应当被解释成限制。相反，这些新增的细节可结合一个或多个示例性实施例使用以利于电路的更容易理解。任何表示的信号线，不管是否具有附加信息，可实际上包括沿多个方向行进并可用任何适宜类型的信号机制实现的一个或多个信号，所述信号方案例如是用差分线对、光纤线和/或单端线实现的数字或模拟线。

已给出示例尺寸/模型/值/范围，尽管各实施例不仅限于此。随着制造技术(例如光刻法)随时间的成熟，可望能制造出更小尺寸的设备。另外，为了解说和说明的简单，与IC芯片公知的功率/接地连接和其它组件可在附图中示出也可不示出，并且这样做也是为了不使各实施例的某些方面变得晦涩。进一步地，可以以框图形式示出布局，以便避免使各实施例变得模糊，还鉴于相对于这样的框图布局的实现的细节高度依赖于将在其内实现实施例的平台这一事实，即，这样的细节应该在精通本技术的人员学识范围内。尽管阐述了具体细节(例如，电路)以便描述示例实施例，但是，对本领域技术人员显而易见的是，各实施例可以在没有这些具体细节，或利用这些具体细节的变化来实施。说明书因此应当被视为解说性的而非限定性的。

一些实施例可以，例如，使用机器或有形的计算机可读取的介质或制品来实现，所述介质或制品可以存储指令或一组指令，如果由机器执行，可以导致机器执行根据各实施例的方法和/或操作。这样的机器可以包括，例如，任何合适的处理平台、计算平台、计算设备、处理设备、计算系统、处理系统、计算机、处理器等等，并可以使用硬件和/或软件的任何合适的组合来实现。机器可读取的介质或制品可以包括，例如，任何合适类型的存储器单元、存储器设备、存储器制品、存储器介质、存储设备、存储器制品、存储器介质和/或存储器单元，例如，存储器、可移动或不可移动介质、可擦除的或非可擦除的介质，可写入的或重写的介质、数字或模拟介质、硬盘、软盘、只读紧致盘存储器(CD-ROM)、可记录紧致盘(CD-R)、可重写紧致盘(CD-RW)、光盘、磁性介质、磁光介质、可移动存储器卡或盘、各种类型的数字多功能盘(DVD)、磁带、磁带盒等等。指令可包括任何合适类型的代码，如源代码、已编译的代码、已解释的代码、可执行代码、静态代码、动态代码、加密代码等等，使用任何合适的高级别的、低级别的、面向对象的、可视的、已编译的和/或解释性编程语言来实现。

除非特别声明，应该理解，诸如“处理”、“计算”、“运算”、“确定”等等之类的术语是指计算机或计算系统，或类似的电子计算设备的动作和/或进程，所述计算系统或类似的电子计算设备操纵和/或转换表示为计算系统的寄存器和/或存储器内的物理(如，电子)量的数据，将这些数据转换为类似地表示为计算系统存储器或寄存器或其他这样的信息存储器、传输或显示设备内的物理量的其他数据。这些实施例不限于这种背景。

术语“耦合的”在本文中可用来指示所研究的组件之间的任何类型关系(直接或间接)，并可适用于电气连接、机械连接、流体连接、光连接、电磁连接、电机连接或其它连接。另外，术语“第一”、“第二”等等此处只用于便于讨论，没有特定时间的或按时间顺序的意义，除非另有陈述。另外，还应该理解，“一个”带有“一个或多个”或“至少一个”的含义。另外，如在此申请和权利要求中所使用的，由术语“中的一个或多个”和/或“中的至少一个”连接的项目列表可以表示列出的项任何组合。例如，短语“A，B或C中的一个或多个”可以表示A；B；C；A和B；A和C；B和C；或A，B和C。

本领域内技术人员从前面的说明可以理解，各实施例的广泛技术可以多种形式来实现。因此，尽管已结合其特例描述了各实施例，然而各实施例的真实范围不受此限，因为本领域内技术人员在研究附图、说明书和下面的权利要求书之后很容易理解其它的修正形式。

Claims

1.一种提供协助的设备，包括：

图像捕捉设备，用于观察指向不能以电子方式处理用户动作的工作面的用户动作；

手势模块，用于识别所述用户动作；

感兴趣的区域模块，用于基于所述用户动作，从所述工作面标识一个区域并从所述区域提取内容；以及

助手模块，用于实现与所述内容相关联的支持操作。

2.如权利要求1所述的设备，其特征在于，所述图像捕捉设备包括移动平台的摄像机。

3.如权利要求1所述的设备，其特征在于，至少一个感兴趣的区域包括单词级别区域，其中所述内容是单词。

4.如权利要求1所述的设备，其特征在于，至少一个感兴趣的区域将由另一个工作面呈现。

5.如权利要求1所述的设备，其特征在于，至少一个操作是从共享操作、存档操作、单词查询操作、读取操作或内容变换操作的组中选择的。

6.如权利要求1所述的设备，其特征在于，所述手势模块识别从被指向所述工作面的指向手势、加下划线手势、画圈手势、标记手势、手指手势或手形手势的组中选择的至少一个用户动作。

7.如权利要求1到6中任一权利要求所述的设备，其特征在于，所述手势模块识别至少一个用户动作，包括能够写但不能以电子方式处理所述用户动作的手持式工具。

8.如权利要求1到6中任一权利要求所述的设备，其特征在于，所述手势模块识别独立于用户和所述图像捕捉设备之间的物理接触发生的至少一个用户动作。

9.一种提供协助的计算机实现的方法，包括：

识别由图像捕捉设备观察到的用户动作，其中所述用户动作指向不能以电子方式处理所述用户动作的工作面；

基于所述用户动作，从所述工作面标识感兴趣的区域，并从所述区域提取内容；以及

实现与所述内容相关联的支持操作。

10.如权利要求9所述的方法，进一步包括识别在所述图像捕捉设备的视场的至少一部分中发生的至少一个用户动作。

11.如权利要求9所述的方法，进一步包括标识至少一个单词级别的感兴趣的区域。

12.如权利要求9所述的方法，进一步包括由另一个工作面呈现至少一个感兴趣的区域。

13.如权利要求9所述的方法，进一步包括实现从共享操作、存档操作、单词查询操作、读取操作或内容变换操作的组中选择的至少一个操作。

14.如权利要求9所述的方法，进一步包括识别从被指向所述工作面的指向手势、加下划线手势、画圈手势、标记手势、手指手势，或手形手势的组中选择的至少一个用户动作。

15.如权利要求9到14中任一权利要求所述的方法，进一步包括将识别至少一个用户动作，包括能够写但不能以电子方式处理所述用户动作中的一个或多个的手持式工具。

16.如权利要求9到14中任一权利要求所述的方法，进一步包括识别独立于用户和所述图像捕捉方法之间的物理接触发生的至少一个用户动作。

17.一种设备，包括用于执行根据权利要求9到14中的任一项所述的方法的装置。

18.至少一个计算机可读介质，所述至少一个计算机可读介质包括指令，当在计算设备上被执行时，所述指令导致所述计算设备执行如权利要求9到14中任一项所述的功能。