CN101765840A

CN101765840A - 纸质与电子文档中的注释的捕获及显示

Info

Publication number: CN101765840A
Application number: CN200780042442A
Authority: CN
Inventors: M·T·金
Original assignee: Exbiblio BV
Current assignee: Kyocera Corp
Priority date: 2006-09-15
Filing date: 2007-09-17
Publication date: 2010-06-30
Anticipated expiration: 2027-09-17
Also published as: US20100278453A1; KR20090069300A; EP2067102A2; KR101443404B1; WO2008031625A2; WO2008031625A3; CN101765840B

Abstract

一种软件和/或硬件装置使得用户能够将注释与包含在数字内容中的文本段关联。捕获客户端允许用户创建与在由用户查看的内容上的文本段关联的注释。注释由注释服务器与该文本段关联存储。当用户随后查看内容时，该装置将在查看内容中的文本片段与所存储的文本段比较。发现匹配该文本片段的文本段由该装置识别，并且关联的注释由显示客户端在查看的内容上显示给用户。由于所存储的注释与文本段关联而不是与原始内容或和从其识别文本段的原始内容关联的标识符关联，因此注释能应用于任何在今后利用该文本段的内容。

Description

纸质与电子文档中的注释的捕获及显示

优先权要求

本申请要求于2006年9月15日提交的美国临时申请No.60/844,893以及2007年4月5日提交的美国临时申请No.60/910,438的优先权，这两个美国临时申请每一个的全部内容都合并在此作为参考。

技术领域

所公开的技术涉及注释(annotation)领域。

背景技术

诸如书籍、报纸和杂志之类的印刷品的读者一直具有通过直接在作品上写下注释来提请注意出版物的部分的能力。注释可以是简单地使用下划线、圆圈、或荧光记号笔来使文本的节段突出，从而提请读者注意以不同的颜色出现的或以其他方式与作品的其余部分相区别的那部分文本。读者例如还能通过在作品的空白处或其他区域写下文本或画图来添加更复杂的注释。注释对记录这些注释的读者来说非常有用，因为注释允许该读者迅速地回想起作品中所包含的重要的章节或思想。注释还可以使作品的其他读者受益，因为通过注释所加入到作品中的附加信息可以给作品的各部分提供更好的上下文或指示作品各部分的相对重要性。因此对许多读者来说，在印刷材料上创建并记录注释的能力对能够享用所述材料来说是不可或缺的。

不幸的是，随着越来越多的文档以数字形式创建或转换成数字形式，以简单而有意义的方式注释文档的能力已变得越来越困难。所述困难的一个原因是提供允许读者容易地将注释添加到数字文档中的用户接口的挑战。由于注释通常潦草地写在文档的空白处和其他空白空间中，因此将它们添加到数字文档尤其具有挑战性。所述困难的第二个原因是维护特定注释与对其进行注释的具体文档——以及有时是该文档中的具体位置——之间的关系的挑战。数字形式的文档能被很容易地改变，并且其各部分能被切除、复制、移动以及存储到大量不同的位置。可能存在不同版本的文档，其中较早的版本缺少添加到较晚版本中的注释。并且数字形式的文档能被容易地(有时出于疏忽)删除。因此在不断修改文档时跟踪文档并确保注释保持与该文档关联是一个非常有挑战性的问题。所述困难的又一个原因是可以查看(view)和操纵文档的平台的多样性。读者能使用个人计算机、手持计算机、诸如蜂窝电话和PDA的移动设备以及专用阅读设备来查看数字文档。这些平台的每一个又可以支持各种软件应用和操作系统功能以允许用户阅读、写入并编辑文档。开发跨平台注释技术是一个有挑战性的技术命题，所述跨平台注释技术在这些平台的每一个上进行操作、与各种软件一起工作并且以一致且容易使用的格式捕获和显示注释。如果开发出的普通注释技术允许用户能够像他们在纸质文档领域中那样容易地在数字文档领域中创建并使用注释，则将是有益的。

虽然将注释添加到纸质文档是容易的，但纸张中的注释受其静态性质的影响。在纸质领域中，将写入的注释从作品的一个副本复制到另一副本并非易事，而且也不可能在印刷作品中嵌入音频、视频、超链接、图像或者其他补充或活动(active)元素或注释。相反，这些以及许多其他丰富增强现在已经常规地出现在一些数字文档中——不过它们的可用性严重依赖于数字文档下面的技术、数字文档的格式、数字文档如何显示等。因此用户对数字文档中注释的体验依文档而变化。

附图说明

图1是用于捕获和显示内容的注释的装置的框图。

图2是描绘对内容的注释的用户接口的屏幕截图。

图3A和3B是在捕获客户端处捕获用户的注释和在注释服务器处存储用户的注释的过程的流程图。

图4A和4B是在注释服务器处识别与内容关联的注释和在显示客户端处显示与该内容关联的所识别的注释的过程的流程图。

图5是示出在核心系统的一个实施例中的信息流的数据流图。

图6是在典型的操作环境的环境中包括在该系统的典型实施方式中的组件的组件图。

图7是扫描仪702的实施例的框图。

图8是用于直接从内容源或通过读取显示缓冲器来获取显示内容数据的过程的数据流图。

具体实施方式

概述

所描述的软件和/或硬件装置使用户能够将数字内容中的内容的一个或多个字(word)与注释相关联。捕获客户端允许用户创建注释，每个注释与用户所查看的内容中的文本段关联，该文本段称为该注释的“主题文本(subjecttext)”。通过注释服务器与主题文本相关联地存储注释。当用户随后查看内容时，该装置将所查看的内容与所存储的注释主题文本相比较。若发现注释的主题文本与所查看的内容匹配，则显示客户端将关联的注释与所查看的内容一起显示给用户。

在各种实施例中，该装置使用各种方式来将每个注释“锚定”到相关联的主题文本。在一些实施例中，当注释所附的文档中的位置的标识都已知时，该装置通过存储该文档标识以及该文档的位置而锚定该注释，例如通过存储距该文档起始处的字偏移(word offset)来存储该文档的位置。

在一些实施例中，特别是在文档标识和位置不全知道的情况下，该装置通过存储用于新的注释的锚文本而锚定该注释。用于注释的锚文本通常包括用于该注释的主题文本。在一些实施例中，该锚文本在一个或两个方向上延伸超过主题文本。在这些实施例中，由于所存储的注释与锚文本段关联，而不是与原始内容或与从其识别该文本段的原始内容关联的标识符关联，因此注释可以被应用到未来利用该文本段的任意内容。例如，如果文档被整体复制，或复制文档的节段，则与该复制部分关联的所有注释在未来都将被适当地放置，因为该注释是与文档中的文本段关联而不是与文档本身关联。因此，所公开的装置显著地提高了在数字内容中使用注释的灵活性。在一些实施例中，提供了表示层捕获客户端以允许用户将注释添加到内容中而不管用户正查看的内容的格式如何。例如，可以在网页上、在字处理文档中、在PDF文档中、作为图像、或以其他图形或文本形式将内容显示给用户。不是尽力对这些内容格式的每一个设计接口，该装置依赖于捕获描绘该内容的显示以及使用光学字符识别(OCR)技术将所捕获图像转换成文本。可选地，在一些实施例中所描述的装置与各种元件通信或截获来自各种元件的文本再现(text-rendering)命令，所述文本再现命令使得在用户的显示器上再现文本。在这些实施例的许多实施例中，不需要后再现OCR或者其他识别技术(图8)。当所述装置使用再现的数据时，该装置捕获用户使用的查看设备的全部或部分屏幕缓冲器。然后，将屏幕缓冲器的内容提供给OCR或其他图像识别组件，所述OCR或其他图像识别组件处理捕获到的图像并生成包含在该图像中的任何字符的对应文本(例如，ASCII值)。该装置自动将显示器上的用户为了注释目的而选择的任何内容映射到该装置识别的OCR文本。通过这种方式，该装置允许用户注释任何内容而不论该内容的格式如何。

在一些实施例中，手持光学扫描仪(任选地，还具有语音输入能力)可以用作捕获客户端。为了用这样的捕获客户端创建注释，用户使用该手持扫描仪来光学捕获或语音捕获主题文本以进行注释，并且然后说出或打字出注释的内容。该装置任选地使用语音识别技术将口述的注释转换为它的符号文本等同物，然后该装置将该符号文本等同物与捕获的主题文本相关联。

在一些实施例中，提供表示层显示客户端以允许将注释叠加在呈现在用户显示器上的任何内容上，而不管内容的源格式如何，也不管负责创建或再现显示的内容的应用或其他系统组件如何。当用户在查看设备上查看内容时，任选地由该装置捕获该查看设备的全部或部分屏幕缓冲器。将屏幕缓冲器的内容提供给OCR或其他图像识别组件，所述OCR或其他图像识别组件处理捕获到的图像并且生成包含在该图像中的任何字符的对应文本。该装置识别捕获到的文本中的一个或更多文本片段，并且将文本片段的表示传输到注释服务器组件——其可以是本地的(举例来说，在用户的个人计算机上)或是远程的(举例，在网络上)。该注释服务器组件(105)将接收到的文本片段表示与存储的文本段表示相比较，并且识别匹配——或接近匹配——注释服务器上存储的文本段表示的用户显示器上的任意再现的内容。与匹配的文本片段表示对应的注释被该装置识别并且被传输到显示客户端。显示客户端基于匹配的文本片段的位置确定注释的适当位置，并且在重叠在用户正查看(2)的内容之上的半透明层中显示该注释。通过这种方式，可以向用户显示任意内容的注释——不管所查看的内容的格式如何，也不管其来源如何。

在一些实施例中，在操作系统和/或显示文本的应用提供程序化接口以用于供应当前正被显示的文本，在所显示的文本与其显示位置之间进行映射等的情况下，该装置使用这些接口来避免使用OCR技术来识别显示的文本及其显示位置的开销。类似地，在程序化接口可用于识别正被显示的文档或当前显示文档的一部分的情况下，该装置使用通过这些接口获取的信息将显示的文本与底层的电子文档和位置相关联。

在一些实施例中，该装置支持除了与电子文档的各部分关联的简单文本注释之外的包括多种类型关联的附加注释。在各种实施例中，该装置支持使用多种机制来创建、显示这些注释以及与这些注释交互，所述多种机制包括这里结合简单文本注释所描述的那些机制。通过支持这些通用的关联和注释，该装置提供了丰富的、跨文档以及跨平台级别的与电子文档的交互性。在一些实施例中，该装置对于文本捕获设备的用户支持类似或相同的注释和关联。在这些实施例中，该装置为阅读纸质和电子文档两者的读者提供了丰富、共同的体验。

在一些实施例中，该装置使用其对在监视器上显示的文本以及由手持文本捕获设备所捕获的文本的观察来为用户维护通用的阅读历史，该阅读历史潜在地记录用户阅读的所有文本以及阅读该文本的时间的指示。在一些实施例中，该装置提供了视觉用户接口来探究该阅读历史，诸如文档缩略图的历史序列或有关每个阅读的文档的目录信息。在一些实施例中，用户可以探究他们的文档阅读历史以审视用户阅读的文档的各部分的随时间的视觉图(visualmap)、用户阅读它们的顺序、以及用户在该文档的各个部分花费了多少时间。

在一些实施例中，在捕获客户端(160)和显示客户端(170)中提供了安全组件，使得不向注释服务器提供用户正在查看的内容的用户可识别(user-identifiable)细节。相反，与注释服务器传送加密的、散列的或以其他方式保护的用户正查看的文本段或文本片段的形式(205b)或由注释服务器存储该加密的、散列的或以其他方式保护的用户正查看的文本段或文本片段的形式(205b)。存储文本的安全形式确保了不存在由注释服务器维护的用户的内容查看习惯的用户可读记录。该安全组件有助于防止以可能被认为是侵犯用户隐私的方式使用该装置。取决于所希望的注释分布，注释本身(205b)也可能以加密的、散列的或以其他方式保护的形式被传送和存储。通过存储与文本段和锚文本关联的注释，该注释有效地与其所添加到的原始源内容的标识分离。例如，如果书籍的数字副本的用户添加了注释，则当注释服务器存储该注释时，就不必要存储该书籍的标识。当相同的用户或其他方将来查看该书籍的数字副本时，通过对照存储的文本段和锚文本评估在用户显示器上呈现的该书籍的文本来识别用户存储的任何注释。所公开的注释存储方法因此与传统的将注释与特定文档关联的方法或者与在应用内需要特定技术或需要特定文档格式来存储或关联注释的方法显著不同。

“注释”的性质

这里描述的装置既允许创建注释，也允许与注释交互，如在动态显示器上呈现的那样。所述装置的一些方面涉及一个用户创建注释以供其他用户查看或与其交互。所述装置的其他方面涉及通过所述装置本身自动创建各种注释。所述装置的附加方面涉及用户与注释的交互——既有其他用户创建的那些注释，也有装置本身创建的那些注释。注意到存在与注释关联的创建方面和交互方面两者是很有帮助的。并且在一些情况下，与一个注释的交互可能导致附加注释的创建。

与目标材料和/或锚材料(两者都在下文中描述)关联的注释可以是能被指向、指示、调用等的任意对象。注释通常在装置用户用鼠标点击注释的视觉指示，或通过用户的键盘或鼠标选择与该注释关联的菜单项时被选择或调用。这里所使用的注释可以包括对于动态显示器上任何位置或区域而动态(编程)产生或静态(人工)产生的动作——所述位置或区域要么由用户选择，要么由该装置指示。通常当用户在其显示器上用鼠标点击一位置或突出显示/选择一区域，接着用其鼠标右击以弹出(bring up)可能动作的菜单，并最终选择所呈现的其中一个动作来调用它时，调用用户选择形式的注释。

注释的许多可能示例中的一些示例包括到附加文本或图形内容的链接，到另一文档的指针或链接，文本评论，到讨论组或论坛的链接，到网站、博客或其他web内容的链接(例如，超链接)，或者在选择注释时播放的音频或视频剪辑。注释的附加示例包括：-启动与在所显示内容中提到的人的互联网聊天会话-启动寄给所显示内容的作者的电子邮件-给用户用电子邮件发送所显示或选择内容的副本-参与有关所显示或选择内容的投票-确认用户已经阅读和/或同意所显示的内容-启动互联网搜索-将显示或选择的内容贴到用户的博客-给用户的博客留下新的回链(track-back)注释-在电子商务网站购买注释或选择的物品-在用户的日历中录入选择的或突出显示的日期或时间或事件信息-在用户的联系数据库中录入联系信息-在维基百科或另一个字典或百科全书网站上查找显示的或选择的字或短语-说出/读出选择的内容-创建在所指示的电话号码和用户电话间的电话连接-为用户对所指示的内容做书签-将指示的内容添加到用户的所捕获内容的档案中-对用户选择的区域加下划线或突出显示(即，创建新的静态视觉注释)-添加与所指示的位置或选择关联的新语音注释-将所选择的内容复制到用户的剪贴板-将用户的网络浏览器引导到所指示的URL或网站-将用户的个人信息填入该表格中-将可购买物品添加到可能购买的用户意愿列表中-购买所指示的物品或产品-证实购买所显示或选择的物品或产品-登记用户对指示的产品或服务感兴趣-将有关显示或选择的产品或服务的附加信息发送给用户-显示有关所指示或选择内容的其他用户的评论或注释-显示指示/选择的个人、组织等的联系信息-将所选内容翻译成另一种语言-检查所显示或选择的字的拼写-当该字/短语随后出现在用户的显示器上时突出显示该字/短语的所有出现-通过电子邮件转发包含显示内容的文档的副本-购买包含显示内容的文档的副本-在显示内容或包含文档改变时通知用户-在显示内容或包含内容进一步被注释时通知用户-在指示内容被显示时给其他用户呈现广告-播放适用于或同步到所指示位置的音频或视频-显示与指示内容有关的图片

需要注意的是，虽然这些活动和功能中的一些在现今可获得的许多软件应用和设备中可用，但所述装置使这些活动和功能对于任何显示的内容都可用，而无论特定应用是否支持该活动，并且无需来自该应用或用户的操作系统的明确支持或合作。

与在动态显示器上呈现的内容关联的注释可以具有视觉表示。例如，可以通过图标、或通过显示器上呈现的具有不同于相邻文本属性的特殊属性——下划线、突出显示等——的文本区域来指示注释。

锚材料和目标材料

“锚材料”是与注释关联的内容，其可以用于触发注释的呈现以及触发存在注释的指示。锚材料可以任选地包括注释本身的主题，并且它可以任选地包括周围或附近的内容——通常包括刚好在注释目标材料之前和/或之后出现的材料。

“目标材料”(这里有时简称为“目标”或“主题(subject)”)是注释打算应用到的或注释打算与其关联的特定材料。目标材料可以是文本的连续(contiguous)范围、或一组关键字(任选地具有特定的顺序或在彼此的特定距离内)、图像或图像组、文档中的特定位置、文档中的地理区域或文本范围区域、整个文档、关于特定主题的内容的集合或文档等。

锚材料和主题材料的一种用途是当注释的主题材料本身并不完全可见或呈现时触发该注释的指示或呈现。作为一个示例，用户将注释文本和链接：[在Amazon上购买这个|http://www.amazon.com/item:CAPS-A520]与主题材料“Canon PowerShot A520数码相机”相关联。还与该注释关联的是预锚(pre-anchor)“开始数字摄影：该包包括”以及后锚“和SELPHY CP510相片打印机，加上所有需要的配件”。作为一个示例，网站访问者滚动其网页视图使得预锚和目标材料的一部分(“开始数字摄影：该包包括Canon PowerShot”)在其显示器上可见，但该锚和主题材料的其余部分仍不可见。尽管如此，关联的注释已经正确地出现。

在一些情况下，注释的目标材料或锚材料在不同呈现中可能略微改变，但用户可能希望她或他的注释对于这些改变的一些或全部而出现。因此注释的主题文本可能以不同的标点符号、大写、拼写、字体、颜色等出现。在一些实施例中，所述装置允许用户指定哪些改变应当触发用户的注释而哪些应当忽略。

一种有效的描述特定再现必须与原始目标材料有多接近的方式是指定有限的“编辑距离”，其是两个文本样本的相似度的公知量度。任选地，用户可以指定是否接受标点符号、大写、拼写等的改变并且因此触发特定注释的呈现。

注释上下文

这里的“上下文选择”是指这样的过程：凭借该过程所述装置的用户建立他们希望他们的注释出现在其中的特定上下文或环境。上下文选择可以包括对其要显示该注释的文章的特定卷、期、版本或副本，允许访问该注释的特定用户或用户组，查看或访问该注释所必须支付的钱或费用，要使注释可用所需要存在的锚文本和目标材料等。

在一些实施例中，所述装置向用户指示其他文档和上下文，所述文档和上下文包含用户所选择的目标和/或具有相同的锚文本——即，显示时将调用注释的那些文档。这些实施例中的一些还允许用户浏览这些可选的呈现上下文以了解具体在哪些上下文/情况中出现他们的注释。一些实施例还允许用户选择或取消选择他们想让或不想让他们的注释出现在其中的上下文。

在一些实施例中，上下文选择包括逻辑操作和组合。例如，用户可能想要上面提及的“[在Amazon上购买这个|http://www.amazon.com/item:CAPS-A520]”的注释仅在主题材料“CanonPowerShot A520数码相机”出现在非商业上下文中时才呈现——例如，如果包含该引用的网页不包括关键字“买”或“购买”中的任一个并且也不包括任何到电子商务网站的直接链接才呈现注释。

应用上下文的进一步应用是所述装置的用户指定为了显示主题注释需要多少(如果需要的话)锚文本或附近文本的能力。在用户注释单个字或较短短语的情况下，所述装置允许他们选择是仅想在出现该较短短语的任何时候都出现他们的注释，还是仅在某些文档中出现他们的注释、在特定锚文本的情况下出现他们的注释等。

附加细节

以下描述提供了具体的细节以便透彻理解本技术的各个实施例以及使得能够描述该各个实施例。本领域技术人员要理解，无需这些细节中的许多细节就能实现该技术。在一些情况中，公知的结构和功能并未示出或详细描述以避免不必要地模糊本技术的实施例的描述。预期的是，在以下给出的描述中所使用的术语应当以其最宽泛合理的方式解释，即便其与本技术的某些实施例的详细描述相结合使用也是如此。虽然以下可能强调某些术语，但预期以任何受限制方式解释的任何术语都将被公开地并且具体地照此限定在该详细描述部分中。

图1是使得能够在多种内容上创建并显示注释的硬件和/或软件装置的框图。该装置包括耦合到数据储存器110的注释服务器105。注释服务器管理注释与文本段的关联以及传送相关的注释以显示在内容上。如在此更详细描述的，文本段存储在文本数据库115中而注释存储在注释数据库120中。在注释数据库中的每个注释都与存储在文本数据库中的其中一个文本段关联。提供一个或多个索引125来使注释服务器能够迅速搜索文本数据库115和注释数据库120以便识别希望的文本段或注释。虽然将注释服务器105描绘为单个服务器，但要理解的是，注释服务器可以包括多个服务器并且这里所描述的功能性可以复制或分散在该多个服务器中。类似地，虽然数据储存器110被指示为包含若干数据库的单个数据储存器，但要理解的是，可以使用一个或多个数据储存器来存储该装置所访问的数据。而且，术语“数据库”应当以其最宽泛的意义来解释为在计算机内存储并访问数据的结构化方式。

该注释服务器105通过网络145与注释捕获客户端130和注释显示客户端135和140进行通信，所述网络例如像因特网或内联网的公共或专用网络。该注释捕获客户端130在用户的查看设备上运行以允许用户在内容上创建注释。该查看设备可以是计算机、便携式计算机、移动电话、个人数字助理、电子书阅读器、或者具有允许用户与内容交互的接口的任何其他设备。在一些实施例中，手持光学和音频捕获设备用来创建注释，如在美国专利申请No.60/653,899中所述的，该专利申请的全部内容在此并入以供参考。如这里所用的，内容指的是任何包含文本或可转换为文本的视听内容，包括但不限于文档、网页、图像、幻灯片、演讲、视频、电子邮件、电子数据表、SMS信息、穿插式讨论(threaded discussion)、聊天室，等等。如本文更详细描述的，注释捕获客户端130允许用户创建注释以及将该注释与用户查看的内容中所包含的文本段相关联。在一些实施例中，至少一些客户端执行注释捕获客户端和注释显示客户端二者的功能性。

图2是例如可以在查看内容时呈现给用户的代表性用户接口200的屏幕截图。尽管图2中描绘的内容只有文本，但是要理解的是显示的内容可以包括文本、图形、视频、动画、照片和任何其他音频、视觉或视听内容-即，具有可以识别的特征并且因此可以用于主题或锚内容的任何内容。五个注释205a、205b、205c、205d、205e和205f被描绘为已经被添加到该内容。第一注释205a是与该内容中的一个句子相关联的声音注释，诸如记录的语音或音乐。该声音注释可以通过点击或以其他方式选择该注释来访问。第二注释205b是与内容中的两个字相关联的文本注释，并且包括指向附加信息的超链接或者其他链接或指针。第三注释205c是与内容中的位置相关联的文本注释，但是并不以内容中的任何特定字来识别。第四注释205d是与内容中的短语相关联的文本注释，并且包含按钮210，该按钮当被选择时向用户呈现附加的注释内容。第五注释205e是注释的视觉指示，当用户通过点击或以其他方式悬停在第五注释上来选择该注释时，可以查看其内容。第六注释205f是与内容的短语相关联的讨论线索(discussion thread)。用户可以在讨论上张贴可由其他用户查看的评论。可以通过点击“更多”按钮来查看附加的讨论内容，该按钮可以将用户链接到讨论板或可以造成显示的弹出或其他变化，所述弹出或变化允许用户查看更多的讨论线索。所描绘的注释提供了注释形式和类型的一些指示，但是仅仅是示例并且决不打算是限制性的。注释可以包括文本、图像、电影、声音、聊天、URI、投票、广告、购买机会等等(参见24和450段附近的部分列表)。注释能显示在文本周围的空白处，可以叠加在文本上，可以呈现在与内容不同的屏幕上，或者可以以上述方式的任何组合呈现。注释形式和类型的各种其他变更对于本领域技术人员将是显而易见的。

为了允许用户创建和存储注释，捕获客户端130包含光学字符识别(OCR)或其他识别组件150、注释记录器155和隐私组件160。以下将关于图3A和3B所阐述的过程描述这些组件的每一个的操作。

图3A和3B是为允许用户创建和存储对任何类型内容的注释而由该装置实施的捕获过程300的流程图。无论何时用户希望对其正查看的特定内容段添加一个或多个注释，该装置都可以执行该捕获过程。创建可用任何类型内容操作的跨平台捕获客户端的挑战之一是用户可以查看内容的格式的多样化。例如，即使是像文档那样普遍的一段内容也可以各种格式表示，包括MicrosoftWord、Adobe PDF、Corel Word Perfect、OpenDocument及其它格式。虽然可以创建接口来与这些格式的每一种的内容进行对接，以确保注释捕获客户端130的宽泛适用性，但是该客户端任选地与正向用户显示的内容的图像进行交互而不是与由用户使用的查看应用所规定的底层格式内容进行交互。然而，在(诸如通过查询应用API)可获得关于显示内容的信息的那些情况下，所述系统任选地使用此信息代替对显示的内容本身执行图像分析。在块305中，在没有API可用来描述用户显示器上正呈现的内容的情况下，由该装置捕获包含正向用户显示的内容的全部或部分屏幕缓冲器。在块310中，由OCR/识别组件150处理捕获到的屏幕缓冲器数据从而识别正向用户显示的文本。作为识别过程的一部分，数据、图形和显示格式(display formatting)能够被识别并且任选地用作主题或锚材料，或者可以将其丢弃。通过从用户为查看或操纵内容而使用的任意应用的显示输出中提取文本，捕获客户端130能够在不必与每一显示内容的应用的API进行对接的情况下识别内容中的所有文本，并且其处理没有这样的API可用——即没有关于显示内容的信息可用的情况。尽管将OCR/识别组件描绘为在用户的查看设备的表示层捕获客户端130中，但是本领域技术人员要明白，可以通过远程服务执行一些或全部OCR/识别处理。例如，该装置可以在捕获客户端处执行初始处理，并且可以将部分处理过的数据的内容图像或者捕获的屏幕缓冲器数据的全部或若干部分传送到可以执行类似或更加资源密集的OCR处理(例如，标志和商标的图像匹配、稳健的OCR处理、稀有或特殊字体的处理等)的远程OCR/识别服务。远程处理从用户设备移除了一些或所有计算负担，同时允许执行更复杂的OCR/识别处理。

一旦包含在用户正查看的内容中的文本(以及任选地，其他独特元素)被识别，就允许该用户使用注释记录器155向该文本添加一个或多个注释。在块315中，该装置接收来自用户的关于该内容内的注释的位置的指示。注释可以与内容中的点、与内容中的一个或多个字、与几何或地理区域(例如，包含文本和/或图形的矩形盒)、与诸如句子、段落、页、节段、章回等等的文档元素相关联。使用用户的查看设备支持的任何输入设备(例如，鼠标、笔、光标、触摸屏等等)，用户能够指定显示内容内的注释的位置或物理范围。该位置可以是点、单个字符或一些字符、单个字或一些字(例如，句子或段落)或者它们的任何组合。用户可以用任何普通的位置指示机制来指定位置，所述位置指定机制例如点击、点击并拖拉、悬停并点击右键等等。

在一些实施例中，该装置依靠具有足够长度的文本段来确保注释在将来显示时的适当放置。如果用户仅将内容中的点识别为注释的位置，或者如果用户识别了长度不足以确保注释在将来的精确放置的文本段，那么该装置识别附加文本以与该注释相关联。可选地，用户可能希望对于特定文本段的每一出现都出现特定注释，在此情况下不需要附加的文本长度。在块320中，该装置确定用户是将内容中的文本段识别为注释的位置，还是仅仅将内容中的点识别为注释的位置。在块330中，该装置确定文本段是否具有足够的长度以确保该注释在将来的精确放置。如果在块320和330中的测试指示注释在将来的精确放置需要进一步的文本，并且如果用户指示仅文本段的该实例应该接收注释，那么在块325中，该装置识别可以用来确保注释的适当放置的锚文本。例如，关于图2，锚文本的五个实例210a、210b、210c、210d和210e用虚线描绘出来。第一锚文本实例210a在用户选择与注释205b关联的文本段“Norwegian Blue”的每一侧延伸。该装置选择锚文本210a来为选择的文本段提供更多上下文，其中由仅仅两个单词(word)组成的文本段可能太短而不能确保注释205b在将来的精确放置。该装置在用户为放置注释205c而选择的位置的每一侧选择锚文档210b。类似地，该装置选择锚文本210c，因为它在注释205e的位置之前。在块325中，如果用户选择的文本段的长度不足以确保注释在将来的精确放置，那么该装置选择锚文本。

在一些实施例中，该装置识别锚文本的两个段。紧接在内容中用户识别的注释位置之前识别锚文本的第一段。紧接在内容中用户识别的注释位置之后识别锚文本的第二段。锚文本的每一段都各自足以确保相关注释的适当放置。例如，在图2中，注释205f具有两个与其相关的锚文本实例。锚文本的第一实例210d在注释的位置之前延伸，而锚文本的第二实例210e在注释的位置之后延伸。选择锚文本的每一实例，使得用户选择的文本和锚文本的组合确保注释在将来的适当放置。在试图适当放置注释时该装置仅能识别一组锚文本的那些情况下使用具有单个注释的两组锚文本也是有益的，如在此将更详细描述的。

在一些实施例中，该装置可以向用户提供指令来引导用户选择精确定位注释的足够文本，而不是该装置选择锚文本。也就是说，当用户选择注释的位置时，如果选择的位置不足以在将来精确定位注释，那么该装置可以提供视觉或听觉指示。该视觉或听觉指示可以保持到用户已选择足够的文本为止。例如，当用户为了放置注释的目的而开始突出显示文本时该装置起初可以在屏幕上显示红色图标，而当用户已选择足够文本来可靠定位注释时该装置可以将该图标转为绿色。该视觉或听觉指示充当确保用户为该装置提供充足的位置信息的反馈。

在用户已识别注释的位置并且该装置已选择任何锚文本之后，在块335中该装置从用户接收注释。注释可以是任何形式(例如，文本、音频、视频、图像、链接和URL、动态动作等等)并且可以由用户使用适当的输入机构(例如，键盘、剪切及粘贴、用麦克风或录像机记录等)进行录入。注释可以采取可由用户使用的查看设备显示、指向或调用的任何形式。

在该装置接收注释之后，在某些情况下掩盖注释的内容或者注释在传送到注释服务器之前所关联的文本段和锚文本的内容可能是重要的。例如，捕获客户端130可能远离注释服务器105并且二者之间的任何通信可能是通过公用网络。因此一定级别的安全性可能适于确保客户端和注释服务器之间的通信不会被截获。作为另一个示例，可能重要的是当注释或文本段存储在注释服务器105时掩盖注释或文本段的内容从而保护使用注释服务的任何人的隐私。在这样的情况下，在块340中，安全组件160可以加密或以其他方式掩盖注释和/或文本段和锚文本的标识。根据希望的保护级别和用户或该装置操作者的偏好，可以应用各种技术来提供安全性。例如，注释可以使用公钥加密算法来加密，并且被传送到注释服务器，其中注释在注释服务器中可以保持加密并且仅可由拥有对应的私有密钥的人查看。作为另一示例，文本段和锚文本的校验和可以被计算并且同注释一起传送到注释服务器。正如从以下讨论中会明白的，可以通过向注释服务器提供相同的校验和来访问注释。然而，由于注释服务器仅存储校验和而不存储与校验和关联的实际文本，因此对于可以访问注释服务器的人可轻易确定的只有注释本身。通过使用校验和，与注释关联的实际内容将保持隐藏。安全地传送和存储文本段的指示和注释的其他方法对于本领域技术人员是显而易见的。

在块345中，捕获客户端130将注释、锚文本和文本段的指示传送到注释服务器105。如果要由除捕获客户端的用户之外的当事方访问注释，那么整个注释被发送到注释服务器。在注释服务器上存储注释允许随后将注释分发到使用显示客户端135或140的用户。相反，如果只有捕获客户端的用户访问注释，那么注释可以存储在捕获客户端的本地。在一些实施例中，整个文本段和锚文本被传送到注释服务器。在一些实施例中，仅传送文本段和锚文本的表示。这样的表示可以是校验和、散列值、加密码或其他唯一识别文本段和锚文本而无需公开文本段和锚文本的实际内容的值。注释和相关信息可以在用户创建注释时由捕获客户端发送，或者可以由捕获客户端缓存并周期性地传送到注释服务器。到注释服务器的传送的时间表(schedule)可以由进行传送的网络可用性规定，或者可以由通信效率规定以最小化各种装置组件之间的通信量。

在块350中，由注释服务器105接收注释和文本段及锚文本的指示。注释服务器以某种方式存储接收到的注释，该方式允许随后基于与注释相关联的所有或部分文本段和锚文本而识别该注释。在一些实施例中，注释可以存储在注释数据库120中，而文本段表示和锚文本表示存储在文本数据库115中。在文本数据库中存储文本段和锚文本之前，在块335中，该装置搜索该文本数据库以识别该文本段表示或锚文本表示是否已经存在于文本数据库中。如果在决策块360中该装置未识别文本段和锚文本，那么在块365中将文本段和锚文本添加到文本数据库。在块370中，在注释数据库中存储注释，所存储的注释具有到存储在文本数据库中的文本段和锚文本的引用或者其他链接。在一些实施例中，与文本段和锚文本关联的文本连同存储文本的哪一部分对应于文本段以及哪一部分对应于锚文本的指示一起进行存储。以此方式，可以识别由用户选择的那个确切的文本(对应于文本段)，而全部存储的文本(对应于文本段和锚文本)可以用于确保正确地恢复注释。如果在决策块360中该装置识别出文本段和锚文本已经存储在文本数据库中，那么该装置的处理可以继续到块370，在块370中存储注释，所存储的注释具有到文本段和锚文本的引用或者其他链接。以此方式，由该装置构建文本段和锚文本的数据库，每一个都与一个或更多注释相关联。

在一些实施例中，由注释服务器105接收的文本段表示和任选的锚文本表示与对应于大量存储的电子文档的表示相比较以识别文本段和锚文本所源自的一个或多个文档。2005年4月19日提交的题目为“PROCESSINGTECHNIQUES FOR VISUAL CAPTURE DATA FROM A RENDEREDDOCUEMENT”的美国专利申请序列号No.11/110,353公开了一种为识别关联的一个或多个文档而把接收到的文本进行相关的方法，其全部内容合并在此作为参考。可以由该装置存储与文本段、锚文本和注释相关联的一个或多个文档的标识。

与文本段关联的注释一旦由该装置存储就可以被访问从而呈现给用户。为了促进及时访问注释，该装置可以周期性地建立或更新一个或多个存储在索引数据库125中的索引。显示客户端可以优化这些索引来提供实时或近实时的注释查找。本领域技术人员要明白，存在各种可以用来优化对注释和文本数据库的访问的技术。

回到图1，在与文本段和锚文本相关联地存储了注释之后，该装置使得查看任意包含与注释相关联的文本段的内容的用户能够访问注释。为了允许用户访问注释，注释显示客户端135和140可以在用户的查看设备上操作。基于文本的注释显示客户端135包含文本解析器165、安全组件170和格式化及显示组件175。表示层注释显示客户端140包含文本解析器165、安全组件170和格式化及显示组件175，并且另外包含光学字符识别(OCR)或其他图像识别组件180。一般而言，每一显示客户端将解析正由用户访问的内容以便识别包含在该内容中的一个或多个文本片段。所查看的文本片段的表示被发送到注释服务器105，注释服务器105识别任何与这些文本片段相关联的注释。注释服务器将对应的注释传送到显示客户端，在显示客户端处将所述注释显示给用户。注释客户端135和140中的每一组件的操作都将参考图4A和4B中所阐述的显示过程进行描述。

图4A和4B是为允许用户访问与用户正查看的内容相关联的注释而由该装置实施的显示过程400的流程图。每当用户希望查看一个或多个与用户正查看的特定内容段相关联的注释时，该装置就可以执行该显示过程。该装置起初识别用户正查看的内容中包含的文本。基于文本的注释显示客户端135可以用于以下情形：其中正被查看的内容是以一种可以容易获得(例如，通过对源应用的API调用)来识别内容中的文本片段的格式。表示层注释显示客户端140可以用于以下情形：其中正被查看的内容是以一种不能容易获得来识别内容中的文本片段(例如，源应用不输出描述其正在用户显示器上呈现的内容的API)的格式。显示过程400描绘表示层显示客户端140的操作，下面将谈到表示层显示客户端与基于文本的显示客户端之间的区别。

以与捕获客户端130的操作相似的方式，显示客户端与正显示给用户的内容的图像进行交互，而不是与由用户使用的查看应用所规定的底层格式内容进行交互，以便确保显示客户端可以各种格式进行操作，用户可以以所述各种格式查看内容。在块405中，该装置捕获包含正在用户的查看设备上向用户显示的内容的屏幕缓冲器的全部或部分。在块410中，OCR组件180处理捕获的屏幕缓冲器数据来识别正向用户显示的文本。作为OCR处理的一部分，辨别和丢弃不需要的数据、图形和显示格式。通过从用于查看或操纵内容的任意应用的显示输出中提取文本，显示客户端140能够识别用户查看的内容中的文本而不必理解与每一内容查看应用进行直接对接所必需的API。

一旦识别了用户正查看的文本，该装置试图识别一个或多个与该文本相关联的注释。在块415中，文本解析器165解析用户查看的内容从而识别一个或多个文本片段。文本片段是包含在内容中的一个或多个连续的字。本领域技术人员要明白，可以使用各种算法来解析文本并识别哪些文本片段要发送到注释服务器以用于比较的目的。在一些实施例中，为了比较的目的，可以将内容中的文本的每一个字的表示发送到注释服务器。在一些实施例中，为了比较的目的，可以仅仅将与众不同的字或字组的表示发送到注释服务器。同样，也可以实施用于仅将选择的文本片段传送到注释服务器的其他算法。

在块420中，安全组件170可以加密或以其他方式掩盖文本片段的标识。根据期望的保护级别和用户或该装置操作者的偏好，可以应用各种技术来提供安全性。例如，文本片段可以使用公共密钥加密算法来加密，并且被传送到注释服务器，在注释服务器处使用私有密钥对其解密。作为另一示例，文本片段的散列值可以被计算并传送到注释服务器。通过仅传送散列值，截获该传送的任何人都无法确定用户在查看什么文本片段。安全地传送文本片段的其他方法对于本领域技术人员将是显而易见的。

在块425中，该装置将对每一文本片段的识别传送到注释服务器，在注释服务器处可以将其与存储在文本数据库中的文本进行比较。该装置可以单独或成组地传送文本片段，并且可以定期地或不定时地进行传送。例如，当用户第一次查看文档时可以传送整个文档的全部文本片段，或者当用户查看每一部分时可以只传送那些对应于用户正查看的文档部分的文本片段。作为另一示例，当用户选择为某些内容开启注释功能性时，或者当用户肯定地请求为特定内容段接收注释时，可以发送文本片段。

在块430中，注释服务器105从显示客户端140接收文本片段的指示。在块435中，该装置将接收的文本片段的指示与存储在文本数据库115中的文本段和锚文本的数据库进行比较，以便使接收到的文本与存储的文本相匹配。如果接收到的文本片段是文本形式的，那么该该装置可以使用搜索树来遍历接收到的文本并且将其与存储的文本进行比较。如果接收到的文本片段是以编码形式表示的，例如与文本片段相关联的散列或其他值，那么该装置可以将接收到的编码形式与表示存储文本的编码值表进行比较，以便识别任何对应的文本段和锚文本。该装置可以利用存储在索引数据库125中的一个或多个索引来确保以快速且高效的方式完成比较。该装置为将接收的文本与存储的文本进行比较而使用的算法可以要求精确的匹配，或者可以允许相对或接近的匹配。由于当用户在文档中前后滚动时可以捕获文本片段，所以使用两组而不是一组锚文本可以具有一定优势。通过在注释之前和之后都存储足够文本来精确地识别注释的位置，当在屏幕上滚动锚文本时，可以快速地识别该注释。例如，当用户在文档中向前滚动时，将首先识别在注释放置之前的锚文本，而当用户在文档中向后滚动时，将首先识别在注释放置之后的锚文本。即使还没有检测到第二组锚文本(例如当第二组锚文本保持隐藏在可视显示器的边缘之外)，该装置对第一组锚文本的检测也允许显示对应的注释。

在块440中，该装置进行测试以确定一个或多个接收到的文本片段是否与存储在文本数据库中的文本相匹配。如果没有文本片段与存储在文本数据库中的文本相匹配，那么在块445中向显示客户端传送信息来指示没有注释要显示。显示客户端可以向用户提供对于正被查看的内容不存在注释的指示，诸如指示缺乏注释的图标或消息。可选地，显示客户端可以仅仅继续向用户显示不带注释的内容，其中用户在理解仅当发现与所查看的内容相匹配的注释时才显示注释的情况下进行操作。

如果注释服务器接收到的一个或多个文本片段与存储在文本数据库中的文本相匹配，那么在块450中该装置识别与文本片段相关联的注释。这样的注释由该装置通过依靠在文本数据库115中的文本段和锚文本与在注释数据库120中的注释之间的存储的关联而识别。对于被发现为与文本片段匹配的每个文本段和锚文本，识别注释以传送到显示客户端。在块455中，该装置将注释以及与该注释相关联的关联文本段和/或锚文本传送到显示客户端。如下面更详细描述的，传送文本段和锚文本以允许显示客户端适当地定位注释，并且任何注释在显示的内容上突出显示。要明白，如果所接收的文本片段准确地匹配该文本段和锚文本，并且如果该装置管理在每个发送的文本片段和由注释服务器进行的搜索的结果之间的关联，则可以仅将注释传送给显示客户端并省略该文本段和锚文本的传送。

在块460中，显示客户端140从注释服务器105接收关联的文本段和锚文本的指示和注释。在块465中，显示客户端确定注释相对于用户正查看的内容的位置。由OCR组件180产生的文本到该文本源自的对应的查看内容的位置的映射由该装置维护。因此通过将对每个注释所接收的文本段和锚文本与由OCR组件所识别的文本相比较、然后确定匹配的OCR文本出现在内容中的何处，来确定每个注释的精确位置。

一旦确定了每个注释的位置，在块470中该装置在内容中识别出的位置处显示注释。显示客户端通过在重叠在用户为查看内容而使用的已有应用程序上的显示层中插入注释来显示注释。显示层是允许在除了那些包含注释的区域之外的所有区域中检查内容查看应用的透明层。通过将注释插入到与内容查看应用分开控制的显示层中，该装置能够将注释添加到更宽范围的内容格式中。图2描绘了这样的注释当覆盖在文本内容上时如何显现给用户的代表性示例。

作为各种显示选项的一部分，允许用户指定控制如何显示注释的若干参数。例如，可以允许用户指定是否应当给用户显示锚文本。如果显示，则可以使用与用来显示文本段的突出显示不同的突出显示来呈现锚文本，以使用户能区别这两者。作为另一示例，可以允许用户指定注释是应当显示在与其中最初记录注释的上下文相比相同的上下文、类似的上下文还是显示在不同的上下文中。相同的上下文是文本段和锚文本准确地匹配文本片段的上下文。类似的上下文是文本段准确地匹配文本片段的一部分但锚文本是适度(而非准确)匹配的上下文。不同的上下文是文本段准确地匹配文本片段的一部分但锚文本不匹配文本片段的其余部分的上下文。通过指定匹配的类型，用户能间接调整给用户显示的注释的数量。用户还可以设定各种参数以确定如何在视觉上将注释显示给用户。例如，该装置可以允许用户指示图标(而不是注释本身)应当显示在一段内容上来指示存在注释。点击图标或以其它方式悬停在图标上则会导致显示注释。在另一示例中，在内容上可以不指示注释，除非用户选择一段文本(例如，段落)并请求显示注释。在又一示例中，对用户可见的显示器的仅仅一部分可以被配置为显示注释。例如，显示器的下半部可以被配置为显示注释，而显示器的上半部可以不被配置为显示注释。当用户在文档内滚动并且文本进入显示区域时，将显示注释。当文本离开显示区域时，就移除注释。其他的显示选项对本领域的技术人员而言也是显而易见的。

虽然图4A和4B中描绘的过程400是针对表示层注释显示客户端140的操作描述的，但大部分过程同样也可应用于基于文本的注释显示客户端135。基于文本的显示客户端操作于如下环境：其中内容的文本形式可以由显示客户端容易地确定。在这种类型的环境中，不必执行块405和410中所表示的捕获和OCR步骤。除了这两个步骤，从块415开始并继续到过程的结束，基于文本的注释显示客户端135可以实施与表示层注释显示客户端140相同的过程400。

除了给用户显示注释，当先前向用户呈现的注释已经改变时，该装置还可以向用户提供通知。例如，该装置可以维护已经给用户显示的所有注释的记录。如果例如通过将文本添加到注释中或从注释中删除文本而修改了已经给用户显示的注释之一，则该装置可以告知用户这样的修改。该通知可以由该装置例如以电子邮件、即时消息或其他通知改变的形式立即传送给用户。该通知还可以或可选地在用户下次查看注释时被传送给用户。例如，如果用户查看具有先前已经给用户呈现的注释的内容，则注释可以由该装置以突出显示对注释所做的修改的方式显示，所述修改是与上一次用户查看注释相比较的。变化的文本可以以各种方式诸如例如通过以粗体、突出显示等方式显示该文本而显示给用户。

要明白，可以提供应用编程接口(API)来使得设备与该装置提供的捕获、显示和存储能力交互。例如，可以提供接口以使得便携式扫描设备能够扫描部分文本并且将文本、声音或语音注释附加到扫描的部分。这样的扫描的部分以及相关的注释接着可以被传送到注释服务器进行存储。典型的便携式扫描设备可以在2006年5月11日提交的、题为“A PORTABLE SCANNING ANDMEMORY DEVICE”的美国专利申请序列号No.11/209,333中找到，其全部内容合并在此作为参考。作为另一示例，诸如Microsoft Word的字处理程序可以合并文本显示客户端功能性以访问并显示存储在注释数据存储区域中的注释。

虽然这里的讨论考虑用户产生的注释，但该装置的变型可以用装置产生的注释进行操作。装置产生的注释可以以各种形式出现。在一种形式中，该装置可以包括网络爬行(crawling)组件，其在诸如互联网的网络中爬行以定位诸如文章、博客以及其他内容的文本资源。当网络爬行组件定位了在爬行获取的内容中的引文、标题、作者名、URL或其他独特字符串时，则该装置可以捕获与该独特字符串关联的文本并将所捕获的文本用作该独特字符串的注释。例如，如果网络爬行组件识别了包括John F.Kennedy的语录“Ich bin ein Berliner”的博客，则该装置可以存储围绕该语录的文本作为与该语录关联的注释。博客条目因此就成为了无论在哪里显示该语录时都可以查看的注释。

注释的另一种可选形式是对商品或服务做广告的广告注释。广告注释可以诸如由想要将广告与特定的短语关联的用户进行用户放置。例如，用户可以用飞钓旅行的广告对短语“彩虹鲑鱼(rainbow salmon)”进行注释。广告注释还可以是系统放置的。例如，寻求出售充气艇的用户可以向该装置提交广告请求。使用匹配算法，该装置可以显示与描述在河上漂流的内容关联的充气艇的广告注释。广告注释还可以通过该装置自动与某一内容关联。例如，诸如“Amazon.com”的公司名可以总是具有与其关联的提供链接或其他有关公司的广告的注释。

1.系统的性质

对于每个具有电子对应物(counterpart)的再现文档，在再现文档中存在能识别该电子对应物的个别量的信息。在一些实施例中，该系统使用例如使用手持扫描仪或其他扫描技术从再现文档中捕获的文本的样本来识别并定位该文档的电子对应物。在多数情况下，该装置所需文本的量是非常小的，因为来自文档的几个字的文本通常就能用作再现文档的标识符和用作到其电子对应物的链接。此外，该系统可以使用那几个字来识别文档以及该文档中的位置。

因此，再现文档以及它们的数字对应物能使用在此所讨论的系统以多种有用的方式进行关联。而且，再现文档还能与和再现文档有关的元数据以及其他文档相关联。

1.1未来的快速纵览

一旦该系统已经将在再现文档中的一段文本与已经建立的特定数字实体关联，则该系统就能在此关联上建立大量的功能性。

越来越多的情况是，多数再现的文档具有在万维网上或从其他一些在线数据库或文档集可访问或者能使其诸如响应于支付费用或订阅而可访问的电子对应物。于是，在最简单的层面上，当用户扫描再现文档中的几个字时，该系统可以检索该电子文档或其某一部分，或者对其进行显示，将其用电子邮件发给某人，购买该电子文档，打印该电子文档或将其发布到网页上。作为附加的示例，扫描某人在早餐中所读书籍中的几个字可以使该人汽车中的音频书籍版本在他/她开车去上班时开始从那个点朗读，或扫描在打印机墨盒上的序列号就可以开始命令更换的过程。

该系统实施“再现文档/数字集成”的这些以及许多其他示例，而不要求改变写下、打印和出版文档的当前过程，给这样的传统再现文档提供全新的数字功能性层。

1.2术语

该系统的典型使用从使用光学扫描仪扫描来自纸质文档或设备显示器的文本开始，但重要的是注意，从其他类型文档进行捕获的其他方法同样是可应用的。因此该系统有时被描述为从再现文档扫描或捕获文本，其中那些术语定义如下：

再现的文档是印刷的文档或在显示器或监视器上显示的文档。它是人们可察觉的文档，无论是永久形式还是暂时显示。

扫描或捕获是系统检查以从再现文档获取信息的过程。该过程可以包括使用扫描仪或相机(例如蜂窝电话中的相机)的光学捕获，抓取显示器(例如，对屏幕/屏幕缓冲器的OCR，或以其它方式从显示的文档中提取文档信息，参见12.2.4节)或者它可以包括从文档大声朗读到音频捕获设备中或在键区或键盘上键入。对于更多的示例，参见15节。

2.系统介绍

这节描述一些构建用于再现文档/数字集成的系统的设备、过程和系统。在各个实施例中，该系统在提供基本功能性的这个底层核心上建立各式各样的服务和应用。

2.1过程

图1是示出在核心系统的一个实施例中的信息流的数据流图。其他实施例可以不使用此处所示的所有阶段或元件，但一些实施例会使用更多。

通常由光学扫描仪以光学形式或者由语音记录器以音频形式捕获100来自再现文档的文本，接着处理102这个图像或声音数据，例如以消除捕获过程的伪像(artifact)或提高信噪比。诸如OCR、话音识别或自相关的识别过程104接着将数据转换成签名，其在一些实施例中包括文本、文本偏移或其他符号。可选地，该系统执行从再现文档中提取文档签名的替换形式。在一些实施例中该签名表示一组可能的文本转录(transcription)。该过程可能受来自其他阶段的反馈的影响，例如，如果搜索过程和上下文分析110已经识别了该捕获可能源自的一些候选文档，从而缩小原始捕获的可能解释。

后处理106阶段可以采用识别过程的输出并对其过滤或对其执行可能有用的其他操作。根据所实施的实施例，例如在已经捕获了其本身中包含足够的信息来传达用户意图的短语或符号的情况下，在这个阶段可以推断一些要立即采取的直接动作107而无需参考后面的阶段。在这些情况下，不需要参考数字对应物文档，或者该系统甚至不需要知道所述数字对应物文档。

然而下一阶段通常是构建用于搜索的查询108或一组查询。查询构建的一些方面可以取决于所使用的搜索过程并且因此直到下一阶段才能执行，但通常会有一些能预先执行的操作，诸如移除明显错误识别的或不相关的字符。

接着把该一个或多个查询传到搜索及上下文分析阶段110。这里，该系统任选地试图识别从其捕获原始数据的文档。为此，该系统通常使用搜索索引及搜索引擎112、与用户有关的知识114和与用户的上下文或其中发生捕获的上下文有关的知识116。搜索引擎112可以使用具体与再现文档有关、与其数字对应物文档有关和与具有web(互联网)存在的文档有关的信息和/或对所述信息编索引。其可以写入许多这些来源以及从这些来源进行读取，并且如已经提及的，其可以将信息馈送到该过程的其他阶段，例如通过基于其对候选文档的知识而向识别系统104提供与语言、字体、再现和可能接下来的字词有关的信息。

在一些情形下，下一阶段是检索120已经被识别的一个或多个文档的副本。文档源124可以例如从本地文件编排系统或数据库或web服务器直接访问，或可能需要通过某种访问服务122来联系文档源124，所述访问服务122可强制执行认证、安全或支付或可以提供诸如将文档转换成所希望格式的其他服务。

该系统的应用可以利用额外功能性或数据与全部或部分文档的关联。例如，在10.4节中讨论的广告应用可以使用特定的广告消息或主题与文档各部分的关联。这种额外关联的功能性或数据可以被认为是该文档上的一个或多个重叠层(overlay)，并且这里称之为“标记(markup)”。然后，该过程的下一阶段130是识别与所捕获的数据相关的任何标记。这种标记可以由文档的用户、创作者或出版者、或者某个其他方提供，并可以直接从某个源132访问或可以由某个服务134产生。在各个实施例中，标记可以与再现文档和/或再现文档的数字对应物、或这些文档之一或两者的组关联并应用到再现文档和/或再现文档的数字对应物、或这些文档之一或两者的组。

最后，作为早期阶段的结果，可以采取一些动作140。这些可以是诸如简单记录所发现的信息的默认动作，它们可能取决于数据或文档，或者它们可以从标记分析中导出。有时，该动作将只是把数据传到另一系统。在一些情况下，适于再现文档中特定点处的捕获的各种可能动作都会作为关联显示器上(例如在本地显示器332上，在计算机显示器212或移动电话或PDA显示器216上)的菜单呈现给用户。如果用户不响应该菜单，则可以采取默认动作。

2.2组件

图2是在典型操作环境的上下文中的系统的典型实施方式中所包括的组件的组件图。如图所示，操作环境包括一个或多个光学扫描捕获设备202或语音捕获设备204。在一些实施例中，同一设备执行两种功能。每个捕获设备都能使用直接有线或无线连接或通过使用有线或无线连接其可以与之通信的网络220，与诸如计算机212和移动站216(例如，移动电话或PDA)的其他系统部件通信，其中无线连接通常涉及无线基站214。在一些实施例中，捕获设备集成在移动站中，并且任选地共享在语音通信和拍照设备中使用的一些音频和/或光学组件。

计算机212可以包括包含用于处理来自扫描设备202和204的命令的计算机可执行指令的存储器。作为示例，命令可以包括标识符(诸如扫描设备202/204的序列号或部分或唯一识别扫描仪用户的标识符)、扫描上下文信息(例如，扫描时间，扫描位置等)和/或用来唯一识别被扫描的文档的扫描信息(例如文本串)。在可选的实施例中，操作环境可以包括更多或更少的组件。

网络220上还可得到的是搜索引擎232、文档源234、用户帐户服务236、标记服务238和其他网络服务239。网络220可以是公司内联网、公共因特网、移动电话网络或某种其他网络、或者上述网络的任意互连。

无论这些设备彼此耦合的方式如何，它们都可以依据公知的商业交易和通信协议(例如，网际协议(IP))操作。在各个实施例中，扫描设备202、计算机212和移动站216的功能和能力可以部分或全部地集成到一个设备中。这样，术语扫描设备、计算机和移动站能够根据该设备是否合并了扫描设备202、计算机212和移动站216的功能或能力而指代相同的设备。此外，搜索引擎232、文档源234、用户帐户服务236、标记服务238和其他网络服务239中的一些或全部功能也可以在任意设备和/或未示出的其他设备上实施。

2.3捕获设备

如上所述，捕获设备可以使用从再现文档捕获图像数据的光学扫描仪或者使用捕获用户对文本的口头朗读的音频记录设备或者其他方法来捕获文本。捕获设备的一些实施例还可以捕获图像、图形符号和图标等，包括诸如条形码的机器可读码。该设备可能是非常简单的，只不过包括换能器、某种储存器和数据接口，依赖位于该系统中其它地方的其他功能性；或该设备可能是功能更全面的设备。为说明起见，本节描述基于光学扫描仪并具有合理数量特征的设备。

扫描仪是捕获和数字化图像的公知设备。作为影印机工业的分支，最初的扫描仪是一次捕获整个文档页面的相对较大的设备。近年来，已经以便利的形状因数引入了便携式光学扫描仪，例如笔形的手持装置。

在一些实施例中，使用便携式扫描仪来扫描来自再现文档的文本、图形、或符号。该便携式扫描仪具有从再现文档捕获文本、符号、图形等的扫描元件。除了已经印刷在纸张上的文档之外，在一些实施例中，再现文档包括在诸如CRT监视器或LCD显示器的屏幕上显示的文档。

图3是扫描仪302的实施例的框图。扫描仪302包括：光学扫描头308，用以从再现文档扫描信息并将其转换为机器兼容的数据；和光路306，通常为透镜、孔径或导像管，用以将来自再现文档的图像传送到扫描头。扫描头308可以合并电荷耦合器件(CCD)、互补金属氧化物半导体(CMOS)成像设备、或另一类型的光学传感器。

麦克风310和关联的电路将环境声音(包括说出的字)转换成机器兼容的信号，并且其他输入装置以按钮、滚轮或诸如触摸垫314的其他触觉传感器的形式存在。

到用户的反馈可以通过视觉显示器或指示灯332、通过扬声器或其他音频换能器334以及通过振动模块336。

扫描仪302包括逻辑326以与各种其他组件交互，可能将接收到的信号处理成不同的格式和/或解释。逻辑326可操作以读取和写入在诸如ROM、RAM、闪存或其他合适存储器的关联储存器330中存储的数据和程序指令。它可以从时钟单元328读取时间信号。扫描仪302还包括接口316以将扫描的信息和其他信号传送给网络和/或关联的计算设备。在一些实施例中，扫描仪302可以具有板载(on-board)电源332。在其他实施例中，可以从到另一装置的诸如通用串行总线(USB)连接的系缆连接给扫描仪302供电。

作为扫描仪302的一种使用的示例，读者可以用扫描仪302从报纸文章中扫描某一文本。通过扫描头308将该文本扫描为位图图像。逻辑326使该位图图像与从时钟单元328读取的关联时间戳一起存储在存储器330中。逻辑326还可以对该位图图像执行光学字符识别(OCR)或其他扫描后处理以将其转换成文本。逻辑326可以任选地从该图像中提取签名，例如通过执行类似卷积的过程来定位字符、符号或对象的重复出现，并确定在这些重复元素之间的距离或其他字符、符号、或对象的数量。然后读者可以通过接口316上传该位图图像(或文本或其他签名，如果扫描后的处理已由逻辑326执行)到关联的计算机。

作为扫描仪302的另一使用的示例，读者可以通过使用作为声学捕获端口的麦克风310从文章捕获某一文本作为音频文件。逻辑326使音频文件存储在存储器328中。逻辑326还可以对该音频文件执行语音识别或其他扫描后的处理以将其转换成文本。如上所述，读者然后可以通过接口316上传该音频文件(或通过由逻辑326执行的扫描后处理而产生的文本)到关联的计算机。

第二部分——核心系统各方面概述

随着再现文档/数字集成变得更加普遍，现有技术的很多方面都能被改变以更好地利用此集成或者使其能够更有效率地实施。这节强调那些问题中的一些问题。

3.搜索

即便文集如万维网那样巨大，但是对于使用键盘来构造发送到搜索引擎的搜索查询的普通用户来说，搜索文档文集已经变得很普遍。这节和下一节讨论由来自再现文档的捕获发起的查询的构造和处理这种查询的搜索引擎两个方面。

3.1扫描/说出/打字作为搜索查询

所述系统的使用典型地开始于使用包括那些在上文1.2节中提及的若干方法中的任一种方法从再现文档中捕获少量字。在输入需要某种解释以将其转换为文本的情况下，例如在OCR或话音输入的情况下，在该系统中可能存在端到端的反馈，使得文档文集可以用来增强识别过程。可以通过以下步骤应用端到端反馈：执行识别或解释的近似，识别一个或多个候选匹配文档的集合，然后使用来自候选文档中的可能匹配的信息来进一步改进或限制该识别或解释。候选文档可以根据它们可能的相关性(例如，基于已经扫描那些文档的其他用户的数量，或它们在因特网上的普及性)进行加权，并且这些权重可以应用于这个迭代的识别过程中。

3.2简短的短语的搜索

由于当已知少量字的相对位置时，基于这些字的搜索查询的选择能力得以显著增强，因此仅需捕获少量文本以让该系统识别文集中的文本位置。最普遍地，输入文本将是连续的字序列，例如短的短语。

3.2.1从短捕获中找出文档和文档中的位置

该系统除了定位短语源自的文档之外，可以识别该文档中的位置并且可以基于这个知识采取动作。

3.2.2找出位置的其他方法

该系统也可以采用发现文档和位置的其他方法，例如通过在再现文档上使用水印或其他特殊印记。

3.3搜索查询中合并其他因素

除了捕获的文档，其他因素(即，与用户身份、简档和上下文有关的信息)可以形成搜索查询的一部分，例如捕获的时间、用户的身份和地理位置、用户习惯和近期活动的知识，等等。

文档标识和其他与先前捕获相关的信息可以形成搜索查询的一部分，尤其如果它们是相当新近的则更是如此。

用户的身份可以从与捕获设备相关联的唯一标识符和/或生物计量或其他辅助信息(话音模式、指纹，等等)来确定。

3.4搜索查询中的不可靠性性质的知识(OCR错误等等)

可以考虑在所用的特定捕获方法中可能出现的错误类型来构造搜索查询。这样的一个示例是在识别特定字符时指示可疑错误；在此情况下，搜索引擎可以将这些字符当做通配符，或者给它们分配较低优先级。

3.5为性能/离线使用而对索引进行本地缓存

有时，捕获设备在数据捕获时可能不与搜索引擎或文集进行通信。出于此原因，有助于该设备的离线使用的信息可以预先下载到该设备，或者下载到该设备可以与其通信的某个实体。在一些情况下，可以下载所有或相当一部分与文集相关联的索引。此话题还将在15.3节进一步讨论。

3.6无论何种形式的查询都可以被记录并稍后对其进行处理

如果可能存在与传送查询或接收结果相关的延迟或成本，则该预载信息可以提高本地设备的性能，减少通信成本，并且提供及时有用的用户反馈。

在不能获得通信的情况下(本地设备“离线”)，这些查询可以被保存并在恢复通信时传送到该系统的其余部分。

在这些情况下，与每个查询一起传送时间戳可能是很重要的。在查询的解释中，捕获的时间可能是重要因素。例如，13.1节关于早先捕获讨论捕获时间的重要性。重要的是注意，捕获的时间并不总是与执行查询的时间相同。

3.7并行搜索

出于性能原因，可以响应于单一捕获而依次或并行地发出多个查询。例如当向捕获加入新字时，可以响应于单一捕获而发送若干查询，或者并行地查询多个搜索引擎。

例如，在一些实施例中，该系统向当前文档的特殊索引、向本地机器上的搜索引擎、向公司网络上的搜索引擎以及向因特网上的远程搜索引擎发送查询。

特定搜索的结果可能比来自其他搜索的那些结果被给予更高的优先级。

对给定查询的响应可以指示其他待定查询是多余的；这些待定查询可以在完成前被取消。

4.再现文档和搜索引擎

通常期望的是处理传统在线查询的搜索引擎也处理那些源自再现文档的查询。常规的搜索引擎可以以多种方式得到增强或修改从而使它们更加适合用于所述系统。

搜索引擎和/或该系统的其他组件可以创建和维护具有不同或额外特征的索引。该系统可以修改源于引入的再现文档的查询或改变在所得到的搜索中处理查询的方式，因此区别这些源于再现文档的查询与来自键入web浏览器和其他源中的查询的那些查询。并且，当源自再现文档的搜索返回结果时，与来自其他源的那些搜索相比，该系统将采取不同动作或提供不同选项。下面讨论这些方法中的每一种方法。

4.1编索引

通常，可以使用源于再现文档的查询或传统的查询来搜索相同的索引，但是可以以各种方式增强该索引从而用于当前系统。

4.1.1.关于再现文档形式的知识

额外字段可以被加入到这种索引中，在基于再现文档的搜索的情况下所述额外字段将有所帮助。

指示再现文档形式的文档可用性的索引项

第一示例是指示已知文档以再现文档形式存在或分布的字段。如果查询来自再现文档，则该系统可以给予这种文档更高的优先级。

再现文档形式普遍性的知识

在此示例中，与再现文档的普遍性有关(以及任选地，与这些文档内的子区域有关)的统计数据——例如扫描活动量、由出版者或其他源提供的发行量等等——用来给予这些文档更高的优先级，从而提升数字对应物文档(例如，用于基于浏览器的查询或web搜索)的优先级，等等。

再现格式的知识

另一重要示例可以是记录关于文档的特定再现布局的信息。

例如，对于书籍的特定版本，索引可以包括与在哪里出现换行和分页、使用哪些字体、以及任何异常大写有关的信息。

索引也可以包括关于页面上的其他项(诸如图像、文本框、表格和广告)的接近性的信息。

原件中的语义信息的使用

最后，语义信息也可以被记录在索引中，该语义信息可以从源标记推断出但是在再现文档中不是显而易见的，诸如特定文本段指代要出售的项或者某段落包含程序代码的事实。

4.1.2.在知道捕获方法的情况下进行索引

可以修改索引性质的第二因素是可能使用的捕获类型的知识。如果索引考虑在OCR过程中容易被混淆的字符，或者包括文档中使用的字体的一些知识，那么由光学扫描启动的搜索可能受益。类似地，如果查询来自话音识别，那么基于相似发声音位的索引可以被更高效地搜索。可以影响索引在所述模式中使用的附加因素是在识别过程期间迭代反馈的重要性。如果搜索引擎能在捕获文本时从索引提供反馈，那么其能够大大增加捕获的准确性。

使用偏移进行索引

在一些实施例中，如果可能使用第9节中描述的基于偏移/自相关OCR方法来搜索索引，那么该系统在索引中存储适当的偏移或签名信息。

4.1.3.多重索引

最后，在所述系统中，对很多索引实施搜索可能很普遍。可以在公司网络的若干机器上维护索引。部分索引可以下载到捕获设备，或者下载到靠近捕获设备的机器。可以为具有特定兴趣、习惯或许可的用户或用户群创建单独的索引。索引可以针对每一文件系统、每一目录、甚至用户硬盘上的每一文件存在。索引由用户和系统公布和订阅。因此构造可以高效地分布、更新、合并和分开的索引将是重要的。

4.2.处理查询

4.2.1知道捕获是来自再现文档

当搜索引擎认识到搜索查询源自再现文档时，该搜索引擎可以采取不同动作。例如，该引擎可能以某种更能容忍可能出现在某捕获方法中的错误类型的方式来处理查询。

其可能能够从包含在查询中的某个指示符(例如指示捕获性质的标记)中推断出此，或者其可以从查询本身推断出此(例如，其可以识别OCR过程的典型错误或不确定性)。

可选地，来自捕获设备的查询与那些来自其他源的查询相比可以通过不同的通道或者连接端口或类型到达引擎，并且可以以此方式进行区别。例如，该系统的一些实施例将通过专用网关把查询路由到搜索引擎。因此，搜索引擎知道所有通过专用网关的查询都源自再现文档。

4.2.1上下文的使用

下面的第13节描述位于捕获文本本身之外的但可能对识别文档起重要帮助的各种不同因素。这些因素包括诸如最近扫描的历史、特定用户的长期阅读习惯、用户的地理位置和用户对特定电子文档的最近使用之类的事情。这样的因素在此被称为“上下文”。

一些上下文可以通过搜索引擎本身来处理，并且在搜索结果中得以反映。例如，搜索引擎可以跟踪用户的扫描历史，并且也可以将此扫描历史与常规的基于键盘的查询相互对照。在这种情况下，与大多数的常规搜索引擎相比，该搜索引擎维护并且使用更多关于每一单独用户的状态信息，并且与现今典型情况相比，与搜索引擎的每一交互都可以认为在数个搜索和更长时间段上延伸。

一些上下文可以在搜索查询中被传送到搜索引擎(第3.3节)，并且可能存储在该引擎处以便在未来的查询中起作用。最后，一些上下文最好在其他地方处理，并且因此成为应用于来自该搜索引擎的结果的滤波器或二级搜索。

到搜索的数据流输入

到搜索过程的重要输入是用户团体如何与文档的再现版本交互(例如，哪些文档被最广泛地阅读并且被谁阅读)的较广泛的上下文。与web搜索存在类似之处，所述web搜索返回最频繁链接到的页面或那些从以往搜索结果中最频繁选择的页面。关于此话题的更多讨论，参见第13.4和14.2节。

4.2.3.文档子区域

所述系统可以不仅发出和使用关于文档整体的信息，而且还发出和使用关于文档子区域，甚至下至各个字的信息。很多现有搜索引擎仅仅关注定位与特定查询相关的文档或文件。对较细粒度(grain)起作用并且识别文档中的位置的那些搜索引擎将为所述系统提供重要益处。

4.3.返回结果

搜索引擎可以使用其现在维护的另外一些信息以影响返回的结果。

该系统也可以返回用户仅由于拥有纸质副本才可访问的某些文档(第7.4节)。

搜索引擎也可以提供除简单检索文本之外的适于所述系统的新动作或选项。

5.标记、注释和元数据

除执行捕获-搜索-检索过程之外，所述系统还将额外功能性与文档相关联，并且特别地与文档内的特定位置或文本段相关联。此额外功能性经常(不过不是排他地)通过与再现文档的电子对应物相关联来与该再现文档相关联。作为示例，当扫描网页的打印输出时，该网页中的超链接可以具有相同的功能性。在一些情况下，该功能性不是在电子文档中定义的，而是在其他地方存储或生成的。

这层添加的功能性在此被称为“标记”。

5.1.静态和动态的重叠层

一种看待标记的方式是认为其是文档上的“重叠层”，其提供关于文档或其某部分的进一步信息——并且可以指定与文档或其某部分相关联的动作。标记可以包括人类可读的内容，但是对用户经常不可见和/或打算供机器使用。示例包括当用户从再现文档的特定区中捕获文本时在附近显示器上的弹出菜单中显示的选项，或者说明特定短语的发音的音频样本。

5.1.1.可能来自数个源的数个层

任何文档都可能同时具有多个重叠层，并且这些重叠层可能来源于各种位置。标记数据可以由文档作者、或者由用户、或者由某个其他方创建或提供。

标记数据可以附到电子文档或者嵌入其中。其可以在常规位置(例如，在与文档相同但是具有不同文件名后缀的地方)中找到。标记数据可以包括在定位原始文档的查询的搜索结果中，或者可以通过对相同或另一搜索引擎的分开查询而找到。标记数据可以使用原始捕获文本和其他捕获信息或上下文信息来找到，或者其可以使用与捕获的位置和文档有关的已推断信息来找到。即使标记本身不包含在文档中，标记数据也可以在该文档中的指定位置处找到。

在其他实施例中，可以提取文档的部分(举例来说，文本、图像等等)并将其提交给远程注释服务器来确定是否存在任何标记/注释。文档的这些部分可以作为明文的(clear)单独/成组片段或散列的/摘要信息文本部分的单独/成组片段发送到注释服务器。在一些实施例中，可能存在多于一个的与文档再现设备通信的注释服务器/服务。例如，用户可以具有为他们的个人注释而运行的本地注释服务；他们的公司可以运行企业注释服务器并且可以存在通过诸如因特网的网络可用的一个或多个公共注释服务器。

注释和标记可能大部分是静态的并且是文档特有的，类似于传统html网页上的链接经常作为静态数据嵌入到html文档中的方式，但是标记也可以动态地生成和/或应用到大量文档中。动态标记的示例是附到文档的包括在该文档中提及的公司的最新股价的信息。广泛应用的标记的示例是翻译信息，其以特定语言在多个文档或文档节段上自动可用。

5.1.2.个人“插件”层

用于也可以安装、或订阅特定的标记数据源，因此个性化该系统对特定捕获的响应。

5.2.关键字及短语、商标和标识语

文档中的一些元素可以具有基于其自身特性而不是其在特定文档中的位置的、与其相关联的特定“标记”或功能性。示例包括纯粹为了扫描目的而印刷在文档中的特殊标记、以及可以将用户链接到关于所涉及组织的更多信息的标识语和商标。这同样适用于文本中的“关键字”或“关键短语”。组织可以登记与其相关联或者希望与其关联的特定短语，并且为它们附加不论在哪里扫描该短语都可获得的某一标记。

任何字、短语等等都可以具有关联的标记。例如，无论何时用户捕获字“书”或者书的标题或者有关书的话题，该系统都可以添加某些项到弹出菜单(举例来说，到在线书店的链接)。在该系统的一些实施例中，数字对应物文档或者索引被查阅以确定捕获是否出现在字“书”或者书的标题或者有关书的话题附近——并且依据与关键字元素的这种接近性修改系统行为。在前述示例中，注意标记使得从非商业文本或文档中捕获的数据能够触发商业交易。

5.3用户提供的内容

5.3.1.包含多媒体的用户评论和注释

注释是另一种可以与文档相关联的电子信息。例如，用户可以附加他/她对特定文档的想法的音频文件以用于以后作为声音注释进行检索。作为多媒体注释的另一示例，用户可以附加文档中提到的地方的照片。用户通常给文档提供注释，但是该系统可以关联来自其他源的注释(例如，工作组中的其他用户可以分享注释)。

5.3.2.来自校对的注解

来源于用户的标记的重要示例是作为校对、编辑或者审阅过程的一部分的再现文档的注释。

5.4.第三方内容

如之前提到的，标记数据可能经常由第三方(诸如文档的其他读者)提供。在线讨论和审阅是很好的示例，如同与特定工作、自愿提供的翻译和解释有关的社区管理信息一样。其他说明性的示例包括各种对象(object)，诸如文本、图像、电影、声音、聊天会话、讨论/电子布告栏(BBS)、民意测验、URL、“便条”、脚注、边注、内嵌文本、到另一文档(或者到另一文档的部分)的链接、文本泡(text bubble)、指示更多注释的图标(例如，旋停以查看全部注释)、和/或执行的脚本。这些第三方标记/注释可以是匿名的或者绑定到产生该注释的个体。这样的注释系统通常具有适于响应于提交文档的文本部分(锚)的表示而提供注释的注释服务器。

在进一步的变型中，在此描述的纸质商业模型(paper commercemodel)也可以应用于注释。当再现包含可购买物品的文档的一部分时，可以描绘指示在哪里可以购买该物品的注释。这样的模型可以有效组合在下面第5.8节中描述的注释适配器，其中商人将慢慢寻找(crawl for)对某些物品的提及，并且添加链接以在它们的商店购买该物品。

在一个实施例中，注释可以基于其使用而改变。例如，具有极少或没有交流(traffic)和评注的文档可以具有基于文本的“评论”作为关联。交流(trafficked)较多的文档可以具有穿插式讨论列表作为注释，而交流更多的文档可以具有线上聊天会话作为关联的注释对象。注意，这些注释可以是兼容的，使得当交流增加时注释格式改变同时仍然保留先前的注释作为新格式的一部分，而当文档的交流下降时同样如此。

此外，通过监控交流的增加，有可能实时确定更受欢迎的注释点，使得注释可以用作确定话题和/或内容的受欢迎性的进一步度量(即，众多用户当前感兴趣的是什么)。

第三方标记的另一示例是由广告商提供的。这些广告对标记的/注释的文本可以是上下文敏感的(context sensitive)或者对标记/注释可以是上下文敏感的。

除了标记再现文档的文本部分，也可能标记用户遵循的文本路径、单独的字/短语(参见第5.2节)、整个句子、段落、章回、节段、页、文档、人们(在多人对话文档中)。相反地，有时可能期望的是把文档的某部分登记为“不可注释”，其中阻止对所登记部分的OCR/注释。

通常，第三方内容不都是具有相等的品质(caliber)。因此，在一些实施例中，可以给注释和标记分级、排列等级和/或分类。可以通过同行审阅、编辑分级、基于第三方创建的注释数量等等来给范围(ranging)分级。在一个示例中，读者阅读或排列等级越多，注释的等级就增加。具有这样的注释元数据允许读者基于他们的级别或其他标准(例如，语言或注释、日期范围、地理、注释者的年龄、注释者的性别等等)搜索/过滤注释。在一些实施例中，甚至可能基于注释者的身份进行过滤，例如以找出“名人”注释。

不是所有文档都将具有类似尺寸，在一些实施例中，再现文档可以以更大或更小的尺寸出现。例如，标志、布告板和户外广告通常不适合与小显示屏上或者手持扫描仪一起使用。因此，在一个实施例中，可以使用“抬头(headsup)”显示器，使得可以对于再现文档扫描并显示注释，而不论尺寸大小。

同样，用户不是总能监控感兴趣的文档。因此一些实施例包括提醒用户注意注释活动(例如，由特定人作出的文档注释、对特定文档的注释、对任何用户文档的注释、对任何用户注释的注释/响应等等)的注释通知/警告。

5.5.基于其他用户的数据流的动态标记

通过分析由该系统的数个或所有用户从文档捕获的数据，可以基于团体的活动和兴趣来生成标记。一个示例可以是创建实际上告诉用户“喜欢这本书的人也喜欢......”的标记或注释的在线书店。该标记可以较少匿名，并且可以告诉用户在他/她联系人列表中的哪些人最近也已经读过此文档。数据流分析的其他示例包含在第14节中。

5.6.基于外部事件和数据源的标记

标记经常基于外部事件和数据源，诸如来自公司数据库的输入、来自公共因特网的信息、或者由本地操作系统收集的统计量。

数据源也可以更加本地化，并且特别是可以提供关于用户的上下文——他/她的身份、位置和活动的信息。例如，该系统可以与用户的移动电话通信并且提供标记层，该标记层向用户提供将文档发送到用户近来在电话上通话的某人的选项。

5.7.注释服务器

如上文提到的，各个实施例可以采用注释服务器来处理第三方注释内容。用户将提交文档的一个或多个可识别部分(作为明文文本或者作为消息摘要)并且服务器将定位相关联的注释。该服务器也可以提供附加的能力。例如，该服务器可操作以促进注释的用户之间的协作。该协作可以采取多种形式，诸如对电子邮件信息、聊天会话、代理通信(brokered communicaiton)等等的促进(facilitation)。这些类型的协作可能适合于已经进行协作的用户，例如BBS、组、俱乐部、班级、公司、公司部门、聊天组、个人社交网，等等。事实上，诸如当用户阅读相似书籍和/或做出相似注释时，组可以动态形成以围绕注释活动进行协作。

5.8.注释适配器

在一些实施例中，(一个或多个)注释可以针对再现文档而存在，但是还未使其可通过再现文档接口获得。例如，关于文档部分的博客条目，该博客条目具有返回该文档部分的链接但是没有从该文档部分到博客条目的链接。注释适配器将在文档(部分)和注释之间创建连接。在一个实施例中，注释适配器使博客条目“爬行”以定位任何链接的文档(文档部分)并且将注释从适当的再现文档添加回到块条目。将对讨论组、其他文档中的评注等等执行相似的动作。

另外的实施例也可以反过来使用，例如做出注释并且随后指示该注释应当适配到注释者的博客条目中。同样，可以将注释类推到博客条目和“订阅”特定注释者的注释的种子(feed)。

5.9.移动注释

并不是所有再现文档都与适当尺寸的显示器一起可用。因此，具有小显示器和成像能力的移动设备可以用来浏览文档和寻找可被检索用于查看的注释的指示。类似地，可能用移动电话拍摄图片并(例如，通过多媒体消息收发服务“MMS”)将该图像发送到注释服务器来接收带有任何注释的回复消息。

6.认证、个性化和安全性

在很多情况下，用户的身份将是已知的。例如，有时这会是“匿名身份”，在此情况下仅通过捕获设备的序列号来识别用户。然而通常，预期的是该系统将具有关于用户的更详细的知识，这些知识可以用于使系统个性化并且允许以用户的名义进行活动和交易。

6.1用户历史和“生活库(life library)”

该系统能执行的最简单但最有用的功能之一就是为用户保存他/她捕获的文本的记录以及与该捕获有关的任何进一步的信息，包括发现的任何文档的细节、在该文档内的位置和因此采取的任何动作。

这个存储的历史对用户和系统都有益。

6.1.1对于用户

可以给用户提供“生活库”(他/她阅读和捕获的任何东西的记录)。这可以仅仅是为了个人兴趣，但可以例如在图书馆中供正在收集其下一篇论文的参考书目材料的学者使用。

在一些情形中，用户可能希望将库公开，诸如通过以与博客类似的方式将其公布在网上，以便其他人可以看到他/她正在阅读的且发现感兴趣的是什么。

最后，在用户捕获某文本且该系统不能立即对该捕获采取行动(例如，由于文档的电子版本尚不可用)的情况下，该捕获可以存储在库中并可以稍后自动地或响应于用户请求而进行处理。用户还能订阅新的标记服务并将它们应用于先前捕获的扫描。

6.1.2对于系统

用户过去捕获的记录对该系统来说也很有用。该系统操作的很多方面都能通过知道用户的阅读习惯和历史而得以增强。最简单的示例是用户进行的任何扫描都更可能来自于用户最近扫描的文档，并且特别地如果先前的扫描在过去的几分钟内，则其很可能来自于相同的文档。类似地，更可能的是，文档被以从头到尾的顺序阅读。这样，对于英文文档，同样更可能的是，后来的扫描将在该文档中的更下面出现。这样的因素可以帮助该系统在含糊不清的情况下确立捕获的位置，并且还可以降低需要捕获的文本量。

6.2.作为支付、标识和认证设备的扫描仪

由于捕获过程通常开始于某种类型的设备(一般为光学扫描仪或语音记录器)，因此该设备可以用作识别用户并授权某些动作的钥匙(key)。

6.2.1将扫描仪与电话或其他账户关联

该设备可以嵌入在移动电话中或以某种其他方式与移动电话账户相关联。例如，可以通过将与账户关联的SIM卡插入到扫描仪中而将该扫描仪与移动电话帐户关联。类似地，该设备可以嵌入在信用卡或其他的支付卡中，或具有与这样的卡连接的装置。该设备因此可以用作支付代币，并且通过来自再现文档的捕获可以启动金融交易。

6.2.2将扫描仪输入用于认证

扫描仪还可以通过扫描某个与特定的用户或账户关联的记号、符号或文本的过程而与该用户或账户关联。此外，例如通过扫描用户的指纹，扫描仪可以用于生物识别。在基于音频的捕获设备的情况下，该系统可以通过匹配用户的语音模式或通过要求用户说出特定的密码或短语而识别该用户。

例如，在用户从书中扫描引文并被提供从在线零售商购买该书的选项时，用户可以选择该选项，并接着被提示扫描他/她的指纹来确认交易。

另外参见第15.5和15.6节

6.2.3安全扫描设备

当捕获设备用来识别和认证用户并且代表用户启动交易时，重要的是在该系统的其他部分和该设备之间的通信是安全的。还重要的是防止诸如另一设备假扮扫描仪以及所谓的“中间人”攻击(在此情况下在该设备和其他组件之间的通信被截获)之类的情况。

用于提供这样的安全性的技术在本领域中很好理解；在各种实施例中，在该设备以及该系统中其他地方的硬件和软件都被配置为实施这样的技术。

7.出版模型和元素

所述系统的优点是无需改变创建、印刷或出版文档的传统过程以便获得该系统的很多益处。不过存在文档的创建者或出版者——以下简称为“出版者”——可能希望创建支持所述系统的功能性的很多原因。

本节主要涉及出版文档本身。对于与其他相关的商业交易(诸如广告)有关的信息，参见标题为“P-商业(P-Commerce)”的第10节。

7.1印刷文档的电子同伴

该系统允许印刷文档具有关联的电子存在。常规地，出版者经常与书一起装运CD-ROM，该CD-ROM包含进一步的数字信息、指导影片和其他多媒体数据、样本代码或文档、或者另外的参考材料。此外，一些出版者维护与特定出版物关联的网站，该网站提供这样的材料以及在出版后可以更新的信息，诸如勘误表、进一步的评论，更新的参考材料、参考书目和其他相关的数据源、以及到其他语言的翻译。在线论坛允许读者贡献其关于出版物的评论。

所述系统允许这种材料比以往更加紧密地绑定到再现文档，并且允许用户可以更容易发现它们并与它们交互。通过从文档中捕获一部分文本，该系统可以自动地将用户连接到与该文档关联并且更特别地与该文档的特定部分关联的数字材料。类似地，用户可以连接到讨论该文本选段的在线社区，或者连接到其他读者的注释和评注。在过去，这种信息通常需要通过搜索特定页码或者章回才能找到。

这样的示例性应用是在学术教科书的领域中(第17.5节)。

7.2对印刷文档的“订阅”

一些出版者可能具有邮寄清单，如果读者希望被告知新的相关问题或当书的新版本出版时读者希望被告知，读者可以订阅该邮寄清单。利用所描述的系统，用户可以更容易地登记对特定文档或文档部分的兴趣，在一些情况下甚至在出版者考虑提供任何这样的功能性之前。读者的兴趣可以馈送给出版者，可能影响其关于何时何地提供更新、进一步的信息、对已经证实是已有书本中人们感兴趣的话题的甚至全新出版或新版本的决定。

7.3具有特殊含义或包含特殊数据的印刷标记

仅仅通过使用文档中已经存在的文本，可以实现该系统的很多方面。然而如果文档是在知道其可能结合该系统使用的情况下产生的，则额外的功能性可以通过印刷特殊标记形式的额外信息来添加，所述特殊标记可以用来更紧密地识别文本或所需的动作、或以其他方式增强文档与系统的交互。最简单且最重要的示例是向读者指示该文档确实可通过该系统访问。例如，可以使用特殊的图标来指示该文档具有与其关联的在线讨论论坛。

这样的符号可以打算纯粹用于读者，或它们可以在扫描时被该系统辨别并用来启动某个动作。在该符号中可以编码足够的数据以不只识别该符号：它还可以存储可被该系统辨别和读取的例如关于文档、版本和符号位置的信息。7.4通过拥有纸质文档的授权

存在如下的一些情况：拥有或能够访问印刷文档将赋予用户某些特权，例如能够访问文档的电子副本或附加材料。利用所述系统，仅作为用户从文档捕获文本部分、或扫描特殊印刷的符号的结果，就可以授予这样的特权。在该系统需要确保用户拥有整个文档的情况下，它可能提示用户从例如“第46页第二行”的特定页扫描特定项或短语。

7.5过期的文档

如果印刷的文档是通往额外材料和功能性的通路，则对这样的特征的访问还可能受时间限制。在期满日期之后，用户可能需要支付费用或获得较新的文档版本来再次访问该特征。当然，纸质文档仍然是可使用的，但将失去其一些增强的电子功能性。这可能是期望的，例如由于在收取费用以访问电子材料方面或在需要用户不时地购买新版本方面对出版者是有利可图的，或由于存在与流通中保留的印刷文档的过期版本关联的弊端。优惠券(coupon)是一种可以具有期满日期的商业文档类型的示例。

7.6受欢迎性分析和出版决定

第10.5节讨论使用该系统的统计量来影响作者报酬和广告定价。

在一些实施例中，该系统从在与出版物关联的电子社区的活动中以及从再现文档的使用中推断出版物的受欢迎性。这些因素可以帮助出版者作出关于他们将在未来出版什么的决定。例如，如果已有书籍的章回变得非常流行，则它可能值得扩展为单独出版。

8.文档访问服务

所述系统的重要方面是向能够访问文档的再现副本的用户提供访问该文档的电子版本的能力。在一些情况下，文档在用户能够访问的公用网络或专用网络上可免费获得。该系统使用捕获的文本来识别、定位和检索文档，在一些情况下还将其显示在用户的屏幕上或将其放置到他们的电子邮件收件箱中。

在一些情况下，文档将以电子形式可获得，但由于各种原因，用户可能不能访问该文档。可能没有足够的连接性来检索该文档，用户可能没有被赋予检索它的权利，可能存在与访问它关联的成本，或该文档可能已被撤回并可能被新版本替换，这里只举几种能性。该系统通常给用户提供关于这些情况的反馈。

如在第7.4节中提到的，如果已知用户已经能够访问该文档的印刷副本，则授予特定用户的访问的程度或性质可能有所不同。

8.1认证的文档访问

对文档的访问可受限于特定的用户、或满足特定准则的用户，或者可以仅在某些情形下(例如当用户连接到安全网络时)可用。第6节描述了可以建立用户和扫描仪的证书的一些方式。

8.3文档代管和主动检索

电子文档经常是暂时的；再现文档的数字源版本现在可能是可用的但在将来是不可访问的。即便用户并未请求，该系统也可以代表用户检索并存储已有的版本，这样如果用户将来请求就保证了它的可用性。这还使其可用于该系统的使用，例如用于作为识别将来捕获的过程的一部分进行搜索。

如果在捕获时该文档不能以电子形式获得，则可以对该主题实施变化。如果电子文档在稍后的日期变得可用，则用户可以授权该服务代表他/她提交对该文档的请求或对该文档进行支付。

8.4与其他订阅和帐户的关联

有时可以基于用户与另一帐户或订阅的现有关联而免除、降低或满足支付。例如，对报纸印刷版本的订户可以自动被赋予检索电子版本的权利。

在其他的情况下，该关联可能并非如此直接：可以基于由用户的雇主建立的帐户、或基于他们对由作为订户的朋友所拥有的印刷副本的扫描而授权用户访问。

8.5用扫描-和-打印代替影印

从再现文档捕获文本、识别电子原件和打印该原件或与所捕获关联的该原件的某部分的过程形成对传统影印的替代方案且具有许多优点：

·再现的文档不需要在与最终的打印输出相同的位置，并且在任何情况下都不需要同时在那里

·能避免由影印过程所导致的对文档(特别是对旧的、易碎的和有价值的文档)的磨损和破坏

·副本的品质一般要高很多

·可以保存关于哪些文档或文档部分被最频繁复制的记录

·可以禁止未授权的复制

8.6从影印件定位有价值的原件

当文档特别有价值时，如在具有历史或其他特定意义的法律文件或文档的情况下，人们可能多年来通常处理那些文档的副本，而原件存放在安全的位置。

所述系统可以被耦合到记录原件文档位置(例如在存档仓库中)的数据库，这使得能够访问副本的人们可以轻易地定位存档的原始纸质文档。

9.文本识别技术

光学字符识别(OCR)技术在传统上专注于包括有大量文本的图像，例如来自捕获整页的平板扫描仪的图像。OCR技术经常需要用户进行大量的训练和校正以产生有用的文本。OCR技术经常需要进行OCR的机器具有大量的处理能力，并且，虽然许多系统使用字典，它们通常都预期对实际上无限的词汇量进行操作。

上述的所有传统特性部可以在所述系统中得以改进。

虽然本节聚焦于OCR，但很多所讨论的问题直接映射到其他识别技术特别是话音识别上。如在第3.1节中提到的，从再现文档捕获的过程可以通过用户大声朗读文本到捕获音频的设备中而实现。本领域的技术人员要明白，在此关于图像、字体和文本片段所讨论的原理也适用于音频样本、用户话音模型和音位。

9.1适当设备的优化

与所述系统一起使用的扫描设备经常很小、便携且功率较低。扫描设备一次仅可以捕获几个字，并且在一些实施方式中一次甚至不能捕获完整的字符，而是穿过文本的水平切片，许多这样的切片被缝合在一起以形成可以从其中推断出文本的可识别信号。该扫描设备还可能具有非常有限的处理能力或储存器，因此虽然在一些实施例中它本身可以执行所有的OCR过程，但许多实施例将依靠到更强功能的设备的连接(可能在稍后的时间)，以将所捕获的信号转换成文本。最后，它可以具有非常有限的装置用于用户交互，因此可能需要将对用户输入的任何请求延迟到稍后进行，或者比现在常见的更大程度地以“最佳猜测”模式操作。

9.2“不确定的”OCR

在所述系统中的OCR的主要新特性是：它通常检查存在于其他地方且可以以数字形式检索的文本的图像。因此，并不总是要求OCR引擎进行文本的确切转录。OCR系统可以输出可能匹配的集合或矩阵，在一些情况下包括概率权重，其仍然可以被用来搜索数字原件。

9.3迭代的OCR-猜测、消除歧义、猜测...

如果执行识别的设备能在处理时联系文档索引，则OCR过程在进行时可以被告知文档文集的内容，从而潜在地提供更大的识别精确度。

这样的连接还允许该设备在捕获了足以识别数字源的文本时告知用户。

9.4使用可能再现的知识

当该系统已经具有文档的可能打印再现方面的知识-诸如在打印中使用的字体字样、或页面布局、或哪个部分用斜体时，这也能帮助识别过程(第4.1.1节)。

9.5字体缓存-在主机上确定字体，下载到客户端

当文档文集中的候选源文本被识别时，字体或其再现可以下载到该设备上以帮助识别。

9.6自相关和字符偏移

虽然文本片段的组成字符可能是表示可以用作文档签名的文本片段的最熟悉的方式，但文本的其他表示可能非常有效以便当试图定位在数字文档和/或数据库中的文本片段时或当将文本片段的表示消除歧义到可读形式时不需要使用文本片段的实际文本。文本片段的其他表示可以提供实际的文本表示所缺乏的益处。例如，文本片段的光学字符识别经常易于出错，而不像所捕获的文本片段的其他表示，后者可以用来搜索和/或重新创建文本片段而无需对整个片段进行光学字符识别。这样的方法对与当前系统一起使用的一些设备来说可能更合适。

本领域的普通技术人员以及其他人会明白，存在很多方式来描述文本片段的外观。文本片段的这样的表征可以包括但不限于字长、相对字长、字符高度、字符宽度、字符形状、字符频率、记号频率等。在一些实施例中，在匹配文本记号之间的偏移(即，插入记号的数量加一)被用来表征文本片段。

常规的OCR使用与字体、字母结构和形状有关的知识来试图确定扫描文本中的字符。本发明的实施例则不同：它们采用各种使用再现文本本身来辅助识别过程的方法。这些实施例使用字符(或记号)来“辨别彼此”。涉及这种自识别的一种方式是“模板匹配”且类似于“卷积”。为了执行这样的自识别，该系统将文本副本水平地滑过其自身并注意文本图像的匹配区域。先前的模板匹配和卷积技术包括各种相关的技术。记号化和/或辨别字符/记号的这些技术在此共同称为“自相关”，因此当匹配字符/记号时文本被用于与其自己的组成部分进行相关。

当自相关时，感兴趣的是匹配的完全连通区域。这发生在字符(或字符组)与相同字符(或组)的其他实例重叠时。匹配的完全连通区域自动提供将文本记号化为组成记号。当文本的两个副本彼此滑过时，注意发生完美匹配的区域(即，垂直切片中的所有像素都匹配)。当字符/记号匹配自身时，这个匹配的水平范围(例如，文本的连通匹配部分)也匹配。

要注意的是，在这个阶段不需要确定每个记号的实际标识(即，对应于记号图像的特定的字母、数字或符号、或这些的组)，只需要确定到扫描文本中相同记号的下一发生的偏移。偏移数量是到相同记号的下一发生的距离(记号的数量)。如果记号在文本串中是唯一的，则偏移为零(0)。由此生成的记号偏移序列是能用来识别扫描文本的签名。

在一些实施例中，为扫描的记号串确定的记号偏移与基于它们内容的记号偏移对电子文档文集进行索引的索引进行比较(第4.1.2节)。在其他实施例中，为扫描的记号串确定的记号偏移被转换成文本，并与基于其内容对电子文档文集进行索引的更常规的索引进行比较。

如先前所指出的，当捕获过程包含说出的字的音频样本时，类似的记号相关过程可以应用到话音片段。

9.7字体/字符的“自识别”

常规的模板匹配OCR将扫描的图像与字符图像库相比较。实质上，为每种字体存储字母表并且将新扫描的图像与存储的图像比较以找出匹配的字符。该过程通常具有初始的延迟直到识别出正确的字体。此后，OCR过程会因为多数文档通篇使用相同的字体而相对较快。因此，后续的图像可以通过与最近识别的字体库进行比较而被转换成文本。

在最经常使用的字体中的字符形状是相关的。例如，在多数字体中，字母“c”和字母“e”视觉上是相关的——还如“t”和“f”等。通过使用这种关系来构造还没有被扫描的字母的模板，从而增强OCR过程。例如，在读者从先前未遇到的字体的再现文档中扫描一短串文本以致该系统没有与所扫描图像比较的图像模板集合时，该系统能利用(leverage)某些字符之间的可能关系来构造字体模板库，即便它还没有遇到字母表中的所有字母。然后该系统能使用所构造的字体模板库来辨别后续扫描的文本并进一步改进所构造的字体库。

9.8发送未识别的任意东西(包括图形)给服务器

当图像不能被机器转录成适合用于搜索过程的形式时，图像本身能被保存以供用户稍后使用，以进行可能的人工转录，或在不同源可以用于该系统的晚些时候进行处理。

10.P-商业

该系统能够实现的许多动作导致一些商业交易的发生。短语P-商业在此用来描述经由该系统从再现文档启动的商业活动。

10.1出售来自其物理印刷副本的文档

当用户从文档中捕获文本时，可以以纸质或电子形式向该用户提供该文档以供购买。还可以给用户提供相关的文档，例如在再现文档中引用或以其他方式参考的那些文档、或关于相似主题的那些文档、或相同作者的那些文档。

10.2再现文档启动的或辅助的任何其他东西的出售

文本的捕获可以以各种方式链接到其他商业活动。所捕获的文本可以在被明确设计为出售物品的目录中，在此情况下该文本非常直接地与物品的购买关联(第18.2节)。文本还可以是广告的一部分，在此情况下所广告的物品的出售可能随之发生。

在其他情况下，用户捕获从中可以推断出商业交易中他们潜在兴趣的其他文本。例如，以特定国家为背景的小说的读者可能对到那里度假感兴趣。阅读新车速览的某人可能考虑买车。用户可以捕获特定的文本片段，知道因此将会给他们呈现一些商业机会，或其可能是他们捕获活动的副作用。

10.3导致销售的对物品上的标签、图标、序列号、条形码的捕获

有时文本或符号实际上被印刷在物品或其包装上。一个示例是在一件电子设备的背面或下面的标签上经常发现的序列号或产品ID。该系统能给用户提供一种通过捕获该文本来购买一个或多个相同物品的便捷方式。还可以向他们提供人工、支持或修理服务。

10.4上下文广告

除了从广告中直接捕获文本外，该系统也允许新型的广告，该广告不必明显位于再现文档中但仍然是基于人们正在阅读的东西。

10.4.1基于扫描上下文和历史的广告

在传统的纸质出版物中，广告相对于报纸文章的文本通常耗费大量的空间，并且特定文章的周围只能放置有限数量的广告。在所述系统中，广告可以与单独的字或短语关联，并且能够根据用户通过捕获该文本而表现出的特定兴趣并且可能考虑用户过去扫描的历史来进行选择。

利用所述系统，可以将购买绑定到特定的印刷文档并且广告者可以得到与特定印刷出版物中其广告的效果有关的明显更多的反馈。

10.4.2基于用户上下文和历史的广告

该系统可以收集大量关于用户上下文的其他方面的信息以供其自己使用(第13节)；用户地理位置的估计就是很好的示例。这样的数据还能被用来制作(tailor)向该系统用户呈现的广告。

10.5报酬模型

该系统实现了广告者和营销商的某些新报酬模型。包含广告的印刷文档的出版者可以从源于其文档的购买中收取一些收入。无论在原始印刷形式中是否存在广告，这可能都成立；其可以由出版者、广告人或某第三方电子地加入，并且这样的广告源可以由用户订阅。

10.5.1基于受欢迎性的报酬

由该系统生成的统计量的分析可以揭示出版物的某些部分的受欢迎性(第14.2节)。例如，在报纸中，其可以揭示读者花费在特定页面或文章上的时间量，或特定专栏作家的受欢迎性。在一些情形下，对作者或出版者来说基于读者活动而不是基于诸如写的字或分销的副本数量之类的更传统度量来收取报酬可能是合适的。其作品变成关于某主题的被频繁阅读的权威著作的作者可以在将来的合同中不同于其书卖了相同数量但很少被打开的作者进行考虑。(也参见第7.6节)。

10.5.2基于受欢迎性的广告

与文档中的广告有关的决策也可以基于与读者群有关的统计量。在最受欢迎的专栏作家周围的广告空间可以卖出好的价钱。甚至可能在文档出版一段时间后基于关于其被接收得怎样的知识而对广告者收费或付报酬。

10.6基于生活库的营销

在第6.1和16.1节中描述的“生活库”或扫描历史可能是与用户的兴趣和习惯有关的非常有价值的信息源。在适当的同意和隐私问题为依据，这样的数据可以向用户通知货物或服务的提供。即便以匿名的形式，所收集的统计量也可能是非常有用的。

10.7晚些时候(当可获得时)的出售/信息

用于商业交易的广告和其他机会在文本捕获时可以不立即提供给用户。例如，购买小说续集的机会可能在用户阅读该小说时不可获得，但该系统可以在出版续集时向他们提供该机会。

用户可以捕获与购买或其他商业交易有关的数据，但可以选择不在进行捕获时启动和/完成交易。在一些实施例中，与捕获有关的数据存储在用户的生活库里，并且这些生活库条目可以保持“活动的”(即，能进行后续交互，类似于在进行捕获时可获得的那些交互)。这样，用户可以在某个稍后的时间回顾该捕获，并且任选地基于该捕获完成交易。由于该系统能跟踪何时何地发生原始捕获，因此在交易中涉及的所有方都能得到适当的报酬。例如，出现在用户从中捕获数据的广告旁边的写故事的作者-和出版故事的出版者-可以在六个月后用户参观他们的生活库、从历史中选择该特定捕获、并从弹出菜单(这可能类似于或等同于在捕获时任选地呈现的菜单)选择“在Amazon购买该物品”时得到报酬。

11.操作系统和应用集成

现代操作系统(OS)和其他软件包具有很多特性，这些特性能够被有益地利用以与所述系统一起使用并且还可以各种方式进行修改以为其使用提供甚至更好的平台。

11.1在元数据和索引中合并扫描和印刷有关的信息

新的和即将来临的文件系统以及它们相关的数据库经常具有存储与每个文件关联的各种元数据的能力。传统地，该元数据包括了诸如创建文件的用户的ID、创建日期、最后修改和最后使用之类的事情。较新的文件系统允许存储诸如关键字、图像特性、文档源和用户评论之类的额外信息，并且在一些系统中这个元数据可以被任意延伸。因此，文件系统能用来存储在实施当前系统中有用的信息。例如，最后印刷给定文档的日期能由该文件系统存储，与使用所述系统从纸质从其中捕获该文档的哪些文本、以及何时捕获和由谁捕获有关的细节也可能由该文件系统存储。

操作系统还开始合并允许用户更容易找到本地文件的搜索引擎装置。这些装置可以由该系统有益地使用。这意味着在第3和4节中讨论的许多搜索有关的概念不仅适用于现在的基于因特网和类似的搜索引擎，而且还适用于每个个人计算机。

在许多情况下，特定的软件应用还包括对该系统的在OS所提供的装置之外的支持。

11.2对捕获设备的OS支持

随着诸如笔形扫描仪的捕获设备的使用变得日益常见，将期望的是以与为鼠标和打印机提供支持几乎相同的方式将对它们的支持构建到操作系统中，因为捕获设备的可应用性超出了单个软件应用。对于系统操作的其他方面情况也是如此。在下面进行讨论一些示例。在一些实施例中，整个所述系统或其核心都由OS提供。在一些实施例中，对该系统的支持由能被其他软件包(包括该系统的那些直接实施的方面)所使用的应用编程接口(API)提供。

11.2.1对OCR和其他识别技术的支持

从再现文档捕获文本的多数方法要求某个识别软件将源数据(一般为扫描的图像或一些说出的字)翻译为适合用于该系统的文本。一些OS包括对话音或手写识别的支持，不过由于在过去OCR的使用一般限于小范围的应用，OS包括对OCR的支持并不常见。

当识别组件变成OS的一部分，它们能更好地利用由OS提供的其他装置。许多系统包括拼写字典、语法分析工具、国际化及本地化装置，例如所有这些都能被所述系统有益地用于其识别过程，特别是由于它们可以为特定用户进行定制以包括他/她经常遇到的字和短语。

如果操作系统包括全文本索引装置，则这些装置也可以被用来通知识别过程，如在第9.3节中所述的。

11.22要对扫描采取的动作

如果光学扫描或其他捕获发生并被提供给OS，则在若没有其他子系统要求该捕获的所有权的那些情形下OS可能采取默认的动作。默认动作的示例是向用户提供备选方案的选择或者向OS的内置搜索装置提交捕获的文本。

11.2.3.OS具有针对特定文档或文档类型的默认动作

如果发现再现文档的数字源，则OS可以具有其在扫描该特定文档或该类文档时将采取的标准动作。应用和其他子系统可以作为特定捕获类型的潜在处理器向OS登记，登记方式类似于应用通告其处理某些文件类型的能力。

与再现文档或与来自文档的捕获关联的标记数据可以包括给操作系统的开始特定应用，传递应用变量、参数或数据等的指令。

11.2.4姿态的解释和映射到标准动作

在第12.1.3节中讨论“姿态”的使用，特别是在光学扫描的情况下进行讨论，其中用手持扫描仪进行的特定移动可能表示诸如标记文本区域的开始和结束的标准动作。

这类似于诸如在键盘上按压shift键的同时使用光标键来选择文本区域或使用鼠标上的滚轮来滚动文档的动作。由用户进行的这种动作足够标准以致它们由OS以全系统范围(system-wide)的方式进行解释，从而确保了一致的行为。对扫描仪姿态以及其他有关扫描仪的动作也期望如此。

11.2.5.设置对标准(以及非标准)图标/文本打印的菜单项的响应

以类似的方式，文本或其他符号的某些项可以在被扫描时使得标准动作发生，并且OS可以提供这些动作的选择。一个示例可能是扫描任何文档中的文本“[打印]”会使OS检索和打印该文本的副本。OS也可以提供登记这样的动作并将它们与特定扫描关联的方式。

11.3系统GUI组件中对典型的扫描启动的活动的支持

多数软件应用基本上基于由OS提供的标准图形用户接口组件。

开发者对这些组件的使用帮助确保多个包上的一致行为，例如在任何文本编辑上下文中按压左光标键应将光标移动到左边，而无需每个程序员都必须独立实施相同的功能性。

当这些活动是由所述系统的文本捕获或其他方面启动时，这些组件中类似的一致性是期望的。以下给出一些示例。

11.3.1.用于找出特定文本内容的接口

该系统的典型使用可能是让用户扫描再现文档的区域，并且让该系统在能显示或编辑电子对应物的软件包中打开该电子对应物并使得该包滚动到并突出显示扫描的文本(第12.2.1节)。这个过程的第一部分(找出并打开电子文档)一般由OS提供并且在软件包上是标准的。然而，第二部分-在文档内定位特定的文本段并使得该包滚动到该文本段并对其突出显示-仍未标准化并经常由每个包不同地实施。标准API用于这种功能性的可用性可以显著增强该系统这方面的操作。

11.3.2.文本交互

一旦在文档中定位了一段文本，则该系统可能希望对该文本执行各种操作。作为示例，该系统可能请求周围的文本，以便用户捕获几个字就可以导致该系统访问包含它们的整个句子或段落。再次，这个功能性可以由OS有用地提供而不是在处理文本的每个软件中实施。

11.3.3上下文(弹出)菜单

由该系统实现的一些操作将需要用户反馈，并且这可以最佳地在处理数据的应用的上下文中请求。在一些实施例中，该系统使用传统地与在某文本上点击鼠标右按钮关联的应用弹出菜单。该系统将额外的选项插入到这样的菜单中，并且作为诸如扫描再现文档的活动的结果使得它们被显示。

11.4web/网络接口

在现今迅猛发展的连网世界中，在各个机器上可用的多数功能性也可以通过网络进行访问，并且与所述系统关联的功能性也不例外。作为示例，在办公环境中，由用户接收的很多再现文档可以由在相同公司网络上的其他用户的机器打印。在一台计算机上的该系统响应于捕获可能能够在适当的准许控制下针对可能对应于该捕获的文档而查询其他机器。

11.5文档的打印造成保存

在再现文档和数字文档的集成中的重要因素是保持尽可能多的关于两者间的转换的信息。在一些实施例中，OS保留文档何时以及由谁打印的简单记录。在一些实施例中，OS采取一个或多个会使其更适于该系统使用的其他动作。示例包括：

保存与每个打印文档的数字再现版本以及与该文档从其打印的源有关的信息

保存与打印版本有关的有用信息的子集-例如，使用的字体和何处发生断行-其可能辅助未来的扫描解释。

保存与任何打印副本关联的源文档的版本

在打印时自动对文档建立索引并且存储结果以用于未来搜索

11.6我的(打印/扫描的)文档

OS经常维护具有特定意义的某些种类的文件夹或文件。例如，按照惯例或设计，可以在“我的文档”文件夹中找到用户的文档。标准的打开文件的对话框可以自动包括最近打开的文档的列表。

在被优化以与所述系统一起使用的OS上，可以以考虑用户与存储文件的再现文档版本的交互的方式加强或扩大这样的种类。诸如“我打印的文档”或“我最近阅读的文档”的种类可能被有用地识别并结合在其操作中。

11.7OS级别的标记层次

由于该系统的重要方面一般使用在第5节中所讨论的“标记”概念来提供，因此显然有利的是以能够由多个应用以及OS本身访问的方式支持由OS提供的这种标记。此外，可以由OS基于其对在其控制下的文档的知识和其能提供的装置(facilities)提供标记层。

11.8OSDRM装置的使用

越来越多的操作系统支持某种形式的“数字版权管理”：根据授给特定用户、软件实体或机器的权限而控制对特定数据的使用的能力。例如，其可以禁止特定文档的未授权复制或分布。

12.用户接口

如果捕获设备的处理能力相对较弱并通过电缆连接到PC，则该系统的用户接口可以完全在PC上，或者如果捕获设备很复杂并自己具有足够的处理能力，则该系统的用户接口可以完全在该设备上。在一些情况下，一些功能性驻留在每个组件中。该系统功能性的部分或甚至全部也可以在诸如移动电话或PDA的其他设备上实现。

因此，在以下各节中的描述指示在某些实施方式中可能所期望的方式，但它们不一定适用于所有实施方式并且可以以多种方式进行修改。

12.1在捕获设备上

对于所有的捕获设备，特别是在光学扫描仪的情况下，在扫描时用户的关注通常在该设备以及再现文档上。于是非常期望作为扫描过程的一部分所需要的任何输入和反馈不要求用户关注其他地方，例如关注计算机的屏幕，除非这是必须的。

12.1.1扫描仪上的反馈

手持扫描仪可以有多种方式来给用户提供关于特定状况的反馈。最明显的类型是：直接视觉的，其中扫描仪合并了指示灯或甚至全显示(fulldisplay)；以及是听觉的，其中扫描仪能发出蜂鸣声、滴答声或其他声响。重要的备选方案包括：触觉反馈，其中扫描仪能振动、嗡鸣、或以其他方式刺激用户的触摸感觉；以及投影的反馈，其中它通过将从有色光斑到复杂显示的任何东西投影到再现文档上来指示状态。

在该设备上可以提供的重要即时反馈包括：

·关于扫描过程的反馈——用户扫描太快、角度太大、或在特定行上漂得太高或太低

·足够的内容——已经扫描了足够内容从而相当确信找到了匹配(如果存在的话)——对于不连贯的操作非常重要

·已知上下文——文本的源已经被定位

·已知唯一上下文——一个唯一的文本源已经被定位

·内容的可用性——指示该内容对用户是免费可用还是付费可用

如果它具有足够的能力来例如显示文档的全部或一部分，则在捕获设备上也可能发生通常与该系统的较后阶段关联的许多用户交互。

12.1.2扫描仪上的控制件

除了基本文本捕获外，该设备可以提供各种方式来让用户提供输入。例如，即使该设备与具有诸如键盘和鼠标的输入选项的主机密切关联，用户在操纵扫描仪和使用鼠标之间来回切换也可能是很混乱的。

手持扫描仪可以具有按钮、滚轮/转轮(jog wheel)、触敏表面和/或用于检测设备移动的加速计。这些中的一些允许在仍然拿着扫描仪的时候能够进行更丰富的交互。

例如，响应于扫描某一文本，该系统向用户呈现一组几个可能的匹配文档。用户使用在扫描仪一侧的滚轮来从列表中选择一个，并点击按钮来确认选择。

12.1.3姿态

在再现文档上移动扫描仪的主要原因是捕获文本，但一些移动可能由该设备检测并用来指示其他的用户意图。这样的移动在此称之为“姿态(gesture)”。

作为示例，用户能通过以从左到右的常规顺序扫描最先的几个字并以相反的顺序即从右到左扫描最后的几个字来指示文本的大区域。用户还能通过将扫描仪沿着页面向下移动几行来指示所感兴趣的文本的垂直范围。向后的扫描可能指示取消先前的扫描操作。

12.1.4在线/离线行为

该系统的很多方面可能依赖于在诸如扫描仪和膝上型主机之类的系统组件之间的网络连接性或者与外部世界的以到公司数据库和因特网搜索的连接为形式的网络连接性。然而，这种连接性可能并非一直存在，因此将存在该系统的部分或全部可能被视为“离线”的场合。期望的是允许该系统在那些情形下继续有用地运行。

当该设备与该系统的其他部分没有联系时，可以使用该设备来捕获文本。非常简单的设备可能只能存储与捕获关联的图像或音频数据，理想地存储有指示捕获它的时间的时间戳。当该设备接下来与该系统的其余部分联系时，各种捕获可以被上传到该系统的其余部分并且然后被处理。该设备还可以上传与捕获关联的其他数据，例如与光学扫描关联的语音注释、或位置信息。

虽然是断开的，但更为复杂的设备本身还可能能够执行系统操作的一些或全部。用于改进其这样做的能力的各种技术在第15.3节中进行讨论。情况经常是，一些期望动作但不是全部期望动作能在离线时被执行。例如，文本可以被辨别，但源的识别可能依赖于到基于因特网的搜索引擎的连接。在一些实施例中，该设备因此存储关于每个操作进行到什么程度的足够信息以便当连接性恢复时该系统的其余部分可以高效处理。

一般而言，该系统的操作受益于立即可用的连接性，但存在一些其中执行几个捕获然后将它们作为一批处理可能具有优势的情况。例如，如在以下第13节中所讨论的，特定捕获的源的识别可以通过检查由用户在大约相同时间所进行的其他捕获而大大加强。在给用户提供现场反馈的完全连接的系统中，该系统在处理当前的捕获时仅仅能使用过去的捕获。然而如果捕获是由该设备在离线时存储的批中的一个捕获，则该系统在进行分析时将能够考虑可从以后的捕获以及之前的捕获中得到的任何数据。

12.2在主设备上

扫描仪通常与诸如PC、PDA、电话或数字相机之类的某种其他设备通信以执行该系统的许多功能，包括与用户的更详细交互。

12.2.1响应于捕获执行的活动

当主设备接收捕获时，它可以启动各种活动。在定位与该捕获关联的电子对应物文档和在文档中的位置后由该系统执行的可能活动的非完全列表如下。

·捕获的细节可以存储在用户的历史中。(第6.1节)

·可以从本地储存器或远程位置检索该文档。(第8节)

·与该文档关联的操作系统的元数据和其他记录可以被更新。(第11.1节)

·与该文档关联的标记可以被检查来确定接下来的相关操作。(第5节)

·软件应用可以被启动以编辑、查看或以其他方式操作该文档。应用的选择可以依赖于源文档、或扫描的内容、或捕获的某个其他方面。(第11.2.2、11.2.3节)

·应用可以滚动到、突出显示、移动插入点到或以其他方式指示捕获的位置。(第11.3节)

·捕获文本的精确边界可以被修改，例如以选择捕获文本周围的全部字、句子或段落。(第11.3.2节)

·可以给用户提供复制捕获文本到剪切板或者对其执行其他标准操作系统操作或应用专有操作的选项。

·注释可以与文档或捕获的文本关联。这些可以来自即时的用户输入或可以在早期被捕获，例如在与光学扫描关联的语音注释的情况下就是如此。(第19.4节)

·可以检查标记以为用户确定要选择的一组其他可能操作。

12.2.2上下文弹出菜单

有时待由该系统采取的适当动作是很明显的，而有时则需要用户做出选择。一种实现此的好方式是通过使用“弹出菜单”，或者在内容也显示在屏幕上的情况下用所谓的出现在内容近旁的“上下文菜单”。(参见第11.3.3节)。在一些实施例中，扫描设备将弹出菜单投影到再现文档上。用户可以使用诸如键盘和鼠标的传统方法、或通过使用在捕获设备上的控制件(第12.1.2节)、姿态(第12.1.3节)、或通过使用扫描仪与计算机显示器交互(第12.2.4节)来从这样的菜单中选择。在一些实施例中，作为捕获的结果而可能出现的弹出菜单包括表示如果用户不作响应——例如如果用户忽略菜单而进行另一个捕获时发生的动作的默认项。

12.2.3关于消除歧义的反馈

当用户开始捕获文本时，最初会存在其可能匹配的几个文档或其他文本位置。随着捕获更多的文本并考虑其他因素(第13节)，候选位置的数量就会减少直到识别出实际的位置，或者若没有用户输入就不可能进一步消除歧义。在一些实施例中，该系统例如以列表、缩略图或文本段的形式提供所发现的文档或位置的实时显示，并且随着捕获的继续在该显示器上的元素的数量会降低。在一些实施例中，该系统显示所有候选文档的缩略图，其中缩略图的尺寸或位置依赖其是正确匹配的概率。

当捕获被明确地识别时，可以例如使用音频反馈来给用户强调这个事实。

有时，捕获的文本会在很多文档中出现并被辨别为引文。该系统可以例如通过在原始的源文档周围对包含所引用的参考资料(reference)的文档进行分组而在屏幕上对此进行指示。

12.2.4从屏幕扫描

一些光学扫描仪可能能够捕获在屏幕以及其他再现文档上显示的文本。因此，术语再现文档在这里用来指示：印刷到纸上不是再现的唯一形式，而且当在电子显示器上显示该文本时，供该系统使用的文本或符号的捕获可能同样有价值。

所述系统的用户可能由于各种其他的原因而需要与计算机屏幕交互，例如从选项列表中选择。对于用户来说放下扫描仪并开始使用鼠标或键盘可能不方便。其他各节已经描述了作为输入方法的扫描仪上的物理控制件(第12.1.2节)或姿态(第12.1.3节)，这些方法不需要改变工具，但使用屏幕本身上的扫描仪来扫描某些文本或符号是由该系统提供的重要备选方案。

在一些实施例中，该扫描仪的光学器件允许其以类似于光笔的方式使用，直接感测其在屏幕上的位置而无需实际扫描文本，并且可能借助于计算机上的特殊硬件或软件。

12.2.5屏幕抓取

除了使用分开的硬件来扫描屏幕外，在一些实施例中，可能期望使用在文档再现设备内部的软件或硬件来抓取屏幕(例如，扫描和OCR，或以其他方式获得再现文档信息)。一个这样的实施例可以使用在文档再现设备(例如计算机212)上的常驻(resident)应用，其具有覆盖该设备显示器的全部或部分的透明部分(有或没有边界)。通过具有透明层，这个常驻应用能访问该文档再现设备的屏幕缓冲器并使用在屏幕缓冲器中的信息来OCR在该设备显示器上显示的内容。即便这样的应用在其透明时对用户来说可能是不可见的，但它可以具有其中至少部分是可见的不同模式，并且当其操作时还可以给出视觉线索(例如，闪烁、着色、发出噪音或以其他方式让用户知道它在工作)。

进一步的实施例可能能够在不同的其他应用之间有所区别，并且使得只抓取当前应用的显示信息，总是抓取某些应用或某些应用从不让其显示的信息被抓取等等。

在仍然进一步的实施例中，文档的显示部分可以被抓取并被提交给服务器(本地，企业或远程的)以确定对于文档的该部分是否存在任何标记或注释。可以周期性地检查这样的提交或在从屏幕缓冲器中的改变显然可知上下文和/或显示信息已经改变时检查这样的提交。

13.上下文解释

所述系统的重要方面是除文本串的简单捕获之外使用其他因素来帮助识别所用的文档。适量文本的捕获经常可以唯一识别文档，但在很多情况下其将识别一些候选文档。一种解决方案是提示用户确认在被扫描的文档，但优选的备选方案是使用其他因素来自动缩小可能性。这样的补充信息可以显著地降低需要被捕获的文本量和/或增加识别电子对应物中的位置的速度以及可靠性。该额外材料称为“上下文”，并在第4.2.2节中被简要地讨论过。现在我们将更深入地对其进行考虑。

13.1系统和捕获上下文

这种信息的最重要示例也许是用户的捕获历史。

非常可能的是，任何给定的捕获都来自与先前捕获相同的文档、或来自关联的文档，特别是如果先前的捕获发生在最近的几分钟内(第6.1.2节)。相反，如果该系统检测到两次扫描之间字体已经改变，则更可能的是它们来自不同的文档。

用户的长期捕获历史和阅读习惯也是有用的。这些也可被用来开发用户兴趣和关联的模型。

13.2用户的真实世界上下文

有用的上下文的另一示例是用户的地理位置。例如，在巴黎的用户更可能阅读Le Monde而不是Seattle Times。文档的印刷版本的时间(timing)、大小和地理分布因此可能很重要，并且在一定程度上能从该系统的操作中推断出。

例如在用户在上班路上总是阅读一种类型的出版物而在午餐或回家的火车上阅读不同类型的出版物的情况下，一天中的时刻也可能是相关的。

13.3有关的数字上下文

用户对电子文档的最近使用(包括通过更常规的手段进行搜索或检索的那些使用)可以是很有帮助的指标。

在一些情况下，诸如在公司网络上，其他因素也可以被有用地考虑：

·最近哪些文档被打印了？

·最近在公司文件服务器上哪些文档被修改了？

·最近哪些文档被用电子邮件发送了？

所有的这些示例可能表明用户更可能阅读这些文档的再现文档版本。相反，如果文档所驻留的储存库能确认文档从未被打印或发送到它可能被打印的任何地方，则在任何源自再现文档的搜索中都可以安全地将其除去。

13.4其他统计量-全球上下文

第14节涵盖了由基于再现文档的搜索所产生的数据流的分析，但这里应当注意的是，关于文档对其他读者的受欢迎性、关于该受欢迎性的时间以及关于被最频繁浏览的文档部分的统计量都是能有益于搜索过程的其他因素的示例。该系统将Google类型的网页排名(ranking)的可能性带到再现文档领域。

对于将上下文用于搜索引擎的其他一些暗示也可以参见第4.2.2节。

14.数据流分析

作为副作用，该系统的使用生成非常有价值的数据流。该流是用户阅读什么以及何时阅读的记录，并且在很多情况下是在他们阅读的东西中所发现的特别有价值的东西的记录。这样的数据之前从未真正用于再现文档。

使得该数据能够用于该系统以及该系统的用户的一些方式在第6.1节中进行了描述。本节集中于该数据对其他的用途。当然，对于关于人们正在阅读什么的数据的任何分布而言存在相当多的隐私问题要考虑，但诸如保护数据匿名之类的问题对本领域技术人员是公知的。

14.1文档跟踪

当该系统知道任何给定的用户正在阅读哪些文档时，它还能推断出谁正在阅读任何给定的文档。这允许通过组织来跟踪文档，从而允许分析例如谁在阅读它以及何时阅读它、在多大范围内分布、该分布花了多长时间以及谁看了当前版本而其他人仍然在看过时的副本。

对于具有较广分布的出版文档来说，各个副本的跟踪更加困难，但对读者群的分布分析仍然是可能的。

14.2阅读排名——子区域以及文档的受欢迎性

在用户正在捕获其特别感兴趣的文本或其他数据的情况下，该系统能推断某些文档和那些文档的特定子区域的受欢迎性。这会形成对该系统本身的有价值输入(第4.2.2节)和对作者、出版者和广告商(重要的信息源第7.6节、第10.5节)。该数据当被集成在搜索引擎和搜索索引中时也是有用的——例如，用于辅助对来自再现文档的查询的搜索结果进行排名和/或辅助对键入web浏览器中的常规查询进行排名。

14.3用户分析——建立简档

用户正在阅读什么的知识使得该系统能创建相当详细的用户兴趣及活动的模型。这在抽象的统计基础上可能是有用的——“购买该报纸的35％的用户还阅读该作者的最新著作”——但它还可以允许与各个用户进行其他交互，如下所讨论的。

14.3.1社交网络

一个示例是将一个用户与具有相关兴趣的其他用户连接起来。这些人可能是该用户已经认识的人。该系统也可以询问一个大学教授，“您知道您在XYZ大学的同僚恰好也在阅读该论文吗？”该系统可以询问用户，“您想与您邻居中那些也在阅读Jane Eyre的其他人链接起来吗？”这样的链接可以是或在现实世界中或在线自动形成读书俱乐部和类似社会结构的基础。

14.3.2市场营销

第10.6节已经提及了基于其与该系统的交互而给个体用户提供产品和服务的构想。例如，当前的在线书商经常基于用户先前与该书商的交互而给用户进行推荐。当这样的推荐基于与实际书籍的交互时，这样的推荐更有用处。

14.4基于数据流的其他方面的市场营销

我们已经讨论了该系统可能影响出版文档的那些活动、通过它们做广告的那些活动以及从再现文档启动的其他销售的一些方式(第10节)。一些商业活动可能根本不与再现文档直接交互，但仍然可能受其影响。例如，对于设立健身俱乐部的人而言可能感兴趣的是知道一个社区中的人们在阅读报纸的运动部分所花费的时间比他们在金融部分所花费的时间更多。

14.5可能被捕获的数据类型

除了所讨论的统计量，诸如谁阅读了哪些文档的哪些小段以及何时和何地阅读，还可能令人感兴趣的是检查捕获的文本的实际内容，而无论该文档是否被定位。

在很多情况下，用户不仅仅捕获某一文本，而是还将导致某个动作作为结果而发生。例如，可以是用电子邮件给熟人发送对该文档的引用。即便在缺乏与用户身份或电子邮件接收方的信息有关的情况下，知道某人考虑该文档值得用电子邮件发送也是很有用的。

除了所讨论的用于推断特定文档或一段文本的价值的各种方法，在一些情形下用户将通过向其分配等级而明确指示该价值。

最后，当已知一组特定用户形成群体时，例如当知道他们是特定公司的员工时，该群体的汇总统计量可以被用来推断特定文档对该群体的重要性。

15.设备特征和功能

用来与该系统一起使用的捕获设备只需要一种从文档的再现版本捕获文本的方式。正如先前所描述的(第1.2节)，该捕获可以通过各种方法来实现，所述各种方法包括对部分文档拍照或将一些字键入移动电话键区。该捕获可以使用能够一次记录一行或两行文本的小型手持光学扫描仪、或诸如用户正在从文档朗读文本到其中的语音记录器的音频捕获设备而实现。所使用的设备可以是这些的组合——例如，还可以记录语音注释的光学扫描仪——而捕获功能性可以内置到诸如移动电话、PDA、数字相机或便携式音乐播放器的某种其他设备中。

15.1输入和输出

用于这样的设备的很多可能有益的附加输入和输出装置已经在第12.1节中进行了描述。它们包括用于输入的按钮、滚轮和触摸板以及用于输出的显示器、指示灯、音频和触觉换能器。有时该设备将合并这些中的许多，有时则合并很少的装置。有时捕获设备能够使用例如无线链接与已经具有它们的另一设备通信(第15.6节)，并且有时捕获功能性被合并到这样的其他设备中(第15.7节)。

15.2连接性

在一些实施例中，该设备本身实施该系统的大部分。然而在一些实施例中，它通常使用通信装置与PC或其他计算设备以及与更广阔的世界通信。

这些通信装置经常是以诸如以太网、802.11或UWB的通用数据网络或诸如USB、IEEE-1394(火线(Firewire))、蓝牙^TM或红外的标准外围连接网络的形式。当使用诸如火线或USB的有线连接时，该设备可以通过相同的连接接收电功率。在一些情形下，捕获设备可能看来像是作为诸如USB存储设备的常规外设的连接机器。

最后，在一些情形下该设备可以与另一设备“插接”，或与该设备结合使用或用于方便存储。

15.3缓存和其他在线/离线功能性

第3.5和12.1.4节已经提出了不连贯操作的话题。当捕获设备具有总系统功能性的有限子集，并且不与系统的其他部分通信时，该设备仍然可能有用，不过有时可用的功能性会有所减少。在最简单的水平上，该设备能记录所捕获的原始图像或音频数据并且这能在以后进行处理。然而为了用户的利益，可能重要的是，在可能的地方给出关于所捕获的数据对手边的任务而言是否可能是足够的、它是否能被辨别或可能是可辨别的、以及数据源是否能被识别或可能在以后是可识别的反馈。用户然后将知道他们的捕获活动是否是值得的。即使上述所有都未知，原始数据仍然能被存储以便用户至少能在以后参考它们。例如当扫描不能由OCR过程辨别时，可以向用户呈现该扫描的图像。

为了说明可用选项范围中的一些，以下描述相当最小的光学扫描设备以及功能更全面的光学扫描设备两者。很多设备介于这两者之间。

15.3.1简单扫描仪(SimpleScanner)——低端的离线示例

简单扫描仪具有扫描头，其在沿文本行的长度移动时能从页面读取像素。它能检测其沿页面的移动并利用关于该移动的一些信息记录像素。它还具有时钟，所述时钟允许为每次扫描打上时间戳。当简单扫描仪具有连接性时，将该时钟与主设备同步。时钟可以不表示实际的时刻，但从它可以确定相对时间以便主机能推断出扫描的实际时间、或在最坏的情况下能推断出在扫描之间所流逝的时间。

简单扫描仪本身并不具有足够的处理能力来执行任何OCR，但它确实具有一些与典型字长、字间距以及它们与字体尺寸的关系有关的基本知识。它具有一些基本指示灯，所述指示灯告诉用户扫描是否可能是可读取的、扫描头在再现文档上是否移动得太快、太慢或太不精确、以及它确定对于要识别的文档何时可能扫描了具有给定尺寸的足够字。

简单扫描仪具有USB连接器并且能插入到计算机上的USB端口，在此其将被再充电。对于计算机而言，它看来像是在其上记录被盖上时间戳的数据文件的USB存储设备，并且系统软件的其余部分从这点接管。

15.3.2超级扫描仪(SuperScanner)——高端的离线示例

超级扫描仪也依赖于连接性进行它的全部操作，但它具有相当大量的板载存储和处理，这能帮助它更好地判断离线时捕获的数据。

在它沿文本行移动时，所捕获的像素被缝合在一起并传递到试图辨别文本的OCR引擎。若干字体(包括来自用户最经常阅读的出版物的那些字体)已经被下载到其上来帮助执行该任务，正如具有与在他们的PC上的用户拼写检查器字典同步的字典以及因此包含他们频繁遇到的许多字。在扫描仪上还存储有字和短语的列表及它们的典型使用频率——这可以与字典组合。扫描仪可以使用频率统计来帮助识别过程并且还告知其关于何时捕获了足够的文本量的判断；越频繁使用的短语作为搜索查询的基础就越不可能有用。

此外，对用户最经常阅读的最近数期的报纸和期刊中的文章的所有索引被存储在该设备上，正如对用户最近从在线书商所购买的或者用户在最近几个月内从其浏览了任何东西的书的索引。最后，具有对该系统可用的数据的几千个最流行的出版物的标题被存储以便在不存在其他信息时用户能扫描该标题并且就来自特定著作的捕获稍后是否可能能够以电子形式进行检索具有好的主意。

在扫描过程中，该系统告知用户：所捕获的数据已经具有足够的品质和足够的性质以使得可能在恢复连接性时检索电子副本。该系统经常向用户指示：已知扫描已经成功并且已经在其中一个板载索引中辨别了上下文，或已知所涉及的出版物正在使其数据可用于该系统，因此稍后的检索应该能成功。

超级扫描仪插接在连接到PC的火线或USB端口的支架中，此时除了上传捕获的数据外，还基于最近的用户活动和新的出版物来更新其各种板载索引和其他数据库。它还具有装置来连接到无线公共网络或经由蓝牙与移动电话通信并因此在这样的装置可用时与公共网络通信。

15.4光学扫描的特征

现在我们考虑在光学扫描仪设备中可能特别期望的一些特征。

15.4.1灵活的定位和便利的光学器件

纸张继续流行的原因之一是在例如计算机不切实际或不方便的各种情况下能够容易地使用纸张。打算捕获用户与纸张的很大一部分交互的设备因此应当类似地便于使用。对过去的扫描仪来说情况并非如此；即便最小的手持设备也有点笨重。设计成与页面接触的那些扫描仪必须以相对纸张的精确角度握持并沿要扫描的文本的长度非常小心地移动。当在扫描办公桌上的商业报告时这是可以接受的，但当在等待火车时扫描小说中的短语时这可能不切实际。基于与再现文档相距一定距离进行操作的照相机类型的光学器件的扫描仪类似地可能用于一些情形。

该系统的一些实施例使用与再现文档接触来进行扫描的扫描仪，其中该扫描仪不是使用镜头而是使用光纤束导像管来将图像从页面传输到光学传感器设备。这样的设备能被成形为允许以自然的位置来握持该设备；例如，在一些实施例中，与页面接触的部分是楔形的，允许用户的手以类似于使用荧光记号笔的移动更自然地在页面上移动。导像管或直接与再现文档接触或非常接近于它，并且可以具有能保护导像管免受可能损害的可更换透明末端。如在第12.2.4节中所提及的，扫描仪可以被用来从屏幕以及从纸张进行扫描，并且可以选择该末端的材料来降低对这样的显示器损害的可能性。

最后，当用户扫描地太快、太慢、太不均匀或在所扫描的行上漂得太高或太低时，该设备的一些实施例将在扫描过程期间向用户提供通过使用灯光、声音或触感反馈进行指示的反馈。

15.5安全、识别、认证、个性化和付费

如在第6节中所述，捕获设备可以形成用于安全交易、购买和各种其他操作的识别和授权的重要部分。因此，除了这样的角色所需的电路和软件外，它可以合并各种能使其更安全的硬件特征，例如智能卡读取器、RFID、在其上键入PIN的键区。

它还可以包括各种生物计量传感器来帮助识别用户。例如，在光学扫描仪的情况下，扫描头还可以能够读取指纹。对于语音记录器而言，可以使用用户的语音模式。

15.6设备关联

在一些实施例中，该设备能形成与其他临近设备的关联以增加其自身或它们的功能性。例如，在一些实施例中，它使用临近PC的显示器或电话以给出关于其操作的更详细反馈，或使用它们的网络连接性。另一方面，该设备可以以其作为安全和识别设备的角色来操作以认证由其他设备执行的操作。或者，它可以简单地形成关联以便用作该设备的外设。

这样的关联的令人感兴趣的方面是，它们可以使用该设备的捕获装置来启动和认证。例如，希望向公共计算机终端安全地识别自己的用户可以使用该设备的扫描装置来扫描显示在该终端屏幕的特定区域上的代码或符号并因此实现密钥传输。可以使用由语音记录设备所拾取的音频信号来执行类似的过程。

15.7与其他设备的集成

在一些实施例中，捕获设备的功能性被集成到已经使用的某一其他设备中。集成的设备可能能够共享电源、数据捕获和存储能力以及网络接口。可以仅为了方便而进行这样的集成以降低成本或实现在其他情况下不可用的功能性。

捕获功能性可被集成到其中的设备的一些示例包括：

·已有的外设，诸如鼠标、记录针(stylus)、USB“网络照相”照相机、蓝牙^TM头戴式送受话器或遥控器

·另一处理/存储设备，诸如PDA、MP3播放器、语音记录器、数码相机或移动电话

·其他的经常携带的物品，仅仅为了方便——手表、一件珠宝、笔、车钥匙扣卡(key fob)

15.7.1移动电话集成

作为集成益处的示例，我们考虑把修改的移动电话用作捕获设备。

在一些实施例中，例如在可以通过语音识别充分地进行文本捕获的情况下——其中它们能由电话本身处理、或由在电话呼叫另一端的系统处理、或存储在电话的存储器中以便将来处理，不修改电话硬件就能支持系统。很多现代电话具有下载可以实施该系统的一些部分的软件的能力。然而，这样的语音捕获可能在很多情况下(例如当存在很大的背景噪声以及在最有利的情况下精确的语音识别是很难的任务时)是次优的。最好可以用音频装置来捕获语音注释。

在一些实施例中，内建在很多移动电话中的照相机被用来捕获文本的图像。通常用作照相机的取景器的电话显示器可以重叠在与图像的质量及其对OCR的适用性、文本的哪些段被捕获、以及甚至在可以在电话上执行OCR的情况下该文本的转录有关的现场照相机图像信息上。

在一些实施例中，修改电话来添加专用的捕获装置或在与电话通信的分开的蓝牙连接的外设或夹式适配器中提供这样的功能性。无论捕获机构的性质如何，与现代蜂窝电话的集成具有很多其他的优点。电话具有与更广阔世界的连接性，这意味着能够向远程搜索引擎或系统的其他部分提交查询，并且文档的副本可以被检索以供立即存储或查看。电话一般有足够的处理能力来本地执行该系统的很多功能，并且有足够的储存器来捕获适当量的数据。存储量通常还能够由用户扩展。电话具有相当好的显示器和音频装置来提供用户反馈，并且通常具有用于触觉反馈的振动功能。它们也有很好的电源。

最显著的是，它们是多数用户已经携带的设备。

第III部分——该系统的示例应用

本节列出了该系统以及可以在其上建立的应用的示例使用。本列表仅仅打算是说明性的而绝不是穷举性的。

16.个人应用

16.1生活库

生活库(参见第6.1.1节)是订户希望保存的任何重要文档的数字档案并且是该系统的服务的一组实施例。重要的书籍、杂志文章、剪报等都能够以数字形式保存在生活库中。此外，订户的注释、评论和注解能够与文档一起保存。可以经由因特网和万维网访问生活库。

该系统为订户创建并管理生活库文档档案。订户通过从文档扫描信息或通过以其他方式向该系统指示要将特定文档加入到订户的生活库来指示订户希望在他的生活库中保存哪些文档。所扫描的信息一般是来自文档的文本但也可以是条形码或其他识别该文档的代码。该系统接受该代码并用它来识别源文档。在识别文档后，该系统能在用户的生活库中存储该文档的副本或到可以获取该文档的源的链接。

生活库系统的一个实施例能够检查是否授权订户获取电子副本。例如，如果读者从New Yorker Times(NYT)中的文章副本中扫描文本或标识符以便将该文章加入到该读者的生活库，则生活库系统将向NYT验证该读者是否订阅了NYT的在线版本；如果是，则该读者在他的生活库账户中存储该文章的副本；如果否，则识别该文档以及如何订购它的信息被存储在他的生活库账户中。

在一些实施例中，该系统为每个订户维护包括访问特权信息的订户简档。文档访问信息能够以几种方式编制，其中的两种是：1)订户将其账户名和密码等与文档访问信息一起提供给生活库系统，或2)生活库服务提供者用订户的信息询问出版者，并且如果生活库订户被授权访问该材料则出版者通过提供对电子副本的访问而作出响应。如果生活库订户没有被授权具有该文档的电子副本，则出版者提供价格给生活库服务提供者，生活库服务提供者接着向顾客提供购买该电子文档的选项。如果果是这样的话，则生活库服务提供者要么直接向出版者付费并且以后开账单给生活库顾客，要么生活库服务提供者针对该购买而立即给顾客的信用卡开账单(bill)。生活库服务提供者将得到购买价格的一定百分比或少许固定费用以促成该交易。

该系统可以在订户的个人库和/或该订户具有存档特权的任何其他库中对该文档进行存档。例如，当用户从印刷文档扫描文本时，生活库系统能识别再现文档和它的电子对应物。在识别了源文档后，生活库系统可以将关于源文档的信息记录在用户的个人库中和该订户具有存档特权的群体库中。群体库是协作档案，诸如用于以下的文档储存库：一起从事某项目的群体，学术研究者群体、群体web博客等。

能够以多种方式组织生活库：按照年代、按话题(topic)、按订户的兴趣程度、按出版类型(报纸、书籍、杂志、技术论文，等等)，阅读位置、阅读时间、按ISBN或者按杜威十进制，等等。在一种备选方案中，该系统能够基于其他订户如何分类相同文档而学习分类。该系统能够向用户建议分类或者自动为用户对文档进行分类。

在各种实施例中，注释可以直接插入文档中或者可以维护在单独的文件中。例如，当订户从报纸文章中扫描文本时，该文章被存档到他的生活库中且突出显示扫描的文档。可选地，该文章连同相关联的注释文件一同存档到他的生活库中(这样，使得存档文档未经修改)。该系统的实施例能够在每一订户的库中保存源文档的副本、在许多订户能够访问的主库中保存副本、或者保存到由出版者持有的副本的链接。

在一些实施例中，生活库仅存储用户对文档的修改(例如，突出显示等等)和到(在别处存储的)文档的在线版本的链接。当订户随后检索该文档时，该系统或订户将更改和该文档合并起来。

如果注释被保存在单独的文件中，则源文档和注释文件被提供给订户并且订户将它们组合以创建修改的文档。可选地，该系统在向订户呈现现这两个文件之前将它们组合。在另一备选方案中，注释文件是对文档文件的重叠层(overlay)并且能够通过订户计算机中的软件来重叠该到文档上。

生活库服务的订户支付月费来使该系统维护订户的档案。可选地，订户为存储在档案中的每一文档支付少许费用(例如，微支付)。可选地，订户按每次访问费用(on a per access fee)进行支付以访问订户的档案。可选地，订户能够编制库并且以与生活库服务提供者和版权持有者分享收益的模型允许其他人访问材料/注释。可选地，当生活库订户订购文档时，生活库服务提供者从出版者接收报酬(与出版者分享收益的模型，其中生活库服务提供者获得出版者的一份收益)。

在一些实施例中，生活库服务提供者充当订户和版权持有者(或者版权持有者的代理人，诸如版权结算中心，又名CCC)之间的中介从而促进受版权保护的材料的记账和付费。生活库服务提供者使用订户的帐单信息和其他用户帐户信息来提供该中介服务。本质上，生活库服务提供者利用原有的与订户之间的关系来使得能够代表订户购买受版权保护的材料。

在一些实施例中，生活库系统能够存储来自文档的摘录。例如，当订户从再现文档中扫描文本时，对扫描文本周围的区域进行摘录并且将其放入生活库中，而不是把整个文档存档在生活库中。由于保存原始扫描的情形防止了订户重读文档来寻找感兴趣的部分，所以当文档很长时这特别有利。当然，到再现文档的整个电子对应物的超链接能够与摘录材料一起包含在内。

在一些实施例中，该系统也在生活库中存储关于文档的信息，诸如作者、出版标题、出版日期、出版者、版权持有者(或者版权持有者的许可代理)、ISBN、到文档的公开注释的链接、阅读排名(read-rank)等等。关于文档的这种附加信息中的一些是再现文档元数据的形式。第三方可以创建公开注释文件以供除了他们自己之外的人(诸如普通公众)访问。由于阅读其他用户的注释文件增强了订户对文档的理解，因此到第三方对该文档的评注的链接是有利的。

在一些实施例中，该系统按类别存档材料。此特征允许生活库订户迅速存储整个类别的再现文档的电子对应物而无需访问每一再现文档。例如，当订户从一份国家地理杂志扫描一些文本时，该系统向订户提供存档国家地理的所有过期期刊的选项。如果订户选择存档所有过期期刊，那么生活库服务提供者将向国家地理协会验证是否授权订户这样做。如果否，生活库服务提供者可以转交(mediate)存档国家地理杂志集的权限的购买。

16.2.生活保存器

生活库概念的变化或增强是“生活保存器(life saver)”，其中该系统使用由用户捕获的文本来推断关于他们的其他活动的更多内容。对来自特定饭店的菜单、来自特定戏剧表演的节目、特定火车站的时间表或者来自本地报纸的文章的浏览允许该系统做出关于用户位置和社会活动的推断，并且可以为他们构造自动日记，例如作为网站。用户将能编辑和修改该日记、添加诸如照片的附加材料，并且当然能重新查看浏览过的各项。

17.学校应用

由所述系统支持的便携扫描仪在学校环境中具有很多引人注目的用途。它们可以增强学生/老师交互并且增加学习体验。在其他用途中，学生能够对学习材料进行注释来适应他们独特的需要；老师可以监控课堂表现；并且老师能够自动验证学生作业中引用的源材料。

17.1孩子们的书

孩子与再现文档(诸如书)的交互由采用此系统的一组特定实施例的读写习得(literacy acquisition)系统来监控。孩子使用与读写习得系统的其他元件通信的便携扫描仪。除了便携扫描仪之外，读写习得系统包含具有显示器和扬声器的计算机以及可由该计算机访问的数据库。该扫描仪与计算机(硬接线、短程RF，等等)耦合。当孩子在书中看到不认识的字时，孩子用扫描仪扫描它。在一个实施例中，该读写习得系统将扫描的文本与其数据库中的资源进行对比来识别该字。该数据库包含字典、词典和/或多媒体文件(例如，声音、图形等等)。识别该字后，该系统使用计算机扬声器向孩子发出该词的音和它的定义。在另一个实施例中，该字和它的定义由读写习得系统显示在计算机监视器上。关于所扫描字的多媒体文件也能够通过计算机监视器和扬声器进行播放。例如，如果阅读“金发姑娘和三只熊(Goldilocks and the Three Bears)”的孩子扫描词“熊”，那么该系统可能发出字“熊”的音并且在计算机监视器上播放关于熊的短视频。以此方式，孩子学习发书面字的音并且经由多媒体演示视觉上被教导该字的含义。

该读写习得系统提供即时的听觉和/视觉信息来增强学习过程。孩子使用该辅助信息来迅速获得对书面材料的更深理解。该系统可以用于教导初级读者来阅读、帮助孩子们获得大量词汇等等。该系统向孩子提供与孩子不熟悉的字有关或者与孩子想知道其更多信息的字有关的信息。

17.2读写习得

在一些实施例中，该系统编制个人字典。如果读者见到新的、感兴趣或特别有用或者特别麻烦的字，那么读者将它(与它的定义一起)保存到计算机文件。此计算机文件成为读者的个性化字典。此字典的尺寸通常比一般字典小，因此可以下载到移动站或者相关联的设备并且因此即使在该系统不是立即可访问时也是可用的。在一些实施例中，个人字典条目包括用于帮助正确的字发音的音频文件和用于识别从中扫描该字的再现文档的信息。

在一些实施例中，该系统为学生创建定制的拼写和词汇测试。例如，当学生阅读作业时，学生可以用便携扫描仪来扫描不熟悉的字。该系统存储学生扫描的所有字的列表。之后，该系统在相关联的监视器上管理针对该学生的定制的拼写/词汇测试(或者在相关联的打印机上打印这样的测试)。

17.3.音乐教学

音乐五线谱上的音符的布置类似于一行文本中的字母的布置。在该系统中对于捕获文本所讨论的相同扫描设备可以用于捕获音乐记号，并且对照已知音乐片段构造搜索的相似过程将允许识别该捕获发生的片段，然后该片段可以被检索、播放，或者作为某个其他动作的基础。

17.4检测剽窃

通过从学生论文扫描文本并将扫描的文本提交到该系统，老师可以使用该系统来检测剽窃或者验证来源。例如，希望验证学生论文中的引文来自学生引用的来源的老师能够扫描部分引文并且将由该系统识别的文档标题与由学生引用的文档标题进行比较。同样，该系统能够使用来自作为学生的原创作品提交的作业中的文本的扫描来揭示该文本是否是代为复制的。

17.5增强的教科书

在一些实施例中，从学校教科书中捕获文本将学生或者职员链接到更详细的解释、更多习题、学生和职员关于该材料的讨论、有关示例的过去考试问题、关于该主题的更多阅读、关于该主题的演讲记录，等等。(也可参见第7.1节)

17.6语言学习

在一些实施例中，该系统用来教导外语。例如，扫描西班牙字可能使得大声以西班牙文读出该字并以英文读出其定义。

该系统提供即时的听觉和/或视觉信息来增强新语言的习得过程。读者使用此辅助信息来迅速获取对材料的更深理解。该系统能够用来教导初学者阅读外语、帮助学生习得大量词汇等等。该系统提供与读者不熟悉的或读者希望了解更多信息的外文字有关的信息。

语言技巧系统监控读者与再现文档诸如报纸或书籍的交互。该读者具有与语言技巧系统通信的便携扫描仪。在一些实施例中，该语言技巧系统包括具有显示器和扬声器的计算机和可由该计算机访问的数据库。扫描仪与计算机(硬接线、短程RF，等等)进行通信。当读者看到文章中不认识的字时，读者用扫描仪扫描它。该数据库包括外语字典、词典和/或多媒体文件(声音、图形等等)。在一个实施例中，该系统将扫描文本与在其数据库中的资源进行比较来识别所扫描的字。在识别该字之后，该系统使用计算机扬声器向读者发出该字的音及其定义。在一些实施例中，该字及其定义都显示在计算机监视器上。与涉及所扫描字的语法提示有关的多媒体文件也能够通过计算机监视器和扬声器进行播放。例如，如果扫描这些字“说出(to speak)”，那么该系统可以发出字“说(hablar)”的读音，播放演示正确西班牙发音的短音频剪辑，并且显示“hablar”的各种变化的完整列表。以此方式，学生学习发书面字的音、经由多媒体演示视觉上被教导该字的拼写，并且学习如何变化动词。该系统还能够连同常用短语一起呈现与“hablar”的正确用法有关的语法提示。

在一些实施例中，用户以除了用户母语(或者用户相当熟悉的某种其他语言)之外的语言从再现文档中扫描字或短的短语。在一些实施例中，该系统维护用户“优选”语言的优先列表。该系统识别再现文档的电子对应物，并且确定文档中该扫描的位置。该系统还识别已经翻译成用户优选语言之一的文档的第二电子对应物，并且在翻译文档中确定对应于原始文档中扫描位置的位置。当对应位置不是精确知道时，该系统识别包括扫描位置的对应位置的小区域(例如，段落)。然后把对应的翻译位置呈现给用户。这就在扫描位置向用户提供特定用法的精确翻译，包括任何往往难以逐字精确翻译的俚语或其他习惯用法。

17.7收集研究材料

研究特殊话题的用户可能遇到各种各样的(打印形式和屏幕上的)材料，他们可能希望将与该话题相关的材料记录在某种个人档案中。该系统将使得该过程由于在任何材料片段中扫描短的短语而自动进行，并且还可以创建适合用于插入到关于该主题的出版物中的参考书目。

18.商业应用

显然，商业活动可以从本文档中讨论的几乎任何过程中得出，但是此处我们关注的是几个明显的收益流。

18.1基于费用的搜索和索引

常规的因特网搜索引擎一般提供免费的电子文档搜索，并且也不因为在索引中包含内容提供者的内容而向内容提供者收费。在一些实施例中，该系统向用户收费和/或向与该系统的操作和使用相关的搜索引擎和/或内容提供者付费。

在一些实施例中，该系统服务的订户为源自再现文档扫描的搜索而支付费用。例如，股票经纪人可能阅读与X公司提供的新产品有关的华尔街日报文章。通过从再现文档中扫描X公司名称并且同意支付必要费用，股票经纪人使用该系统来搜索特殊的或者专有的数据库从而获得有关该公司的优质信息(premium information)，诸如分析师的报告。该系统还能够进行安排以具有最有可能被以再现文档形式阅读的文档的优先索引，例如通过确保在特定日出版的所有报纸都被索引并且到他们遍布街市的时候都可以得到。

内容提供者可以支付费用从而与从再现文档提交的搜索查询中的某些项相关联。例如，在一个实施例中，该系统基于关于提供者的附加上下文来选择最优选的内容提供者(上下文在此情况下是内容提供者已经支付了费用以在结果列表中得以上移)。本质上，搜索提供者基于预先存在的与内容提供者的财务安排(financial arrangement)来调整再现文档搜索结果。也可以参见第5.2节中对关键字和关键短语的描述。

在对特定内容的访问限于特定人群(诸如客户或者雇员)的情况下，这样的内容可以由防火墙保护并且因此通常不可由第三方进行索引。不过，内容提供者可能希望对保护的内容提供索引。在此情况下，内容提供者可以向服务提供者付费来向系统订户提供内容提供者的索引。例如，律师事务所可以对所有客户的文档编索引。该文档存储在该律师事务所的防火墙之后。然而，律师事务所希望它的雇员和客户可以通过便携扫描仪访问该文档，因此其向服务提供者提供该索引(或者指向该索引的指针)，服务提供者进而在该律师事务所的雇员或客户经由他们的便携扫描仪提交再现文档扫描的搜索项时搜索律师事务所的索引。该律师事务所能够向服务提供者的系统提供雇员和/或客户的列表以使得此功能或该系统能够在搜索该律师事务所的索引之前通过询问该律师事务所来验证访问权限。应当注意的是，在之前的示例中，由律师事务所提供的索引只是该客户的文档的索引，并不是律师事务所的所有文档的索引。因此，服务提供者只能够授权该律师事务所的客户访问该律师事务所为该客户编索引的文档。

存在至少两个能够由源自再现文档的搜索产生的单独收益流：一个收益流来自搜索功能，而另一个来自内容传递功能。搜索功能收益可以从来自扫描仪用户的付费订阅中生成，但是也可以按每次搜索收费来生成。内容传递收益可以与内容提供者或者版权持有者分享(对于每次传递，服务提供者可以取得销售额的一定比例或者固定费用，诸如微支付)，但是也可以由“推荐(referral)”模型生成，在该模型中不论服务提供者是否干预了交易，该系统对于订户从在线目录订购的并且该系统已传递或者已促成的每一项都收取费用或者提成。在一些实施例中，系统服务提供者对订户从内容提供者进行的所有购买都收取收益，收取收益要么在某一预定时间段内要么在完成识别产品的购买之后的任何时间。

18.2目录

消费者可以使用便携扫描仪来从再现文档目录中进行购买。订户从目录中扫描识别该目录的信息。此信息是来自目录的文本、条形码或者目录的另一标识符。订户扫描识别他/她希望购买的产品的信息。该目录邮寄标签可以包括向目录卖主识别顾客的顾客标识号。假如是这样的话，订户也可以扫描该顾客标识号。该系统充当订户与卖主之间的中介以通过向卖主提供顾客的选择和顾客标识号来促成目录购买。

18.3优惠券(coupon)

消费者扫描再现文档优惠券并且在扫描仪或者在诸如计算机的远程设备中保存优惠券的电子副本，以便以后检索和使用。电子存储的一个优点是消费者没有携带再现文档优惠券的负担。进一步的优点是可以从任何位置检索电子优惠券。在一些实施例中，该系统可以跟踪优惠券有效期，提醒消费者不久将过期的优惠券，和/或从存储中删除过期的优惠券。对优惠券发行者来说的一个优点是可以接收到关于谁在使用该优惠券以及何时何地捕获和使用这些优惠券的更多反馈。

19.一般应用

19.1表格

该系统可以用于自动填充对应于再现文档表格的电子文档。用户扫描唯一识别再现文档表格的某文本或者条形码。扫描仪将表格标识以及识别用户的信息传送到附近的计算机。附近的计算机具有因特网连接。附近的计算机能够访问表格的第一数据库和具有与扫描仪用户有关的信息的第二数据库(例如服务提供者的订户信息数据库)。附近的计算机从第一数据库访问再现文档表格的电子版本并且根据从第二数据库获得的用户信息自动填充表格的字段。然后附近的计算机将填好的表格用电子邮件发送到预计的接收方。可选地，该计算机可以在附近的打印机上打印填好的表格。

在一些实施例中，不是访问外部数据库，该系统具有诸如在身份模块、SIM或者安全卡中包含用户信息的便携扫描仪。该扫描仪给附近的PC提供识别该表格的信息。附近的PC访问电子表格并查询该扫描仪以获得任何必需的信息来填写该表格。

19.2业务名片

该系统可以用来根据再现文档自动地填充电子地址簿或者其他联系列表。例如，在接收到新相识者的业务名片后，用户可以用他/她的蜂窝电话捕获该名片的图像。该系统将定位该名片的电子副本，其可以用于用该新相识者的联系信息更新该蜂窝电话的板载地址簿。与挤压到业务名片上的信息相比，电子副本可以包含更多关于新相识者的信息。另外，板载地址簿也可以存储到电子副本的链接，这样任何对电子副本的改变都将在蜂窝电话的地址簿中自动更新。在此示例中，业务名片任选地包含指示电子副本的存在的符号或者文本。如果不存在电子副本，那么蜂窝电话可以使用OCR和标准业务名片格式的知识来填充地址簿中用于新相识者的条目。符号也可以辅助从图像直接提取信息的过程。例如，在业务名片上的电话号码近旁的电话图标可以被辨别以确定电话号码的位置。

19.3校对/编辑

该系统可以增强校对和编辑过程。一种该系统能够增强编辑过程的方式是通过将编辑者与再现文档的交互链接到它的电子对应物。当编辑者阅读再现文档并且扫描文档的各部分时，该系统将对再现文档的电子对应物做出适当的注释或者进行编辑。例如，如果编辑者用扫描仪扫描一部分文本并且做出“新段落”控制姿态，与该扫描仪通信的计算机将在该文档的电子副本中的扫描文本的位置处插入“新段落”分隔符。

19.4语音注释

用户可以通过从文档中扫描一部分文本并且随后进行与扫描文本相关联的语音记录而对该文档做出语音注释。在一些实施例中，扫描仪具有麦克风来记录用户的口头注释。该系统在记录口头注释之后识别从中扫描该文本的文档，在该文档中定位扫描的文本，并且将语音注释附加到那个点。在一些实施例中，该系统将话音转换为文本，并且作为文本评论附加该注释。

在一些实施例中，该系统使注释与文档分离，与该文档一起保持的仅是到该注释的引用。对于特定的订户或用户组，该注释于是变成该文档的注释标记层。

在一些实施例中，对于每一捕获和相关联的注释，该系统识别文档，用软件包打开它，滚动到扫描的位置并且播放语音注释。然后用户可以在参照语音注释、建议的改变或者由他们自己或者由其他某人记录的其他评论的同时与该文档交互。

19.5文本中的帮助

所述系统可以用于利用电子帮助菜单增强再现文档。在一些实施例中，与再现文档相关联的标记层包含用于该文档的帮助菜单信息。例如，当用户从文档某部分扫描文本时，该系统检查与该文档相关联的标记并且向用户呈现帮助菜单。帮助菜单被呈现在扫描仪的显示器上或者相关联的附近显示器上。

19.6与显示器的使用

在某些情况下，能够从电视、计算机监视器或者其他类似显示器扫描信息是有利的。在一些实施例中，便携扫描仪用于从计算机监视器和电视扫描信息。在一些实施例中，便携光学扫描仪具有照明传感器，其被优化以与诸如光栅化、屏幕抑制显示等等的传统阴极射线管(CRT)显示技术一起工作。

通常，通过捕获从文档中朗读文本的用户的音频来操作的语音捕获设备都能使用，而不管该文档是在纸上、在显示器上还是在其他一些介质上。

19.6.1公共信息亭和动态会话ID

显示器的直接扫描的一种用途是在第15.6节中描述的设备关联。例如，在一些实施例中，公共信息亭在它的监视器上显示动态会话ID。该信息亭连接到诸如因特网或公司内联网的通信网络。会话ID周期性地但至少每当使用信息亭时改变，这样向每一用户显示新会话ID。为了使用信息亭，订户扫描显示在信息亭上的会话ID；通过扫描会话ID，用户告知该系统他希望临时将信息亭与他的扫描仪相关联从而发送由扫描印刷文档产生的或者由信息亭屏幕本身产生的内容。扫描仪可以直接向该系统传送会话ID和其他认证该扫描仪的信息(诸如序列号、帐户号码或者其他识别信息)。例如，扫描仪可以通过经由用户的蜂窝电话(其经由蓝牙^TM与用户的扫描仪配对)发送会话开始消息而直接(此处“直接”意思是不经过信息亭传送消息)与该系统通信。可选地，扫描仪可以通过将会话开始信息传递到信息亭(也许经由近程RF，诸如蓝牙^TM等等)建立与信息亭之间的无线链路并且使用信息亭的通信链路；作为响应，信息亭经由它的因特网连接发送会话开始信息到该系统。

在设备与扫描仪相关联的时段(或会话)期间，该系统可以防止其他人使用已经与扫描仪相关联的该设备。此特征对防止其他人在另外一人的会话结束之前使用公共信息亭十分有用。作为与在网吧使用计算机有关的这一概念的示例，用户扫描在他/她想要使用的PC的监视器上的条形码；作为响应，该系统将会话ID发送到它显示的监视器；用户通过从该监视器扫描会话ID(或者经由便携扫描仪上的键区或触摸屏或者麦克风来输入它)来启动会话；并且该系统在它的数据库中将会话ID与他/她的扫描仪的序列号(或者其他唯一识别用户的扫描仪的标识符)相关联，因此另一扫描仪在他/她会话期间不能扫描会话ID和使用监视器。扫描仪(通过诸如蓝牙^TM的无线链路、诸如插接站的硬接线链路，等等)与和该监视器相关联的PC通信或者通过诸如蜂窝电话的另一装置而直接(也就是，无需通过PC)与该系统通信。

20.更多细节

用于响应于光学地或声学地从再现文档中捕获关键字或者响应于基于捕获的关键字识别文档而触发动作(诸如广告)的软件和/或硬件系统也是此处所述的注释系统的一部分。在某些情况下，该系统对关键字呈现广告、显示注释或者修改或应用动作。此处使用的关键字是指一个或多个字、图标、符号或者图像。虽然在本申请中经常使用术语“字”和“字词”，但图标、符号或者图像可以用于某些实施例。此处使用的关键字也指由一个或多个相邻符号组成的短语。此处使用的关键字包括与响应于捕获而识别的并且与再现文档或者再现文档的一部分一起讨论的话题或主题有关的字词。关键字可以任选地包括可由常规表达算法或者图像处理辨别的各类对象(object)。这类对象可以包括电子邮件地址、邮寄地址、电话号码、URL、超链接和其他指向内容、引文、商标、标志、固有名称、时刻、日期等等的指针。

可以把关键字看作是“过载的”——也就是，它们具有超出它们作为文本或符号对用户的普通(例如，视觉)意义的某些相关意义或者动作。在一些实施例中，关键字与意义或者动作之间的关联借助于标记过程或数据而建立。在一些实施例中，当实施捕获或者识别时，该系统知道关键字或文档与意义或动作之间的关联。在一些实施例中，在实施了捕获或者识别之后建立关键字或文档与意义或动作之间的关联。

在一些实施例中，该系统识别文档并且使用文档内容来触发和选择要向用户呈现的广告。在一些情况下，该系统可以分析文档并且将文档内容与一个或多个关键字进行关联。在一些情况下，该系统基于整个文档的内容选择广告(动作)。在一些情况下，该系统基于包含或邻近捕获文本的一部分文档来选择广告。在一些情况下，该系统基于在识别文档时没有使用的文档的内容来选择广告。

在所述系统的一些实施例中，与再现文档中的关键字进行交互不需要来自该文档的捕获具体包含该关键字或者与识别的文档相关联的关键字是特定关键字。如果捕获包括整个关键字，与该关键字重叠(包含该关键字的一部分)，邻近该关键字(例如在同一段中或者在同一页上)，或者包含与包含在该关键字中的信息类似或相关的信息(例如，字、图标、标记、符号、图像)，那么捕获可以触发与该关键字相关联的动作。当用户捕获包含在关键字中的字的同义字或者如果文档与关键字的同义字相关联时，可以调用与该关键字相关联的动作。例如，如果关键字包括字“猫”，并且用户捕获包括字词“猫科动物”的文本，那么可以任选地调用与“猫”相关联的动作。可选地，如果用户在包含字“猫”或者字词“猫科动物”的页面上的任何位置进行捕获，那么可以任选地调用与包含“猫”的关键字相关联的动作。

类似地，如果该系统识别文档、分析文档内容并且确定包含“猫科动物”的文档的关键字，那么该系统可以调用与关键字“猫”相关联的动作(诸如广告消息)。

在一些实施例中，指定捕获如何与关键字相关和由这些捕获引起哪些特定动作的特定指示和/或数据作为标记存储在该系统中。

在一些实施例中，采取的与关键字相关联的动作部分地由如何实施捕获来确定。关键字附近的捕获、与关键字重叠、包含关键字和其它材料以及精确包含关键字——每一个都可以导致一组不同的动作。捕获不带周围材料的关键字“IBM”可以将用户的浏览器发送到IBM的网站。捕获周围句子中的IBM可以导致在该系统处理和响应于其它捕获材料时显示IBM的广告。在一些实施例中，可以嵌套关键字或者关键字可以重叠。该系统可以具有与“IBM数据”、“数据服务器”和“数据”相关联的动作——并且当用户捕获短语“IBM数据服务器”时，可以调用与一些或全部这些关键字相关联的动作。

关键字的示例是术语“IBM”——并且它在文档中的出现可以与引导读者的web浏览器到IBM网站相关联。关键字的其它示例是短语“SonyHeadset”、产品型号“DR-EX151”和书名“Learning the Bash Shell”。与这些关键字相关联的动作可以是在Amazon.com上查阅待售的物品列表、将所包括的一个或多个项匹配到待售的一个或多个物品、以及向用户提供通过Amazon购买这些物品的机会。

在一些实施例中，该系统基于文本的捕获识别电子对应物并且随后基于该识别执行动作(诸如呈现广告)。例如，对文本“DR-EX151说明书”的捕获可以识别该产品型号的产品说明书文档。在此示例中，该系统检索文档的电子版本并且将该文档与相关广告一同呈现给用户。该系统可以与文档分离地呈现广告(诸如通过发送提供与类似产品有关的信息的电子邮件消息)或者可以在电子对应物中呈现广告(诸如嵌入电子对应物中)。

所公开系统的一些实施例响应于来自再现文档的数据捕获而执行上下文动作。上下文动作指的是在其他信息的上下文中或响应于其他信息而开始或者采取动作的实践，所述动作诸如呈现用户选择的菜单或者呈现广告消息，所述其他信息诸如在从再现文档中的特定位置或者从动态显示器上的文档数据呈现中捕获的文本中或者附近的信息。

一种类型的上下文动作是上下文广告(contextual advertising)，其指的是向用户呈现基于捕获或显示的信息和某个上下文而选择的广告。上下文广告的子集——在此称为“动态上下文广告”——包括动态地选择许多可用广告消息之一以与相关内容结合呈现。

由于上下文广告在对广告商的产品感兴趣的人们探索那些兴趣时向这些人发送广告消息，因此上下文广告可能特别有效。动态上下文广告可能尤其有效，因为它保持了在内容被阅读时呈现在创建或出版该内容时不可用的广告消息的灵活性。

各种实施例为再现文档提供上下文动作。上下文动作可以提供适合特定上下文的动作和响应，即动作可以随上下文改变而改变。该系统中的上下文动作的示例是当用户从文档捕获文本时出现在与便携捕获设备302相关联的显示器上的菜单。该菜单可以依据捕获的文本、捕获文本的位置等等进行动态改变。

动作可以任选地包括诸如“显示”的动词和诸如“广告消息”的宾语。在一些实施例中由该系统支持的附加动词包括发送或接收(例如，电子邮件消息、即时消息、包含捕获或关键字的文档的副本)、打印(例如，小册子)、“浏览”(例如，网页)和“启动”(例如，计算机应用)。

在一些实施例中，触发的动作包括代表广告商或赞助者呈现广告消息。在一些实施例中，动作可以与所有文档、一组文档、单个文档或者文档的一部分相关联。

在一些实施例中，触发的动作包括呈现可能的用户启动的动作或选择的菜单。在一些实施例中，选择的菜单被呈现在相关的显示设备上，例如在蜂窝电话显示器、个人计算机显示器421上，或者在集成到捕获设备302中的显示器上。在一些实施例中，当用户后来从他们的用户帐户历史记或生活库中回顾捕获时，也可得到全部或部分选择菜单。在一些实施例中，动作菜单由与关键字、与再现文档或与较大组或较大类的文档相关联的标记数据和/或标记过程来确定。

在一些实施例中，动作菜单可以任选地具有零、一个或更多默认动作。在一些实施例中，如果用户不与菜单交互，例如如果用户继续随后的捕获，那么默认动作就被启动。在一些实施例中，默认动作由与关键字、与再现文档或与较大组或较大类的文档相关联的标记数据和/或标记过程来确定。

在一些实施例中，呈现动作菜单，使得更可能被用户选择的项更靠近某些已知位置或引用——诸如菜单列表的顶部出现。在一些实施例中，可以通过跟踪过去由此用户以及由该系统的其他用户选择的那些项来确定选择的概率。在一些实施例中，动作菜单可以包括由该系统采用的标准动作的子集。标准动作连同特定捕获所特有的菜单项一起能以不同组合出现在不同上下文中。当没有关键字被辨别和/或捕获的上下文未知时，某些标准动作可以出现在菜单里。某些标准动作可以出现在当捕获设备302与该系统的其他组件断开时生成的菜单中。

其中，标准动作可以包括：●说出这个字/短语●将这个翻译成另一语言(并且说出、显示或者打印)●帮助功能●告诉我更多关于这个的信息●向我出示这个的图片●给这个做书签●在这个下面划线●摘录(复制)这个●把这个添加到我的日历●把这个添加到我的联系列表●购买这个●把这个用电子邮件发给我●将这个保存到我的档案●在这里添加语音注释●播放任意相关联的语音注释●向我出示相关联内容●向我出示有关内容●在内容索引或表格中寻找这个主题●将这个话题注为感兴趣的●将我带到这个网站●请向我发送有关这个的信息●向我发送要填写的这个表格●为我填写这个表格●提交带有我的信息的这个表格●在网上搜索这个●打印这个文档●将这个文档放在我的计算机屏幕或者相关联的显示器上●在我的显示器上示出文档中这个字/短语的所有出现●当在其他上下文中使用这个字/短语时搜索并且向我出示这个字/短语●选择这个项(例如，多重选择)●将这个摘录到线性注解文件●向我出示其他人关于这个文档/页面/行/段写了或说了什么●拨打这个电话号码●当这个文档在线可用时告知我●如果/当它变为可用时向我发送有关这个的该信息●向这个人/公司/地址发送电子邮件●如果我是这个上下文/奖品/出价的获胜者那么告知我●为这个事件、奖品/绘画/抽彩对我进行登记●记录我已经阅读过这段●记录我同意这个声明/合同/条款●当关于这个话题的新消息变为可用时告知我●为我注意这个话题●当/如果这个文档改变时告知我

在一些实施例中，任选地为附近的内容以及用户专门捕获的内容呈现动作菜单。在一些实施例中，该系统使用之前捕获中选定的选择来确定在随后与文档的交互中呈现哪些项以及它们的呈现次序。经常选择的菜单项可以出现在菜单呈现的顶部。在一些实施例中，菜单项可以任选地调用附加的相关选择的子菜单。

以下文本参考附图中的标记，在后面详述附图。在多个动作可用于单一关键字的情况下，本系统的一些实施例使用各种行为规则选择这些动作的子集来执行，例如，规则可以规定用于确定哪些动作优先于其他动作的层级。例如，规则可以规定该系统按照动作应用到的内容体的大小递增次序选择动作。作为示例，在由特定出版商出版的特定教科书的特定章回中捕获关键字的情况下，该系统可以选择与教科书的该章回相关联的第一动作，之后是与特定教科书相关联的第二动作，之后是与出版商出版的全部教科书相关联的第三动作。该系统也可以基于捕获设备302在捕获时所处的地理区域或位置、捕获关键字的时间或日期范围、与捕获有关的各种其他种类的上下文信息、与用户相关联的各种简档信息、和/或赞助商同意提供的用于赞助该动作的金钱或其他报酬的数额来选择动作。

在一些实施例中，该系统利用手持光学和/或声学捕获设备，诸如无线连接到计算机212系统的手持光学和/或声学捕获设备302、或者蜂窝电话中的声学和/或成像组件、或者集成在PDA(“个人数字助手”)中的相似组件。

在一些实施例中，该系统包括用来从再现文档进行捕获并且与存储关键字登记信息的关键字服务器440进行通信的光学和/或声学捕获设备302。在一些实施例中，关键字登记信息存储在登记的关键字的数据库中。在一些实施例中，此信息存储在标记数据的数据库中。在一些实施例中，此信息存储在与再现文档相关联的标记文档中。

在一些实施例中，捕获设备302是便携或者手持扫描仪，诸如具有适合逐行扫描文本的扫描孔径的“笔型”扫描仪而不是每次扫描整页的“平板”扫描仪。平板扫描仪通常不是便携的而是比笔型扫描仪的体积大很多。笔型扫描仪可以具有指示器以在关键字被扫描进去时向用户进行指示。例如，扫描仪可以点亮LED 332以让用户知道扫描的字已经辨别为关键字。用户可以按下扫描仪上的按钮(或者用扫描仪做出姿态)来启动处理，由此采取关联的动作，例如向用户发送与关键字有关的信息。

捕获设备302可以具有关联的显示设备。关联的显示设备的示例包括个人计算机显示器421和蜂窝电话上的显示器(216)。动作和其他交互信息数据的菜单可以显示在关联的显示设备上。当捕获设备302集成在蜂窝电话中或使用蜂窝电话的组件时，蜂窝电话键区能被用来从在蜂窝电话显示器上呈现的菜单中选择选项，并且用来控制所述系统和功能并与所述系统和功能交互。

在捕获设备302在捕获期间不与关键字服务器440通信的情况下，可能期望的是在捕获设备302中具有流行关键字、关联动作、标记数据等的本地缓存以便它可以本地并独立地开始动作。本地、独立的动作的示例是指示获得关键字、向用户呈现选择菜单以及接收用户对该菜单的响应。当捕获设备302接下来与关键字服务器440通信时，能确定与关键字、标记等有关的附加信息并按其行事。

在各种实施例中，将字或短语与动作关联的信息(例如，标记信息)可以存储在捕获设备302中、在连接到捕获设备302的计算机212系统中和/或在能够与所述系统通信的其他计算机系统中。类似的各种设备能参与执行响应于关键字捕获的动作。

与捕获设备302相结合，关键字服务器440可能能够自动识别从中文本捕获的文档并定位再现文档的电子版本。例如，捕获中的文本内容可以被当做文档签名。这样的签名通常需要10个或更少字来唯一识别文档——而在多数情况下3至8个字就足够了。当已知附加的上下文信息时，识别文档所需要的字数就可以进一步被减少。在多个文档都匹配签名的情况下，最可能的匹配(例如，包含由这个用户或其他用户所做的最多捕获的那些匹配)可以专门呈现给用户——例如作为列表或菜单中的第一项。当多个文档匹配签名时，先前的或后续的捕获能用来消除候选项的歧义并正确地识别用户所拥有的再现文档——并且任选地，正确地定位其数字对应物。

对于作为在该系统的一些实施例中提供的文档检索服务的订户的用户来说，关键字服务器440能传送与捕获文本有关、或与执行捕获所处的上下文(例如，段落、页面、杂志文章)的主题有关的内容。因此，根据捕获的上下文以及还根据关键字服务器440所知的用户习惯及偏好，对捕获的响应可以是动态的。

该系统允许高效传送与从再现出版物中捕获的文本或其他信息(商标、符号、记号、图像等)有关的电子内容。这就实现了一种基于诸如报纸和杂志之类的再现出版物对产品和服务做广告并且销售产品和服务的新方式。在传统的报纸中，新闻故事本身不含有广告。该系统通过使用与产品、服务、公司等关联的关键字而允许任何文章的文本潜在地包括广告。

该系统传送用于再现出版物的增强内容的方式之一是使用再现文本中的关键字。当预定的关键字由用户捕获时，捕获的关键字触发与该关键字关联的内容的传送。在一些实施例中，关键字由关键字服务器440辨别，使得从数据库中提取内容并被发送到与用户关联的设备(任选地诸如显示器或扬声器之类的输出设备)。该关联的设备可以是附近的显示器或打印机。该系统可以将每个再现的关键字(或关键字的组合)与产品或服务的广告关联。作为示例，如果用户从再现文档(例如汽车杂志)捕获字词“新车”，则可以触发该系统将本地福特经销店的广告发送到在便携捕获设备302的位置附近的显示器。

类似地，如果用户使用捕获设备302来从再现文档中捕获商标，则该系统可以给用户发送与商标持有人的产品线有关的信息。如果用户捕获了商标和产品名，则发送给用户的信息将被进一步缩窄以提供该产品特有的信息。例如，如果用户捕获了单词“Sanford”，则该系统可以将该单词辨别为Sanford办公用品公司的商标并给用户提供Sanford办公用品目录的电子副本(或该系统可以改为提供到具有该目录的在线副本的Sanford网页的链接)。作为另一示例，如果用户捕获了“Sandfor单珠”，则该系统可能被编程为将那些关键字与Sandford公司的单珠墨水笔相联系。如果这样，则该系统将给用户传送与Sandford单珠墨水笔系列有关的信息。该系统可以将该信息以电子邮件(具有与Sandford单珠墨水笔有关的信息或到具有关于该笔的信息的网页的热点链接)的形式传送给用户的电子邮件帐户，作为推送(push)多媒体消息传送到用户附近的显示器、作为小册子发送给附近打印机等。

这种将从再现出版物中捕获的关键字与给用户传送附加内容关联的方法对于高效地给目标提供广告和其他材料而言是非常有用的。通过识别由用户捕获的关键字，该系统可以给用户提供及时有用的信息。打印机厂商可以付费以当用户捕获了关键字“计算机打印机”时，将该厂商的打印机的广告发送给用户。而且，可以关于一种或多种内容(例如，在特定的杂志中；在与特定话题关联的文章中或在应用于话题的其他关键字附近)销售或出租对特定关键字的权限。该系统能将关键字“计算机打印机”独占地与单个打印机厂商关联，或能将这些关键字与许多打印机厂商关联(或在其话题与关键字“计算机”关联的文章的上下文中的字词关键字“打印机”)。在几个打印机厂商与关键字关联的情况下，该系统能传送来自每个厂商的广告、优惠券等(或每个厂商能在分开的上下文中获得关键字权限)。如果用户点击以利用任一提议或访问厂商的网站，则该系统的操作者可以向该厂商收取小额费用(通常称为微支付)。在一些实施例中，捕获设备302或关联的计算机212能存储优惠券以便稍后使用。

该系统还能使用与其中用户捕获文本的情形有关的上下文来对关键字和捕获进一步分类。可以基于与捕获有关的上下文的系统知识/识别来分开处理关键字。上下文的示例是关于以下的知识：用户的捕获历史和兴趣、在相同的文档中其他用户的捕获历史、用户的位置，从其中捕获文本的文档、捕获附近(例如在与捕获相同的段落中或相同的页面上)的其他文本或信息、执行捕获的时刻等。例如，该系统可以根据用户的位置或根据关键字出现在其中的周围文本而对相同的关键字做出不同的反应。服务提供者通过知道捕获设备302的位置而能在不同的市场上出售或出租相同的关键字。示例是对纽约的用户出售相同的关键字给广告商#1而对西雅图的用户出售相同的关键字给广告商#2。服务提供者能将关键字“锤”出售给在不同城市的本地五金店。

存在很多种“出租”或出售再现文档中的关键字的方式。该系统能基于捕获的时间、捕获的位置、从中进行捕获的文档并结合其他的关键字(例如，当出现在术语“钉”或“构造”附近时的“锤”)对关键字出租进行划分。作为出租一般产品描述的一个示例，关键字“当前书名”和“畅销书”可以被出售给书商。当用户从再现文档(例如报纸)捕获字词“当前书名”或“畅销书”时，最畅销书的列表能与到书商网页的链接一起被发送，使得用户可以购买它们。可选地，该链接可以是“通过”链接，其通过关键字服务器440路由(因此允许该系统计数并审核点进交易)，使得书商能与该系统的操作者共享点进销售的收益并且使得书商可以基于成果(performance)为广告付费(即，对于由该服务产生的每次点进支付小额费用，而不管销售结果如何)。类似地，印刷文档中的广告商能基于其广告中或附近的捕获进行付费。

组合地捕获关键字能导致不同内容的传送。例如，捕获在关键字“钉”附近(例如，时间上接近或插入字数目上接近)的关键字“锤”可能导致传送来自五金店的广告内容。而在关键字“M.C.”附近所捕获的关键字“锤(hammer)”将导致传送与艺人M.C.Hammer有关的内容。

当用户从再现文档扫描商标持有人的商标时，商标持有人可以使用该系统来传送与其产品和服务有关的广告和消息。

可以基于地理来划分关键字出租。例如，关键字“买新车”可以被全国性地出租给大型汽车厂商和/或可以被区域性地出租给本地汽车经销商。在“买新车”与来自本地汽车经销商的内容关联的情况下，在纽约市捕获“买新车”的行为可能导致传送来自纽约市汽车经销商的广告但在法国巴黎捕获的相同短语“买新车”将导致传送来自巴黎附近的汽车经销商的广告。

可以基于从其中捕获文本的文档划分关键字出租。例如，从枪械杂志捕获关键字“禁止攻击性武器”可能导致传送来自全国步枪协会的支持枪支(pro-gun)内容。从自由主义的杂志(liberal magazine)捕获相同关键字“禁止攻击性武器”可能导致传送来自布莱迪手枪暴力中心的反枪支内容。

明星名字可以用来帮助明星将新闻和消息传送给粉丝。例如，短语“麦当娜”可以与和表演家麦当娜有关的内容关联。当用户从再现文档捕获字词“麦当娜”时，该系统能发送该捕获位置附近地点的麦当娜演唱会信息、在Amazon.com上购买麦当娜音乐的链接、来自麦当娜营销公司的最新促销信息(promotional release)、来自她最新热门歌曲的简短MP3剪辑等等。

将广告与某个捕获的文本关联的成本可以根据捕获的时间而变化。术语(term)的出租可能在某些高峰时间更贵而在非高峰时间更便宜。例如，术语“钻石”的出租可能让钻石销售商在圣诞购物季高峰期间比在年度所得税到期的时间期间花费更多。作为另一示例，诸如“割草机”的术语在午夜和5:00AM之间的出租可能比在9:00AM和7:00PM之间的出租花费要少，这是因为(从再现文档捕获文本的用户中的)后半夜的观众估计可能更少。

特定广告或消息可以与很多关键字关联。例如，Harley Davidson摩托车的广告可以与关键字“Harley”、“Harley Davidson”、“新摩托车”，“经典摩托车”等关联。

广告或消息可以与某些关键字之间的关系(诸如它们的相对位置)关联。例如，如果用户从再现文档中捕获字词“摩托车”，并且如果关键字“买”在关键字“摩托车”六个字以内，则与摩托车有关的广告或消息将被传送给用户。当已知文档上下文时，即便在仅捕获字词“摩托车”时该系统也知道关键字“买”在所捕获字词“摩托车”的某个距离内的事实。因此与关键字“买摩托车”关联的动作可以通过仅捕获字词“摩托车”并应用有关该文档的上下文以进一步解释所捕获的字词而触发。

附加功能性

博客和引用通告(track-back)

在所述装置的一些实施例中，博主可以人工地在任何内容中创建链接或引用通告——即便目标内容或主站点不提供对引用通告的明确支持。实际上，在此描述的技术允许博主留下引用通告并在任何文档或任何呈现的材料中创建链接——无论该材料是来自网站、还是静态文档、书或杂志的文本、私人文档亦或个人电子邮件等。还可以给尚不能以数字形式得到的内容(例如尚未在互联网上公布)——甚至给尚不存在的内容创建链接和注释。为了完成这个，注释作者指定无论将来何时出现目标和/或锚时将使用的目标材料和/或锚材料。作为示例，注释作者可以指定从书的印刷版本得到的目标和锚材料——当诸如在动态显示器上给该装置的用户呈现该书的内容的时候将调用该注释。

在所述装置的一些实施例中，目标和锚可以任选地包括通配符(wild-card)和/或模糊匹配元素。这样，可以创建与“IBM是*公司”关联的注释——其中“*”字符在这里表示字或字符的任意组合。

用于实现模糊匹配的公知方式是使用正则表达式。举上面的例子，我们可以将“IBM是*公司”的适当正则表达式构建为：“(IBM是)([[:^alnum:]].+？[[:^alnum:]])(公司)”。这个正则表达式定位精确的字符串“IBM是”——接着是一个非字母数字字符(例如，空白符或标点符号)——接着是任意字符串——接着是一个非字母数字字符——接着是精确的字符串“公司”。

工具提示和工具提示菜单

一个非常有用的用户UI模型是使用“工具提示”类型的弹出注释，并且在一些情况下所述装置扩展该模型以在工具提示弹出内包括菜单。在一个实施例中，用于呈现该UI交互的逻辑是： If(用户鼠标在目标上方) { 显示具有菜单的工具提示； While(用户鼠标在目标上方或者用户鼠标在关联的工具提示上方) { If(工具提示菜单项被用户选择) { 执行选择的菜单动作； break； } } 解除具有菜单的工具提示 }

通过注释进行链接

所述注释技术的一种使用是作为一种用于转发参考资料的手段。这样，不是复制感兴趣文章的内容并将它通过电子邮件转发给朋友(在很多情况下侵犯版权)并且不是转发到所需文章的超链接(该链接可能改变，使得超链接不可用)，用户能够替代地捕获含有感兴趣的特定内容的小块区域并转发该表示-关联(presentation-association)。由于转发的链接是到内容的(和/或它的锚)，因此接收方能查看预期内容(intended content)——加上任何关联的注释——而无论预期内容和/或锚是如何存储的或存储在什么地方。

在一些实施例中，转发的注释参考资料的接收方可以人工地对感兴趣的主题/目标内容(以及任选的它的锚)进行搜索并因此查看预期内容的副本而无需接收侵权副本。在可选的实施例中，向基于网络的服务器登记该注释参考资料，该服务器记录和/或搜索注释内容的实例。这样，转发的注释参考资料的接收方就能查询该网络服务器以发现和查看预期内容。

文档之间的连接

所述装置还能用来建立文档之间和文档区域之间的连接。在一些实施例中，与一个文档中材料的位置或范围关联的注释包括指向其他文档中内容的位置或范围(或指向同一篇文档的子区域)的一个或多个指针。这样，该装置可以被用来建立相关元素横跨多个“并行”文档的丰富链接。

表示文档到文档链接的注释的特殊情况是将所述技术应用到单个文档的不同版本。在这种情况下，链接注释指示来自第一文档的内容——也许以变化的形式——出现在相同文档的第二版本中的什么位置。

表示文档到文档链接的注释的另一种特殊情况是针对翻译。在一个示例中，带有注释的英文的第一文档链接到西班牙语的第二文档。要注意的是，第二西班牙语文档还有示出相同或相似材料出现在英文文档中的什么位置的注释链接。

由于所述装置的一些实施例允许用户指定目标材料和/或关联的锚可以是近似的(即，该装置支持“模糊”匹配)，所以到任意注释的连接，包括在“并行”文档之间的上述连接，对注释材料和关联锚的适度变化是相当健壮(robust)的。

自动文档连接

很多文档已经携带了隐含的链接或注释。例如，很多文档含有引用相同文档中的其他元素的元素。并且很多文档含有通常以引文、特定章回、节段或页码参考等为形式的对其他文档中的内容的参考。引证是一个文档通常能链接到或参考另一文档的另一示例。

在文档之间的预先存在的链接可以被所述装置自动发现并转换成活动(active)注释。这样转换后，用户例如能用其鼠标点击一个文档上的引证并使得所引证的文档在引证的位置打开并显示，其中特别突出显示引证的主题材料。

所述装置的一些版本还支持反向注释(reverse annotation)。这样，在上述示例中的引证主题材料也能被转换成活动注释，该注释链接回原始引证并将原始引证作为其主题。

类似地，许多博客内容是关于出现在未在博客本身中出现的文档中的其他文本材料。所述装置可以自动根据博客中的引用对另一文档中的主题材料创建注释，并且在引用的文档中的注释能链接回到博客贴(blog post)。要注意的是，注释的该最后形式是引用通告形式——但它可以通过所述装置使用主题材料和/或锚材料来完成，即便对于本来不支持引用通告技术的站点或内容也可以完成。

在文档中的目录、索引和参考书目是其中可以由所述装置创建自动注释的其他示例。在文档的目录、索引或参考书目中的条目可以自动地或人工地与指向所引用的内容的注释相关联，同时所引用的内容可以与指向目录、索引或参考书目条目的注释相关联。

正则表达式和专家系统技术是所述装置能赖以自动辨别并创建在文档的目录、索引或参考书目与这些元素中所引用的材料之间的双向注释的两种手段。

在一些实施例中，所述装置将与用户的操作系统协作以确定在用户显示器上呈现的文本，并任选地确定用户突出显示或以其他方式选择呈现文本的哪个部分的指示以及该文本在显示器上的位置。可选地，负责生成呈现文本并识别由用户选择的部分的应用提供API，通过API可以确定这些细节。作为进一步的备选方案并且在源应用不暴露(expose)合适API的一些情况下，可以查询“可访问性API”。若干现代操作系统借助于可访问性API提供与在用户显示器上呈现的内容有关的信息以便由具有视觉障碍的人使用。这样的API能传送与显示的文本和其他内容有关的信息，并且该信息进而可以作为查询所述注释服务器以获得任何相关注释的源。

在一些实施例中，不能得到或不要求操作系统或显示生成应用的协作。在这些情况下，一个选项是所述装置从主装置的显示缓冲器中捕获显示的内容(例如，与用户显示器上所示的各个像素有关的特定信息)、然后使用OCR或其他显示分析/识别技术来建立用户在查看的内容。在这种情况下，通过分析与显示内容一起出现的背景颜色、下划线等等，来发现由用户选择的内容。

可选地，所述注释装置本身可以独立于显示被查看内容的应用而提供选择和突出显示能力。例如，当该装置的用户希望选择目标内容进行注释时，他们可以输入模式(例如，通过特殊的按键组合或鼠标/鼠标按钮动作)，该模式接着允许他们指示(例如通过突出显示)感兴趣的目标内容。在这些实施例中，可以通过对感兴趣的特定文本区或矩形区域进行突出显示来示出感兴趣的目标，其中所述装置使用在很多计算机视频装置中可用的广泛可用的“阿尔法层(alpha-layer)”技术而在显示缓冲器中创建半透明覆盖层。

一旦发现所查看的内容，则可以查询注释服务器以定位与所显示的内容有关的任何注释。

图8描绘了要么直接从内容源要么通过读取显示缓冲器来获得显示内容数据的过程。在805，该装置确定用户的显示区域已经改变。在810，操作系统、具有焦点(focus)的软件应用、无能力API(disability API)和其他源被查询以确定在显示器上出现了什么新数据。如果新的数据信息不可用，则在815读取显示缓冲器的改变区域并在820访问其图像。在825，查询注释服务器以确定是否存在与显示的新内容关联的任何注释。如果没有发现注释，则处理停止；否则在835显示注释并接受用户的输入和/或交互。

注释补偿模型

为了激励大众参与为文档提供丰富的注释，在一些实施例中，与文档使用关联的各种收益可以被部分地分配给注释的贡献者。因此广告收益、重新印刷或版权有关的收益、点进以及其他流量有关的收益等可以在不同贡献者之间进行分配和共享。在一些实施例中，被查看最多或被评论最多的注释的作者或源接收这些收益的较大部分。在一些实施例中，注释源的声誉也是计算共享收益的因素。

不同的数字和纸质体验

在一些实施例中有用的是把所述装置的注释看作是类似于在本文其他地方所描述的静态和动态标记过程以及层。因而在数字文档呈现中的所描述的注释和在这里提供的有关描述中的与再现文档关联的标记/注释之间存在强烈的相似性。在所述装置的一些实施例中，在数字再现文档时关联和呈现的注释与在用户从该文档的印刷或纸质形式捕获并与其交互时示出的那些注释相同或类似。在这些实施例中，该装置区分纸质/印刷的用户体验与数字再现的用户体验通常是有用的。例如，在数字再现的文档中，当用户突出显示或选择对于其存在关联的购买机会的文本的一部分时，可能向用户提供立即访问Amazon.con并进行购买的机会；然而，如果使用便携式手持光学扫描仪从相同文档的纸质版本中捕获相同的文本部分，则当用户返回到他们的桌面并将他们的扫描仪与其生活库同步时，在扫描仪上的菜单可以改为提醒用户这个购买机会。这样，在一些实施例中，如果所述装置区分在以数字再现的上下文中所呈现的注释和动作与在印刷或纸质上下文中所呈现的那些，则是有用的。

双向注释

在一些实施例中，如果给用户显示注释内容的相同应用还用来接收并添加来自用户的新注释内容，则是有用的。如果将所述装置认为是“入口”，则在一些实施例中所述装置可以用作为所显示内容显示注释的入口查看器，并且还用作用于将注释添加到所显示内容的可编辑“输入入口”。在一些实施例中，所述装置作为一个或多个窗口出现在用户显示器上，其中使得与在这些窗口中显示的任何内容关联的注释可用来查看。在一些实施例中，这些相同的窗口可以作为输入部件。在这些情况下窗口可以具有相关的“编辑”或“注释”按钮，其在被选择时允许用户将他或她的注释添加到所显示的内容。

在一些实施例中用于输入内容的可选手段是选择所显示内容中的一点(例如，通过用鼠标点击该点)、或选择在所显示内容中的文本区域(例如，通过用鼠标点击和拖动)、或选择含有所显示内容的各种文本和/或图形元素的矩形区域(例如，通过用鼠标点击并拖动以设定“橡皮圈”矩形)——然后输入特殊按键或用鼠标右击并且选择“添加注释”。

当添加注释时，所述装置的一些实施例还向用户指示自动选择的锚文本，所述锚文本在它的目标出现在后续再现中时可以被用来检索用户的注释。任选地，用户能人工设定锚文本。

与手持扫描仪的交互

一种为数字呈现的材料创建注释的手段是用户借助于能与数字显示器交互的手持扫描仪指示目标位置或目标材料。这样的扫描仪可能从可查看的显示内容中直接读取呈现的内容，或替代地，可能首先确定其在显示器上的位置并接着通过向所述装置查询在该位置显示的内容来建立目标内容(提及多种可能手段中的两种)。

类似地，在一些实施例中可以再次使用诸如上述提及的那些技术来利用手持扫描仪与在动态显示器上显示的注释交互并对其做出响应。

将手持扫描仪用于创建动态显示的内容或与其交互的一个优点在于扫描仪作为与用户的计算机分开的硬件设备本身能创建一个安全的环境，其使得与计算机和网络有关的交易便捷而且安全。例如，由于所述扫描仪可以合并安全、加密和认证元件等，涉及注释的交互可以避免单个计算机和网络环境的许多传统危险(网络钓鱼(phishing)、欺骗(spoofing)、中间人攻击等)。

在一些情况下，手持扫描仪通过单独与基于网络的服务器通信来证实和认证任何提议的交易而创建安全环境。例如在手持扫描仪是蜂窝电话或与蜂窝电话通信的扫描仪的情况下，可以通过与用户计算机使用的互联网连接分开的蜂窝网络来进行分开的通信。在另一实施例中，手持扫描仪使用与用户计算机相同的物理网络连接但使用分开的安全信道(例如，加密的https会话)进行通信。

注释隐私性和安全性

无论是使用手持扫描仪来与所显示的注释交互，还是在用户计算机上执行的软件负责这些交互，进行表示层交互的所述装置相比于与动态显示内容交互的传统方法具有安全性优势。在很多传统的环境中——例如当用户通过web浏览器查看web内容并与web内容交互时——呈现该内容和交互机会的相同应用(这里，是web浏览器)也负责完成或实现交互(无论该交互是创建注释还是对现有注释的呈现做出响应)。相比而言，在所述装置中这些组件可能被分开——这样，要求试图干扰或干预交互的任何人潜入(和协调)该装置的这两个组件。

现有的注释交互以选择菜单的形式呈现在用户的动态显示器中。然而，显示原始内容的装置是传统的web浏览器(它正好也可以是电子邮件客户端、字处理器等)，而注释交互曾经由在用户计算机上执行的完全不同的装置或应用生成并正在由该装置或应用生成。而且，与所呈现的注释的任何交互由该不同的应用捕获并且由该不同的应用传送或执行——因此在web浏览器中的欺骗性活动或内容不能访问由该不同的应用所控制的用户的私有数据和购买/财务信息。

诸如web浏览器的应用在用户的动态显示器上显示内容。所述装置捕获正显示给用户的信息。从捕获的信息导出一个或多个签名。所导出的签名被发送给注释服务器以确定对于显示的内容是否存在任何关联的注释。与短语Canon PowerShot A520数码相机”关联的注释被返回到该应用并作为与原始内容关联的菜单显示在用户的显示器上。

用户与所显示注释的后续交互可以如下所述。用户已经选择了所显示的注释菜单项中的一个：“在Amazon购买”。用户的选项选择由应用经由安全通信信道传送给注释实现服务器。该实现服务器创建到amazon.com站点的安全连接，提供用户的私有装运(shipping)和财务数据，并且向用户呈现Amazon购物车视图。要注意的是，呈现被注释的内容的原始web浏览器在后续的购买活动中不是必需的。

记录显示的内容

在所述装置的一些实施例中，保存显示给用户的各种内容的记录。通常，这个记录被存储为所有呈现的内容的按年代排序的日志。当可用时，呈现该信息的源应用也被记录，正如用于源材料本身的url或文档定位器那样。附加的上下文信息(诸如时刻、用户计算机的物理位置等)也被捕获。由该过程所创建的日志使得用户可以搜索过去显示或查看的材料以定位所感兴趣的项目。

在一些实施例中，所述装置仅捕获并记录来自在用户显示器上具有焦点的应用的材料。在一些实施例中，只有保持静止达固定时间量或以低于固定速率滚动的材料(这些时间和速率指示用户有时间阅读或理解所显示的材料)被捕获到日志。

逻辑元件被用来构造所查看材料的有意义历史，即使用户可能以任意顺序滚动到文档中的任意位置也是如此。当已知该文档时(例如，当文档元数据可用时)，则容易地存储该文档的组成/内容并且然后附加地记录用户经过该文档的路径，使得按年代排序的记录指示查看材料的顺序和时间。然而，在文档元数据不可用的情况下，随着用户在文档中上下滚动或上下翻页，通过分析呈现材料的重叠部分来在可能的情况下在逻辑上构造文档内容的序列顺序(serial order)。

即便当文档的完整序列组成不能根据显示给用户的材料恢复时(如当用户从文档中的一处迅速跳到另一处时)，作为用户所关注的主题的这些元素——例如在显示器上能够看见足够时间以便用户考虑它们的那些视图——与指示每个视图何时被呈现以及呈现多长时间的时间数据一起被捕获到日志中。

这样，所述装置能记录用户打开/查看的每个文档、这个活动发生的时间、查看哪个材料花费了多少时间等。具有该历史内容可以被搜索的附加特征，所述装置成为一种很有价值的对用户有价值的内容的存储辅助设备和储存库。此外，所述装置为用户查看的大多数或全部内容提供一层注释交互和基于补充注释的信息。

并且由于所提出的装置能任选地运行而无需来自向用户显示内容的应用的协作，无需来自用户操作系统的协作，无需来自网站主机、网站设计者、文档作者、应用开发人员等的协作，因此它创建了包括对任何显示内容的活动注释的丰富均匀的计算体验。

通知

所述装置的一些实施例包括当后续的注释被添加到文档时通知文档作者、注释作者、或其他利益方(例如，出版者、编辑或博主等)的特征。

一些实施例包括当特定个体或组成员将注释添加到特定文档时提供通知的类似特征。

例如，这些特征允许当特定的著名博主将注释添加到任意文档时通知用户，每当注释被添加到其所创作的著作时通知作者，当将任意注释添加到期刊出版者的最新期的在线出版物时通知该期刊出版者等。

这样的通知可以通过电子邮件，作为注释的内容和注释的RSS种子等进行传送。

此外，所述装置支持当注释本身是附加评论或注释的主题时的通知。

组、过滤和许可

所述装置允许若干组个体共享注释并防止该组外的个体查看这些注释。各个注释任选地可以包括描述允许谁查看或接收它们的许可。这样即便当来自许多用户的许多注释被存储在单个注释服务器上时，由个体和各组所创建并可查看的私有注释也是可能的。可选地，用户可以创建并公布可由任何人查看的“公共”注释。

由于注释可能潜在地来自任何源，因此在所述装置中添加注释的能力可能限于某些个体。例如，只有已经向该装置登记或已经支付了订阅费用或具有该装置识别的安全硬件设备(例如，包含诸如用在移动电话中的SIM卡的设备)的个体才可以被允许进行注释。

还由于注释可能潜在地来自任何源，因此所述装置的一些实施例包括允许用户选择他们想接收哪些注释的过滤技术。过滤选项包括将接收的注释限于由特定个体或个体组创作的那些注释、含有(或不含有)商业机会(包括广告)的那些注释，属于特定类别的那些注释(例如，包括个体编辑评论和观点，但排除付费的或公司的评注)等。在一些实施例中，该装置提供用于设定这些过滤选项中的一些的应用偏爱窗格(preference pane)。

加密注释和锚

所述装置的一些实施例包括用于内容的完全私密查看以及注释的完全私密共享的部件。用户A为所查看的内容(他们在公共网站上注意到的一篇文章)创建注释。用户A的注释和其关联的锚在用户A的本地机器上用仅用户A和用户B所知的加密密钥进行加密。加密的注释和加密的锚被传输到中央注释服务器。用户B接收含有由用户A注释的内容的文章的电子邮件。用户B所查看的内容也用与用户A使用的相同私有密钥进行加密，并且结果被发送到中央注释服务器。由于注释服务器并没有该密钥，因此它不能确定用户B正在阅读什么。然而，它确定来自用户B的加密结果匹配由用户A注释的加密内容。因此，注释服务器将用户A的(加密的)注释传送给用户B，其中用户B的应用使用共享的密钥对其解密并将解密的注释呈现给用户B。

在一些实施例中，使用单个校验和(例如，MD5)来指示由用户A注释并由用户B阅读的内容而无需揭露内容的性质。当注释服务器确定来自用户A和用户B的校验和一致时，它传送适当的注释——从不知道已被注释并随后被阅读的实际内容。

动态注释

在所述装置的一些实施例中，自动且动态地创建注释，而不是由个体人工地创建注释。在一些情况下，用于完成这个的手段是经由正则表达式，所述正则表达式能被用来识别适当注释可以与之关联的各种类别的内容。特别适合于这个过程的内容对象是那些具有规则格式或组织(并因此可由正则表达式识别)的内容对象以及那些属于有限集(并因此能被输入到列表或数据库中)的内容对象。

在正则表达式组中是诸如电话号码、电子邮件地址、URL、物理地址、音乐会(concert)和其他事件、固有名称(名、中名和姓——通常可由标题和大写识别)等的内容元素。在列表/数据库组中是公司名称、个人名字(名、中名和姓)、地理位置名称、书名、电影名、产品名和部件号/型号，罕见或深奥的字等。

对于在上述正则表达式和列表/数据库组中的每类对象，所述装置可以提供一个或多个标准注释，所述标准注释在显示关联的对象和/或它们的关联的锚时可以任选地呈现。例如，任何书名都能自动触发包括到该书的最近述评以及到从电子商业或传统书店购买该书的机会的链接的注释。类似地，电话号码的任何呈现可以自动生成注释，该注释提议将该电话号码添加到用户的联系列表中或自动从基于网络的电话装置呼叫该号码并将该呼叫连接到离用户最近的任何电话。并且每个罕见或深奥的字都能生成提议提供字典定义、发音或显示该文字的可选上下文的注释。

在一些情况下，所述装置能自动为显示的内容找出相关的信息。例如，对公司名的任何显示的引用可以任选地被显示为超链接，其中所述装置已搜索与所提及的公司关联的网站并且自动生成具有指向该URL的链接的注释。

更新通知

在一些实施例中，所述装置使用来自操作系统或应用的显示更新通知来确定用户显示器的哪些区域已经用新信息进行了更新。以此方式，该装置只需要分析改变的区域来确定新内容是否可用以及是否潜在地需要对该注释服务器进行新注释查询。

可选地，整个显示器——或由用户选择的用于注释的那个显示区域——可以由所述装置周期性地检查。这样检查的一种手段是通过将显示缓冲器的各部分与其自己较早的副本(通常是在上一次查询注释服务器时缓存的副本)相比较。

为了避免将显示缓冲器的每个像素与其自己的较早的缓存版本相比较，该装置的一些实施例采用稀疏测试(sparse testing)方法：仅测试选择的像素以查看它们是否已经改变。在一些实施例中，这些测试像素因其很高的改变可能性而被选择。例如，在前景字符和所显示背景之间的边界上的像素很可能在显示新文本时改变。

在一些实施例中，如果知道文档元数据，则所述装置预取(pre-fetch)整个文档的注释。

注释的时间属性

所述装置的一些实施例使用由注释服务器接收的查询的时间关系和源地址(例如，IP地址)来推断在否则独立的注释之间的关系。例如，当注释服务器从单个IP地址或时间上接近地接收查询序列时，很可能这些查询来自于单个文档。记录这个隐含的关系于是允许注释服务器甚至在没有文档元数据的情况下(即，即使这些查询不包括该信息时)也传送注释以本地缓存在用户的机器上。

人工建立注释

使用本机(native)突出显示模式在文档中突出显示。

在突出显示上右击，菜单选项包括问题/选项：注释。

认为注释的目标是突出显示区域。

可以任选地简单点击任何点并添加注释——这里假定范围为零。

如果选择了“注释”菜单项，则任选地例如还以另一突出显示颜色指示在该注释之前和/或之后锚文本的范围。接着呈现对话框以接受文本或其他注释。其他注释选择任选地在同一个对话框内，例如：——创建到其他内容的链接(例如，添加一个或多个超链接)——记录语音注释，或创建指向音频内容的链接——创建到视频内容的链接——创建到图像内容(一个或多个图片)的链接或注释——创建到商业机会的链接(例如，在能购买与该注释关联的项的Amazon.com的web地址)。

结论

根据上述内容，要明白，为了说明的目的本文已经描述了本发明的特定实施例，但在不背离本发明的精神和范围的情况下可以进行各种修改。例如，该装置的捕获、存储和显示能力可以彼此独立地使用。因此，本发明不受除所附权利要求书之外的限制。

Claims

1.一种用于从用户接收注释以放置在该用户可在查看设备上查看的文本上的系统，该系统包括：

捕获组件，用于捕获该用户可在所述查看设备上查看的图像；

光学字符识别组件，用于处理在所述查看设备上查看的所述图像并识别包含在所述图像中的任何文本；以及

注释捕获组件，用于从用户接收注释和该注释相对于所述图像的位置，该注释捕获组件确定该注释相对于所识别文本的对应位置并且以允许该注释与所识别文本一起被检索和显示的方式存储该注释和该注释相对于所识别文本的对应位置。

2.根据权利要求1的系统，其中该注释的位置由文本段表征。

3.根据权利要求2的系统，其中该文本段包括由用户定义的部分和由查看设备定义的部分。

4.根据权利要求2的系统，其中该文本段由用户定义。

5.根据权利要求1的系统，其中该图像是可在查看设备上查看的内容的适当子集。

6.根据权利要求1的系统，其中从该查看设备的屏幕缓冲器捕获该图像。

7.一种用于在由用户在查看设备上查看的内容上显示注释的系统，该系统包括：

捕获组件，用于捕获由该用户在所述查看设备上查看的内容的图像；

光学字符识别组件，用于处理在所述查看设备上查看的内容的图像并识别包含在所述内容中的任何文本；以及

注释显示组件，用于在内容上显示注释，该注释显示组件：

将所识别文本的至少一部分传输到注释服务；和

从该注释服务接收注释和与所识别文本的传输的部分关联的该注释的位置，该注释显示组件确定所接收的注释相对于所述内容的图像的对应位置并在该内容上显示所接收的注释。

8.根据权利要求7的系统，其中该注释的位置由文本段表征。

9.根据权利要求7的系统，其中该图像是在所述查看设备上查看的内容的适当子集。

10.根据权利要求7的系统，其中从该查看设备的屏幕缓冲器捕获该图像。

11.根据权利要求7的系统，其中该注释显示组件通过在该内容的图像上叠加所述注释来显示所接收的注释。

12.根据权利要求11的系统，其中所接收的注释被显示在重叠在该内容的图像上的透明层上。

13.一种提供一个或多个注释以与内容关联显示的方法，该方法包括：

接收包含在内容中的文本序列的指示；

将所接收的文本序列的指示与多个存储的文本序列比较，所述多个存储的文本序列的每个都具有与存储的文本序列相关联的一个或多个注释；

基于所接收的文本序列与所述多个存储的文本序列的比较来识别与所接收的文本序列匹配的所述多个存储的文本序列中的一个文本序列；和

提供与所识别的存储的文本序列关联的一个或多个注释使得所提供的一个或多个注释可以与所接收的所述内容中的文本序列关联地显示。

14.根据权利要求13的方法，其中该内容是文档。

15.根据权利要求13的方法，其中该内容是网页。

16.根据权利要求13的方法，其中所识别的存储的文本序列和所接收的文本序列是精确匹配。

17.根据权利要求13的方法，其中所识别的存储的文本序列和所接收的文本序列是接近匹配。

18.一种在注释数据存储装置中存储用户注释以供后续检索和显示的方法，该方法包括：

从用户接收在第一内容中用于放置注释的位置的指示；

从该用户接收该注释；

将所接收的注释和所接收的用于放置该注释的所指示位置传输给注释数据存储装置；和

将该注释与用于放置该注释的所指示位置关联地存储到所述注释数据存储装置中，其中所指示位置由所述第一内容中的文本段表示并且该文本段的表示被用来确定该注释在与所述第一内容不同的第二内容中的放置。

19.根据权利要求18的方法，其中该注释数据存储装置远离用户。

20.一种在计算系统中用于显示与在显示设备上显示的文本间接关联的视觉信息的方法，包括：

获得表示在所述显示设备上显示的图像的数据；

自动辨别由所获得的数据所表示的所述图像中出现的文本；

识别与自动辨别的文本的一部分关联的视觉信息；以及

与该部分文本所出现的所显示图像的一部分有关地显示所识别的视觉信息。

21.根据权利要求20的方法，其中该识别使用在该部分文本和关联的视觉信息之间的关联。

22.根据权利要求20的方法，还包括识别在由所获得的数据表示的图像中出现其文本的文档中的位置，并且其中该识别使用在(a)所识别的文档和位置与(b)关联的视觉信息之间的关联。

23.根据权利要求22的方法，其中计算机系统使得所述显示设备显示所述图像，并且其中通过查询在所述计算机系统上执行的程序的编程接口来识别所述文档和位置。

24.根据权利要求22的方法，其中通过将自动辨别的文本的该部分和由包括所识别的文档的文档集所包含的文本进行比较来识别该文档和位置。

25.根据权利要求20的方法，其中所显示的视觉信息指示用户生成的注释。

26.根据权利要求20的方法，其中所显示的视觉信息指示能由查看所显示的视觉信息的用户执行的自动指定的动作。

27.根据权利要求26的方法，其中所指示的动作是购买由自动辨别的文本的该部分所识别的产品。

28.根据权利要求26的方法，还包括：

接收由用户使用手持文本捕获设备所捕获的文本，该捕获的文本匹配自动辨别的文本的该部分；和

响应于接收该捕获的文本，向捕获所接收的文本的用户指示自动指定的动作。

29.根据权利要求20的方法，其中所显示的视觉信息是与自动辨别的文本的该部分关联的广告消息。

30.一种用于呈现用于显示的文本内容的与应用无关的注释的计算机系统，包括：

动态显示图像的显示设备；和

执行程序的处理器，所述程序包括：

文本显示程序，其使得由所述显示设备动态显示的图像包括区别文本体，和

注释程序，所述注释程序为任何文本显示程序：

获得由该显示设备动态显示的图像的副本；

在所获得的图像副本中辨别该区别文本体；

识别一个或多个注释，所识别的注释的每个都与该区别文本体的至少一部分关联；和

对于每个识别的注释，使得由所述显示设备动态显示的图像包括在与该注释关联的该区别文本体的那部分附近的该注释的视觉指示。

31.根据权利要求30的计算机系统，其中该注释程序还：

接收对该区别文本体的一部分的选择；

接收用于与该区别文本体的所选择部分关联的新注释的内容；

创建与该区别文本体的所选择部分关联的具有所接收内容的新注释；和

使得由该显示设备动态显示的图像包括在该区别文本体的所选择部分附近的所创建的注释的视觉指示。

32.根据权利要求30的计算机系统，其中对该区别文本体的一部分的选择和该新注释内容是从区别用户接收的，

并且其中该注释程序将该新注释呈现给除该区别用户之外的至少一个用户。

33.一种在具有显示设备的计算系统中用于描述用户的人类阅读活动的方法，包括：

在该计算系统由该用户操作的时间段期间的多个时间点中的每个时间点：

获得表示在该显示设备上显示的图像的数据；

自动辨别在由所获得的数据所表示的图像中出现的文本；

对于该时间点将识别自动辨别的文本的信息存储在日志中；和

使用该日志的内容来显示该多个时间点的至少一个子范围的视觉描绘，该视觉描绘以时间顺序组织并含有与由对于每个时间点在该日志中存储的信息所识别的文本有关的一些信息。

34.根据权利要求33的方法，还包括：

接收用户输入，所述用户输入从视觉描绘中选择该多个时间点中的一个时间点；和

显示包括由对于该时间点在日志中存储的信息所识别的自动辨别的文本的至少一部分在内的文本。

35.根据权利要求33的方法，还包括：

在手持文本捕获设备由用户操作的时间段期间的多个附加时间点中的每个时间点：

接收由用户从纸质文档捕获的文本；和

对于该时间点将识别所接收的文本的信息存储在日志中；

并且其中所显示的视觉描绘还描绘了该多个附加时间点的至少一个子范围。

36.根据权利要求33的方法，其中存储在日志中的识别自动辨别的文本的信息是自动辨别的文本的副本。

37.根据权利要求33的方法，还包括识别在自动辨别的文本所出现的电子文档集所包含的电子文档中的位置，

并且其中存储在日志中的识别自动辨别的文本的信息是标明所识别的电子文档中的识别位置的信息。

38.根据权利要求33的方法，其中存储在日志中的信息还指示了自动辨别的文本出现在显示设备上显示的图像中的时间长度，并且其中在视觉描绘中描绘该时间量。