CN104106078B

CN104106078B - 光学字符辨识(ocr)高速缓冲存储器更新

Info

Publication number: CN104106078B
Application number: CN201380008369.0A
Authority: CN
Inventors: 百永基; 邱衡伊; 金杜勋
Original assignee: Qualcomm Inc
Current assignee: Qualcomm Inc
Priority date: 2012-01-09
Filing date: 2013-01-08
Publication date: 2017-07-14
Anticipated expiration: 2033-01-08
Also published as: KR20140111341A; WO2013106346A1; EP2803013A1; US9129177B2; CN104106078A; US20130177209A1; JP2015504220A; JP6105627B2

Abstract

本文中所描述的技术提供一种用于自动地及智能地创建及更新OCR高速缓冲存储器同时使用计算装置执行OCR的方法。可将使用耦合到所述计算装置的相机俘获的图像与存储于所述OCR高速缓冲存储器中的现有图像进行匹配。如果发现匹配，那么可用利用新图像的新或较佳信息来更新所述OCR高速缓冲存储器。所述匹配的现有图像可保留在所述OCR高速缓冲存储器中，或新俘获的图像可替换所述OCR高速缓冲存储器中的所述匹配的现有图像。在一个实施例中，描述了用以在将所述图像存储于所述OCR高速缓冲存储器中之前移除或减少眩光的技术。在一些实施例中，在不执行OCR的情况下移除或减少眩光。

Description

光学字符辨识(OCR)高速缓冲存储器更新

背景技术

光学字符辨识(OCR)为手写的、用打字机打出的或印刷的文本、图形或符号到机器编码的文本的机械或电子转译。OCR为计算机视觉及扩增实境应用中的正在发展的研究领域。计算机视觉允许装置感知其附近的环境。计算机视觉通过允许来自终端用户与真实世界的互动的感测输入扩展到虚拟世界中而实现扩增实境中的应用。在真实生活实例应用中，具备计算机视觉能力的OCR可帮助视觉残障人士感知例如智能电话等个人移动装置的相机的视野中的书面文本及符号。

发明内容

本文中所描述的技术提供一种用于在扩增实境的应用中自动地及智能地创建及/或更新OCR高速缓冲存储器同时使用移动装置执行OCR的方法。使用耦合到所述移动装置的相机俘获的图像与存储于所述OCR高速缓冲存储器中的现有图像进行匹配。如果发现匹配，那么用利用新图像的新及/或较佳信息来更新所述OCR高速缓冲存储器，而不是将所述新图像作为单独条目存储于所述OCR高速缓冲存储器中。或者，所述新图像可替换所述OCR高速缓冲存储器中的所述现有图像。另外，描述了用以使用多个图像从图像移除眩光的技术。举例来说，来自图像的区的眩光可通过使用来自相同场景的不具有与关键图像相同的区的眩光的另一图像的信息来移除。在一个实施例中，可甚至在无OCR的情况下从图像减少或移除眩光。在一个实施例中，可组合地执行眩光减少及OCR高速缓存。

智能及自动OCR高速缓冲存储器更新对用户来说是有利的，因为其允许用户存取与相同场景相关联的所有信息及/或可允许用户存取与多个场景相关联的信息。此外，在随着时间的过去与相同场景的多个图像之间的图像信息重叠的情况下，本文中所描述的技术可存储与场景相关联的最佳或新获得的信息，因此随着时间的过去进一步细化结果。与本文中所描述的技术相关联的其它优势可包含用于存储OCR结果的减少的存储器空间及对OCR高速缓冲存储器的减少的命中数目，从而导致整个系统中的较快性能。

通过实例，如果用户正坐在餐馆里且使用用于使用快照模式或预览模式获取图像的传统手段对晚餐菜单执行OCR，那么用户可需要获取多个图像且单独地处理与所述图像相关联的信息。如果用户离晚餐菜单太远地抓住获取图像的相机，那么图像可不具有足够的分辨率来适当地对图像执行OCR。另一方面，如果用户使获取图像的相机太靠近，那么图像可不包含所关注的整个区域。然而，使用具有自动及智能OCR高速缓冲存储器更新的OCR高速缓存模式，本文中所描述的技术允许用户产生包含来自菜单的用户所关注的区域的单个图像，其中以良好的分辨率进行恰当聚焦。在一个情况中，用户可选择从菜单中选择文本且将其转译为另一语言或使用在线搜索引擎执行搜索。

在上文实例中，来自场景的图像中的一者可具有与图像的区相关联的眩光。所描述的技术可通过从第一图像中识别具有眩光的第一区，从第二图像中识别不具有眩光的第二区来促进移除眩光，其中第一区及第二区表示来自相同场景的相同区。使用第一图像及来自第二图像的不具有眩光的第二区来合成最终图像以移除眩光。

用于执行本发明的实施例的示范性方法可包含接收多个图像，辨识所述多个图像中的每一者中的数据，其中辨识所述多个图像中的每一者中的数据包括对所述多个图像执行光学字符辨识，至少部分基于所述辨识的数据确定所述多个图像中的至少两个图像包括来自第一场景的信息，及使用所述至少两个图像中的至少一个图像及与所述至少一个图像相关联的所述辨识的数据来存储表示所述第一场景的最终图像。在一个实施例中，接收包括使用相机连续俘获所述多个图像。在一个实施方案中，维持所述多个图像中的所述至少一个图像及所述至少一个图像的所述辨识的数据的存储，同时俘获后面的图像且在所述后面的图像中辨识数据。在一个方面中，确定所述多个图像中的至少两个图像包括来自第一场景的信息可包含比较两个或两个以上图像中的每一者中的图形对象值、图形对象颜色、背景颜色及前景颜色中的一或多者。

在一个实施例中，在存储所述最终图像之前，所述方法进一步包括使用所述至少两个图像及与所述至少两个图像相关联的所述辨识的数据来合成所述最终图像及接着随后存储所述最终图像。在一个实施方案中，所述合成包括将来自所述至少两个图像中的第二图像的元素并入到所述至少一个图像中以创建所述最终图像。在另一实施例中，所述最终图像包括所述至少一个图像，其中所述合成包括将所述至少两个图像中的第二图像的相关联的数据并入到所述至少一个图像的相关联的数据中。

在另一实施例中，在存储所述最终图像之前，所述方法进一步包括从用以表示所述第一场景的所述至少两个图像中选择所述至少一个图像作为所述最终图像，及接着随后存储所述最终图像。选择可包括比较所述两个或两个以上图像中的每一者的能量。计算所述两个或两个以上图像中的每一者的所述能量可基于每一图像中辨识的数个图形对象及用于所述数个图形对象中的每一者的辨识的置信度。

所述方法可进一步包含确定所述多个图像中的一或多个图像包括来自除了所述第一场景之外的一或多个场景的信息，及显示所述最终图像及分别表示所述一或多个场景的一或多个图像或所述至少一个图像及所述一或多个场景的所述辨识的数据。此外，由本发明的实施例执行的所述方法还可包含确定所显示的图像中的用户选定的图像或一个图像的所显示的辨识的数据，及将与所述选定的图像或辨识的数据相关的信息输入到程序或应用程序中。

在一个实施方案中，所述方法还可通过从来自所述第一场景的所述两个或两个以上图像的第一图像中识别具有眩光的第一区，从来自所述第一场景的所述两个或两个以上图像的第二图像中识别不具有眩光的第二区，其中所述第一区及所述第二区表示所述第一场景的相同区，且使用所述第一图像及来自所述第二图像的不具有眩光的所述第二区合成具有减少的眩光的所述最终图像。

用于执行本发明的实施例的示范性装置可包含：图像模块，其经配置以接收多个图像；OCR引擎，其经配置以使用光学字符辨识来辨识所述多个图像中的每一者中的数据；匹配模块，其经配置以至少部分基于所述辨识的数据确定所述多个图像中的至少两个图像包括来自第一场景的信息；及集成模块，其经配置以使用所述至少两个图像中的至少一个图像及与所述至少一个图像相关联的所述辨识的数据来存储表示所述第一场景的最终图像。可使用耦合到所述装置的相机连续俘获或获得所述图像。在一个实施例中，确定包括比较所述两个或两个以上图像中的每一者中的图形对象值、图形对象颜色、背景颜色、前景颜色及边界框中的一或多者。

集成模块可经进一步配置以使用所述至少两个图像及与所述至少两个图像相关联的所述辨识的数据来合成所述最终图像，及接着随后存储所述最终图像。在一个实施例中，所述合成包括将来自所述至少两个图像中的第二图像的元素并入到所述至少一个图像中以创建所述最终图像。在另一实施例中，所述最终图像包括所述至少一个图像，其中所述合成包括将所述至少两个图像中的第二图像的相关联的数据并入到所述至少一个图像的相关联的数据中。

在存储所述最终图像之前，选择模块可经配置以从用以表示所述第一场景的所述至少两个图像中选择所述至少一个图像作为所述最终图像，及接着随后存储所述最终图像。在一个实施方案中，选择包括比较所述两个或两个以上图像中的每一者的能量。基于每一图像中辨识的数个图形对象及用于所述数个图形对象中的每一者的辨识的置信度，计算所述两个或两个以上图像中的每一者的所述能量。

装置还可包括装置显示器，其经配置以显示至少两个图像或针对所述至少两个图像所辨识的数据。所述装置可进一步包括确定所述所显示的图像中的用户触摸的图像或所述一个图像的所显示的辨识的数据，及将与所述触摸的图像或辨识的数据相关的信息输入到程序或应用程序中。输入可包括提交因特网查询，确定转译或键入文本。

在装置的一个实例中，在存储所述最终图像之前，所述装置经进一步配置以从来自所述第一场景的所述两个或两个以上图像的第一图像中识别具有眩光的第一区，从来自所述第一场景的所述两个或两个以上图像的第二图像中识别不具有眩光的第二区，其中所述第一区及所述第二区表示所述第一场景的相同区，且使用所述第一图像及来自所述第二图像的不具有眩光的所述第二区合成具有减少的眩光的所述最终图像。

一种示范性非暂时性计算机可读存储媒体，其中所述非暂时性计算机可读存储媒体包括可由处理器执行的指令，所述指令包括用以进行以下操作的指令：接收多个图像；辨识所述多个图像中的每一者中的数据，其中辨识所述多个图像中的每一者中的数据包括对所述多个图像执行光学字符辨识；至少部分基于所述辨识的数据确定所述多个图像中的至少两个图像包括来自第一场景的信息；及使用所述至少两个图像中的至少一个图像及与所述至少一个图像相关联的所述辨识的数据来存储表示所述第一场景的最终图像。

示范性设备可包含用于接收多个图像的装置，用于辨识所述多个图像中的每一者中的数据的装置，其中辨识所述多个图像中的每一者中的数据包括对所述多个图像执行光学字符辨识，用于至少部分基于所述辨识的数据确定所述多个图像中的至少两个图像包括来自第一场景的信息的装置，及用于使用所述至少两个图像中的至少一个图像及与所述至少一个图像相关联的所述辨识的数据来存储表示所述第一场景的最终图像的装置。可使用相机来连续俘获所述多个图像。可维持所述多个图像中的所述至少一个图像及所述至少一个图像的所述辨识的数据的存储，同时俘获后面的图像且在所述后面的图像中辨识数据。在一个方面中，确定所述多个图像中的至少两个图像包括来自第一场景的信息可包含比较两个或两个以上图像中的每一者中的图形对象值、图形对象颜色、背景颜色及前景颜色中的一或多者。

在一个实施例中，在存储所述最终图像之前，所述方法可进一步包括用于使用所述至少两个图像及与所述至少两个图像相关联的所述辨识的数据来合成所述最终图像及接着随后存储所述最终图像的装置。在另一实施例中，在存储所述最终图像之前，所述设备进一步可包括用于从用以表示所述第一场景的所述至少两个图像中选择所述至少一个图像作为所述最终图像及接着随后存储所述最终图像的装置。选择可包括用于比较所述两个或两个以上图像中的每一者的能量的装置。计算所述两个或两个以上图像中的每一者的所述能量可基于每一图像中辨识的数个图形对象及用于所述数个图形对象中的每一者的辨识的置信度。

在一个实施例中，在存储所述最终图像之前，可包含用于从来自所述第一场景的所述两个或两个以上图像的第一图像中识别具有眩光的第一区的装置，用于从来自所述第一场景的所述两个或两个以上图像的第二图像中识别不具有眩光的第二区的装置，其中所述第一区及所述第二区表示所述第一场景的相同区，及用于使用所述第一图像及来自所述第二图像的不具有眩光的所述第二区合成具有减少的眩光的所述最终图像的装置。

前文已相当广泛地概述了实例的特征及技术优势以便下面的详细描述可被更好地理解。下文中将描述额外特征及优势。所揭示的概念及特定实例可容易用作用于修改或设计用于实现本发明的相同目的的其它结构的基础。此些等效构造并不偏离所附权利要求书的精神及范围。咸信为本文中所揭示的概念的特性的特征(关于其组织及操作方法两者)以及相关联的优势将在结合附图考虑时从以下描述中更好地来理解。图中的每一者仅是出于说明及描述的目的而提供的，且并不作为权利要求书的界限的定义。

附图说明

通过实例来说明本发明的方面。参考图式来提供以下描述，其中遍及全文相似参考数字用以指相似元件。虽然本文中描述了一或多个技术的各种细节，但其它技术也是可能的。在一些情况下，按框图形式展示熟知结构及装置以便促进各种技术的描述。

由本发明提供的实例的性质及优势的进一步理解可参考说明书的剩余部分及图式来实现，其中相似参考数字遍及若干图式用以指类似组件。在一些情况下，子标签与参考数字相关联以表示多个类似组件中的一者。当在无对现存子标签的说明的情况下对参考数字进行参考时，参考数字是指所有此些类似组件。

图1说明并有在实践本发明的实施例时使用的装置的部分的示范性计算机装置。

图2为说明用于随着时间的过去对图像进行OCR处理的本发明的示范性实施例的流程图。

图3A说明展示用于图像的OCR处理的本发明的非限制性示范性实施例的流程图。

图3B说明展示用于图像的OCR处理的本发明的另一非限制性示范性实施例的流程图。

图4描绘展示根据本发明的示范性实施例的图书封面的代表性图像及相关联的场景描述符的两个框图。

图5描绘展示从表示与存储的图像相同的场景的多个图像中选择图像的框图。

图6说明展示用于检测来自与存储的图像相同的场景的图像的非限制性示范性方法的流程图。

图7描绘展示从多个图像选择图像作为关键图像的框图。

图8说明展示用于从多个图像选择图像作为关键图像的非限制性示范性方法的流程图。

图9描绘展示从来自相同场景的多个图像中集成图像作为最终图像的框图。

图10说明展示用于从来自相同场景的多个图像合成最终图像的非限制性示范性方法的流程图。

图11描绘展示用于执行由本发明的实施例提供的方法的示范性组件的框图。

图12描绘展示用于执行由本发明的实施例提供的方法的示范性组件的另一框图。

图13A及13B描绘用于含有文本的图像的示范性场景描述符。

图14描绘说明用于从图像移除或减少眩光的本发明的实施例的图。

图15为说明根据本发明的一或多个说明性方面的用于减少或移除图像中的反射眩光的本发明的实施例的流程图。

图16A、16B、16C及16D描绘使用在具有自动及智能OCR高速缓冲存储器更新的OCR高速缓存模式中操作的过度简化移动装置的用户接口的示范性实施方案。

具体实施方式

在一些实施方案中，在耦合到移动装置的相机的视野中包括文本的图像可使用快照模式或预览模式来获得。在快照模式中，用户将相机聚焦在文本上，使得用户关注于从视野中俘获及拍摄照片。所得图片可由计算机装置分析且产生OCR结果。另一方面，预览模式持续地循环视野中的文本的辨识及对所获得的每一图像或帧执行OCR。此模式展示了装置正辨识的事物的动态实时显示，在一些情况下就在相机取景器旁边。当用户将可能花费更多时间来复查图像的OCR结果或利用所述结果时，用户可停止图像俘获/OCR辨识，且其后可开始处理当前由冻结俘获/辨识所显示的结果。

如相关技术应用中所实施的，快照模式及预览模式不具有用于自动历史存档的机制。当用户面对大输入目标或许多目标时，用户必须依靠通过快照模式或预览模式拍摄多个图像，冻结每一图像的OCR引擎及单独地分析每一图像。尤其是在预览模式中，用户处充斥着在用户在所关注的区域之上使移动装置缓慢地移动时重复地拍摄的相同场景的许多图像。而且，当前OCR系统不具有聚集来自不同OCR结果的信息以改进OCR性能或减少所得经高速缓存图像中的眩光的机制。

本发明的实施例处理这些及其它问题。

图1说明并有在实践本发明的实施例时使用的装置的部分的示范性计算机装置。如图1中所说明的计算机装置可作为任何计算机化系统的部分并入于本文中。举例来说，计算机装置100可表示移动装置的组件中的一些。移动装置可为具有例如相机150等一或多个输入感测输入或输入装置115及例如显示单元或触摸屏等一或多个输入/输出装置的任何计算装置100。移动装置的实例包含，但不限于，视频游戏控制台、平板计算机、智能电话、膝上型计算机、上网本或其它便携式装置。图1提供计算机装置100的一个实施例的示意性说明，所述计算机装置可执行如本文中所描述的由各种其它实施例提供的方法，及/或可充当主计算机装置、远程网亭/终端、销售点装置、移动装置、机顶盒及/或计算机装置。图1只是用以提供各种组件的一般性说明，所述组件中的任一者或全部可在适当时被利用。因此，图1广泛地说明可如何以相对分离或相对更集成方式来实施个别系统元件。

计算机装置100经展示成包括可经由总线105电耦合(或可在适当时以其它方式通信)的硬件元件。硬件元件可包含一或多个处理器110，包含但不限于一或多个通用处理器及/或一或多个专用处理器(例如，数字信号处理芯片、图形加速处理器及/或其类似者)；一或多个输入装置115，其可包含但不限于相机、传感器(包含惯性传感器)、鼠标、键盘及/或其类似者；及一或多个输出装置120，其可包含但不限于例如图11及图12的装置显示器(1118)等显示单元、打印机及/或其类似者。

计算机装置100可进一步包含一或多个非暂时性存储装置125(及/或与其通信)，所述非暂时性存储装置可包括但不限于本地及/或网络可存取存储装置，及/或可包含但不限于可以编程、闪存可以更新及/或其类似者的磁盘驱动器、驱动器阵列、光学存储装置、固态存储装置(例如，随机存取存储器(“RAM”)及/或只读存储器(“ROM”))。所述存储装置可经配置以实施任何适当数据存储装置，包含但不限于各种文件系统、数据库结构及/或其类似者。来自图11及图12的装置存储器1120可使用如上文所论述的一或多个非暂时性存储装置。

计算机装置100还可包含通信子系统130，所述通信子系统可包含但不限于调制解调器、网卡(无线或有线)、红外线通信装置、无线通信装置及/或芯片组(例如，Bluetooth^TM装置、802.11装置、WiFi装置、WiMax装置、蜂窝式通信设施等)及/或其类似者。通信子系统130可准许与网络(例如，仅举一个例子，下文所描述的网络)、其它计算机装置及/或本文中所描述的任何其它装置交换数据。通信子系统130可在一些实施例中被省略，例如在经配置以与其它装置通信的装置中。在许多实施例中，计算机装置100将进一步包括非暂时性工作存储器135，所述非暂时性工作存储器可包含RAM或ROM装置，如上文所描述。OCR高速缓冲存储器(1112)可使用非暂时性工作存储器135来实施，如上文所描述。

计算机装置100还可包括经展示成当前位于工作存储器135内的软件元件，包含操作系统140、装置驱动程序、可执行库及/或其它代码，例如一或多个应用程序145，所述应用程序可包括由各种实施例提供的计算机程序，及/或可经设计以实施方法，及/或配置由其它实施例提供的系统，如本文中所描述。仅通过实例，关于上文所论述的方法所描述的一或多个程序可实施为可由计算机(及/或计算机内的处理器)执行的代码及/或指令；接着，在一方面中，所述代码及/或指令可用以配置及/或调适通用计算机(或其它装置)以执行根据所描述的方法的一或多个操作。

这些指令及/或代码的集合可存储于计算机可读存储媒体上，例如上文所描述的存储装置125。在一些状况下，存储媒体可并入于例如计算机装置100等计算机装置内。在其它实施例中，存储媒体可与计算机装置相分离(例如，可移动媒体，例如压缩光盘)，及/或设置于安装包中，以使得存储媒体可用以使用存储于其上的指令/代码编程、配置及/或调适通用计算机。这些指令可采取可由计算机装置100执行的可执行代码的形式，及/或可采取源及/或可安装代码的形式，所述源及/或可安装代码在编译及/或安装于计算机装置100上(例如，使用多种通常可用的编译器、安装程序、压缩/解压实用程序等中的任一者)之后接着采取可执行代码的形式。

实质变化可根据特定要求来进行。举例来说，还可使用经定制的硬件，及/或特定元件可实施于硬件、软件(包含便携式软件，例如小应用程序等)或两者中。此外，可使用到其它计算装置(例如，网络输入/输出装置)的连接。

一些实施例可使用计算机装置(例如，计算机装置100)来执行根据本发明的方法。举例来说，所描述的方法的程序中的一些或全部可由计算机装置100响应于处理器110执行含于工作存储器135中的一或多个指令(其可并入到操作系统140及/或其它代码中，例如应用程序145)的一或多个序列而执行。所述指令可从另一计算机可读媒体(例如，存储装置125中的一者或一者以上)读取到工作存储器135中。仅通过实例，含于工作存储器135中的指令序列的执行可致使处理器110执行本文中所描述的方法的一或多个程序。

如本文中所使用，术语“机器可读媒体”及“计算机可读媒体”指参与提供致使机器以特定方式操作的数据的任何媒体。在使用计算机装置100实施的实施例中，各种计算机可读媒体可涉及提供指令/代码到处理器110以用于执行，及/或可用以存储及/或载运所述指令/代码(例如，作为信号)。在许多实施方案中，计算机可读媒体为物理及/或有形存储媒体。所述媒体可采取许多形式，包含但不限于非易失性媒体、易失性媒体及发射媒体。非易失性媒体包含例如光盘及/或磁盘，例如存储装置125。易失性媒体包含但不限于动态存储器，例如工作存储器135。发射媒体包含但不限于同轴电缆、铜线及光纤(包含电线，所述电线包括总线105)以及通信子系统130的各种组件(及/或通信子系统130提供与其它装置的通信的媒体)。因此，发射媒体还可采取波的形式(包含但不限于无线电、声及/或光波，例如在无线电波及红外线数据通信期间产生的波)。

举例来说，物理及/或有形计算机可读媒体的常见形式包含软盘、软磁盘、硬盘、磁带或任何其它磁性媒体、CD-ROM、任何其它光学媒体、穿孔卡片、纸带、具有孔模式的任何其它物理媒体、RAM、PROM、EPROM、FLASH-EPROM、任何其它存储器芯片或匣、如下文中所描述的载波或计算机可读取指令及/或代码的任何其它媒体。

各种形式的计算机可读媒体可涉及将一或多个指令的一或多个序列载运到处理器110以用于执行。仅通过实例，指令最初可载运于远程计算机的磁盘及/或光盘上。远程计算机可将指令加载到其动态存储器中，及将待由计算机装置100接收及/或执行的指令作为信号经由发射媒体发送。根据本发明的各种实施例，可呈电磁信号、声信号、光学信号及/或其类似者的形式的这些信号皆为载波的实例，可在所述载波上对指令编码。

通信子系统130(及/或其组件)通常将接收信号，且总线105接着可将信号(及/或由信号载运的数据、指令等)载运到工作存储器135，处理器110从所述工作存储器检索及执行指令。由工作存储器135接收的指令可视情况在由处理器110执行之前或之后存储于非暂时性存储装置125上。

上文所论述的方法、系统及装置为实例。各种实施例可在适当时省略、替换或添加各种程序或组件。举例来说，在替代配置中，所描述的方法可按不同于所描述的次序的次序执行，及/或可添加、省略及/或组合各种阶段。而且，参考某些实施例所描述的特征可组合于各种其它实施例中。实施例的不同方面及元件可以类似方式组合。而且，技术演进且因此许多元件为不将本发明的范围限于所述特定实例的实例。

在描述中给出特定细节以提供对实施例的全面理解。然而，可在无这些特定细节的情况下实践实施例。举例来说，已展示熟知电路、过程、算法、结构及技术而无不必要的细节以便避免混淆实施例。此描述仅提供实例实施例，且不意欲限制本发明的范围、适用性或配置。而是，实施例的先前描述将会将有利地用于实施本发明的实施例的描述提供给所属领域的技术人员。可对元件的功能及布置作出各种改变而不脱离本发明的精神及范围。

而且，将一些实施例描述为经描绘为流程图或框图的过程。尽管各自可将操作描述为顺序过程，但许多操作可并行地或同时来执行。另外，可重新布置操作的次序。过程可具有图中所不包含的额外步骤。此外，方法的实施例可由硬件、软件、固件、中间件、微码、硬件描述语言或其任何组合来实施。当以软件、固件、中间件或微码来实施时，用以执行相关联的任务的程序代码或代码段可存储于计算机可读媒体中，例如存储媒体。处理器可执行相关联的任务。

本文中描述了若干实施例，但可使用各种修改、替代构造及等效物而不脱离本发明的精神。举例来说，上文元件可仅为较大系统的组件，其中其它规则可优先于或以其它方式修改本发明的应用。而且，可在考虑元件之前、期间或之后开始进行数个步骤。因此，本文中的描述不限制本发明的范围。

如本文中所描述，来自图像的图形对象可包含，但不限于，一或多个符号、字母数字字符、字、标记、数字、文本或姿势。举例来说，图像中的图形对象可为任何语言中的字或语句。字可在一些语言中表示为符号。类似地，一种语言或文化中的语句可简单地使用另一语言或文化中的符号来表示。在另一实例中，图形对象可为例如STOP、YIELD等路标。不同图形对象可在不同区、语言或文化中用以表示相同含义。

图2为说明用于随着时间的过去对图像进行处理的本发明的示范性实施例的流程图。上文参考图1所论述的计算机装置100可表示用于执行图2中所描述的本发明的实施例的移动装置的组件中的一些。图11中所论述的模块及组件可实施为图1中所论述的计算装置100的组件，且可用于执行如图2中所论述的本发明的实施例。下文所论述的模块及组件可使用软件、硬件、固件或其任何组合来执行。在一方面中，在本文中被称作OCR高速缓存模式的模式中，耦合到计算机装置100的相机随着时间的过去持续地获得图像。

在图2中，多个图像由I(202)表示，其中每一I202表示不同的接收的图像。在一个实施例中，图像俘获模块1102可使用耦合到计算装置100的一或多个相机150获得或接收图像。在本发明的方面中，在接收到图像时，OCR引擎206(图11的1104)可处理图像，产生每一图像的OCR结果210，辨识多个图像中的每一者中的数据。OCR引擎206可实施于硬件、软件或固件中。用于实施于软件/固件中的OCR的指令可暂时存储于工作存储器135中且执行于计算装置100的一或多个处理器110上。在一些实施例中，由OCR引擎206处理的OCR中的一些或全部可由经由网络连接到计算装置100的远程服务器(未图示)执行。在一些实施例中，随着时间的过去改进了所存储的结果的图像质量。举例来说，在一个实施例中，除了执行OCR之外或独立于执行OCR，可从图像移除眩光。在OCR高速缓存模式中，随着时间的过去使用快照模式获得的图像还可使用本文中所描述的技术将图像智能地及自动地存储于OCR高速缓冲存储器中。OCR高速缓冲存储器可使用存储装置125、工作存储器135、硬件寄存器(未图示)或缓冲器或其任何组合来实施。

OCR结果可由描述图像的特性的关于图像的额外数据组成。在一个实施方案中，场景描述符产生器模块1106产生图像的OCR结果作为图像的场景描述符，且将其暂时地存储于OCR高速缓冲存储器中。在场景描述符模块1106产生场景描述符之后，计算装置100的例如匹配模块1108等组件可通过使用匹配过程来检测与相同场景相关联的图像。在一个实施方案中，匹配模块可在匹配过程期间比较与图像相关联的场景描述符。在图2中，来自OCR结果212及214的辨识的数据与场景A相关联，OCR结果216与场景B相关联，OCR结果218及222与场景C相关联，且OCR结果220与场景D相关联。

替代将全部212到222 OCR结果及相关联的图像存储于OCR高速缓冲存储器224中，OCR高速缓存系统可智能地及自动地存储用于每一场景的仅一个细化的图像及OCR结果。计算装置100的例如选择模块1110等组件可从来自场景的多个图像中选择图像以存储于OCR高速缓冲存储器224中。由选择模块1110选择图像的过程可被称作选择过程。举例来说，在图2中，表示场景A的对应于OCR结果212及214的图像可作为A′(228)存储于OCR高速缓冲存储器224中。最终合成或选择的图像及场景描述符使用对应于212及214的图像存储于OCR高速缓冲存储器224中。在一个方面中，选择模块作为选择过程的部分计算与每一图像相关联的能量。与图像相关联的能量可表示与图像相关联的清晰度及分辨率。图像及与来自两个图像(对应于212及214)的较高能量相关联的场景描述符可作为A′(228)存储于OCR高速缓冲存储器224中。OCR高速缓冲存储器(224)可使用非暂时性工作存储器135来实施，如上文参考图1所描述。

在另一实施方案中，集成模块1114可使用212与214之间的不同图像质量及OCR结果加上从关键图像丢失的图像数据，同时合成最终A′(228)。合成最终结果的过程可被称作集成过程。在一个实例中，来自场景的图像中的一者(据称对应于212)可具有与图像的区相关联的眩光。集成过程可通过从对应于212的图像识别具有眩光的第一区，从对应于214的图像识别具有眩光的第二区来促进移除眩光，其中第一区及第二区表示场景A的相同区；及使用对应于212的图像及来自对应于214的图像的不具有眩光的第二区合成最终图像以移除眩光。

类似地，对应于218及222的图像经辨识为与相同场景C相关联且经合成以形成最终图像及场景描述符C′(232)。如本文中所描述，合成图像可包含但不限于：更新或替换图像或包含OCR高速缓冲存储器中的图像的场景描述符或图像的表示的任何相关联的数据。因此，在一些实施例中，合成图像或将多个图像合成在一起可包含例如用来自第二图像(或具有多个图像)的数据更新或修改与第一图像相关联的数据，而不改变或修改第一图像的外观或视觉表示。对应于216的图像为唯一的表示场景B的图像。一旦匹配模块1108确定对应于216的图像为唯一的表示场景B的图像，插入模块1116便可将对应于216的图像存储于OCR高速缓冲存储器224中高速缓冲存储器位置230处。类似地，对应于220的图像为唯一的表示场景D的图像，且可存储于OCR高速缓冲存储器224中高速缓冲存储器位置234处。

接收的图像可与具有与存储于暂时缓冲器、OCR高速缓冲存储器224或其它合适的存储媒体中的相同场景相关联的其它图像的场景相关联。如果新近接收的图像匹配存储于OCR高速缓冲存储器224中的相同场景的图像及OCR结果，那么OCR高速缓冲存储器224中的信息可由集成模块1114在集成最近接收的图像的结果之后针对所述场景进行更新。

在一个方面中，在接收到图像时立即处理所述图像。在另一实施例中，所获得的图像被暂时存储且分批一起处理，从而潜在地允许较少的OCR高速缓冲存储器更新。在又一实施例中，滑动窗口可用以一起处理属于特定时间窗口内的图像。处理可在移动装置(例如，计算装置100)处执行，或可将信息发射到远程服务器或处理器以供处理。举例来说，在一个实施方案中，计算装置100可接收多个图像及将图像或与图像相关的信息发射到远程服务器以执行OCR、匹配过程、选择过程及/或集成过程。

此智能及自动OCR高速缓冲存储器更新对用户来说是有利的，因为这可允许用户存取与相同场景或与多个场景相关联的所有信息。此外，在随着时间的过去与相同场景的多个图像之间的图像信息重叠的情况下，本文中所描述的技术可存储与场景相关联的最佳信息或新获取的信息，因此随着时间的过去进一步细化结果。与本文中所描述的技术相关联的其它优势可包含存储OCR结果所需的存储器空间减少及对OCR高速缓冲存储器的命中数目减少，从而导致整个系统中的较快性能。

通过实例，如果用户正坐在餐馆里且使用用于使用快照模式或预览模式获取图像的传统手段对晚餐菜单执行OCR，那么用户可需要单独地获取多个图像且顺序地处理与所述图像中的每一者相关联的信息。如果用户离晚餐菜单太远地抓住获取图像的相机，那么图像可不具有足够的分辨率来适当地对图像执行OCR。另一方面，如果用户使获取图像的相机太靠近，那么图像可不包含所关注的整个区域。然而，在具有自动及智能OCR高速缓冲存储器更新的OCR高速缓存模式中使用本发明的方面，本文中所描述的技术允许用户产生包含来自菜单的用户所关注的区域的单个图像，其中以良好的分辨率进行恰当聚焦。在一个情况中，用户可选择从菜单中选择文本且将其转译为另一语言或使用专属或在线搜索引擎执行搜索。在一些实施例中，用户可从菜单选择文本以进入到应用程序或程序(例如，文本消息传递或电子邮件程序或字处理器)中。

图3A说明展示根据本发明的一或多个说明性方面的用于处理图像的本发明的非限制性示范性实施例的流程图。根据一或多个方面，本文中所描述的方法及/或方法步骤中的任一者及/或全部可由计算装置100实施及/或实施于计算装置100中，例如计算装置100及/或例如图1中更详细所描述的装置。在一个实施例中，下文参看图3A所描述的方法步骤中的一者或一者以上由装置100的处理器(例如，处理器110或另一处理器)实施。图11及图12中所论述的模块及组件也可实施为计算装置100的组件，且可用于执行如图3A中所论述的本发明的实施例。另外或替代性地，本文中所描述的方法及/或方法步骤中的任一者及/或全部可实施于计算机可读指令中，例如存储于计算机可读媒体(例如，存储器135、存储装置125或另一计算机可读媒体)上的计算机可读指令。

在图3A中，上文参考图1论述的计算装置100及图11及图12中所论述的模块及组件可表示用于执行本发明的实施例的装置的模块及组件中的一些。在步骤302处，耦合到计算装置100的相机150接收或获得多个图像。相机150可表示图1中所描述的输入装置115中的一者。在一个实施方案中，来自图11的图像俘获模块1102可用于获得图像。在一些实施例中，可连续地接收多个图像。在其它实施例中，例如在多个相机150或立体相机耦合到计算装置100时，可同时接收图像。在步骤304处，接收的图像及与图像相关联的数据彼此间进行比较且还与存储于OCR高速缓冲存储器224中的OCR结果及图像进行比较，以确定一个以上图像是否与相同场景相关联。在一个实施方案中，OCR高速缓冲存储器从图1中所描述的工作存储器135开始操作。

在框306处，如果检测到与相同场景相关联的一个以上图像，那么图像可经由集成过程集成或合成在一起以形成合成的图像。在一个方面中，选择过程在集成过程之前。在选择过程期间，表示场景的关键图像可选自表示场景的多个图像，其中多个图像中的一或多者可存储于计算装置100上。关键图像可通过计算与每一图像相关联的能量来确定。在一个实施方案中，与每一图像相关联的能量与使用OCR引擎辨识的字的数目及与每一图像的OCR结果相关联的置信度成正比。在一个实施例中，关键图像可为存储于OCR高速缓冲存储器中的图像。在其它实施方案中，关键图像可通过使用来自相同场景的各种图像的信息合成最终图像，之后将所述图像存储于OCR高速缓冲存储器中来增强或扩增。举例来说，如果关键图像中所显示的字可不被译码或不可被检测到，那么来自相同场景的其它图像的信息可用以增强图像及与图像相关联的数据。在另一实例中，来自关键图像的区的眩光可通过使用来自相同场景的不具有与关键图像相同的区的眩光的另一图像的信息来移除。如上文所描述，可甚至在无OCR的情况下从图像减少或移除眩光。来自各种图像的信息可用于合成可存储于OCR高速缓冲存储器或另一高速缓冲存储器(例如，可或可不包含OCR信息的图像高速缓冲存储器)中的最终图像。举例来说，图像高速缓冲存储器可用以存储具有减少的眩光的最终图像。在一些实施例中，此图像高速缓冲存储器可省略OCR信息或可包含OCR信息。

在框308处，一旦由计算装置100合成最终图像，所述图像便可存储于OCR高速缓冲存储器中。在一些情况下，更新或替换OCR高速缓冲存储器中的预先存在的图像及OCR结果。举例来说，如果接收的或获得的图像与同存储于OCR高速缓冲存储器中的场景相同的场景相关联，但具有比存储于OCR高速缓冲存储器中的图像更佳的分辨率及清晰度，那么可更新或替换OCR高速缓冲存储器中的图像及OCR结果以反映与新接收的图像相关联的信息。如本文中所描述，合成图像可包含，但不限于，更新或替换图像或包含OCR高速缓冲存储器中的图像的场景描述符的部分或图像的表示的任何相关联的数据。

应了解，图3A中所说明的特定步骤提供根据本发明的实施例的在操作模式之间切换的特定方法。也可在替代实施例中相应地执行步骤的其它序列。举例来说，本发明的替代实施例可执行上文中按不同次序概述的步骤。为了进行说明，用户可选择从第三操作模式改变到第一操作模式，从第四模式改变到第二模式，或其间的任何组合。此外，图3A中所说明的个别步骤可包含可在对个别步骤来说适当时按各种序列执行的多个子步骤。此外，取决于特定应用，可添加或移除额外步骤。所属领域的技术人员将认识到及了解到过程的许多变化、修改及替代例。

图3B说明展示根据本发明的一或多个说明性方面的用于处理图像的本发明的另一非限制性示范性实施例的流程图。根据一或多个方面，本文中所描述的方法及/或方法步骤中的任一者及/或全部可由计算装置100实施及/或实施于计算装置100中，例如计算装置100及/或例如图1中更详细所描述的装置。在一个实施例中，下文参看图3B所描述的方法步骤中的一者或一者以上由装置100的处理器(例如，处理器110或另一处理器)实施。图11及图12中所论述的模块及组件也可实施为计算装置100的组件，且可用于执行如图3B中所论述的本发明的实施例。另外或替代性地，本文中所描述的方法及/或方法步骤中的任一者及/或全部可实施于计算机可读指令中，例如存储于计算机可读媒体(例如，存储器135、存储装置125或另一计算机可读媒体)上的计算机可读指令。

在图3B中，上文参考图1论述的计算装置100及图11及图12中所论述的模块及组件可表示用于执行本发明的实施例的装置的模块及组件中的一些。在步骤310处，耦合到计算装置100的相机150接收或获得多个图像。相机150可表示图1中所描述的输入装置115中的一者。在一个实施方案中，来自图11的图像俘获模块1102可用于获得图像。在一些实施例中，可连续地接收多个图像。在其它实施例中，例如在多个相机150或立体相机耦合到计算装置100时，可同时接收图像。

在步骤312处，计算装置100的例如OCR引擎1104或/及场景描述符模块1106等组件可辨识多个图像中的每一者中的数据，其中辨识多个图像中的每一者中的数据包括对多个图像执行光学字符辨识。在辨识数据时由OCR引擎1104及场景描述符1106执行的步骤更详细地描述于图4及图11中。

在步骤314处，计算装置100的例如匹配模块1108等组件可至少部分基于辨识的数据确定多个图像中的至少两个图像包括来自第一场景的信息。在图5、6、7、8及11中更详细地描述由匹配模块1108执行的步骤。

在步骤316处，计算装置100的例如集成模块1114等组件可使用至少两个图像中的至少一个图像及与所述至少一个图像相关联的辨识的数据来存储表示第一场景的最终图像。在一个实施例中，如果检测到与相同场景相关联的一个以上图像，那么图像可经由集成过程集成或合成在一起以形成合成的图像。在图8、9、10及11中更详细地描述由集成模块1114执行的步骤。

应了解，图3B中所说明的特定步骤提供根据本发明的实施例的在操作模式之间切换的特定方法。也可在替代实施例中相应地执行步骤的其它序列。举例来说，本发明的替代实施例可执行上文中按不同次序概述的步骤。为了进行说明，用户可选择从第三操作模式改变到第一操作模式，从第四模式改变到第二模式，或其间的任何组合。此外，图3B中所说明的个别步骤可包含可在对个别步骤来说适当时按各种序列执行的多个子步骤。此外，取决于特定应用，可添加或移除额外步骤。所属领域的技术人员将认识到及了解到过程的许多变化、修改及替代例。

可处理由计算装置100接收的图像以产生场景描述符。在图4及图13中更详细地描述产生场景描述符的结构及过程。一旦产生接收的图像的场景描述符，接收的图像便与其它图像进行匹配或比较，以确定其是否属于存储于计算装置100上的图像的场景中的至少一者。图5及图6更详细地描述匹配过程。如果发现匹配，那么使用与每一图像相关联的能量从属于相同场景的多个图像中选择关键图像。图7及图8更详细地描述关键图像的选择过程。一旦选择关键图像，便可集成图像以形成具有更新的场景描述符的新合成的图像，且可更新OCR高速缓冲存储器。在图9及图10中更详细地描述集成过程。图11描述本发明的实施例的不同模块及组件以及所述组件之间的相关联的流程。图12进一步描述图11，且具有额外的跟踪组件。图14及15描述用于在将图像存储于高速缓冲存储器中时从图像减少或移除眩光的本发明的示范性实施例。图16A、16B、16C及16D描述使用本文中针对示范性计算装置100所描述的技术的示范性OCR高速缓冲存储器更新情形。

图4描绘展示根据本发明的示范性实施例的图书封面的代表性图像及相关联的场景描述符的图。在本发明的方面中，图像俘获模块1102接收一或多个图像且OCR引擎1104对一或多个图像执行OCR。场景描述符模块1106可处理图像，且可为图像产生表示与图像相关联的特性的场景描述符。在确定接收的或存储的图像中的任一者是否属于相同场景的匹配过程期间，场景描述符可由匹配模块在比较各种图像时使用。

场景描述符可关于图像的表示图形对象的部分进行定义。图形对象可包含，但不限于，符号、字符、字、文本、标记及数字。如图4中所示，在一个实施方案中，场景描述符为关于文本的数据(例如，文本颜色、背景颜色及围绕一或多个字的边界框)编目录。由计算装置100检测的图形对象的特性可包含一元特性及二元特性。一元特性可包含，但不限于，图形对象内容、图形对象颜色、前景颜色、背景颜色及图像的包括图形对象的部分的尺寸。图形对象的二元特性可包括图形对象相对于彼此及图像的几何关系。在本发明的一些方面中，二元特性可使用描述图像中的图形对象彼此间的不同几何关系的关联矩阵来表示。

返回参看图4的框402，场景描述符模块1106可识别图像的包括字“从数据学习”、“概念、理论及方法”及“第二版”的部分。每一字可被当作场景描述符内的单独描述实体，例如图4中的“数据”406。而且，字可分组在一起以形成集体描述实体，例如“第二版”412。

在图4中，包括文本“数据”的由框406表示的部分被描述为场景描述符404中由“字3”表示的单独描述实体408。字描述实体408的一元特性可经由数据结构表示，所述数据结构具有表示文本/内容(即，数据)、文本颜色(即，白色)、背景颜色(即，黑色)及边界框或/及尺寸的字段。场景描述符模块1106可组织用于每一字的信息，且将其存储于数据结构、类对象或任何其它合适的手段中。类似地，表示与图像的场景描述符相关联的字的结构可使用链表、队列或用于检索、索引及/或更新信息的任何其它合适的手段来组织及存储于存储装置125或存储器135中。

除了一元特性之外，每一字的二元特性还可由图像(未图示)中的每一字的场景描述模块1106存储。二元特性包含，但不限于，字相对于彼此的几何关系。在图4中，字“学习”的二元特性可包含字相对于其它字及图像自身的空间关系。举例来说，“学习”是空间上在左上方的第一字，且其右边具有字“从”，且下边具有“概念”。比较不同场景的二元特性可为有利的，其中具有类似字符的类似字在不同场景中用以产生不同语句。在一个实例中，比较字的二元特性可允许计算装置使用字相对于彼此的相对位置而更有效地发现匹配。

图5描绘说明由计算装置100接收的多个图像与各种场景之间的匹配过程的图。上文参考图1所论述的计算装置100可表示用于执行图5中所描述的本发明的实施例的装置的组件中的一些。图11及图12中所论述的模块及组件(例如，匹配模块1108)也可实施为计算装置100的组件，且可用于执行如图5中所论述的本发明的实施例。图像502表示使用耦合到计算装置100的相机150接收的图像。在一个实施例中，图像俘获模块1102俘获图像以供进一步处理且将图像数据传递到OCR引擎1104。OCR引擎1104处理图像502以产生OCR结果，例如与图像相关联的数据。如图4中所论述，产生场景描述符，且其与图像502相关联。图像504及图像506为在图像502之前获得的图像且具有相关联的场景描述符。计算装置100的组件可在暂时缓冲器处或在OCR高速缓冲存储器中存储图像504及506。在一个实施方案中，暂时缓冲器或OCR高速缓冲存储器1112可使用图1中所描述的工作存储器135的区段。

计算装置100的例如匹配模块1108等组件可将图像502的场景描述符的一元及/或二元特性与图像504及506的场景描述符的一元及/或二元特性进行比较。举例来说，图像502具有用于“学习”、“从”及“数据”的字描述实体。然而，图像506仅具有用于“学习”的字描述实体。即使在来自图像502的“学习”与来自图像506的“学习”之间存在正一元匹配，两个字的二元特性仍将不匹配。在图像506中，“学习”并不是左边的第一字，且其右边并不具有从，如图像502中的状况。因此，本发明的实施例可推断图像502及图像506不属于相同场景。

相对比地，与图像502及图像504的场景描述符相关联的一元及二元特性可形成正匹配。两个图像具有以因子按比例缩放以考虑到不同分辨率的图像中的每一字的相同一元特性。而且，字之间的几何关系在两个图像中是相同的。图像502与图像504之间的唯一显著差异在于图像504不具有“第二版”作为图像的部分。本发明的方面可实施用于折减来自相同场景的图像之间的此些差异的机制。

在一个实施方案中，计算装置100的例如匹配模块1108等组件可将权重指派给场景描述符的任何两个给定特性之间的每一相似性及差异。经指派的权重对于相似性来说可是做加法，且对于差异来说是做减法。阈值可被产生或预定。如果两个图像的场景描述符中的相似性及差异的加权求和高于阈值，那么匹配模块1108可将两个给定图像与相同场景相关联。如果两个图像的场景描述符中的相似性及差异的加权求和低于阈值，那么图像可被视为表示不同场景。

图6说明展示用于将所获得的图像与所存储的图像的场景相关联的非限制性示范性匹配过程的流程图。在步骤602处，计算装置100的例如匹配模块1108等组件对接收的图像执行OCR。上文参考图1所论述的计算机装置100可表示用于执行图6中所描述的本发明的实施例的移动装置的组件中的一些。使用耦合到计算装置100的相机150获得图像。在步骤604处，可例如使用场景描述符产生器1106产生接收的图像的场景描述符。如参考图4所描述，图像的包括图形对象(例如文本)的部分可经辨识及在场景描述符中进一步表征。对于每一图形对象，可定义一元及二元特性两者。一元特性可包含，但不限于，图形对象内容、图形对象颜色、前景颜色、背景颜色及图像的包括图形对象的部分的尺寸。图形对象的二元特性可包括图形对象相对于彼此及图像的几何关系。每一图形对象的经定义的特性可存储于数据结构、类对象中或使用任何其它合适手段。

在步骤610处，例如由匹配模块1108将接收的图像的场景描述符与先前获得且存储或缓存于计算装置100上的图像的场景描述符进行比较。先前获得的图像及其相关联的场景描述符可存储于暂时缓冲器、OCR高速缓冲存储器或使用存储装置125、存储器135或硬件寄存器的任何其它合适的存储媒体中。在比较场景描述符(步骤610)时，在步骤606处，接收的图像的场景描述符的一元特性可与同存储的图像相关联的场景描述符的一元特性进行比较。在步骤608处，接收的图像的场景描述符的二元特性可与同存储的图像相关联的场景描述符的二元特性进行比较。

在一个实施方案中，场景描述符的任何两个给定特性之间的每一相似性可具有与其相关联的经指派的权重。经指派的权重对于相似性来说可为反射的，且对于差异来说是做减法。阈值可被产生或预定。在步骤612处，如果两个图像的场景描述符中的相似性的加权求和高于阈值，那么计算装置100的组件可例如使用选择模块1110及/或集成模块1114将图像与相同场景相关联(框616)。另一方面，如果两个图像的场景描述符中的相似性的加权求和低于阈值，那么图像可被视为表示不同场景(框614)。可反复地或递归地重复方法600中所描述的部分流程以比较所有先前存储的图像的场景描述符与其来自暂时存储器、OCR高速缓冲存储器1112或任何其它合适的存储媒体的相关联的场景描述符。

应了解，图6中所说明的特定步骤提供根据本发明的实施例的在操作模式之间切换的特定方法。也可在替代实施例中相应地执行步骤的其它序列。举例来说，本发明的替代实施例可执行上文中按不同次序概述的步骤。为了进行说明，用户可选择从第三操作模式改变到第一操作模式，从第四模式改变到第二模式，或其间的任何组合。此外，图6中所说明的个别步骤可包含可在对个别步骤来说适当时按各种序列执行的多个子步骤。此外，取决于特定应用，可添加或移除额外步骤。所属领域的技术人员将认识到及了解到过程的许多变化、修改及替代例。

图7描绘展示从属于相同场景的多个图像选择图像作为关键图像的过程的框图。如图4、图5及图6中所描述，在由计算装置100接收的图像之后，计算装置100可产生图像的场景描述符，且将所述图像与先前获得及存储的其它图像进行匹配。在一个实施方案中，计算装置从属于相同场景的多个图像中选择关键图像。从多个图像中选择关键图像的过程可被称作选择过程，且可由计算装置100的例如来自图11及12的选择模块1110等组件执行。参看图7，群组I具有与第一场景相关联的3个图像，且群组II具有与第二场景相关联的3个图像。最终关键图像被选择及显示于群组I及群组II的最右列中。关键图像可为表示场景的存储于OCR高速缓冲存储器1112中的候选图像。在一些情况下，与关键图像相关的关键图像或信息可在存储关键图像之前使用来自其它图像的信息而增强。举例来说，除了关键图像之外的一或多个图像中所辨识的字可添加到与关键图像相关联的数据。下文所描述的机制可致力于从图像的每一群组中发现关键图像。

关键图像可表示具有比与相同场景相关联的其它图像更佳的分辨率及清晰度的图像。在一个方面中，计算装置100的组件可计算与每一图像相关联的能量。能量值可被存储为图像的场景描述符的部分。具有最高能量的图像可从与相同场景相关联的多个图像中被选择为关键图像。在一个实施方案中，计算装置100(使用例如选择模块1110)可使用来自图像的经辨识的字的数目及来自OCR的字的置信度均值确定能量值。

图8说明展示用于从来自相同场景的多个图像选择图像作为关键图像的过程的非限制性示范性方法的流程图。根据一或多个方面，本文中所描述的方法及/或方法步骤中的任一者及/或全部可由计算装置100实施及/或实施于计算装置100中，例如计算装置100及/或例如图1中更详细所描述的装置。在一个实施例中，下文参看图8所描述的方法步骤中的一者或一者以上由装置100的处理器(例如，处理器110或另一处理器)实施。图11及图12中所论述的模块及组件(例如，选择模块1110)也可实施为计算装置100的组件，且可用于执行如图8中所论述的本发明的实施例。另外或替代性地，本文中所描述的方法及/或方法步骤中的任一者及/或全部可实施于计算机可读指令中，例如存储于计算机可读媒体(例如，存储器135、存储装置125或另一计算机可读媒体)上的计算机可读指令。

在步骤802处，将一或多个(M)图像检测为属于与图5及6中所论述的场景相同的场景。在一些实施方案中，OCR高速缓冲存储器1112仅具有与任何给定场景相关联的一个图像。与同存储于OCR高速缓冲存储器1112中的场景相同的场景相关联的任何获得的图像可被立即处理及集成到OCR高速缓冲存储器1112中。如果新获得的图像被选择为关键图像或具有额外信息，那么可更新OCR图像。在此实施方案中，选择过程可仅在两个图像(即，存储于OCR高速缓冲存储器中的图像及新近由相机获得的图像)之间。

然而，在本发明的其它实施方案中，可同时比较多个图像以发现关键图像。举例来说，在一个实施方案中，可实施窗口协议，其中可在一段时间内获得及同时处理一个以上图像。来自暂时获得及存储的多个图像的通常一个以上图像可属于相同场景，因为用户可在短时间跨度内在相同场景之上滑动移动装置多次。因此，与相同场景相关联的来自任何给定时间窗口的一或多个图像可彼此相比较或与存储于OCR高速缓冲存储器1112中的与相同场景相关联的图像进行比较。

M表示在任何给定时间点与特定场景相关联的图像的数目。可反复地或递归地计算与每一图像相关联的能量。反复的数目由X表示。在一个示范性实施方案中，X可初始化为1。X还表示当前所处理的图像。在一个方面中，图像的能量存储于图像的场景描述符中。

在步骤804处，使用OCR来辨识图像X中的字的数目(N)。在步骤806处，导出来自OCR的字的置信度均值(C)。在步骤808处，与辨识的字相关联的置信度以比例因子(λ)按比例缩放。在一个实施例中，可根据经验确定比例因子(λ)。在步骤810处，根据以下等式计算图像X的能量：

EX＝N+λC。

在步骤812处，针对图像导出的能量可视情况存储于图像场景描述符中。在步骤814处，如果X＝＝M，那么具有最大能量值的图像从与相同场景相关联的多个图像被选择为关键图像(步骤816)。如果X不等于M，那么X递增(步骤818)，且可经由方法800提取及处理下一图像X，返回到步骤804处开始。

在另一实施例中，不使用图像的能量的反复/递归计算。可在获得图像之后或在用可影响与图像相关联的能量的额外信息来更新图像的情况下，针对图像计算图像的能量。在一个实施方案中，图像的能量存储于图像的场景描述符中。

应了解，图8中所说明的特定步骤提供根据本发明的实施例的在操作模式之间切换的特定方法。也可在替代实施例中相应地执行步骤的其它序列。举例来说，本发明的替代实施例可执行上文中按不同次序概述的步骤。为了进行说明，用户可选择从第三操作模式改变到第一操作模式，从第四模式改变到第二模式，或其间的任何组合。此外，图8中所说明的个别步骤可包含可在对个别步骤来说适当时按各种序列执行的多个子步骤。此外，取决于特定应用，可添加或移除额外步骤。所属领域的技术人员将认识到及了解到过程的许多变化、修改及替代例。

图9描绘展示从来自相同场景的多个图像中将图像合成为存储于OCR高速缓冲存储器1112中的最终图像的图。在一个实施方案中，经由用于分别识别与图像相关联的图形对象及产生场景描述符的OCR引擎1104及接着场景描述符产生器1106来投送图像902及904。匹配模块1108将图像902及904与相同场景相关联。在一个实施例中，在匹配过程之后，经由选择过程由选择模块1110投送图像及其相关联的场景描述符，以确定关键图像。为了说明的目的，图像902从选择过程中被假想地选择为关键图像。

在选择过程之后，可经由用于集成过程的集成模块1114投送图像，其中两个图像可被集成到单个合成图像906中。在图9中，图像902被选择为可保存在OCR高速缓冲存储器中的图像。然而，图像904可具有图像902中并未描绘的额外独特信息。独特于图像904的额外信息可与图像902合成以形成最终图像906。在一个实施例中，可从图像902及图像904新产生图像906，使得可在图像906中展示所有OCR结果。

还可更新场景描述符。举例来说，图像906的场景描述符将具有针对902的场景描述符定义的特性。然而，因为从图像904添加了额外独特字，所以图像906的场景描述符可从图像904继承针对“方法”定义的特性。

图10说明展示用于从来自相同场景的多个图像合成图像的非限制性示范性方法的流程图。根据一或多个方面，本文中所描述的方法及/或方法步骤中的任一者及/或全部可由计算装置100实施及/或实施于计算装置100中，例如计算装置100及/或例如图1中更详细所描述的装置。在一个实施例中，下文参看图10所描述的方法步骤中的一者或一者以上由装置100的处理器(例如，处理器110或另一处理器)实施。图11及图12中所论述的模块及组件(例如，集成模块1114)也可实施为计算装置100的组件，且可用于执行如图8中所论述的本发明的实施例。另外或替代性地，本文中所描述的方法及/或方法步骤中的任一者及/或全部可实施于计算机可读指令中，例如存储于计算机可读媒体(例如，存储器135、存储装置125或另一计算机可读媒体)上的计算机可读指令。

如本文中所描述，合成图像可包含，但不限于，更新或替换图像或包含OCR高速缓冲存储器中的图像的场景描述符或图像的表示的任何相关联的数据。举例来说，存储于OCR高速缓冲存储器中的来自餐馆的晚餐菜单的图像可在相机在预览模式或快照模式中悬停在晚餐菜单上且接收更多图像时用来自接收的图像的额外信息进行扩增。在步骤1002处，使用选择模块1110从属于相同场景的多个图像中选择关键图像，如图7及图8中所论述。在步骤1004处，由本发明的组件(例如，场景描述符产生器1106)识别的还不是关键图像的部分的任何独特图形对象可被添加到关键图像。在一些情况下，接收的图像可具有额外信息，例如还未存储于OCR高速缓冲存储器中的场景的区。反过来，接收的图像可不具有包含于OCR高速缓冲存储器1112中存储的图像中的所有信息。在一个情况中，一旦关键图像被选定，还不是关键图像的部分的来自其它图像的任何图形对象被添加到图像。

在步骤1006处，也可视情况更新合成的图像的能量以考虑到添加到图像的任何新信息。在一个实施例中，计算装置100计算合成的图像的能量，如图8中的810处所论述。在步骤1008处，场景描述符还可用额外信息来更新。举例来说，与图形对象相关联的额外图像数据及场景描述符数据可与关键图像的数据集成，从而形成合成的图像，之后将所述合成的图像存储于OCR高速缓冲存储器1112中。对于任何两个或两个以上图像(例如，多个接收的图像及存储于OCR高速缓冲存储器1112中的图像)来说，上文所论述的相同过程可同时发生。

应了解，图10中所说明的特定步骤提供根据本发明的实施例的在操作模式之间切换的特定方法。也可在替代实施例中相应地执行步骤的其它序列。举例来说，本发明的替代实施例可执行上文中按不同次序概述的步骤。为了进行说明，用户可选择从第三操作模式改变到第一操作模式，从第四模式改变到第二模式，或其间的任何组合。此外，图10中所说明的个别步骤可包含可在对个别步骤来说适当时按各种序列执行的多个子步骤。此外，取决于特定应用，可添加或移除额外步骤。所属领域的技术人员将认识到及了解到过程的许多变化、修改及替代例。

图11描绘展示用于执行由本发明的实施例提供的方法的示范性组件及模块的框图。上文参考图1所论述的计算机装置100可表示用于执行图11中所描述的本发明的实施例的移动装置的组件中的一些。图11中所论述的组件及模块可以硬件、软件、固件或其任一组合来实施。

在一个实施例中，计算装置100可切换成使用自动及智能OCR高速缓冲存储器的OCR高速缓存模式。OCR高速缓冲存储器1112可利用图1中所描述的工作存储器135的部分。在一个实施例中，具有自动及智能OCR高速缓冲存储器更新的预览模式在例如相机键盘等程序或应用程序打开时被触发，且在相机键盘关闭时被关闭。

图像俘获模块1102可获得、俘获或接收一或多个图像。在一个实施例中，图像俘获模块1102使用耦合到计算装置的一或多个相机150获得一或多个图像。OCR引擎1104处理图像(例如，使用处理器110)且辨识图像的包括嵌入于图像中的图形对象的部分。图形对象可包含，但不限于，符号、字符、字、标记及数字。另外，OCR引擎可处理图像及开始填入每一图像的场景描述符。

场景描述符产生器1106可实施为OCR高速缓冲存储器系统1124的部分，且可产生及填入场景描述符。场景描述符描述了与图像相关联的图形对象的特性。场景描述符可关于图像的表示多个图形对象的部分进行定义。图形对象的特性可包含一元特性及二元特性。一元特性可包含，但不限于，图形对象内容、图形对象颜色、前景颜色、背景颜色、与OCR结果相关联的置信度及图像的包括图形对象的部分的尺寸及边界。图形对象的二元特性可包括图形对象相对于彼此及图像的几何关系。在本发明的一些方面中，二元特性可使用描述图像中的图形对象彼此间的不同几何关系的关联矩阵来表示。图4及图6更详细地论述了由场景描述符产生器1106执行的步骤中的一些。

匹配模块1108可将一或多个接收的图像的场景描述符与来自OCR高速缓冲存储器1112的存储的图像进行匹配。任何两个图像的场景描述符之间的匹配表示两个图像与相同场景相关联。图像之间的场景描述符中的相似性及差异可用以发现彼此足够密切地对准从而合理地属于相同场景的图像。图5及图6更详细地描述了用于发现匹配的示范性实施例。

如果匹配模块1108未发现从图像俘获模块1102接收的图像与存储于OCR高速缓冲存储器1112中的图像之间的匹配，那么将图像传递到插入模块1116以存储于OCR高速缓冲存储器1112中。存储于OCR高速缓冲存储器1112中的新图像表示由计算装置100获得的新场景。

如果匹配模块1108发现接收的图像与来自OCR高速缓冲存储器1112的图像之间的匹配，那么将匹配的图像(或指向图像的指针)转递到选择模块1110以用于选择关键图像。在框1114处，使用选择过程使用与接收的图像及来自OCR高速缓冲存储器1112的匹配的图像相关联的能量来确定来自两个图像的关键图像。在一个实施例中，能量存储于图像的场景描述符中。在另一实施例中，在选择模块1110处导出与每一图像相关联的能量。在一个实施方案中，图像的能量经定义为与针对图像所辨识的字的数目及与其相关联的置信度成正比。以下等式可表示用于导出能量的实施方案，

E＝N+λC，其中

N为图像中所辨识的字的数目，C为来自OCR的字的置信度均值，且λ为比例因子。在一个方面中，使用经验数据导出λ。可在接收图像之后或在用可影响与图像相关联的能量的额外信息来更新图像的情况下，针对图像计算图像的能量。

集成模块1114可将来自非关键图像的场景描述符及其它图像数据与关键图像集成以形成合成的图像。如本文中所描述，合成图像可包含但不限于：更新或替换图像或包含OCR高速缓冲存储器中的图像的场景描述符或图像的表示的任何相关联的数据。在一个情况中，OCR高速缓冲存储器1112中存储的图像与所接收的图像可具有重叠的区，所述重叠的区具有在同样的图形对象的两个图像之间相同的场景描述符信息。然而，在一些情况下，接收的图像可具有额外信息，例如还未存储于OCR高速缓冲存储器中的场景的区。反过来，接收的图像可不具有包含于OCR高速缓冲存储器1112中存储的图像中的所有信息。在一个情况中，一旦关键图像被选定，还不是关键图像的部分的来自其它图像的任何图形对象即被添加到图像。图10更详细地论述了由集成模块1114执行的步骤中的一些。

在一个实例中，存储于OCR高速缓冲存储器中的来自餐馆的晚餐菜单的图像可在相机在预览模式或快照模式中悬停在晚餐菜单上且接收更多图像时用来自接收的图像的额外信息进行扩增。在另一实例中，集成模块可在将合成的图像存储于例如OCR高速缓冲存储器1112等高速缓冲存储器中之前移除或减少来自图像的眩光。集成过程可通过从关键图像识别具有眩光的第一区，从非关键图像识别具有眩光的第二区来促进移除眩光，其中第一区及第二区表示场景的相同区；及使用关键图像及来自非关键图像的不具有眩光的第二区合成最终图像以移除眩光。

在一个实施例中，具有自动及智能OCR高速缓冲存储器更新的OCR高速缓存模式可在例如相机键盘等程序或应用程序打开时进行操作，且此模式在相机键盘关闭或以其它方式停止或暂停时被撤销启动。在一些实施例中，相机键盘可允许将由相机俘获的信息(例如，在图像中辨识或与场景的关键图像相关联的文本)输入到应用程序。此外，耦合到计算装置100的装置显示器还可在OCR高速缓存模式(在一些实施例中具有自动及智能OCR高速缓冲存储器更新)可进行操作(即，相机键盘打开，或者程序或应用程序被恢复或可以其他方式进行操作)时持续地显示OCR高速缓冲存储器1112的内容。而且，当相机键盘停止时，OCR高速缓冲存储器1112的高速缓存数据可从存储器被保存到装置存储器1120。装置存储器1120可为图1中所描述的存储装置125中的一者。并且，当相机键盘开始时，OCR高速缓冲存储器1112的高速缓存数据可从装置存储器1120被加载到存储器。在一个实施方案中，使用图像队列来实施OCR高速缓冲存储器1112。然而，链表、类对象或包括图像数目或数据量的任何其它合适的手段可用于实施OCR高速缓冲存储器1112。

图12描绘展示用于执行由本发明的实施例提供的方法的示范性组件的另一框图。除了图11中所说明的组件之外，图12具有跟踪模块1222，其持续地跟踪来自图像俘获模块1102的在OCR高速缓存模式中的场景，且在框1108中将输入馈送到匹配逻辑。在用户在相同场景之上持续地滑动移动装置以产生与场景相关联的较佳或较大图像时，跟踪场景尤其有助于帮助匹配逻辑。在此情形下，对于获得的每一新图像来说，匹配逻辑的复杂性及处理时间及功率显著降低。在一个实施例中，图形对象(及围绕图形对象用以将图形对象装框的相关联的框)的移动可用于解决匹配问题。从图11返回参看晚餐菜单实例，跟踪模块可在计算装置100悬停于晚餐菜单之上时经常地跟踪图像，且帮助计算装置100建立晚餐菜单的单个集成图像。在一些实施例中，模块1104、1106、1108、1110、1112、1114、1116、1124及1222中的一或多者实施于装置100的一或多个处理器或处理核心中，例如处理器110中。

图13A及图13B描绘用于含有文本的图像的示范性场景描述符。图13A为由场景描述符产生器1106产生的场景描述符。场景描述符包括例如图像分辨率、颜色深度及其它此些图像特性等图像数据。另外，场景描述符可包括与每一文本字相关联的特性，例如文本内容、所关注的区(ROI)、与使用OCR的字的恰当辨识相关联的置信度、估计的文本颜色及背景颜色。

图13B说明更新的场景描述符。一旦计算或更新每一图像的能量，场景描述符的能量值便可由选择模块1110及集成模块1114更新。类似地，如果在集成模块1114处将新文本添加到OCR高速缓冲存储器1112的关键图像，那么可添加新文本的额外条目(例如，图13B中的文本N+1)。

图14描绘说明用于从图像移除或减少眩光的本发明的实施例的图。在室内设定中使用相机150获得的图像有时会受反射眩光影响。举例来说，晚餐菜单可具有来自晚餐灯的从菜单反射的眩光。反射眩光可使用于俘获、检测及辨识图像的基于相机的应用(例如光学字符辨识(OCR))的性能降级。反射眩光可由所关注的区与眩光源之间的显著辉度比引起。例如所关注的区、眩光源及相机之间的角度等因素会对眩光的体验具有显著影响。

本发明的实施例提供用于使用来自两个或两个以上位置的相同所关注的主体的图像检测及减少反射眩光的技术。图像可通过在两个或两个以上位置之间移动相机150或通过使用例如立体相机等多个相机150获得图像。从两个或两个以上位置获得图像允许改变相机相对于眩光源及所关注的区之间的角度。两个从稍微不同有利位置获得的图像可表示相同的所关注的对象的图像的不同部分中的眩光，从而允许合成具有减少的眩光的图像。

图14为表示本发明的示范性实施例的框图。在图14中，具有耦合到装置(装置1402)的立体相机150的立体相机计算装置用于获取相同的所关注的对象的两个或两个以上图像。在一个实施方案中，同时获取图像。在另一实施例中，可在不同时间使用单个相机从不同有利位置一个接一个地获取图像。如图14中所见，使用左视图获取的图像(图像1404)及使用右视图获取的图像(图像1406)两者皆具有反射眩光(1410及1412)。然而，因为相对于眩光源及所关注的对象的两个相机俘获图像的角度是不同的，所以眩光存在于图像的不同部分中。如图14中所示，本发明的实施例使用左视图图像及右视图图像合成增强图像。在一个实施例中，将两个图像合成为一个增强图像可由集成模块1114执行。一旦计算装置100在匹配模块1110处识别两个匹配图像，集成模块可通过移除或减少眩光增强图像，从而产生最终图像1408，之后将所述最终图像存储于OCR高速缓冲存储器1112中，如下文图15中所进一步论述。

图15为说明根据本发明的一或多个说明性方面的用于减少或移除图像中的反射眩光的本发明的实施例的流程图。根据一或多个方面，本文中所描述的方法及/或方法步骤中的任一者及/或全部可由计算装置100实施及/或实施于计算装置100中，例如计算装置100及/或例如图1中更详细所描述的装置。在一个实施例中，下文参看图15所描述的方法步骤中的一者或一者以上由装置100的处理器(例如，处理器110或另一处理器)实施。图11及图12中所论述的模块及组件(例如，场景描述符产生器1106、匹配模块1108及/或集成模块1114)也可实施为计算装置100的组件，且可用于执行如图16中所论述的本发明的实施例。另外或替代性地，本文中所描述的方法及/或方法步骤中的任一者及/或全部可实施于计算机可读指令中，例如存储于计算机可读媒体(例如，存储器135、存储装置125或另一计算机可读媒体)上的计算机可读指令。

在一个实施例中，立体相机150可用以从两个不同位置获取所关注的对象的两个图像。在另一实施例中，从两个不同位置一个接一个地获取两个图像。在步骤1502处，获取来自左视图的第一图像，且在框1504处，获取来自右视图的第二图像。在框1502及1504处执行的步骤可同时或一个接一个地发生。在另一实施例中，从相机150接收的图像及来自OCR高速缓冲存储器1112的图像可用于从存储于OCR高速缓冲存储器1112中的图像移除眩光，或可使用来自OCR高速缓冲存储器1112的两个图像。在步骤1506处，可提取来自两个图像的特征，且可导出两个图像之间的几何关系。在一个实施例中，OCR引擎1104及场景描述符产生器1106可识别图像中的各种图形对象及其彼此的关系，如先前在图4中所论述的。在另一实施例中，使用常规特征提取算法(例如，哈里斯角点、快速角点等)来提取特征。可估计及消除眩光区中的特征。匹配模块1110可使用匹配过程将图像与图像的例如图形对象等特征进行匹配。在另一实施例中，可使用常规描述符(SIFT、SURF等)及例如RANSAC(随机抽样一致性)等匹配方案来匹配特征。基线约束系统可用于限制用于发现特征之间的对应的搜索空间。在框1508处，图像可基于其几何关系而对准。此外，检测图像的眩光区。在一个实施例中，通过检测两个图像的重叠区之间的差异来确定眩光区。在一个实施方案中，计算装置100通过检测来自相同场景的第一图像及第二图像的多个特征的差异而识别图像中的一者的一个区中的眩光。举例来说，在一些实施例中，区中的减少数目个特征可用以识别眩光。

最终，在框1510处，例如用集成模块1114使用集成过程，可通过合成两个图像，使用来自具有较少眩光的两个图像的重叠区以用于减少眩光效果来产生增强图像。在一个实施例中，本发明的实施例从来自第一场景的两个或两个以上图像的图像中的一者识别具有眩光的第一区，及从来自第一场景的两个或两个以上图像的第二图像识别不具有眩光的第二区，其中第一区及第二区表示第一场景的相同区。使用第一图像及第二图像，可合成具有减少眩光或不具有眩光的最终图像。例如选择在两个图像之间的信息补丁、扩增前景及背景以用于较佳辨识等不同技术可用于合成图像。具有减少或移除的眩光的合成的图像可存储于例如OCR高速缓冲存储器1112等高速缓冲存储器中。

应了解，图15中所说明的特定步骤提供根据本发明的实施例的在操作模式之间切换的特定方法。也可在替代实施例中相应地执行步骤的其它序列。举例来说，本发明的替代实施例可执行上文中按不同次序概述的步骤。为了进行说明，用户可选择从第三操作模式改变到第一操作模式，从第四模式改变到第二模式，或其间的任何组合。此外，图15中所说明的个别步骤可包含可在对个别步骤来说适当时按各种序列执行的多个子步骤。此外，取决于特定应用，可添加或移除额外步骤。所属领域的技术人员将认识到及了解到过程的许多变化、修改及替代例。

图16描绘使用计算装置100(在具有自动及智能OCR高速缓冲存储器更新的OCR高速缓存模式中操作的移动装置)的简化表示的用户接口的示范性实施方案。举例来说，用户接口可由输出装置120显示。图16A、16B、16C及16D表示在连续时间点处的计算装置100。位于计算装置100的顶部处的区域1604表示经由耦合到计算装置100的相机的透镜对用户可见的视野。描绘成朝向图的底部的窄条带表示OCR高速缓冲存储器1112。在一个方面中，OCR高速缓冲存储器1112中的图像的表示可由用户检视为描绘为朝向移动装置(1606、1608及1610)的底部的窄条带中的缩略图。在一个实施例中，在条带而不是图像中描绘OCR结果。在另一实施例中，描绘图像及OCR结果两者。用户可选择OCR高速缓冲存储器图像且通过选择文本及执行常见文本编辑功能(例如，剪辑、复制及粘贴)来操纵图像中的文本。在示范性用户状况下，用户可通过通过触摸显示上文所描述的用户接口的触摸屏上的图像或OCR结果从OCR高速缓冲存储器中选择文本。选择窄条带中的图像可致使例如待显示于区域1604中的图像的大小增加，使得可以更大精度来选择OCR结果。在一些实施例中，选择可直接来自窄条带。由用户例如基于用户的触摸或无触摸手势(其可由用户的手、手指、眼睛、头或由用户控制的其它条目执行)识别或选择的信息可经转译、提交以供执行搜索，或以其它方式输入到程序或应用程序中，例如输入到文本框中。在一些实施例中，图像或OCR结果的数目可大于可显示于计算装置100的屏幕上的数目。在一个此类实施例中，例如通过在触摸屏上轻划手指以便使条带前进或收回，用户可在图像或结果之间进行滚动或以其它方式双态触发可见图像或结果。

参看图16A，场景1可表示相机150的视野。根据本发明的实施例，相机150可俘获表示场景1的图像，且将具有场景描述符的图像存储于OCR高速缓冲存储器中，因为在与图16A相关联的时间处，OCR高速缓冲存储器1112是空的。在图16B中，场景2在相机的视野中。相机150可俘获表示场景2的图像。使用本文中所论述的技术，装置100的组件执行匹配过程且比较来自OCR高速缓冲存储器的针对场景1所俘获的图像与针对场景2所俘获的图像。因为图像属于不同场景，所以未发现匹配，且用针对场景2所俘获的图像来更新OCR高速缓冲存储器。

在图16C中，场景1再次在相机150的视野中。表示场景1的图像由相机150获得。这时当装置的组件执行接收的图像的场景描述符与存储于OCR高速缓冲存储器中的图像的场景描述符之间的比较时，发现匹配。使用来自场景描述符的两个图像的计算的能量，可从两个图像中选择关键图像。作为集成过程的部分，在非关键图像中发现的任何独特字可被添加到图像，且可更新场景描述符。此外，场景描述符中的任何字或结果可由具有较高置信度的其它字或结果来更新或替换。在图9及图10中更详细地描述集成过程。在一个实施方案中，另外，还可从关键图像减少或移除眩光，如图14及15中所论述。如图16C中所示，用新图像及场景描述符来更新场景1的OCR高速缓冲存储器1112。类似于图16B，图16D具有在视野中的新场景。俘获表示场景3的图像，且用新图像来更新OCR高速缓冲存储器1112。在一些实施例中，关键图像按识别场景的次序显示于窄条带中，例如图图16A到16D中所说明。在一些实施例中，关键图像的次序基于最近所检测的哪一场景而变化。举例来说，表示最近检测到的场景的关键图像可总是展示于窄条带的远端左侧处。可另外或替代地使用显示关键图像的其它次序或技术。

如本文中所描述的高速缓冲存储器更新可能对用户来说是有利的，因为这可允许用户存取与相同场景或与多个场景相关联的所有信息。此外，在随着时间的过去与相同场景的多个图像之间的图像信息重叠的情况下，本文中所描述的技术可存储与场景相关联的最佳信息或新获取的信息，因此随着时间的过去进一步细化结果。与本文中所描述的技术相关联的其它优势可包含存储OCR结果所需要的减少的存储器空间及对OCR高速缓冲存储器的减少的命中数目，从而导致整个系统中的较快性能。

Claims

1.一种用于执行光学字符辨识的方法，其包括：

接收多个图像；

辨识所述多个图像中的每一者中的数据，其中辨识所述多个图像中的每一者中的数据包括对所述多个图像执行光学字符辨识；

至少部分基于所述辨识的数据确定所述多个图像中的至少两个图像包括来自第一场景的信息；

基于每一图像中辨识的数个图形对象及用于所述数个图形对象中的每一者的辨识的置信度计算所述至少两个图像的每一者的能量；

使用所述至少两个图像中的至少一个图像及与所述至少一个图像相关联的所述辨识的数据来存储表示所述第一场景的最终图像，其中所述至少一个图像包括关键图像，所述关键图像通过比较与所述至少两个图像的每一图像相关联的能量而被选择。

2.根据权利要求1所述的方法，其中所述接收包括使用相机连续俘获所述多个图像。

3.根据权利要求1所述的方法，其中维持所述多个图像中的所述至少一个图像及所述至少一个图像的所述辨识的数据的存储，同时俘获后面的图像且在所述后面的图像中辨识数据。

4.根据权利要求1所述的方法，其中在存储所述最终图像之前，所述方法进一步包括使用所述至少两个图像及与所述至少两个图像相关联的所述辨识的数据来合成所述最终图像，其中所述存储包括存储所述合成的图像。

5.根据权利要求4所述的方法，其中所述合成包括将来自所述至少两个图像中的第二图像的元素并入到所述至少一个图像中以创建所述最终图像。

6.根据权利要求4所述的方法，其中所述最终图像包括所述至少一个图像，其中所述合成包括将所述至少两个图像中的第二图像的所述辨识的数据并入到所述至少一个图像的所述辨识的数据中。

7.根据权利要求1所述的方法，其中所述确定包括比较所述至少两个图像中的每一者中的图形对象值、图形对象颜色、背景颜色及前景颜色中的一或多者。

8.根据权利要求1所述的方法，其进一步包括确定所述多个图像中的一或多个图像包括来自除了所述第一场景之外的一或多个场景的信息，及显示所述最终图像及分别表示所述一或多个场景的一或多个图像，或显示所述至少一个图像及所述一或多个场景的所述辨识的数据。

9.根据权利要求8所述的方法，其进一步包括确定用户选择了显示的图像中的一者或所述一个图像的所显示的辨识的数据，及将与选择的图像或辨识的数据相关的信息输入到程序中。

10.根据权利要求1所述的方法，其中在存储所述最终图像之前，所述方法进一步包括：

从来自所述第一场景的两个或两个以上图像的第一图像中识别具有眩光的第一区；

从来自所述第一场景的所述两个或两个以上图像的第二图像中识别不具有眩光的第二区，其中所述第一区及所述第二区表示所述第一场景的相同区；及

使用所述第一图像及来自所述第二图像的不具有眩光的所述第二区合成具有减少的眩光的所述最终图像。

11.一种移动装置，其包括：

一个或多个处理器；

一个或多个计算机可读存储装置，其耦合到所述一个或多个处理器；

存储在所述一个或多个计算机可读存储装置中且经配置以被所述一个或多个处理器执行的多个模块，所述多个模块包括：

图像模块，其经配置以接收多个图像；

OCR引擎，其经配置以使用光学字符辨识来辨识所述多个图像中的每一者中的数据；

匹配模块，其经配置以至少部分基于所述辨识的数据确定所述多个图像中的至少两个图像包括来自第一场景的信息；

选择模块，其经配置以从所述至少两个图像中选择至少一个图像，其中选择所述至少一个图像包括基于每一图像中辨识的数个图形对象及用于所述数个图形对象中的每一者的辨识的置信度计算所述至少两个图像的每一者的能量；及

集成模块，其经配置以使用所述至少两个图像中的至少一个图像及与所述至少一个图像相关联的所述辨识的数据来存储表示所述第一场景的最终图像，其中所述至少一个图像包括关键图像，所述关键图像通过比较与所述至少两个图像的每一图像相关联的能量而被选择。

12.根据权利要求11所述的装置，其中所述图像模块经配置以使用耦合到所述装置的相机连续俘获所述多个图像。

13.根据权利要求11所述的装置，其中在存储所述最终图像之前，所述集成模块经进一步配置以使用所述至少两个图像及与所述至少两个图像相关联的所述辨识的数据来合成所述最终图像，且其中所述存储包括存储所述合成的图像。

14.根据权利要求13所述的装置，其中所述合成包括将来自所述至少两个图像中的第二图像的元素并入到所述至少一个图像中以创建所述最终图像。

15.根据权利要求13所述的装置，其中所述最终图像包括所述至少一个图像，其中所述合成包括将所述至少两个图像中的第二图像的所述辨识的数据并入到所述至少一个图像的所述辨识的数据中。

16.根据权利要求11所述的装置，其中所述确定包括比较所述至少两个图像中的每一者中的图形对象值、图形对象颜色、背景颜色、前景颜色及围绕辨识的文本的边界框中的一或多者。

17.根据权利要求11所述的装置，其中所述匹配模块确定所述多个图像中的一或多个图像包括来自除了所述第一场景之外的一或多个场景的信息，且其中所述装置进一步包括经配置以显示所述最终图像及分别表示所述一或多个场景的一或多个图像或针对所述至少一个图像所辨识的数据或显示所述至少一个图像及所述一或多个场景的所述辨识的数据的装置显示器。

18.根据权利要求17所述的装置，其进一步包括输入装置，其经配置以接收显示的图像中的一者的用户选择或所述一个图像的所显示的辨识的数据，其中将与选择的图像或辨识的数据相关的信息输入到程序中。

19.根据权利要求18所述的装置，其中使用所述输入信息提交因特网查询，基于所述输入信息确定转译，或将对应于所述输入信息的文本键入到文本框中。

20.根据权利要求11所述的装置，其中在所述集成模块存储所述最终图像之前，所述匹配模块经进一步配置以：

从来自所述第一场景的两个或两个以上图像的第一图像中识别具有眩光的第一区；及

从来自所述第一场景的所述两个或两个以上图像的第二图像中识别不具有眩光的第二区，其中所述第一区及所述第二区表示所述第一场景的相同区，

其中所述集成模块经配置以使用所述第一图像及来自所述第二图像的不具有眩光的所述第二区合成具有减少的眩光的所述最终图像。

21.一种用于执行光学字符辨识的设备，其包括：

用于在移动装置上接收多个图像的装置；

用于辨识所述多个图像中的每一者中的数据的装置，其中辨识所述多个图像中的每一者中的数据包括对所述多个图像执行光学字符辨识；

用于至少部分基于所述辨识的数据确定所述多个图像中的至少两个图像包括来自第一场景的信息的装置；

用于基于每一图像中辨识的数个图形对象及用于所述数个图形对象中的每一者的辨识的置信度计算所述至少两个图像的每一者的能量的装置；

用于使用所述至少两个图像中的至少一个图像及与所述至少一个图像相关联的所述辨识的数据来存储表示所述第一场景的最终图像的装置，其中所述至少一个图像包括关键图像，所述关键图像通过比较与所述至少两个图像的每一图像相关联的能量而被选择。

22.根据权利要求21所述的设备，其中所述用于在移动装置上接收多个图像的装置包括用于使用相机连续俘获所述多个图像的装置。

23.根据权利要求21所述的设备，其中维持所述多个图像中的所述至少一个图像及所述至少一个图像的所述辨识的数据的存储，同时俘获后面的图像且在所述后面的图像中辨识数据。

24.根据权利要求21所述的设备，其中所述设备进一步包括用于在存储所述最终图像之前使用所述至少两个图像及与所述至少两个图像相关联的所述辨识的数据来合成所述最终图像的装置，其中所述存储包括存储所述合成的图像。

25.根据权利要求21所述的设备，其中所述用于至少部分基于所述辨识的数据确定所述多个图像中的至少两个图像包括来自第一场景的信息的装置包括用于比较所述至少两个图像中的每一者中的图形对象值、图形对象颜色、背景颜色及前景颜色中的一或多者的装置。

26.根据权利要求21所述的设备，其包括用于确定所述多个图像中的一或多个图像包括来自除了所述第一场景之外的一或多个场景的信息的装置，及用于显示所述最终图像及分别表示所述一或多个场景的一或多个图像的装置，或用于显示所述至少一个图像及所述一或多个场景的所述辨识的数据的装置。

27.根据权利要求26所述的设备，其进一步包括用于确定用户选择了显示的图像中的一者或所述一个图像的所显示的数据的装置，及用于将与选择的图像或辨识的数据相关的信息输入到程序中的装置。

28.根据权利要求21所述的设备，其进一步包括：

用于从来自所述第一场景的两个或两个以上图像的第一图像中识别具有眩光的第一区的装置；

用于从来自所述第一场景的所述两个或两个以上图像的第二图像中识别不具有眩光的第二区的装置，其中所述第一区及所述第二区表示所述第一场景的相同区；及

用于使用所述第一图像及来自所述第二图像的不具有眩光的所述第二区合成具有减少的眩光的所述最终图像的装置。