CN113170049A

CN113170049A - 使用场景改变触发自动图像捕获

Info

Publication number: CN113170049A
Application number: CN201980082301.4A
Authority: CN
Inventors: O·N·蒂瓦里; A·阿加瓦尔; R·布普塔尼; M·斯里德哈兰; S·塔尔雷贾; A·钱德拉
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2018-12-27
Filing date: 2019-12-20
Publication date: 2021-07-23
Anticipated expiration: 2039-12-20
Also published as: WO2020139726A1; US11057558B2; US20200213509A1; CN113170049B; KR20210105975A; EP3881527A1

Abstract

相机接收的一系列帧或实时图像可由自动图像捕获系统处理以确定何时应该进行自动图像捕获。该系统可通过比较两个或更多帧的数据来检测何时发生场景改变。如果场景改变之后是场景的稳定，则系统可以触发稳定场景的自动捕获，而不需要用户输入。

Description

使用场景改变触发自动图像捕获

背景技术

包括相机的计算设备已经变得越来越普遍和可移动，并且计算设备包括诸如膝上型计算机、平板PC、数字相机设备、移动电话、超移动PC以及其他移动数据、消息传递和/或通信设备的设备。用户可利用与计算设备相关联的相机来拍摄场景的不同图片以及捕获演示文稿、白板、名片、文档、草图、绘画等的图像。然后，用户可以参考所捕获的图像以调用其中所包含的信息，例如图表、图片、列表和其他文本等。在许多情况下，用户想要将来自所捕获图像的信息用在他们自己的文档、笔记和/或演示文稿中。

用于捕获图像的传统技术涉及依赖于用户输入来捕获场景的照片应用程序的使用。换言之，用户必须启动相机和/或应用程序，对准期望的场景，并点击以捕获图像。遗憾的是，在保持聚焦在屏幕上的期望对象上的同时，单手操作电话并点击照片以实现稳定、干净的照片仍然是具有挑战性的。此外，难以实现电话相机的不用手操作的布置。因此，仍然需要以最小的用户精力来高效捕获数字内容的新的和改进的想法。

发明内容

根据本公开的第一方面的系统，包括至少一个处理器和一个或多个计算机可读介质。该计算机可读介质包括指令，该指令在由至少一个处理器执行时，使得至少一个处理器在第一时间接收对应于第一真实场景的第一图像，以及在第一时间之后的第二时间接收对应于第二真实场景的第二图像。另外，该指令使得至少一个处理器确定第一图像与第二图像相差至少第一量，并且在第二时间之后的第三时间接收对应于第三真实场景的第三图像。此外，该指令使得至少一个处理器确定第二图像与第三图像基本相似，且响应于确定第二图像与第三图像基本相似，经由相机光学系统自动捕获第三图像的至少第一区域。

根据本发明的第二方面的方法包括在第一时间接收对应于第一真实场景的第一图像，以及在第一时间之后的第二时间接收对应于第二真实场景的第二图像。该方法进一步包括确定第一图像与第二图像相差至少第一量，并且在第二时间之后的第三时间接收对应于第三真实场景的第三图像。此外，该方法包括确定第二图像与第三图像基本相似，然后响应于确定第二图像与第三图像基本相似，经由相机光学系统自动捕获第三图像的至少第一区域。

根据本公开的第三方面的系统包括至少一个处理器和一个或多个计算机可读介质。该计算机可读介质包括指令，该指令在由至少一个处理器执行时，使得至少一个处理器经由相机接收包括第一图像帧和后续第二图像帧的多个图像帧，以及确定第一图像帧与第二图像帧之间已发生场景改变。该指令使得至少一个处理器在接收到第二图像帧之后经由相机接收第三图像帧，并且确定在第二图像帧与第三图像帧之间已发生场景稳定。此外，该指令使得至少一个处理器至少基于确定发生场景改变和发生场景稳定，发起对在第三图像帧之后接收的第四图像帧的自动捕获。

提供本发明内容以便以简化形式介绍选择的概念，这些概念将在下面的具体实施方式中进一步描述。本发明内容不旨在确定所要求保护的主题的关键特征或必要特征，也不旨在用于限制所要求保护的主题的范围。此外，所要求保护的主题不限于解决本公开的任何部分中提到的任何或所有缺点的实施方式。

附图说明

附图仅以举例而非限制的方式描绘了根据本教导内容的一个或多个实施方式。在附图中，相同的参考标号指代相同或相似的元件。此外，应当理解，附图不一定是按比例的。

图1A-1C各自示出了图像捕获应用程序和环境的实施方式；

图2是示出了用于管理图像的捕获的分布式计算环境的一个实施方式的概念图；

图3A和3B是两个真实场景的图像捕获的示例；

图4A和4B是图3A和3B的两个图像的直方图的示例；

图5A和5B是两个基本相似的真实场景的图像捕获的示例；

图6A和6B示出了被配置为管理图像存储的应用程序的自动图像捕获的实施方式和用户接口的实施方式；

图7A-7D是具有相应直方图的图像稳定之后跟随有场景改变的示例；

图8A和8B是新真实场景的图像稳定和相应的直方图的示例；

图9A和9B示出了被配置为管理图像存储的应用程序的自动图像捕获的实施方式和用户接口的实施方式；

图10是自动图像捕获工具的实施方式的过程流程图；

图11是示出了用于管理自动图像捕获的过程的实施方式的流程图；

图12是可用于提供本文描述的机制的实施方式的示例计算设备的框图；并且

图13是示出了被配置为从机器可读介质读取指令的示例机器的组件的框图。

具体实施方式

在下面的详细描述中，为了提供对相关教导的全面理解，通过示例阐述了许多具体细节。然而，应当显而易见的是，可以在没有这些细节的情况下实践本教导。在其他情况下，为了避免不必要地使本教导的各方面变得晦涩，已经在相对较高的水平上描述了公知的方法，过程，组件和/或电路，而没有细节。

以下实施方式介绍了图像捕获应用程序工具箱，以方便用户进行相机操作。所提出的系统通过检测场景改变和随后的场景稳定而触发的自动图像捕获过程来为用户提供更直观、更简便的体验。在一些实施方式中，该系统可被配置为接收一系列图像或帧，并且将最近接收的图像与先前接收的图像进行比较以确定是否已发生或正在发生场景改变。传统上讲，图像捕获工作流程包括一系列步骤，其中用户可以：(1)使相机对准真实场景；(2)稳定相机并等待相机对焦；(3)提供触发捕获的输入；(4)捕获照片；以及(5)根据需要重复这些步骤以拍摄多张照片。由此，为了确保捕获到期望的场景，除了使相机对准以将镜头朝着场景定向之外，用户必须提供确认应捕获此场景的后续输入。在许多情况下，此后续输入会导致相机不稳定、相机焦点改变、图像模糊，或意味着错过特定场景或无法对特定场景正确取景的延迟。此外，需要用户输入意味着，为了确保捕获到图像，用户不能离开相机或参与任何其他活动。此外，在存在各种场景的要捕获的多个图像的情况下，该过程对于用户而言会变得重复、耗时和无聊。所公开的实施方式允许用户激活自动捕获模式，在自动捕获模式中，这些实施方式可将相机对准或以其他方式定向到一个或多个真实场景，并且在没有进一步的用户输入的情况下，自动捕获场景的照片。在一些实施方式中，当确定场景不同于先前查看或捕获的场景并且该场景在由系统启发式地确定的预定义时间段内是稳定的时候，将触发系统。作为一些示例，该时段可以在40ms和500ms之间。在一些实施方式中，该时段可以在大约100ms与200ms之间。在一个实施方式中，该时段可被设置为150ms。这样的系统可以为用户提供无需重复输入就可以捕获图像的能力，并且在一些实施方式中，提供允许用户在图像捕获期间参与其他活动而不会损失图像质量或失去时机的自动捕获模式。

如上文所介绍，可使用不同应用程序来接收、捕获和/或呈现数字图像或电子内容。出于本说明书的目的，术语“电子内容”或“图像”包括可以可视地表示的任何数字数据，包括但不限于电子文档、媒体流、实时视频捕获、实时图像显示、文档、网页、超文本文档、任何图像、数字视频或视频记录、动画、和其他数字数据。作为示例，此电子内容可包括由摄影应用程序捕获的图像，或被配置为向用户提供与数字图像一起使用的工具的其他软件。

此外，在一些类型的文档内，电子内容可被理解为包括一个或多个单元或被分割成一个或多个单元，这些单元将被称为图像内容区域(“内容区域”)或更简单地称为区域。出于本申请的目的，术语“区域”描述了可识别和/或可选择为图像的不同或离散片段的数字内容的部分。作为示例，电子内容(如数字照片)的一个集合可以被表征为多个区域或由多个区域表征，每个区域可包括一个或多个图像内容部分(“内容部分”)。在不同的实施方式中，第一图像内容区域可与同一图像中的另一第二图像内容区域的一部分重叠。由此，内容区域包括可由系统定义或识别的电子内容的任何部分。例如，内容区域可以从内容部分本身的特征或相对于其他内容部分的特征(例如，颜色、亮度水平、边缘检测、形状、符号、像素)被自动识别，或者可以由审阅者或最终用户手动定义(例如，选定像素集或对象)，或者是数字图像的任何其他选定部分。

此外，出于本申请的目的的最终用户(或“用户”)是捕获、编辑、查看、管理、或删除多条电子内容(包括创建、查看、或更新电子内容中的选定区域)的用户。最终用户包括应用程序，以及本文所述的设备和系统的用户。此外，出于本说明书的目的，术语“软件应用程序”、“软件”、或“应用程序”是指执行有用工作的计算机程序，通常与计算机本身无关。软件应用程序的一些非限制性示例包括摄影软件、图像捕获/编辑应用程序、文字处理器、电子表格、幻灯片、演示设计应用程序、会计系统和电信程序，以及游戏软件、实用工具和生产力工具、移动应用程序、演示图形和其他生产力软件。

可包含所公开特征的软件应用程序可安装在客户端设备上，或与第三方应用程序相关联，例如被配置为与该设备进行通信的Web浏览器应用程序。这些设备可包括例如台式计算机、移动计算机、移动通信设备(诸如移动电话、智能电话、平板电脑等)、智能电视、游戏设备、机顶盒和/或包括相机和/或图像显示能力的任何其他计算设备。一般来说，这些应用程序允许最终用户使用由相机接收的图像或从存储器中存储或访问的图像来捕获或扫描文档、演示文稿、真实世界对象和其他主题。此外，在一些实施方式中，基于相机的扫描应用程序可被配置为校正对矩形或其他多边形对象(诸如纸张、名片、白板、屏幕等)的透视效果。

为了简单起见，以下实施方式在移动计算设备(诸如移动电话和平板计算机)的上下文中论述系统的使用。然而，具有相机的任何电子设备都可以从这些系统的使用中受益。这些设备可向用户提供若干输入机制，包括主页按钮、电源按钮、模式按钮和/或相机快门(图像捕获)按钮，这些输入机制可作为硬件来安装，也可以通过可显示触摸屏相机快门按钮的触摸屏显示器来获得。在一些情况下，用户可选择使用触摸屏相机快门按钮而非机械相机快门按钮。在一些情况下，移动设备的相机快门按钮可以配备有将“半按”和“全按”检测为不同的单独动作的能力。例如，半按是指按钮或其他控件的部分致动，而全按是指按钮或控件的超过确定极限的进一步致动。在一些示例中，设备可包括双动作相机快门按钮，该按钮可以检测半按(其中通过移动设备接收与自动对焦功能相关联的输入数据)并且还可以检测全按(其中接收与相机调用和图像捕获相关联的输入数据)。另外，一些设备可包括面向前方的镜头和面向后方的镜头中的一者或两者，以及麦克风。

在经由触摸屏显示器提供输入机制的情况下，还可使用附加选项来控制图像捕获功能的子集。在不同实施方式中，此类控件可包括静态图像捕获模式按钮、视频捕获模式按钮、自动图像捕获模式按钮、放大和缩小控件、以及选项或设置控件。如将在下文进一步详细描述的，自动图像捕获模式按钮可被实现为用于进入和退出自动捕获模式的拨动开关。换言之，一旦自动捕获模式开启，再次按压模式按钮将构成自动捕获功能的覆盖(override)。在一个实施方式中，自动捕获模式也可通过其他机制(诸如激活相机快门按钮)来停用。自动图像捕获系统的一些实施方式可在静态图像捕获模式或视频捕获模式下使用。

可以理解，电子快门的使用是一个方面，其中移动设备中的数字电子相机通常不同于常规的独立的数字相机。从用户激活图像捕获到实际捕获图像之间，电子快门往往会具有较长的“快门滞后时间”。像慢快门速度一样，较长的滞后时间可能会由于图像捕获期间相机振动造成的模糊而导致图像质量下降。移动设备中的数字电子相机与独立的数字相机之间的另一差别在于在与移动设备一起使用的相机中，镜头光圈通常较小。因此，较少的光进入镜头，所以必须使用较慢的快门速度来补偿较小的光圈尺寸。

对于常规的SLR(单镜头反光)或对准即拍数码相机，可在低光条件下使用三脚架来稳定相机主体并防止振动使图像的清晰度降低。然而，使用三脚架需要准备，这是不方便的，并且因此三脚架通常不是用于相机电话摄影的可行解决方案。因此，相机电话通常不配备有三脚架螺钉或其他安装硬件，从而排除了附接三脚架或其他稳定结构以克服与移动设备集成的相机的构造中固有的图像质量缺点。然而，如本文将描述的，通过使用自动捕获系统可以容易地减轻这些类型的缺点。

以下实施方式被配置为向用户提供无需手动指导或输入即可使用相机捕获图像的能力。这样的应用程序使得用户能够使用他们选择的设备来捕获一个或多个图像，而不会出现与手动用户输入相关联的延迟或运动。在不同实施方式中，当正在查看的场景改变时，用户可能希望在一段时间内捕获一系列图像。使用该系统，用户可以将便携式设备的相机对准对象并发起正在进行的自动捕获或记录过程。

为了更好地向读者介绍该系统和方法，图1A-1C示出了用于实现自动图像捕获系统(在图2中更详细地示意性地示出该系统)的代表性图像捕获环境的示例。在不同的实施方式中，该环境可包括一个或多个计算设备最终用户，或可仅包括可以捕获、查看、编辑和/或修改图像的“用户”(例如，第一用户、第二用户、第三用户等)。一个或多个用户可与经由用户设备呈现的图像进行交互或对其进行操作。当用户查看诸如图像之类的电子内容时，可以检测图像的各个区域，或者可以以其他方式标识图像以用于潜在的捕获。在许多情况下，在通过相机查看真实世界景观时，会为用户呈现真实世界景观的“实时预览”。

在图1A中，示出了在第一时间108从第一真实场景(“第一场景”)106接收第一图像预览104的过程中的第一计算设备(“第一设备”)102。此外，图1B示出了在第二时间118从第二真实场景(“第二场景”)116接收第二图像预览114的过程中的第一设备102，以及图1C示出了在第三时间128从第二真实场景116接收第三图像预览124的过程中的第一设备102。每个预览都经由设备触摸屏显示器示出，该触摸屏显示器还用作用户界面。

为了简单起见，可以将第一场景106，第二场景116和第三场景126中的每一个理解为描绘了美术馆或博物馆的一部分。第一场景106和第二场景116包括重叠区域。另外，第二场景116和第三场景126基本相似，因为它们包括相同的主要对象。当与设备相关联的相机镜头定向到真实场景时，可以在设备的显示器150上预览对应的图像。

在一些但并非所有实施方式中，显示器150可被配置为在实时预览中从与第一设备102相关联的相机接收数据，并通过图像捕获或图像扫描应用程序在相机的视野中呈现项目或对象。在一个实施方式中，应用程序可以与图像预览相结合地提供或呈现图形用户界面，该图形用户界面在本文中称为图像内容查看界面(“界面”)。在一些实施方式中，可以在显示器150上或仅在显示器150的一部分上“全屏”呈现界面，和/或界面可以是基本上透明或半透明的，使得与屏幕或图像的交互由应用程序接收，而图像本身仍然保持大部分可见，不叠加妨碍图像视图的附加界面图形。然而，在其他实施方式中，图像捕获应用程序可呈现与图像相关联、覆盖在图像上或与图像相邻的各种图形元素，诸如菜单、设置或其他选项。

此外，应用程序可结合设备150的功能以实现本文所描述的基于相机的捕获技术。这里的界面被示出为取景器，该取景器可呈现由相机光学镜头接收的当前图像和/或在已拍摄图片或正在从存储器访问图片时，切换到呈现所捕获的图像(即，来自存储设备的)。另外，在一些实施方式中，用户能够通过与显示器150的取景器部分的交互来修改和/或选择所捕获图像的部分。

在一些其他实施方式中，界面可被配置为显示或呈现各种指示符以指导用户。例如，界面可以被配置为显示或呈现菜单、符号或其他可致动选项。通常，术语“界面”应被理解为是指用于通过客户端应用程序向应用程序用户传送内容的机制。例如，界面可包括可经由本机应用程序用户界面(UI)呈现给用户的弹出式窗口、控件、可致动的界面、交互式按钮或可通过本机应用程序UI显示给用户的其他对象、以及用于呈现与这些本机控件相关联的内容的特定应用程序固有的机制。此外，“致动”或“致动事件”是指经由界面的与应用程序的特定输入或使用相关联的事件(或特定事件序列)(诸如手指轻击、键盘命令、语音命令或鼠标点击)，该事件可触发应用程序或设备的显示或功能的改变。

在图1A中，第一图像预览106示出了第一场景106中的各个对象的投影，包括盆栽植物162、第一幅画164、第二幅画166的一部分以及地板170。当第一设备102的相机在第一时间108和第二时间118之间摇摄美术馆时，盆栽植物162不再在视图中，如图1B中的第二图像预览114所表示的。相反，第一幅画164、整个第二幅画166和第三幅画168以及地板170被投影在第二图像预览114中。随着相机在第二时间118与第三时间128之间继续向右摇摄，三幅画在预览中变得更加居中，如第三图像预览124中所示。换言之，所示出的图像在第二时间118和第三时间128之间保持基本相似。

在此过程期间，所公开的系统的实施方式可被配置为检测例如第一时间108和后续第二时间118之间的场景的改变。此外，系统可识别在第二时间118和后续第三时间128之间的场景的稳定。一旦发生此双重确定，系统便可触发正接收的当前图像的自动捕获。此过程可无限地重复，以允许在相机继续移动或场景另外改变时自动捕获多个图像。

现在参见图2，描绘了自动图像捕获系统(“系统”)200的代表性架构的示例。在不同实施方式中，系统200可被配置为呈现用于显示电子内容以及场景改变和稳定的指示的用户界面。系统200可进一步被配置为在作出场景状态和条件的确定时持续更新正被分析的图像数据的储存库。应当理解，此处呈现的系统200仅仅是示例性实施方式，为了清楚起见仅呈现了一些方面，并且各种各样的其他实施方式是可能的。

在图2中，系统200包括设备240。设备240可包括能够呈现图像和/或图像相关内容的任何类型的设备，诸如相机、移动电话、平板电脑、膝上型计算机、台式机、游戏设备、投影仪以及如上所述的其他此类设备。设备240可包括各种各样的硬件和软件组件。虽然在此示例中图像捕获应用程序250被示出为本地地安装在设备240上，但是在其他实施方式中，图像捕获应用程序250的一些或所有方面或特征可从另一设备访问或从云存储计算服务访问。

图像捕获应用程序250被配置为经由设备240的一个或多个组件和/或经由外部源来接收图像内容210。图像内容210可能是先前捕获的或从存储器214(本地、外部或基于云的存储器)访问的‘静态的’或者可以是‘实时的’且当前经由接收外部、真实世界数据204的相机212实时查看或捕获的。图像内容210可由图像捕获应用程序250接收并传送到图像处理器260，该图像处理器被配置为处理图像内容210的数据。在一些实施方式中，如下文将描述的，图像处理器260可接收图像内容210并经由直方图生成器模块262生成直方图。在一个示例中，直方图可包括或指代应用于图像内容并且可提供数字图像中的色调分布的数值和/或图形表示的任何类型的统计方法。在这种情况下，直方图可被配置为绘制每个色调值的像素的数量，并且允许图像分析器264查看图像的整个色调分布，并确定图像中每个像素的像素强度值。由此，直方图生成器262不仅可以产生基于图像的直方图，而且可以产生可指示在该图像中找到的图像中的每个不同强度值的像素的数量的数据。因为来自操作的确切输出将取决于所选择的实施方式，所以直方图可以是表示直方图统计数据的数据文件和/或用户同样可以访问的实际图形表示。

在一些实施方式中，可在考虑人类感知的情况下对彩色图像或视频进行编码的不同颜色编码系统中处理图像内容。在一些情况下，可以使用RGB颜色表示。然而，可能优选使用YUV颜色编码，因为它与色度分量的减小的带宽相关联，从而与使用“直接”RGB表示相比，通常可以使传输错误或压缩伪像被人的感知更有效地掩盖。由此，在一个实施方式中，该系统可包括YUV处理组件，该YUV处理组件可将图像(例如，RGB图像)转换成包括亮度(Y)和色度(U和V)分量的图像(其中UV色彩空间使用带宽分配方案对彩色图像进行编码，该方案考虑了人类颜色感知的频率依赖性)。在其他实施方式中，还可以或替代地使用颜色值。

图像分析器264可以接收每个图像内容的一些或全部直方图数据，图像分析器可进一步处理统计数据并且隔离或以其他方式标识图像的关键值。在一个实施方式中，亮度模块266可以扫描或查看数据以确定图像内容中链接到特定亮度值的像素的比例。该数据可被提交给像素强度数据存储模块270，像素强度数据存储模块可在存储器中保存最近处理的实时预览帧274的直方图和/或亮度数据以及所捕获的图像272的数据。这些数据将被传输到图像比较模块280并由图像比较模块评估。在一些实施方式中，可通过由丢弃模块278做出的确定来丢弃不再与比较过程相关和/或已经存储了超过预设时间段的数据。

在一些实施方式中，图像比较模块280可被配置为计算两个或更多个图像内容项之间的相关系数。如图2中所示，可将所计算的相关系数与由存储在阈值数据模块284中的判定阈值提供的值进行比较。这些阈值可由系统确定和/或可由用户经由设置选项进行自定义。在不同的实施方式中，该系统可被配置为通过比较两个或更多个图像的序列来检测场景的改变。系统经由差异计算器282可确定两个图像是相似的(即，场景是稳定的或场景尚未改变到足以保证做出场景已发生改变的判定)还是不同的(即，达到可以认为已发生场景改变的程度)。

在一些实施方式中，可通过计算连续图像帧的直方图之间的相关性来测量直方图“相似性”。可通过将直方图相关性与根据经验确定的三个颜色空间(例如，YUV)的判定阈值进行比较来确定场景之间的转变。对于任何两个连续帧，如果所有三个相关系数都低于判定阈值，那么可确定场景改变。否则，两个连续帧被分配到“相同场景”或“稳定场景”类别。在另一实施方式中，该判定可仅基于三个颜色空间中的一者或两者。换句话说，可通过隔离和使用Y颜色空间值来减小或最小化直方图数据大小。在这种情况下，可减少设备资源(包括存储和处理)的使用，同时提供与基于来自多个颜色通道的数据进行确定的情况基本相似的结果。因为图像比较模块280可以基于仅一个颜色通道来评估输入图像内容中的连续帧的颜色和强度直方图(例如，YUV通道的直方图)的相似性，所以该过程总体上在其实现和要求上的繁琐程度降低了。在一些实施方式中，差异计算器282可将直方图相关性与根据经验确定的仅一个颜色空间(例如，Y)的判定阈值进行比较。对于任何两个连续帧，如果相关系数低于判定阈值，那么可确定场景改变。否则，两个连续帧被分配到“相同场景”或“稳定场景”类别。

应理解，在不同的实施方式中，除了或替代上述直方图数据，所描述的系统可参考各种参数和标准。例如，该系统可被配置为利用一个或多个标准以便确定移动设备在自动捕获模式下运行时何时将自动捕获并存储图像。这些标准可包括自动对焦值、白平衡值、曝光值、设备稳定性值、清晰度值、增益值、降噪值、对比度值、闪光值、或其他此类图像质量和处理参数中的一个或多个。自动捕获模式设置可作为移动设备的常规设置的一部分被访问，在首次激活自动模式时被显示，或在激活自动模式时出现屏幕之后被显示，从而询问用户是否要改变设置。可以向用户提供选项来设置各种标准和参数的阈值以适合他们的偏好。由此，在一些实施方式中，当图像传感器感测的当前图像满足这些阈值时，可在没有来自用户的进一步输入的情况下捕获和存储图像。

这些结果可以被传送到结果模块290，该结果模块确定该信息是指示场景是稳定的(场景稳定组件294)还是指示场景已经改变(场景改变组件292)。自动图像捕获模块230可至少基于从结果模块290接收的信息触发当前图像的自动图像捕获。捕获的图像可存储在设备图像存储器242中。

在一些实施方式中，对于由图像传感器接收的每个新图像帧，图像统计数据(例如但不限于直方图数据)基本上是连续生成的，并且相机设置也可以连续调整。在一个实施方式中，这些图像数据尚未被视为“已捕获的”，因为它们尚未最终确定或经受某些去马赛克后处理过程，这些去马赛克后处理过程可能是计算密集型的并且不需要执行，除非打算将图像转换为最终图像(“已捕获的”)并存储。在一些实施例中，虽然可发生YUV处理(或仅Y处理)，但只有在要捕获图像时才会进行进一步的后处理步骤。

设备240还可以被配置为经由用户输入处理器270接收用户输入202。用户输入202可基于所使用的输入装置的类型而广泛地变化。在图2中，用户输入202可被理解为与用户正在查看或访问的图像捕获应用程序250的某个方面相关联或对应。在一个实施方式中，用户输入处理器270可经由图像捕获模式模块272接收打开或关闭自动捕获模式的数据。

为了清楚起见，现在将参考图3A-6B呈现自动图像捕获过程的一个实施方式。在图3A中，描绘了图像捕获应用程序(“应用程序”)304，该图像捕获应用程序由在第二设备300的显示器306上示出的照片捕获图形用户界面(GUI)来表示，该显示器呈现真实场景的实时预览。在不同实施方式中，应用程序304用于启动GUI和各种用户界面元素、特征和控件的显示，以促进经由相机(未示出)捕获图像、扫描和/或处理图像。

如前所述，在一些实施方式中，应用程序300可被配置为检测何时发生场景改变和场景稳定。图3A-6B中呈现了这种机制的示例，其中，GUI通过连接至或集成在第二设备350(在这种情况下，移动电话)中的相机呈现第一真实场景(“第一场景”)312的实时预览。在图3A中，第一场景312是风景，具体地是农田和天空的视图。用户302(由手表示)正拿着第二设备350，从而使得相机对第一场景312进行取景并在第一时间310在显示器306上产生第一图像帧(“第一图像”)316。在随后的第二时间320，用户302已经向前移动到更接近农田，并且相机对第二现实世界场景(“第二场景”)322进行取景，从而在显示器306上产生第二图像帧(“第二图像”)326。换言之，在第一时间310和第二时间320之间，由相机接收的场景已经改变。

在一些实施方式中，如上文关于图2所论述的，该系统被配置为检测场景的改变。参见图4A和4B，在第一时间310产生或显示的第一图像316与第一直方图314相关联，且在第二时间320产生或显示的第二图像326与第二直方图316相关联。当系统评估直方图数据时，可基于先前论述的统计分析确定两个图像基本不同。在一些实施方式中，如上所述，场景改变的检测可以发起朝向自动捕获的工作流程。

接下来参考图5A和5B，如果系统在确定场景改变发生的概率足够高时紧接着或之后不久，接收到指示正在查看的场景序列非常相似，足以被视为同一场景(即，场景稳定)的信息，则可以触发自动捕获。在图5A中，为了清楚起见，再次示出用户302(如图4B中)查看第二场景并接收第二图像326；下面还描绘了第二直方图324，以便与图5B的直方图进行比较。在图5B中，在图3A的第一时间310和第二时间320两者之后的第三时间330，用户302仍在查看大体相同的场景并且由此接收与第三直方图334相关联的第三图像帧(“第三图像”)336。在此示例中，系统接收这些帧的数据，并且确定第三图像336表示与第二图像326基本相同的场景的概率足够高。

响应于该确定，系统可被配置为触发当前查看的帧的自动捕获，如图6A所示。在第四时间340，系统启动对场景改变之后的基本稳定的场景的自动捕获。用户302在他们对设备的抓握或定位方面做几乎没有或没有改变；换言之，记录第四图像帧(“第四图像”)346的过程在没有用户输入的情况下发生。此外，在一些实施方式中，第四图像346可自动存储在与应用程序304相关联的指定文件夹中，如图6B所示。在该示例中，第四图像346已作为第一自动捕获图像328保存在“/存储器/相机”文件夹318中，并且经由捕获图像查看界面308访问。

在不同实施方式中，系统可包括用于即使在相机位置保持基本静止时也能检测场景改变的装置。例如，并非重新定向相机以接收不同帧，而是真实场景本身可移位、移动或以其他方式改变，从而在实时预览中生成不同的场景。在一些其他实施方式中，场景和相机都不可移动，但也可检测到场景改变。图7A-9B呈现了一个示例。在图7A中，用户再次被描绘为在第四时间340查看已经处理并与第四直方图344相关联的第四图像346。在随后的第五时间350，用户302已经移回以减小她与农田的接近度，并且相机正在对类似于图3A的第一真实场景的视图(在此由第五图像帧(“第五图像”)帧356表示)进行取景，该视图被处理并且然后与第五直方图354相关联。如上文所论述，系统可被配置为检测各种不同场景中的场景改变。

参考图7A和7B，系统可比较第四图像346和第五图像356的直方图数据。如果系统确定这两个图像是不同的，则系统可再次启动朝向自动捕获的工作流程。接下来参考图7C和7D，如之前所讨论的，如果系统在确定场景改变发生的概率足够高时紧接着或之后不久接收到指示正在查看的场景序列非常相似，足以被视为同一场景(即，场景稳定)的信息，则可以触发自动捕获。在图7C中，为了清晰起见，示出了用户302查看第三现实世界场景(“第三场景”)362，第五图像356(参见图7B)是基于该场景生成的。然而，在用户302继续查看第三场景362时，她还选择在第五时间350之后的第六时间360放大第五图像356的特定部分(此处被示为云和天空)。换句话说，尽管真实场景尚未改变，且相机尚未移动到可能会触发确定发生场景改变的程度，但是在用户302选择或隔离先前帧的特定部分时，该系统在一些实施方式中可被配置为将此识别为场景改变。

在图7D中，系统处理第六图像帧(“第六图像”)帧366以产生第六直方图364。可以容易地观察到第六直方图364(与第五图像356(图7B)的上部区域的放大相关联)不同于与图7B中的第五直方图354相关联的数据。由此，用户与应用程序本身的交互，而不是相机的重新定位或风景的改变，已经导致系统检测到场景改变，从而触发朝向自动捕获的工作流程。

在不同的实施方式中，应该发生场景稳定的最小时间段和/或帧数可以是默认值，或者可以由用户调整或自定义。接下来参考图8A，在第七时间370(在图7C的第六时间360之后)，用户302继续查看由第七图像帧(“第七图像”)376表示并且与第七直方图374相关联的基本相同的场景。在图8B中，在第七时间370之后的第八时间380处，用户302还继续查看由与第八直方图384相关联的第八图像帧(“第八图像”)386表示的基本相同的场景。因此，在一些实施方式中，系统在这种情况下可被配置为比较三个(或更多个)连续和/或基本连续的时间段(第六时间360、第七时间370和第八时间380)的直方图数据，而不是如之前图3A-6B所示的仅两个时间段的直方图数据。

在此示例中，系统接收这三个帧的数据，并且确定第八图像386表示与第七图像376和第六图像366两者基本相同的场景的概率足够高。响应于该确定，系统可触发当前查看的帧的自动捕获，如图9A所示。在第九时间390，系统启动对场景变化之后的基本稳定场景的自动捕获。用户302在他们对设备的抓握或定位方面几乎没有或没有改变；换言之，记录第九图像帧(“第九图像”)396的过程在没有用户输入的情况下发生。另外，在一些实施方式中，第九图像396可自动存储在与应用程序304相关联的指定文件夹中，如图9B中所示。在该示例中，第九图像396已作为第二自动捕获图像338保存在“/存储器/相机”文件夹318中，并且其经由捕获图像查看界面308访问。

如上所述，在一些实施方式中，系统可以包括用于调整场景稳定参数的装置。场景稳定性值可使用从与移动设备相关联的直方图和/或一个或多个加速度计和/或一个或一个以上陀螺仪接收的数据来计算。在一个实施方式中，一个直方图与第二直方图之间的差异幅度可在概念上被视为对应于用于确定场景是否稳定的灵敏度。在其他实施方式中，将阈值(参见图2)设置为特定值，但是对于直方图数据的任何改变或相似性必须满足的时间段和/或图像帧数，阈值是可变的。在这样的实施方式中，可变的时间段被用作场景稳定性值或者用作场景稳定性值中的因子。在其他实施方式中，阈值和时间段两者都随着场景稳定性值的变化而调整。用于确定场景稳定性和用于调整此确定的敏感度的其他技术也可与所公开系统的实施方式一起使用。作为一个非限制性示例，UI可以呈现一个交互式滑块，该交互式滑块在“低”(指示较低灵敏度，从而在确定场景是稳定还是静止时允许两个直方图之间有更大的差别)与“高”(指示较高灵敏度，在确定场景稳定还是静止时允许较少的差别)之间是可调整的。在其他实施方式中，UI可呈现可由用户设置的实际值。

在一些实施方式中，该系统可包括用于调整在设备处于自动捕获模式时拍摄的照片的数量的装置。作为一个示例，当移动设备在自动捕获模式下操作时，系统可被配置为以基本连续的操作自动捕获图像，直到自动捕获模式停用或捕获到预定数量的图像。在另一实施方式中，该系统可被配置为改变自动捕获模式激活与图像捕获和存储之间的暂停长度。例如，当移动设备首次被设置为自动捕获模式时，图像捕获和存储可能会暂时暂停，使得用户可将相机定向到预期对象的方向。

本文中所描述的示例标准和参数不应被解释为限制性的，因为可使用更少的标准或添加附加的标准。一般来说，图像捕获标准的任何组合或子组合均可用作用于触发自动图像捕获的阈值，并且可通过自动捕获模式设置屏幕来调整。另外，一旦设置了所需的图像捕获标准，用户就可以退出自动捕获模式设置屏幕。

为了清楚起见，图10示出了经由本文描述的系统中的一些系统启动相机上的自动捕获的过程的一个实施方式。应当理解，该过程的实施方式将被配置为主要作为用户选择自动捕获模式的结果而发生。在此示例中，第一阶段1210包括由相机接收初始图像。例如，图像可为通过相机的光学镜头投影的场景的实时预览，并且可在设备的显示器上向用户示出，通常经由设备访问或执行的图像捕获应用程序。在第二阶段1012中，系统可处理初始图像以生成第一组直方图数据。在一些实施方式中，该处理需要最少地使用设备处理器和存储器，因为图像处理的焦点可限于一个颜色通道(例如，“Y”)。第一直方图数据可在第三阶段1014中存储在直方图数据存储模块中。

在第四阶段1020中，相机接收另一个图像，为了简单起见，该图像将被称为“后续图像”。在第五阶段1022处理此后续图像以生成第二组直方图数据。该数据可在第六阶段1024中存储在直方图数据存储模块中。应理解，初始图像和后续图像之间时间间隙或间隔和/或接收的帧的数量可根据用户偏好和系统设置而广泛变化。由此，虽然初始图像和后续图像可被配置成紧随彼此的，但在其他实施方式中，它们可能相隔几秒钟或几毫秒或更短，和/或它们可由相机光学系统接收到的特定数量的帧隔开，其间不生成直方图数据。

在第七阶段1030中，系统访问直方图数据存储模块1050，并且如之前所讨论的，将第一组数据与第二组数据进行比较。如果(第八步骤1032)确定两组数据之间存在超过预设或预定的阈值的差异，或以其他方式指示两组数据表示基本不同的图像(例如，场景的改变)的足够概率，则系统可继续在朝向自动捕获的路径上前进。相反，如果比较指示在两组数据之间存在很小的差异，并且两个图像可能表示相同(或基本相似)的场景，则系统可被配置为将第二组数据在队列中向上移动。换言之(第九阶段1040)，出于该流程图的目的，第二组直方图数据可以替代或变得替代第一组直方图数据。由此，沿着该路径方向，对第一组直方图数据的参考将指代在接收到下一后续图像之前为图像生成的数据。

返回至前一阶段和成功的差异确定，随着自动捕获过程继续进行，相机可以接收另一图像(第十阶段1060)，为了简单起见，该图像将被称为“另外图像”。在第十一阶段1062处理该另外图像以生成第三组直方图数据。第三组数据可以可选地存储在直方图数据存储模块中；然而，在一些其他情况下，第三组数据可以保存在当前存储器中，直到作出下一个确定。应理解，后续图像与另外图像之间的时间间隙或间隔和/或接收的帧的数量可根据预设的用户偏好和系统设置而广泛变化。由此，虽然后续图像和另一图像可被配置成紧随彼此，但在其他实施方式中，它们可间隔若干秒或毫秒或更短，和/或间隔不生成直方图数据的由相机光学系统接收到的特定数量的帧。

在第十二阶段1064中，系统访问直方图数据存储模块1050并且将第二组数据与第三组数据进行比较。如果(第十三步骤1066)确定两组数据之间相似达到超过预设或预定阈值的量，或以其他方式指示两组数据表示基本相似图像(例如，表示相同场景的图像)的足够概率，则系统可继续在朝向自动捕获的路径上前进。相反，如果比较指示在两组数据之间存在超过预设或预定阈值的差异，或以其他方式指示两组数据表示实质上不同的图像(例如，场景改变)的足够概率，那么系统可被配置为在队列中向上移动第三组数据。换句话说(第十四阶段1068)，出于该流程图的目的，第三组直方图数据可替代或变得替代第一组直方图数据。由此，沿着此路径方向，对第一组直方图数据的参考将指代对接收到另一后续图像之前的图像生成的数据。

返回至前一阶段和成功的相似性确定，随着自动捕获过程继续进行，相机可接收另一个图像(第十五阶段1070)，为了简单起见，该图像将被称为“最终图像”。该最终图像由相机自动捕获。该过程可以继续重复或循环以捕获在检测到场景改变后的场景稳定时接收到的一系列图像。

图11是示出管理图像的自动捕获的方法1100的实施方式的流程图。在图11中，第一步骤1110包括在第一时间接收对应于第一真实场景的第一图像，并且第二步骤1120包括在第一时间之后的第二时间接收对应于第二真实场景的第二图像。另外，该方法包括在第三步骤1130中确定第一图像与第二图像相差至少第一量，并且在第四步骤1140中在第二时间之后的第三时间接收对应于第三真实场景的第三图像。该方法还包括确定第二图像和第三图像基本相似的第五步骤1150；以及响应于确定第二图像和第三图像基本相似，经由相机光学系统自动捕获第三图像的至少第一区域的第六步骤1160。

在其他实施方式中，该方法可包括附加的或替代的步骤。例如，该方法可进一步包括生成第一图像的第一直方图，以及生成第二图像的第二直方图。在一些情况下，确定第一图像与第二图像不同至少基于第一直方图与第二直方图的比较。作为另一示例，该方法可包括获得第一图像的亮度或颜色值，并且第一直方图的生成基于所获得的第一图像的亮度或颜色值。在一些情况下，第一直方图标识与第一亮度或颜色值相关联的像素的第一数量，并且第二直方图标识与第一亮度或颜色值相关联的像素的第二数量。在这样的情况下，该方法还可以涉及确定像素的第一数量与像素的第二数量相差至少第一量。

此外，在一些实施方式中，该方法可涉及生成第二图像的第一直方图，以及生成第三图像的第二直方图。在此类情况下，确定第二图像与第三图像基本相似至少基于第一直方图与第二直方图的比较。在一些情况下，第一直方图标识与第一亮度或颜色值相关联的像素的第一数量，并且第二直方图标识与第一亮度或颜色值相关联的像素的第二数量。然后，该方法可进一步涉及确定像素的第一数量与像素的第二数量相差至多预定百分比。

作为另一示例，该方法可包括生成第三图像的第三直方图，存储与所述第一直方图相关联的第一数据、与所述第二直方图相关联的第二数据，以及与所述第三直方图相关联的第三数据，并且然后响应于确定第二图像和第三图像基本相似而自动丢弃第一数据。在一个实施方式中，该方法还可包括存储与第一直方图相关联的第一数据和与第二直方图相关联的第二数据，在捕获第三图像之后的第四时间接收对应于第四真实场景的第四图像，生成第四图像的第三直方图，存储与第三直方图相关联的第三数据，确定第三图像与第四图像相差至少第二量，以及响应于确定第三图像和第四图像不同，自动丢弃第一数据。

在一些实施方式中，该方法进一步包括接收请求激活自动图像捕获模式的第一用户输入，其中第三图像的至少第一区的自动捕获部分基于接收第一用户输入。在另一实施方式中，第二时间和第三时间间隔至少预定时间段的第二区。

由此，使用所公开的系统和方法可以使用户能够容易地轻敲以选择图像中的点，并且作为响应，提供被标识为在其内部具有该点的一个或多个四边形候选者。如果用户在多个位置连续轻击，则将向他或她连续呈现多个四边形。有意选择图像中的一个或多个区域以便在实时图像捕获和存储的图像中进行扫描的能力为用户提供了广泛的好处。此特征实质上减少了扫描不同项目所需的时间；并非尝试重新捕获或修改图像以获得所需区域，用户可提交指示存在于所需区域中的目标位置的输入，然后应用程序可自动检测包含该目标位置的区域。此外，通过向用户提供在单个图像内选择多个离散区域进行扫描的简单手段，不需要收集或存储多个图像来获得扫描，并且该过程将在更短的持续时间内发生。

在本文中呈现结合图1-11描述的系统、设备和技术的详细示例是为了说明本公开及其益处。这样的使用示例不应被解释为对本公开的逻辑过程实施方式的限制，也不应认为与本文所描述的那些不同的用户界面方法的变型在本公开的范围之外。在一些实施方式中，图1-11中描述的不同特征在相应的模块中实现，这些模块还可被称为和/或包括逻辑、组件、单元和/或机制。模块可构成软件模块(例如，在机器可读介质上体现的代码)或硬件模块。

在一些示例中，硬件模块可以机械地、电子地或以其任何合适的组合来实现。例如，硬件模块可包括被配置为执行某些操作的专用电路或逻辑。例如，硬件模块可包括专用处理器，诸如现场可编程门阵列(FPGA)或专用集成电路(ASIC)。硬件模块还可以包括由软件临时配置为执行某些操作的可编程逻辑或电路，并且可以包括用于此类配置的机器可读介质数据和/或指令的一部分。例如，硬件模块可包括包含在被配置为执行一组软件指令的可编程处理器内的软件。将理解，在专用且永久配置的电路中或在临时配置的电路(例如，由软件配置)中以机械方式实现硬件模块的决定可由成本、时间、支持和工程考虑来驱动。

因此，短语“硬件模块”应被理解为包含能够执行某些操作的有形实体并且可以某种物理方式被配置或安排，实体被物理构造、永久配置(例如，硬连线)和/或临时配置(例如，编程)为以某种方式操作或执行本文描述的某些操作。如在此使用的，“硬件实现的模块”是指硬件模块。考虑到其中硬件模块被临时配置(例如，编程)的示例，每个硬件模块都不需要在任何一个时间点被配置或实例化。例如，在硬件模块包括由软件配置为专用处理器的可编程处理器的情况下，可编程处理器可在不同时间被配置为分别不同的专用处理器(例如，包括不同的硬件模块)。软件可相应地配置一个或多个特定处理器，例如，在一个时间实例构成特定的硬件模块，并在不同的时间实例构成不同的硬件模块。使用一个或多个处理器实现的硬件模块可以被称为“处理器实现的”或“计算机实现的。”

硬件模块可以向其他硬件模块提供信息和从其他硬件模块接收信息。因此，所描述的硬件模块可以被认为是通信耦接的。在同时存在多个硬件模块的情况下，可以通过两个或更多个硬件模块之间或之中的信号传输(例如，通过适当的电路和总线)来实现通信。在不同时间配置或实例化多个硬件模块的实施方式中，这样的硬件模块之间的通信可以例如通过在多个硬件模块能够访问的存储器设备中存储和检索信息来实现。例如，一个硬件模块可执行操作并将输出存储在存储器设备中，然后另一硬件模块可访问存储器设备以检索和处理所存储的输出。

在一些示例中，方法的至少一些操作可由一或多个处理器或处理器实现的模块执行。此外，一个或多个处理器还可以操作以支持“云计算”环境中的相关操作的性能或作为“软件即服务”(SaaS)。例如，至少一些操作可以由多个计算机(作为包括处理器的机器的示例)执行和/或在多个计算机之中执行，这些操作可经由网络(例如，互联网)和/或经由一个或多个软件接口(例如，应用程序接口(API))来访问。某些操作的执行可以分布在多个处理器之间，不仅驻留在单个机器内，而且部署在多个机器上。多个处理器或处理器实现的模块可以位于单个地理位置(例如，在家庭或办公室环境或服务器群内)，或者可以分布在多个地理位置。

图12是示出了示例软件架构1202的框图1200，其各部分可结合本文描述的可实现上述特征中的任一个的不同硬件架构来使用。图12是软件架构的非限制性示例，并且应当理解，可以实现许多其他架构以促进本文描述的功能。软件架构1202可在诸如图1A的第一设备102和图3A的第二设备300的硬件上执行，其中包括文件存储器1070、处理器、存储器和输入/输出(I/O)组件。代表性硬件层1204被示出并且可表示例如在此描述的设备。代表性硬件层1204包含处理单元1206和相关联的可执行指令1208。可执行指令1208表示软件架构1202的可执行指令，包括本文描述的方法、模块等的实现。硬件层1204还包括内存/存储器1210，该存储器/存储设备还包括可执行指令1208和伴随数据。硬件层1204还可以包括其他硬件模块1212。处理单元1208所保存的指令1208可为存储器/存储设备1210所保存的指令1208的一部分。

示例软件架构1202可以被概念化为多个层，每个层提供不同功能。例如，软件架构1202可包括诸如操作系统(OS)1214、库1216、框架1218、应用程序1220和表示层1244之类的层和组件。在操作上，这些层内的应用程序1220和/或其他组件可以调用其他层的API调用1224并接收相应的结果1226。所示出的层本质上是代表性的，并且其他软件架构可以包括附加的或不同的层。例如，一些移动或专用操作系统可能不提供框架/中间件1218。

OS 1214可以管理硬件资源并提供公共服务。OS 1214可以包括例如内核1228、服务1230和驱动程序1232。内核1228可以充当硬件层1204和其他软件层之间的抽象层。例如，内核1228可负责存储器管理、处理器管理(例如，调度)、组件管理、联网、安全设置等。服务1230可以为其他软件层提供其他公共服务。驱动程序1232可负责控制底层硬件层1204或与底层硬件层1204接口。例如，取决于硬件和/或软件配置，驱动程序1232可包括显示驱动程序、相机驱动程序、存储器/存储设备驱动程序、外围设备驱动程序(例如，通过通用串行总线(USB))、网络和/或无线通信驱动程序、音频驱动程序等。

库1216可提供可由应用程序1220和/或其他组件和/或层使用的公共基础设施。库1216通常提供供其他软件模块用来执行任务的功能，而不是直接与OS 1214交互。库1216可包括可以提供诸如内存分配、字符串操纵、文件操作的功能的系统库1234(例如，C标准库)。另外，库1216可包括API库1236，诸如介质库(例如，支持图像、声音和/或视频数据格式的呈现和操纵)，图形库(例如，用于在显示器上渲染2D和3D图形的OpenGL库)，数据库库(例如，SQLite或其他关系数据库函数)和web库(例如，可以提供web浏览功能的WebKit)。库1216还可以包括各种各样的其他库1238以便为应用程序1220和其他软件模块提供许多功能。

框架1218(有时也被称为中间件)提供可由应用程序1220和/或其他软件模块使用的更高级别的公共基础设施。例如，框架1218可提供各种图形用户界面(GUI)功能、高级资源管理或高级位置服务。框架1218可为应用程序1220和/或其他软件模块提供广泛的其他API。

应用程序1220包括内置应用程序1240和/或第三方应用程序1242。内置应用程序1240的示例可以包括但不限于联系人应用程序、浏览器应用程序、位置应用程序、媒体应用程序、消息收发应用程序和/或游戏应用程序。第三方应用程序1242可以包括由除了特定平台的供应商之外的实体开发的任何应用程序。应用程序1220可以使用经由OS 1214、库1216、框架1218和表示层1244可用的功能来创建用于与用户交互的用户界面。

一些软件架构使用虚拟机，如虚拟机1248所示。虚拟机1248提供执行环境，其中应用程序/模块可如同它们在硬件机器(诸如例如图10的机器1000)上执行的那样执行。虚拟机1248可以由主机OS(例如，OS 1214)或管理程序托管，并且可以具有管理虚拟机1248的操作和与主机操作系统的互操作的虚拟机监视器1246。可不同于虚拟机外部的软件架构1202的软件架构在虚拟机1248内执行，诸如OS1250、库1252、框架1254、应用程序1256和/或表示层1258。

图13是示出了被配置为从机器可读介质(例如，机器可读存储介质)读取指令并且执行本文描述的任何特征的示例机器1300的组件的框图。示例机器1300采用计算机系统的形式，在该计算机系统内，可以执行用于使机器1300执行本文描述的特征中的任何一个的指令1316(例如，采用软件组件的形式)。因此，指令1316可用于实现本文描述的模块或组件。指令1316使未编程和/或未配置的机器1300作为被配置为执行所描述的特征的特定机器操作。机器1300可以被配置为作为独立设备操作或者可以耦合(例如，联网)到其他机器。在联网部署中，机器1300可以在服务器-客户端网络环境中以服务器机器或客户端机器的能力操作，或者作为对等或分布式网络环境中的节点操作。机器1300可以具体化为例如服务器计算机、客户端计算机、个人计算机(PC)、平板计算机、膝上型计算机、上网本、机顶盒(STB)、游戏和/或娱乐系统、智能电话、移动设备、可穿戴设备(例如，智能手表)和物联网(IoT)设备。进一步地，尽管仅示出了单个机器1300，但术语“机器”包括单独或共同执行指令1316的机器的集合。

机器1300可以包括处理器1310、存储器1330和I/O组件1350，它们可以经由例如总线1302通信地耦合。总线1302可以包括经由各种总线技术和协议耦合机器1300的各种元件的多个总线。在一示例中，处理器1310(包括，例如，中央处理单元(CPU)、图形处理单元(GPU)、数字信号处理器(DSP)、ASIC或其合适组合)可包括可执行指令1316并处理数据的一或多个处理器1312a到1312n。在一些示例中，一个或多个处理器1310可以执行由一个或多个其他处理器1310提供或标识的指令。术语“处理器”包括多核处理器，该多核处理器包括可以同时执行指令的核。尽管图13示出了多个处理器，但是机器1300可以包括具有单个核的单个处理器、具有多个核的单个处理器(例如，多核处理器)、各自具有单个核的多个处理器、各自具有多个核的多个处理器、或它们的任何组合。在一些示例中，机器1300可以包括分布在多个机器中的多个处理器。

存储器/存储设备1330可以包括主存储器1332、静态存储器1334、或其他存储器、以及存储单元1336，这两者都可由处理器1310访问，诸如经由总线1302。存储单元1336和存储器1332、1334存储体现本文中描述的功能中的任何一个或多个的指令1316。存储器/存储设备1330还可以存储用于处理器1310的临时、中间和/或长期数据。指令1316还可以在其执行期间完全地或部分地驻留在存储器1332、1334内、在存储单元1336内、在处理器1310的至少一个内(例如，在命令缓冲器或高速缓存存储器内)、在I/O组件1350的至少一个中的存储器内、或它们的任何合适的组合。因而，存储器1332、1334、存储单元1336、处理器1310中的存储器和I/O组件1350中的存储器是机器可读介质的示例。

如在此使用的，“机器可读介质”指能够临时或永久地存储使机器1300以特定方式操作的指令和数据的设备。如在此所使用的术语“机器可读介质”不包括暂态电信号或电磁信号本身(如在通过介质传播的载波上)；因此，术语“机器可读介质”可以被认为是有形的和非暂态的。非暂态的有形机器可读介质的非限制性示例可包括但不限于，非易失性存储器(诸如闪存或只读存储器(ROM))、易失性存储器(诸如静态随机存取存储器(RAM)或动态RAM)，缓冲存储器、高速缓存存储器、光存储介质、磁存储介质和设备、网络可访问或云存储设备，其他类型的存储设备，和/或它们的任何合适的组合。术语“机器可读介质”适用于单个介质或多个介质的组合，用于存储由机器1300执行的指令(例如，指令1316)，当指令由机器1300的一个或多个处理器1310执行时，使得机器1300执行本文描述的特征中的一个或多个。相应地，“机器可读介质”可以指单个存储设备，以及包括多个存储装置或设备的“基于云的”存储系统或存储网络。

I/O组件1350可包括适于接收输入、提供输出、产生输出、传送信息、交换信息、捕获测量等的多种硬件组件。包括在特定机器中的特定I/O组件1350将取决于该机器的类型和/或功能。例如，移动设备(诸如移动电话)可包括触摸输入设备，而无头服务器或IoT设备可不包括此类触摸输入设备。图13所示的I/O组件的特定示例决不是限制性的，并且其他类型的组件可以被包括在机器1300中。I/O组件1350的分组仅用于简化该讨论，并且分组决不是限制性的。在不同示例中，I/O组件1350可包括用户输出组件1352和用户输入组件1354。用户输出组件1352可包括例如用于显示信息的显示组件(例如，液晶显示器(LCD)或投影仪)、声学组件(例如，扬声器)、触觉组件(例如，振动马达或力反馈设备)和/或其他信号发生器。用户输入组件1354可包括例如字母数字输入组件(例如，键盘或触摸屏)，指向组件(例如，鼠标设备、触摸板或另一指向工具)和/或触碰输入组件(例如，提供触摸或触摸手势的位置和/或力的物理按钮或触摸屏)，被配置为用于接收各种用户输入，诸如用户命令和/或选择。

在一些示例中，I/O组件1350可以包括生物特征识别组件1356和/或位置组件1362，以及各种各样的其他环境传感器组件。生物特征识别组件1356可包括例如用于检测身体表情(例如，面部表情、声音表情、手或身体姿势、或眼睛跟踪)、测量生物信号(例如，心率或脑波)、以及标识人(例如，经由基于语音、视网膜和/或面部的识别)的组件。位置组件1362可包括例如位置传感器(例如，全球定位系统(GPS)接收器)、海拔传感器(例如，可从其导出海拔的空气压力传感器)和/或定向传感器(例如，磁力计)。

I/O组件1350可包括通信组件1364，该通信组件实现可操作为经由相应的通信耦合1372和1382将机器1300耦合到网络1370和/或设备1380的各种各样的技术。通信组件1364可包括一个或多个网络接口组件或其他合适的设备以与网络1370接口。通信组件1364可包括例如适于提供有线通信、无线通信、蜂窝通信、近场通信(NFC)、蓝牙通信、Wi-Fi和/或经由其他模态通信的组件。设备1380可包括其他机器或各种外围设备(例如，经由USB耦合的)。

在一些示例中，通信组件1364可检测标识符或包括适于检测标识符的组件。例如，通信组件1364可包括射频识别(RFID)标签读取器、NFC检测器、光学传感器(例如，一维或多维条形码或其他光学代码)和/或声学检测器(例如，识别标记的音频信号的麦克风)。在一些示例中，位置信息可基于来自通信组件1362的信息来确定，诸如但不限于经由互联网协议(IP)地址确定地理位置，经由Wi-Fi、蜂窝、NFC、蓝牙或其他无线站标识和/或信号三角测量确定位置。

虽然已描述各种实施方式，但该描述旨在是示例性的，而不是限制性的，且应理解，在这些实施方式的范围内，更多实施方式是可能的。虽然在附图中示出并且在详细描述中讨论了特征的许多可能的组合，但是所公开的特征的许多其他组合是可能的。任何实施方式的任何特征可以与任何其他实施方式中的任何其他特征或元件结合使用或替代任何其他实施方式中的任何其他特征或元件，除非具体地限制。因此，将理解的是，本公开内容中示出和/或论述的任何特征可以以任何合适的组合一起实现。因此，除非考虑到所附权利要求及其等同物，否则实施方式不受限制。此外，可以在所附权利要求的范围内进行各种修改和改变。

虽然前面已经描述了什么被认为是最佳模式和/或其他示例，但应当理解，可在其中做出不同修改，并且本文所公开的主题能够以各种形式和示例来实现，并且该教导可以应用于许多应用中，这里仅描述了其中一些应用。所附权利要求旨在要求保护落入本教导的真实范围内的任何和所有应用、修改和变化。

除非另外说明，否则在本说明书中(包括在随后的权利要求书中)阐述的所有测量值、值、额定值、位置、幅度、大小和其他规格都是近似的，不是精确的。它们旨在具有与它们相关的功能以及它们所属领域的惯例一致的合理范围。

保护范围仅由现在随附的权利要求书限定。当根据本说明书和随后的审查历史进行解释时，该范围旨在并且应该被解释为与权利要求中使用的语言的普通含义一致并涵盖所有结构和功能等同物。尽管如此，没有任何权利要求旨在包括未能满足专利法第101、102或103节的要求的主题，也不应以这种方式对其进行解释。特此否认对此类主题的任何非预期的包涵。

除上文所述外，任何已陈述或示出的内容都不旨在或不应被解释为使得任何部件、步骤、特征、对象、益处、优点或等效物献给公众，不管其是否在权利要求书中提及。

应当理解，本文中所使用的术语和表达具有与其对应的查询和研究的相应领域的术语和表达相一致的普通含义，除非本文另外阐述了具体含义。诸如第一和第二等关系术语可仅用于将一个实体或动作与另一个实体或动作区分开，而不一定要求或暗示此类实体或动作之间的任何实际此类关系或次序。术语“包括”、“包含”或其任何其他变体旨在覆盖非排他性的包含，这样使得包括一系列要素的过程、方法、物品或设备不仅包括那些要素，而且可以包括未明确列出的或此类过程、方法、物品或设备固有的其他要素。在没有进一步限制的情况下，以“一个”或“一种)”开头的元素不排除在包括该元素的过程、方法、物品或设备中存在额外的相同元素。

提供本公开的摘要以允许读者快速确定本技术公开的性质。应理解的是，该摘要将不用于解释或限制权利要求的范围或含义。另外，在前述具体实施方式中，可以看到，为了使本公开流畅的目的，在各个示例中将不同特征分组在一起。本公开的这种方法不应被解释为反映以下意图：权利要求书要求比在每项权利要求中明确叙述的特征更多的特征。相反，如以下权利要求所反映的，发明主题在于少于单个公开示例的所有特征。因此，以下权利要求由此并入具体实施方式中，其中每个权利要求独立地作为单独要求保护的主题。

Claims

1.一种系统，包括：

至少一个处理器；以及

一个或多个计算机可读介质，包括指令，所述指令在由所述至少一个处理器执行时使得所述至少一个处理器：

在第一时间接收对应于第一真实场景的第一图像；

在所述第一时间之后的第二时间接收对应于第二真实场景的第二图像；

确定所述第一图像与所述第二图像相差至少第一量；

在所述第二时间之后的第三时间接收对应于第三真实场景的第三图像；

确定所述第二图像和所述第三图像基本相似；以及

响应于确定所述第二图像和所述第三图像基本相似，经由相机光学系统自动捕获所述第三图像的至少第一区域。

2.根据权利要求1所述的系统，其中所述指令进一步使得所述至少一个处理器：

生成所述第一图像的第一直方图；

生成所述第二图像的第二直方图；以及

其中确定所述第一图像与所述第二图像不同至少基于所述第一直方图与所述第二直方图的比较。

3.根据权利要求2所述的系统，其中所述指令进一步使得所述至少一个处理器：

获得所述第一图像的亮度或颜色值；以及

其中所述第一直方图的生成基于所获得的所述第一图像的亮度或颜色值。

4.根据权利要求2所述的系统，其中所述第一直方图标识与第一亮度或颜色值相关联的像素的第一数量，以及所述第二直方图标识与所述第一亮度或颜色值相关联的像素的第二数量，并且所述方法进一步包括确定像素的所述第一数量与像素的所述第二数量相差至少所述第一量。

5.根据权利要求1所述的系统，其中所述指令进一步使得所述至少一个处理器：

生成所述第二图像的第一直方图；

生成所述第三图像的第二直方图；以及

其中确定所述第二图像与所述第三图像基本相似至少基于所述第一直方图与所述第二直方图的比较。

6.根据权利要求5所述的系统，其中所述第一直方图标识与第一亮度或颜色值相关联的像素的第一数量，以及所述第二直方图标识与所述第一亮度或颜色值相关联的像素的第二数量，并且所述方法进一步包括确定像素的所述第一数量与像素的所述第二数量相差至多预定百分比。

7.根据权利要求2所述的系统，其中所述指令进一步使得所述至少一个处理器：

生成所述第三图像的第三直方图；

存储与所述第一直方图相关联的第一数据、与所述第二直方图相关联的第二数据以及与所述第三直方图相关联的第三数据；以及

响应于确定所述第二图像和所述第三图像基本相似，自动丢弃所述第一数据。

8.根据权利要求2所述的系统，其中所述指令进一步使得所述至少一个处理器：

存储与所述第一直方图相关联的第一数据和与所述第二直方图相关联的第二数据；

在捕获所述第三图像之后的第四时间接收对应于第四真实场景的第四图像；

生成所述第四图像的第三直方图；

存储与所述第三直方图相关联的第三数据；

确定所述第三图像与所述第四图像相差至少第二量；以及

响应于确定所述第三图像与所述第四图像不同，自动丢弃所述第一数据。

9.根据权利要求1所述的系统，其中所述指令进一步使得所述至少一个处理器接收第一用户输入，所述第一用户输入请求激活自动图像捕获模式，其中所述第三图像的至少所述第一区域的自动捕获部分地基于接收到所述第一用户输入。

10.根据权利要求1所述的系统，其中所述第二时间和所述第三时间相隔至少约150ms的时间段。

11.一种捕获图像的方法，包括：

在第一时间接收对应于第一真实场景的第一图像；

确定所述第一图像与所述第二图像相差至少第一量；

确定所述第二图像和所述第三图像基本相似；以及

12.根据权利要求11所述的方法，进一步包括：

生成所述第一图像的第一直方图；

生成所述第二图像的第二直方图；以及

13.根据权利要求12所述的方法，进一步包括：

获得所述第一图像的亮度或颜色值；以及

其中生成所述第一直方图基于所获得的所述第一图像的亮度或颜色值。

14.根据权利要求12所述的方法，其中所述第一直方图标识与第一亮度或颜色值相关联的像素的第一数量，以及所述第二直方图标识与所述第一亮度或颜色值相关联的像素的第二数量，并且所述方法进一步包括确定像素的所述第一数量与像素的所述第二数量相差至少所述第一量。

15.一种用于确定何时应该进行自动图像捕获的系统，所述系统包括：

至少一个处理器；以及

一个或多个计算机可读介质，包括指令，所述指令在由所述至少一个处理器执行时，使得所述至少一个处理器：

经由相机接收包括第一图像帧和后续第二图像帧的多个图像帧；

确定在所述第一图像帧与所述第二图像帧之间已经发生场景改变；

在接收所述第二图像帧之后经由所述相机接收第三图像帧；

确定在所述第二图像帧与所述第三图像帧之间已经发生场景稳定；

至少基于确定发生所述场景改变和发生所述场景稳定，发起对在所述第三图像帧之后接收的第四图像帧的自动捕获。