CN102236890B

CN102236890B - 从多个图像生成组合图像

Info

Publication number: CN102236890B
Application number: CN201110118042.1A
Authority: CN
Inventors: E·J·理查兹; R·A·比肖夫; T·R·奥康纳; T·S·M·卡斯佩基维茨
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2010-05-03
Filing date: 2011-04-29
Publication date: 2016-03-23
Anticipated expiration: 2031-04-29
Also published as: WO2011139292A1; EP2567536A4; US8837859B2; US20130336599A1; CN102236890A; EP2567536B1; EP2567536A1; US8515137B2; US20110268369A1

Abstract

公开了从多个图像生成组合图像的系统和方法。对于多个图像中的多个区域中的每一个区域，就该区域被感觉起来如何作出判断。标识基础图像，如果多个图像中的另一图像的对应的区域被判断为比基础图像的每一个区域更佳，则自动地将基础图像的区域替换为对应的区域，由此，从多个图像生成组合图像。生成组合图像可包括自动地从多个图像中的一个中选择一个区域，在该区域不存在在其他图像的一个或多个对应的区域中存在的对象。另外，对于基础图像的一个特定区域，可以显示其他图像的对应的区域，将该特定区域替换为其他图像的对应的区域中的用户选定的那一个区域。

Description

从多个图像生成组合图像

技术领域

本发明涉及图像处理，尤其涉及从多个图像中生成组合图像。

背景技术

用户频繁地对对象组拍摄照片，如人员组(例如，家庭成员或朋友)，动物组(例如，宠物)等等。令人遗憾的是，在拍摄照片时，时常难以按照可以接受的位置或姿势拍摄到所有对象。例如，对于一组人，当拍摄照片时，一个或多个人可能会眨眼，皱眉头，目光不看着照像机等等。也难以使所有对象出现在照片上而不使其他外来的对象出现在照片上，如避免额外的人走过。这些困难会导致用户不能获得他们需要的照片的情况，并会导致用户在试图照相时产生挫败感。

发明内容

提供本发明内容是为了以精简的形式介绍将在以下具体实施方式中进一步描述的一些概念。本概述并不旨在标识出所要求保护的主题的关键特征或必要特征，也不旨在用于限定所要求保护的主题的范围。

根据一个或多个方面，访问各自都包括多个对象的多个图像。对于多个图像中的多个区域中的每一个区域，就该区域被感觉起来如何作出判断。基于对多个图像中的多个区域的对应的区域被感觉起来如何作出的判断，从多个图像生成组合图像。组合图像的生成包括自动地从多个图像中的一个中选择一个区域(在该区域不存在在多个图像中的其他图像的一个或多个对应的区域中存在的对象)，以使其包括在组合图像中。

根据一个或多个方面，访问各自都包括多个对象的多个图像。对于多个图像中的多个区域中的每一个区域，就该区域被感觉起来如何作出判断。标识多个图像的基础图像，该基础图像可以是具有最多被判断为感觉为“最佳”区域的区域的图像。如果多个图像中的另一图像的对应的区域被判断为比基础图像的该区域更佳，则自动地将基础图像的每一个区用该另一图像的对应的区域替换，由此，从多个图像生成组合图像。另外，显示多个图像中的每一个其他图像的区域，每一个区域都对应于基础图像的特定区域。接收用户对于多个图像中的其他图像的对应的区域中的一个的选择，将基础图像的特定区域替换为其他图像的对应的区域中的用户选定的那一个。

附图说明

在各附图中，使用相同的标号来指示相同的特征。

图1示出了根据一个或多个实施例的实现从多个图像生成组合图像的示例系统。

图2示出了根据一个或多个实施例的同一个场景的多个图像的示例。

图3示出了根据一个或多个实施例的自动地将一个图像中的区域替换为来自其他图像的对应的区域以生成组合图像的示例。

图4示出了根据一个或多个实施例的组合图像的示例。

图5示出了根据一个或多个实施例的用户界面的示例，通过该用户界面，用户可以提供关于要选择多个对应的区域中的哪一个的输入。

图6是示出了根据一个或多个实施例的用于从多个图像生成组合图像的示例过程的流程图。

图7是示出了根据一个或多个实施例的用于基于用户输入选择要包括在组合图像中的区域的示例过程的流程图。

图8示出了根据一个或多个实施例的可以被配置成从多个图像生成组合图像的示例计算设备。

具体实施方式

此处讨论了从多个图像生成组合图像。捕捉同一个场景的多个图像，虽然图像是同一个场景的，但是，在多个图像之间可能会有差异。标识那些图像内的不同的区域，对于不同的区域中的每一个区域，就该区域感觉起来如何作出判断(例如，如果该区域表示脸，则判断人们是否正在微笑，人们是否张开他们的眼睛等等)。可以由评价模块基于区域的各种特征，进行关于区域感觉起来如何的判断。通常通过选择具有将不会被替换为来自多个区域中的其它区域的最多区域的图像，来选择多个图像中的基础图像。当多个区域中的另一图像的一个区域被判断为感觉起来比基础图像的对应的区域更佳时，则可以将基础图像中的该区域自动地替换为来自多个区域中的另一图像的对应的区域。

用户界面也可向用户显示基础图像中的特定区域，向用户显示多个图像中的其他图像的对应的区域，并允许用户选择将替换基础图像中的区域那些对应的区域中的一个。另外，还可以标识一个对象存在于基础图像中的一个区域中，但不存在于多个图像中的一个或多个其他图像中的对应的区域中的情况(如当一个人走过场景背景时)。在这样的情况下，可以可任选地自动地将没有该对象存在的区域选为替换基础图像中的对应区域的区域。

图1示出了根据一个或多个实施例的实现从多个图像生成组合图像的示例系统100。系统100可被实现为各种不同类型的设备中的一个或多个的一部分，如台式计算机、移动站、自助服务终端、娱乐设备、可通信地耦合到显示设备的机顶盒、电视机、蜂窝式或其他无线电话、照像机、便携式摄像机、音频/视频回放设备、游戏控制台、车载计算机等等。可另选地，系统100可以跨相同或不同类型的多个设备地实现。这样的多个设备可以以各种不同的方式彼此耦合，如经由有线或无线连接(例如，通用串行总线(USB)连接、无线USB连接、根据IEEE1394标准的连接等等)，或经由网络(例如，因特网、局域网(LAN)、蜂窝式或其他电话网络等等)，等等。

系统100包括图像生成模块102、对象数据库104，以及用户界面模块106。模块102、数据库104，以及模块106可被实现为相同，或者可另选地不同的设备的一部分。图像生成模块102接收多个图像110，并通过从多个图像110中的不同的图像选择不同的区域，来生成组合图像112。对象数据库104是被系统100识别或以其他方式为系统100所知的对象的记录。对象数据库104可以是，例如，为系统100所知的不同的面部以及相关联的名称的记录。对象数据库104可包括多个图像，其中对象在这些多个图像中的每一个图像以及数据库104中标识。例如，对象数据库104可以是数字相册(例如，由在线服务维护)，其中包括多个不同的图像，图像中标识了人(在这些图像中的不同的图像中标识了相同人和/或不同的人)。这种对象记录可以使用各种不同的数据结构或存储技术来维护。用户界面(UI)模块106管理信息向系统100的用户的呈现以及从系统100的用户对请求的接收。

图像110可以由图像生成模块102以各种不同的方式来获取。图像110可以由包括模块102的设备捕捉，可以被提供到模块102，可以存储在向模块102标识的、模块102从中检索图像110的位置等等。例如，图像生成模块102可被实现为因特网服务的一部分，用户上传或以其他方式传输图像110。作为另一示例，图像生成模块102可被实现为捕捉图像110的数码相机的一部分。作为再一个示例，图像生成模块102可被实现为商店内的自助服务终端，该自助服务终端从与其耦合的存储器设备检索图像。

图像生成模块102包括对象检测模块122、评价模块124、图像组合模块126，以及图像注册模块128。这里一般性地讨论了模块122、124、126，以及128的操作，下面将更详细地讨论。一般而言，对象检测模块122检测图像110内的区域。评价模块124对于这些区域中的每一个区域，就该区域被感觉起来如何作出判断。这些判断可以以各种不同的方式进行，如下面比较详细地讨论的。基于这些判断，图像组合模块126选择多个图像110中的一个图像作为基础图像，然后，自动地选择多个图像110中的其他图像的不同的区域来替换基础图像的对应的区域，以便生成组合图像112。对于给定区域，通常，被判断为感觉起来“最佳”区域的对应的区域是将包括在组合图像112中的区域。图像注册模块128可任选地被包括在图像生成模块102中，当被包括时，确定图像如何彼此映射。这种映射表示图像的哪些部分是彼此对应的区域。

区域，通常，但不总是包括对象。图像组合模块126可以自动地选择不包括对象的另一图像的对应的区域，尽管基础图像可能包括对象。如此，可以从场景中删除基础图像中的对象，并使其不被包括在组合图像112中。另外，用户界面模块106可以允许用户覆盖图像组合模块126作出的自动选择，如下面比较详细地讨论的。

对象检测模块122可以被配置成检测图像110的区域内的各种不同类型的对象。这些类型的对象可以是，例如，人(或人的面部)和/或动物(例如，宠物)。可另选地，可以检测其他对象，如建筑物、风景或其他地理特征、小汽车或其他车辆，物品或人的器官(例如，在X射线图像上)等等。对象检测模块122通常被配置成检测一种类型的对象，虽然可另选地可以被配置成检测任意数量的不同类型的对象。

由图像生成模块102接收到的多个图像110通常是相同场景的，如一组人在婚礼或家庭团聚中的多个图像。在一个或多个实施例中，对象检测模块122可以检测多个图像110中的一个或多个是否不是来自相同的场景。自动地删除被检测不是来自相同场景的图像，图像生成模块102不考虑将它们包括在多个图像110中。可以以各种不同的方式判断图像是否来自相同场景。例如，可以将具有至少阈值数量的相同对象的两个图像判断为来自相同场景。此阈值数字可以是固定数量(例如，5个或更多相同的对象)或相对数(例如，图像中的60％或更多的对象位于两个图像中)。作为另一示例，系统100的用户可以提供表示哪些图像是来自相同场景的输入。如此，尽管两个图像可能来自相同场景，两个图像不必相同(通常不同)。

在一个或多个实施例中，图像注册模块128判断哪些图像来自相同场景。图像注册模块128使用注册技术来判断图像彼此在空间上映射得怎么样。如果两个图像彼此映射得足够好(例如，至少阈值数量的匹配特征被包括在每一个图像中)，那么，判断两个图像来自相同场景。可以使用各种不同的传统技术，如使用尺度不变特征变换(SIFT)算法，来标识匹配特征。

尽管图像110来自相同场景，但是，场景内的对象可以不同。例如，一个不认识人的可能从一组人背后走过，如此，出现在不同图像110中的不同位置。作为另一示例，该组人中的一个人可能移动，如此，可能在不同图像110中位于不同位置。作为再一个示例，人们可能移动他们的脑袋、谈话、眨眼等等，如此，可能在不同图像110中位于不同位置或处于不同姿势。

对象检测模块122还对齐多个图像110。对齐多个图像110是指标识图像110中的彼此相对应的不同区域(例如，包括相同对象)。作为此对齐过程的一部分，对于多个图像110中的每一个图像，对象检测模块122标识该图像内的对象，标识该图像中包括该对象的区域，还对于一个图像中的被标识的一个区域来标识不同图像110中的对应的区域。不同图像110中的这些对应的区域通常位于场景的大致相同的位置。因此，当对象检测模块122标识一个图像中的一个区域时，模块122还标识其他图像中的该场景的相同位置处的对应的区域。这些对应的区域可以，但是未必包括相同对象。例如，如下面比较详细地讨论的，一个区域可包括在另一图像的对应的区域中不存在的对象(例如，从一组人背后走过的一个人)。

可以以不同的方式确定不同图像110中的对应的区域。例如，图像注册模块128可以使用注册技术来判断图像彼此在空间上映射得怎么样。标识图像110中的匹配特征，并标识图像110中的那些特征的位置。标识那些匹配特征内的特定对象(例如，面部)，并标识那些特定对象周围的区域。

在一个或多个实施例中，图像110中的区域的标识至少部分地基于对象识别。对象数据库104是被系统100识别或以其他方式为系统100所知的对象的记录。可以以各种不同的方式生成对象数据库104，如基于来自系统100的用户的标识特定对象的输入(例如，标记他们的数字相册中的对象)，从其他组件或设备中获取的标识特定对象的信息，等等。对象检测模块122使用对象数据库104中的信息来自动地检测图像110中的已知对象(为系统100所知的对象)。然后，可以使用这些已知对象在图像110中的特定位置的存在来标识检测到的对象周围的区域。

在替换实施例中，对象检测模块122可以无需对象数据库104即可操作。在这样的实施例中，对象检测模块122检测图像110内的特定对象，还检测一个图像110中的一个对象与图像110中的另一图像中的一个对象相同的情况。虽然在这样的实施例中对象检测模块122可能不标识已知对象，但是，对象检测模块122仍可以检测多个图像中的对象相同的情况。

可以以各种不同的常规方式执行对图像中的对象的检测。可以理解，检测图像中的对象的方式可以基于正在检测的特定对象而变化。例如，对于检测检测动物面部或其他对象的技术，可以使用不同的技术来检测人的面部。

可以以各种不同的常规方式执行多个图像的对齐和对象周围的区域的标识(包括标识缝，沿着该缝可以从一个图像中“剪切”区域供删除或复制，并将一个区域接合或粘贴到另一图像中)。在一个或多个实施例中，使用在A.Agarwala等人所著的“InteractiveDigitalPhotomontage(交互式数码蒙太奇照片)”，ACMSIGGRAPH2004中更详细地讨论的用于将图像的区域拼接在一起的蒙太奇照片技术来执行多个图像的对齐和对象周围的区域的标识。在一个或多个实施例中，使用自动选择和混合技术来执行将一个图像中的一个区域拼接到另一图像。在C.Rother等人所著的“GrabCut：InteractiveForegroundExtractionUsingIteratedGraphCuts(抓取剪切：使用迭代图形剪切的交互式前景提取)”(ACMSIGGRAPH2004)更详细地讨论了自动选择技术的示例，而在A.Criminisi等人所著的“RegionFillingandObjectRemovalbyExemplar-BasedInpainting(基于样本的内绘制进行的区域填充和对象移除)”(IEEE图像处理学报，第13卷，第9期，第1200-1212页，2004年1月)中更详细地讨论了混合技术的示例。

图2示出了根据一个或多个实施例的同一个场景的多个图像的示例。图2示出了同一个场景的三个图像202、204以及206，它们是，例如图1的多个图像110。虽然在图2的示例中只示出了三个图像，但是，可以理解，任意数量的图像可以适用于此处所讨论的技术。

图像202、204，以及206中的每一个都包括被示为椭圆形的多个区域，虽然可以理解区域可以是任何形状的。这些区域中的每一个区域被示为大小相同，虽然可以理解区域的大小可以不同。这些区域中的每一个区域可包括对象，如上文所讨论的。每一个图像202、204，以及206被示为包括五个区域，虽然可以理解一个图像中可以包括任意数量的区域。

图像202包括区域210、212、214、216，以及218。图像204包括区域220、222、224、226，以及228。图像206包括区域230、232、234、236，以及238。不同图像中的位于大致相同位置的不同区域是对应的区域。例如，区域210、220，以及230是对应的区域。作为另一示例，区域214和224是对应的区域。

返回到图1，评价模块124分析图像110，就图像110的每一个区域被评价模块124感觉起来如何作出判断。基于这些判断，多个对应的区域中的一个可以被轻松地判断为多个对应的区域中的“最佳”区域。评价模块124可以使用各种不同的规则或准则就图像的区域感觉起来如何作出判断，并可以生成反映此判断的值。由评价模块124所生成的值可以是，例如，表示模块124感觉一个区域与其他区域相比如何的该区域的分数，表示模块124感觉一个区域与其他区域相比如何的该区域的排序等等。在多个对应的区域中，可以选择具有“最佳”(例如，最高)值的区域作为多个对应的区域中的“最佳”区域。

在其中评价模块124生成表示一个区域感觉起来如何的该区域的分数的各实施例中，通常，带有较高分数(例如，较大的数值)的区域感觉起来比带有较低的分数(例如，较小的数值)的区域好。可以以各种不同的方式确定分数。在一个或多个实施例中，通过评估区域的各种特征中的一个或多个来确定分数。评价模块124被配置有与影响区域的分数的各种特征相关联的权重，或以其他方式具有对这些权重的访问权，一些特征与其他特征相比与较高的权重相关联。一个区域中的不同的特征可以增加该区域的分数或降低该区域的分数(例如，取决于特定特征的权重)。在其他实施例中，基于学习过程来确定分数，在该学习过程中，组件或模块(如评价模块124)自动地学习要给区域的哪些属性给予更高的分数。例如，可以使用神经网络、决策树或其他学习机，以基于对于区域的、被用户标识为好或坏的用户反馈，来了解区域中被用户标识为好的特征，以及区域中被用户标识为坏的特征。然后，可以使用此神经网络、决策树或其他学习机来为图像中的不同的区域分配分数。

可另选地，可以通过比较(如通过使用神经网络、决策树，或其他学习机)多个对应的区域，判断一个区域被评价模块124感觉起来如何。此比较可以基于评估一个区域的各种不同的特征中的一个或多个。基于此比较，选择多个对应的区域中的一个作为被感觉为多个对应的区域中的“最佳”区域。可以可任选地使用神经网络、决策树，或其他学习机，自动地确定多个对应的区域中被感觉为多个对应的区域中的“最佳”区域的一个。可以向这些区域分配排序(例如，按从被感觉为“最佳”的区域到被感觉为“最差”的区域的顺序，对区域进行排序)。可另选地，可以向这些区域分配分数(例如，“最佳”或“非最佳”值)，或可以标记或以其他方式将多个区域中的一个标识为被感觉为多个区域中的“最佳”区域。

在其中通过评估区域的一个或多个特征来作出对区域感觉起来如何的判定的各实施例中，这些特征可包括该区域内的对象的特征和/或该区域的其他特征。下面是评价模块124在判断一个区域感觉起来如何时可以使用的多个不同的特征的列表。这些特征是：对象被用通常所使用的标记进行了标记，对象被添加了标记，用户画了或确认了对象矩形或区域，对象识别具有高置信度建议，对象检测器发现了存在的对象，眼睛数据被感觉为好的，微笑数据感觉为好的，图像曝光不足，图像曝光过度，对象模糊。可以理解，这些特征只是示例，可以可另选地使用其他特征。

对象用通常所使用的标记进行了标记。该区域包括被标识为已知对象的对象(基于对象数据库104)，该对象是常用标记对象。标记的对象是其身份已由系统100的用户标识了的对象。对象的身份可以作为包括该区域的图像的一部分来维护(例如，在与图像相关联的元数据中)或者可另选地单独地维护(例如，在单独的记录或数据库中)。常用标记对象是其身份频繁地在相同或不同图像中由系统100的用户标识了的对象。可以基于固定值(例如，对象在五个不同的图像中由用户标识五次，或者，对象是前五个最频繁地标识的对象中的一个)或者基于相对值(例如，对象比对象数据库104中的90％的其他对象更经常地由用户标识)，确定此频率。例如，如果对象数据库104包括人们的多个图像，那么，系统100的用户可以通过标识(例如，按名字)那些人来标记那些图像中的人。对象数据库104中的图像中比图像中的其他人更频繁地标记的人是常用标记对象。

对象被标记。该区域包括作为标记对象的对象。标记对象是其身份已由系统100的用户标识的对象。标记对象类似于蝉蛹标记对象，只是该对象没有被系统100的用户频繁地标识。

用户画了或确认了对象矩形或区域。该区域包括对象周围的矩形或其他几何形状。可以由系统100的用户在对象周围画矩形或其他形状。可以以不同的方式绘制这样的矩形或其他形状，如系统100显示包括对象的图像110，并经由用户界面接收矩形或其他形状的指示(例如，经由指针、经由触摸屏上的手指或指示笔等等)。可另选地，可以由另一组件或模块在对象周围自动画矩形或其他形状，并由系统100的用户确认该矩形或其他形状的位置。在对象周围绘制的矩形或其他形状表示在该矩形或其他形状内存在对象，虽然该对象的身份还没有被系统100的用户标识。

对象识别具有高置信度建议。该区域包括已经被以高准确性概率自动标识的对象。这样的对象由特定组件或模块标识而不是由系统100的用户标识。对象可以由对象检测模块122或者可另选地由另一组件或模块标识。可以以不同的方式，如基于固定值(例如，至少95％准确性概率)或相对值(例如，比由组件模块检测到的80％的其他对象高的概率)，来标识高准确性概率。

对象检测器发现对象存在。该区域包括已经由特定组件或模块而不是由系统100的用户自动标识的对象。对象可被对象检测模块122或者可另选地另一组件或模块标识。

眼睛数据被感觉为好的。在其中对象包括面部的各实施例中，可以生成表示每一张脸上的眼睛被感觉起来如何的值。此值可以例如反映，是否检测到在每一张脸上存在眼睛(例如，而不是由于转头或一只手盖住了眼睛而从视图上遮蔽)，是否检测到眼睛是睁开的(例如，而不是由于眨眼而闭上)，眼睛中是否有明显的反光，等等。可以使用各种不同的传统技术来检测脸上的眼睛，判断眼睛是否是睁开的，标识眼睛中的反光等等。可以，例如，通过如果在脸上检测到没有反光的睁开的眼睛，则分配较大的数值，如果在脸上检测到有反光的睁开的眼睛，则分配较小的值，而如果在脸上检测到闭着的眼睛，则分配更小的值，等等，来生成该值。或者，如果在脸上检测到增强图像的反光(例如，基于眼睛中的反光的方向是否匹配图像中的(其他区域中的)其他脸中的眼睛中的反光的方向)，则可以分配较大的数值，而如果在脸上检测到不增强图像的反光，则分配较小的数值。可另选地，可以通过学习过程(如神经网络、决策树或其他学习机)来确定表示脸上的眼睛被感觉起来如何的排序或值，该学习过程自动学习脸的哪些属性表示眼睛有多好(例如，基于关于什么是好的用户反馈)。

微笑数据被感觉为好的。在其中对象包括面部的各实施例中，可以生成表示每一张脸上的微笑被感觉起来如何的值。可以生成此以例如表示，是否检测到在每一张脸上存在嘴(例如，而不是由于转头或手盖住了嘴而从视图中遮蔽)，是否检测到存在微笑(例如，而不是存在皱眉头或吐舌头)等等。可以使用各种不同的传统技术来检测脸上是否存在嘴，脸上是否有微笑等等。可以例如通过如果在脸上检测到微笑，则分配较大的数值，如果在脸上检测到闭着嘴，则分配较小的值，而如果在脸上没有检测到嘴，则分配更小的值，以此类推，来生成该值。可另选地，可以通过学习过程(如神经网络、决策树或其他学习机)来确定表示脸上的微笑被感觉起来如何的排序或值，该学习过程自动学习脸的哪些属性表示微笑有多好(例如，基于关于什么是好的用户反馈)。

图像曝光不足。图像被判断为曝光不足。可以基于整个图像、基于图像中的所有区域，或在逐区域的基础上，进行此判断。可以以不同的方式，如基于从图像的或图像的一个或多个区域的直方图导出的曝光值，来确定图像是否曝光不足。也可以至少部分地基于为多个图像110中的其他图像确定的曝光值，来确定图像是否曝光不足。例如，可以将具有至少比其他多个图像的曝光值小阈值量的曝光值的图像判断为曝光不足。此阈值量可以是固定量(例如，图像的直方图的特定部分小于其他图像的直方图的相同部分)或者相对量(例如，图像的直方图的特定部分至少比其他图像的直方图的相同部分小10％)。

图像曝光过度。图像被判断为曝光过度。可以基于整个图像、基于图像中的所有区域，或在逐区域的基础上，进行此判断。可以以不同的方式，如基于从图像的或图像的一个或多个区域的直方图导出的曝光值，来确定图像是否曝光过度。也可以至少部分地基于为多个图像110中的其他图像确定的曝光值，来确定图像是否曝光过度。例如，可以将具有至少比其他多个图像的曝光值大阈值量的曝光值的图像判断为曝光过度。此阈值量可以是固定量(例如，图像的直方图的特定部分大于其他图像的直方图的相同部分)或者相对量(例如，图像的直方图的特定部分至少比其他图像的直方图的相同部分大10％)。

对象是模糊的。检测到区域中的对象是模糊的。可以以各种不同的常规方式标识对象是否模糊的、对象的模糊程度或模糊类型(例如，景深模糊、运动模糊、相机抖动模糊等等)。

由评价模块124所使用的每一特征(如上文所讨论的那些)都具有相关联的权重，并且不同的特征可以具有不同的相关联的权重。例如，关于图像是否曝光过度，图像是否曝光不足，以及对象是否模糊的特征与其他特征相比可具有较低的相关联的权重。特征的权重可以是，例如，特定值(如数值)或一组值(例如，多个数值的集合)。

在一个或多个实施例中，使用这些权重中的一个或多个来为区域生成分数。使用该分数来标识哪一个区域被感觉起来“最佳”(例如，具有最高分数的区域被感觉起来“最佳”)。可以以各种不同的方式生成一个区域的分数。在一个或多个实施例中，评价模块124为由模块124评估的区域的每一个特征生成特征分数或值(例如，表示区域是否包括被标识为已知对象并且是常用标记对象的对象的特征分数、作为表示每一张脸上的眼睛被感觉起来如何的值的特征分数等等)。将这些特征分数标准化，以便由评价模块124评估的各种特征的特征分数具有相同范围。对于由评价模块124评估的每一个特征，模块124确定特征分数和权重的乘积，并将一起评估的各种特征的这些乘积相加，以获得该区域的分数。在其他实施例中，将评估的各种特征的特征分数组合起来(例如，相加、平均等等)，而不标准化和/或乘以权重，来确定区域的分数。在其他实施例中，可以选择这些特征分数中的一个(例如，具有最大的值的特征分数)作为该区域的分数。在其他实施例中，可以按优先次序来分析特征(例如，通过神经网络、决策树，或其他学习机)，并基于特征，分配该区域的分数。

图像组合模块126使用对区域感觉起来如何的判定，选择多个图像110中的一个作为基础图像。此基础图像充当正在生成的组合图像112的起始点，并可以将区域替换为来自其他图像的对应的区域，以生成组合图像112。在一个或多个实施例中，通过组合图像各区域的分数(例如，相加、平均等等)来计算图像分数。基础图像被选为具有最大的图像分数的图像。可另选地，可以以不同的方式标识基础图像，如选择具有带有最高分数的区域的图像作为基础图像，选择具有最大数量的被判断为相对于其他图像的对应的区域是“最佳”区域的区域的图像，随机地或根据某种其他规则或准则来选择基础图像，等等。

对于基础图像中的每一个区域，图像组合模块126判断是保留该区域还是将该区域替换为多个图像中的另一图像中的对应的区域。图像组合模块126通过自动选择对应的区域中被判断为“最佳”区域的那一个区域(如如上文所讨论的评价模块124所判断的)，来进行此判断。例如，参考图2，假设图像204是基础图像。图像组合模块126判断对应的区域212、222，以及232中的哪一个区域被判断为“最佳”区域。如果区域222被判断为“最佳”区域，那么，图像组合模块126将区域222保留在图像204中，以生成组合图像。然而，如果区域212或232被判断为“最佳”区域，那么，图像组合模块126自动将图像204中的区域222替换为区域212和232中被判断为“最佳”区域的那一个区域。

应该注意，基础图像中包括对象的特定区域可以被图像组合模块126自动替换为另一图像中不存在该对象的对应区域。例如，参考图2，假设图像204是基础图像。进一步假设，区域218和区域228两者都包括不被认为是认识的人的面部，且因此区域218和区域228两者都被评价模块124分配了低(可能是负的)分数。进一步假设，在捕捉图像时该人从场景中走过，且因此该人不被包括在对应区域238中。评价模块124可以向区域238分配比区域218和228高的分数，因为区域238不包括不被认为是认识的人的脸。如此，区域238被判断为对应区域218、238，以及238中的“最佳”区域。因此，图像组合模块126自动将图像204中的区域228替换为区域238，以生成组合图像。通过将区域228替换为区域238，自动将其中存在一对象的区域(区域228)替换为其中不存在该对象的区域(区域238)。

图3示出了根据一个或多个实施例的自动地将一个图像中的区域替换为来自其他图像的对应区域以生成组合图像的示例。图3示出了相同的场景的三个图像302、304，以及306，它们分别是，例如图2的图像202、204，以及206。虽然在图3的示例中只示出了三个图像，但是，可以理解，任意数量的图像可以适用于此处所讨论的技术。

图像302包括区域310、312、314、316，以及318。图像304包括区域320、322、324、326，以及328。图像306包括区域330、332、334、336，以及338。在图3中利用阴影线示出了被判断为“最佳”区域的对应区域。因此，区域320被判断为对应区域310、320以及330的集合中的“最佳”区域。类似地，区域332被判断为对应区域312、322以及332的集合中的“最佳”区域，区域314被判断为对应区域314、324以及334的集合中的“最佳”区域，区域336被判断为对应区域316、326以及336的集合中的“最佳”区域，而区域338被判断为对应区域318、328以及338的集合中的“最佳”区域。在一个或多个实施例中，图像306具有最大数量的被判断为“最佳”区域的区域，因此，图像306被评价模块124选为基础图像。

区域320被判断为区域310、320以及330中的“最佳”区域，如此，图像组合模块126在组合图像中自动地将区域330替换为区域320。类似地，区域314被判断为区域314、324以及334中的“最佳”区域，如此，图像组合模块126自动地将区域334替换为区域314。区域332被判断为区域312、322以及332中的“最佳”区域，所以区域332被保留在组合图像中。类似地，区域336和338被保留在组合图像中，因为它们被判断为相对于其他图像的它们的对应区域是“最佳”区域。

应该注意，一个图像可包括没有被标识为区域的区块或部分。例如，图像306包括不是区域330、332、334、336以及338的一部分的区块。对于这样的没有被标识为区域的区块，图像组合模块126保留来自基础图像的那些区块，不将那些区块替换为来自另一图像的区块。可另选地，这样的区块可以被视为额外的一个或多个区域，评价模块124判断这样的区块感觉起来如何，图像组合模块126基于这些判断，自动地将基础图像中的这些区块替换为另一图像的对应区块。

图4示出了根据一个或多个实施例的组合图像的示例。图4示出了图像400，该图像400是从图3的图像302、304，以及306生成的组合图像(例如，通过图1的图像组合模块126)。图像400包括来自基础图像的区域，以及来自其他图像的替换了基础图像中的区域的对应的区域。接在对图3的讨论后面，图像400包括区域320、332、314、336以及338。

返回到图1，图像组合模块126基于作出的区域被评价模块124感觉起来如何的判定，选择要包括在组合图像中的区域，如上文所讨论的。另外，在一个或多个实施例中，图像组合模块126和UI模块106可允许用户提供关于将选择多个对应的区域中的哪一个区域包括在组合图像112中的输入。此用户输入可以覆盖由图像组合模块126作出的自动选择，或者也可以在不同的时间输入(例如，在由图像组合模块126作出自动选择之前)。

UI模块106生成、管理和/或输出供显示的用户界面。此用户界面可允许用户提供关于要选择多个对应的区域中的哪一个区域的输入。用户界面可以显示在实现用户界面模块106的设备的屏幕上，或者也可以生成一个或多个信号，供输出到一个或多个其他显示设备，显示设备包括可以在其上面显示用户界面的屏幕。可以以各种不同的方式实现屏幕，如使用液晶显示器(LCD)技术、等离子屏幕技术、图像投影技术等等。

UI模块106还接收来自用户(例如，实现UI模块106的设备的用户)的用户输入。可以以各种不同的方式提供用户输入，如通过按下触摸板或触摸屏的特定部分，或者通过按下小键盘或键盘的一个或多个键。可以使用各种不同的技术来提供触摸屏功能。还可以以其他方式提供用户输入，如通过可听的输入，对设备的其他物理反馈输入(例如，敲击设备的任何部分，或者可以被设备的运动检测组件识别的另一动作，如摇动设备，旋转设备等等)，等等。

在一个或多个实施例中，UI模块106生成用户界面，对于一个图像的特定区域，该用户界面显示多个图像中的每一个其他图像的对应区域。这些对应区域可以按照不同的方式显示，如在该特定区域附近的菜单或窗口中，在窗口的条带或其他部分等等。用户可以通过UI模块106提供输入以选择其他图像中的一个图像，响应于此，图像组合模块126将组合图像中的区域替换为用户选择的图像。

图5示出了根据一个或多个实施例的用户界面的示例，通过该用户界面，用户可以提供关于要选择多个对应区域中的哪一个的输入。图5示出了图像400，该图像与如图4所示的图像400相同。另外，图5示出了区域338附近的窗口500。用户可以通过提供各种不同的用户输入(例如，当光标显示在区域338的顶部时点击鼠标的特定按钮，选定一个菜单选项等等)，请求显示窗口500。

窗口500显示来自其他图像的对应于特定区域的区域。在图5中所示出的示例中，窗口500包括区域318，以及328，它们是对应于区域338的区域。用户可以选择(通过经由图1的UI模块106提供输入)区域318和328中的一个，响应于该选择，图1的图像组合模块126将区域338替换为区域318和328中的用户选定的那一个区域。如此，可以看到，可以向用户显示可以替换自动地选择的区域338的其他区域，而用户可以选择这些其他区域中的一个以替换自动地选择的区域338。如此，用户可以轻松地替换特定区域，如果他或她更偏爱一不同的区域的话。

图6是示出了根据一个或多个实施例的用于从多个图像生成组合图像的示例过程600的流程图。过程600通过诸如实现图1的图像生成模块102的设备之类的设备来执行，并可以以软件、固件、硬件，或其组合来实现。过程600被示为一组动作，不仅限于所示出的用于执行各种动作的操作的顺序。过程600是用于从多个图像生成组合图像的示例过程；此处参考不同的图包括了关于从多个图像生成组合图像的额外的讨论。

在过程600中，访问多个图像(动作602)。可以以如上文所讨论的各种不同的方式接收或获取这多个图像。

将多个图像对齐(动作604)。作为此对齐的一部分，如上文所讨论的，标识多个图像的对应区域。另外，如果多个图像中的一个或多个无法对齐(例如，由于它们是不同的场景的图像)，那么，从多个图像中删除这一个或多个图像。

对于多个图像的每一个图像中的多个区域中的每一个区域，就该区域被感觉起来如何作出判断(动作606)。此判断可以以各种不同的方式进行，诸如通过评估区域的各种特征中的一个或多个，和/或基于学习过程，如上文所讨论的。

基于动作606中进行的判断，标识基础图像(动作608)。可以以不同的方式标识基础图像，诸如选择具有最大的图像分数的图像，选定具有最大的数量被感觉为“最佳”的区域的图像等等，如上文所讨论的。

通过自动地将基础图像中的一个或多个区域替换为被感觉为更佳的其他图像中的对应区域来生成组合图像(动作610)。被感觉起来更佳的这些区域是具有更高的分数、具有更高的排序、被学习过程确定为“最佳”的对应的区域等等。如上文所讨论的，所产生的组合图像包括，对于基础图像中的每一个区域，对应区域中被感觉起来“最佳”的区域那一个区域。对应区域中被感觉起来“最佳”的区域的那一个区域可以是其中不存在存在于多个图像中的其他图像的一个或多个对应区域中的对象的区域，如上文所讨论的。

输出在动作610中所生成的组合图像(动作612)。可以以各种不同的方式输出组合图像，如显示组合图像，将组合图像存储在特定位置(例如，存储在非易失性存储器中的文件中)，将组合图像传递到实现过程600的设备(或者另一设备)的另一组件或模块等等。

图7是示出了根据一个或多个实施例的用于基于用户输入选择要包括在组合图像中的区域的示例过程700的流程图。过程700通过诸如实现图1的图像生成模块102的设备之类的设备来执行，并可以以软件、固件、硬件，或其组合来实现。过程700被示为一组动作，不仅限于所示出的用于执行各种动作的操作的顺序。过程700是用于基于用户输入选择要包括在组合图像中的区域的示例过程；此处参考不同的附图给出了关于基于用户输入选择要包括在组合图像中的区域的额外的讨论。

在过程700中，对于图像的特定区域，显示来自其他图像的对应区域(动作702)。可以以不同的方式显示这些对应图像，如在该特定区域附近的窗口或菜单中。包括特定区域的图像可以不同图像，如用来生成组合图像的基础图像，在来自不同图像的区域被自动选择以包括在组合图像中之后的组合图像等等。

接收用户对于对应区域中的一个区域的选择(动作704)。可以响应于各种不同的用户输入，接收此用户选择，如上文所讨论的。

响应于动作704中的用户选择，图像的特定区域被替换为用户选定的区域(动作706)。如此，例如，自动选择的区域可以被用户覆盖，在组合图像中包括用户选择的区域，而不是自动选择的区域。

可以对于图像的多个不同区域重复过程700。

另外，在一个或多个实施例中，在图像捕捉过程中，可以使用此处所讨论的从多个图像生成组合图像的技术。在这样的实施例中，除生成组合图像之外，还进行检查，以确保对应区域中的至少一个被感觉起来足够好。可以以不同的方式执行此检查。例如，对于图像中的每一个区域，可以进行检查，弄清该区域或另一图像中的对应区域是否具有超出阈值的分数。可以以各种方式，如凭经验，基于管理员或设计人员的偏好等等，来确定此阈值。持续捕捉图像，直到对应区域中的至少一个被感觉起来足够好。

例如，数码相机可以具有可以通过按下特定按钮、选择特定菜单选项等等来激活的“群摄”特征。响应于在激活了群摄特征的情况下拍摄照片的用户请求(例如，按下快门按钮)，数码相机开始捕捉和分析图像。数码相机包括图像生成模块(例如，图1的模块102)，该模块标识多个图像中的区域，并如上文所讨论的，判断那些区域感觉起来如何。数码相机持续捕捉图像，直到对于不同的图像中的每一组对应的区域，不同的图像中的对应的区域中的至少一个被感觉起来足够好(例如，超出阈值)。然后，数码相机可以停止捕捉图像，因为可以生成其中每一个自动选择的区域被感觉起来足够好(例如，超出阈值)的组合图像。数码相机可以可任选地提供诸如闪光或可听音之类的反馈，表示数码相机已经停止捕捉图像。

可另选地，数码相机可以响应于其他事件，如已经捕捉了阈值数量的图像，已经对图像捕捉了特定时间量，正在被检测的一个或多个用户在被捕捉的场景不再被检测到等等，停止捕捉图像。

图8示出了根据一个或多个实施例的可以被配置成从多个图像生成组合图像的示例计算设备800。可以使用一个或多个计算设备800来实现，例如，图1的服务100。

计算设备800包括一个或多个处理器或处理单元802，一个或多个计算机可读介质804(可包括一个或多个存储器和/或存储组件806)，一个或多个输入/输出(I/O)设备808，以及可使各种组件和设备彼此进行通信的总线810。计算机可读介质804和/或一个或多个I/O设备808可以作为计算设备800的一部分被包括，或者可另选地可以耦合到计算设备800。总线810表示若干类型的总线结构中的任何一种总线结构的一个或多个，包括存储器总线或存储器控制器、外围总线、加速图形端口，以及使用各种不同的总线体系结构中的处理器或局部总线。总线810可包括有线和/或无线总线。

存储器/存储组件806表示一个或多个计算机存储介质。组件806可包括易失性介质(诸如随机存取存储器(RAM))和/或非易失性介质(诸如只读存储器(ROM)、闪存、光盘、磁盘等等)。组件806可包括固定介质(例如，RAM、ROM、固定硬盘驱动器等等)以及可移动介质(例如，闪存驱动器、可移动硬盘驱动器、光盘等等)。

此处所讨论的技术可以以软件实现，指令由一个或多个处理单元802。可以理解，不同的指令可以存储在计算设备800的不同的组件中，诸如存储在处理单元802中，存储在处理单元802的各种缓存存储器中，存储在设备800(未示出)的其他缓存存储器中，存储在其他计算机可读介质上等等。另外，可以理解，指令存储在计算设备800中的位置可以随着时间而变化。

一个或多个输入/输出设备808可使用户向计算设备800输入命令和信息，以及可使信息被呈现给用户和/或其他组件或设备。输入设备的示例包括键盘、光标控制设备(例如，鼠标)、麦克风、扫描仪等等。输出设备的示例包括显示设备(例如，监视器或投影仪)、扬声器、打印机、网卡等等。

此处可以在软件或程序模块的一般上下文中描述各种技术。一般而言，软件包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。这些模块和技术的实现可以存储在某种形式的计算机可读介质上或通过某种形式的计算机可读介质传输。计算机可读介质可以是可以被计算设备访问的任何可用的介质。作为示例，而不是限制，计算机可读介质可以包括“计算机存储介质”和“通信介质”。

“计算机存储介质”包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据之类的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括，但不仅限于，RAM、ROM、EEPROM、闪存或其他存储技术，CD-ROM、数字多功能盘(DVD)或其他光存储器、磁带盒、磁带、磁盘存储器或其他磁存储设备，或可以用来存储所需要的信息并可以被计算机访问的任何其他介质。

“通信介质”通常用诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其他数据。通信介质还包括任何信息传送介质。术语“已调制数据信号”是指其一个或多个特征以这样的方式设置或改变以便在信号中对信息进行编码的信号。作为示例而非限制，通信介质可包括有线介质，如有线网络或直接线连接，以及诸如声学、射频(RF)、红外线及其他无线介质之类的无线介质。上面各项中的任何组合也包括在计算机可读介质的范围内。

一般而言，此处所描述的任何功能或技术都可使用软件、固件、硬件(例如，固定逻辑电路)、手动处理或这些实现的组合来实现。如此处所使用的术语“模块”和“组件”一般代表软件、固件、硬件或其组合。在软件实现的情况下，模块或组件表示当在处理器(例如，一个或多个CPU)上执行时执行指定任务的程序代码。程序代码可以存储在一个或多个计算机可读的存储器设备中，可以参考图8发现关于其进一步的描述。此处所描述的从多个图像生成组合图像的技术的特征是平台无关的，意味着本发明的技术可以在具有各种处理器的各种商业计算平台上实现。

尽管用结构特征和/或方法动作专用的语言描述了本主题，但可以理解，所附权利要求书中定义的主题不必限于上述具体特征或动作。相反，上述具体特征和动作是作为实现权利要求的示例形式公开的。

Claims

1.一种图像处理方法，包括：

访问(602)多个图像，每一个图像都包括多个对象；

对于所述多个图像中的多个区域中的每一个区域，就所述区域被设备感觉起来如何作出判断(606)；以及

基于对所述多个图像中的所述多个区域的对应区域被感觉起来如何作出的判断，从所述多个图像生成(610)组合图像，所述生成包括自动地从所述多个图像中的一个中选择区域以包括在所述组合图像中，在所选区域中不存在在所述多个图像中的其他图像的一个或多个对应区域中存在的对象，

其中就所述区域被感觉起来如何作出判断包括：其中如果所述对象不存在于所述多个图像中的一个中的所选区域中，则所述所选区域已经被判断为比所述多个图像中的其他图像的一个或多个对应区域好。

2.如权利要求1所述的方法，其特征在于，对于所述多个区域中的每一个区域，就所述区域被感觉起来如何作出判断包括，对于所述多个区域中的每一个区域，基于所述区域的一个或多个特征，确定与所述区域相关联的分数或排序。

3.如权利要求1所述的方法，还包括：

对于所述组合图像的第一区域，显示所述多个图像中的一个或多个其他图像的对应区域；

接收用户对于所述一个或多个其他图像的所述对应区域中的一个的选择；以及

将所述组合图像的所述第一区域替换为所述一个或多个其他图像的所述对应区域中的所述用户选定的那一个。

4.如权利要求3所述的方法，其特征在于，显示所述对应区域包括在所述第一区域附近的窗口中显示所述对应的区域。

5.如权利要求1所述的方法，其特征在于，所述多个对象中的每一个都包括面部。

6.如权利要求1所述的方法，其特征在于，还包括如果存在于其他图像的所述一个或多个对应区域中的所述对象，基于对象数据库中的信息，没有被标识为已知对象，则自动地选择其中不存在所述对象的区域。

7.如权利要求1所述的方法，其特征在于，作出所述区域感觉起来如何的判断包括判断由用户所标识的对象是否包括在所述区域中，以及基于由所述用户所标识的对象是否包括在所述区域中来对于所述区域进行所述判断。

8.如权利要求1所述的方法，其特征在于，所述多个对象包括多个面部，并且，其中作出所述区域感觉起来如何的判断包括判断眼睛在所述区域中的面部中是否被检测为睁开的，以及基于眼睛是否被检测为睁开的和/或是否在所述区域中的面部中包括反光，来对于所述区域进行所述判断。

9.如权利要求1所述的方法，其特征在于，所述多个对象包括多个面部，并且，其中作出所述区域感觉起来如何的判断包括判断在所述区域的面部中是否检测到微笑存在，以及基于在区域的所述的面部中是否检测到微笑存在，对于所述区域进行所述判断。

10.如权利要求1所述的方法，其特征在于，生成所述组合图像包括：

将所述多个图像中的第一图像标识为基础图像；以及

如果所述多个图像中的第二图像的对应区域被感觉为比所述第一图像的每一个区域好，则自动地将所述基础图像的所述区域替换为所述第二图像的所述对应的区域，来从所述多个图像生成组合图像。

11.如权利要求10所述的方法，其特征在于，如果所述第二图像的所述对应的区域没有所述对象，则所述第二图像的所述对应区域被感觉起来比所述第一图像的所述区域好。

12.如权利要求10所述的方法，其特征在于，将所述第一图像标识为所述基础图像包括：

对于所述多个图像中的每一个图像，判断所述图像中有多少区域被判断为最佳；以及

选择所述多个图像中具有最大数量的被判断为最佳的区域的图像作为所述基础图像。

13.如权利要求1所述的方法，其特征在于，所述设备包括捕捉所述多个图像的数码相机，所述方法还包括持续捕捉图像以包括在所述多个图像中，直到，对于图像中的所述多个区域中的每一个区域，所述区域或所述多个图像中的另一图像的对应区域具有超出阈值的分数。

14.一种图像处理方法，包括：

访问(602)多个图像，每一个图像都包括多个对象；

对于所述多个图像中的多个区域中的每一个区域，就所述区域被计算设备感觉起来如何作出判断(606)；

标识(608)所述多个图像的基础图像；

如果所述多个图像中的另一图像的对应区域被判断为比所述基础图像的每一个区域好，则自动地将所述基础图像的所述区域替换为所述对应区域，来从所述多个图像生成(610)组合图像，其中如果被包括在所述基础图像的所述区域中的对象不存在于所述对应区域中，则所述对应区域已经被判断为比所述基础图像的所述区域好；

显示(702)所述多个图像中的其他图像中的每一个图像的各区域，每一个所显示的区域都对应于所述基础图像的特定区域；

接收(704)用户对于所述多个图像中的所述其他图像的所述对应区域中的一个的选择；以及

将所述基础图像的所述特定区域替换(706)为所述其他图像的所述对应区域中的所述用户选定的那一个。

15.如权利要求14所述的方法，其特征在于，显示其他图像中的每一个图像的所述区域是在所述特定区域附近的窗口中显示所述其他图像中的每一个图像的所述区域。