CN113383292A

CN113383292A - 演示文件生成方法

Info

Publication number: CN113383292A
Application number: CN201980090343.2A
Authority: CN
Inventors: C·卡尔森; 丁志康; J·C·库奇内利; D·贝奈伊姆; J·雷根; T·查恩; A·P·戈德法布
Original assignee: Picture Butler Inc
Current assignee: Picture Butler Inc
Priority date: 2018-11-26
Filing date: 2019-11-26
Publication date: 2021-09-10
Also published as: JP2022507963A; EP3887923A1; JP7536241B2; US20210390134A1; WO2020112738A1; EP3887923A4

Abstract

用于生成演示文件的方法和系统。本文描述的系统和方法可以根据一个或多个标准分析所接收的图像，然后基于满足至少一个标准的部分选择所接收的图像的至少一部分。该系统和方法然后可以生成演示文件，例如包括选定图像部分的视频幻灯片。

Description

演示文件生成方法

相关申请的交叉引用

本申请要求2018年11月26日提交的共同未决的美国临时申请第62/771,548号的权益，其全部公开内容通过引用并入本文，具有与在本文中完整阐述时相同的作用。

技术领域

本申请总体上涉及用于生成图像的演示文件的系统和方法，更具体地但非排他地涉及基于满足一个或多个标准的图像生成图像演示文件的系统和方法。

背景技术

人们经历诸如体育比赛、假期、节日或在一段时间内发生的某些其他类型的事件之类的事件后可能想要与他人分享他们收集的图像，或者想要一种以有趣简单的方式查看收集的图像的方式。然而，用于选择和呈现收集的图像的现有技术并没有提供许多关于如何选择和呈现图像的选项。此外，这些用于选择和呈现图像的现有方法涉及手动选择图像，这是一个耗时的过程。

因此，需要能克服现有技术的缺点的用于生成图像演示文件的系统和方法。

发明内容

本发明内容是用于以简化的形式介绍一些概念，这些概念将在下面的具体实施方式部分中进一步描述。本发明内容不旨在确定或排除所要求保护的主题的关键特征或必要特征，也不旨在用于帮助确定所要求保护的主题的范围。

在一个方面，实施例涉及生成演示文件的方法。该方法包括在接口处接收图像、在接口处接收用于从所接收的图像中选择图像的至少一个标准、根据所接收的至少一个标准分析所接收的图像、基于满足至少一个标准的图像部分选择至少一部分所接收的图像，并自主生成包括所接收图像的选定部分的演示文件。

在一些实施例中，该方法还包括向所接收的图像分配表示所接收的图像是否满足所接收的至少一个标准的分数。在一些实施例中，选择至少一部分所接收的图像包括选择具有高于阈值的分配分数的图像。在一些实施例中，分配给所接收的图像的分数基于所接收的图像中的至少一个感兴趣的项目，其中感兴趣的项目选自图像中的人物、图像拍摄位置、图像拍摄日期、图像拍摄时间、与图像相关的兴趣点(a point of interest)、图像中让人感兴趣的对象以及至少一种图像美学(imagery aesthetic)。在一些实施例中，与分配给具有较少让人感兴趣的项目的第二部分图像的分数相比，包括更多让人感兴趣的项目的第一部分图像将被分配更高的分数。

在一些实施例中，所述方法还包括在所生成的演示文件中生成至少一个文本说明，以补充说明所接收图像的选定部分。在一些实施例中，至少一个文本说明描述所接收图像的选定部分中的人物、所接收图像的选定部分中发生的活动、图像中的兴趣点和图像中让人感兴趣的对象中的至少一个。

在一些实施例中，在接口处接收图像包括从多个用户接收图像。

在一些实施例中，所述方法还包括执行计算机视觉程序，以检查所接收的图像是否存在重复图像并防止重复图像被包括在生成的演示文件中。

在一些实施例中，分析所接收的图像包括用于检查图像以检测相似图像的计算机视觉程序，其中选择至少一部分所接收的图像包括选择最不相似的图像部分以确保生成的演示文件包括不同的图像。

在一些实施例中，所述方法还包括基于对所接收图像的分析，推荐用于生成演示文件的模板。

在一些实施例中，生成演示文件包括选择待使用的至少一个过滤器，并且将所述至少一个过滤器应用于至少一部分选定图像。

在一些实施例中，所述方法还包括基于图像拍摄时间将图像分类成多个时间段，并且其中选择至少一部分所接收的图像包括从多个时间段中的每个时间段中选择图像，其中从多个时间段中的每个时间段中选择的图像数量与多个时间段中的每个时间段中的图像数量成正比。

在一些实施例中，生成包括所接收图像的选定部分的演示文件包括将至少一个过滤器应用于所接收图像的选定部分，其中所应用的过滤器基于所接收图像的内容。

在一些实施例中，分析所接收的图像包括执行计算机视觉程序，并且该方法还包括执行裁剪程序，以基于计算机视觉程序的执行裁剪选定图像部分。

根据另一方面，各实施例涉及用于生成演示文件的系统。该系统包括用于接收图像的接口，用于从所接收的图像中选择图像的至少一个标准，以及处理器，其执行存储在存储器中的指令并配置用于根据所接收的至少一个标准分析所接收的图像、基于满足至少一个标准的图像部分选择至少一部分所接收的图像以及自主生成包括所接收图像的至少一个选定部分的演示文件。

在一些实施例中，所述处理器还被配置为向所接收的图像分配表示所接收的图像是否满足至少一个标准的分数。在一些实施例中，所述处理器基于具有高于阈值的分配分数的图像部分来选择至少一部分图像。在一些实施例中，分配给所接收的图像的分数基于所接收的图像中的至少一个感兴趣的项目，其中感兴趣的项目选自图像中的人物、图像拍摄位置、图像拍摄日期、图像拍摄时间、与图像相关的兴趣点、图像中让人感兴趣的对象以及至少一种图像美学。在一些实施例中，与分配给具有较少让人感兴趣的项目的第二部分图像的分数相比，包括更多让人感兴趣的项目的第一部分图像将被分配更高的分数。

在一些实施例中，所述处理器还被配置用于在所生成的演示文件中生成至少一个文本说明，以补充说明所接收图像的选定部分。

在一些实施例中，至少一个文本说明描述所接收图像的选定部分中的人物、所接收图像的选定部分中发生的活动、图像中的兴趣点和图像中让人感兴趣的对象中的至少一个。

在一些实施例中，所述图像是从多个用户接收的。

在一些实施例中，所述处理器还被配置用于执行计算机视觉程序，以检查所接收的图像是否存在重复图像并防止重复图像被包括在生成的演示文件中。

在一些实施例中，所述处理器还被配置为执行存储在存储器中的指令，以自主分析与所接收的图像相关联的元数据并基于图像拍摄时间将所选择的图像分类成多个时间段，其中从多个时间段中的每个时间段中选择的图像数量与多个时间段中的每个时间段中的图像数量成正比。

在一些实施例中，所述处理器还被配置为在生成的演示文件的至少两个图像部分的演示之间指定过渡效果。

附图的简要说明

参考以下附图描述本公开的非限制性和非穷举性实施例，其中除非另有说明，否则相同的附图标记在各个视图中指代相同的部分。

图1示出了根据一个实施例的用于生成演示文件的系统；

图2示出了根据一个实施例的图1的图像分析模块；

图3描绘了根据一个实施例的用于生成演示文件的方法的流程图；以及

图4描绘了根据另一个实施例的用于生成演示文件的方法的的流程图。

具体实施方式

下面参考附图更全面地描述各个实施例，各附图形成本发明的一部分并且示出了具体的示例性实施例。但是本公开的概念可以以许多不同的形式实现，并且不应该被解释为限于本文阐述的实施例；相反，这些实施例是作为全面和完整公开的一部分提供的，以向本领域技术人员详细表述本公开的概念、技术和实施方式的范围。各实施例可以实现为方法、系统或装置。因此，各实施例可以采用的形式有硬件实现、完全软件实现或软件和硬件组合实现。因此，以下详细描述不应被视为具有限制意义。

说明书中引用“一个实施例”或“实施例”表示与描述该实施例有关的特定特征、结构或特性包括在根据本公开的至少一个示例性实现或技术中。在说明书中各处出现的短语“在一个实施例中”不一定都指的是同一实施例。在说明书中各处出现的短语“在一些实施例中”不一定都指的是相同的实施例。

下文描述的一些部分是根据存储在计算机存储器内的非瞬态信号操作的符号表示来描述的。这些描述和表示由数据处理领域的技术人员使用，以最有效地将他们工作的实质传达给本领域其他技术人员。这种操作通常需要物理量的物理操纵。通常，尽管不是必须的，但是这些量可以采取能够进行存储、传输、组合、比较和以其他方式控制的电信号、磁信号或光信号的形式。有时为了方便，主要是由于习惯用法的原因，将这些信号称为比特、数值、元素、符号、字符、术语、数字等。此外，有时为了方便也将需要对物理量进行物理操纵的某些步骤的布置称为模块或代码装置，但是不代表不再具备其一般性。

但是所有这些和类似术语都与适当的物理量有关，仅仅是应用于这些量的方便标签。除非从以下讨论中显而易见的明确说明，否则应当理解的是，在整个说明书中，利用诸如“处理”或“电脑运算”或“计算”或“确定”或“显示”等术语的讨论指的是计算机系统或类似电子计算装置的动作和程序，其操纵和变换表示为计算机系统存储器或寄存器或其他此类信息存储、传输或显示装置内的物理(电子)量的数据。本公开的部分包括可以以软件、固件或硬件实现的程序和指令，当以软件实现时，可以下载以驻留在各种操作系统所使用的不同平台上并且可以从所述不同平台操作。

本公开还涉及用于执行本文操作的设备。该装置可以为所需目的而专门构造，或者它可以包括由存储在计算机中的计算机程序选择性地激活或重新配置的通用计算机。这样的计算机程序可以存储在计算机可读存储介质中，例如但不限于任何类型的磁盘(包括软盘、光盘、CD-ROM、磁光盘)、只读存储器(ROM)、随机存取存储器(RAM)、EPROM、EEPROM、磁卡或光卡、专用集成电路(ASIC)或适用于存储电子指令的任何类型的介质，并且每种可以耦合到计算机系统总线。此外，说明书中提到的计算机可以包括单个处理器或者可以是采用多个处理器设计以提高计算能力的架构。

本文出现的程序和显示并非固有地与任何特定计算机或其他设备相关。各种通用系统也可以与本文教导的程序一起使用，或者可以证明其方便用于构造更专用的设备以执行一个或多个方法步骤。在下面的描述中讨论了各种这些系统的结构。另外，可以使用足以实现本公开的技术和实施方式的任何特定编程语言。可以使用各种编程语言来实现如本文所讨论的本公开。

此外，本说明书中使用的语言主要是出于可读性和指导目的而选择的，并非选择用于描述或限制所公开的主题。因此，本公开旨在说明而非限制本文所讨论的概念的范围。

本文描述的实施例提供了分析图像以生成诸如视频幻灯片的图像演示文件的新颖方式。为了确定哪些图像适合在幻灯片中使用，本文描述的实施例可以依赖于面部识别、光学字符识别(OCR)、地标或对象检测、时间数据、位置数据、季节数据等等分析所收到的图像。每个图像部分还可以包括描述所收集图像的内容的内容标签或以其他方式与描述所收集图像的内容的内容标签相关联。

OCR和其他技术可用于识别图像的一部分中包含的文本以及图像美学。本文描述的系统和方法可以检测和识别标志、留言、球员球衣(players’jerseys)和其他相关文本的内容，以学习图像并个性化生成的演示文件。基于对图像的分析，本文描述的系统和方法可以选择用于生成演示文件的模板、识别图像中感兴趣的人物、选择用于生成的演示文件的过滤器、选择演示文件不同部分的过渡等等。

在本文描述的实施例提供了基于一个或多个标准来个性化和生成演示文件的系统和方法，例如，谁在所收集的图像中有特色、与所收集的图像相关联的时间、与所收集的图像相关联的日期、与所收集的图像相关联的位置、与所收集的图像相关联的兴趣点(POI)等等。

在本文描述的系统和方法可以通过应用与上述标识符或特征相关的过滤器、字幕、音乐、过渡和效果来动态地个性化所生成的演示文件。因此，这使得本文描述的系统和方法能够生成更具吸引力的演示文件。尽管本申请主要讨论了生成诸如视频幻灯片的演示文件，但是本文描述的系统和方法可以用于创建其他类型的文件，诸如书籍布局、日历、相册等等。

图1示出了根据一个实施例的用于生成演示文件的系统100。系统100可以包括执行用户界面104以向用户106演示的用户设备102。用户106可以是对上传图像并且已经被编译成诸如视频幻灯片的演示文件的图像感兴趣的人物。

用户设备102可以是能够执行用户界面104的任何硬件设备。用户设备102可以被配置为膝上型电脑、PC、平板电脑、移动设备、电视等。用户设备102的准确配置可以变化，只要它可以执行用户界面104并将其演示给用户106。用户界面104可以允许用户106提供图像和用于选择被包括在生成的演示文件中的图像的标准，以及查看生成的演示文件。

用户设备102可以与一个或多个处理器108进行可操作的通信。处理器108可以是能够执行存储在存储器110上的指令以实现本文描述的各种实施例的目标的任何一个或多个硬件设备。处理器108可以被实现为能在微处理器、现场可编程门阵列(FPGA)、专用集成电路(ASIC)或其他类似设备上执行的软件。

在一些实施例中，例如依赖于一个或多个ASIC的实施例，所述部分通过软件提供的功能可以替代地配置为ASIC的设计，且因此可以省略相关的软件。处理器108可以被配置为用户界面104在其上执行的用户设备102的一部分，例如膝上型电脑，或者可以位于不同的计算设备上，可能位于某个远程位置或被配置为基于云的解决方案。

处理器108可以执行存储在存储器110上的指令，以提供各种模块来实现本文描述的各种实施例的目的。具体地，处理器108可以执行或以其他方式包括接口112、标准引擎114、图像分析模块116和演示文件生成模块118。

存储器110可以是L1、L2、L3高速缓存或RAM存储器配置。如上所述，存储器110可以包括非易失性存储器(比如闪存、EPROM、EEPROM、ROM和PROM)或易失性存储器(比如静态或动态RAM)。存储器110的准确配置/类型当然可以变化，只要用于生成演示文件的指令可以由处理器108执行，以实现本文描述的各种实施例的特征。

处理器108可以通过一个或多个网络128从用户106以及一个或多个成员120、122、124和126接收图像。成员120、122、124和126被显示为诸如膝上型电脑、智能手机、智能手表和PC之类的设备，或者被配置为或以其他方式与图像收集设备(例如，照相机)可操作地通信以收集图像的任何其他类型的设备。

本申请主要描述了用户设备102的用户106收集和共享图像并且其他成员或用户查看图像和生成的演示文件的实施例。然而，在一些实施例中，成员120、122、124和126可以贡献他们自己的图像以用于生成演示文件。

在各种实施例中，图像的共享可以是双向的。即，成员120、122、124和126可以单独是观看者(并且不贡献图像)，或者是贡献者，在这种情况下，他们贡献他们的图像并且可以查看包括在生成的演示文件中的其他图像。作为贡献者，成员可以提供图像，如果图像满足指定的标准，则可以被包括在生成的演示文件中。

当用户106创建或共享演示文件项目时，他或她可以指示他们是否希望某个成员成为贡献者或查看者。如果一个人被邀请成为项目成员，他或她可以接受成为贡献者或仅作为查看者。在这之后，受邀者或项目创建者可以改变他们的状态。

网络128可以将各种资源和组件与各种类型的网络连接相链接。网络128可以包括或对接到任意一种或多种互联网、内联网、个域网(PAN)、局域网(LAN)、广域网(WAN)、城域网(MAN)、存储区域网络(SAN)、帧中继连接、高级智能网络(AIN)连接、同步光纤网络(SONET)连接、数字T1、T3、E1或E3线路、数字数据服务(DDS)连接、数字用户线(DSL)连接、以太网连接、综合业务数字网(ISDN)线、拨号端口(如V.90、V.34或V.34bis)模拟调制解调器连接、电缆调制解调器、异步传输模式(ATM)连接、光纤分布式数据接口(FDDI)连接、铜缆分布式数据接口(CDDI)连接或光/DWDM网络。

网络128还可以包括、包含或对接任意一种或多种无线应用协议(WAP)链路、Wi-Fi链路、微波链路、通用分组无线服务(GPRS)链路、全球移动通信系统G(SM)链路、码分多址(CDMA)链路或时分多址(TDMA)链路(比如蜂窝电话信道)、全球定位系统(GPS)链路、蜂窝数字分组数据(CDPD)链路、Research in Motion,Limited(RIM)的双工寻呼类型装置、蓝牙无线电链路或基于IEEE 802.11的链路。

数据库130可以存储与例如某些人物(例如，他们的面部特征)、地点、日历事件(以及与日历事件相关联的项目)等相关的图像和其他数据。换句话说，数据库130可以存储关于特定人物或其他实体的数据，使得图像分析模块116可以在接收的图像中识别这些人物或实体。只要可以实现本文描述的各种实施例的特征，存储在数据库130中的数据的具体类型可以变化。

处理器接口112可以从用户设备102(例如，用户设备102的相机)接收多种格式的图像。所述图像可以通过任何合适的协议或应用程序发送，例如但不限于电子邮件、SMS文本消息、iMessage、Whatsapp、Facebook、Instagram、Snapchat、其他社交媒体平台或消息传递应用程序等。然后接口112可以将图像传送到图像分析模块116。

在本申请的上下文中，术语“图像”可以指照片、视频(例如，可以对其帧进行分析的)、迷你剪辑(mini clips)、动画照片、视频剪辑、动画图像、动态照片等。该系统和方法可以分析从用户106，其他成员120、122、124和126，一个或多个数据库130或其一些组合接收的图像，以选择包括在生成的演示文件中的一个或多个图像部分。在本申请的上下文中，术语“图像部分”及类似术语可以指单个图像文件，例如单个照片或视频。因此，生成的演示文件可以包括若干部分的图像。

在操作中，用户106可以通过标准引擎114提供一个或多个标准。具体地，所提供的标准可以指定图像的一部分所需的内容，以便将该部分图像包括在生成的演示文件中。例如，指定的标准可以涉及图像中的人物、图像拍摄位置、图像拍摄日期、图像拍摄时间、与图像相关的兴趣点、图像中让人感兴趣的项目中的任意一个或多个。

标准引擎114可以执行各种子模块，以使用户能够定义用于生成演示文件的标准。这些可以包括用于在选定图像之前指定图像中存在的一个或多个人物的人物子模块130、用于在选定图像之前指定要满足的时间标准的时间模块132、用于在选定图像之前指定要满足的位置的位置子模块134、用于在选定图像之前指定出现在图像中的POI的兴趣点(POI)子模块136、用于在被包括在演示文件中之前指定图像应该匹配的日期的日期子模块138，以及用于考虑诸如图像美学(photoaesthetics)的其他特征的杂项子模块140，这将在下文讨论。

例如，用户106希望演示文件包括他们的朋友露西和卡罗琳在之前(或即将到来的)夏天在楠塔基特岛的照片和视频。或者，用户106希望演示文件仅包括杰克在所有先前的圣诞节期间和所有未来的圣诞节期间的照片和视频。因此，人物子模块130可以从用户界面104接收与要包括在生成的演示文件中的图像相关的人物姓名输入，并且时间子模块132或日期子模块138可以接收要包括在生成的演示文件中的图像的日期或时间。

此外，标准引擎114可以加载存储在数据库148中的模板，这些模板提供专用过滤器以帮助用户定义图像标准。例如，数据库148可以包括基于“毕业(Graduation)”规则的相册模板。如果选择该模板，则预定义的标准可以是包括诸如灰泥板、讲台、学位证书和其他相关的与毕业相关对象的对象的图像部分。

作为另一个例子，数据库148可以包括基于“体育(Sports)”规则的相册模板。如果选择此模板，则预定义的标准可以是图像部分包括足球、棒球、球棒、长曲棍球棒、曲棍球棒、篮球架、裁判(例如，穿着黑白条纹的人)、运动场、球场、曲棍球场、体育馆、高尔夫球场等。

作为另一个例子，数据库148可以包括基于“音乐会(Concert)”规则的模板。如果选择该模板，则预定义的标准可以是图像部分包括诸如但不限于音乐会舞台、乐器、灯光秀和黑暗、拥挤的场景等对象。

图像分析模块116根据一个或多个标准分析所接收的图像。图2示出了根据一个实施例的详细的图1的图像分析模块116。所述图像分析模块116可以包括以下组件，包括但不限于时机算法(occasions algorithms)202、机器学习模块204、计算机视觉模块206、元数据解串器208、面部检测模块210、面部识别模块212、面部聚类模块214、对象检测模块216、对象识别模块218、场景检测模块220、场景识别模块222、裁剪模块224、评分模块226、模板选择模块228、感兴趣的人物模块230、图像选择模块232和过渡效果模块234。

图像分析模块116的这些组件中的任何一个可以单独或以某种组合来分析所接收的图像236，以确定图像236是否满足由标准引擎114规定的一个或多个规则。

时机算法202可以包括识别特定日期、日历事件或其他类型的诸如由先前讨论的模板定义的时机的算法。这些可以识别例如某些与假期相对应的日历日期。

机器学习模块204可以实现各种机器学习程序，来标记所接收的图像236的内容并学习图像236、它们的内容以及与图像236相关的用户行为。因此，机器学习模块204可以实现监督式机器学习技术以及非监督式机器学习技术。

计算机视觉模块206可以实现各种视觉技术，以分析所接收的图像236的内容。这些技术可以包括但不限于尺度不变特征转换(SIFT)、加速鲁棒特征(SURF)技术等。所使用的确切技术可以不同，只要它们可以分析所接收的图像236的内容，实现本文描述的各种实施例的特征。

计算机视觉标签可以包括但不限于水、自然、无人、人、桌面、户外、海洋、夏天、大海、太阳、全景、颜色、旅行、美丽、明亮、晴朗的天气、冬天、抽象、假期、艺术等。这些标签可以帮助根据其内容对图像部分进行分类或以其他方式分组。

元数据解串器208可以接收各种类型的元数据(例如，以序列化形式)。该数据可以包括但不限于以指定所接收的图像236的格式的EXIF数据。然后，解串器208可以将所接收的元数据解串成其反序列化形式。

面部检测模块210可以执行各种面部检测程序，以在各种图像部分中检测面部(和因此得出的人物)的存在。例如，所述程序可以包括或基于例如OpenCV和具体来说，神经网络。同样，这些程序可以在用户设备102上和/或在远程位置的服务器上执行。所使用的确切技术或程序可以不同，只要它们可以检测图像中的面部特征，实现本文描述的各种实施例的特征。

面部识别模块212可以执行各种面部识别程序，以识别各种图像部分中的某些人物。面部识别模块212可以与一个或多个数据库130通信，所述数据库130存储关于人物及他们的面部特征的数据。面部识别模块212可以使用基于几何的方法和/或基于光度测定的方法，并且可以使用基于主成分分析、线性判别分析、弹性束图匹配、HMM、多线性子空间学习等的技术。

由面部检测模块210或面部识别模块212检测的面部属性可以包括但不限于Hasglasses、Hassmile、年龄、性别和面部坐标：pupilLeft、pupilRight、noseTip、mouthLeft、mouthRight、eyebrowLeftOuter、eyebrowLeftInner、eyeLeftOuter、eyeLeftTop、eyeLeftBottom、eyeLeftInner、eyebrowRightInner、eyebrowRightOuter、EyeRightInner、eyeRightTop、eyeRightBottom、eyeRightOuter、noseRootLeft、noseRootRight、noseLeftAlarTop、noseRightAlarTop、noseLeftAlarOutTip、noseRightAlarOutTip、upperLipTop、upperLipBottom、underLipTop、underLipBottom。

图像分析模块116还可以实现正例/反例(positive/negative)面部美学神经网络，以选择最佳图像部分。例如，神经网络可以选择睁眼的人物的图像部分而不是闭眼的人物的图像部分。可以考虑多种图像美学。图像分析可以检测哪些照片模糊，哪些照片被聚焦，哪些被适当地居中等等。这些特征可以有助于给图像部分分配一个或多个分数(如下文讨论的)。

一旦面部识别模块212识别出图像部分中的某个人，面部聚类模块214就可以将该图像部分分组成与一个或多个人相关联的图像的一部分。也就是说，一图像部分可以是被识别出的包括某个人的许多人中的一个。

这些模块210-214可以基于谁在图像中、出现频率以及与谁一起从图像中单独地或以某种组合提取含义，以便识别例如可能最相关的人。这可以允许图像分析模块116例如检测家庭及其成员，并确保在生成的演示文件中存在每个家庭成员的至少一个图像部分。

图像分析模块116可以确定和识别图像中的家庭成员。附加地或替代地，作为训练阶段的一部分，用户可以在先前收集的图像中手动识别家庭成员以指示“感兴趣的人”或者可以在演示文件的创建期间识别家庭成员或其他重要人物。

对象检测模块216可以检测在图像部分中存在的各种对象。例如，对象检测模块216可以执行各种技术中的一种或多种(例如，使用计算机视觉模块206)，以区分图像部分中的对象和图像部分的背景。

然后，对象识别模块218可以对对象进行分类或以其他方式将对象识别为特定物品。例如，对象识别模块218可以分析对象(例如，通过它们的形状、大小、颜色等)，以确定它们是否满足一个或多个标准。对象识别模块218还可以将关于检测到的对象(例如，它们的形状和大小)的数据与数据库148中的数据进行比较，以确定检测到的对象是否与存储在数据库148中的对象匹配，从而确定是否满足一个或多个标准。

场景检测模块220可以收集与图像部分相对应的场景的数据。这可以包括指示图像部分的环境的数据，例如图像部分是否包括人、是否在室内拍摄、是否在户外、是否在白天、是否在夜间等。

场景识别模块222可以与场景检测模块220通信并接收关于图像部分的场景的数据。场景识别模块222可以将所接收的数据与数据库148中的数据进行比较，以确定它是否指示了某个环境，从而确定是否满足一个或多个标准。例如，场景识别模块222可以识别人物照片是否是在室内、室外、某些类型的天气、某些光照条件等下拍摄的。

裁剪模块224可以对图像执行任何编辑步骤，例如裁剪单独的图像部分。例如，如果在图像部分中检测到一个或多个人，则裁剪模块224可以裁剪图像部分，以便选择人脸并在生成的演示文件中更突出显示。

评分模块226可以给每个图像部分的分配分数，该分数表示图像部分是否(以及到何种程度)满足所提供的标准。因此，可以说，与具有较低分数或分数低于阈值的图像部分相比，可以选择具有较高分数或分数高于阈值的图像部分。

评分模块226可以以多种方式为图像部分分配评分。例如，给定的演示文件项目可以规定包含在生成的演示文件中的图像部分应该(i)包括某个人；(ii)在特定地点拍摄；(iii)包括某些感兴趣的对象(例如派对帽、生日蛋糕和礼物)。项目(i)和(ii)可以是严格要求的，以便给同时不包括项目(i)和(ii)的图像部分被分配零(0)分并且不被选中。

然而，满足标准(i)和(ii)以及(iii)指定感兴趣的对象中的至少一个的图像部分可以被分配一个非零分数，该分数随着存在的感兴趣对象增多而增加。也就是说，满足上述标准(i)和(ii)并包括派对帽和生日蛋糕的图像部分比满足标准(i)和(ii)且仅包含生日蛋糕的图像部分被分配到更高的分数。

此外，并且如前文所述，图像分析模块116可以实现正例/反例(positive/negative)面部美学神经网络，以选择最佳图像部分。例如，人物微笑的图像部分比人物皱眉或嘴里有食物的图像部分被分配到更高的分数。如上所述，清晰或聚焦的图像部分可被分配到比模糊的图像部分更高的分数。因此，分配给每个图像部分的分数可以基于任意数量的标准。

如果某个人或几个人已被确定为是重要的，则可以为有这些人的图像部分分配比没有这些人的图像部分更高的分数。类似地，与仅包括一个被识别为重要的人的图像部分相比，可以为包括三个被识别为重要的人的图像部分分配更高的分数。

一个人物是否“重要”的分类可以基于该人在所接收的图像中出现的频率。这种分类也可以基于人物在图像中的显著程度。作为另一个例子，一个经常出现在图像中的人与另一个已经被归类为重要的人仍可以被归类为重要的。

因此，评分模块226可以计算要用于选择图像的一种或多种类型的评分。这些可以包括表示图像部分如何新颖或独特的新颖性分数、表示图像部分中是否有(以及有多少)重要人物的重要人物分数，或与图像部分的某些特征相关的任何其他类型的分数。评分模块224还可计算基于一种或多种其他类型的计算得分的综合得分。

模板选择模块228可以基于对所接收的图像的分析，选择要用于分析所接收的图像的模板。例如，如果计算机视觉模块206在图像的一部分中检测到蛋糕，则模板选择模块228可以选择“生日”模板以用于分析所接收的图像的其他部分。然后，选定模板可以为随后接收的图像指定其他标准。

感兴趣的人物模块230可以基于对所接收的图像的分析识别作为标准的感兴趣的人物。例如，如果种族识别模块212的计算机视觉模块206识别图像部分中的某个第一人，则感兴趣的人物模块230可以指定应当包括在生成的演示文件中的其他人(例如，该人的朋友、配偶、父母等)。然后，图像选择模块232可以选择一个或多个图像部分。在一些实施例中，图像选择模块232可以基于它们被分配的分数选择一个或多个图像部分。如前文所述，图像选择模块232可以被配置为仅选择得分等于或高于某个阈值的图像部分。在一些实施例中，图像选择模块232可以选择例如被包括在生成的演示文件中的具有例如前十名最高分配分数的图像部分。在一些实施例中，图像选择模块232可以将收集的图像部分分类为不同的时间段，然后在每个时间段中选择具有最高分配分数的一个或多个图像部分。

图像选择模块232从给定的时间段中选择的图像部分的数量与每个段中的图像部分的数量成正比。即，假设所有图像部分满足指定标准，从具有十五(15)个图像部分的第一时间段中选择的图像部分的数目将大于从具有九(9)个图像部分的第二时间段中选择的。

过渡效果模块234可以在所生成的演示文件的至少两个图像部分的演示之间提供某种类型的过渡效果。这些可能包括，例如，增强演示文件的声音效果或视觉效果。

再次参考图1，演示文件生成模块118可以将所选图像部分编译在一起以形成演示文件，例如视频幻灯片。实际上，演示文件生成模块118将所选图像部分与一个或多个模板整合以生成演示文件。演示文件生成模块118可以根据各种特征规定演示文件的格式。例如，用户106可以指定生成的演示文件的期望持续时间、演示文件中要包括的图像部分的数量、演示期间每个图像部分应该在演示文件中显示的时长等。

演示文件生成模块118还可执行文本生成模块142，以生成补充说明一个或多个图像部分的文字说明。在生成文字说明时，文本生成模块142可以依赖于从图像分析模块116的各个子模块获得的关于图像部分的数据。

文字说明可以考虑图像部分中的人物或人们，以及图像部分中描绘的他们的活动。这为查看生成的演示文件的人提供了额外的上下文说明和乐趣。文字说明可以考虑图像部分中存在的内容以及拍摄或记录的人物名字(例如，“杰克在飞机上飞得很高”)、人物位置(“家人大部分时间都在迪斯尼乐园度过”))、地标(“妈妈和爸爸在埃菲尔铁塔”)和一天中的时间(“迈拉吃了一顿丰盛的早餐，开始了美好的一天”)。

演示文件生成模块118还可包括或以其他方式执行过滤器选择模块144，以增强生成的演示文件。例如，一个或多个过滤器可以为一个或多个图像部分提供视觉效果。这些过滤器可以提供照明效果、阴影效果、色彩效果等，以进一步增强或定制生成的演示文件。

过渡选择模块146可以选择一种或多种过渡效果并将其应用到生成的演示文件。这些过渡可以在演示文件的执行期间提供视觉或音频效果，例如当演示文件在呈现不同图像部分之间切换时。因此，演示文件生成模块118可以利用过滤器、背景、过渡、音乐、动画、增强现实特征等来生成演示文件。

然而，演示文件生成模块118可能受到规则或参数的限制，这些规则或参数对用于生成演示文件的过滤器、文字说明或文本数量进行设置、上限化、最大化或限制。这可以确保多样性，例如，不会过度使用相同的过滤器或过渡效果，并在生成的演示文件中实现多样性。

演示文件生成模块118还可生成演示文件以符合任何时间参数或约束。例如，用户可以指定生成的演示文件应该是例如长度为15秒、长度为30秒、长度为60秒等。因此，演示文件生成模块118可以规定该演示文件的格式，使得每个图像部分演示特定秒数，以便整个演示文件符合规定的时间限制。演示文件生成模块118还可以生成多个演示文件供查看，其中每个生成的演示文件的长度不同。

附加地或替代地，演示文件生成模块118可以确定或至少推荐用于生成的文件演示的适当持续时间。例如，根据收到的图像数量，建议演示文件的长度应为两分钟。可以将该推荐推送给用户，该用户可以接受该推荐或者为生成的演示文件选择另一个持续时间。

图3描绘了根据一个实施例的用于生成演示文件的方法300的流程图。图1的系统100或其组件可以执行方法300的各个步骤。

步骤302涉及在接口处接收图像。所述图像可以包括若干不同类型的图像，例如前文讨论的那些。所述图像可以从多个用户或项目成员接收或以其他方式提供。所述图像可以从若干用户贡献的图像共享池接收，并且可以包含使用智能手机或者例如数码单反相机或任何其他设备拍摄的视频和照片。例如，所述池还可以包括例如由活动组织者聘请的专业摄影师提供的照片。最后，从社交媒体摄取的图像也可以被合并到演示文件中，以实现本文描述的实施例的各种特征。

步骤304涉及在接口处接收用于从所接收的图像中选择图像的至少一个标准。一个或多个用户可以提供用于选择要包括在生成的演示文件中的图像的标准。所提供的标准可以指定为了选择包含在演示文件中的图像部分，它应当例如在某个时间拍摄、在某个位置拍摄、包括某个人、包括某个对象等。

步骤306涉及根据接收的至少一个标准分析所接收的图像。图像分析模块，例如图1的图像分析模块116，可以分析所接收的图像，以确定哪些图像部分(如果有的话)满足所要求的标准。

步骤308涉及基于满足至少一个标准的部分来选择所接收图像的至少一部分。在确定一个或多个图像部分满足所接收的标准时，图像选择模块，例如图2的图像选择模块232，可以选择要包括在演示文件中的那些图像部分。

步骤310涉及自主生成包括所接收图像的选定部分的演示文件。演示文件生成模块，例如图1的演示文件生成模块118，可以生成演示文件。该演示文件可以用例如过滤器、背景、过渡、音乐、动画、增强现实特征等来增强。

例如，步骤312是可选的并且涉及生成至少一个文本说明，以在所生成的演示文件中补充说明所接收的图像的选定部分。文本生成模块，例如图1的文本生成模块132，可以执行此步骤。因此，生成的演示文件可以伴随有描述或以其他方式进一步增强生成的演示文件的内容的文字说明。

图4描绘了根据另一个实施例的用于生成演示文件的方法400的流程图。图1的系统100或其组件可以执行方法400的各个步骤。步骤402-408分别类似于图3的步骤302-308，这里不再赘述。

步骤410涉及执行计算机视觉程序，以检查所接收的图像是否有重复图像。例如，诸如计算机视觉子模块206的计算机视觉模块可以执行任何一个或多个适当的计算机视觉程序，以分析所接收的图像，检测其内容。具体地，计算机视觉子模块206可以检测其中两个或更多个图像部分至少基本上相似以至于它们被认为是重复的情况。

在一些实施例中，计算机视觉子模块206不仅可以检测图像部分基本相似的情况，而且可以确保在选定的图像部分之间存在某些变化。例如，基于由计算机视觉子模块206进行的分析，评分模块226可以分配表示它们的相似性的图像部分评分。如果两个或更多个图像部分具有相似性评分，例如高于阈值(并且因此说明它们非常相似)，则可以仅选择这些图像部分之一。因此，图像分析模块116可以选择不相似的图像部分，以确保包括在生成的演示文件中的图像部分存在多样性。

相似性评分可以基于例如图像部分的背景、图像部分的位置、图像部分中出现的人物等。例如，如果第一图像部分包括埃菲尔铁塔前的三个人，而第二图像部分包括在埃菲尔铁塔前的相同三个人但姿势不同，则可以仅选择这些图像部分中的一个以确保在生成的演示文件中的多样性。

因此，步骤412涉及防止在生成的演示文件中包括重复图像。该步骤可由图像选择模块执行，比如图2的图像选择模块232。

步骤414涉及基于图像被拍摄的时间将图像分类成多个时间段。例如，图2的图像选择模块232可以将各图像部分分组为多个时间段，例如持续时间为一小时的那些。图像选择模块232可以从多个时间段中的每一个中选择图像，其中从多个时间段中的每一个中选择的图像数量与多个时间段中的每一个中的图像数量成正比。

步骤416类似于图3的步骤310且涉及自主生成演示文件。当生成演示文件时，演示文件生成模块118可以考虑与选定图像部分相关联的时间或日期数据。例如，演示文件生成模块118可以组织演示文件，使得在星期一拍摄的图像部分被组织成在之后的星期三拍摄的图像部分之前出现。类似地，早上拍摄的图像部分可以在同一天晚上拍摄的图像部分之前演示。

以上讨论的方法、系统和装置是示例性的。各种配置可以适当地省略、替换或添加各种步骤或组件。例如，在替代配置中，可以以与所描述的顺序不同的顺序执行所述方法，并且可以添加、省略或组合各种步骤。而且，描述的关于某些配置的特征可以以各种其他配置进行组合。可以以类似的方式组合所述配置的不同方面和元件。此外，技术是发展的，因此，许多元件是示例性的，并不用于限制本公开或权利要求的范围。

例如，以上参考根据本公开的实施例的方法、系统和计算机程序产品的框图和/或操作示意图描述了本公开的实施例。方框中的功能/动作可以不按任何流程图所示的顺序发生。例如，连续示出的两个框实际上可以基本上同时执行，或者这些框有时可以以相反的顺序执行，这取决于所涉及的功能/动作。另外地或替代地，并非需要完成和/或执行任何流程图中所示的所有框。例如，如果给定的流程图具有包含功能/动作的五个块，则可能的情况有五个块中仅有三个被完成和/或执行。在该示例中，可以完成和/或执行五个块中的三个中的任何一个。

一个值超过(或大于)第一阈值的语句等同于该值等于或超过略大于第一阈值的第二阈值(例如，在相关系统的分辨率中第二阈值是大于第一阈值的一个值)的语句。一个值小于第一阈值(或在第一阈值内)的语句等同于该值小于或等于略小于第一阈值的第二阈值(例如，在相关系统的分辨率中第二阈值是小于第一阈值的一个值)的语句。

在描述中给出了具体细节以提供对示例性配置(包括实现)的前面理解。但是可以在没有这些具体细节的情况下实践所述配置。例如，已经示出了公知的电路、程序、算法、结构和技术而没有不必要的细节，以避免模糊配置。该描述仅提供示例性配置，并且不限制权利要求的范围、适用性或配置。相反，前面对配置的描述将为本领域技术人员提供用于实现所描述的技术的使能描述。在不脱离本公开的精神或范围的情况下，可以对各元件的功能和布置进行各种改变。

已经描述了若干种示例性配置，可以使用各种修改、替代构造和等同构造而不脱离本公开的精神。例如，以上元件可以是更大系统的组件，其中其他规则可以优先于或以其他方式修改本公开的各种实现或技术的应用。而且，可以在考虑上述元件之前、期间或之后进行许多步骤。

已经提供了本申请的说明和图示，本领域技术人员可以设想落入本申请讨论的总体发明构思内的变型、修改和替换实施例，其不脱离所附权利要求的范围。

Claims

1.生成演示文件的方法，该方法包括：

在接口处接收图像；

在接口处接收用于从所接收的图像中选择图像的至少一个标准；

根据所接收的至少一个标准分析所接收的图像；

基于满足至少一个标准的部分选择所接收图像的至少一部分；以及

自主生成包括所接收图像的选定部分的演示文件。

2.如权利要求1所述的方法，还包括向所接收的图像分配表示所接收的图像是否满足所接收的至少一个标准的分数。

3.如权利要求2所述的方法，其中分配给所接收的图像的分数基于所接收的图像中的至少一个感兴趣的项目，其中感兴趣的项目选自图像中的人物、图像拍摄位置、图像拍摄日期、图像拍摄时间、与图像相关的兴趣点、图像中让人感兴趣的对象以及至少一种图像美学。

4.如权利要求3所述的方法，其中与分配给具有较少让人感兴趣的项目的第二部分图像的分数相比，包括更多让人感兴趣的项目的第一部分图像将被分配更高的分数。

5.如权利要求1所述的方法，还包括在所生成的演示文件中生成至少一个文本说明，以补充说明所接收图像的选定部分。

6.如权利要求5所述的方法，其中至少一个文本说明描述所接收图像的选定部分中的人物、所接收图像的选定部分中发生的活动、图像中的兴趣点和图像中让人感兴趣的对象中的至少一个。

7.如权利要求1所述的方法，其中在接口处接收图像包括从多个用户接收图像。

8.如权利要求1所述的方法，还包括：

执行计算机视觉程序，以检查所接收的图像是否有重复图像；以及

防止在生成的演示文件中包括重复图像。

9.如权利要求1所述的方法，其中分析所接收的图像包括用于检查图像以检测相似图像的计算机视觉程序，其中选择至少一部分所接收的图像包括选择最不相似的图像部分，以确保生成的演示文件包括不同的图像。

10.如权利要求1所述的方法，还包括基于对所接收图像的分析，推荐用于生成演示文件的模板。

11.如权利要求1所述的方法，其中生成演示文件包括选择待使用的至少一个过滤器，并且将所述至少一个过滤器应用于至少一部分选定图像。

12.如权利要求1所述的方法，还包括基于图像拍摄时间将图像分类成多个时间段，并且其中选择至少一部分所接收的图像包括从多个时间段中的每个时间段中选择图像，其中从多个时间段中的每个时间段中选择的图像数量与多个时间段中的每个时间段中的图像数量成正比。

13.如权利要求1所述的方法，其中生成包括所接收图像的选定部分的演示文件包括将至少一个过滤器应用于所接收图像的选定部分，其中所应用的过滤器基于所接收图像的内容。

14.如权利要求1所述的方法，其中分析所接收的图像包括执行计算机视觉程序，并且该方法还包括执行裁剪程序，以基于计算机视觉程序的执行裁剪选定图像部分。

15.生成演示文件的系统，该系统包括：

一接口，用于接收：

图像，和

从所接收的图像中选择图像的至少一个标准；以及

一处理器，其执行存储在存储器中的指令并被配置为：

根据所接收的至少一个标准分析所接收的图像；

自主生成包括所接收图像的至少一个选定部分的演示文件。

16.如权利要求15所述的系统，其中所述处理器还被配置为向所接收的图像分配表示所接收的图像是否满足至少一个标准的分数。

17.如权利要求15所述的系统，其中分配给所接收的图像的分数基于所接收的图像中的至少一个感兴趣的项目，其中感兴趣的项目选自图像中的人物、图像拍摄位置、图像拍摄日期、图像拍摄时间、与图像相关的兴趣点、图像中让人感兴趣的对象以及至少一种图像美学。

18.如权利要求17所述的系统，其中与分配给具有较少让人感兴趣的项目的第二部分图像的分数相比，包括更多让人感兴趣的项目的第一部分图像将被分配更高的分数。

19.如权利要求15所述的系统，其中所述处理器还被配置用于在所生成的演示文件中生成至少一个文本说明，以补充说明所接收图像的选定部分。

20.如权利要求19所述的系统，其中至少一个文本说明描述所接收图像的选定部分中的人物、所接收图像的选定部分中发生的活动、图像中的兴趣点和图像中让人感兴趣的对象中的至少一个。

21.如权利要求15所述的系统，其中所述图像从多个用户接收。

22.如权利要求15所述的系统，其中所述处理器还被配置为：

防止在生成的演示文件中包括重复图像。

23.如权利要求15所述的系统，其中所述处理器还被配置为：

执行存储在存储器中的指令，以自主分析与所接收图像相关的元数据，以及

基于图像拍摄时间将选定图像分类成多个时间段，其中从多个时间段中的每一个中选择的图像数量与多个时间段中的每一个中的图像数量成正比。

24.如权利要求15所述的系统，其中所述处理器还被配置为在生成的演示文件的至少两个图像部分的演示之间指定过渡效果。