CN109313695A

CN109313695A - 用于恢复可编辑的幻灯片的设备、方法和计算机程序产品

Info

Publication number: CN109313695A
Application number: CN201680085866.4A
Authority: CN
Inventors: 王萌
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2016-05-18
Filing date: 2016-05-18
Publication date: 2019-02-05
Also published as: US20190155883A1; WO2017197593A1; EP3459005A1; EP3459005A4

Abstract

公开了用于恢复可编辑的幻灯片的装置、方法、计算机程序产品和计算机可读介质。所述装置包括至少一个处理器；至少一个存储器，其包括计算机程序代码，所述存储器和所述计算机程序代码被配置为与至少一个处理器一起工作使得所述装置从与幻灯片相关联的图像或视频信息中提取幻灯片区域，其中幻灯片包括文本和非文字信息(201)；将幻灯片区域分割成多个区域(202)；将多个区域中的每一个区域分类为文本区域或非文本区域(203)；当区域被分类为文本区域时，对文本区域执行文本识别以获得文本信息(204)；根据它们在幻灯片区域中的位置，使用非文本区域或文本信息来构建可编辑的幻灯片(205)。

Description

用于恢复可编辑的幻灯片的设备、方法和计算机程序产品

技术领域

本公开的实施例一般涉及信息技术，更具体地，涉及恢复可编辑的幻灯片。

背景技术

网络和电子装置的快速发展显著地改变了信息获取和使用的方式。如今，许多人通常在参加商业或学术会议时使用诸如移动电话、照相机、摄像机等的视频或图像记录器记录带有视频或图像的幻灯片演示。此外，还有很多与幻灯片相关的信息，例如网络上的讲座视频或图像。

目前，可能存在两种方法，它们可以将与幻灯片相关联的视频转换为幻灯片。第一种方法是提取仅图片。这意味着，转换的幻灯片仅仅是一系列图片，并且可以逐个显示图片。第二种方法是进一步执行光学字符识别(OCR)，因此预期文本内容将被恢复。因此，这两种方法分别恢复纯图片和纯文本。然而，典型的幻灯片可以包括文本信息和诸如图片的非文本信息，它们通常被混合并与动画相关联。通过上述两种方法无法恢复这种幻灯片。因此，期望提供一种用于从与幻灯片相关联的图像或视频信息中恢复可编辑的幻灯片的技术方案。

发明内容

提供以简化的形式的本发明内容是为了介绍一些构思，这些构思将在下面的详细描述中进一步描述。本发明内容不旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于限制所要求保护的主题的范围。

根据本公开的一个方面，提供了一种装置。该装置可包括至少一个处理器；至少一个存储器，其包括计算机程序代码，存储器和计算机程序代码，被配置为与至少一个处理器一起工作，使得该装置至少执行以下操作：从与幻灯片相关联的图像或视频信息中提取幻灯片区域，其中幻灯片包括文本和非文本信息；将幻灯片区域分割成多个区域；将多个区域中的每一个区域分类为文本区域或非文本区域；当区域被分类为文本区域时，对文本区域执行文本识别以获得文本信息；根据在幻灯片区域中它们的位置使用非文本区域或文本信息来构造可编辑的幻灯片。

根据本公开的另一方面，提供了一种方法。该方法可以包括：从与幻灯片相关联的图像或视频信息中提取幻灯片区域，其中幻灯片包括文本和非文本信息；将幻灯片区域分割成多个区域；将多个区域中的每一个区域分类为文本区域或非文本区域；当区域被分类为文本区域时，对文本区域执行文本识别以获得文本信息；根据幻灯片区域中的位置构造具有非文本区域或文本信息的可编辑的幻灯片。

根据本公开的又一方面，提供了一种具体化在计算机可读的分发介质上并且包括程序指令的计算机程序产品，当所述程序指令被加载到计算机中时，所述程序指令至少执行以下操作：从与幻灯片相关联的图像或视频信息中提取幻灯片区域，其中幻灯片包括文本和非文本信息；将幻灯片区域分割成多个区域；将多个区域中的每一个区域分类为文本区域或非文本区域；当区域被分类为文本区域时，对文本区域执行文本识别以获得文本信息；根据幻灯片区域中的位置构造具有非文本区域或文本信息的可编辑的幻灯片。

根据本公开的又一方面，提供了一种非暂时性的计算机可读介质，其上编码有语句和指令，以使处理器至少执行以下操作：从与幻灯片相关联的图像或视频信息中提取幻灯片区域，其中幻灯片包括文本和非文本信息；将幻灯片区域分割成多个区域；将多个区域中的每一个区域分类为文本区域或非文本区域；当区域被分类为文本区域时，对文本区域执行文本识别以获得文本信息；根据幻灯片区域中的位置构造具有非文本区域或文本信息的可编辑的幻灯片。

根据本公开的又一方面，提供了一种装置，包括被配置为执行至少以下操作的构件：从与幻灯片相关联的图像或视频信息中提取幻灯片区域，其中幻灯片包括文本和非文本信息；将幻灯片区域分割成多个区域；将多个区域中的每一个区域分类为文本区域或非文本区域；当区域被分类为文本区域时，对文本区域执行文本识别以获得文本信息；根据幻灯片区域中的位置构造具有非文本区域或文本信息的可编辑的幻灯片。

通过以下对结合附图来阅读的本公开的说明性实施例的详细描述，本公开的这些和其他目的、特征和优点将变得显而易见，。

附图说明

图1是示出根据实施例的装置的简化框图；

图2是描绘根据本公开的实施例的恢复可编辑的幻灯片的过程的流程图；

图3示意性地示出了记录幻灯片演示的视频帧；

图4示出了根据实施例的自下而上方法的示意图；

图5示出了用于文本识别的OCR神经网络的示意图；

图6是描绘根据本公开的实施例的恢复可编辑的幻灯片的过程的流程图；

图7示出了根据一个实施例的幻灯片区域对齐的示意图；

图8是描绘根据本公开的实施例的恢复可编辑的幻灯片的过程的流程图；和

图9示意性地示出了根据实施例的一些动画的运动矢量示例。

具体实施方式

出于解释的目的，在以下描述中阐述了细节以便提供对所公开的实施例的透彻理解。然而，对于本领域技术人员显而易见的是，可以在没有这些具体细节或具有等同布置的情况下实现实施例。本公开的各种实施例可以以许多不同的形式实施，并且不应该被解释为限于这里阐述的实施例；相反，提供这些实施例是为了使本公开满足适用的法律要求。相同的附图标记始终表示相同的元素。如这里所使用的，术语“数据”、“内容”、“信息”和类似术语可以互换使用，以指代能够根据本公开的实施例发送、接收和/或存储的数据。因此，任何此类术语的使用不应当限制本公开的实施例的精神和范围。

另外，如本文所使用的，术语“电路”指的是(a)仅硬件电路实现(例如，模拟电路和/或数字电路中的实现)；(b)电路和计算机程序产品(多个)的组合，该计算机程序产品包括存储在一个或多个计算机可读存储器上的软件和/或固件指令，它们一起工作以使装置执行本文所述的一个或多个功能；(c)电路，例如微处理器(多个)或微处理器(多个)的一部分，即使软件或固件不是物理上存在的，它们也需要软件或固件进行操作。“电路”的这种定义适用于本文(包括在任何权利要求中)中这个术语的所有使用。作为另一示例，如本文所使用的，术语“电路”还包括以下实现：包括一个或多个处理器和/或其一部分(多部分)以及附带的软件和/或固件。作为另一示例，这里使用的术语“电路”还包括例如用于移动电话的基带集成电路或应用处理器集成电路或服务器、蜂窝网络设备、其他网络设备以及/或其他计算设备中的类似集成电路。

如本文所定义的，“非暂时性的计算机可读介质”，其指代物理介质(例如，易失性或非易失性存储器设备)，可以与“暂时性的计算机可读介质”区分开，其指电磁信号。

图3示意性地示出了记录幻灯片演示的视频帧。如图3所示，帧30可以包含至少一个幻灯片区域37。在另一个例子中，帧30还可以包含潜在的其他对象(图3中未示出)，例如演讲者、参与者或者聚光灯的图像的一部分，它们可以位于幻灯片区域37内或外。幻灯片区域37可以包括诸如文本31、32和33的文本信息以及诸如图片34、35和36之类的非文本信息，它们通常混合并与动画相关联，例如文本32可以从左侧飞入。在另一示例中，非文本信息还可以包括其他合适的信息，例如音频和视频剪辑信息(图3中未示出)。

如上所述，现有方法仅可以恢复纯图片或纯文本。如果幻灯片包括可能被混合的图片和文本，则现有方法无法恢复这种幻灯片。另外，应注意，幻灯片区域37可能不是矩形，例如由于参与者用他/她手中的智能电话捕获的视频或图像。在这种情况下，通过现有方法恢复的纯图片或纯文本可能无法正确对齐。此外，如果图片和文本可能与动画相关联，则现有方法也无法恢复动画。因此，期望提供一种用于从这样的视频或图像恢复可编辑的幻灯片(诸如.ppt或.pptx格式)的技术解决方案，其可以潜在地用于更多场景中。

图1是示出诸如电子装置10的装置的简化框图，其中可以应用本公开的各种实施例。然而，应该理解，如图所示和下文所述的电子装置仅仅是可以从本公开的实施例中受益的装置的说明，因此，不应该被视为限制本公开的范围。虽然示出了电子装置10并且在下文中出于示例的目的描述了电子装置10，但是其他类型的设备可以容易地采用本公开的实施例。电子装置10可以是便携式数字助理(PDA)、用户设备、移动计算机、台式计算机、电视、游戏设备、膝上型计算机、媒体播放器、相机、录像机、移动电话、全球定位系统(GPS)设备、智能电话、平板电脑、笔记本电脑、服务器、瘦客户机、云计算机、虚拟服务器、机顶盒、计算设备、分布式系统和/或任何其他类型的电子系统。电子装置10可以与任何类型的操作系统一起运行，包括但不限于Windows、Linux、UNIX、Android、iOS及其变体。此外，至少一个示例实施例的设备不需要是整个电子装置，而是在其他示例实施例中可以是电子装置的组件或组件组。

此外，电子装置可以容易地采用本公开的实施例，而不管它们提供移动性的意图。在这方面，即使可以结合移动应用来描述本公开的实施例，但是应该理解，本公开的实施例可以结合移动通信行业中和移动通信行业外部的各种其他应用来使用。

在至少一个示例实施例中，电子装置10可以包括处理器11和存储器12。处理器11可以是任何类型的处理器、控制器、嵌入式控制器、处理器核和/或类似物。在至少一个示例实施例中，处理器11利用计算机程序代码来使装置执行一个或多个动作。存储器12可以包括易失性存储器，例如易失性随机存取存储器(RAM)，其包括用于临时存储数据的缓存区域，和/或其他存储器，例如非易失性存储器，其可以是嵌入式的和/或可以是可移动的。非易失性存储器可以包括EEPROM、闪存和/或类似物。存储器12可以存储多条信息中的任何一条和数据。电子装置10可以使用信息和数据来实现电子装置10的一个或多个功能，例如本文描述的功能。在至少一个示例实施例中，存储器12包括计算机程序代码，使得存储器和计算机程序代码被配置为与处理器一起使得装置执行本文描述的一个或多个动作。

电子装置10还可以包括通信设备15。在至少一个示例实施例中，通信设备15包括与发射器和/或接收器可操作通信的天线(或多个天线)、有线连接器和/或类似物。在至少一个示例实施例中，处理器11向发射器提供信号和/或从接收器接收信号。信号可以包括根据通信接口标准的信令信息、用户语音、接收数据、用户生成数据等。通信设备15可以利用一个或多个空中接口标准，通信协议，调制类型和接入类型来操作。作为说明，电子通信设备15可以根据以下协议进行操作：第二代(2G)无线通信协议IS-136(时分多址(TDMA))，全球移动通信系统(GSM)和IS-95(码分多址(CDMA))，第三代(3G)无线通信协议，例如通用移动电信系统(UMTS)，CDMA2000，宽带CDMA(WCDMA)和时分同步CDMA(TD-SCDMA)，和/或第四代(4G)无线通信协议，诸如802.11的无线网络协议，诸如蓝牙的短程无线协议等。通信设备15可以根据有线协议操作，例如以太网、数字用户线(DSL)和/或类似物。

处理器11可以包括用于实现音频、视频、通信、导航、逻辑功能等的例如电路的构件，以及用于实现本公开的实施例(包括例如本文描述的功能中的一个或多个功能)的例如电路的构件。例如，处理器11可以包括用于执行各种功能(包括例如本文描述的功能中的一个或多个功能)的构件，例如数字信号处理器设备、微处理器设备、各种模数转换器、数模转换器、处理电路和其他支持电路。该装置可以根据它们各自的能力在这些设备中执行电子装置10的控制和信号处理功能。因此，处理器11可以包括在调制和传输之前对消息和数据进行编码和交织的功能。处理器11可以另外包括内部语音编码器，并且可以包括内部数据调制解调器。此外，处理器11可以包括操作一个或多个软件程序的功能，该软件程序可以存储在存储器中，并且除其他之外，该软件程序可以使处理器11实现至少一个实施例(包括例如本文描述的功能中的一个或多个功能)。例如，处理器11可以操作连通性程序，例如传统的互联网浏览器。连通性程序可以允许电子装置10根据传输控制协议(TCP)、因特网协议(IP)、用户数据报协议(UDP)、因特网消息访问协议(IMAP)、邮局协议(POP)、简单邮件传输协议(SMTP)、无线应用协议(WAP)、超文本传输协议(HTTP)等来发送和接收因特网内容，例如基于位置的内容和/或其他网页内容。

电子装置10可以包括用于提供输出和/或接收输入的用户接口。电子装置10可以包括输出设备14。输出设备14可以包括音频输出设备，例如振铃器、耳机、扬声器和/或类似物。输出装置14可包括触觉输出装置，例如振动换能器，可电子变形的表面，可电子变形的结构和/或类似物。输出设备14可以包括视觉输出设备，诸如显示器，灯和/或类似物。电子装置可以包括输入设备13。输入设备13可以包括光传感器，接近传感器，麦克风，触摸传感器，力传感器，按钮，键盘，运动传感器，磁场传感器，相机，可移动存储设备和/或类似物。触摸传感器和显示器可以表征为触摸显示器。在包括触摸显示器的实施例中，触摸显示器可以被配置为从单个接触点，多个接触点等接收输入。在这样的实施例中，触摸显示器和/或处理器可以至少部分地基于位置、运动、速度、接触面积等来确定输入。

电子装置10可以包括各种触摸显示器中的任何一种，包括被配置为通过电阻，电容，红外，应变仪，表面波，光学成像，色散信号技术，声脉冲识别或其他技术中的任何一种来实现触摸识别的触摸显示器，然后提供指示与触摸相关的位置和其他参数的信号。另外，触摸显示器可以被配置为以触摸事件的形式接收输入的指示，该触摸事件可以被定义为选择对象(例如，手指，触笔，笔，铅笔或其他定点设备)与触摸显示屏之间的实际物理接触。或者，触摸事件可被定义为使选择对象接近触摸显示器，在显示的对象上悬停或在预定距离内接近对象，即使没有与触摸显示器物理接触。这样，触摸输入可以包括由触摸显示器检测到的任何输入，包括涉及实际物理接触的触摸事件和不涉及物理接触但是在其它方面由触摸显示器检测到的触摸事件，例如，选择对象与触摸显示器的接近程度的结果。触摸显示器能够接收与关于触摸输入施加到触摸屏的力相关联的信息。例如，触摸屏可以区分重压触摸输入和轻压触摸输入。在至少一个示例实施例中，显示器可以显示二维信息，三维信息和/或类似信息。

在包括小键盘的实施例中，小键盘可以包括用于操作电子装置10的数字键(例如，0-9)，符号键(例如，#，*)，字母键和/或类似物。例如，键盘可以包括传统的QWERTY键盘布置。键盘还可以包括具有相关功能的各种软键。任何键可以是物理键，其中例如物理地形成或断开电连接，或者电连接可以是虚拟的。虚拟键可以是例如触敏表面上的图形表示，由此通过在表面上或附近执行悬停或触摸手势来致动该键。另外或替代地，电子装置10可以包括接口设备，诸如操纵杆或其他用户输入接口。

输入设备13可以包括媒体捕获元件。媒体捕获元件可以是用于捕获图像，视频和/或音频以用于存储，显示或传输的任何装置。例如，在媒体捕获元件是相机模块的至少一个示例实施例中，相机模块可以包括数字相机，其可以从捕获的图像形成数字图像文件。这样，相机模块可以包括硬件，诸如镜头或其他光学组件，和/或从捕获的图像创建数字图像文件所需的软件。或者，相机模块可以仅包括用于查看图像的硬件，而电子装置10的存储器设备存储用于由处理器11以软件形式执行的指令，该指令用于从捕获的图像创建数字图像文件。在至少一个示例实施例中，相机模块还可包括处理元件，例如协处理器，其协助处理器11处理图像数据；以及编码器和/或解码器，用于压缩和/或解压缩图像数据。编码器和/或解码器可以根据标准格式进行编码和/或解码，例如，联合图像专家组(JPEG)标准格式，运动图像专家组(MPEG)标准格式，视频编码专家组(VCEG)标准格式或任何其他合适的标准格式。

图2是描绘根据本公开的实施例的恢复可编辑的幻灯片的过程200的流程图，其可以在诸如图1的电子装置10的装置处执行。这样，电子装置图10的实施例可以提供用于完成过程200的各个部分的构件以及用于结合其他组件完成其他过程的构件。

如图2所示，过程200开始于框201，其中从与幻灯片相关联的图像或视频信息中提取幻灯片区域，其中幻灯片包括文本和非文本信息。可以实时捕获图像或视频信息，或者从本地或远程存储设备检索图像或视频信息。例如，当人们参加商业、演讲、学术会议或任何其他合适的活动时，他们可以使用智能电话用视频或图像来记录幻灯片演示，以及可选地与其他人共享它们或将它们上载到网络位置。此外，包含幻灯片的许多视频或图像可以存储在网络上或本地存储设备中。文本信息可以包括但不限于字符，符号，超链接，表格和/或标点符号。非文本信息可以包括但不限于图片，图像，照片，图表，视频，音频和/或动画。例如，动画可以包括从底部飞入，从顶部飞入，淡出，淡入和/或任何其他合适的现有和未来动画形式。幻灯片区域是由视频帧或图像上的幻灯片覆盖的区域。

作为示例，参考图1，如果图像或视频信息存储在存储器12中，则处理器11可以从存储器12获得图像或视频信息；从输入设备13(例如从已经存储图像或视频信息的可移动存储设备或从相机)获得图像或视频信息；或者通过通信设备15从网络位置获得图像或视频信息。

通常，除了动画、视频等之外，幻灯片区域在演示期间可以是静态的。因此，可以使用现有或未来的对象分割技术来训练“幻灯片提取器”以提取视频帧或图像中的幻灯片区域。例如，以下技术可用于提取幻灯片区域：Navneet Dalal,Bill Triggs,“Histograms ofOriented Gradients for Human Detection”，In IEEE conference on CVPR 2005，和美国专利：US7853072B2，其公开内容通过引用整体并入本文。

注意，在该实施例中，幻灯片区域可以是固定大小的矩形，例如，图像或视频信息可以由专业人员操作的固定视频或图像记录器捕获。在另一个实施例中，幻灯片区域可以不是固定大小的矩形，或者可以是其他形状，例如菱形，因为图像或视频信息可以由用户手中的智能电话捕获。在另一个实施例中，由本公开的实施例生成的可编辑的幻灯片的目标用户不关心可编辑的幻灯片是否是固定大小的矩形。

在提取幻灯片区域之后，过程200可以前进到框202。在步骤202，可以将幻灯片区域分割成多个区域。区域分割可以通过任何合适的现有或未来的区域分割技术来执行，例如自上而下的方法：Seong-Whan Lee；Dae-Seok Ryu(2001)."Parameter-free geometricdocument layout analysis",IEEE Transactions on Pattern Analysis and MachineIntelligence 23(11):1240–1256,或者自下而上的方法:O'Gorman,L.,"The documentspectrum for page layout analysis",IEEE trans on Pattern Analysis and MachineIntelligence,11(15):1162-1173,Nov 1993，其公开内容通过引用整体并入本文。

在一个实施例中，自下而上的方法可用于将幻灯片分割成多个区域。在自下而上的方法中，可以根据水平和垂直投影直方图将幻灯片区域分割成不同的区域。图4显示了这种方法的示意图。如图4所示，幻灯片区域400包括两个文本区域401和402以及图片区域403，其余区域可以被视为背景区域。水平和垂直投影直方图分别由404和405指示。根据水平投影直方图404，幻灯片区域400可以在具有较大间隙(例如间隙406)的方向上切割成小区域。例如，以这种方式，可以获得两个文本区域401和402以及图像区域403。另外，可以递归地执行分割以进一步将区域切割成更小的区域。举例来说，如图3所示，可以根据水平投影直方图将图片34和35分割为一个区域，可以根据垂直投影直方图将该一个区域进一步分割成两个区域，例如图片34和35。注意，在排除了图片34和35的该一个区域中的剩余区域可以被视为背景区域，其中背景区域可以被视为非文本区域。

在另一个实施例中，可以通过幻灯片区域分割方法将幻灯片分割成多个区域。在这种方法中，第一步是显着点检测。显着点可以被定义为图块对于观看者而言突出的点。正如R.Hong,C.Wang,Y.Ge,M.Wang,and X.Wu,“Salience preserving multi-focus imagefusion,”in Proc.Int.Conf.Multimedia and Expo,2009,pp.1663–1666 and D.Marr,Vision.San Francisco,CA:Freeman,1982所述，通过被感知为梯度和边缘的变化来传达由观察者从视觉刺激中提取的视觉信息。因此，可以基于梯度图来检测显着点，根据以下等式来计算梯度图：

G(i，j)＝G_r(i，j)+G_g(i，j)+G_b(i，j)

其中R(i，j)，G(i，j)和B(i，j)表示图像中第(i，j)个位置处的R(红色)，G(绿色)和B(蓝色)值。因此，可以基于以下标准来完成显着点检测：如果G(i，j)>T，则点(i，j)是显着的，其中T是预定阈值。

在获得显着点之后，可以按照以下论文第III-B节中描述的方法来实现后续步骤：Meng Wang,Yelong Sheng,Bo Liu,Xian-Sheng Hua,“In-Image AccessibilityIndication,”IEEE Transactions on Multimedia,vol.12,no.4,pp.330-336,2010，其公开内容通过引用整体并入本文。根据方法，可以生成一组区域，其可以包含非文本(例如图片)或文本信息。在一些情况下，该组区域可能不完全覆盖整个幻灯片区域，以及其余部分可以被视为背景区域，其中背景区域可以被视为非文本区域。

在将幻灯片区域分割成多个区域之后，过程200可以前进到框203。在步骤203，可以将多个区域中的每个区域分类为文本区域或非文本区域。可以通过任何合适的现有或未来的区域分类技术来执行分类。在一个实施例中，可以执行启发式分类方法以将每个区域分类为文本区域或非文本区域，这种区域分类技术在参考文献中描述：Shih FY,Chen SS,“Adaptive document block segmentation and classification,”IEEE Trans on SystMan Cybern B Cyber,26(5):797-802,1996,其公开内容通过引用整体并入本文。测量区域的许多属性，例如宽度和高度、黑色像素的数量、平均高度，以及通过如该参考文献中描述的若干预定规则来执行分类。非文本区域可以直接用于构造可编辑的幻灯片，文本区域可以由框204处理。

在框204处，可以对文本区域执行文本识别以在区域被分类为文本区域时获得文本信息。在一个实施例中，文本识别可以由OCR执行。例如，OCR可以识别字符，符号，超链接，表格，标点符号等以及其大小，位置，颜色，字体，格式等。在其他实施例中，文本识别可以由任何其他合适的现有或未来的文本识别方法来执行。

在一个实施例中，OCR可以通过基于模型的方法来运行，其中基于模型的方法在参考文献中描述，Tao Wang,David J.Wu,Adam Coates,and Andrew Y.Ng,“End‐to‐End TextRecognition with Convolutional Neural Networks,”In International Conferenceon Pattern Recognition(ICPR),2012，其公开内容通过引用整体并入本文。

图5示出了用于文本识别的OCR神经网络的示意图。如图5所示，卷积神经网络由标记数据预先训练，每个字符级别区域可以用作网络输入，并且该字符可以由该网络预测。

在框205，可以根据非文本区域或文本信息在幻灯片区域中的位置来构造可编辑的幻灯片。例如，当字符被识别时，可以根据它们在文本区域中的位置将它们重建为单词和/或句子，并且随后可以根据在幻灯片区域中文本区域的位置将单词和/或句子放入幻灯片区域中。对于非文本区域，可以根据其在幻灯片区域中的位置直接将它放入幻灯片区域。因此，根据其在幻灯片区域中的位置，可以利用非文本区域或文本信息来构造可编辑的幻灯片。值得注意的是，可以在对幻灯片区域中的所有文本区域进行文本识别之后构造可编辑的幻灯片，或者在非文本区域被分类或者对文本区域进行文本识别之后逐步构造。

在一些情况下，幻灯片区域(例如图1中所示的幻灯片区域37)可能不是固定大小的矩形，例如由于参与者用他/她的智能电话捕获的视频。在这种情况下，在未对齐的幻灯片区域上执行的上述操作可能无法获得良好的输出，从而导致性能差，或者需要更复杂的技术，这可能导致更多的计算资源需求或更多的时间消耗。此外，用户的体验可能会降级。为了解决该问题，本公开的另一个实施例可以提供幻灯片区域对齐，其将参考图6来描述。

图6是描绘根据本公开的实施例的恢复可编辑的幻灯片的过程600的流程图，其可以在诸如图1的电子装置10的装置处执行。这样，电子装置可以提供用于完成过程600的各个部分的构件以及用于结合其他组件完成其他过程的构件。注意，图6中所示的框601、602、603、604和605类似于上面已经描述的图2中所示的框201、202、203、204和205，这里出于简洁而省略了对这些框的描述。

如图6所示，过程600开始于框601，其中从与幻灯片相关联的图像或视频信息中提取幻灯片区域，其中幻灯片包括文本和非文本信息。

应注意，在该实施例中，幻灯片区域可以不是矩形和/或幻灯片区域的尺寸可以改变。例如，图像或视频信息可以由用户手中的智能电话捕获。在这种情况下，幻灯片区域可以不是矩形。作为另一示例，当从倾斜角度拍摄图像或视频信息时，幻灯片区域可以不是矩形。另外，投影图像也可以不是矩形，这可能导致幻灯片区域可能不是矩形。而且，幻灯片区域的大小可能会改变。例如，当用户通过他/她的智能手机拍摄图像或视频信息时，他/她可以放大和缩小诸如幻灯片区域的目标对象，这可能导致幻灯片区域的大小改变。可能存在其他因素可能导致幻灯片区域可能不是矩形和/或幻灯片区域的大小可能改变。在这些情况下，在框601处提取的幻灯片区域应该在框606处对齐。幻灯片区域的对齐可以通过任何合适的现有和将来的对齐方法来执行。

在一个实施例中，在框606处，幻灯片区域的对齐可以包括通过霍夫变换方法检测幻灯片区域的四边形；并对幻灯片区域进行仿射变换。例如，可以首先通过霍夫变换方法检测幻灯片区域的四边形，然后当在对角线中固定两个端点并相应地移动另一个对角线中的另外两个端点时，在幻灯片区域上执行仿射变换。通过这些操作，可以将所有幻灯片区域变换为具有相同尺寸的相同形状，例如固定尺寸矩形。

图7示出了根据一个实施例的幻灯片区域对齐的示意图。如图7所示，在框601处提取的两个幻灯片区域701和702在左侧示出，在框606处对齐的两个幻灯片区域701'和702'在右侧示出。可以看出，两个幻灯片区域701'和702'是相同尺寸的矩形。以这种方式，可以提供相同尺寸和形状的幻灯片区域，这可以提高如框602、603、604和605所示的后续操作的效率和准确性，从而提供更高的用户体验。

在大多数情况下，幻灯片区域可以包含动画，例如，与动画等相关联的图片和文本。动画可以是任何合适类型的动画，例如从左边飞入，从底部飞入，淡出，淡入等。为了恢复动画，本公开的另一实施例提供了将参考图8描述的动画恢复方法。

图8是描绘根据本公开的实施例的恢复可编辑的幻灯片的过程800的流程图，其可以在诸如图1的电子装置10的装置处执行。这样，电子装置可以提供用于完成过程800的各个部分的构件以及用于结合其他组件完成其他过程的构件。注意，图8中所示的框801、802、803、804、806和806类似于上面已经描述的图6中所示的框601、602、603、604、605和606，以及为简洁起见这里省略了这些框的描述。

如图8所示，在框805处构造可编辑的幻灯片之后，可以在框807处在幻灯片区域中恢复动画。应注意，在其他实施例中，动画恢复方法可以在不同阶段(例如在框802、803或804之后)中执行。动画恢复方法可以是任何合适的现有或未来的动画恢复方法。

在一个实施例中，动画的恢复包括：通过一组分类器识别动画；并恢复动画。该组分类器可以是动画识别器。例如，动画识别器可以识别从右侧飞入的动画，另一个动画识别器可以识别淡入的动画等。

在一个实施例中，可以通过构建训练集来获得该组分类器，其中样本是描述标记动画的视频剪辑，视频剪辑捕获非文本或文本的变化，其中视频剪辑的视频信息与幻灯片有关；从视频剪辑中提取视觉特征；基于视觉特征训练一组分类器，其中该组分类器中的一个分类器能够将图片或文本的变化分类为一种类型的动画。具体地，可以构建训练集，其中样本可以是描述标记动画的视频剪辑，诸如“从顶部飞入”，“从底部飞入”，“淡入”或“淡出”。视频剪辑实际上捕获图片、一组单词或其他对象的变化。可以从训练视频剪辑中提取视觉特征，然后用于训练一组分类器，其可以将每个区域的变化分类为一种类型的动画。例如，如在以下文献中描述的运动矢量可以是用于区分动画的一组特征：Lu,Jianhua；Liou,Ming,“A Simple and Efficient Search Algorithm for Block-Matching MotionEstimation”,IEEE Trans.Circuits and Systems For Video Technology 7(2):429–433,1997，其公开内容通过引用整体并入本文。图9示出了根据实施例的一些动画的运动矢量示例。但是，也可以进一步集成视频分析中广泛使用的其他功能。分类器或动画识别器的训练可以是离线过程。在获得分类器或动画识别器之后，对于在先前步骤中获得的区域，可以跟踪每个区域的变化以及可以识别动画。因此，可以相应地恢复动画。

根据本公开的一个方面，提供了一种用于恢复可编辑的幻灯片的装置。对于与前述实施例中相同的部分，可以适当地省略其描述。该装置可包括被配置为执行上述过程的装置。在一个实施例中，该装置包括被配置为从与幻灯片相关联的图像或视频信息中提取幻灯片区域的构件，其中该幻灯片包括文本和非文本信息；被配置为将幻灯片区域分割成多个区域的构件；被配置为将多个区域中的每一个区域分类为文本区域或非文本区域的构件；被配置为当区域被分类为文本区域时，对文本区域执行文本识别以获得文本信息的构件；以及用于根据幻灯片区域中的位置构造具有非文本区域或文本信息的可编辑的幻灯片。

在一个实施例中，该装置还可以包括被配置为对齐幻灯片区域的构件。

在一个实施例中，该装置还可以包括被配置为通过霍夫变换方法检测幻灯片区域的四边形的构件；和被配置为在幻灯片区域上执行仿射变换的构件。

在一个实施例中，该装置还可以包括被配置为通过幻灯片区域分割方法将幻灯片区域分割成多个区域的构件。

在一个实施例中，该装置还可以包括被配置为通过启发式分类方法将多个区域中的每个区域分类为文本区域或非文本区域的构件。

在一个实施例中，该装置还可以包括被配置为通过基于模型的方法在文本区域上执行光学字符识别的构件。

在一个实施例中，该装置还可以包括被配置为恢复幻灯片区域中的动画的构件。

在一个实施例中，动画的恢复包括：通过一组分类器识别动画；以及恢复动画。

在一个实施例中，通过构建训练集来获得该组分类器，其中样本是描述标记动画的视频剪辑，视频剪辑捕获非文本或文本的变化，其中视频剪辑的视频信息与幻灯片相关；从视频剪辑中提取视觉特征；以及基于视觉特征训练一组分类器，其中该组分类器中的一个分类器能够将图片或文本的变化分类为一种动画。

注意，上述装置的任何组件可以实现为硬件或软件模块。在软件模块的情况下，它们可以体现在有形的计算机可读可记录存储介质上。例如，所有软件模块(或其任何子集)可以在相同的介质上，或者每个软件模块可以在不同的介质上。软件模块可以例如在硬件处理器上运行。然后，可以使用如上所述的在硬件处理器上执行的不同软件模块来执行方法步骤。

另外，本公开的一个方面可以利用在通用计算机或工作站上运行的软件。这种实现可以采用例如处理器、存储器和例如由显示器和键盘形成的输入/输出接口。这里使用的术语“处理器”旨在包括任何处理设备，例如包括CPU(中央处理单元)和/或其他形式的处理电路的处理设备。此外，术语“处理器”可以指不止一个单独的处理器。术语“存储器”旨在包括与处理器或CPU相关联的存储器，例如RAM(随机存取存储器)，ROM(只读存储器)，固定存储器设备(例如，硬盘驱动器)，可移动存储设备(例如，磁盘)，闪存等。处理器，存储器和输入/输出接口(例如显示器和键盘)可以例如通过作为数据处理单元的一部分的总线互连。合适的互连(例如通过总线)也可以提供给网络接口，例如网卡，其可以用于与计算机网络接口，以及提供给媒体接口，例如磁盘或CD-ROM驱动器，其可以用于与介质接口。

因此，如本文所述，包括用于执行本公开的方法的指令或代码的计算机软件可以存储在相关联的存储器设备(例如，ROM，固定或可移动存储器)中，并且当准备好被利用时，被部分或全部加载(例如，加载到RAM中)并由CPU实现。这样的软件可以包括但不限于固件，常驻软件，微代码等。

如所指出的，本公开的各方面可以采取体现在计算机可读介质中的计算机程序产品的形式，该计算机可读介质具有包含在其上的计算机可读程序代码。而且，可以使用计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是例如但不限于电、磁、光、电磁、红外或半导体系统、装置或设备，或者前述的任何合适的组合。计算机可读存储介质的更具体示例(非详尽列表)将包括以下内容：具有一条或多条电线的电连接，便携式计算机磁盘，硬盘，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编程只读存储器(EPROM或闪存)，光纤，便携式光盘只读存储器(CD-ROM)，光学存储设备，磁存储设备或任何前述的合适组合。在本文的上下文中，计算机可读存储介质可以是任何有形介质，其可以包含或存储由指令执行系统，装置或设备使用或与其结合使用的程序。

用于执行本公开的各方面的操作的计算机程序代码可以以至少一种编程语言的任何组合来编写，其包括诸如Java，Smalltalk，C++等的面向对象的编程语言和传统的过程编程语言，例如“C”编程语言或类似的编程语言。程序代码可以完全在用户的计算机上执行，部分在用户的计算机上执行，作为独立的软件包，部分在用户的计算机上，部分在远程计算机上或完全在远程计算机或服务器上执行。

附图中的流程图和框图示出了根据本公开的各种实施例的装置，方法和计算机程序产品的可能实现的架构，功能和操作。在这方面，流程图或框图中的每个框可以表示代码的模块，组件，段或部分，其包括用于实现指定的逻辑功能的至少一个可执行指令。还应注意，在一些替代实施方式中，框中提到的功能可以不按图中所示的顺序发生。例如，连续示出的两个框实际上可以基本上同时执行，或者这些框有时可以以相反的顺序执行，这取决于所涉及的功能。还应注意，框图和/或流程图图示中的每个框以及框图和/或流程图图示中的框的组合可以由执行指定功能或动作的基于专用硬件的系统来实现，或专用硬件和计算机指令的组合。

应当注意，术语“连接”，“耦合”或其任何变型意指两个或更多个元件之间的直接或间接的任何连接或耦合，并且可以包括被“连接”或“耦合”在一起的两个元件之间的一个或多个中间体的存在。元件之间的耦合或连接可以是物理的，逻辑的或其组合。如这里所采用的，作为若干非限制性和非穷举性示例，通过使用一个或多个电线，电缆和/或印刷电连接，以及通过使用电磁能(例如在射频区域，微波区域和光学区域(可见和不可见)中具有的波长电磁能)，可以认为两个元件被“连接”或“耦合”在一起。

在任何情况下，应当理解，本公开中示出的组件可以以各种形式的硬件，软件或其组合来实现，例如，专用集成电路(ASIC)，功能电路，具有相关存储器的适当编程的通用数字计算机等。给定本文提供的本公开的教导，相关领域的普通技术人员将能够想到本公开的组件的其他实施方式。

本文使用的术语仅用于描述特定实施例的目的，并不意图限制本公开。如这里所使用的，单数形式“一种”，“一个”和“该”也旨在包括复数形式，除非上下文另有明确说明。将进一步理解，当在本说明书中使用时，术语“包括”和/或“包含”指定所述特征、整数、步骤、操作元素和/或组件的存在，但不排除存在或者添加另一个特征、整数、步骤、操作，元素，组件和/或其组合。

已经出于说明的目的给出了各种实施例的描述，但是并不旨在穷尽或限制所公开的实施例。在不脱离所描述的实施例的范围和精神的情况下，许多修改和变型对于本领域普通技术人员来说是显而易见的。

Claims

1.一种装置，包括：

至少一个处理器；

至少一个存储器，其包括计算机程序代码，所述存储器和所述计算机程序代码被配置为与所述至少一个处理器一起工作使得所述装置至少执行以下操作：

从与幻灯片相关联的图像或视频信息中提取幻灯片区域，其中所述幻灯片包括文本和非文本信息；

将所述幻灯片区域分割成多个区域；

将所述多个区域中的每一个区域分类为文本区域或非文本区域；

当区域被分类为文本区域时，对所述文本区域执行文本识别以获得文本信息；和

根据它们在所述幻灯片区域中的位置使用所述非文本区域或所述文本信息来构造可编辑的幻灯片。

2.根据权利要求1所述的设备，其中所述存储器还包括使所述装置对齐所述幻灯片区域的计算机程序代码。

3.根据权利要求2所述的装置，其中所述幻灯片区域的对齐包括：

通过霍夫变换方法检测所述幻灯片区域的四边形；和

对所述幻灯片区域执行仿射变换。

4.根据权利要求1-3中任一项所述的装置，其中将所述幻灯片区域分割成多个区域包括通过幻灯片区域分割方法将所述幻灯片区域分割成多个区域。

5.根据权利要求1-4中任一项所述的装置，其中将所述多个区域中的每个区域分类为文本区域或非文本区域包括通过启发式分类方法将所述多个区域中的每个区域分类为文本区域或非文本区域。

6.根据权利要求1-5中任一项所述的装置，其中，对所述文本区域执行文本识别包括通过基于模型的方法对所述文本区域执行光学字符识别。

7.根据权利要求1-6中任一项所述的装置，其中所述幻灯片区域是从所述视频信息中提取的，以及所述存储器还包括使所述装置恢复所述幻灯片区域中的动画的计算机程序代码。

8.根据权利要求7所述的装置，其中所述动画的恢复包括：

通过一组分类器识别所述动画；和

恢复所述动画。

9.根据权利要求8所述的装置，其中通过以下操作来获得所述一组分类器

构建训练集，其中样本是描述标记动画的视频剪辑，所述视频剪辑捕获非文本或文本的变化，其中视频剪辑的视频信息与幻灯片相关联；

从所述视频剪辑中提取视觉特征；和

基于所述视觉特征训练一组分类器，其中所述一组分类器中的一个分类器能够将图片或文本的变化分类为一种动画。

10.一种方法，包括：

将所述幻灯片区域分割成多个区域；

根据它们在所述幻灯片区域中的位置构造具有非文本区域或文本信息的可编辑的幻灯片。

11.根据权利要求10所述的方法，还包括对齐所述幻灯片区域。

12.根据权利要求11所述的方法，其中，所述幻灯片区域的对齐包括：

通过霍夫变换方法检测所述幻灯片区域的四边形；和

对所述幻灯片区域执行仿射变换。

13.根据权利要求10-12中任一项所述的方法，其中将所述幻灯片区域分割成多个区域包括通过幻灯片区域分割方法将所述幻灯片区域分割成多个区域。

14.根据权利要求10-13中任一项所述的方法，其中将所述多个区域中的每一个区域分类为文本区域或非文本区域包括通过启发式分类方法将所述多个区域中的每一个区域分类为文本区域或非文本区域。

15.根据权利要求10-14中任一项所述的方法，其中，对所述文本区域执行文本识别包括通过基于模型的方法对所述文本区域执行光学字符识别。

16.根据权利要求10-15中任一项所述的方法，其中，所述幻灯片区域是从视频信息中提取的，以及所述方法还包括恢复所述幻灯片区域中的动画。

17.根据权利要求16所述的方法，其中所述动画的恢复包括：

通过一组分类器识别所述动画；和

恢复所述动画。

18.根据权利要求17所述的方法，其中通过以下操作获得所述一组分类器：

构建训练集，其中样本是描述标记动画的视频剪辑，所述视频剪辑捕获非文本或文本的变化，其中所述视频剪辑的视频信息与所述幻灯片相关联；

从所述视频剪辑中提取视觉特征；和

19.一种装置，包括被配置为执行根据权利要求10至18中任一项所述的方法的构件。

20.一种具体化在可由计算机读取的分发介质上的计算机程序产品，其包含程序指令，当所述程序指令被加载到计算机中时，所述程序指令执行根据权利要求10至18中任一项所述的方法。

21.一种非暂时性的计算机可读介质，其上编码有语句和指令，以使处理器执行根据权利要求10至18中任一项所述的方法。