CN106576151B

CN106576151B - 视频处理装置和方法

Info

Publication number: CN106576151B
Application number: CN201580042171.3A
Authority: CN
Inventors: 赵启旭; 金元澈; 李尚勳; 金锺佑; 李珉
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2014-10-16
Filing date: 2015-06-17
Publication date: 2021-06-15
Anticipated expiration: 2035-06-17
Also published as: EP3143764A1; KR20160044981A; KR102340196B1; WO2016060358A1; EP3143764A4; CN106576151A; US10014029B2; US20170206929A1

Abstract

提供了视频处理方法和装置。视频处理方法包括：获取包括多个视频帧和多个音频帧的输入视频；将输入视频分割成一个或多个区段；针对一个或多个区段中的每一区段从多个视频帧中确定代表性视频帧；以及获取包括代表性视频帧的幻灯片视频。

Description

视频处理装置和方法

技术领域

一个或多个示例性实施方式涉及视频处理装置和方法，更具体地，涉及这样的视频处理装置和方法，利用该视频处理装置和方法能够从视频中包括的多个视频帧中获取包括代表性视频帧的幻灯片视频。

背景技术

随着具有智能功能的电视(TV)的开发，TV可具有根据用户的偏好处理内容的功能以及基本的TV功能(即，接收和再现包括图像信号和语音信号的内容)。因此，具有对可加载在智能TV上的内容进行处理的功能的装置或应用的重要性增加。对于智能TV，开发这种内容处理功能已变为重要的成功因素。

发明内容

技术问题

当存储容量不足以应对全帧视频时，难以在存储器中记录并保存全帧视频。因此，存在将全帧视频转换成幻灯片视频以减小记录的视频的文件大小并以新格式创建新内容的技术需求。

技术方案

一个或多个示例性实施方式包括能够从输入视频获取包括代表性视频帧和音频的幻灯片视频的视频处理装置和方法。

一个或多个示例性实施方式包括计算机可读记录介质，该计算机可读记录介质上实施有用于在计算机中执行视频处理方法的程序。

附加方面将在以下描述中部分地陈述，并且将通过描述部分地明显，或可通过实践所提出的示例性实施方式而习得。

根据一个或多个示例性实施方式，视频处理方法包括：获取包括多个视频帧和多个音频帧的输入视频；将输入视频分割成一个或多个区段；针对一个或多个区段中的每一区段从多个视频帧中确定代表性视频帧；以及获取包括代表性视频帧的幻灯片视频，其中，代表性视频帧中的每一个显示为同与代表性视频帧中的每一个对应的区段的播放时间一样长，以及代表性视频帧中的每一个与对应于代表性视频帧的区段的音频帧同步。

可执行输入视频的分割以使得一个或多个区段具有相同的长度。

当与观众对包括在输入视频中的多个视频帧的偏好相关的信息被提供时，代表性视频帧的确定可基于与观众的偏好相关的信息来执行。

代表性视频帧的确定可基于对音频帧和多个视频帧中的至少一个的分析来执行。

当从音频帧中检测到特定声音时，可基于该特定声音再现的位置确定代表性视频帧。

当由输入视频提供的特定对象包含在视频帧中时，包含该特定对象的视频帧可被确定为代表性视频帧。

视频处理方法还可包括：当文本信息与输入视频一起被提供时，提取与代表性视频帧对应的代表性文本，以及其中，获取幻灯片视频可包括获取包括与代表性视频帧对应的代表性文本的幻灯片视频。

根据一个或多个示例性实施方式，视频处理装置包括输入单元和视频处理单元，其中：输入单元配置成接收包括多个视频帧和多个音频帧的输入视频；视频处理单元配置成将输入视频分割成一个或多个区段，针对一个或多个区段中的每一区段从每一区段中包括的多个视频帧中确定代表性视频帧，以及获取包括代表性视频帧的幻灯片视频，其中，代表性视频帧中的每一个显示为同与代表性视频帧中的每一个对应的区段的播放时间一样长，以及代表性视频帧中的每一个与对应于代表性视频帧的区段的音频帧同步。

视频处理单元可分割输入视频以使得一个或多个区段具有相同的长度。

当与观众对包括在输入视频中的多个视频帧的偏好相关的信息与输入视频一起被提供时，视频处理单元还可配置成基于与观众的偏好相关的信息确定代表性视频帧。

视频处理单元还可配置成基于对音频帧和多个视频帧中的至少一个的分析来确定代表性视频帧。

当从音频帧中检测到特定声音时，视频处理单元还可配置成基于该特定声音再现的位置确定代表性视频帧。

当由输入视频提供的特定对象包含在视频帧中时，视频处理单元还可配置成将包含该特定对象的视频帧确定为代表性视频帧。

输入单元还可配置成：当文本信息与输入视频一起被提供时获取该文本信息，以及视频处理单元可配置成：从文本信息提取与代表性视频帧对应的代表性文本以及获取包括有与代表性视频帧对应的代表性文本的幻灯片视频。

根据一个或多个示例性实施方式，提供这样的计算机可读记录介质，该计算机可读记录介质上实施有用于执行视频处理方法的计算机程序。

有益效果

用于幻灯片视频的视频处理方法可不仅应用于智能TV，还可应用于传统TV。具体地，当存储容量不足以应对全帧视频时，用于幻灯片视频的视频处理方法可以是节省存储容量的良好方案。

当诸如USB或HDD的存储设备连接至TV时，不包括PVR(个人视频记录器)系统的TV可通过将生成的幻灯片存储在存储设备中来提供与PVR类似的功能。此外，可利用用于幻灯片视频的视频处理方法从现有视频获取新内容。

附图说明

通过以下结合附图对示例性实施方式的描述，这些和/或其它方面将变得明显且更容易理解，附图中：

图1是根据示例性实施方式的幻灯片视频的示图；

图2是根据示例性实施方式的视频处理装置的框图；

图3是示出了确定代表性视频帧的示例的示图；

图4是示出了确定代表性视频帧的另一示例的示图；

图5是示出了在幻灯片视频上显示文本的示例的示图；

图6是根据示例性实施方式的视频处理方法的流程图；

图7幻灯片视频文件的示图；以及

图8a至图8d是示出了具有幻灯片视频生成功能和幻灯片视频再现功能的程序的示例的示图。

实现本发明的最佳方式

具体实施方式

现在将详细参照示例性实施方式，示例性实施方式的示例在附图中示出，其中，全部附图中相同的附图标记代表相同的元件。就此而言，本示例性实施方式可具有不同形式，并且不应被理解为限于本文中所陈述的描述。相应地，以下仅仅是为了说明本说明书的诸方面而通过参照附图对示例性实施方式进行描述。如本文中所使用的，术语“和/或”包括相关所列项中的一个或多个的任何和全部组合。当诸如“……中的至少一个”的表述在元件的列表之后时，修饰元件的整个列表，而不修饰列表中的单个元件。

图1是根据示例性实施方式的幻灯片视频的示图。

上框100显示根据时间的推移在视频处理装置处理之前的输入视频的音频数据110和多个视频帧120、122、124、126、128以及130。虽然为了便于描述仅在上框100中示出了六个视频帧120、122、124、126、128以及130，但输入视频可包括更多视频帧。左侧的视频帧早于右侧的视频帧。因此，在时间上，最左侧的视频帧120是最早的视频帧，而最右侧的视频帧130是最晚的视频帧。音频数据110包括与视频帧对应的多个音频帧(未在图1中绘出)。

上框100可以以中心虚线125为基准被分割成两个区段。视频帧120、视频帧122和视频帧124包括在以虚线125为基准的左侧的区段中。视频帧126、视频帧128和视频帧130包括在虚线125的右侧的区段中。例如，在每一区段中确定代表性视频帧。根据图1的示例，视频帧122被确定为虚线125的左区段中的代表性视频帧，以及视频帧128被确定为虚线125的右区段中的代表性视频帧。

下框150包括幻灯片视频的音频数据160以及代表性视频帧170和代表性视频帧172。下框150的音频数据160可与上框100的音频数据110相同。参照图1，由于视频帧122被确定为左侧的代表性视频帧，因此代表性视频帧170与视频帧122相同。此外，由于视频帧128被确定为右侧的代表性视频帧，因此代表性视频帧172与视频帧128相同。音频数据160包括与视频帧对应的多个音频帧(未在图1中绘出)。音频数据110可与音频数据160相同。

在幻灯片视频中，代表性视频帧170在再现输入视频中的视频帧120、视频帧122和视频帧124的时段期间显示。同样地，代表性视频帧172在再现输入视频中的视频帧126、视频帧128和视频帧130的时段期间显示。

在图1中，为了便于描述，代表性视频帧显示为与三个视频帧相关，但代表性视频帧可显示为更少或更多视频帧相关。

图2是根据示例性实施方式的视频处理装置200的框图。

视频处理装置200可包括输入单元210、视频处理单元220、存储单元230以及输出单元240。在图2中，输入单元210和输出单元240示出为分离的单元，但根据一些实施方式，输入单元210和输出单元240可结合为一个单元。同样地，视频处理单元220可与输入单元210和输出单元240中的至少一个结合。在图2中，输入单元210、视频处理单元220、存储单元230以及输出单元240位于视频处理装置200中；然而，输入单元210、视频处理单元220、存储单元230以及输出单元240无需彼此相邻。因此，根据一些实施方式，输入单元210、视频处理单元220、存储单元230以及输出单元240可分散开。图2的视频处理装置200不限于物理装置。例如，视频处理装置200中的一些功能可实施为软件而不是硬件。

输入单元210可获取包括多个视频帧和音频的输入视频。输入单元210可在获取输入视频的同时获取多种种类的数据。例如，如果输入视频包括诸如字幕的文本信息，则输入单元210还可获取该文本信息。作为另一示例，如果输入视频包括与输入视频的制作者、播放时间以及编码类型相关的元数据，则输入单元210还可获取该元数据。

输入单元210可从多种源获取输入视频。例如，输入单元210可以实时地以固定间隔从广播信号212获取输入视频。作为另一示例，输入单元210可从外部输入源214(诸如CD、DVD、USB或HDMI)获取输入视频。输入单元210可实施为发送器、CD读取器、DVD读取器、处理器或者可读取视频数据和音频数据的设备。此外，输入单元210可实施为执行向视频处理单元220输入视频数据和音频数据的软件。

视频处理单元220可包括视频处理器222、音频处理器228以及幻灯片视频生成器229。视频处理单元220可实施为一个或多个处理。

视频处理器222可包括输入视频分割单元224和代表性视频帧确定器226，并且从输入视频中确定代表性视频帧。

输入视频分割单元224可将输入视频分割成至少一个区段。输入视频分割单元224可分割输入视频以使得每一分割区段具有固定长度。例如，输入视频分割单元224可分割输入视频以使得分割区段具有相等数量的视频帧。

根据一些实施方式，输入视频分割单元224可分割输入视频以使得分割区段具有彼此不同的长度。例如，如果输入视频包括与人之间的对话相关的文本，则输入视频分割单元224可分割输入视频以使得分割区段具有依赖于文本的大小而变化的不同的长度。

代表性视频帧确定器226可从由输入视频分割单元224分割的每一区段所包括的视频帧中确定代表性视频帧。代表性视频帧确定器226可基于多种标准确定代表性视频帧。例如，如果输入单元210获取与观众对包括在输入视频中的帧的偏好相关的信息，则代表性视频帧确定器226可基于观众偏好信息确定代表性视频帧。作为另一示例，代表性视频帧确定器226可基于对音频和视频帧中的至少一个的分析来确定代表性视频帧。基于对音频和视频帧的分析确定代表性视频帧的示例参照图3和图4示出。

代表性视频帧确定器226对所确定的代表性视频帧进行编码，并输出所确定的代表性视频帧。例如，代表性视频帧确定器226可将代表性视频帧编码成诸如jpg、gif或png的文件格式，并输出经编码的代表性视频帧。

音频处理器228可从输入视频提取音频数据。音频处理器228可对提取的音频数据进行编码并输出经编码的音频数据。例如，音频处理器228可将音频数据编码成诸如mp3或wma的文件格式，并可输出经编码的音频数据。

幻灯片视频生成器229可通过使从视频处理器222输出的代表性视频帧和从音频处理器228输出的音频数据彼此同步来生成幻灯片视频。例如，如果代表性视频帧A代表包括在输入视频的从00:00至00:05时间段中的视频帧，则代表性视频帧A可与音频数据中对应于时间段00:00至00:05的部分同步。如上生成的幻灯片视频在00:00至00:05的区段中播放音频数据中与时间段00:00至00:05对应的部分，并且同时显示代表性视频帧A。

幻灯片视频生成器229可使与输入视频一起提供的元数据包括在幻灯片视频中。例如，幻灯片视频生成器229可使与输入视频的制作者、播放时间以及编码类型相关的元数据包括在幻灯片视频中。

此外，如果输入单元210在获取输入视频的同时获取文本信息，则幻灯片视频生成器229从文本信息提取与代表性视频帧对应的代表性文本，并将代表性文本添加至被确定为代表性视频帧的视频帧中。将代表性文本添加至代表性视频帧的示例在图5中示出。

存储单元230可存储通过处理单元220获取的幻灯片视频。存储单元230可以是易失性存储器、非易失性存储器、内部存储器、外部存储器或其组合。例如，存储单元230可以是诸如非易失性随机存取存储器(NVRAM)、闪存和磁盘存储设备的非易失性存储设备，或诸如静态随机存取存储器(SRAM)的易失性存储设备。

存储单元230可存储配置幻灯片视频的代表性视频帧和音频以及幻灯片视频。此外，如果幻灯片视频提供输入视频的文本信息(诸如，字幕)或元数据，则存储单元230可存储文本信息或元数据。

输出单元240可将通过处理单元220获取的幻灯片视频或存储在存储单元230中的幻灯片视频输出至视频处理装置200的外部设备。输出单元240可以以多种方式连接至外部设备。输出单元240可实施为发送器或向外部设备发送数据的各种设备。此外，输出单元可实施为再现幻灯片视频的显示器。

图3和图4示出了基于对音频或视频帧的分析通过图2的视频帧确定器226确定代表性视频帧。

图3是示出了通过分析视频帧确定代表性视频帧的示例的示图。

上框300显示根据时间流逝的输入视频的多个视频帧310、320、330和340。为了便于描述，上框300仅包括四个视频帧，但输入视频中可包括更多视频帧。位于左侧的视频帧在时间上早于位于右侧的视频帧。因此，位于最左侧的视频帧310是最早的视频帧，而位于最右侧的视频帧340是最晚的视频帧。

上框300以其中部的虚线为基准被分割成两个区段。虚线的左区段包括视频帧310和视频帧320。虚线的右区段包括视频帧330和视频帧340。每一区段具有代表性视频帧。

区段中包含特定对象的视频帧可被确定为代表性视频帧。在图3中，包含人的视频帧被确定为代表性视频帧。因此，包含人的视频帧310和视频帧330被确定为代表性视频帧，而不包含人的视频帧320和视频帧340未被确定为代表性视频帧。因此，下框350中的代表性视频帧360与视频帧310相同。此外，代表性视频帧370与视频帧330相同。

在图3中，代表性视频帧代表两个视频帧显示，但一个或多个实施方式不限于此。即，在实际情况中，代表性视频帧可代表多于两个的视频帧显示。

图4是示出了通过分析音频来确定代表性视频帧的示例的示图。

上框400显示根据时间流逝的输入视频的多个视频帧410、420、430以及440。为了便于描述，上框400仅包括四个视频帧410、420、430以及440，但输入视频中可包括更多视频帧。

位于左侧的视频帧在时间上早于位于右侧的视频帧。因此，位于最左侧的视频帧410是最早的视频帧，而位于最右侧的视频帧440是最晚的视频帧。

上框400以其中部的虚线为基准被分割成两个区段。虚线的左区段包括视频帧410和视频帧420。虚线的右区段包括视频帧430和视频帧440。每一区段中具有代表性视频帧。

如果从每一区段的音频中检测到特定声音，则可基于检测出该特定声音的位置而确定代表性视频帧。在图4中，与识别到人类语音的位置接近的视频帧被确定为代表性视频帧。因此，当显示视频帧410和视频帧430时，检测到人类语音，以及当显示视频帧420和视频帧440时，未检测到人类语音。因此，视频帧410被确定为虚线的左区段中的代表性视频帧，以及视频帧430被确定为虚线的右区段中的代表性视频帧。因此，下框450中的代表性视频帧460与视频帧410相同。同样地，代表性视频帧470与视频帧430相同。

在图4中，为了便于描述，代表性视频帧代表两个视频帧显示，但在实际情况中，代表性视频帧可代表多于两个的视频帧显示。

图5是示出了根据一个或多个示例性实施方式的在代表性视频帧上显示代表性文本的示例的示图。

上框500显示根据时间流逝的输入视频的多个视频帧510、520、530以及540。根据图5，为了便于描述，上框500包括四个视频帧510、520、530以及540，但输入视频中可包括更多视频帧。

上框500以其中部的虚线为基准被分割成两个区段。虚线的左区段包括视频帧510和视频帧520。虚线的右区段包括视频帧530和视频帧540。在每一区段中确定一个代表性视频帧。

当显示最左侧的视频帧510时，检测到语音“你好”。当显示视频帧520时，检测到语音“最近怎么样？”。当显示视频帧530时，检测到语音“还不错”。当显示视频帧540时，检测到语音“你呢？”。

幻灯片视频可识别在与代表性视频帧对应的区段中检测到的语音，并且可显示代表性视频帧以及与识别的语音对应的文本。例如，代表性视频帧560在其下部上显示有文本“你好，最近怎么样？”565，该文本是从视频帧510和视频帧520检测的语音的组合。代表性视频帧570在其下部上显示有文本“还不错，你呢？”575，该文本是从视频帧530和视频帧540检测的语音的组合。

在图5中，与检测到的语音对应的文本在代表性视频帧的下部中显示，但根据一些实施方式，文本可显示在另一部分中。

如果与输入视频的音频相关的文本信息与输入视频一起被获取，则可从文本信息中提取与检测到的语音对应的文本并显示该文本，而无需识别检测到的语音。

图6是根据一个或多个示例性实施方式的视频处理方法600的流程图。

在操作S610中，获取包含多个视频帧和多个音频帧的输入视频。与观众对输入视频的视频帧的偏好相关的信息可与输入视频一起被获取。此外，可获取与输入视频相关的文本信息。

在操作S620中，将输入视频分割成一个或多个区段。输入视频可被分割为使得每一区段具有彼此相同的长度。

在操作S630中，针对一个或多个区段中的每一区段，从每一区段中包括的视频帧中确定代表性视频帧。如果观众偏好信息(包括观众对输入视频中包括的视频帧的反应)与输入视频一起被提供，则可基于观众偏好信息来确定代表性视频帧。

此外，可通过分析音频和视频帧中的至少一个来确定代表性视频帧。例如，如果从音频检测到特定声音，则可基于该特定声音再现的位置确定代表性视频帧。作为另一示例，如果视频帧包含输入视频中的特定对象，则可将包含该特定对象的视频帧确定为代表性视频帧。

在操作S640中，代表性视频帧中的每一个与音频同步，然后，获取显示为同与代表性视频帧对应的区段的再现时间一样长的幻灯片视频。

图7是根据一个或多个示例性实施方式的幻灯片视频文件的示图。

图2的存储单元230可存储幻灯片视频718以及包括在幻灯片视频718中的代表性视频帧图像710和音频714。此外，存储单元230可包括输入视频712，输入视频712为幻灯片视频718的原始视频。

代表性视频帧图像710可压缩为诸如jpg或gif的文件格式。代表性视频帧图像710的文件名可被确定为与幻灯片视频718的文件名有关。参照图7，如果幻灯片视频718的文件名被确定为A.PLT 750，则代表性视频帧图像710的文件名可根据显示代表性视频帧图像的顺序而确定为A_001.jpg、A_002.jpg，……734。

包括在输入视频中的音频714可存储为具有诸如wav、mp3或wma扩展的音频文件。音频714的文件名可被确定成与幻灯片视频718的文件名有关。参照图7，如果幻灯片视频718的文件名被确定为A.PLT 750，则音频714的文件名可根据显示代表性视频帧的顺序而确定为A.wav 744。

幻灯片视频718可存储为具有预定扩展的文件。根据图7，例如，幻灯片视频文件的扩展可以是PLT。幻灯片视频文件可包括与代表性视频帧和音频相关的数据。因此，在没有与代表性视频帧图像相关的文件和与关于幻灯片视频的音频数据相关的文件的情况下，幻灯片视频可单独地再现。

相反，幻灯片视频文件可包括与代表性视频帧和音频的数据所存储的位置相关的信息，而不是包括与代表性视频帧和音频相关的数据。例如，A.PLT750可包括与文件A_001.jpg、A_002.jpg，……734和A.wav744的位置相关的信息。

代表性视频帧图像710、音频714以及幻灯片视频718不必存储在相同的存储设备中，而可分散地存储。

图8a至图8d是根据一个或多个示例性实施方式的能够生成并再现幻灯片视频的程序的示图。

图8a示出了用于激活幻灯片视频生成功能的应用的显示页面800。应用的显示页面800显示幻灯片视频记录802和基本记录设备804。当幻灯片视频记录802被选择时，可确定是否在显示页面800上显示用于激活幻灯片视频生成功能的应用。当幻灯片视频记录802的选项被选择为“开(on)”时，基本记录设备804可被选择。当基本记录设备804被选择时，可确定将执行幻灯片视频生成功能的设备。

图8b示出了用于再现视频的显示器820。当视频处理装置的用户选择显示在显示器820的上端部上的开始记录按钮822时，通过利用在显示器820上再现的视频作为输入视频来生成幻灯片视频。此外，用户可选择显示在显示器820的上端部上的内容搜索按钮824来搜索已生成的幻灯片视频。

图8c示出了显示幻灯片视频的生成的显示器840。视频处理装置的用户选择显示在显示器840的上端部上的记录停止按钮842以停止生成幻灯片视频。此外，即使在生成幻灯片视频时，用户也可选择显示在显示器840的上端部上的内容搜索按钮844来搜索已生成的幻灯片视频。当生成幻灯片视频时，记录符号846可显示在输入视频的上端部上。此外，可显示已生成的幻灯片视频的播放时间。

图8d示出了具有内容搜索功能的应用的执行页面860。执行页面860可显示包含与幻灯片视频文件864相关的图像和音频文件的文件夹862、幻灯片视频文件864以及与选择的内容相关的信息866。与选择的内容相关的信息866可包括与输入视频的制作者、播放时间以及编码类型相关的元数据。用户可通过利用应用来搜索幻灯片视频文件以及与幻灯片视频文件相关的图像或音频文件。

示例性实施方式可被写为计算机程序，并且可在使用计算机可读记录介质执行程序的通用数字计算机中实施。计算机可读记录介质的示例包括磁存储介质(例如，ROM、软盘、硬盘等)、光记录介质(例如，CD-ROM或DVD)等。

应理解的是，本文所描述的示例性实施方式应当仅以描述性含义理解，而并非出于限制的目的。对每一示例性实施方式中的特征或方面的描述应当通常理解为可用于其它示例性实施方式中的其它类似特征或方面。

虽然已参照附图描述了一个或多个示例性实施方式，但本领域普通技术人员将理解的是，在不背离由所附权利要求所限定的精神和范围的情况下，可在形式和细节方面对示例性实施方式作出多种改变。

Claims

1.视频处理方法，包括：

获取包括多个视频帧和多个音频帧的输入视频，所述输入视频具有与观众对所述输入视频的反应相关的信息；

将所述输入视频分割成一个或多个区段；

针对所述一个或多个区段中的每一区段，基于所述与观众对所述输入视频的反应相关的信息，从所述多个视频帧中确定代表性视频帧；

获取包括所述代表性视频帧的幻灯片视频；

识别与所述代表性视频帧中的每一个对应的区段中的多个音频帧的语音的组合；以及

在所述代表性视频帧的每一个中显示与所识别的语音的组合对应的文本，

其中，所述代表性视频帧中的每一个显示为同与所述代表性视频帧中的每一个对应的区段的播放时间一样长，以及所述代表性视频帧中的每一个与对应于所述代表性视频帧的区段的音频帧同步。

2.根据权利要求1所述的视频处理方法，其中，所述输入视频的分割被执行为使得所述一个或多个区段具有相同的长度。

3.根据权利要求1所述的视频处理方法，其中，所述代表性视频帧的确定基于对所述多个音频帧和所述多个视频帧中的至少一个的分析来执行。

4.根据权利要求3所述的视频处理方法，其中，当从所述多个音频帧中检测到特定声音时，所述代表性视频帧基于所述特定声音再现的位置来确定。

5.根据权利要求3所述的视频处理方法，其中，当由所述输入视频提供的特定对象被包含在视频帧中时，包含所述特定对象的视频帧被确定为所述代表性视频帧。

6.根据权利要求1所述的视频处理方法，

其中，获取所述幻灯片视频包括：获取包括与所述代表性视频帧对应的代表性文本的幻灯片视频。

7.视频处理装置，包括：

输入单元，配置成接收包括多个视频帧和多个音频帧的输入视频，所述输入视频具有与观众对所述输入视频的反应相关的信息；以及

视频处理单元，配置成：

将所述输入视频分割成一个或多个区段；

针对所述一个或多个区段中的每一区段，基于所述与观众对所述输入视频的反应相关的信息，从所述每一区段中包括的所述多个视频帧中确定代表性视频帧；以及

获取包括所述代表性视频帧的幻灯片视频，

其中，所述代表性视频帧中的每一个显示为同与所述代表性视频帧中的每一个对应的区段的播放时间一样长，以及所述代表性视频帧中的每一个与对应于所述代表性视频帧的区段的音频帧同步，

其中，所述视频处理单元还配置成：

识别与所述代表性视频帧中的每一个对应的区段中的每个音频帧的语音的组合；以及

在所述代表性视频帧的每一个中显示与所识别的语音的组合对应的文本。

8.根据权利要求7所述的视频处理装置，其中，所述视频处理单元将所述输入视频分割成使得所述一个或多个区段具有相同的长度。

9.根据权利要求7所述的视频处理装置，其中，所述视频处理单元还配置成基于对所述多个音频帧和所述多个视频帧中的至少一个的分析来确定所述代表性视频帧。

10.根据权利要求9所述的视频处理装置，其中，当从所述多个音频帧中检测到特定声音时，所述视频处理单元还配置成基于所述特定声音再现的位置来确定所述代表性视频帧。

11.根据权利要求9所述的视频处理装置，其中，当由所述输入视频提供的特定对象被包含在视频帧中时，所述视频处理单元还配置成将包含所述特定对象的视频帧确定为所述代表性视频帧。

12.根据权利要求7所述的视频处理装置，其中，所述视频处理单元还配置成：获取包括与所述代表性视频帧对应的代表性文本的幻灯片视频。