CN104320670A

CN104320670A - 一种网络视频的摘要信息提取方法及系统

Info

Publication number: CN104320670A
Application number: CN201410652579.XA
Authority: CN
Inventors: 郑慧; 郎芬玲; 顾威威; 万定锐; 杨雪慧
Original assignee: Netposa Technologies Ltd
Current assignee: Netposa Technologies Ltd
Priority date: 2014-11-17
Filing date: 2014-11-17
Publication date: 2015-01-28

Abstract

本发明公开了一种网络视频的摘要信息提取方法及系统。所述方法包括：获取视频文件；确定视频中发生镜头分割的片段在所述时间轴上所处的第一位置；确定所述第一位置之前预设时间段内的第一音频；确定所述第一位置之后预设时间段内的第二音频；判断所述第一音频与所述第二音频是否具有连续性；如果具有连续性，则将所述第一位置之前预设时间段内的第一图像与所述第一位置之后预设时间段内的第二图像归类为同一场景；否则，将所述第一图像与所述第二图像归类为不同场景；对于每一个场景，提取摘要视频帧。采用本发明的方法或系统，可以提高对于网络视频的摘要信息的提取效率，进而使用户可以快速了解视频内容。

Description

一种网络视频的摘要信息提取方法及系统

技术领域

本发明涉及视频处理领域，特别是涉及一种网络视频的摘要信息提取方法及系统。

背景技术

随着网络技术的发展，越来越多的用户习惯于观看网络视频。所谓网络视频，是指存储在网络中的服务器，并且可以由用户点播进行在线观看的视频。

网络视频的数量日益庞大，通常情况下，用户是无法观看完网络中的全部网络视频的。用户常常需要从大量的网络视频中选择需要观看的视频。

现有技术中，为了便于用户快速了解视频内容，采用摘要信息提取方法对网络视频中的关键帧进行提取，然后提示给用户。该方法主要是根据视频中是否具有镜头切换来实现的。具体的，当视频中发生镜头切换时，则从切换前的内容与切换后的内容中各选取出一些关键帧，作为该视频的摘要信息。

但是，当视频中发生镜头切换时，并不一定意味着前后两部分内容所对应的视频情节发生了较大改变。例如，当两个人物相互交谈时，镜头先对准人物甲，再对准人物乙，就会被确定发送了镜头切换，但此时两部分内容对应的视频情节并未发生较大改变。

综上所述，现有技术中的摘要信息提取方法，由于主要根据镜头是否发生切换来确定网络视频中的关键帧，因此提取效率较低，进而导致用户无法快速了解视频内容。

发明内容

本发明的目的是提供一种网络视频的摘要信息提取方法及系统，能够根据网络视频中的场景变化提取网络视频中的关键帧，提高对于网络视频的摘要信息的提取效率，进而使用户可以快速了解视频内容。

为实现上述目的，本发明提供了如下方案：

一种网络视频的摘要信息提取方法，包括：

获取视频文件；所述视频文件包括图像信息和音频信息，所述图像信息与所述音频信息在所述视频文件的时间轴上具有对应关系；

确定所述图像信息对应的视频中发生镜头分割的片段在所述时间轴上所处的第一位置；

确定所述第一位置之前预设时间段内的第一音频；

确定所述第一位置之后预设时间段内的第二音频；

判断所述第一音频与所述第二音频是否具有连续性；

如果具有连续性，则将所述第一位置之前预设时间段内的第一图像与所述第一位置之后预设时间段内的第二图像归类为同一场景；

否则，将所述第一图像与所述第二图像归类为不同场景；

对于每一个场景，提取摘要视频帧；其中，对于每一个场景，提取的摘要视频帧的数目小于或等于第一数值，所述第一数值为以分割后的镜头为单位进行摘要视频帧提取时，对每个镜头提取的摘要视频帧的数目的上限值。

可选的，所述确定所述图像信息对应的视频中发生镜头分割的片段在所述时间轴上所处的第一位置，具体包括：

采用分块直方图匹配算法判断所述图像信息对应的视频中相邻的两帧图像是否相同，得到第一判断结果；

当所述第一判断结果表示不同时，则确定所述相邻的两帧图像之间发生了镜头分割；

当所述第一判断结果表示相同时，则采用特征点匹配算法判断所述图像信息对应的视频中相邻的两帧图像是否相同，得到第二判断结果；

当所述第二判断结果表示相同时，则确定所述相邻的两帧图像之间未发生镜头分割；

当所述第二判断结果表示不同时，则确定所述相邻的两帧图像之间发生了镜头分割。

可选的，所述提取摘要视频帧，具体包括：

识别场景中的关键帧；

确定所述关键帧中包含的特定特征；

根据所述特定特征的预设权重以及所述特定特征在场景中的持续时间，确定所述关键帧包含的信息量；

依据信息量由大到小的顺序，提取前n个关键帧，n为预先设置的自然数。

可选的，所述提取摘要视频帧之后，还包括：

按照所述摘要视频帧在所述时间轴上的时间先后顺序进行排序；

基于排序后的所述摘要视频帧，生成摘要视频；

建立所述摘要视频与所述视频文件之间的关联关系。

可选的，所述建立所述摘要视频与所述视频文件之间的关联关系，具体包括：

将所述摘要视频插入所述视频文件的起始位置。

一种网络视频的摘要信息提取系统，包括：

视频文件获取单元，用于获取视频文件；所述视频文件包括图像信息和音频信息，所述图像信息与所述音频信息在所述视频文件的时间轴上具有对应关系；

第一位置确定单元，用于确定所述图像信息对应的图像中发生镜头分割的片段在所述时间轴上所处的第一位置；

第一音频确定单元，用于确定所述第一位置之前预设时间段内的第一音频；

第二音频确定单元，用于确定所述第一位置之后预设时间段内的第二音频；

音频连续性判断单元，用于判断所述第一音频与所述第二音频是否具有连续性；

第一归类单元，用于当所述音频连续性判断单元的判断结果为是时，将所述第一位置之前预设时间段内的第一图像与所述第一位置之后预设时间段内的第二图像归类为同一场景；

第二归类单元，用于当所述音频连续性判断单元的判断结果为否时，将所述第一图像与所述第二图像归类为不同场景；

摘要视频帧提取单元，用于对于每一个场景，提取摘要视频帧；其中，对于每一个场景，提取的摘要视频帧的数目小于或等于第一数值，所述第一数值为以分割后的镜头为单位进行摘要视频帧提取时，对每个镜头提取的摘要视频帧的数目的上限值。

可选的，所述第一位置确定单元，具体包括：

第一判断子单元，用于采用分块直方图匹配算法判断所述图像信息对应的视频中相邻的两帧图像是否相同，得到第一判断结果；

第一确定子单元，用于当所述第一判断结果表示不同时，则确定所述相邻的两帧图像之间发生了镜头分割；

第二判断子单元，用于当所述第一判断结果表示相同时，则采用特征点匹配算法判断所述图像信息对应的视频中相邻的两帧图像是否相同，得到第二判断结果；

第二确定子单元，用于当所述第二判断结果表示相同时，则确定所述相邻的两帧图像之间未发生镜头分割；

第三确定子单元，用于当所述第二判断结果表示不同时，则确定所述相邻的两帧图像之间发生了镜头分割。

可选的，所述摘要视频帧提取单元，具体包括：

关键帧识别子单元，用于识别场景中的关键帧；

特定特征确定子单元，用于确定所述关键帧中包含的特定特征；

信息量确定子单元，用于根据所述特定特征的预设权重以及所述特定特征在场景中的持续时间，确定所述关键帧包含的信息量；

关键帧提取子单元，用于依据信息量由大到小的顺序，提取前n个关键帧，n为预先设置的自然数。

可选的，还包括：

摘要视频帧排序单元，用于在提取摘要视频帧之后，按照所述摘要视频帧在所述时间轴上的时间先后顺序进行排序；

摘要视频生成单元，用于基于排序后的所述摘要视频帧，生成摘要视频；

关联关系建立单元，用于建立所述摘要视频与所述视频文件之间的关联关系。

可选的，所述关联关系建立单元，具体包括：

摘要视频插入子单元，用于将所述摘要视频插入所述视频文件的起始位置。

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明实施例中的方法及装置，通过确定所述图像信息对应的视频中发生镜头分割的片段在所述时间轴上所处的第一位置；确定所述第一位置之前预设时间段内的第一音频；确定所述第一位置之后预设时间段内的第二音频；判断所述第一音频与所述第二音频是否具有连续性；如果具有连续性，则将所述第一位置之前预设时间段内的第一图像与所述第一位置之后预设时间段内的第二图像归类为同一场景；否则，将所述第一图像与所述第二图像归类为不同场景；再对于每一个场景，提取摘要视频帧；能够根据网络视频中的场景变化提取网络视频中的关键帧，提高对于网络视频的摘要信息的提取效率，进而使用户可以快速了解视频内容。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的网络视频的摘要信息提取方法实施例1的流程图；

图2为本发明的网络视频的摘要信息提取方法实施例2的流程图；

图3为本发明的网络视频的摘要信息提取系统实施例的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明的网络视频的摘要信息提取方法实施例1的流程图。如图1所示，该方法可以包括：

步骤101：获取视频文件；所述视频文件包括图像信息和音频信息，所述图像信息与所述音频信息在所述视频文件的时间轴上具有对应关系；

所述视频文件可以是用于在网络中的服务器中存储，供网络用户进行点播的视频文件。例如，所述视频文件的类型可以是电影，电视剧或者用户自行拍摄的视频等等。

需要说明的是，本发明实施例中的视频文件，除了包括图像信息，还包括音频信息。所述音频信息可以是视频文件中的背景音乐，也可以是视频文件中人物之间的谈话，或者可以是视频文件中的其它物体发出的声音。

所述图像信息与所述音频信息在所述视频文件的时间轴上具有对应关系，是指视频文件中的图像与音频在正常情况下是同步的。例如，在视频文件的第一分钟出现了某种声音，则在后续播放过程中，当该视频文件播放到第一分钟时，都会出现该种声音。

步骤102：确定所述图像信息对应的图像中发生镜头分割的片段在所述时间轴上所处的第一位置；

可以通过对视频文件中的图像进行特征比对，来判断是否发生了镜头分割。通常，镜头分割前后的图像，在特征上具有明显的不同。

当确定出发生镜头分割的图像内容后，可以获取该图像内容在视频文件的时间轴上所处的位置。该位置可以表述发生镜头分割的时间。

步骤103：确定所述第一位置之前预设时间段内的第一音频；

所述预设时间段可以根据实际需要进行设置。例如，可以将所述预设时间段设置为5秒、10秒、20秒等等。

步骤104：确定所述第一位置之后预设时间段内的第二音频；

本步骤中的预设时间段，可以与步骤103中的预设时间段的长度相同，也可以不同。

步骤105：判断所述第一音频与所述第二音频是否具有连续性；如果是，执行步骤106；否则，执行步骤107；

所述连续性是指所述第一音频与所述第二音频在音量大小，音调高低等方面是连续的，或者所述第一音频与所述第二音频都是谈话音，或者所述第一音频与所述第二音频都包含同样的背景音乐等等。如果具有连续性，则通常可以表示所述第一音频与所述第二音频是属于同一段音乐或者同一段对话的。由于视频文件中的图像与音频之间具有对应关系，所以据此也可以确定所述第一音频对应的图像与所述第二音频对应的图像是属于同一场景的。

在视频文件中，一个情节通常在一个场景中展开。本实施例中，以场景为单位对视频文件进行划分，可以使得对于视频文件的划分更为恰当，更能够提取出最能代表该视频的摘要视频帧。

所述判断所述第一音频与所述第二音频是否具有连续性，可以是对所述第一音频与所述第二音频是否具有连续性进行分析时，可以提取所述第一音频与所述第二音频构成的音频段整体，检测所述音频段整体在所述第一位置处是否连续。具体可以采用以下方式：

判断发生镜头分割的所述第一位置是否存在静音段；

如果不存在静音段，则判定所述第一音频与所述第二音频具有连续性；

如果存在静音段，则提取所述第一音频的第一Mel频率倒谱系数(MFCC)特征；

提取所述第二音频的第二Mel频率倒谱系数特征；

将所述第一Mel频率倒谱系数特征与所述第二Mel频率倒谱系数特征进行特征比对，得到比对结果；

当所述比对结果表示所述第一Mel频率倒谱系数特征与所述第二Mel频率倒谱系数特征相同或相近时，确定所述第一音频与所述第二音频具有连续性；

当所述比对结果表示所述第一Mel频率倒谱系数特征与所述第二Mel频率倒谱系数特征不相近时，确定所述第一音频与所述第二音频不具有连续性。

其中，Mel频率是基于人耳听觉特性提出来的，它与Hz频率成非线性对应关系。Mel频率倒谱系数特征则是利用它们之间的这种关系，计算得到的Hz频谱特征。

步骤106：将所述第一位置之前预设时间段内的第一图像与所述第一位置之后预设时间段内的第二图像归类为同一场景；

步骤107：将所述第一图像与所述第二图像归类为不同场景；

步骤108：对于每一个场景，提取摘要视频帧；其中，对于每一个场景，提取的摘要视频帧的数目小于或等于第一数值，所述第一数值为以分割后的镜头为单位进行摘要视频帧提取时，对每个镜头提取的摘要视频帧的数目的上限值。

现有技术中，对于摘要视频帧的提取通常是以分割后的镜头为单位进行的。假设以分割后的镜头为单位提取摘要视频帧时，每个镜头内可以提取的视频帧的数目上限为10个，总共划分出100个镜头，则可以提取的视频帧的总数目最大是1000个。而采用本实施例中的方法，可以将100个镜头中的部分镜头划分至同一场景中，假设划分为50个场景，每个场景内可以提取的视频帧的数目上限也为10个，则可以提取的视频帧的总数目最大是500个。可见，采用本实施例的摘要信息提取方法，可以精简需要提取的视频帧的数目。

综上所述，本实施例中，通过确定视频中发生镜头分割的片段在所述时间轴上所处的第一位置；确定所述第一位置之前预设时间段内的第一音频；确定所述第一位置之后预设时间段内的第二音频；判断所述第一音频与所述第二音频是否具有连续性；如果具有连续性，则将所述第一位置之前预设时间段内的第一图像与所述第一位置之后预设时间段内的第二图像归类为同一场景；否则，将所述第一图像与所述第二图像归类为不同场景；再对于每一个场景，提取摘要视频帧；能够根据网络视频中的场景变化提取网络视频中的关键帧，提高对于网络视频的摘要信息的提取效率，进而使用户可以快速了解视频内容。

图2为本发明的网络视频的摘要信息提取方法实施例2的流程图。如图2所示，该方法可以包括：

步骤201：获取视频文件；所述视频文件包括图像信息和音频信息，所述图像信息与所述音频信息在所述视频文件的时间轴上具有对应关系；

步骤202：采用分块直方图匹配算法判断所述图像信息对应的视频中相邻的两帧图像是否相同，得到第一判断结果；

所述分块直方图匹配算法，是指将待分析的相邻的两帧图像中的每幅图像划分成多个块状区域；对不同图像中相应位置处的块状区域分别进行直方图匹配；根据匹配结果判断两帧图像是否相同。

分块直方图匹配算法，主要是对相邻的两帧图像进行分析，判断相邻的两帧图像是否发生了明显变化，因此适用于对镜头切换产生的镜头分割进行识别。但是，当视频图像中的镜头切换过程采用了渐变效果时，由于渐变过程中，图像的整体灰度、颜色是逐渐发生变化的，相邻两帧图像之间的变化并不明显，采用分块直方图匹配算法时，无法判定发生了镜头分割。为避免上述情况发生，本实施例中，当所述第一判断结果表示相同时，则采用特征点匹配算法判断所述图像信息对应的图像中相邻的两帧图像是否相同。

特征点匹配算法，主要是根据图像中的图形特征进行匹配，因此不会受到渐变镜头中图像的灰度和颜色变化所带来的影响。具体可以采用尺度不变特征转换(Scale-invariant feature transform，SIFT)提取方法提取图像中的特征。当然，还可以采用其他特征点匹配算法，此处不做赘述。

如果经过特征点匹配算法进行匹配后，判定两帧图像存在较大差异，则可以确定相邻的两帧图像发生了镜头分割。上述方式可以提高对于镜头分割的判定准确率。

步骤203：当所述第一判断结果表示相同时，则采用特征点匹配算法判断所述图像信息对应的视频中相邻的两帧图像是否相同，得到第二判断结果；

步骤204：当所述第一判断结果表示不同时，则确定所述相邻的两帧图像之间发生了镜头分割；

步骤205：当所述第二判断结果表示相同时，则确定所述相邻的两帧图像之间未发生镜头分割；

步骤206：当所述第二判断结果表示不同时，则确定所述相邻的两帧图像之间发生了镜头分割，将所述两部分图像在所述时间轴上的交界位置确定为所述第一位置。

步骤207：确定所述第一位置之前预设时间段内的第一音频；

步骤208：确定所述第一位置之后预设时间段内的第二音频；

步骤209：判断所述第一音频与所述第二音频是否具有连续性；如果是，执行步骤210，否则，执行步骤211；

步骤210：将所述第一位置之前预设时间段内的第一图像与所述第一位置之后预设时间段内的第二图像归类为同一场景；

步骤211：将所述第一图像与所述第二图像归类为不同场景；

步骤212：对于每一个场景，提取摘要视频帧；其中，对于每一个场景，提取的摘要视频帧的数目小于或等于第一数值，所述第一数值为以分割后的镜头为单位进行摘要视频帧提取时，对每个镜头提取的摘要视频帧的数目的上限值。

综上所述，本实施例中，通过采用分块直方图匹配算法和特征点匹配算法相结合的判断方式，可以提高对于镜头分割的判定准确率。

实际应用中，所述提取摘要视频帧，具体可以包括以下步骤：

识别场景中的关键帧；

确定所述关键帧中包含的特定特征；

其中，所述特定特征可以是各种类型的特征。例如，所述特定特征可以是特定的人脸，也可以是表示所述关键帧中具有打斗信息的特征。当某个关键帧中包括主要演员的人脸信息时，或者包括打斗信息时，可以认为该关键帧中包含的特定特征具有比较大的权重。某个特定特征在场景中的持续时间越长，可以提升包含该特定特征的关键帧的信息量。最终，可以将包含的特定特征的权重较大的关键帧，以及包含持续时间较长的特定特征的关键帧，判定为具有较多的信息量。

采用上述方式，可以在场景中包含的关键帧较多时，进一步提取出信息量较多的关键帧，从而进一步提高对于网络视频的摘要信息的提取效率。

还需要说明的是，所述提取摘要视频帧之后，还可以包括以下步骤：

基于排序后的所述摘要视频帧，生成摘要视频；

建立所述摘要视频与所述视频文件之间的关联关系。

通过上述步骤，可以生成基于所述摘要视频帧的摘要视频。用户可以通过观看该摘要视频，快速了解对应的视频文件的内容。

其中，所述建立所述摘要视频与所述视频文件之间的关联关系，具体可以包括：

将所述摘要视频插入所述视频文件的起始位置。

将所述摘要视频插入所述视频文件的起始位置后，用户在点播所述视频文件时，可以首先观看到关于所述视频文件的摘要视频，方便用户快速了解对应的视频文件的内容。

本发明还公开了一种网络视频的摘要信息提取系统。

图3为本发明的网络视频的摘要信息提取系统实施例的结构图。如图3所示，该系统可以包括：

视频文件获取单元301，用于获取视频文件；所述视频文件包括图像信息和音频信息，所述图像信息与所述音频信息在所述视频文件的时间轴上具有对应关系；

第一位置确定单元302，用于确定所述图像信息对应的图像中发生镜头分割的片段在所述时间轴上所处的第一位置；

第一音频确定单元303，用于确定所述第一位置之前预设时间段内的第一音频；

第二音频确定单元304，用于确定所述第一位置之后预设时间段内的第二音频；

音频连续性判断单元305，用于判断所述第一音频与所述第二音频是否具有连续性；

第一归类单元306，用于当所述音频连续性判断单元的判断结果为是时，将所述第一位置之前预设时间段内的第一图像与所述第一位置之后预设时间段内的第二图像归类为同一场景；

第二归类单元307，用于当所述音频连续性判断单元的判断结果为否时，将所述第一图像与所述第二图像归类为不同场景；

摘要视频帧提取单元308，用于对于每一个场景，提取摘要视频帧；其中，对于每一个场景，提取的摘要视频帧的数目小于或等于第一数值，所述第一数值为以分割后的镜头为单位进行摘要视频帧提取时，对每个镜头提取的摘要视频帧的数目的上限值。

实际应用中，所述第一位置确定单元302，具体可以包括：

实际应用中，所述摘要视频帧提取单元308，具体可以包括：

关键帧识别子单元，用于识别场景中的关键帧；

实际应用中，还可以包括：

实际应用中，所述关联关系建立单元，具体可以包括：

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种网络视频的摘要信息提取方法，其特征在于，包括：

确定所述第一位置之前预设时间段内的第一音频；

确定所述第一位置之后预设时间段内的第二音频；

判断所述第一音频与所述第二音频是否具有连续性；

否则，将所述第一图像与所述第二图像归类为不同场景；

2.根据权利要求1所述的方法，其特征在于，所述确定所述图像信息对应的视频中发生镜头分割的片段在所述时间轴上所处的第一位置，具体包括：

3.根据权利要求1所述的方法，其特征在于，所述提取摘要视频帧，具体包括：

识别场景中的关键帧；

确定所述关键帧中包含的特定特征；

4.根据权利要求1所述的方法，其特征在于，所述提取摘要视频帧之后，还包括：

基于排序后的所述摘要视频帧，生成摘要视频；

建立所述摘要视频与所述视频文件之间的关联关系。

5.根据权利要求4所述的方法，其特征在于，所述建立所述摘要视频与所述视频文件之间的关联关系，具体包括：

将所述摘要视频插入所述视频文件的起始位置。

6.一种网络视频的摘要信息提取系统，其特征在于，包括：

第一位置确定单元，用于确定所述图像信息对应的视频中发生镜头分割的片段在所述时间轴上所处的第一位置；

7.根据权利要求6所述的系统，其特征在于，所述第一位置确定单元，具体包括：

8.根据权利要求6所述的系统，其特征在于，所述摘要视频帧提取单元，具体包括：

关键帧识别子单元，用于识别场景中的关键帧；

9.根据权利要求6所述的系统，其特征在于，还包括：

10.根据权利要求9所述的系统，其特征在于，所述关联关系建立单元，具体包括：