CN103200463A

CN103200463A - 一种视频摘要生成方法和装置

Info

Publication number: CN103200463A
Application number: CN2013101029055A
Authority: CN
Inventors: 刘赵杰
Original assignee: TVMining Beijing Media Technology Co Ltd
Current assignee: TVMining Beijing Media Technology Co Ltd
Priority date: 2013-03-27
Filing date: 2013-03-27
Publication date: 2013-07-10

Abstract

本发明公开了一种视频摘要生成方法和装置，涉及视频处理技术领域。该方法包括：利用视频中的文本特征、音频信息和视频特征确定视频的分类；根据所述视频的分类对视频进行对应的视频场景检测；从视频场景中抽取关键帧以生成视频场景摘要。本发明描述了使用多媒体内容分析的方案，包括关键帧检测，镜头边界检测，图像相似度分析，人脸检测和识别，文本搜索，新闻故事分割，体育关键场景分析等，实现自动产生以下交互式电视内容的功能：视频的浏览功能；视频的摘要和快速预览功能。本发明所描述的交互式电视内容产生的功能，都是基于多媒体内容分析技术自动实现的，可以避免费时而昂贵的人工编辑过程。

Description

一种视频摘要生成方法和装置

技术领域

本发明涉及视频处理技术领域，特别涉及一种视频摘要生成方法和装置。

背景技术

目前，电视内容的主流仍然是广播式、被动式、线性顺序观看式的体验。而交互式电视则是要创建主动的、定制的、可双向交流的电视内容。虽然交互式电视的内容可以追溯到19世纪20年代，但是直至目前仍然不是很成熟。目前交互式电视的内容和形式都非常有限，比如在线视频点播，时移电视(允许用户录制节目并回访)，DVD的章节浏览功能。交互式电视主要靠人工编辑，产生和维护的，人工产生和编辑交互式电视节目内容的主要缺点在于速度非常慢，而且人工非常的昂贵。

随着计算机技术和多媒体技术的发展，个人计算机和数码设备越来越普遍，人们在生活中观看和拍摄越来越多的视频。数字视频已经成为人们学习和娱乐中不可缺少的一部分。

相对于文本和图像，视频具有信息量丰富的优点，但是也有数据量巨大，结构化程度低的缺点。目前用户对视频内容的获取只能是线性的。用户如果想了解一段视频的内容，只能从头浏览到尾，充其量可以使用快进快退的方式加快浏览的速度。要想实现用户对视频内容的有效获取，就要通过分析视频的结构来提高视频的结构化程度。

通过对视频进行分析生成视频摘要，在视频检索中用户可以快速浏览视频摘要来判断得到的结果是不是自己想要的。但是，手工生成的视频摘要速度非常慢，而且人工非常的昂贵。目前存在一些自动生成视频摘要的技术，但都存在各自的缺点和不足，如，准确率低、适应范围小等问题。

发明内容

本发明的发明人发现上述现有技术中存在问题，并因此针对所述问题中的至少一个问题提出了一种新的技术方案。

本发明的一个目的是提供一种用于视频摘要生成的技术方案。

根据本发明的第一方面，提供一种视频摘要生成方法，包括：

利用视频中的文本特征、音频信息和视频特征确定视频的分类；

根据所述视频的分类对所述视频进行对应的视频场景检测；

从视频场景中抽取关键帧以生成视频场景摘要。

可选地，该方法还包括：通过镜头分割技术将所述视频分割成各个镜头；对每个所述镜头抽取关键帧；根据所述镜头的关键帧合成视频镜头摘要。

可选地，所述利用视频中的文本特征、音频信息和视频特征确定视频的分类包括：

利用视频中的文本特征、音频信息和视频特征确定新闻类的视频；

所述根据所述视频的分类对所述视频进行对应的视频场景检测包括：

利用文本信息、主持人信息，播音室内的镜头特征和新闻台标信息对所述新闻类的视频进行新闻故事分割以检测新闻故事场景。

利用视频中的文本特征、音频信息和视频特征确定体育类的视频；

对所述体育类的视频进行关键体育事件检测以检测体育关键场景。

可选地，该方法还包括：对各个视频场景抽取关键帧；根据视频场景关键帧的静态图片生成视频场景浏览图。

根据本发明的另一方面，提供一种视频摘要生成装置，包括：

视频分类模块，用于利用视频中的文本特征、音频信息和视频特征确定视频的分类；

场景检测模块，用于根据所述视频的分类对所述视频进行对应的视频场景检测；

场景摘要生成模块，用于从视频场景中抽取关键帧以生成视频场景摘要。

可选地，该装置还包括镜头摘要生成模块，用于通过镜头分割技术将所述视频分割成各个镜头；对每个所述镜头抽取关键帧；根据所述镜头的关键帧合成视频镜头摘要。

可选地，视频分类模块包括：新闻视频确定单元，用于利用视频中的文本特征、音频信息和视频特征确定新闻类的视频；

所述场景检测模块包括：新闻场景检测单元，用于利用文本信息、主持人信息，播音室内的镜头特征和新闻台标信息对所述新闻类的视频进行新闻故事分割以检测新闻故事场景。

可选地，所述利视频分类模块包括：体育视频确定单元，用于利用视频中的文本特征、音频信息和视频特征确定体育类的视频；

所述场景检测模块包括：体育事件检测单元，用于对所述体育类的视频进行关键体育事件检测以检测体育关键场景。

可选地，该装置还包括场景浏览生成模块，用于对各个视频场景抽取关键帧，根据视频场景关键帧的静态图片生成视频场景浏览图。

本发明的一个优点在于，利用视频的多维度特征对视频进行分类，可以提高视频分类的准确性；根据视频的分类对视频进行视频场景检测，使得检测的场景更准确、更有针对性，从而使得视频场景摘要更准确。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

构成说明书的一部分的附图描述了本发明的实施例，并且连同说明书一起用于解释本发明的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本发明，其中：

图1示出根据本发明的视频摘要生成方法的一个实施例的流程图。

图2示出根据本发明的视频摘要生成方法的另一个实施例的流程图。

图3示出根据本发明的视频摘要生成方法的又一个实施例的流程图。

图4示出根据本发明的视频摘要生成方法的一个实施例的流程图。

图5示出视频预览示意图。

图6示出根据本发明的新闻类视频摘要生成方法的一个实施例的流程图。

图7示出根据本发明的视频摘要生成装置的一个实施例的结构图。

图8示出根据本发明的视频摘要生成装置的另一个实施例的结构图。

图9示出根据本发明的视频摘要生成装置的又一个实施例的结构图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本文中，涉及视频、视频帧、镜头、场景等多个概念，下面首先对上述几个概念进行简单介绍。

视频是连续的图像序列，通常基于视频结构的分析对视频进行处理。一般来说，视频可以自下而上划分为视频帧、镜头和场景。

视频帧是组成视频的最小逻辑单元，一般指静态的图像。将时间上连续的视频帧序列按等间隔进行连续播放，就可以形成动态的视频；镜头是由一系列视频帧组成的一段视频，通常是由单个摄像机的连续拍摄所产生的连续视频帧序列；场景是一个有意义的故事单元，可能包含多个镜头，也可能只包含一个镜头中的一段视频帧序列。

如图1所示，步骤102，利用视频中的文本特征、音频信息和视频特征确定视频的分类。文本特征例如包括视频中的标题、语音识别结果等；音频信息包括从音频中提取的各种特征；视频特征例如包括基于颜色的特征、基于镜头的特征、基于物体的特征、基于运动的特征等。各个特征可以通过支持向量机(Support Vector Machine，SVM)，HMM(隐马尔可夫)，多维聚类、人工神经网络等技术进行组合分类。

步骤104，根据视频的分类对视频进行对应的视频场景检测。根据视频的不同分类，对视频进行对应的视频场景检测。例如，对新闻类视频进行新闻故事的场景检测，对体育类视频进行体育事件场景检测等。

步骤106，从各个视频场景中抽取关键帧以生成视频的视频场景摘要。

上述实施例中，利用视频的多维度特征对视频进行分类，可以提高视频分类的准确性；根据视频的分类对视频进行视频场景检测，使得检测的场景更准确、更有针对性，从而使得视频场景摘要更准确，适应范围更广。

如图2所示，步骤202，通过镜头分割技术将视频分割成各个镜头。镜头分割主要通过镜头边界检测实现，镜头边界检测就是检测出前后两个镜头之间的边界，实现镜头划分的过程。可以采用多种技术手段将视频分割成多个镜头，例如时空切片比较方、块比较法、直方图比较法等。在具体实现时可以参见该领域的相关算法，在此不再赘述。

步骤204，根据各个镜头通过智能镜头组合技术产生视频场景。

步骤206，从各个视频场景中抽取关键帧。

步骤208，根据各个关键帧的静态图片生成视频场景浏览图。

步骤210，根据各个关键帧生成视频场景摘要。

上述实施例中，根据视频场景的关键帧，生成视频场景浏览图和视频场景摘要，既方便了视频的快速浏览，也便于视频的浏览和快速定位。

如图3所示，步骤302，通过镜头分割技术将所述视频分割成各个镜头。

步骤304，对每个镜头抽取关键帧。抽取的关键帧的数目可以多一些。

步骤306，根据镜头的关键帧合成视频镜头摘要。根据关键帧最后的输出的结果是一个视频，而不是静态的图片帧。

上述实施例中，没有对视频进行分类，不做场景分类，而是对每个镜头都抽取关键帧，根据镜头的关键帧合成视频镜头摘要，可以避免较复杂的场景检测问题，能够较快速地实现视频的摘要浏览。

图4示出根据本发明的视频摘要生成方法的一个实施例的流程图。该实施例中，对于输入的视频，根据视频类型的不同，采用不同的内容分析技术完成视频预览生成。

如图4所示，步骤402，将输入的视频进行分类。例如，利用将视频分为新闻类节目、体育类节目或其他类型的视频节目。视频分类的目的是要对特定类型的视频，利用领域相关的信息，获取更好的多媒体分析，提高关键帧抽取的准确率。视频分类技术可以利用视频中的文本特征(如已有的字幕)，音频中的信息(如自动语音识别产生的字幕)，视频特征(如基于颜色的信息、基于镜头的信息等)，使用机器学习的方式完成。稍后将具体介绍一个新闻类视频的具体实现。

步骤404a，对新闻类的视频进新闻故事分割技术。和一般的视频类型相比，新闻节目更具有更好的结构性，在新闻故事层面形成了一种自然的场景，每个新闻故事可以认为是一个视频场景。故事分割技术可以利用文本信息，主持人的信息，播音室内的镜头特征和某些新闻台标信息，使用机器学习的方法完成故事分割。通过对新闻类视频的故事场景检测，可以比一般类型的视频的场景分割取得更好的准确度。

步骤404b，对于体育节目类的节目，可以根据体育视频的类型，预先定义好体育事件(比如对于足球比赛，进球就是一种关键事件)。然后使用机器学习的方法，对于每一种体育节目检测到这些关键事件对应的视频段。和普通视频不同，对于体育节目，仅仅将检测到的关键体育事件作为视频的关键的视频场景。

步骤404c，对于一般类型的视频，首先将视频进行镜头分割，然后把镜头组合成为视频场景。

步骤406，根据不同类型的视频，对于每个视频场景抽取一个视频关键帧，将这些关键帧以静态图片的方式展示在屏幕上，生成视频的预览。具体的说，对于新闻节目类的节目是对每个新闻故事抽取关键帧；对于体育节目而已，则是对于关键事件提取视频关键帧；对于一般的视频而言，对于每个场景抽取视频的关键帧。生成图5所示的视频浏览图。

一个视频的预览如图5所示。在视频的主要视图之外，展示一系列自动抽取的视频关键帧图片作为视频预览。用户可以通过这些关键帧迅速浏览到整个视频的内容，从而能够迅速跳到感兴趣的片段中。

在新闻视频的故事分隔中，可以利用新闻广播的结构信息来检测故事边界。在广播中的每个故事通常以介绍新的故事的锚点人物的引导镜头(Leading Shot)开始。该锚点(anchor)镜头随后通常是关于该故事的更详细的报道。锚点镜头通常在新闻工作室中被拍摄并且在单个广播中它们通过相同的摄像机设置被捕捉，因此呈现很强的视觉相似性。

图6示出根据本发明的新闻类视频摘要生成方法的一个实施例的流程图。该实施例中，将广播电视新闻节目自动分隔成各个新闻故事(NewsStory)。首先将新闻节目分隔成各个镜头，运行多个分析工具来提取表示每个镜头的特征；然后使用SVM来组合这些特征提取工具的结果，该SVM被训练来检测锚点人物(anchorperson)镜头。然后基于锚点人物镜头在节目中的位置将新闻广播分隔成各个新闻故事场景。

如图6所示，用于预处理和特征提取的视觉分析的步骤包括：

步骤602，镜头聚类。

基于颜色直方图将具有视觉相似性的镜头组合在一起。使用余弦相似性度量(Cosine similarity measure)来计算各个镜头的关键帧之间的距离；基于该距离将镜头聚类。通过镜头聚类，将锚点人物镜头放在了相同的类中。然后，应用一些启发式规则(Heuristics)来区分锚点人物组和非锚点人物组：

(1)镜头的时间范围必须同高于预定的阈值。锚点人物镜头倾向于散布在整个广播，因此视觉上相似但是在广播出现非常靠近的镜头应该被拒绝。

(2)组相似性均值(Group Similarity Mean)应该高于一个非常高的阈值。这是因为锚点人物镜头相互间非常相似并且形成“紧”聚类。

(3)平均锚点人物镜头长度应该长于最小阈值。这是因为锚点人物镜头和其他的视频内容相比通常很长，很少持续少于5秒钟。

步骤604，人脸检测

(1)人脸检测过程的第一步涉及图像的颜色分析。人类皮肤的颜色落入颜色频谱中一个相对窄的带，检测类似皮肤(Skin-like)像素是可行的方案。然后使用形态学滤波(Morphological Filtering)来获得平滑的连接像素的同质区域(Homogeneous Area)。形状和大小启发式规则用来去除一些候选区域。剩下的候选区域被送到主分量分析(Principle Component Analysis，PCA)模块。

(2)PCA模块检测候选区域，然后将它们分为人脸和非人脸。具体实现可以参见现有技术的实现方法。可以在每个镜头中的12帧执行该检测。

步骤606，运动行为分析(Motion Activity Analysis)

(1)由于锚点人物镜头倾向于具有低的视觉行为，仅有的运动通常对应于锚点人物的头/身体/嘴的移动。我们测量帧间的视觉行为来帮助我们的锚点人物检测。

(2)使用具有最小数量的动作的P帧被用来表示该镜头；将镜头中所有P帧的运动向量相加来表示总的运动。

步骤608，使用支持向量机组合特征，从而实现场景划分。

使用SVM来组合特征分析的输出：镜头聚类的结果、人脸检测的结果和运动行为分析结果。

图7示出根据本发明的视频摘要生成装置的一个实施例的结构图。如图7所示，该实施例中包括：视频分类模块71，用于利用视频中的文本特征、音频信息和视频特征确定视频的分类；场景检测模块72，用于根据所述视频的分类对所述视频进行对应的视频场景检测；场景摘要生成模块73，用于从视频场景中抽取关键帧以生成视频场景摘要。

图8示出根据本发明的视频摘要生成装置的另一个实施例的结构图。如图8所示，该实施例中，除了视频分类模块71、场景检测模块72和场景摘要生成模块73，可选地，还包括镜头摘要生成模块85和/或场景浏览生成模块84。镜头摘要生成模块85，用于通过镜头分割技术将所述视频分割成各个镜头；对每个所述镜头抽取关键帧；根据所述镜头的关键帧合成视频镜头摘要。场景浏览生成模块84，用于对各个视频场景抽取关键帧，根据视频场景关键帧的静态图片生成视频场景浏览图。

图9示出根据本发明的视频摘要生成装置的又一个实施例的结构图。如图9所示，该实施例中视频摘要生成装置包括视频分类模块91、场景检测模块92和场景摘要生成模块73。其中，视频分类模块91包括：新闻视频确定单元911，用于利用视频中的文本特征、音频信息和视频特征确定新闻类的视频；体育视频确定单元912，用于利用视频中的文本特征、音频信息和视频特征确定体育类的视频。场景检测模块92包括：新闻场景检测单元921，用于利用文本信息、主持人信息，播音室内的镜头特征和新闻台标信息对所述新闻类的视频进行新闻故事分割以检测新闻故事场景；体育事件检测单元922，用于对所述体育类的视频进行关键体育事件检测以检测体育关键场景。

需要指出，图7、图8和图9中各个模块和单元的功能和作用可以参见上述方法实施例中对应描述，为简洁起见在此不再详细描述。

采用了本公开使用的技术方案，可以基于现有的多媒体内容分析技术，便宜而快速的为电视视频节目添加更多的交互式的内容，这些功能包括：视频中镜头和场景的浏览功能；新闻节目的视频摘要和快速预览功能。本公开描述了使用多媒体内容分析技术，包括关键帧检测，镜头边界检测，图像相似度分析，人脸检测和识别，文本搜索，新闻故事分割，体育关键场景分析等，实现自动产生交互式电视内容的功能。

至此，已经详细描述了根据本发明的视频摘要生成方法和装置。为了避免遮蔽本发明的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。

可能以许多方式来实现本发明的方法和系统。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和系统。用于所述方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

虽然已经通过示例对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上示例仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员应该理解，可在不脱离本发明的范围和精神的情况下，对以上实施例进行修改。本发明的范围由所附权利要求来限定。

Claims

1.一种视频摘要生成方法，其特征在于，包括：

根据所述视频的分类对所述视频进行对应的视频场景检测；

从视频场景中抽取关键帧以生成视频场景摘要。

2.根据权利要求1所述的方法，其特征在于，还包括：

通过镜头分割技术将所述视频分割成各个镜头；

对每个所述镜头抽取关键帧；

根据所述镜头的关键帧合成视频镜头摘要。

3.根据权利要求1所述的方法，其特征在于，所述利用视频中的文本特征、音频信息和视频特征确定视频的分类包括：

4.根据权利要求1所述的方法，其特征在于，

所述利用视频中的文本特征、音频信息和视频特征确定视频的分类包括：

5.根据权利要求1所述的方法，其特征在于，还包括：

对各个视频场景抽取关键帧；

根据视频场景关键帧的静态图片生成视频场景浏览图。

6.一种视频摘要生成装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，还包括镜头摘要生成模块，用于通过镜头分割技术将所述视频分割成各个镜头；对每个所述镜头抽取关键帧；根据所述镜头的关键帧合成视频镜头摘要。

8.根据权利要求6所述的装置，其特征在于，所述视频分类模块包括：

新闻视频确定单元，用于利用视频中的文本特征、音频信息和视频特征确定新闻类的视频；

所述场景检测模块包括：

新闻场景检测单元，用于利用文本信息、主持人信息，播音室内的镜头特征和新闻台标信息对所述新闻类的视频进行新闻故事分割以检测新闻故事场景。

9.根据权利要求6所述的装置，其特征在于，

所述利视频分类模块包括：

体育视频确定单元，用于利用视频中的文本特征、音频信息和视频特征确定体育类的视频；

所述场景检测模块包括：

体育事件检测单元，用于对所述体育类的视频进行关键体育事件检测以检测体育关键场景。

10.根据权利要求6所述的装置，其特征在于，还包括场景浏览生成模块，用于对各个视频场景抽取关键帧，根据视频场景关键帧的静态图片生成视频场景浏览图。