CN103646094A

CN103646094A - 实现视听类产品内容摘要自动提取生成的系统及方法

Info

Publication number: CN103646094A
Application number: CN201310698604.3A
Authority: CN
Inventors: 董建磊; 张树民
Original assignee: SHANGHAI ZIZHU DIGITAL CREATIVE HARBOR Co Ltd
Current assignee: SHANGHAI ZIZHU DIGITAL CREATIVE HARBOR Co Ltd
Priority date: 2013-12-18
Filing date: 2013-12-18
Publication date: 2014-03-19
Anticipated expiration: 2033-12-18
Also published as: CN103646094B

Abstract

本发明涉及一种实现视听类产品内容摘要自动提取生成的系统及方法，其中包括视听类媒体解码模块、语音处理模块、文本抽取模块、场景分割模块以及场景语义标注和摘要生成模块，所述的场景语义标注和摘要生成模块用以根据文本抽取模块抽取的文本关键词生成视听类媒体的文本摘要并根据场景分割模块聚合的场景生成视听类媒体的视频摘要。采用该种结构的实现视听类产品内容摘要自动提取生成的系统及方法，通过在传统的场景分割算法中融入文本关键词信息，使分割场景的同时具有明显的语义特征，向基于语义的视听类多媒体内容摘要跨进一步，同时解决了文本摘要与底层特征不相关的问题，使得文本摘要和视频摘要在语义上一致，适用于大规模推广应用。

Description

实现视听类产品内容摘要自动提取生成的系统及方法

技术领域

本发明涉及计算机视觉和自然语言理解领域，尤其涉及视听类产品内容摘要提取领域，具体是指一种实现视听类产品内容摘要自动提取生成的系统及方法。

背景技术

随着网络以及多媒体技术的迅速发展，多媒体数据成爆炸式增长。面对海量的视听类媒体数据，人们迫切需要能够快速检索、浏览多媒体数据的技术。但视听类媒体数据所呈现出的丰富性和多样性、以及特征数据特有的时空高维结构,使得如何有效地对海量视频进行表达、存储和管理,成为学术界的研究热点和工业界聚焦的焦点。视频摘要技术应运而生。

视频摘要(Video Abstract),即以自动或半自动的方式对视频的结构和内容进行分析,从原视频中提取出有意义的部分,并将它们以某种方式进行组合,形成简洁的、能够充分表现视频语义内容的概要。目前视频摘要技术可以分为三类：视频概要（Video Summary）,视频缩略（Video Skimming）和视频浓缩（Video Synopsis）。

视频概要是源视频帧的子集和，集合的元素称为视频关键帧(Keyframe)，主要的技术有故事板(story board)，场景转移图(STG)，关键帧等，主要是以静态的方式来表现原视频的内容。其优点在于易于实现，比较客观，依然是业界最广泛采用的技术，比如优酷，乐视视频的预览方式；不足之处在于关键帧的选取没有侧重点，和故事的时空结构非均匀性不相符合，不能很好的反映视频内容的语义结构。专利CN100559376C“生产视频摘要的方法、系统与设备”主要为了覆盖尽可能多的镜头，增强视频摘要的信息完备性。专利CN101753858A“一种视频场景分割的融合方法”提供了一种鲁棒的分割融合方法，比如音频分割的镜头如何和视频分割的镜头鲁棒的融合。

视频缩略，它是以动态的视频序列来表现原视频的内容，它本身就是一段比原视频短的视频，有些还有带有原视频中的音频。视频缩略较视频概要符合人们的感知习惯，充分体现了视频的动态特征，但是视频缩略的算法都比较复杂，难以实现自动提取，人工合成的成本很高，目前视频缩略的方法最常见于专业的影视行业的片花制作中。专利US 7263660“Systemand method of Producing a Video Skimming”提供了一种视频缩略方法，取关键帧的相邻视频帧作为缩略视频的视频帧，但并没有明确的语义信息，只是达到了语句与在关键帧处表达的完整性。

视频浓缩是从源视频空间到压缩空间的一种映射，把源视频空间中的物体、事件同时在时间空间和物体空间进行压缩变换，在不损失物体和事件的基础上，达到了极大的压缩效果。但相对于视听类媒体信息，该技术基本上扰乱了原有的故事结构。视频浓缩技术主要是针对静态相机提出的，以安防监控视频的索引和快速浏览为应用背景。专利CN 101262568 A“一种产生视频大纲的方法和系统”和专利WO 2012019417 A1“在线视频浓缩装置、系统及方法”都是安防为应用背景的视频浓缩技术方面的新方法。

对于视听类多媒体，当前的视频摘要方法几乎都忽略了视频中的关键词信息，而关键词信息代表了视听类多媒体的高级语义信息。单纯的利用视频特征和音频特征，通过一些启发式方法提取视频摘要的技术已受到自身固有缺陷的约束，我们迫切需要打破语义鸿沟，引入高层语义概念，结合底层视音频特征，重构视听类媒体的视频摘要和文本摘要。

本发明与传统的文本摘要和视频摘要并不等同，而是融合了两者的信息，提出了一种全新的视听类媒体信息的文本-视频摘要方法。

发明内容

本发明的目的是克服了上述现有技术的缺点，提供了一种能够实现在传统的场景分割算法中融入文本关键词信息、使分割场景的同时具有明显的语义特征、文本摘要和视频摘要在语义上保持一致、适用于大规模推广应用的实现视听类产品内容摘要自动提取生成的系统及方法。

为了实现上述目的，本发明的实现视听类产品内容摘要自动提取生成的系统及方法具有如下构成：

该实现视听类产品内容摘要自动提取生成的系统，其主要特点是，所述的系统包括：

视听类媒体解码模块，用以对视听类媒体进行解码并提取音频流、视频流和已编码的文本流；

语音处理模块，用以在所述的音频流中提取音频特征并对符合语音特征的特征进行语音识别；

文本抽取模块，用以检测并确认所述的视听类媒体中字幕的位置并根据语音识别结果对字幕进行分割和识别以提取文本关键词；

场景分割模块，用以根据音频特征和视频特征提取各镜头间的关键帧并将相似度大的关键帧聚合为场景；

场景语义标注和摘要生成模块，用以根据所述的文本关键词生成所述的视听类媒体的文本摘要并根据聚合的场景生成所述的视听类媒体的视频摘要。

本发明还涉及一种基于所述的系统实现视听类产品内容摘要自动提取生成的方法，其主要特点是，所述的方法包括以下步骤：

（1）所述的视听类媒体解码模块对视听类媒体进行解码并提取音频流、视频流和已编码的文本流；

（2）所述的语音处理模块在所述的音频流中提取音频特征并对符合语音特征的特征进行语音识别；

（3）所述的文本抽取模块检测并确认所述的视听类媒体中字幕的位置并根据语音识别结果对字幕进行分割和识别以提取文本关键词；

（4）所述的场景分割模块根据音频特征和视频特征提取各镜头间的关键帧并将相似度大的关键帧聚合为场景；

（5）所述的场景语义标注和摘要生成模块根据所述的文本关键词生成所述的视听类媒体的文本摘要并根据聚合的场景生成所述的视听类媒体的视频摘要。

较佳地，所述的文本抽取模块检测并确认所述的视听类媒体中字幕的位置并根据语音识别结果对字幕进行分割和识别以提取文本关键词，包括以下步骤：

（31）所述的文本抽取模块检测所述的视听类媒体中的字幕并根据多帧检测结果确定字幕的位置；

（32）所述的文本抽取模块根据所述的语音处理模块的语音识别结果进行字幕语音同步；

（33）所述的文本抽取模块根据字幕语音同步结果选取识别概率最高的文字为文本关键词。

较佳地，所述的场景分割模块根据音频特征和视频特征提取各镜头间的关键帧并将相似度大的关键帧聚合为场景，包括以下步骤：

（41）所述的场景分割模块分析所述的视频流的视频特征；

（42）所述的场景分割模块根据所述的音频特征和视频特征对所述的视频流提取关键帧；

（43）所述的场景分割模块计算各镜头间的关键帧的相似度并将相似度大的关键帧聚合为场景。

更佳地，所述的场景分割模块计算各镜头间的关键帧的相似度，具体为：

所述的场景分割模块根据各镜头间的关键帧的音频背景特征和视频特征计算各关键帧的相似度。

较佳地，所述的场景语义标注和摘要生成模块根据所述的文本关键词生成所述的视听类媒体的文本摘要并根据聚合的场景生成所述的视听类媒体的视频摘要，包括以下步骤：

（51）所述的场景语义标注和摘要生成模块提取所述的文本关键词并计算各个文本关键词出现的频率和在局部时间帧序列上的分布；

（52）所述的场景语义标注和摘要生成模块计算一聚合的场景内的局部场景关键词并计算该局部场景关键词出现的频率和在局部时间帧序列上的分布；

（53）所述的场景语义标注和摘要生成模块选择所述的文本关键词中与所述的局部场景关键词距离最近的语句作为对聚合的场景的语义标注语句；

（54）所述的场景语义标注和摘要生成模块将距离所述的语义标注语句出现的位置最近的关键帧定为语义关键帧；

（55）所述的场景语义标注和摘要生成模块基于所述的语义关键帧生成视频摘要并基于该聚合的场景的语义标注语句生成文本摘要。

更佳地，所述的步骤（53）和（54）之间，还包括以下步骤：

（531）所述的场景语义标注和摘要生成模块判断相邻的聚合的场景的语义标注语句之间的相似度是否大于系统预设值，如果是，则继续步骤（532），否则继续步骤（54）；

（532）将相邻的聚合的场景进一步聚合生成一场景，然后继续步骤（52）。

采用了该发明中的实现视听类产品内容摘要自动提取生成的系统及方法，具有如下有益效果：

本发明提出了一种新颖的视听类产品内容摘要自动提取生成技术。该技术结合音频特征和视频特征对视频场景进行场景分割，然后利用语音识别和字符识别技术构建的文本信息，对分割的场景进行语义标注。使得计算的文本摘要关键词与相应场景关键帧在语义上距离最近。通过在传统的场景分割算法中融入文本关键词信息，使分割场景的同时具有明显的语义特征，向基于语义的视听类多媒体内容摘要跨进一步。同时解决了文本摘要与底层特征不相关的问题，使得文本摘要和视频摘要在语义上一致，适用于大规模推广应用。

附图说明

图1为本发明的实现视听类产品内容摘要自动提取生成的系统的结构示意图。

图2为本发明的视听类媒体解码模块工作过程示意图。

图3为本发明的文本抽取模块工作过程示意图。

图4为本发明的语音处理模块工作过程示意图。

图5为本发明的场景分割模块工作过程示意图。

图6为本发明的场景语义标注和摘要生成模块工作过程示意图。

图7为本发明的实现视听类产品内容摘要自动提取生成的方法的流程图。

具体实施方式

为了能够更清楚地描述本发明的技术内容，下面结合具体实施例来进行进一步的描述。

如图1所示，本发明的实现视听类产品内容摘要自动提取生成的系统包括：

语音处理模块，用以在音频流中提取音频特征并对符合语音特征的特征进行语音识别；

文本抽取模块，用以检测并确认视听类媒体中字幕的位置并根据语音识别结果对字幕进行分割和识别以提取文本关键词；

场景语义标注和摘要生成模块，用以根据文本关键词生成视听类媒体的文本摘要并根据聚合的场景生成视听类媒体的视频摘要。

如图7所示，本发明中实现视听类产品内容摘要自动提取生成的方法包括以下步骤：

（1）视听类媒体解码模块对视听类媒体进行解码并提取音频流和视频流，如果已编码了文本流，同时提取文本流；如图2所示。

（2）语音处理模块在音频流中提取音频特征，提取音频特征，区分静音特征，语音特征，背景音乐特征和其他背景特征，并对符合语音特征的特征进行语音识别，如图3所示；

（3）文本抽取模块检测并确认视听类媒体中字幕的位置并根据语音识别结果对字幕进行分割和识别以提取文本关键词，如图4所示；

即由文本抽取模块检测字幕区域，融合多帧检测结果，确定字幕位置；对字幕分割、识别；为提高识别率，同时融合多帧识别结果；融合语音识别结果与当前识别结果，识别概率最高的文字为最终识别结果。

具体包括以下三个子步骤：

（31）文本抽取模块检测视听类媒体中的字幕并根据多帧检测结果确定字幕的位置；

（32）文本抽取模块根据语音处理模块的语音识别结果进行字幕语音同步；

（33）文本抽取模块根据字幕语音同步结果选取识别概率最高的文字为文本关键词。

（4）场景分割模块根据音频特征和视频特征提取各镜头间的关键帧并将相似度大的关键帧聚合为场景，如图5所示；

即场景分割模块结合视频特征和音频特征，如静音，背景音，检测镜头边界，然后通过聚类的方法提取镜头关键帧；计算各镜头间的关键帧的相似度，相似度大的聚合为场景，相似度计算的特征有音频背景特征和视频特征。

具体包括以下三个子步骤：

（41）场景分割模块分析视频流的视频特征；

（42）场景分割模块根据音频特征和视频特征对视频流提取关键帧；

（43）场景分割模块计算各镜头间的关键帧的相似度并将相似度大的关键帧聚合为场景。

（5）场景语义标注和摘要生成模块根据文本关键词生成视听类媒体的文本摘要并根据聚合的场景生成视听类媒体的视频摘要，如图6所示。

即结合步骤（3）和（4），提取已抽取文本的关键词，计算关键词出现的频率和在时间帧序列上的分布；计算某一分割场景内的局部关键词，并计算出现的频率和在局部时间帧序列上的分布；选择整体文本关键词和局部场景关键词最近的语句对分割场景进行语义标注，选择；如果相邻的分割场景关键词重复大于某个阈值，则对相邻场景融合，从新计算场景语义标注信息，直至相邻间场景达到一定距离为止。计算关键帧与语义标注语句出现的相对位置，最近的关键帧为语义关键帧。语义关键帧生成视频摘要，场景的标注语句生成文本摘要。

具体包括以下五个子步骤：

（51）场景语义标注和摘要生成模块提取文本关键词并计算各个文本关键词出现的频率和在局部时间帧序列上的分布；

（52）场景语义标注和摘要生成模块计算一聚合的场景内的局部场景关键词并计算该局部场景关键词出现的频率和在局部时间帧序列上的分布；

（53）场景语义标注和摘要生成模块选择文本关键词中与局部场景关键词距离最近的语句作为对聚合的场景的语义标注语句；

步骤（53）和（54）之间，还包括以下步骤：

（531）场景语义标注和摘要生成模块判断相邻的聚合的场景的语义标注语句之间的相似度是否大于系统预设值，如果是，则继续步骤（532），否则继续步骤（54）；

（54）场景语义标注和摘要生成模块将距离语义标注语句出现的位置最近的关键帧定为语义关键帧；

（55）场景语义标注和摘要生成模块基于语义关键帧生成视频摘要并基于该聚合的场景的语义标注语句生成文本摘要。

在此说明书中，本发明已参照其特定的实施例作了描述。但是，很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此，说明书和附图应被认为是说明性的而非限制性的。

Claims

1.一种实现视听类产品内容摘要自动提取生成的系统，其特征在于，所述的系统包括：

2.一种基于权利要求1所述的系统实现视听类产品内容摘要自动提取生成的方法，其特征在于，所述的方法包括以下步骤：

3.根据权利要求2所述的实现视听类产品内容摘要自动提取生成的方法，其特征在于，所述的文本抽取模块检测并确认所述的视听类媒体中字幕的位置并根据语音识别结果对字幕进行分割和识别以提取文本关键词，包括以下步骤：

4.根据权利要求2所述的实现视听类产品内容摘要自动提取生成的方法，其特征在于，所述的场景分割模块根据音频特征和视频特征提取各镜头间的关键帧并将相似度大的关键帧聚合为场景，包括以下步骤：

（41）所述的场景分割模块分析所述的视频流的视频特征；

5.根据权利要求4所述的实现视听类产品内容摘要自动提取生成的方法，其特征在于，所述的场景分割模块计算各镜头间的关键帧的相似度，具体为：

6.根据权利要求2所述的实现视听类产品内容摘要自动提取生成的方法，其特征在于，所述的场景语义标注和摘要生成模块根据所述的文本关键词生成所述的视听类媒体的文本摘要并根据聚合的场景生成所述的视听类媒体的视频摘要，包括以下步骤：

7.根据权利要求6所述的实现视听类产品内容摘要自动提取生成的方法，其特征在于，所述的步骤（53）和（54）之间，还包括以下步骤：