CN100365622C

CN100365622C - 对压缩的视频进行分段的方法

Info

Publication number: CN100365622C
Application number: CNB038020491A
Authority: CN
Inventors: A·蒂瓦卡兰; R·拉哈里斯南; M·A·卡塞伊
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2002-07-10
Filing date: 2003-06-23
Publication date: 2008-01-30
Anticipated expiration: 2023-06-23
Also published as: JP2005532763A; US20040008789A1; WO2004008458A2; EP1520238A2; WO2004008458A3; US7349477B2; CN1613074A

Abstract

通过从压缩视频中抽取音频和视觉特征对压缩的视频进行分段的方法。根据K方式群集把音频特征群集到一个类别集合中，然后根据该类别集合把压缩视频划分为第一段。然后利用该视觉特征，以便通过使用运动分析来把每个第一段划分为第二段。可以提供第二段的摘要来帮助浏览压缩视频。

Description

对压缩的视频进行分段的方法

技术领域

本发明一般涉及浏览视频，更具体说涉及使用视觉和音频特征浏览视频。

背景技术

视频上可用的娱乐、信息和新闻的数量迅速增加。因此，需要一种有效的视频浏览技术。一般说，视频包含三个可以用于浏览的“轨道(track)”，即视觉的、音频的和文本的(字幕(close-caption))。

大多数视频具有故事或主题结构，它们以视觉轨道的形式被反映。视觉轨道的基本单元是一个捕捉连续动作的镜头或场景。因此，许多视频浏览器期望将视频首先分为故事或者主题段。场景变换检测(也称为时间分段)表明一组镜头何时开始和结束。场景检测可以使用压缩域中的DCT系数来进行。然后可以从这些段中选择帧以形成视频的摘要，这些摘要然后可以被迅速浏览，并且用作整个视频的索引。然而，视频摘要不提供关于被摘要的内容的任何信息。

另一种技术使用一些代表帧来组织视频的视觉内容。然而，迄今为止，有意义的帧选择处理需要人工干预。

另一种技术使用基于语言的模型，它把输入的视频的音频轨道与新闻广播所期望的语法元素相匹配，并使用视频剪辑片断的期望内容的一个先验模型来分析视频。然而，基于语言的模型需要语音识别，众所周知，语音识别很慢而容易产生错误。

在现有技术中，曾经使用字幕信息、嵌入的字幕和通过语音识别得到的文本通过它们自身或它们之间的组合来检测主题，参见Hanjalic等人所著“Dancers：Delft advanced news retrievalsystem”(Dancers：Delft先进新闻检索系统)，IS&T/SPIEElectronic Imaging 2001：Storage and retrieval for MediaDatabase(用于媒体数据库的存储和检索)，2001，和Jasinschi等人所著“Integra ted multimedia processing for topic segmen tationand classification” (主题分段和分类用的综合多媒体处理)，ICIP-2001，第363-369页，2001。在这些方法中，使用上述数据源中的一些或者全部从视频中抽取文本，然后使用各种推断来处理该文本以抽取主题。

曾经使用颜色、运动、结构和音频特征进行新闻节目主持人检测。例如，一种技术使用音频轨道以便区分开发言者，以及使用视觉轨道定位面孔。区分开发言者首先就要把音频段分类为语音和非语音类别。然后使用语音段来训练每个发言者的高斯混合模型，参见Wang等人所著“Multimedia Content Analysis”(多媒体内容分析)，IEEESignal Processing Magazine，2000年11月。

在现有技术中基于运动的视频浏览也是公知的，参见US专利申请Sn. 09/945,009 “Video Summarization Using Descriptors ofMotion Activity”(利用动作活动的描述符的视频概括)，它在2001年4月由Divakaran等人提交，现结合在此作为参考。该系统是高效的，因为它依赖在压缩域中的简单计算。这样，可以使用该系统来迅速产生视频的视觉摘要。然而，为了使用新闻视频进行浏览，该方法需要一个主题列表。如果该主题列表不能得到，则该视频有可能以与内容的语义学不一致的方式分段。

本发明的特殊兴趣在于使用声音识别以供视频浏览之用。例如，在视频中，可能希望识别最经常出现的发言人、主要角色、或新闻“节目主持人”。如果这能对例如新闻广播的视频进行的话，则将能定位由该新闻视频覆盖的每一主题或“故事”的开始。这样，就有可能只重放一个新闻节目主持人开始讲话的一小部分而迅速浏览该视频。

因为新闻视频通常以主题的方式以段的形式安排，新闻节目主持人在每一段的开始介绍每一主题，因此现有技术的新闻视频浏览操作曾经强调新闻节目主持人检测和主题检测。这样，通过知道主题边界，用户可以从一个主题到另一个主题快速浏览新闻视频，直到找到希望的主题，然后可以全部观看该希望的主题。

因此，仍然希望在视频浏览期间使用音频轨道。然而，如上所述，语音识别耗时且易出错误。与主要是处理识别说出的词的特定问题的语音识别不同，声音识别要处理更一般性的问题即表征和识别音频信号，例如，动物声音、不同音乐流派、乐器；诸如树叶的沙沙声、玻璃碎裂或者火焰的爆裂声等自然声音；诸如狗吠的动物声音，以及人的声音—成人、儿童、男人、女人。声音识别不关心解释内容，而关心表征化其内容。

一种声音识别系统由Casey描述，参见“MPEG-7 SoundRecognition Tools”(MPEG-7声音识别工具)，IEEE Transactionon Circuits and Systems for Video Technology，Vol.11，No.6，2001年6月，和在2001年11月20日颁发给Casey的美国专利No.6,321,200，“Method for extracting features from a mixture ofsignals”(从信号的混合中提取特点的方法)。Casey使用音频信号的减少的秩谱(rank spectra)和最小熵优先(mi mimum-entropypriors)。作为一个优点，Casey方法允许人们用易于分析和检测的音频描述符来注释MPEG-7视频，参见“MPEG-7 Context，Ob jectivesand Technical Roadmap”(MPEG-7范围、目标和技术路线图)中的“Multimedia Content Description Interface” (多媒体内容描述接口)，ISO/IEC N2861，1999年7月。注意，Casey的方法包括把声音分类成一个类目以及产生一个相应的特征矢量这两者。

发明内容

一种通过从压缩的视频抽取音频和视觉特征而对压缩的视频进行分段的方法。根据K方式(K-means)群集而在一个类别的集合中群集音频特征，然后根据该类别的集合把压缩的视频划分为第一段。

然后利用该视觉特征，以便通过使用运动分析把每个第一段划分为第二段。然后可以提供第二段的摘要以帮助浏览压缩的视频。

附图说明

图1是根据本发明的视频分段、摘要、和浏览系统的框图。

具体实施方式

系统概观

如图1所示，本发明取压缩的视频101作为输入。对该视频执行音频特征抽取、分类、和分段110，以产生根据音频特征而分段的视频102。然后对段103执行组镜头检测、运动特征抽取、和视觉分段120，以提供视频101的第二级分段104。可以对这些分段104做摘要130以产生视频101的摘要105。然后可以使用摘要105来高效地浏览140视频101。

音频特征分段

在步骤110期间，处理压缩视频101以抽取音频特征。将这些音频特征分类，并根据音频特征的不同类别把该视频分段。该处理110使用MPEG-7音频描述符以识别例如非语音和语音段。然后可以进一步把该语音段处理为男人语音段和女人语音段。语音段也可以与从状态转变的直方图得到的语音特征矢量Fs关联起来。

因为在一个特定的新闻节目中男女主要角色成员相当少，例如，在3到6的范围中的某个数值，而通常小于10，所以可以单独对每一男人段和女人段应用K方式群集。该群集过程只分配K个最大的群集给角色成员。

这允许人们根据主题在第一级上对压缩视频101分段，这样可以在浏览140视频时跳过不感兴趣的段。

注意，通过对音频特征矢量使用群集步骤，我们能够在由MPEG-7音频描述符生成所产生的类别内产生子类别。换句话说，因为我们的方法保持音频特征矢量和类别这两者，因此通过结合分析由MPEG-7提取所产生的分离的类别，它既允许进一步再分类也允许产生新类别。注意，这在现有技术中是不可能的(在现有技术中，使用把段分类到预定的类别集合中的固定分类器)。

视觉特征分段

然后把基于运动的分段120应用于每一主题(即分段103)，以便进行基于视觉特征的第二级分段。然后，根据主要角色识别就可以产生摘要105，并且把主题段与每一语义学段的基于运动的摘要这二者相结合，就允许快速而高效地浏览视频140。应该理解，视频的内容可以是新闻、监视、娱乐等等，然而功效可能变化。

虽然以优选实施例为例说明了本发明，但是应该理解，可以在本发明的精神和范围内进行各种改编和修改。因此，所附权利要求的目的是覆盖所有落入本发明的精神和范围之内的这种变化和修改。

Claims

1.一种用于对压缩的视频进行分段的方法，包括：

直接从压缩的视频中抽取音频特征；

把音频特征群集到类别的集合中；

根据该类别的集合把压缩的视频划分为第一段；

从压缩的视频中抽取视觉特征；和

根据该视觉特征把每个第一段划分为第二段。

2.权利要求1所述的方法，其中，该群集是K方式群集。

3.权利要求1所述的方法，其中，该类别是与压缩的视频中的主要角色成员关联的。

4.权利要求1所述的方法，其中，音频特征是从压缩的视频中抽取的MPEG-7描述符，该MPEG-7描述符被群集成类别，以便根据该类别的集合把压缩的视频划分成第一段。

5.权利要求1所述的方法，其中所述群集包括：

使用音频特征识别语音段和非语音段；和

只群集该语音段。

6.权利要求3所述的方法，其中所述群集包括：

使用音频特征识别语音段和非语音段；

识别语音段中的男人语音段和女人语音段；和

分别群集男人段和女人段以识别主要角色成员。

7.权利要求1所述的方法，其中，类别数目小于10。

8.权利要求1所述的方法，进一步包括：

对该视觉特征执行运动分析以便执行所述把第一段划分为第二段。

9.权利要求1所述的方法，进一步包括：

保持音频特征以便对类别进行再分类和进一步划分第一段。

10.一种用于对压缩的视频进行分段的方法，包括：

直接从压缩的视频中抽取MPEG-7描述符；

把该MPEG-7描述符群集到类别的集合中；

根据该类别的集合把压缩的视频划分为第一段；

从压缩的视频抽取视觉特征；和

根据该视觉特征把每个第一段划分为第二段。