CN101023467A

CN101023467A - 用于提炼音频分类器的训练数据集的方法和用于分类数据的方法

Info

Publication number: CN101023467A
Application number: CNA2005800305992A
Authority: CN
Inventors: 大塚功; 雷古纳赞·拉达克里希南; 阿贾伊·迪瓦卡瑞恩
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2005-01-04
Filing date: 2005-11-22
Publication date: 2007-08-22
Also published as: EP1789952A1; US20060149693A1; WO2006073032A1; JP2008527397A

Abstract

一种方法提炼多媒体内容的标记的训练数据音频分类。第一组音频分类器是利用具有对应于一组音频特征的标记的训练数据集的标记音频帧训练的。标记的训练数据集的每个音频帧利用该第一组音频分类器分类，以产生提炼后的训练数据集。第二组音频分类器是利用提炼后的训练数据集的音频帧获得的，且精彩部分是利用该第二组音频分类器从未标记的音频帧提取的。

Description

用于提炼音频分类器的训练数据集的方法和用于分类数据的方法

技术领域

本发明总体上涉及处理视频，尤其涉及检测视频中的精彩部分(highlight)。

背景技术

大部分用于检测视频中精彩部分的现有技术系统使用单信号传输模态(modality)，例如音频信号或可见信号。Rui等人基于解说员激动的语音和球拍碰撞的声音检测棒球比赛视频中的精彩部分。他们只使用关于音频信号的方向模板匹配，见2000年第八次ACM国际多媒体会议的第105-115页上Rui等人所写的“Automaticallyextracting highlights for TV baseball programs”。

Kasashima等人提取视频帧中的球拍挥动特征，见1998年国际图像处理会议的第871-874页上Kasashima等人所写的“Indexing ofbaseball telecast for content-based video retrival”。

Xie等人和Xu等人利用只从视频帧提取的主要颜色与运动信息将足球视频分段成比赛和暂停段，见2002年5月国际声学、语音与信号处理会议学报ICASSP-2002上Xie等人所写的“Structure analysisof soccer video with hidden Markov models”和2001年IEEE多媒体与Expo会议学报第928-931页Xu等人所写的“Algorithms and systemfor segmentation and structure analysis in soccer video”。

Gong等人提供了用于足球比赛视频的分析系统。分析基于例如比赛场地的线条图形的可见特征和球与运动员的运动，见1995年IEEE国际多媒体计算与系统会议第167-174页Gong等人所写的“Automatic parsing of TV soccer programs”。

一种方法基于射门(shot)检测与分类分析足球视频。同样，有趣的射门选择只是基于可见信息，见2003年Symp.电子成像：科学与技术：用于图像与视频数据库IV的存储与检索上Ekin等人所写的“Automatic soccer video analysis and summarization”。

有些用于检测视频中精彩部分的现有技术系统使用组合的信号传输模态，例如既有音频信号又有可见信号，见在此引入作为参考的于2003年12月5日由Divakaran等人提交的美国专利申请序号10/729,164“Audio-visual Highlights Detection Using Hidden MarkovModels”。Divakaran等人描述了利用基于高斯混合模型(GMM)的音频分类生成音频标记并通过量化平均运动向量数值生成可见标记。精彩部分是利用通过标记的视频训练的离散观察耦合的隐藏Markov模型(CHMM)建模的。

2003年ICASSP上Xiong等人所写的“Audio Events DetectionBased Highlights Extraction from Baseball，Golf and Soccer Games ina Unified Framework”描述了用于从包括足球、高尔夫球和棒球比赛的不同运动视频提取运动精彩部分的统一音频分类框架。选择所推荐框架中的音频类，例如掌声、欢呼声、音乐、语音及带音乐的语音，来特征化对所有运动共同的不同类型的声音。例如，选择前两个类来捕捉各种运动中观众对有趣事件的反映。

总地来说，现有技术中用于运动精彩部分检测的音频类包括掌声及激动语音、掌声与欢呼声的混合。

需要来自类的大量训练数据训练来产生正确的分类器。此外，因为训练数据是从实际广播的运动内容获得的，所以训练数据常常严重地受周围音频噪声的破坏。因此，有些训练导致对周围噪声建模，而不是对指示有趣事件的音频事件类建模。

因此，需要一种克服现有技术问题的从运动视频音频检测精彩部分的方法。

发明内容

本发明提供了消除变坏的训练数据而产生用于从视频提取运动精彩部分的精确音频分类器的方法。

具体而言，该方法反复提炼用于音频分类器组的训练数据集。此外，分类器组可以在训练过程中动态更新。

第一组分类器是利用标记的训练数据集的音频帧训练的。训练数据集的标记对应于一组音频特征。然后，训练数据集的每个音频帧利用第一组分类器分类，来产生提炼后的训练数据集。

此外，分类器组可以在训练过程中动态更新。即，工作不好的分类器可以丢弃，新的分类器可以引入分类器组。然后，提炼后的训练数据集可以用于训练更新后的第二组音频分类器。

训练、反复分类及动态更新步骤可以重复，直到获得期望的最终分类器组。然后，最终分类器组可以用于从未标记内容的视频提取精彩部分。

附图说明

图1是根据本发明用于提炼用于动态更新音频分类器组的训练数据集的方法的框图。

具体实施方式

本发明提供了用于从多媒体内容提取精彩部分的预处理步骤。多媒体内容可以是包括可见与音频数据或只有音频数据的视频。

如图1所示，本发明的方法100以用于音频精彩部分检测的一组音频分类器的音频训练数据集101的标记帧作为输入。在优选实施方式中，本发明可以用于从运动视频提取精彩部分的方法，如于2003年12月5日由Divakaran等人提交并在此引入作为参考的美国专利申请10/729,164“Audio-visual highlights detection using hidden Markovmodels”中所描述的。在此，音频类中的帧包括例如激动的语音和欢呼声、欢呼声、掌声、语音、音乐等的音频特征。音频分类器可以利用由在此引入作为参考的于2003年ICASSP上Xiong等人所写的“AudioEvents Detection Based Highlights Extraction from Baseball，Golf andSoccer Games in a Unified Framework”中所描述的方法来选择。

标记的训练数据集101用于基于训练数据集101中所表示的标记音频特征102，例如欢呼声、掌声、语音或音乐，来训练110第一组分类器111。在优选实施方式中，第一组分类器111使用包括高斯分布函数的混合的模型。其它分类器可以使用类似的模型。

训练数据集101的每个音频帧利用第一组分类器111来分类120，以便产生提炼后的训练数据集121。分类120可以多种方式执行。一种方式采用基于可能性的分类，其中为训练数据集的每一帧指定包括在类中的可能性或概率。可能性可以标准化成范围[0.0，1.0]。

只有可能性大于预定阈值的帧保留在提炼后的训练数据集121中。所有其它的帧都丢弃了。应当理解，阈值可以反转。即，可能性小于预定阈值的帧被保留。只有保留的帧形成提炼后的训练数据集121。

第一组分类器111对多个音频特征102，例如激动的语音、欢呼声、掌声和音乐，来训练110。应当理解，其它特征也可以使用。用于掌声的训练数据集101利用用于每个音频特征的第一分类器111分类120。每一帧都标记为属于特定的音频特征。只有利用对应于所分类特征的标记分类120的帧保留在提炼后的训练数据集121中。与音频特征不一致的帧被丢弃。

此外，第一组分类器可以在训练过程中动态更新。即，工作不好的分类器可以从组中除去，其它新的分类器可以引入组中，以产生更新后的第二组分类器122。例如，如果用于音乐特征的分类器工作得很好，则音乐分类器的变体可以引入，例如乐队音乐、节奏风琴和弦或号角声。因此，分类器动态适于训练数据。

然后，提炼后的训练数据集121用于训练130更新后的第二组分类器131。当与只利用未提炼的训练数据集101训练的现有技术静态分类器比较时，第二组分类器提供改进的精彩部分141的提取140。

在图中未示出的可选步骤中，第二分类器131可以用于分类140提炼后的数据集121，以产生进一步提炼的数据集。类似地，第二组分类器可以更新，等等。这个处理可以重复预定的迭代次数，或者直到分类器达到用于精彩部分141提取140的用户定义的性能等级。

本发明是利用特定的术语和例子描述的。应当理解，在本发明的主旨与范围内，可以进行各种其它调整与修改。因此，所附权利要求的目的是覆盖属于本发明真正主旨与范围的所有这种变化与修改。

Claims

1、一种用于提炼用于分类多媒体内容的音频分类器的训练数据集的方法，包括：

利用标记的训练数据集的音频帧训练第一组音频分类器，其中训练数据集的标记对应于音频特征组；及

利用该第一组音频分类器分类标记的训练数据集的每个音频帧，以产生提炼后的训练数据集。

2、如权利要求1所述的方法，还包括：

利用提炼后的训练数据集的音频帧训练第二组音频分类器。

3、如权利要求2所述的方法，还包括：

利用该第二组音频分类器从未标记的音频帧提取精彩部分。

4、如权利要求1所述的方法，其中分类的步骤还包括：

根据第一组音频分类器为标记的训练数据集中的每个音频帧指定可能性；及

将可能性大于预定阈值的每个音频帧保留在提炼后的训练数据集中。

5、如权利要求1所述的方法，其中分类的步骤还包括：

将可能性小于预定阈值的每个音频帧保留在提炼后的训练数据集中。

6、如权利要求4所述的方法，还包括：

丢弃可能性小于预定阈值的每个音频帧。

7、如权利要求5所述的方法，还包括：

丢弃可能性大于预定阈值的每个音频帧。

8、如权利要求1所述的方法，其中第一组音频分类器是对多个标记的音频训练数据集中的每一个训练的，每个标记的音频训练数据集的帧具有对应于不同音频特征的标记，且分类的步骤还包括：

利用第一组分类器分类用于特定音频特征的特定音频训练数据集的每一帧，从而根据不同音频特征中的对应音频特征标记帧；及

将具有对应于特定音频特征的标记的音频帧保留在提炼后的训练数据集中。

9、如权利要求8所述的方法，还包括：

丢弃具有对应于除所述特定音频特征以外的音频特征的标记的音频帧。

10、如权利要求1所述的方法，还包括：

更新第一组分类器，以获得第二组分类器。

11、如权利要求10所述的方法，其中更新的步骤还包括：

向第一组分类器添加新的分类器，以获得第二组分类器；及

从第一组分类器除去所选的分类器，以获得第二组分类器。

12、一种用于分类数据的方法，包括：

利用训练数据集训练第一分类器组；

利用该第一组分类器分类训练数据集，以产生提炼后的训练数据集；

利用提炼后的训练数据集训练第二组分类器；及

利用该第二组分类器分类未标记的数据。

13、如权利要求12所述的方法，还包括：

重复训练与分类步骤，直到未标记数据的分类达到期望的性能等级。