CN101023467A - 用于提炼音频分类器的训练数据集的方法和用于分类数据的方法 - Google Patents

用于提炼音频分类器的训练数据集的方法和用于分类数据的方法 Download PDF

Info

Publication number
CN101023467A
CN101023467A CNA2005800305992A CN200580030599A CN101023467A CN 101023467 A CN101023467 A CN 101023467A CN A2005800305992 A CNA2005800305992 A CN A2005800305992A CN 200580030599 A CN200580030599 A CN 200580030599A CN 101023467 A CN101023467 A CN 101023467A
Authority
CN
China
Prior art keywords
audio
classifiers
training
frame
training dataset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2005800305992A
Other languages
English (en)
Inventor
大塚功
雷古纳赞·拉达克里希南
阿贾伊·迪瓦卡瑞恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of CN101023467A publication Critical patent/CN101023467A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

一种方法提炼多媒体内容的标记的训练数据音频分类。第一组音频分类器是利用具有对应于一组音频特征的标记的训练数据集的标记音频帧训练的。标记的训练数据集的每个音频帧利用该第一组音频分类器分类,以产生提炼后的训练数据集。第二组音频分类器是利用提炼后的训练数据集的音频帧获得的,且精彩部分是利用该第二组音频分类器从未标记的音频帧提取的。

Description

用于提炼音频分类器的训练数据集 的方法和用于分类数据的方法
技术领域
本发明总体上涉及处理视频,尤其涉及检测视频中的精彩部分(highlight)。
背景技术
大部分用于检测视频中精彩部分的现有技术系统使用单信号传输模态(modality),例如音频信号或可见信号。Rui等人基于解说员激动的语音和球拍碰撞的声音检测棒球比赛视频中的精彩部分。他们只使用关于音频信号的方向模板匹配,见2000年第八次ACM国际多媒体会议的第105-115页上Rui等人所写的“Automaticallyextracting highlights for TV baseball programs”。
Kasashima等人提取视频帧中的球拍挥动特征,见1998年国际图像处理会议的第871-874页上Kasashima等人所写的“Indexing ofbaseball telecast for content-based video retrival”。
Xie等人和Xu等人利用只从视频帧提取的主要颜色与运动信息将足球视频分段成比赛和暂停段,见2002年5月国际声学、语音与信号处理会议学报ICASSP-2002上Xie等人所写的“Structure analysisof soccer video with hidden Markov models”和2001年IEEE多媒体与Expo会议学报第928-931页Xu等人所写的“Algorithms and systemfor segmentation and structure analysis in soccer video”。
Gong等人提供了用于足球比赛视频的分析系统。分析基于例如比赛场地的线条图形的可见特征和球与运动员的运动,见1995年IEEE国际多媒体计算与系统会议第167-174页Gong等人所写的“Automatic parsing of TV soccer programs”。
一种方法基于射门(shot)检测与分类分析足球视频。同样,有趣的射门选择只是基于可见信息,见2003年Symp.电子成像:科学与技术:用于图像与视频数据库IV的存储与检索上Ekin等人所写的“Automatic soccer video analysis and summarization”。
有些用于检测视频中精彩部分的现有技术系统使用组合的信号传输模态,例如既有音频信号又有可见信号,见在此引入作为参考的于2003年12月5日由Divakaran等人提交的美国专利申请序号10/729,164“Audio-visual Highlights Detection Using Hidden MarkovModels”。Divakaran等人描述了利用基于高斯混合模型(GMM)的音频分类生成音频标记并通过量化平均运动向量数值生成可见标记。精彩部分是利用通过标记的视频训练的离散观察耦合的隐藏Markov模型(CHMM)建模的。
2003年ICASSP上Xiong等人所写的“Audio Events DetectionBased Highlights Extraction from Baseball,Golf and Soccer Games ina Unified Framework”描述了用于从包括足球、高尔夫球和棒球比赛的不同运动视频提取运动精彩部分的统一音频分类框架。选择所推荐框架中的音频类,例如掌声、欢呼声、音乐、语音及带音乐的语音,来特征化对所有运动共同的不同类型的声音。例如,选择前两个类来捕捉各种运动中观众对有趣事件的反映。
总地来说,现有技术中用于运动精彩部分检测的音频类包括掌声及激动语音、掌声与欢呼声的混合。
需要来自类的大量训练数据训练来产生正确的分类器。此外,因为训练数据是从实际广播的运动内容获得的,所以训练数据常常严重地受周围音频噪声的破坏。因此,有些训练导致对周围噪声建模,而不是对指示有趣事件的音频事件类建模。
因此,需要一种克服现有技术问题的从运动视频音频检测精彩部分的方法。
发明内容
本发明提供了消除变坏的训练数据而产生用于从视频提取运动精彩部分的精确音频分类器的方法。
具体而言,该方法反复提炼用于音频分类器组的训练数据集。此外,分类器组可以在训练过程中动态更新。
第一组分类器是利用标记的训练数据集的音频帧训练的。训练数据集的标记对应于一组音频特征。然后,训练数据集的每个音频帧利用第一组分类器分类,来产生提炼后的训练数据集。
此外,分类器组可以在训练过程中动态更新。即,工作不好的分类器可以丢弃,新的分类器可以引入分类器组。然后,提炼后的训练数据集可以用于训练更新后的第二组音频分类器。
训练、反复分类及动态更新步骤可以重复,直到获得期望的最终分类器组。然后,最终分类器组可以用于从未标记内容的视频提取精彩部分。
附图说明
图1是根据本发明用于提炼用于动态更新音频分类器组的训练数据集的方法的框图。
具体实施方式
本发明提供了用于从多媒体内容提取精彩部分的预处理步骤。多媒体内容可以是包括可见与音频数据或只有音频数据的视频。
如图1所示,本发明的方法100以用于音频精彩部分检测的一组音频分类器的音频训练数据集101的标记帧作为输入。在优选实施方式中,本发明可以用于从运动视频提取精彩部分的方法,如于2003年12月5日由Divakaran等人提交并在此引入作为参考的美国专利申请10/729,164“Audio-visual highlights detection using hidden Markovmodels”中所描述的。在此,音频类中的帧包括例如激动的语音和欢呼声、欢呼声、掌声、语音、音乐等的音频特征。音频分类器可以利用由在此引入作为参考的于2003年ICASSP上Xiong等人所写的“AudioEvents Detection Based Highlights Extraction from Baseball,Golf andSoccer Games in a Unified Framework”中所描述的方法来选择。
标记的训练数据集101用于基于训练数据集101中所表示的标记音频特征102,例如欢呼声、掌声、语音或音乐,来训练110第一组分类器111。在优选实施方式中,第一组分类器111使用包括高斯分布函数的混合的模型。其它分类器可以使用类似的模型。
训练数据集101的每个音频帧利用第一组分类器111来分类120,以便产生提炼后的训练数据集121。分类120可以多种方式执行。一种方式采用基于可能性的分类,其中为训练数据集的每一帧指定包括在类中的可能性或概率。可能性可以标准化成范围[0.0,1.0]。
只有可能性大于预定阈值的帧保留在提炼后的训练数据集121中。所有其它的帧都丢弃了。应当理解,阈值可以反转。即,可能性小于预定阈值的帧被保留。只有保留的帧形成提炼后的训练数据集121。
第一组分类器111对多个音频特征102,例如激动的语音、欢呼声、掌声和音乐,来训练110。应当理解,其它特征也可以使用。用于掌声的训练数据集101利用用于每个音频特征的第一分类器111分类120。每一帧都标记为属于特定的音频特征。只有利用对应于所分类特征的标记分类120的帧保留在提炼后的训练数据集121中。与音频特征不一致的帧被丢弃。
此外,第一组分类器可以在训练过程中动态更新。即,工作不好的分类器可以从组中除去,其它新的分类器可以引入组中,以产生更新后的第二组分类器122。例如,如果用于音乐特征的分类器工作得很好,则音乐分类器的变体可以引入,例如乐队音乐、节奏风琴和弦或号角声。因此,分类器动态适于训练数据。
然后,提炼后的训练数据集121用于训练130更新后的第二组分类器131。当与只利用未提炼的训练数据集101训练的现有技术静态分类器比较时,第二组分类器提供改进的精彩部分141的提取140。
在图中未示出的可选步骤中,第二分类器131可以用于分类140提炼后的数据集121,以产生进一步提炼的数据集。类似地,第二组分类器可以更新,等等。这个处理可以重复预定的迭代次数,或者直到分类器达到用于精彩部分141提取140的用户定义的性能等级。
本发明是利用特定的术语和例子描述的。应当理解,在本发明的主旨与范围内,可以进行各种其它调整与修改。因此,所附权利要求的目的是覆盖属于本发明真正主旨与范围的所有这种变化与修改。

Claims (13)

1、一种用于提炼用于分类多媒体内容的音频分类器的训练数据集的方法,包括:
利用标记的训练数据集的音频帧训练第一组音频分类器,其中训练数据集的标记对应于音频特征组;及
利用该第一组音频分类器分类标记的训练数据集的每个音频帧,以产生提炼后的训练数据集。
2、如权利要求1所述的方法,还包括:
利用提炼后的训练数据集的音频帧训练第二组音频分类器。
3、如权利要求2所述的方法,还包括:
利用该第二组音频分类器从未标记的音频帧提取精彩部分。
4、如权利要求1所述的方法,其中分类的步骤还包括:
根据第一组音频分类器为标记的训练数据集中的每个音频帧指定可能性;及
将可能性大于预定阈值的每个音频帧保留在提炼后的训练数据集中。
5、如权利要求1所述的方法,其中分类的步骤还包括:
根据第一组音频分类器为标记的训练数据集中的每个音频帧指定可能性;及
将可能性小于预定阈值的每个音频帧保留在提炼后的训练数据集中。
6、如权利要求4所述的方法,还包括:
丢弃可能性小于预定阈值的每个音频帧。
7、如权利要求5所述的方法,还包括:
丢弃可能性大于预定阈值的每个音频帧。
8、如权利要求1所述的方法,其中第一组音频分类器是对多个标记的音频训练数据集中的每一个训练的,每个标记的音频训练数据集的帧具有对应于不同音频特征的标记,且分类的步骤还包括:
利用第一组分类器分类用于特定音频特征的特定音频训练数据集的每一帧,从而根据不同音频特征中的对应音频特征标记帧;及
将具有对应于特定音频特征的标记的音频帧保留在提炼后的训练数据集中。
9、如权利要求8所述的方法,还包括:
丢弃具有对应于除所述特定音频特征以外的音频特征的标记的音频帧。
10、如权利要求1所述的方法,还包括:
更新第一组分类器,以获得第二组分类器。
11、如权利要求10所述的方法,其中更新的步骤还包括:
向第一组分类器添加新的分类器,以获得第二组分类器;及
从第一组分类器除去所选的分类器,以获得第二组分类器。
12、一种用于分类数据的方法,包括:
利用训练数据集训练第一分类器组;
利用该第一组分类器分类训练数据集,以产生提炼后的训练数据集;
利用提炼后的训练数据集训练第二组分类器;及
利用该第二组分类器分类未标记的数据。
13、如权利要求12所述的方法,还包括:
重复训练与分类步骤,直到未标记数据的分类达到期望的性能等级。
CNA2005800305992A 2005-01-04 2005-11-22 用于提炼音频分类器的训练数据集的方法和用于分类数据的方法 Pending CN101023467A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/028,970 US20060149693A1 (en) 2005-01-04 2005-01-04 Enhanced classification using training data refinement and classifier updating
US11/028,970 2005-01-04

Publications (1)

Publication Number Publication Date
CN101023467A true CN101023467A (zh) 2007-08-22

Family

ID=36010467

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2005800305992A Pending CN101023467A (zh) 2005-01-04 2005-11-22 用于提炼音频分类器的训练数据集的方法和用于分类数据的方法

Country Status (5)

Country Link
US (1) US20060149693A1 (zh)
EP (1) EP1789952A1 (zh)
JP (1) JP2008527397A (zh)
CN (1) CN101023467A (zh)
WO (1) WO2006073032A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103366738A (zh) * 2012-04-01 2013-10-23 佳能株式会社 生成声音分类器和检测异常声音的方法和设备及监视系统
CN105580071A (zh) * 2013-05-06 2016-05-11 谷歌技术控股有限责任公司 用于训练声音识别模型数据库的方法和装置

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4321518B2 (ja) * 2005-12-27 2009-08-26 三菱電機株式会社 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置
US8682654B2 (en) * 2006-04-25 2014-03-25 Cyberlink Corp. Systems and methods for classifying sports video
JP4442585B2 (ja) * 2006-05-11 2010-03-31 三菱電機株式会社 楽曲区間検出方法、及びその装置、並びにデータ記録方法、及びその装置
US8923607B1 (en) 2010-12-08 2014-12-30 Google Inc. Learning sports highlights using event detection
US10134440B2 (en) * 2011-05-03 2018-11-20 Kodak Alaris Inc. Video summarization using audio and visual cues
US9477993B2 (en) * 2012-10-14 2016-10-25 Ari M Frank Training a predictor of emotional response based on explicit voting on content and eye tracking to verify attention
US10133538B2 (en) * 2015-03-27 2018-11-20 Sri International Semi-supervised speaker diarization
EP3096243A1 (en) * 2015-05-22 2016-11-23 Thomson Licensing Methods, systems and apparatus for automatic video query expansion
US10381022B1 (en) 2015-12-23 2019-08-13 Google Llc Audio classifier
US11755949B2 (en) 2017-08-10 2023-09-12 Allstate Insurance Company Multi-platform machine learning systems
US10878144B2 (en) 2017-08-10 2020-12-29 Allstate Insurance Company Multi-platform model processing and execution management engine
US11024291B2 (en) 2018-11-21 2021-06-01 Sri International Real-time class recognition for an audio stream

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6298351B1 (en) * 1997-04-11 2001-10-02 International Business Machines Corporation Modifying an unreliable training set for supervised classification
EP1049030A1 (en) * 1999-04-28 2000-11-02 SER Systeme AG Produkte und Anwendungen der Datenverarbeitung Classification method and apparatus
US6901362B1 (en) * 2000-04-19 2005-05-31 Microsoft Corporation Audio segmentation and classification
US6657117B2 (en) * 2000-07-14 2003-12-02 Microsoft Corporation System and methods for providing automatic classification of media entities according to tempo properties
US7295977B2 (en) * 2001-08-27 2007-11-13 Nec Laboratories America, Inc. Extracting classifying data in music from an audio bitstream
US20030225719A1 (en) * 2002-05-31 2003-12-04 Lucent Technologies, Inc. Methods and apparatus for fast and robust model training for object classification
US20040260550A1 (en) * 2003-06-20 2004-12-23 Burges Chris J.C. Audio processing system and method for classifying speakers in audio data
US20050125223A1 (en) * 2003-12-05 2005-06-09 Ajay Divakaran Audio-visual highlights detection using coupled hidden markov models
US7996219B2 (en) * 2005-03-21 2011-08-09 At&T Intellectual Property Ii, L.P. Apparatus and method for model adaptation for spoken language understanding

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103366738A (zh) * 2012-04-01 2013-10-23 佳能株式会社 生成声音分类器和检测异常声音的方法和设备及监视系统
CN103366738B (zh) * 2012-04-01 2016-08-03 佳能株式会社 生成声音分类器和检测异常声音的方法和设备及监视系统
CN105580071A (zh) * 2013-05-06 2016-05-11 谷歌技术控股有限责任公司 用于训练声音识别模型数据库的方法和装置
CN105580071B (zh) * 2013-05-06 2020-08-21 谷歌技术控股有限责任公司 用于训练声音识别模型数据库的方法和装置

Also Published As

Publication number Publication date
EP1789952A1 (en) 2007-05-30
US20060149693A1 (en) 2006-07-06
WO2006073032A1 (en) 2006-07-13
JP2008527397A (ja) 2008-07-24

Similar Documents

Publication Publication Date Title
CN101023467A (zh) 用于提炼音频分类器的训练数据集的方法和用于分类数据的方法
Long et al. Multimodal keyless attention fusion for video classification
Petkovic et al. Content-based video retrieval by integrating spatio-temporal and stochastic recognition of events
Merler et al. Automatic curation of sports highlights using multimodal excitement features
CN102427507B (zh) 一种基于事件模型的足球视频集锦自动合成方法
Tang et al. Detecting highlights in sports videos: Cricket as a test case
Xu et al. Audio keywords generation for sports video analysis
CN101268505B (zh) 用于对视频进行分类的方法和系统
CN102405495B (zh) 使用稀疏特征对信息检索进行音频分类
CN102073635B (zh) 节目端点时间检测装置和方法以及节目信息检索系统
Xiong et al. Semantic retrieval of video-review of research on video retrieval in meetings, movies and broadcast news, and sports
Baillie et al. Audio-based event detection for sports video
Mironică et al. A modified vector of locally aggregated descriptors approach for fast video classification
JP2008511186A (ja) フレームシーケンスを含むビデオにおけるハイライトセグメントを識別する方法
Ekenel et al. Content-based video genre classification using multiple cues
Lu et al. Video summarization by video structure analysis and graph optimization
Merler et al. Automatic curation of golf highlights using multimodal excitement features
CN101398826A (zh) 自动提取体育节目精彩片断的方法和设备
Vasudevan et al. Advances in sports video summarization–a review based on cricket videos
Elgamml et al. Semantic analysis in soccer videos using support vector machine
Ni et al. YouTubeEvent: On large-scale video event classification
Wang et al. An ICA mixture hidden conditional random field model for video event classification
Xiong Audio-visual sports highlights extraction using coupled hidden markov models
Zanganeh et al. Automatic weak learners selection for pattern recognition and its application in soccer goal recognition
Vasudevan et al. A systematic review on machine learning-based sports video summarization techniques

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20070822