JP4759745B2 - 映像分類装置、映像分類方法、映像分類プログラムおよびコンピュータ読取可能な記録媒体 - Google Patents

映像分類装置、映像分類方法、映像分類プログラムおよびコンピュータ読取可能な記録媒体 Download PDF

Info

Publication number
JP4759745B2
JP4759745B2 JP2006171830A JP2006171830A JP4759745B2 JP 4759745 B2 JP4759745 B2 JP 4759745B2 JP 2006171830 A JP2006171830 A JP 2006171830A JP 2006171830 A JP2006171830 A JP 2006171830A JP 4759745 B2 JP4759745 B2 JP 4759745B2
Authority
JP
Japan
Prior art keywords
video
shot
scene
shots
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006171830A
Other languages
English (en)
Other versions
JP2008005167A (ja
Inventor
美紀 長谷山
直己 二反田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hokkaido University NUC
Original Assignee
Hokkaido University NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hokkaido University NUC filed Critical Hokkaido University NUC
Priority to JP2006171830A priority Critical patent/JP4759745B2/ja
Publication of JP2008005167A publication Critical patent/JP2008005167A/ja
Application granted granted Critical
Publication of JP4759745B2 publication Critical patent/JP4759745B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)

Description

本発明は、映像信号をシーン毎に分類する映像分類装置、映像分類方法、映像分類プログラムおよびコンピュータ読取可能な記録媒体に関するものである。
近年、地上波デジタル放送や光ファイバーによる高速通信網を介した映像配信が開始され、また、Blu-ray DiskやHD DVD(High Definition Digital Versatile Disk)等の大容量の記録媒体が出現している。これらのことからも、ユーザが保持する映像コンテンツは急速に増加することが容易に予測される。このような状況において、蓄積された映像コンテンツの中から所望の映像を得るためのツールとして、映像信号の検索システムが必要となる。このような映像信号の検索システムを構築する場合、前処理として映像信号を分割し、内容を表すインデックスを付加する必要がある。
ここで、図13に示すように映像信号は一般に1台のカメラで連続的に撮影された区間であるショット、及び内容に関連のあるショットを統合したシーンにより構成される(例えば、非特許文献1参照)。そのため映像信号は、ショットあるいはシーンが切り換わる時刻を境界として分割することが望ましい。
以上のような背景のもと、映像信号より得られるビデオ信号を用いて隣接するショッ
ト間の境界(以降、ショットカットと呼ぶ)を検出する手法が提案されている(例えば、非特許文献2〜5参照)。これらの手法では、ショットカットの前後で画像の輝度値や動きベクトルが急激に変化するという特徴に基づき、ショットカットを検出する。
他方、隣接するシーン間の境界(以降、シーンカットと呼ぶ)は、ショットカットの一部として検出される。しかしながらショットカットとシーンカットとの両者において、輝度値や動きベクトルの変化の様子に明確な差異は存在せず、ビデオ信号を処理しただけではショットカットの中からシーンカットを検出することは困難となる。そこでシーンカットでは、ビデオ信号だけでなくオーディオ信号も同時に切り換わることに着眼し、ビデオ信号とオーディオ信号とを併せて使用することで、シーンカットを検出する手法が提案されている(例えば、非特許文献6〜10参照)。これらの手法では,オーディオ信号を音声や音楽等のクラスに分類し、分類されたクラスが切り換わる時刻とショットカットが一致した場合、その時刻をシーンカットであると判断する。
長谷山美紀,「ユーザが望む映像を提供するために−画像認識とクラスタリングそして意味理解への発展−」,映像情報メディア学会技術報告,vol.29, no.47, pp.49-52, 2005. S.J.F. Guimaraes et al., Video segmentation based on 2D image analysis, Pattern Recognition Letters, vol.24, no.7, pp.947-957, 2003. 鈴木賢一郎,中嶋正臣,坂野鋭,三部靖夫,大塚作一,「動き方向ヒストグラム特徴を用いた映像データからのカット点検出法」,情報通信学会論文誌(D-II),vol.J-86-D-II, no.4, pp.468-478, 2003. 中島康之,氏原清乃,米山暁夫,「部分復号を用いた MPEG データからのカット点検出」,情報通信学会論文誌(D-II),vol.J81-D-II, no.7, pp.1564-1575, 1998. 長坂晃朗,田中譲,「カラービデオ映像における自動索引付け法と物体探索法」,情報処理学会論文誌,vol.33, no.4, pp.543-550, 1992. T. Zhang and C.-C. J. Kuo, Audio content analysis for online audiovisual data segmentation and classification, IEEE Transactions on Speech and Audio Processing, vol.9, no.4, pp.441-457, 2001. R. Wang, Z. Liu, and J. Huang, Multimedia content analysis using both audio and visual clues, IEEE Signal Process Mag., vol.17, no.6, pp.12-36, 2000. Z. Liu and Y. Wang, Audio feature extraction and analysis for scene segmentation and classification, J. VLSI Signal Process., vol.20, pp.61-79, 1998. C. Saraceno and R. Leonardi, Audio as a support to scene change detection and characterization of video sequences, Proc. Int. Conf. Acoustics, Speech, and Signal Processing, vol.4, pp. 2597--2600, 1997. 中島康之,陸洋,菅野勝,柳原広昌,米山暁夫,「MPEG 符号化データからのオーディオインデキシング」,情報通信学会論文誌(D-II),vol.J83-D-II, no.5, pp.1361-1371, 2000. G.F. Hughes, On the mean accuracy of statistical pattern recognizers, IEEE Trans. Information Theory, vol.IT-14, no.1, pp.55--63, 1968.
しかしながら、従来のシーンカット検出手法は,隣接するシーンのオーディオ信号が,同一のクラスである場合、シーンカットの未検出が発生する危険性がある。このような状況は、例えばニュース番組において、男性があるニュースを読み上げ、その後別のニュースを読み上げる際に生じる。この場合、話題が変化しており、シーンカットが存在するが、どちらのオーディオ信号も音声のクラスに分類されるため、両者の境界はショットカットと判別され、その結果、シーンカットが得られないことになる。あるいは、例えば、男性が会話をしている場面から女性が話す場面に切り換わるとする。この場合、話者が男性から女性に変わる時刻にシーンカットが存在するが、どちらのオーディオ信号も音声のクラスに分類されるため、両者の境界はショットカットと判別され、その結果、シーンカットが得られないことになる。
これらのように従来の技術では、異なるシーンであるにも関わらず、映像処理を用いても、音響信号処理を用いても、どちらのオーディオ信号も音声のクラスに分類されるため、両者の境界はショットカットと判別され、その結果、シーンカットが得られない。しかしながら、ユーザにとっては、多数のショットカットよりもシーンカットが重要であり、従来の技術では、大容量メディアの到来を前に、魅力的な映像シーンの提供は不可能である。
そこで、本発明は、上記の問題点に鑑みてなされたものであり、その目的は、効果的なシーン間の境界を検出することのできる、映像分類装置、映像分類方法、映像分類プログラムおよびコンピュータ読取可能な記録媒体を実現することにある。また、本発明は、上記問題を解決する技術と、その技術により得られるシーンの効果的なユーザへの提示システムの実現を目的とする。
本願発明者等は、上記課題を解決するために、鋭意検討し、オーディオ信号から算出されたボリュームや零交差率等の特徴量に主成分分析(Principal Component Analysis:PCA)を適用することで、分類に有効である主成分を得、その後に、得られた主成分にファジィc−means法(Fuzzy c-Means:FCM)を適用し、その結果算出される帰属度を用いることで、処理対象であるオーディオ信号が音声や音楽等の各クラスに属する度合を定量化し、その値を用いてインデックスを付加した。さらに、オーディオインデキシング結果と、ビデオ信号より得られるショットカットを組み合わせ、隣接するショット間の類似度を定義した。これらのことにより、従来手法の問題を解決し、高精度なインデキシングを実現できることを見いだし、本発明を完成させるに至った。
本発明に係る映像分類装置は、上記課題を解決するために、映像信号に含まれるビデオ信号に基づきショット間の境界を検出して映像を各ショットに分割するショット分割手段と、分割されたショット毎に、ショット内のオーディオ信号について、音の種類で分類された各クラスにどの程度属しているかを示す帰属確率を算出し、この帰属確率を用いて隣接するショット間の類似度を判定するショット間類似度判定手段と、判定されたショット間類似度が所定値より高いショット同士は統合させ、上記映像を各シーンに分割するシーン分割手段と、を備えたことを特徴としている。
また、本発明に係る映像分類方法は、上記課題を解決するために、映像信号に含まれるビデオ信号に基づきショット間の境界を検出して映像を各ショットに分割するショット分割ステップと、分割されたショット毎に、ショット内のオーディオ信号について、音の種類で分類された各クラスにどの程度属しているかを示す帰属確率を算出し、この帰属確率を用いて隣接するショット間の類似度を判定するショット間類似度判定ステップと、判定されたショット間類似度が所定値より高いショット同士は統合させ上記映像を各シーンに分割するシーン分割ステップと、を含むことを特徴としている。
上記構成および方法によると、まず、映像信号に含まれるビデオ信号に基づきショット間の境界を検出して映像を各ショットに分割するショット分割する。そして、この分割されたショット毎に、ショット内のオーディオ信号について、音の種類で分類された各クラスにどの程度属しているかを示す帰属確率を算出する。そして、この帰属確率を用いて隣接するショット間の類似度を判定するショット間類似度判定し、ショット間類似度が所定値より高いショット同士は統合させて上記映像を各シーンに分割する。よって、オーディオ信号の帰属確率からショット間の類似の度合を算出するので、類似したショットをシーンとしてまとめることができ、その結果、効果的なシーン間の境界を検出することができる。なお、映像信号は、音響の信号であるオーディオ信号と、画像の信号であるビデオ信号とを含むものとする。
ここで、映像(映像信号)において同一の話者で、短時間の無音が存在する場合には、上記構成および方法、従来技術、共に、無音を検出することで、シーンカット(シーン間の境界)を得ることが可能である。また、映像において同一の話者で、短時間の無音が存在しない場合には、上記構成および方法、従来技術、共に、シーンカットの検出は困難となる。また、映像において複数の話者で、短時間の無音が存在する場合では、上記構成および方法、従来技術、共に、無音を検出することで、シーンカットを得ることが可能である。また、映像において複数の話者で、短時間の無音が存在しない場合では、上記構成および方法はシーンカットの検出が可能であるが、従来技術では検出が困難となる。ただし、実際に話題が変化しているにも関わらず、同一の話者で、短時間の無音が存在しない場合が発生することは稀であると考えられるので、本発明に係る上記構成および方法は、高精度なシーンの分割(シーンカットの検出)が可能であるということができる。
また、上記構成および方法によると、従来技術において雑多に用いられてきたパラメータ(特徴量)の中から、分類対象の映像がどのジャンル(ドラマ、音楽番組、ニュースなど)に含まれるかを与えれば、自動的に有効な特徴量を選択し、そのジャンルに適したインデキシングを実現することができる。
また、本発明に係る映像分類装置では、上記構成に加え、上記音の種類とは、無音、音声、音楽、音楽付き音声、雑音付き音声の5つの種類であってもよい。これら5種類は、日常によくある音の種類であり、これらのクラスにどの程度属しているかを示す帰属確率を求めるので、的確に映像(映像信号)についてシーン分割を行うことができる。もちろん、これ以上の種類、これら以外の種類に分けてもかまわない。
なお、本発明に係る映像分類装置では、上記ショット間類似度判定手段は、ショット内のオーディオ信号を分割した各クリップについて上記帰属確率を算出し、ショット内の各クリップの帰属確率の累積ヒストグラムを基に、隣接するショット間の類似度を判定する。
また、本発明に係る映像分類装置は、上記構成に加え、上記帰属確率の累積ヒストグラムのうち、最大の値のクラスを示す識別情報を処理対象のショットに付与するクラス識別情報付与手段を備えていてもよい。
上記構成によると、帰属確率の累積ヒストグラムのうち、最大の値のクラスを示す識別情報が処理対象のショットに付与される。そして、本発明に係る映像分類装置は、上記構成に加え、上記分割された各シーンに含まれるショットに付与された上記識別情報に基づき、各シーンを分類する音響ベース分類手段を備えていてもよい。
上記構成によると、分割された各シーンに含まれるショットに付与された上記識別情報に基づいて、各シーンを分類することができる。よって、各シーンを、音響に基づいて的確に分類することができる。
また、本発明に係る映像分類装置は、上記構成に加え、上記分割された各シーンを当該シーンに含まれる画像の特徴に基づき、各シーンを分類する画像ベース分類手段を備えていてもよい。
上記構成によると、分割された各シーンを当該シーンに含まれる画像の特徴に基づいて、各シーンが分類される。よって、ユーザが視認したときに確認が行いやすくなり、ユーザによって利便性の高い表示を行うことができる。
また、本発明に係る映像分類装置は、上記構成に加え、同一の映像信号源から得られる各シーンに、同一の識別情報を付与する映像源識別情報付与手段を備えていてもよい。
上記構成によると、同一の映像信号源から得られる各シーンには、同一の識別情報が付与される。よって、付与された識別情報毎にシーンが分類されるように、例えば同一の識別情報のシーンには同一の色の網がけを行って表示した場合に、ユーザは、どのシーンが同じ映像源からのものであるかを容易に確認することができる。
また、本発明に係る映像分類装置は、上記構成に加え、上記分類されたシーン毎にまとめて表示を行う表示手段を備えていてもよい。
上記構成によると、表示手段により、上記分類されたシーン毎にまとめて表示が行われる。よって、ユーザは、どのシーンがどのように分類されているのかを、容易に把握することができる。
また、本発明に係る映像分類装置では、上記構成に加え、上記表示手段は、分類されたシーンを類似したもの同士をかためて近距離に配置する表示と、類似したもの同士を列毎に配置する表示とで、切り替え可能に表示するようになっていてもよい。
上記構成によると、分類されたシーンを類似したもの同士をかためて近距離に配置する表示と、類似したもの同士を列毎に配置する表示とで、切り替え可能に表示することができるので、ユーザの好みに応じて切り替えることができる。ユーザは、分類されたシーンを類似したもの同士をかためて近距離に配置された表示では、類似性が高いことを直感的に把握することができる。ユーザは、類似したもの同士を列毎に配置する表示では、系統立てて把握することができる。
また、本発明に係る映像分類装置は、上記構成に加え、映像間の類似度を判定する映像間類似度判定手段を備えていてもよい。
上記構成によると、映像間(映像信号間)の類似度を判定することができ、映像(映像信号)の分類を的確に行うことができる。
ところで、上記映像分類装置は、ハードウェアで実現してもよいし、プログラムをコンピュータに実行させることによって実現してもよい。具体的には、本発明に係るプログラムは、上記いずれかの構成の映像分類装置の各手段としてコンピュータを動作させるプログラムであり、本発明に係るコンピュータ読み取り可能な記録媒体には、当該プログラムが記録されている。
このプログラムがコンピュータによって実行されると、当該コンピュータは、上記映像分類装置として動作する。したがって、上記映像分類装置と同様に、効果的なシーンカット検出しシーンを分類することができる。
なお、本発明は、従来技術の問題を解決する技術と、その技術により得られるシーンの効果的なユーザへの提示システムを含むものである。
本発明に係る映像分類装置は、以上のように、映像信号に含まれるビデオ信号に基づきショット間の境界を検出して映像を各ショットに分割するショット分割手段と、分割されたショット毎に、ショット内のオーディオ信号について、音の種類で分類された各クラスにどの程度属しているかを示す帰属確率を算出し、この帰属確率を用いて隣接するショット間の類似度を判定するショット間類似度判定手段と、判定されたショット間類似度が所定値より高いショット同士は統合させ、上記映像を各シーンに分割するシーン分割手段と、を備えている。
上記構成によると、オーディオ信号の帰属確率からショット間の類似の度合を算出するので、類似したショットをシーンとしてまとめることができ、その結果、効果的なシーン間の境界を検出することができる。
ここで、映像(映像信号)において同一の話者で、短時間の無音が存在する場合には、上記構成および方法、従来技術、共に、無音を検出することで、シーンカット(シーン間の境界)を得ることが可能である。また、映像において同一の話者で、短時間の無音が存在しない場合には、上記構成および方法、従来技術、共に、シーンカットの検出は困難となる。また、映像において複数の話者で、短時間の無音が存在する場合では、上記構成および方法、従来技術、共に、無音を検出することで、シーンカットを得ることが可能である。また、映像において複数の話者で、短時間の無音が存在しない場合では、上記構成および方法はシーンカットの検出が可能であるが、従来技術では検出が困難となる。ただし、実際に話題が変化しているにも関わらず、同一の話者で、短時間の無音が存在しない場合が発生することは稀であると考えられるので、本発明に係る上記構成および方法は、高精度なシーンの分割(シーンカットの検出)が可能であるということができる。
本発明の一実施形態について図1〜図11に基づいて説明すると以下の通りである。図1に示すように、本実施の形態の映像分類装置1は、ショット分割部(ショット分割手段)2、ショット間類似度判定部(ショット間類似度判定手段)3、シーン分割部(シーン分割手段)4、音響ベース分類部(音響ベース分類手段)6と画像ベース分類部(画像ベース分類手段)7とを備えたシーン分類部5、識別情報付与部(クラス識別情報付与手段、映像源識別情報付与手段)8、映像間類似度判定部(映像間類似度判手段)9、表示部(表示手段)10、入力部11を備えている。
ショット分割部2は、映像信号に含まれるビデオ信号に基づきショット間の境界を検出して映像を各ショットに分割する。ここで映像信号は、音響の信号であるオーディオ信号と、画像の信号であるビデオ(ビジュアル)信号とを含むものである。
ショット間類似度判定部3は、分割されたショット毎に、ショット内のオーディオ信号について、音の種類で分類された各クラスにどの程度属しているかを示す帰属確率を算出し、この帰属確率を用いて隣接するショット間の類似度を判定する。具体的には以下で説明するが、ショット内のオーディオ信号を分割した各クリップについて、音の種類で分類された各クラスにどの程度属しているかを示す帰属確率(後段で説明する)を算出し、ショット内の各クリップの帰属確率の累積ヒストグラムを基に、隣接するショット間の類似度を判定する。なお、上記音の種類とは、本実施形態では、無音、音声、音楽、音楽付き音声、雑音付き音声の5つの種類とするが、これ以外であってもよい。
シーン分割部4は、判定されたショット間類似度が所定値より高いショット同士は統合させ、上記映像を各シーンに分割する。
シーン分類部5は、分割されたシーンを分類するものであり、音響ベース分類部6と画像ベース分類部7とを備えている。音響ベース分類部6は、分割された各シーンに含まれるショットに付与された下記識別情報に基づき、各シーンを分類する。画像ベース分類部7は、分割された各シーンを当該シーンに含まれる画像の特徴に基づき、各シーンを分類する。
識別情報付与部8は、上記帰属確率の累積ヒストグラムのうち、最大の値のクラスを示す識別情報を処理対象のショットに付与する。また、同一の映像信号源から得られる各シーンに、同一の識別情報を付与する。本実施形態では、クラス識別情報の付与と映像源識別情報の付与とを識別情報付与部8が両方行うものとするが、別々に行うものが設けられていてもよい。
映像間類似度判定部9は、後段で詳しく説明するが映像間の類似度を判定する。
表示部10は、ユーザにユーザインターフェイスを提供するものであり、各種画像や各種操作ボタン等の表示を行う。表示部10は、例えば、液晶表示素子等のフラットパネルディスプレイやCRTなどのから構成されている。表示部10は、分類されたシーンを表示する際、シーン毎にまとめて表示を行う。また、分類されたシーンを類似したもの同士をかためて近距離に配置する表示と、類似したもの同士を列毎に配置する表示とで、切り替え可能に表示する。
入力部11は、映像分類装置1に対する操作をユーザが行うための指示信号を入力する入力デバイスである。例えば、テンキーや十字キーなどが設けられたリモコンや、キーボードなどの入力デバイスとして構成してもよいし、表示部10と一体としたタッチパネルとして実現してもよい。後者の場合、表示部10に、操作ボタンなどのGUI画面を表示し、ユーザの指(または、タッチペンなどのポインティングデバイス)により押下されることにより、その位置に対応するボタンが示す指示信号が、映像分類装置1内部に入力される。
以下に本実施形態の映像分類装置1における処理について詳細に説明する。以下では、帰属確率を求める処理、映像を各ショットに分割する処理、分割された各ショットに含まれるクリップの帰属確率を基にショット間類似度を判定し映像をシーンに分割する処理(オーディオビジュアルインデキシング)、分割されたシーンを分類する処理、映像間の類似度を判定する処理、の順に説明する。
(PCAとFCMとを用いたオーディオインデキシング)
ここでは、PCAとFCMとを用いて、オーディオ信号が以下の(1)〜(5)に定義する5種類のクラスに属する程度(以降、帰属確率と呼ぶ)を算出する。
(1)無音(Silence:Si):準静的な背景音のみを含むオーディオ信号
(2)音声(Speech:Sp):会話等の音声を含むオーディオ信号
(3)音楽(Music:Mu):楽器の演奏等の音を含むオーディオ信号
(4)音楽付き音声(Speech with Music:SpMu):背景に音楽が存在する環境下での音声を含むオーディオ信号
(5)雑音付き音声(Speech with Noise:SpNo):背景に雑音が存在する環境下での音声を含むオーディオ信号
各クラスへの帰属確率は、図2に示すCLS#1からCLS#4の4つの分類処理を施し、それらの分類結果を用いて算出される。ここで、CLS#1からCLS#4までの各分類処理は、全て同一の手順であり、処理対象信号及び2種類の参照信号に対し、「特徴量の算出」、「PCAの適用」、及び「FCMの適用」の3つの処理を行う。ただし、表1に示すように、参照信号は分類処理の目的に応じてSi,Sp,Mu,SpMu,SpNoのいずれか(あるいは複数)のオーディオ信号を含む。
Figure 0004759745
以下では、各特徴量の算出、PCAの適用、FCMの適用について説明し、その後CLS#1〜#4の分類結果を用いた帰属確率の算出法について説明する。
(特徴量の算出)
まず、処理対象であるオーディオ信号、及び表1に示した2種類の参照信号から、特徴量を算出する。ここで、特徴量は、フレーム(フレーム長:W)とクリップ(クリップ長:W)と呼ばれる、大きさの異なる2種類の分析窓を用いて算出される。ただし、図3に示すように、フレームの大きさは、クリップに比べて、十分に小さいものとする。また、フレーム及びクリップの移動幅Δは、W>Δを満たすものとする。図3の点線で示しているように、クリップ1には、フレーム1,2,3,…,Nが含まれる。また、図には記載されていませんが、フレーム及びクリップは移動幅Δ(=フレーム長の半分)で移動することから、クリップ2にはフレーム2,3,4,…,N+1が、クリップ3にはフレーム3,4,5,…,N+2が含まれることとなる。通常、フレームやクリップは、隣接するフレーム/クリップが重なるように移動させる。これは、隣接するフレームが重なりを許すことで、ハニング窓やハミング窓等の窓関数を用いて切り出された信号を、元の信号に復元できることに起因している。多くの場合、この窓の移動幅は窓長の1/2が使用されるため、本実施形態でもフレーム長の半分に設定している。しかし、これに限定されることはない。
以下では、フレーム単位で算出する特徴量、及びクリップ単位で算出する特徴量について説明する。
初めに、フレーム単位で算出される特徴量について説明する。フレーム単位で算出される特徴量は、以下に示す9種類である。
・ボリューム:n番目のフレームにおけるボリュームVO(n)を次式で定義する。
Figure 0004759745
ただし、s(i)はn番目のフレームにおけるi番目のサンプルを表す。
・零交差率:n番目のフレームにおける零交差率ZC(n)を次式で定義する。
Figure 0004759745
ただし、sing{・}は、以下で定義される関数である。
Figure 0004759745
・ピッチ:n番目のフレームにおけるピッチをPT(n)で表す。ピッチの推定方法について、従来より様々な手法が提案されているので何れかを採用すればよいが、本実施形態では、非特許文献8で提案されている推定手法を採用する。この手法は、以下の式(4)で定義される Average Magnitude Difference Function (AMDF) γを算出し、γ(l)の極小値のうち、最もlの小さな値を検出することで、ピッチの推定を実現する。
Figure 0004759745
ただし、非特許文献8では、音声のピッチのみを得るため、音声のピッチが存在する周波数帯(40−450Hz)のみを処理対象とし、上記周波数帯にピッチが存在しない場合は、PT(n)=0とする。
・周波数中心位置:n番目のフレームにおける周波数中心位置FC(n)を次式で定義する。
Figure 0004759745
ただし、S(ω)は、n番目のフレームにおける短時間フーリエ変換を表す。
・周波数帯域幅:n番目のフレームにおける周波数帯域幅FB(n)を次式で定義する。
Figure 0004759745
・サブバンドエネルギー比率:非特許文献8に記載されている4種類の周波数帯(0−630Hz、630−1720Hz、1720−4400Hz、4400−11025Hz)における、全周波数帯に対するエネルギーの割合をサブバンドエネルギー比率と定義し、それぞれSER(n)、SER(n)、SER(n)、SER(n)で表す。
次に、クリップ単位で算出される特徴量について説明する。クリップ単位の特徴量としては、以下に示す非無音率、及び零比率を使用する。
・非無音率:クリップ内において、無音であるフレームを1、無音以外であるフレームを0としたときの、0の割合を非無音率と定義する。ただし、閾値Thvoを設定し、次の式(7)を満たすフレームを無音と判断する。
Figure 0004759745
・零比率:同一の周波数帯に一定時間連続してパワースペクトルの極大値が存在する場合を1、それ以外を0とし、クリップ内の0の割合を零比率と定義する(非特許文献6参照)。
さらに、上記で得たフレーム単位の特徴量の、クリップ内での平均値、及び標準偏差を算出し、それらをクリップ単位の特徴量とする。
(PCAの適用)
次に、処理対象信号のクリップから算出された特徴量、及び2種類の参照信号から算出されたクリップ単位の特徴量(参照信号のクリップ数は共にNとする)を正規化し、PCAを施す。PCAを施すことで、相関の高い特徴量間の影響を軽減することが可能となる。また、PCAより得られた主成分のうち、その固有値が1以上であるものを下記で説明するFCMに使用することで、計算量の増加やヒューズの現象(有限個の学習パターンあら識別器を設計する際、特徴空間の次元を高くすると識別性能が低下する現象)(非特許文献11参照)を回避することが可能となる。
(FCMの適用)
次に、上記PCAの適用で得られたで主成分に対し、FCMを施す。
まず、処理対象信号(k=1)、参照信号1(k=2,…,N+1)、参照信号2(k=N+2,…,2N+1)の各クリップから得られた特徴量を用いて、特徴ベクトルfを次式で定義する。
Figure 0004759745
ただし、p は、クリップk(1:処理対象信号,2〜N+1:参照信号1,N+2〜2N+1:参照信号2)の第i主成分(i=1,…,M;Mは固有値が1以上の主成分の総数)を表す。また、Tは転置を表す。これら2N+1個の特徴ベクトルを2つのクラスタに分類するFCMを適用し、得られる帰属度μik(i=1,2;k=1,…,2N+1)を観察することで、処理対象信号が参照信号1、参照信号2のどちらに類似した信号であるかを判別することが可能となる。ただし、iはクラスタ番号(i=1,2)、kはクリップの番号(k=1,…,2N+1)を表す。
この帰属度μikは、クリップkがクラスタiに属する度合を[0,1]の実数で表す。しかしながら、参照信号1(あるいは参照信号2)のクリップがどちらのクラスタに属するかは分からず、処理対象信号の帰属度μil(i=1,2)を観察しただけでは、処理対象信号がどちらの参照信号と同一のクラスタに属しているかを知ることはできない。
そこで、帰属度μikを用いて、μ を以下のように設定する。
Figure 0004759745
Figure 0004759745
ただし、c(c=1,…,4)はCLS#1からCLS#4の分類処理の番号を表す。
Figure 0004759745
また、上記数式(10)における、上記[数10B]は、参照信号1のクリップにおけるクラスタi(i=1,2)への帰属度の平均値であり、次式より算出される。
Figure 0004759745
このようにμ を定義することで、処理対象信号が参照信号1及び参照信号2と同一のクラスタに属する帰属度が、それぞれμ 及びμ で表されることとなる。
(帰属確率の算出)
CLS#1からCLS#4の各分類処理において、上記で説明した特徴量の算出、PCAの適用、FCMの適用の処理を行い、得られたμ (i=1,2;c=1,…,4)を用いて、帰属確率を算出する。各クラス(Si,Sp,Mu,SpMu,SpNo)への帰属確率(PSi,PSp,PMu,PSpMu,PSpNo)は、以下で定義される。
Figure 0004759745
Figure 0004759745
Figure 0004759745
Figure 0004759745
Figure 0004759745
上式は、CLS#1からCLS#4の各分類結果において、μ (i=1,2)を、参照信号1、2と同一のクラスタに分類される確率とみなし、それらを積算することで、Si,Sp,Mu,SpMu,SpNoの各クラスに属する確率を算出することを表す。従って、クリップごとに算出される帰属確率PSi,PSp,PMu,PSpMu,PSpNoから、そのクリップがどのクラスにどの程度属しているか知ることが可能となる。また、帰属確率の変動を観察することにより、処理対象であるオーディオ信号がどのように変化するかを知ることも可能となる。
(オーディオビジュアルインデキシング)
上記で説明したオーディオ信号に基づく分類と、ビデオ信号から得られるショットカットを用いた、オーディオビジュアルインデキシング(分類)について説明する。本実施形態では、代表的なショットカット検出法である分割χ検定法(非特許文献5参照)を用いてショットカットを検出し、得られたショットカットと、上記で得られたオーディオ信号のインデキシング結果を組み合わせることで、オーディオビジュアルインデキシングを実現する。そこで、以下で分割χ検定法によるショットカット検出、及びオーディオビジュアルインデキシングについて説明する。
本実施形態では、非文献特許文献5で提案されている分割χ検定法を用いて、ショットカットを得る。この処理はショット分割部2が行う。しかし、ショットカットを得る手法としては、これに限定はされない。なお、ショットカットの精度を向上させるために、フェードやディゾルブ等の特殊効果も検出可能な手法を導入するのがよい。
分割χ検定法は、まずフレームを4×4=16個の同じ大きさの矩形領域に分割し、各領域毎に64色種の色ヒストグラムHv(f,r,i)を作成する。ただし、fはビデオ信号のフレーム番号、rは領域番号、iはヒストグラムのビンを表す。隣接する2枚のフレームの色ヒストグラムから、次式で定義される評価値Cr(r=1,…,16)を算出する。
Figure 0004759745
さらに、算出された16個の評価値Cr(r=1,…,16)において、Crの中で値の小さい8つの総和Csumを算出し、Csumが予め設定した以下の[数17B]に示す閾値よりも大きな値を示す時刻に、ショットカットが存在すると判断する。以上の処理はショット分割部2が行う。
Figure 0004759745
次に、ショット間の類似度を用いたオーディオビジュアルインデキシングについて説明する。この処理はショット間類似度判定部3が行う。上記したオーディオインデキシングは、クリップごとに5種類のクラスへの帰属確率を算出する。そこで、ショット分割部2により得られたショットカットを併せて用いることで、ショット単位でのインデキシングを行う。なお、1つのショットが長時間のものであれば、このショットに含まれるクリップ数も多数になる。
まず、単一のショット内における帰属確率の累積ヒストグラムHA(η,φ)を作成する。ただし、ηはショット番号、φは累積ヒストグラムのビン、すなわちSi(φ=0),Sp(φ=1),Mu(φ=2),SpMu(φ=3),SpNo(φ=4)を表す。また、累積ヒストグラムの各ビンは、そのショット内におけるクリップの総数で除することにより、正規化されている。この累積ヒストグラムにおいて、最大値を持つビンのクラスを、そのショットのインデックスとする。
各ショットで累積ヒストグラムを定義することで、ショット間の距離を定義することが可能となる。すなわち、ショット間の距離D(η,η)を次式で定義する。
Figure 0004759745
この距離D(η,η)が予め設定した閾値Thよりも高い値を示す場合、ショット間の類似度は低く、両者は異なるシーンに属すると判断する。逆に、距離D(η,η)が閾値Thよりも低い値を示す場合、ショット間の類似度は高く、両者は同一のシーンに属すると判断する。同一のシーンに属すると判断した両者を統合するよう、統合処理を行うことで、シーンを得ることが可能となる。言い換えれば、映像信号をシーン毎に分割する。この処理はシーン分割部4が行う。これにより、従来にはない、ショット間の類似度を考慮したシーンカット検出が可能となり、従来技術の問題点を解決することが可能となる。
このように、本実施の形態の映像分類装置1では、隣接するショット間の類似度を定義するため、従来技術の問題を解決し、高精度なオーディオビジュアルインデキシングが可能となる。
(音響信号に基づくシーン分類)
以上のような処理を行うことで、映像信号はシーン単位に分割される。各シーンに無音、音声、音楽、音楽付き音声、雑音付き音声のインデックスが付加されると、付加されたインデックスに基づき、図4の右側に示すような音響に基づくシーン分類が可能となる。ここでの処理は、識別情報付与部8、音響ベースシーン分類部6、表示部10が主に行う。また、入力部11からの指示により行われてもよい。
(画像信号に基づくシーン分類)
次に、上記音響(オーディオ)に基づくシーン分類で得られたシーンを、画像(ビジュアル)の特徴に基づき分類する。ここでの処理は画像ベースシーン分類部7および表示部10が行う。また、入力部11からの指示により行われてもよい。分類には、画像から算出されるヒストグラム(色ヒストグラム)を利用する。ただし、ヒストグラムの各ビンは画素数によって正規化されており、画像サイズによる影響はないものとする。
ここでは、図5に示す2種類のヒストグラムを使用する。一方は、フレーム全体を用いて算出される画像ヒストグラムである。これは、画像全体の特徴を捉えたヒストグラムとなっており、画像の回転に対して頑健である。他方は、フレームを複数のブロックに分割し、各ブロックで算出された複数のヒストグラムである。ブロックに分割することで、フレーム中に存在するオブジェクトの位置等、画像の構造を考慮することが可能となる。
ここで、画像全体から1つのヒストグラムを作成した場合は、使用されている色の割合が等しいため、例えば、青白赤の帯が縦に並んだ(フランス国旗)画面と、赤白青の帯が横に並んだ(オランダ国旗)画面とを区別することはできない。他方、画像を複数の領域に分割し、同じ位置の領域から算出されたヒストグラムを比較すると、2つは異なる画像であると判断することが可能となる。画像を回転させた場合(番組制作側の映像効果の1つとして想定される)も、上記に例示した2種の国旗の画像のような状況が発生する。これらを区別したくない場合、上記の、フレーム全体を用いて算出される画像ヒストグラムを区別したい場合には、フレームを複数のブロックに分割し、各ブロックで算出された複数のヒストグラムを選択すればよいことになる。本実施の形態の映像分類装置1では、この選択をユーザが設定できるものとする。
また、オブジェクトの位置を考慮する理由として、次のようなケースが考えられる。白い背景に1台の青い自動車が表示されている2つの画像があり、この2つの画像は自動車(オブジェクト)の位置だけが異なるものとする。これらを異なる画像として区別したい場合は、オブジェクトの位置を考慮する必要がある。このようなケースでは、上記の後者(他方)の場合のように、画像(フレーム)を複数の領域分割し、同じ位置にある領域から得られたヒストグラムを考慮しなければならない。逆に、どちらも同じ自動車であることから、両者を区別したくない場合は、オブジェクトの位置を考慮しないようにしなければなならい。このようなケースでは、上記の前者(一方)の場合のように、画像(フレーム)全体から得た色ヒストグラムを使用する必要がある。
なお、映像信号は連続しているため、1つのシーンから複数の色ヒストグラムが得られることになる。そのため、映像信号の分割/インデキシング(可視化)に用いる特徴量として、各フレームの色ヒストグラムを全て使用する、シーン内における平均ヒストグラムを算出し使用する等、複数の方法が考えられる。また、色ヒストグラム以外のものを用いて、シーンを分類してもかまわない。
図5に示す2つのうち、どちらのヒストグラムも、シーン内での平均を算出し、その結果得られる各ビンの値を要素とするベクトルを、そのシーンにおける特徴ベクトルとする。なお、画像(フレーム)を分割した各領域から得られる色ヒストグラム群を使用する場合は、上記特徴ベクトルは、ビンの値を次々と連結する方法で得られる。
ただし、シーンは、単一のショットで構成される場合と、複数のショットで構成される場合がある。後者の場合は、図6に示すように、各ショット内で特徴ベクトルを生成し、それらを個別に使用する。
得られた特徴ベクトルに対して、k−means法を適用することで、画像の特徴が類似したシーン群を得ることができる。これにより、図4左側に示す画像に基づくシーン分類が可能となる。図4左側に示すように、類似した特長ベクトルを有する映像群は近い距離(あるいは、同じクラスタ)に、大きく異なる特徴ベクトルを有する映像群は遠い距離(あるいは、異なるクラスタ)に配置して表示することで、ユーザが映像を検索・選択する労力を軽減することが可能となる。なお、特徴ベクトルの分類の代表的なものとして上記のようにk−means法を挙げたが、k−means法以外の方法で画像の特徴が類似したシーン群を得てもよい。k−means法は、特徴ベクトル間のユークリッド距離を算出し、この距離が近いものを1つのクラスタとして分類するものである。「クラスタ」とは、互いが類似した映像であると判断され、1つに分類された塊を指すものとする。
また、各クラスタの距離を可視化することにより、図7右側に示すように、類似した映像は1つの塊のように近い位置に配置され、異なる映像は遠い位置に配置されるように、表示させることも可能となる。各クラスタの距離を可視化するとは、クラスタの中心間の距離を算出し、距離が短いクラスタを近い位置に、距離が遠いクラスタを遠い位置に配置することで、どの映像が類似しているかを直感的に理解できるように、2次元平面上に可視化することを意味している。なお、図7左側は、入力された画像を示している。
(複数の映像信号に対する分類)
次に、複数の映像信号に対し、それぞれ上記で説明したシーン分類を行う。ここでの処理は、識別情報府呼部8、画像ベースシーン分類部7、表示部10が行う。また、入力部11からの指示により行われてもよい。
この場合、各シーンに映像信号のソースを示すIDを付与することで、異なる映像信号間においても、類似したシーンが同一のクラスタに属する様子を可視化することが可能となる。分類の様子は、上記したものと同様に、例えば、図8に示すようにユーザが所望するシーンを目的別に選択する方法と、例えば図9に示すようにシーン間の距離を可視化する方法とがある。これは、図8および9に示す例では、点でハッチングされた入力映像1における各シーンには同じIDが付され、斜線でハッチングされた入力映像2における各シーンには同じID(ただし点でハッチングされた入力画像1のIDとは異なる)が付されていることを示している。なお、これらは単なる例示であり、ユーザ入力により、異なる映像信号間の分類の可視化を行えるようになっていてもよい。例えば、ユーザが入力を行うためのボタン等を用意しておき、ボタンを押して、チェックを入れると、同一のソースの映像に、同色の網掛けが施されたり、チェックを外すと網掛けも外れるように表示されるようになっていてもかまわない。
(複数の映像信号間の類似度の測定)
また、上記のように得られた分類結果に基づき、映像信号間の類似度を測定してもよい。ここでの処理は、映像間類似度判定部9、表示部10が主に行う。また、入力部11からの指示により行われてもよい。
この場合、まず、図10に示すように、各シーンが分類されるクラスタの帰属度を時系列に並べる。このとき、例えばニュース番組であれば、オープニングミュージック→アンカーショット→レポート→アンカーショット→…のように、番組の構成がある程度定められている。この番組の構成は、図10に示すように、各クラスタへの帰属度として表現される。従って、この番組の構成を比較することで、異なる映像信号間の類似度を定義することが可能となる。具体的な処理としては、各クラスタにIDを割り当て、異なる映像信号間のIDに対し、DPマッチングを適用することで、図11のように類似度を得ることができる。図11は、単一ショットで構成されたシーンの画像ヒストグラムである。ここでは、DPマッチングを適用しているが、自己組織化マップや、上述のk−means法を利用しても構わない。
最後に、映像分類装置1の各ブロックは、ハードウェアロジックによって構成してもよいし、次のようにCPUを用いてソフトウェアによって実現してもよい。
すなわち、映像分類装置1は、各機能を実現する制御プログラムの命令を実行するCPU(central processing unit)、上記プログラムを格納したROM(read only memory)、上記プログラムを展開するRAM(random access memory)、上記プログラムおよび各種データを格納するメモリ等の記憶装置(記録媒体)などを備えている。そして、本発明の目的は、上述した機能を実現するソフトウェアである映像分類装置1の制御プログラムのプログラムコード(実行形式プログラム、中間コードプログラム、ソースプログラム)をコンピュータで読み取り可能に記録した記録媒体を、上記映像分類装置1に供給し、そのコンピュータ(またはCPUやMPU)が記録媒体に記録されているプログラムコードを読み出し実行することによっても、達成可能である。
上記記録媒体としては、例えば、磁気テープやカセットテープ等のテープ系、フロッピー(登録商標)ディスク/ハードディスク等の磁気ディスクやCD−ROM/MO/MD/DVD/CD−R等の光ディスクを含むディスク系、ICカード(メモリカードを含む)/光カード等のカード系、あるいはマスクROM/EPROM/EEPROM/フラッシュROM等の半導体メモリ系などを用いることができる。
また、映像分類装置1を通信ネットワークと接続可能に構成し、上記プログラムコードを通信ネットワークを介して供給してもよい。この通信ネットワークとしては、特に限定されず、例えば、インターネット、イントラネット、エキストラネット、LAN、ISDN、VAN、CATV通信網、仮想専用網(virtual private network)、電話回線網、移動体通信網、衛星通信網等が利用可能である。また、通信ネットワークを構成する伝送媒体としては、特に限定されず、例えば、IEEE1394、USB、電力線搬送、ケーブルTV回線、電話線、ADSL回線等の有線でも、IrDAやリモコンのような赤外線、Bluetooth(登録商標)、802.11無線、HDR、携帯電話網、衛星回線、地上波デジタル網等の無線でも利用可能である。なお、本発明は、上記プログラムコードが電子的な伝送で具現化された、搬送波に埋め込まれたコンピュータデータ信号の形態でも実現され得る。
〔実施例〕
上記実施の形態で説明した映像分類装置を用いて、映像信号の分類を行った。本実施例では、テレビのニュース番組から得た2種類の映像信号(320×240pixel、30fps、44100Hz、20sec)を使用した。また、本実施例で用いたパラメータは、表2に示す値を用いた。
Figure 0004759745
上記実施の形態で説明した映像分類装置では、ピッチや周波数中心位置等の特徴量を使用するため、これらの特徴量の算出には、スペクトル解析が必要であり、通常50ms程度の分析窓が使用される。また、計算機上でスペクトル解析を行う場合、通常高速フーリエ変換(FFT)を使用するが、このとき分析窓の窓長を2のべき乗に設定する必要がある。そこで、本実施では、フレーム長を2048サンプル(サンプリング周波数が44.1kHzなので、およそ46msとなる)とした。また、クリップ長は、フレームを整数個含み、かつ約1秒となるように設定した。
各映像信号に対する分類の結果を図12(a),(b)に示す。ただし、図は上から映像コンテンツ、ビデオ信号、オーディオ波形、分割χ検定法によるショットカット検出結果、オーディオインデキシング結果、各ショットにおける累積ヒストグラム、ショット間の距離、最終的なインデキシング結果を表している。実施例1(図12(a))で用いた映像信号は、前半に番組のオープニングミュージックが、後半にアナウンサーの音声が存在する構成となっており、両者の境界である9.9秒にシーンカットが存在する。図12(a)からわかるように、ショットカットは正しく検出され、いずれのショットも正しいクラスに分類されていることが確認できる。また、ショット間の距離D(η,η)は0.95と高い値を示しており、両者は異なるシーンに属していることが確認できる。
また、実施例2(図12(b))で用いた映像信号は、前半に男性アナウンサーの音声が、後半に女性アナウンサーの音声が存在する構成となっており、両者の境界である9.6秒にシーンカットが存在する。図12(b)からわかるように、この映像信号は3つのショットに分割され、いずれのショットも音声のクラスに分類されていることが確認できる。
一方、累積ヒストグラムより、ショット#1とショット#2間の距離D(η,η)は0.21であるのに対し、ショット#2とショット#3間の距離D(η,η)は0.03であり、シーンカットはショット#1とショット#2との境界に存在することが分かる。
ここで、ショット#3では女性アナウンサーの音声が存在している。ショット#2からショット#3にかけて、女性アナウンサーの音声は連続して存在している(=話題の変化がない)。図12(b)に示すように、ショット#2とショット#3は同一のシーンと判断していることから、上記実施形態の映像分類装置はシーンカットを正しく検出していることが分かる。
以上のことから、上記実施形態の映像分類装置では、効果的にシーンを分類することができることがわかる。
なお、映像(映像信号)において同一の話者で、短時間の無音が存在する場合には、上記実施形態の映像分類装置、従来技術、共に、無音を検出することで、シーンカットを得ることが可能である。また、映像において同一の話者で、短時間の無音が存在しない場合には、上記実施形態の映像分類装置、従来技術、共に、シーンカットの検出は困難となる。また、映像において複数の話者で、短時間の無音が存在する場合では、上記実施形態の映像分類装置、従来技術、共に、無音を検出することで、シーンカットを得ることが可能である。また、映像において複数の話者で、短時間の無音が存在しない場合では、上記実施形態の映像分類装置はシーンカットの検出が可能であるが、従来技術では検出が困難となる。ただし、実際に話題が変化しているにも関わらず、同一の話者で、短時間の無音が存在しない場合が発生することは稀であると考えられるので、上記実施形態の映像分類装置は、高精度なシーンカット検出が可能であると言える。なお、商品として魅力的なユーザインターフェイスがあると好ましい。
本発明は上述した実施形態および実施例に限定されるものではなく、請求項に示した範囲で種々の変更が可能である。すなわち、請求項に示した範囲で適宜変更した技術的手段を組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
本発明によると、映像を画像の類似度に基づいてクラスタリングすることができるので、デジタル画像の中から所望のシーンを選択するユーティリティソフトおよび、各シーンの提示装置の実現に利用することができる。
本発明の実施形態を示すものであり、映像分類装置の要部構成を示すブロック図である。 オーディオインデキシングの処理の概要を示す図である。 オーディオ信号をフレーム及びクリップへ分解することを示す図である。 シーンを分類した図である。 単一のショットで構成されたシーンの画像ヒストグラムを表す図である。 複数のショットで構成されたシーンの画像ヒストグラムを表す図である。 クラスタの距離を可視化してシーンを分類した図である。 シーンを目的別に分類した図である。 シーン間の距離を可視化した図である。 各シーンが分類されるクラスタの帰属度を時系列に並べらべた図である。 単一ショットで構成されたシーン画像のヒストグラムを表す図である。 (a)は一実施例の結果を示す図であり、(b)他の実施例の結果を示す図である。 映像信号の階層構造を示す図である。
符号の説明
1 映像分類装置
2 ショット分割部(ショット分割手段)
3 ショット間類似度判定部(ショット間類似度判定手段)
4 シーン分割部(シーン分割手段)
5 シーン分類部
6 音響ベース分類部(音響ベース分類手段)
7 画像ベース分類部(画像ベース分類手段)
8 識別情報付与部(クラス識別情報付与手段、映像源識別情報付与手段)
9 映像間類似度判定部(映像間類似度判手段)
10 表示部(表示手段)
11 入力部

Claims (11)

  1. 映像信号に含まれるビデオ信号に基づきショット間の境界を検出して映像を各ショットに分割するショット分割手段と、
    分割されたショット毎に、ショット内のオーディオ信号について、音の種類で分類された各クラスにどの程度属しているかを示す帰属確率を算出し、この帰属確率を用いて隣接するショット間の類似度を判定するショット間類似度判定手段と、
    判定されたショット間類似度が所定値より高いショット同士は統合させ、上記映像を各シーンに分割するシーン分割手段と、
    を備え
    上記ショット間類似度判定手段は、ショット内のオーディオ信号を分割した各クリップについて上記帰属確率を算出し、ショット内の各クリップの上記帰属確率の累積ヒストグラムを基に、隣接するショット間の類似度を判定するものであり、
    さらに、ショット内の各クリップの上記帰属確率の累積ヒストグラムのうち、最大の値を取るビンが属する上記クラスを示す識別情報を、処理対象のショットに付与するクラス識別情報付与手段を備えたことを特徴とする映像分類装置。
  2. 上記音の種類とは、無音、音声、音楽、音楽付き音声、雑音付き音声の5つの種類であることを特徴とする請求項1に記載の映像分類装置。
  3. 上記分割された各シーンに含まれるショットに付与された上記識別情報に基づき、各シーンを分類する音響ベース分類手段を備えたことを特徴とする請求項1または2に記載の映像分類装置。
  4. 上記分割された各シーンを当該シーンに含まれる画像の特徴に基づき、各シーンを分類する画像ベース分類手段を備えたことを特徴とする請求項1〜の何れか1項に記載の映像分類装置。
  5. 同一の映像信号源から得られる各シーンに、同一の識別情報を付与する映像源識別情報付与手段を備えたことを特徴とする請求項またはに記載の映像分類装置。
  6. 分類されたシーン毎にまとめて表示を行う表示手段を備えたことを特徴とする請求項の何れか1項に記載の映像分類装置。
  7. 上記表示手段は、分類されたシーンを類似したもの同士をかためて近距離に配置する表示と、類似したもの同士を列毎に配置する表示とで、切り替え可能に表示することを特徴とする請求項に記載の映像分類装置。
  8. 映像間の類似度を判定する映像間類似度判定手段を備えたことを特徴とする請求項に記載の映像分類装置。
  9. 映像信号に含まれるビデオ信号に基づきショット間の境界を検出して映像を各ショットに分割するショット分割ステップと、
    分割されたショット毎に、ショット内のオーディオ信号について、音の種類で分類された各クラスにどの程度属しているかを示す帰属確率を算出し、この帰属確率を用いて隣接するショット間の類似度を判定するショット間類似度判定ステップと、
    判定されたショット間類似度が所定値より高いショット同士は統合させ、上記映像を各
    シーンに分割するシーン分割ステップと、
    を含み、
    上記ショット間類似度判定ステップでは、ショット内のオーディオ信号を分割した各クリップについて上記帰属確率を算出し、ショット内の各クリップの上記帰属確率の累積ヒストグラムを基に、隣接するショット間の類似度を判定し、
    さらに、上記帰属確率の累積ヒストグラムのうち、最大の値を取るビンが属する上記クラスを示す識別情報を、処理対象のショットに付与するクラス識別情報付与ステップを含むことを特徴とする映像分類方法。
  10. 請求項1〜の何れか1項に記載の映像分類装置を動作させるための制御プログラムであって、コンピュータを上記映像分類装置における各手段として機能させるための映像分類プログラム。
  11. 請求項1に記載の映像分類プログラムが記録されているコンピュータ読み取り可能な記録媒体。
JP2006171830A 2006-06-21 2006-06-21 映像分類装置、映像分類方法、映像分類プログラムおよびコンピュータ読取可能な記録媒体 Active JP4759745B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006171830A JP4759745B2 (ja) 2006-06-21 2006-06-21 映像分類装置、映像分類方法、映像分類プログラムおよびコンピュータ読取可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006171830A JP4759745B2 (ja) 2006-06-21 2006-06-21 映像分類装置、映像分類方法、映像分類プログラムおよびコンピュータ読取可能な記録媒体

Publications (2)

Publication Number Publication Date
JP2008005167A JP2008005167A (ja) 2008-01-10
JP4759745B2 true JP4759745B2 (ja) 2011-08-31

Family

ID=39009199

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006171830A Active JP4759745B2 (ja) 2006-06-21 2006-06-21 映像分類装置、映像分類方法、映像分類プログラムおよびコンピュータ読取可能な記録媒体

Country Status (1)

Country Link
JP (1) JP4759745B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110225196A1 (en) * 2008-03-19 2011-09-15 National University Corporation Hokkaido University Moving image search device and moving image search program
WO2010041744A1 (ja) * 2008-10-09 2010-04-15 国立大学法人 北海道大学 動画検索装置および動画検索プログラム
JP5471372B2 (ja) * 2009-12-01 2014-04-16 富士ゼロックス株式会社 プログラム及び情報処理システム
JP6088468B2 (ja) * 2014-07-31 2017-03-01 富士フイルム株式会社 画像処理装置、画像処理方法、動画公開システム、動画公開方法、プログラムおよび記録媒体
CN110619284B (zh) * 2019-08-28 2023-09-05 腾讯科技(深圳)有限公司 一种视频场景划分方法、装置、设备及介质
DE112020005186T5 (de) * 2019-10-28 2022-09-29 Sony Group Corporation Datenverarbeitungsvorrichtung, vorschlagsvorrichtung, datenverarbeitungsverfahren und vorschlagsverfahren
CN113194333B (zh) * 2021-03-01 2023-05-16 招商银行股份有限公司 视频剪辑方法、装置、设备及计算机可读存储介质
CN113810765B (zh) * 2021-09-17 2023-08-29 北京百度网讯科技有限公司 视频处理方法、装置、设备和介质
WO2023073795A1 (ja) * 2021-10-26 2023-05-04 日本電気株式会社 クラス境界検出装置、制御方法、及び非一時的なコンピュータ可読媒体

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000285242A (ja) * 1999-01-29 2000-10-13 Sony Corp 信号処理方法及び映像音声処理装置
JP2002124929A (ja) * 2000-10-18 2002-04-26 Jisedai Joho Hoso System Kenkyusho:Kk 情報処理装置および情報処理方法、並びに記録媒体
JP2003330941A (ja) * 2002-05-08 2003-11-21 Olympus Optical Co Ltd 類似画像分類装置
JP2004517518A (ja) * 2000-12-22 2004-06-10 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオカテゴリを用いて番組境界及びコマーシャル境界の位置を見つけるシステム及び方法
JP2005236646A (ja) * 2004-02-19 2005-09-02 Fuji Xerox Co Ltd 画像表示装置および方法およびプログラム
JP2006510072A (ja) * 2002-11-13 2006-03-23 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 一様なカラーセグメントを検出するための方法及びシステム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000285242A (ja) * 1999-01-29 2000-10-13 Sony Corp 信号処理方法及び映像音声処理装置
JP2002124929A (ja) * 2000-10-18 2002-04-26 Jisedai Joho Hoso System Kenkyusho:Kk 情報処理装置および情報処理方法、並びに記録媒体
JP2004517518A (ja) * 2000-12-22 2004-06-10 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオカテゴリを用いて番組境界及びコマーシャル境界の位置を見つけるシステム及び方法
JP2003330941A (ja) * 2002-05-08 2003-11-21 Olympus Optical Co Ltd 類似画像分類装置
JP2006510072A (ja) * 2002-11-13 2006-03-23 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 一様なカラーセグメントを検出するための方法及びシステム
JP2005236646A (ja) * 2004-02-19 2005-09-02 Fuji Xerox Co Ltd 画像表示装置および方法およびプログラム

Also Published As

Publication number Publication date
JP2008005167A (ja) 2008-01-10

Similar Documents

Publication Publication Date Title
JP4759745B2 (ja) 映像分類装置、映像分類方法、映像分類プログラムおよびコンピュータ読取可能な記録媒体
US8442384B2 (en) Method and apparatus for video digest generation
US6404925B1 (en) Methods and apparatuses for segmenting an audio-visual recording using image similarity searching and audio speaker recognition
US11950020B2 (en) Methods and apparatus for displaying, compressing and/or indexing information relating to a meeting
US6751354B2 (en) Methods and apparatuses for video segmentation, classification, and retrieval using image class statistical models
JP4253989B2 (ja) ビデオの類似性探索方法及び記録媒体
Deshpande et al. Classification of music signals in the visual domain
KR100828166B1 (ko) 동영상의 음성 인식과 자막 인식을 통한 메타데이터 추출방법, 메타데이터를 이용한 동영상 탐색 방법 및 이를기록한 기록매체
JP5214760B2 (ja) 学習装置、方法及びプログラム
JP2008022103A (ja) テレビ番組動画像ハイライト抽出装置及び方法
JP2005530214A (ja) メガ話者識別(id)システム及びその目的に相当する方法
KR101617649B1 (ko) 영상의 관심 구간 추천 시스템 및 방법
CN107247919A (zh) 一种视频情感内容的获取方法及系统
JPWO2010140355A1 (ja) 音響信号処理装置および方法
US8406606B2 (en) Playback apparatus and playback method
US20240004606A1 (en) Audio playback method and apparatus, computer readable storage medium, and electronic device
WO2020135756A1 (zh) 视频段的提取方法、装置、设备及计算机可读存储介质
CN106802913A (zh) 一种播放内容推荐方法及其装置
Ghaemmaghami et al. A study of speaker clustering for speaker attribution in large telephone conversation datasets
JP2019003585A (ja) 要約映像生成装置およびそのプログラム
JP2011191542A (ja) 音声分類装置、音声分類方法、及び音声分類用プログラム
JP2010038943A (ja) 音響信号処理装置及び方法
Haller et al. Audiovisual anchorperson detection for topic-oriented navigation in broadcast news
Zanganeh et al. Automatic weak learners selection for pattern recognition and its application in soccer goal recognition
Aurchana et al. Musical instruments sound classification using GMM

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090416

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110222

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110408

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110510

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150