JP5031312B2

JP5031312B2 - 複数のフレームを含むビデオの要約を生成するための方法およびシステム

Info

Publication number: JP5031312B2
Application number: JP2006268244A
Authority: JP
Inventors: カディア・エイ・ペカー; アジェイ・ディヴァカラン
Original assignee: Mitsubishi Electric Research Laboratories Inc
Current assignee: Mitsubishi Electric Research Laboratories Inc
Priority date: 2005-10-25
Filing date: 2006-09-29
Publication date: 2012-09-19
Anticipated expiration: 2026-09-29
Also published as: US7555149B2; JP2007124636A; US20070091203A1

Description

本発明は、包括的にはビデオをセグメント化するとともにブラウジングすることに関し、より詳細には、顔検出を用いるニュースビデオのセグメント化、要約およびブラウジングに関する。

従来技術によるニュースビデオのブラウジングシステムは、通常、異なるトピックまたはニュースストーリーを見つける際、ニュース司会者の遷移の検出に頼る。ビデオに遷移がマークされている場合、ユーザは、トピックからトピックへ素早くスキップし、所望のトピックを見つけることができる。

遷移の検出は、通常、ニュースビデオから抽出したテキストに高レベルのヒューリスティックを適用することによって行われる。テキストは、クローズドキャプション情報、埋め込みキャプション、音声認識システム、またはこれらの組み合わせから抽出することができる（Hanjalic他著「ダンサー：デルフト高度ニュース検索システム（Dancers: Delft advanced news retrieval system）」（IS&T/SPIE Electronic Imaging 2001: Storage and retrieval for Media Databases, 2001）およびJasinschi他著「トピックのセグメント化および分類のための統合マルチメディア処理（Integrated multimedia processing for topic segmentation and classification）」（ICIP-2001, pp.366-369, 2001）を参照）。

司会者の検出は、低レベルの聴覚的特徴および視覚的特徴（画像の色、動き、およびテクスチャ等）からも行うことができる。例えば、オーディオ信号の部分をまずクラスタリングして音声または非音声に分類する。音声部分は、各話者のガウス混合モデル（ＧＭＭ）を覚えさせるために用いる。次に、音声部分を異なるＧＭＭによりセグメント化して様々な司会者を検出する（Wang他著「マルチメディアコンテンツ解析（Multimedia Content Analysis）」（IEEE Signal Processing Magazine, November 2000）を参照）。このような技法は、しばしば計算集約的となり、専門知識を活用しない。

もう１つの動きベースのビデオブラウジングシステムは、ニュースビデオのトピックリストを種々のトピックの開始フレーム番号および終了フレーム番号とともに利用することに頼るものである（Divakaran他著「パーソナルビデオレコーダ用のコンテンツベースのブラウジングシステム（Content Based Browsing System for Personal Video Recorders）」（IEEE International Conference on Consumer Electronics (ICCE), June 2002）を参照）。このシステムの主な利点は、圧縮領域において動作するために、計算量が多くないことである。ビデオセグメントがトピックリストから取得される場合、視覚的要約を生成することができる。取得されない場合、ビデオを要約する前に均一サイズのセグメントに区分することができる。しかしながら、後者の手法は、コンテンツの意味論的セグメント化との一貫性がないため、ユーザには不便である。

したがって、ニュースビデオにおいて関心のあるトピックを確実に見つけることができるシステムが必要とされている。その後、ビデオをセグメント化および要約してブラウジングを容易にする。

本発明は、ビデオの要約を生成するための方法を提供する。ビデオの複数のフレームにおいて顔が検出される。各フレームにおいて検出される顔の数に従ってフレームが分類され、該分類に従ってビデオがセグメントに区分されてビデオの要約が生成される。

ただ１つの顔が検出されたものとして分類されるフレーム毎に、顔の１つまたは複数の特徴が判定される。この特徴に従ってフレームがラベルを付されてラベルを付されたクラスタが生成され、該ラベルを付されたクラスタに従って、セグメントがサブセグメントに区分される。

システムの構造および方法の動作
図１は、本発明によるビデオ１０１を要約するためのシステムおよび方法１００を示す。そのビデオの複数のフレームにおいて顔が検出されて（１１０）、フレーム毎に顔の数が求められる（１１１）。フレーム毎に検出された顔の数１１１によって、フレームが分類され（１２０）、その分類１２１に従って、ビデオ１０１がセグメント１３１〜１３３に区分されて（２００）、ビデオ１０１の要約１３４が生成される。それらのセグメントは、１つの顔１３１、２つの顔１３２、および３つ以上の顔１３３を有するフレームを含むことができる。

図２は、区分２００の好ましい実施の形態を示す。１つの顔が検出されたものとして分類されるフレームを含むセグメント１３１毎に、顔の１つまたは複数の特徴２１１が判定される（２１０）。その特徴２１１に従って、セグメント１３１内の各フレームがラベルを付される（２２０）。そのラベルに従って、ラベルを付されたフレーム２２１がクラスタリングされて（２３０）、ラベルを付されたクラスタ２３１が生成され、そのラベルを付されたクラスタに従って、１つの顔を含むフレームとして分類されるフレームを有するセグメント１３１が、サブセグメント２４１に区分される（２４０）。

セグメント１３１〜１３３およびサブセグメント１４１に従って、ユーザがビデオ１０１をブラウジングすることができる。

コンシューマビデオにおける顔検出
好ましい実施の形態では、高い精度および速い速度を提供するＶｉｏｌａ−Ｊｏｎｅｓ顔検出器が用いられる。２００２年７月２２日に出願され、参照によりその全体が本明細書に援用される、Ｖｉｏｌａ他による米国特許出願第１０／２００、４６４号「画像中の物体を検出するシステムおよび方法（System and Method for Detecting Objects in Images）」を参照願いたい。Ｖｉｏｌａ−Ｊｏｎｅｓ検出器は、用いられるパラメータファイルを変更することによって、他の物体を検出することもできる。したがって、同じ検出エンジンを用いて、いくつかの種類の物体を検出することができ、それを用いて、ビデオ１０１をセグメント化することができる。

Ｖｉｏｌａ−Ｊｏｎｅｓ顔検出器は、ブーストされた長方形の画像特徴を基にする。本発明では、フレームが３６０×２４０ピクセルに縮小され、画像特徴の１ピクセルシフトに関して検出が実施される。その速度は、復号化および表示オーバーヘッドを含む、ペンティアム（登録商標）４、３ＧＨｚＰＣ上でのこれらの設定時に、約１５ｆｐｓである。正面顔検出器の場合に、３０〜６０フレーム当たり約１つの誤って検出される顔が生じる。

本発明は、圧縮されたビデオにおいて動作することができる。ＤＣ画像を用いることにより、検出器によって（すなわち、検出速度は、画像のピクセル数に比例する）、および復号化の節約によって、顔検出器の速度が大幅に高められる。圧縮されたビデオの場合には、検出される最小顔サイズは、大きくなるが、ニュースビデオ内の対象とする顔は、多くの場合にその範囲内にある。その検出器は、圧縮されたビデオのＩフレームだけで動作することができるか、または処理能力に相応しい、時間的にサブサンプリングされた速度において動作することができる。そのビデオの１つのフレーム内の顔の位置であるｘ位置も求められる。

顔のｘ位置およびサイズを用いるクラスタリング
最初に、検出された顔の数に基づいて、各ビデオフレームを、またはオプションでは、選択される時間分解能に応じてそれよりも大きなフレーム単位を、「１つの顔」、「２つの顔」および「３つ以上の顔」のクラスに分類する。ニュースビデオ、並びにトークショーおよびインタビューのような他のほとんど変化しないシーンのトークビデオでは、セグメントの大部分が１つの顔を有する。

顔特徴２１０に基づいて、そのフレーム内の「１つの顔」のセグメントがさらに区分される。本発明で対象とするニュースおよびトークショーのビデオ分野では、顔のサイズおよびｘ位置が、異なるタイプのビデオシーンを見分けるために用いられる特徴である。図３は、ｙ軸３０１として顔のｘ位置を、ｘ軸３０２として顔のサイズを用いる、放送ニュース番組における「１つの顔」のビデオフレームの自然クラスタリング３１０を示す。

本発明では、あまり複雑ではなく、広く利用できることから、３〜５クラスタによるｋ平均クラスタリングが用いられる。図４は、図３のデータの散布図を示しており、ｋ平均クラスタリングによってクラスタ４０１が得られている。

クラスタリングのためにガウス混合モデル（ＧＭＭ）を用いることもでき、それは、ｋ平均クラスタリングによって生成されるクラスタよりも、滑らかなクラスタ境界と、直観的に見えるクラスタとを与える。図５は、図３のデータの散布図を示しており、ＧＭＭを用いてクラスタ５０２が得られている。

顔のサイズおよびｘ位置を用いて、「１つの顔」のフレームをクラスタリングすることにより、ビデオセグメントが複数のシーンに意味論的に有意に分類される。図６は、ニュースビデオ番組からのサンプルを示しており、１つのクラスタ６１０が総合司会者ショット６１１に対応し、別のクラスタ６２０が局外にいる通信記者６２１に対応し、別のクラスタ６３０が天気予報６３１に対応する。

時間平滑化
場合によっては、１つのクラスタの境界にあるただ１つのシーンが複数のクラスタに入り、断片が生じることもある。これをそのままセグメント化すると、セグメントの大部分が非常に短く、結果として再生がぎくしゃくするために、ブラウジングするのに適していない。次のセグメントまたはサブセグメントにスキップすることは、数秒またはそれより短い時間だけ、ただ再生を早送りするだけであろう。

この問題を緩和するために、最初に、時間的コヒーレンスを用いて、顔検出誤りが訂正される。本発明では、動的なウインドウによる追跡が用いられ、誤った検出が除去され、トラック内のギャップが埋められる。閾値よりも短いトラックは、後に除去される。

第２のレベルでは、区分結果が時間的に平滑化される。ラベルを付された各クラスタが個別の要約として取り扱われる。その後、個別の要約毎に、形態的な平滑化が適用され、ある特定の閾値よりも短いギャップおよび短いセグメントが除去される。本発明人による実験では、１〜３秒の閾値が妥当な結果を与える。

ニュースおよび他のトークショーのブラウジング
ユーザは、各セグメントまたはサブセグメントを個別の要約として見ることができる。本発明人のニュースビデオによる実験では、通常、クラスタのうちの１つが、総合司会者のセグメントに対応することがわかった。さらに、別のタイプのセグメントに続く総合司会者のセグメントは、ニュースの導入部を示す。したがって、総合司会者に対応するクラスタにおいて、ユーザは、大抵の場合に局外からの映像によってもたらされる詳細な事柄を見ることなく、ニュースの導入部を通して要約全体を見ることができるか、またはユーザはいつでも、次のニュースの始まりである次のセグメントにスキップすることができる。

さらに、トークショーおよびインタビュー番組のような、ほとんど変化しないシーンを有する他のトークビデオコンテンツも、本発明の方法によって区分することができる。したがって、ユーザは、１人で喋っているジョークを見ることができるか、またはゲストにスキップすることができる。ある番組において、ゲストを見つけ出す良い方法は、通常は、ホストがゲストを紹介している場面に対応する、「２つの顔」のセグメントを用いることによる。

個別のセグメントおよびサブセグメントを融合して、ただ１つの要約、少ない数の要約または任意の数の要約を生成することもできる。１つの方策は、分散が大きなクラスタを捨てることである。たとえば、本発明人による実験において、クラスタのうちの１つが、小さな顔サイズを有し、ｘ位置が相対的に散在していた。これは、通常、天気予報に対応する。したがって、このクラスタは、分散が大きい場合でも、保存される。

他のクラスタ内の外れ値は、削除することもできる。残りのクラスタは、時間的に平滑化して、その後、融合して、ただ１つの要約にすることができる。セグメントおよびサブセグメントの境界点、すなわち、ラベルが変化する場所にマーカを挿入することができる。このようにして、ニュース全体を通して再生が続けられる場合であっても、ユーザは、依然として、そのニュースの異なるセグメントにスキップするためのマーカを有することができる。最終的な要約を再び時間的に平滑化して、融合から生じることがあるギャップが除去される。

本発明によるビデオの要約を生成するための方法のブロック図である。本発明によるビデオのセグメントを区分するブロック図である。ｙ軸として顔ｘ位置を、ｘ軸として顔サイズを用いて、放送ニュース番組において１つの顔として分類されるビデオフレームデータの散布図である。本発明の１つの実施の形態によるｋ平均クラスタリングを用いて１つのクラスタが得られた図３のデータの散布図である。本発明の１つの実施の形態によるＧＭＭを用いて複数のクラスタが得られた図３のデータの散布図である。本発明の１つの実施の形態による例示的なビデオフレームが得られたクラスタに関連付けられている図５の散布図である。

Claims

複数のフレームを含むビデオの要約を生成するための方法であって、
前記ビデオの前記複数のフレームの中の顔を検出することと、
各フレームにおいて検出される顔の数に従って前記フレームを分類することと、
前記ビデオの要約を生成するために、前記分類に従って前記ビデオをセグメントに区分することと
を含み、
前記セグメントに区分することは、
ただ１つの顔が検出されたものとして分類されるそれぞれのフレームに対して、該顔の１つまたは複数の特徴を判定することと、
前記特徴に従って前記フレームにラベルを付すことと、
ラベルを付されたクラスタを生成するために、前記ラベルに従って前記フレームをクラスタリングすることと、
前記ラベルを付されたクラスタに従って、ただ１つの顔を含むフレームとして分類されるフレームを有する前記セグメントをサブセグメントに区分することと
をさらに含む
複数のフレームを含むビデオの要約を生成するための方法。
前記ビデオは、圧縮されたビデオである請求項１に記載の方法。
前記検出することは、前記圧縮されたビデオのＩフレームにおいて実行される請求項２に記載の方法。
前記特徴は、顔のサイズを含む請求項１に記載の方法。
前記特徴は、顔の位置を含む請求項１に記載の方法。
前記特徴は、顔のカラーヒストグラムを含む請求項１に記載の方法。
前記クラスタリングすることは、ｋ平均クラスタリングである請求項１に記載の方法。
前記クラスタリングすることは、ガウス混合モデルを用いて実行される請求項１に記載の方法。
時間的コヒーレンスを用いて顔検出誤りを訂正することをさらに含む請求項１に記載の方法。
閾値長よりも短いサブセグメントを除去することをさらに含む請求項１に記載の方法。
前記閾値長は１〜３秒の範囲にある請求項１０に記載の方法。
複数のフレームを含むビデオの要約を生成するためのシステムであって、
前記ビデオの前記複数のフレームにおいて顔を検出するための手段と、
各フレームにおいて検出される顔の数に従って前記フレームを分類するための手段と、
前記ビデオの要約を生成するために、前記分類に従って前記ビデオをセグメントに区分するための手段と、
ただ１つの顔が検出されたものとして分類されるそれぞれのフレームに対して、該顔の１つまたは複数の特徴を判定するための手段と、
前記特徴に従って前記フレームにラベルを付すための手段と、
ラベルを付されたクラスタを生成するために、前記ラベルに従って前記フレームをクラスタリングするための手段と、
前記ラベルを付されたクラスタに従って、ただ１つの顔を含むフレームとして分類されるフレームを有する前記セグメントをサブセグメントに区分するための手段と
を備える複数のフレームを含むビデオの要約を生成するためのシステム。