JP5174445B2

JP5174445B2 - コンピュータにより実施される映像のシーン境界の検出方法

Info

Publication number: JP5174445B2
Application number: JP2007312248A
Authority: JP
Inventors: ケヴィン・ダブリュ・ウィルソン; アジェイ・ディヴァカラン; フェング・ニウ; ナヴェーン・ゴエラ; 功大塚
Original assignee: Mitsubishi Electric Research Laboratories Inc
Current assignee: Mitsubishi Electric Research Laboratories Inc
Priority date: 2007-02-14
Filing date: 2007-12-03
Publication date: 2013-04-03
Anticipated expiration: 2027-12-03
Also published as: US20080193017A1; CN101247470A; EP1959393A3; CN101247470B; EP1959393B1; EP1959393A2; US7756338B2; JP2008199583A

Description

本発明は、包括的には映像のシーン境界の検出に関し、特に、音声特徴及び視覚特徴を用いるシーン境界の検出に関する。

映像（及び映画）では、ショット境界及びシーン境界が、映像の理解、編成及び閲覧に有用となり得る構造を与える。

シャッターが開くとショット境界が生じ、シャッターが閉じる時にもショット境界が生じる。したがって、ショットは、連続した途切れのないフレームシーケンスである。一般に、ドラマ、アクション、及びホームコメディーのショットはおよそ数秒間である。

本明細書中で定義されるように、シーンは意味的に有意な又はまとまりのあるフレームシーケンスである。シーンは一般に数分間にわたる。例えば、一般的なシーンは俳優同士の会話を含む。カメラ（複数可）は通常シーンを、聞き手又は話し手の各俳優が交互に映るいくつかのクローズアップショットとして見せ、時折、ショットがシーン中の全ての俳優を中距離又は遠距離で映す。

種々のジャンルのシーン境界には、そして１つのジャンルのシーン境界でさえ、明らかな類似性があるとは限らないため、シーン境界の検出は難しい。

台本のある又は台本のない映像のシーン境界は、画像差分及び動きベクトル等の低レベルの視覚特徴、並びに音声特徴の分布の差により検出することができる。通常、特徴抽出ステップの後、設定閾値との比較が必要となる（Jiang他著「音声の分割及び分類を利用する映像分割（Video segmentation with the support of audio segmentation and classification）」（Proc. IEEE ICME, 2000）、Lu他著「映像の構造解析及びグラフの最適化による映像の要約化（Video summarization by video structure analysis and graph optimization）」（Proc. IEEE ICME, 2004）、Sundaram他著「映像特徴及び音声特徴を用いる映像のシーン分割（Video scene segmentation using video and audio features）」（Proc. IEEE ICME, 2000）、及びSundaram他著「複数のモデル、特徴及び時間スケールを用いる音声によるシーン分割（Audio scene segmentation using multiple models, features and time scales）」（IEEE ICASSP, 2000）を参照のこと）。

上記技法は全てジャンル別のものである。これは、検出器が或る特定のジャンルの映像に関して訓練され、他のジャンルでは機能しないことを意味する。あらゆるジャンルの映像で機能するシーン検出器を提供することが望ましい。

セマンティック（意味論的な）シーン境界の検出は、以下を含むいくつかの要因のために難しい：訓練データがないこと、様々なジャンルにわたってシーン境界を定義する難しさ、種々の特徴の性能を特性化して比較する体系的な方法がないこと、及び手動調整システムにおいて閾値を決める難しさ。

本発明は、ジャンルに依存しない映像のシーン境界の検出方法を提供する。本方法は、映像のコンテンツのジャンルに関係なくシーン境界を検出するために用いることができる視覚特徴及び音声特徴を抽出する。

本発明は、ジャンルに依存しない、映像のシーン境界を検出するサポートベクターマシン（ＳＶＭ）を提供する。ＳＶＭは、音声ストリーム及び映像ストリームの両方から抽出される特徴組を、明示的な閾値を使用せずに自動的に結合及び比較することを可能にすることによって、多岐にわたるジャンルのコンテンツに機能する。グラウンドトルースとして、広範な映像ジャンルのラベル付けしたシーン境界を用いて、ＳＶＭを訓練するための正のサンプル及び負のサンプルを生成する。

本発明は、ホームコメディー、ニュース番組、ドラマ、ハウツービデオ、音楽ビデオ、及びトークショー等の広範な映像のシーン境界を検出するＳＶＭカーネルベースの分類器を提供する。言い換えれば、本発明のシーン検出はジャンルに依存しない。

シーン境界を検出することによって、家庭用電子機器の映像閲覧機能を改良し、ユーザが映像コンテンツをより迅速且つ効率的に管理することを可能にすることができる。したがって、「シーンの変化」とは、映像信号及び／又は音声信号に明確な徴候がある場合もあるし、ない場合もある、意味的に有意な変化を意味する。

さらに、本発明における定義では、「シーンの変化」は数分毎に起こり、これを映像コンテンツの閲覧に有用な粒度と考える。本発明の作業は手動でラベル付けされたグラウンドトルースに依存するため、シーンの変化の操作的定義は、訓練映像においてシーンの変化を位置特定した人の見解に依存する。ホームコメディー及びドラマでは、シーンの変化は通常、撮影場所の変化又は重要な新しい人物の登場に当たる。ニュースの場合、シーンの変化はニュースストーリー間の境界に当たる。トークショーの場合、シーンの変化はゲスト又はスキットの交替に当たる。他のジャンルの映像に関しても同様の決定がなされる。

シーン境界の検出
図１は、本発明の一実施の形態による、ジャンルに依存しない映像のシーン境界の検出方法を示す。本方法への入力は視聴覚ストリーム１０１である。視聴覚ストリーム１０１は、音声信号１０２と、フレーム１０３のシーケンスの形態の視覚信号とを含む。音声信号１０２から音声特徴１１１が抽出され（２００）、映像１０１のフレーム１０３から視覚信号１２１が抽出される（３００）。音声特徴及び視覚特徴は結合されて（１３０）特徴ベクトル１３１が構成される。特徴ベクトルはサポートベクターマシン（ＳＶＭ）１４０により処理されて、シーン境界１０９が検出される。シーン境界は、映像の分割アプリケーション、索引付けアプリケーション及び閲覧アプリケーションにより用いることができる。受信者動作特性曲線（ＲＯＣ）１３６の形態のフィードバック１３６を用いて、性能を測定すると共に、利用可能な特徴ストリームに基づいてより良い入力ベクトルを設計することができる。

サポートベクターマシン
特に、本発明では識別ガウスカーネルＳＶＭを用いる（参照により本明細書中に援用されるHastie他著「統計的学習の要素：データマイニング、推測、及び予測（The Elements of Statistical Learning: Data Mining, Inference, and Prediction）」（Springer, August 2001）を参照のこと）。ＳＶＭはシーン境界を検出する２値分類器である。ＳＶＭは超平面を用いて、２つの異なるクラスに属するデータ間の分離を最大化する。

訓練
訓練段階１４５において、分類器１４０は訓練ベクトル１３５によりシーン境界及び非シーン境界に対して訓練される。すなわち、訓練ベクトルはラベル付けされている。一実施の形態において、ラベル付けは手動で行われる。訓練は、結合された特徴ベクトル１３１を分離する最適でおそらくは非線形の決定境界を決める。

１つの目的は、様々な映像コンテンツでシーン境界を非シーン境界と区別することができる特徴を求めることである。言い換えれば、本発明のシーン検出器はジャンルに依存しない。別の目的は、特徴ベクトル１３１が比較的低い次元数を有することである。さらに、本発明の特徴を容易に利用可能とすると共に計算効率を高めたい。

音声特徴
図２に示すように、音声信号１０２を４４．１ＫＨｚでサンプリングし、２０ｍｓの音声フレームから１２個のメル周波数ケプストラム係数（ＭＦＣＣ）２０１を抽出する（２１０）。ＭＦＣＣ特徴２０１に基づいて、１秒毎の音声信号を４つのセマンティッククラス、すなわち、音楽、話し声、笑い声、無音のうちの１つに分類する（２２０）。なお、他のセマンティッククラスも用いることができる。話し声はさらに男性又は女性に分類することができる。音声の分類２２０には、ガウス混合モデル（ＧＭＭ）に対して最尤（ＭＬ）推定を用いる（Divakaran他により２００６年１１月７日付で出願された米国特許出願第１１／５９３，８９７号「映像分割の方法及びシステム（Method and System for Video Segmentation）」（参照により本明細書中に援用される）を参照のこと）。音声訓練データから各セマンティッククラスのＧＭＭが推定される。これらのセマンティッククラスは、例えば、或るコンテンツのシーン境界に通常伴う音楽の短い一節、又はホームコメディーのシーンの終わりにしばしば起こる笑い声を検出するのに役立つ。

視覚特徴
図３に示すように、各フレームのフレーム番号３０１を記録し、どのフレーム番号がショット境界３０２に当たるかを判定する（Lienhart著「自動ショット境界検出アルゴリズムの比較（Comparison of automatic shot boundary detection algorithms）」（SPIE Vol. 3656, pp. 290-301, 1998）（参照により本明細書中に援用される）を参照のこと）。視覚特徴１２１には動きベクトル、画像差分及びカラーヒストグラムをピクセルレベルで用いることも可能である。

ＳＶＭ１４０の特徴ベクトル１３１をシーン（＋）境界及び非シーン（−）境界に関して次のように定義する。

すなわち、本発明の特徴は１２次元である。入力ベクトルＸ_ｉは、映像中の特定の時間位置ｔ（秒単位）に関する局所情報を記述する。なお、フレームレート（例えば約３０フレーム毎秒）が与えられれば、時間はフレーム番号から直接求めることができる。訓練１４５のために、手動でラベル付けされたシーン（＋）及びランダムに生成される非シーン（−）の時間位置のベクトルＸ_ｉを求める。

ベクトルＸ_ｉの最初の９つの要素は意味ラベルのヒストグラムである。次の２つの成分は特定の時間ｔの前後の音声分布の差を表し、最後の成分は映像ショット境界３０２に基づく。各成分は次のように定義される。

前方のヒストグラム：変数ｘ_１、ｘ_２、ｘ_３
前方のヒストグラムは、［ｔ−Ｗ_Ｌ，ｔ］の長さの時間窓内のクラスの組｛音楽、話し声、笑い声、無音｝の中の意味ラベルの数を示し、ここで、Ｗ_Ｌは選択された窓サイズである。ヒストグラムは合計で１になるように正規化される。４Ｄヒストグラムのうちの１次元は、残りの３つのヒストグラム値により完全に求められるため、破棄することができる。

中間のヒストグラム：変数ｘ_４、ｘ_５、ｘ_６
中間のヒストグラム変数は、前方のヒストグラムと類似しており、［ｔ−Ｗ_Ｌ／２，ｔ＋Ｗ_Ｌ／２］の長さの窓内の意味ラベルを示す。

後方のヒストグラム：変数ｘ_７、ｘ_８、ｘ_９
後方のヒストグラムは、窓

内のラベルを示す。

バッタチャリヤ形状（Bhattacharyya Shape）及び距離：変数ｘ_１０、ｘ_１１
窓［ｔ−Ｗ_Ｌ，ｔ］及び窓［ｔ，ｔ＋Ｗ_Ｌ］に関して低レベルＭＦＣＣから推定される単一ガウスモデル間のバッタチャリヤ形状及びマハラノビス距離を求める。バッタチャリヤ形状は

であり、マハラノビス距離は

である。

共分散行列Ｃ_ｉ及びＣ_ｊ、並びに平均μ_ｉ及びμ_ｊは、時間位置ｔの前後のＭＦＣＣベクトルの対角共分散及び平均を表す。バッタチャリヤ形状及びマハラノビス距離はＭＦＣＣの分布の変化に対する感受性が高い。したがって、これらの特徴は、映像中の変化に関する非常に低レベルの手掛かりとなる。

例えば、男性の話し手から女性の話し手への変化を伴うシーン変化の場合、意味ヒストグラムは両シーンが主に話し声を含むことを示すが、大きなＭＦＣＣマハラノビス距離が生じる。

平均ショット数：変数ｘ_１２
最後の要素は、窓［ｔ−Ｗ_Ｌ，ｔ＋Ｗ_Ｌ］内の映像に存在するショット境界の平均数の２倍である。

本発明では、全ての次元に沿って等しい平滑化帯域幅を有するカーネルベースのＳＶＭを用いるため、ベクトルＸ_ｉ１３１の全ての変数がほぼ同じ分散を有することを保証する。Ｗ_Ｌ＝１４秒の最適な窓長は、バッタチャリヤ距離及び意味ヒストグラムを推定するのに十分なデータを提供する。

ＳＶＭ分類器
ＳＶＭは、２つのクラスのデータ、すなわちシーンと非シーンとを分離する最大マージン超平面を見つけようとする教師あり学習手順である。データ点｛Ｘ_０，Ｘ_１，．．．，Ｘ_Ｎ｝及びクラスラベル｛ｙ_０，ｙ_１，．．．，ｙ_Ｎ｝，ｙ_ｉ∈｛−１，１｝が与えられると、ＳＶＭは、良好に一般化する２つのクラスの決定境界を構築する。このため、複雑でノイズの多い用途では通常、ＳＶＭが分類器として用いられる。本発明の場合、２つのクラスはシーン（＋）境界及び非シーン（−）境界である。データ点Ｘ_ｉは上述した１２Ｄベクトルである。ＳＶＭベースの分類モデルを構築する方法はよく知られている。

ＳＶＭの１つの利点は、カーネル関数により入力ベクトルＸをより高次元の特徴空間に変換できることである。データはこの空間において、実際には元の入力空間の非線形の境界である超平面により線形分離可能である。本発明の実施態様では、動径基底カーネル：

を用いる。

本発明では、特徴ベクトルＸ１３１間のユークリッドＬ_２距離Ｄを用いるが、他の距離関数も可能である。本発明では、カーネル帯域幅の値をγ＝２．０に固定するが、追加の訓練データが利用可能であれば、この値をより平滑度の低いものに調整することもできる。訓練サンプルの数は限られているため、ノイズに対処するには平滑な境界が好ましい。ノイズは、音声特徴又は視覚特徴の不正確さ、例えば、意味ラベルの誤分類、ショット境界の見逃し／誤り、ストリームの位置合わせ、及び手動でラベル付けされた境界の不正確さのような様々な形で導入される。

大量のシーン境界を収集する難しさのために、ほとんどの従来技術の技法は、シーン検出のための教師あり学習に焦点を当ててこなかった。しかし、シーン検出問題を分類問題とすることには、決定境界がＳＶＭ１４０によって調整されるため変数の明示的な閾値が必要なくなるという利点がある。さらに、本発明では、特徴の様々な組み合わせを訓練データに対するそれらの性能に基づいて迅速に比較することができる。ＳＶＭは、別個の特徴を統合的にモデル化するための統一的な枠組みを提供する。これにより、本発明では、様々なジャンルに依存しない映像コンテンツに対応するために、必要に応じて特徴を追加することができる。

本発明を好ましい実施の形態の例として説明してきたが、本発明の精神及び範囲内で様々な他の適応及び修正を行うことができることが理解される。したがって、添付の特許請求の範囲の目的は、本発明の真の精神及び範囲に入るそのような変形及び修正を全て網羅することである。

本発明の一実施の形態による映像のシーン境界の検出方法の流れ図である。本発明の一実施の形態による音声特徴の抽出の概略図である。本発明の一実施の形態による視覚特徴の抽出の概略図である。

Claims

コンピュータにより実施される映像のシーン境界の検出方法であって、
種々のジャンルの映像から特徴ベクトルを抽出するステップと、
前記映像の前記種々のジャンルに依存しないように訓練される、サポートベクターマシンを用いて、前記特徴ベクトルをシーン境界として分類するステップと
を含み、
前記映像の音声信号から音声特徴を抽出すること、
前記映像のフレームから視覚特徴を抽出すること、
前記音声特徴及び前記視覚特徴を前記特徴ベクトルに結合すること、
前記音声信号からメル周波数ケプストラム係数（ＭＦＣＣ）を抽出すること、及び
前記音声信号をセマンティック（意味論）クラスに分類すること
をさらに含み、
各特徴ベクトルは、［ｔ−Ｗ _Ｌ，ｔ］（ここで、Ｗ _Ｌは約１４秒である）の長さの時間窓内の前記音声クラスラベルの数を示す変数ｘ _１、ｘ _２、ｘ _３と、［ｔ−Ｗ _Ｌ／２，ｔ＋Ｗ _Ｌ／２］の長さの窓内の前記音声クラスの数を示す変数ｘ _４、ｘ _５、ｘ _６と、窓

内の音声クラスの数を示す変数ｘ _７、ｘ _８、ｘ _９とを含み、変数ｘ _１０、ｘ _１１はそれぞれ、前記窓［ｔ−Ｗ _Ｌ，ｔ］及び窓［ｔ，ｔ＋Ｗ _Ｌ］の前記ＭＦＣＣ係数間のバッタチャリヤ形状及びマハラノビス距離であり、変数ｘ _１２は、窓［ｔ−Ｗ _Ｌ，ｔ＋Ｗ _Ｌ］内の前記映像に存在するショット境界の平均数の２倍である
コンピュータにより実施される映像のシーン境界の検出方法。
前記映像は圧縮されている、請求項１に記載の方法。
前記分類の結果をフィードバックすることによって、前記特徴の抽出を改善することをさらに含む、請求項１に記載の方法。
前記映像を前記シーン境界に従って分割することをさらに含む、請求項１に記載の方法。
訓練映像中の前記シーン境界をラベル付けすることによって、前記サポートベクターマシンを訓練することをさらに含む、請求項１に記載の方法。
前記セマンティッククラスは、音楽、話し声、笑い声、及び無音を含む、請求項１に記載の方法。
前記話し声は、男性の話し声及び女性の話し声を含む、請求項６に記載の方法。
前記視覚特徴はショット境界を含む、請求項１に記載の方法。
前記バッタチャリヤ形状は、

であり、前記マハラノビス距離は、

であり、ここで、共分散行列Ｃ_ｉ及びＣ_ｊ、並びに平均μ_ｉ及びμ_ｊは、前記時間ｔの前後の前記ＭＦＣＣベクトルの対角共分散及び平均を表す、請求項１に記載の方法。
カーネル関数を用いて前記特徴ベクトルをより高次元の特徴空間に変換することをさらに含む、請求項１に記載の方法。
前記カーネル関数は動径基底カーネルである、請求項１０に記載の方法。