JP2009544985A

JP2009544985A - コンピュータによって実施されるビデオをセグメント化する方法

Info

Publication number: JP2009544985A
Application number: JP2009503358A
Authority: JP
Inventors: ディヴァカラン、アジェイ; ニウ、フェング; ゴエラ、ナヴェーン
Original assignee: Mitsubishi Electric Research Laboratories Inc
Current assignee: Mitsubishi Electric Research Laboratories Inc
Priority date: 2006-11-07
Filing date: 2007-11-01
Publication date: 2009-12-17
Also published as: WO2008056720A2; US20080124042A1; WO2008056720A3; US8107541B2

Abstract

方法は、ビデオをセグメント化する。ビデオの音声フレームがラベルを用いて分類される。優位ラベルが連続する複数のラベルの継続的な時間間隔に割り当てられる。継続的な時間間隔のスライドする時間窓の意味記述が構築され、スライドする時間窓は時間的に重なり、各時間窓の意味記述は時間間隔の優位ラベルから求められる遷移行列である。遷移行列からマーカが求められ、マーカが出現する頻度は、低頻度閾値と高頻度閾値との間である。次いで、ビデオがマーカの位置においてセグメント化される。

Description

本発明は、包括的にはビデオをセグメント化することに関し、より詳細には、音声信号に従ってビデオをセグメント化することに関する。

ビデオをセグメント化することは、多くのビデオ要約アプリケーション、ビデオ検索アプリケーション、及びビデオブラウジングアプリケーションにおいて重要な課題である。本明細書において使用される場合、ビデオは、視覚情報(画素)を含む映像内容と、音声情報(音響信号)を含む音声内容とを含む。映像内容と音声内容とは同期される。内容は台本がないか、又は台本がある場合がある。

監視イベント及びスポーツイベントから取得される内容のような、台本がない内容は、ハイライトを特定することによってセグメント化することができる。ハイライトは、普通でないイベント又は興味深いイベントを含む、ビデオの任意の部分である。ハイライトはそのビデオの本質を捉えることができるため、ハイライトのみを含むビデオのセグメントはそのビデオの要約を提供することができる。たとえば、スポーツイベントのビデオでは、要約は得点のチャンスを含むことができる。

ニュース及びドラマのような、台本がある内容は通常、一連のシーンとして構造化されている。代表的なシーン又はその部分を見ることによって、その内容の本質を得ることができる。したがって、目次(ＴｏＣ)ベースのビデオブラウジングによって、台本がある内容の要約が提供される。たとえば、一連のニュース情報から成るニュースビデオは、情報内の各部分のキーフレーム表現を使用して要約又はブラウジングすることができる。ＴｏＣの抽出には、セグメント化が使用されることが多い。

視覚内容に基づくビデオセグメント化が既知である。通常、色強度及び動きのような、下位の特徴が使用される。しかしながら、このようなセグメント化は、基礎を成すデータセット(画素)が大きく複雑であるため、複雑であると共に多大な時間を必要とし得る。正確な視覚セグメント化は通常、特定のジャンルに限定され、いかなるタイプの内容にも適用可能というわけではない。視覚セグメント化を成功させるためには、正しい特徴を選択することが重要であり得る。

ビデオは音声内容を使用してセグメント化することもできる。下位の音響特徴が音声内容から抽出される。この下位の特徴は通常、音声内容の周期性、ランダム性、及びスペクトル特性を表す。次いで、既知のデータとの相関によって、シーンセグメント化の最適な閾値を求めることができる。

ほとんどの音声内容は、たとえば発話、音楽、沈黙、拍手、及び歓声のような少数の音声クラスに分類することができる。

図１は、１つの一般的な従来技術の音声分類方法１００を示す。音声内容１０１が方法１００に対する入力である。音声内容１０１はビデオ１０３の一部とすることができる。音声内容を映像内容１０４と同期させることができる。音声特徴１１１が、音声内容１０１の比較的短いフレーム１０２から抽出される(１１０)。このフレームはたとえば約１０ミリ秒である。音声特徴１１１は、たとえば変形離散コサイン変換(ＭＤＣＴ)又はメル周波数ケプストラム係数(ＭＦＣＣ)のような多数の異なる形態を有することができる。

また図２に示されているように、分類器２００によって、各フレームの音声特徴１１１がラベルを用いて分類され、一連の連続するラベル１２１が生成される。各ラベルは、たとえば拍手、歓声、音楽、発話、及び沈黙のような音声クラスのうちの１つを表す。分類器２００は、たとえば拍手、歓声、音楽、発話、及び沈黙のようなトレーニングされたクラスのセット２１０を有する。各クラスは、たとえばガウス混合モデル(ＧＭＭ)によってモデル化される。ＧＭＭのパラメータは、トレーニングデータ２１１から抽出される下位の特徴から求められる。音声特徴１１１は、内容の中の音声特徴１１１のＧＭＭがトレーニングされた各クラスのＧＭＭに対応する尤度を求めること(２２０)によって分類することができる。したがって、ラベル１２１は、音声内容の意味解釈の、下下位の時間的な展開を表す時系列データとみなすことができる。

方法は、ビデオをセグメント化する。ビデオの音声フレームがラベルを用いて分類される。優位ラベルが連続する複数のラベルの継続的な時間間隔に割り当てられる。

継続的な時間間隔のスライドする時間窓の意味記述が構築され、スライドする時間窓は時間的に重なり、各時間窓の意味記述は、その時間間隔の優位ラベルから求められる遷移行列である。

遷移行列からマーカが求められ、マーカが出現する頻度は、低頻度閾値と高頻度閾値との間である。次いで、ビデオがマーカの位置においてセグメント化される。

従来技術の音声分類方法の流れ図である。従来技術の音声分類器のブロック図である。本発明の一実施の形態による音声セグメント化方法の流れ図である。音声内容の時間部分のブロック図である。本発明の一実施の形態による音声意味記述の一例を示す図である。本発明の一実施の形態による音声意味記述の一例を示す図である。本発明の一実施の形態による台本がない音声シーンの境界のタイミング図である。本発明の一実施の形態による台本がある音声シーンの境界のタイミング図である。

図３Ａ及び図３Ｂに示されるように、本発明の実施の形態は、音声内容３０１に基づいてビデオをセグメント化する方法３００を提供する。音声内容の分類されるフレームの一連の連続するラベルｌ３２１が、本方法に入力される。

最初に、フレームを上述のようにラベルｌ３１１を用いて分類する。次いで、優位ラベルＬ３２１を時間間隔３０２内の連続する複数のラベルに割り当てる。この時間間隔はフレームよりも実質的に長い。優位ラベルは、１秒の時間間隔の間に連続するフレームにおいて最も頻繁に出現するラベルである。

優位ラベルＬ３２１が使用されてビデオの音声内容の意味記述４０１が構築される(４００)。意味記述４０１は遷移行列４４０とヒストグラム４３０とを含むことができる。図３Ｂに示すように、意味記述は音声内容３０１全体、及び時間的に重なる各窓３０３に関して求めることができる。すなわち、各窓は連続する間隔３０２の優位ラベルＬ３２１を含む。窓は、この間隔よりも実質的に、たとえば３０秒長く、互いに時間的に重なり、たとえば時間的に１秒前進する。ヒストグラム４３０を遷移行列から求めることができる。ラベルＬ３２１の総数は、音楽→音楽のような自己遷移が許容される場合に、遷移の回数に等しい。

意味記述４０１が使用されて、たとえばホームコメディビデオにおけるシーン遷移をマーキングする役割を果たす音楽のようなマーカ６２０が検出される(６１０)。典型的には、マーカ６２０は新たなシーン又は新たなセグメントの開始を示す。マーカは通常、台本があるビデオ内に存在する。台本がある内容の例は、ニュース、ドラマ、ホームコメディ、ハウツー番組、トーク番組等である。このような番組では、シーン遷移は、音楽の特徴的なフレーズを伴うゆるやかなディゾルブから成ることが多い。特別な遷移マーカ又はソースと呼ばれるものは、この非常に短い音楽の一部である。

マーカが発見されると、マーカ６２０を使用してそのマーカの遷移差６４０を求める(６３０)。後述するように、マーカが出現する各時点ｔ_０において遷移差６４０を求める。

遷移差６４０を求めた(６３０)後、遷移差６４０を第１の閾値Ｔｈ_１と比較する(６５０)。遷移差が閾値Ｔｈ_１よりも大きく、且つ極大でもある場合、対応する時点ｔ_０は、(セグメント化)境界３５０を示す。

マーカ６２０が発見されない場合(通常は台本がない内容の場合)、各時点ｔ_０において意味差５３０を求め(５１０)、この意味差５３０を第２の閾値Ｔｈ_２と比較する(５２０)。意味差５３０が閾値Ｔｈ_２よりも大きく、且つ極大でもある場合、時点ｔ_０は、境界３５０を示す。いずれの場合においても、境界３５０を使用してビデオをセグメント化することができる。

意味記述
本発明の実施の形態のための図４Ａ及び図Ｂに示すように、２つのタイプの意味記述子を使用する。第１の意味記述子は、クラスｉ＝１，．．．，ＭのヒストグラムＨ(ｉ)４３０を含む。第２の意味記述子はクラスｉからクラスｊまでの遷移行列Ｔ(ｉ，ｊ)４４０である。自己遷移(ｉ＝ｊ)が許容される。この行列及びヒストグラムを各時間窓３０３、及び音声内容３０１全体に関して求めることができる。

好ましい実施の形態では、ヒストグラム及び行列内の値は正規化される。上述のように、ヒストグラムＨを遷移行列Ｔから導出することができる。したがって、概して下記の式において、記号Ｈは記号Ｔに置換することができる。

シーンのセグメント化
ニュース、ドラマ、ホームコメディ、トーク番組、音楽テレビ番組等のような異なる内容を有する数時間のビデオの調査の結果、シーン変化は２つのタイプに一般化することができるものと判断する。

第１のタイプは、意味記述子が大きく変化するときに発生する。このタイプの内容に関しては、意味差５３０を使用してシーン境界を検出する。第２のタイプはマーカ６２０によって示される。

意味差の検出
図５に示されるように、時点ｔ_０の前の窓ｔ_ｂ、及び時点ｔ_０の後の窓ｔ_ａに関して意味差Diff_semantic５３０を以下のように求める(５１０)ことができる。

式中、Ｔ_ａ(ｉ，ｊ)は窓ｔ_ａの遷移行列であり、Ｔ_ｂ(ｉ，ｊ)はｔ_ｂの遷移行列である。Diff_semanticが閾値Ｔｈ_２５５０よりも大きく、且つ極大５６０でもある場合、時点ｔ_０は境界３５０を示す。

マーカの検出
マーカは、高すぎもせず低すぎもしない中間の頻度でビデオ全体を通じて出現する、そのクラスの単一のラベルｍである。マーカは、内容全体の遷移行列又はヒストグラムのいずれかから求めることができる。したがって、マーカは頻度制約Ｆｒ_ｌｏｗ＜Ｔ(ｍ，ｊ)＜Ｆｒ_ｈｉｇｈを満たす(式中、Ｆｒ_ｌｏｗは低頻度閾値であり、Ｆｒ_ｈｉｇｈは高頻度閾値である)。ラベルがかなり頻繁に出現する場合、対応するクラスはおそらく音声内容に欠くことのできない部分であり、マーカとして有効ではあり得ない。同様に、ラベルがかなり低頻度で出現する場合も、ラベルはマーカとして有効ではあり得ない。一実施の形態では、Ｆｒ_ｈｉｇｈは約３分の１(one in three)であり、Ｆｒ_ｌｏｗは約１００分の１(one in a hundred)である。

追加の要件として、マーカに関連付けられるラベルｍは、ビデオ全体を通じて適度に分散しているべきである。換言すれば、マーカは、すべてが非常に少数の時点の付近に集中しているべきではない。同様に、マーカは、多数の分離した時点において出現するほど分散しているべきでもない。この制約は、

として表すことができ、式中、

はすべての非自己遷移(すなわちｉ≠ｊ)をカウントし、Ｔ(ｍ，ｍ)はマーカラベルの自己遷移をカウントし、α_１は最大分散係数であり、α_２は最小分散係数である。一実施の形態では、α_１＝５．０及びα_２＝１．５を選択する。

マーカｍを求めた後、マーカに関連付けられる時間期間ｔ_ｍの遷移行列Ｔ_ｍを求めることができる。図６を参照されたい。一実施の形態では、ｔ_ｍは０．５秒である。

一実施の形態では、マーカは近似境界として使用することができる。期間ｔ_ｍに関して現在の時点ｔ_０の前の期間ｔ_ｂ、及び時点ｔ_０の後の期間ｔ_ａの遷移差を測定することによって、境界のより正確な推定値を得ることができる。

式中、Ｔ_ａは時間期間ｔ_aの遷移行列であり、Ｔ_ｂは時間期間ｔ_ｂの遷移行列であり、Ｔ_ｍは時間期間ｔ_ｍの遷移行列である。Diff_transitionが閾値Ｔｈ_１よりも大きく、且つ極大でもある場合、対応する時点ｔ_０が境界である。本質的に、これは、実質的に時間的に隣接するマーカの集合の中心を位置特定しようと試みる。

本発明を好ましい実施の形態の例として説明してきたが、本発明の精神及び範囲内でさまざまな他の適応及び変更を行うことができることは理解されたい。したがって、添付の特許請求の範囲の目的は、本発明の真の精神及び範囲内に入るこのようなすべての変形及び変更を包含することである。

本発明のビデオをセグメント化する方法は、多くの種類のビデオに適用可能である。

Claims

コンピュータによって実施されるビデオをセグメント化する方法であって、該ビデオは映像内容と音声内容とを含み、該映像内容と該音声内容とは同期され、該方法は、
前記ビデオの前記音声内容の各フレームをラベルを用いて分類するステップであって、一連の連続するラベルを生成するものと、
優位ラベルを前記連続するラベルの各継続的な時間間隔に割り当てるステップであって、該時間間隔の長さは前記フレームの長さよりも実質的に長いものと、
前記継続的な時間間隔のスライドする時間窓の意味記述を構築するステップであって、該スライドする時間窓は時間的に重なり、各該時間窓の長さは前記時間間隔の長さよりも実質的に長く、各該時間窓の前記意味記述は、前記時間間隔の連続する前記優位ラベル間の遷移から求められる遷移行列であるものと、
前記遷移行列からマーカを求めるステップであって、該マーカが出現する頻度は低頻度閾値と高頻度閾値との間であるものと、
前記音声内容において前記マーカの位置にある前記ビデオをセグメント化するステップと、
を含む方法。
ビデオ全体の音声内容の遷移行列を構築することをさらに含む請求項１に記載の方法。
各遷移行列からヒストグラムを構築することをさらに含む請求項１に記載の方法。
ビデオ全体の音声内容のヒストグラムを構築することをさらに含む請求項３に記載の方法。
ビデオ全体の遷移ヒストグラム内の遷移の回数は前記ビデオ全体の音声内容の中のラベルの数に等しい請求項１に記載の方法。
遷移は連続する優位ラベル間の自己遷移を含む請求項５に記載の方法。
ビデオ内にマーカが出現する各時点における遷移差を求めることをさらに含む請求項１に記載の方法。
遷移差を第１の閾値Ｔｈ_１と比較し、ビデオ内のセグメント化境界を示すことをさらに含む請求項７に記載の方法。
遷移行列を正規化することをさらに含む請求項１に記載の方法。
現在の時間窓の現在の時点ｔ_０の前の時点ｔ_ｂにおける各時間窓、及び前記現在の時点ｔ_０の後の時点ｔ_ａにおける各時間窓に関して意味差Diff_semanticを以下のように求めること、

式中、Ｔ_ａ(ｉ，ｊ)は時点ｔ_ａにおける時間窓の遷移行列、Ｔ_ｂ(ｉ，ｊ)は時点ｔ_ｂにおける時間窓の遷移行列、及び
Diff_semanticを第２の閾値Ｔｈ_２と比較し、ビデオ内のセグメント化境界を示すこと、
をさらに含む請求項１に記載の方法。
低頻度閾値は約３分の１であり、高頻度閾値は約１００分の１である請求項１に記載の方法。
セグメント化するステップは、
マーカに関連付けられる期間ｔ_ｍに関して現在の時点ｔ_０の前の期間ｔ_ｂ、及び前記時点ｔ_０の後の期間ｔ_ａの遷移差Diff_transitionを以下の式に従って求めること、

式中、ｉ_ｍは前記マーカ、Ｔ_ａは時間期間ｔ_aの遷移行列、Ｔ_ｂは時間期間ｔ_ｂの遷移行列、Ｔ_ｍは時間期間ｔ_ｍの遷移行列、
前記遷移差を閾値と比較すること、及び
前記遷移差が前記閾値よりも大きく、且つ極大である場合に、現在の時点を境界として選択すること、
をさらに含む請求項１に記載の方法。
マーカはビデオ全体を通じて適度に分散される請求項１に記載の方法。