JP4225912B2

JP4225912B2 - 圧縮ビデオにおけるトーキングヘッドの検出方法

Info

Publication number: JP4225912B2
Application number: JP2003553510A
Authority: JP
Inventors: ディヴァカラン、アジェイ; ラドクリシュナン、レギュナータン
Original assignee: Mitsubishi Electric Research Laboratories Inc
Current assignee: Mitsubishi Electric Research Laboratories Inc
Priority date: 2001-12-17
Filing date: 2002-12-17
Publication date: 2009-02-18
Anticipated expiration: 2022-12-17
Also published as: US20030112865A1; WO2003052695A3; JP2005513631A; WO2003052695A2; US6847680B2

Description

本発明は、包括的には圧縮ビデオからの動きアクティビティの抽出に関し、より詳細には圧縮ビデオにおけるトーキングヘッド（中心的に話をしている画面上の話手：TALKING HEAD）または主要キャストの識別に関する。

圧縮ビデオフォーマット
デジタルカラービデオ信号の帯域幅を圧縮する基本となる規格が、動画専門家グループ（ＭＰＥＧ）に採用されている。ＭＰＥＧ規格では、画像のフルフレームについての情報を時々のみ作り出すことによって、高データ圧縮率を達成している。フルの画像フレーム、すなわちフレーム内符号化フレームは、「Ｉフレーム」または「アンカーフレーム」としばしば呼ばれ、他のいかなるフレームからも独立したフルフレーム情報を含む。画像差フレーム、すなわちフレーム間符号化フレームは「Ｂフレーム」および「Ｐフレーム」、または「予測フレーム」と呼ばれることが多く、Ｉフレーム間で符号化され、基準フレームに関する画像差、すなわち残差のみを反映している。

通常、ビデオシーケンスのそれぞれのフレームは、より小さな画像要素、すなわち画素のデータブロックに分割される。それぞれのブロックは離散的コサイン変換（ＤＣＴ）関数を施されて、統計的に依存した空間的ドメイン画素を独立周波数ドメインＤＣＴ係数に変換する。マクロブロックと呼ばれる、画素の８×８、または１６×１６ブロックは、それぞれ、ＤＣＴ関数を施されて、符号化信号を提供する。

ＤＣＴ係数は通常エネルギー集中的であるため、１つのマクロブロックにおいて少数の係数のみが、映像情報の主な部分を含む。例えば、マクロブロックがオブジェクトのエッジ境界を含む場合、変換後、すなわちＤＣＴ係数で表されると、そのブロックのエネルギーはＤＣ係数が比較的大きく、係数のマトリクスにわたって、ＡＣ係数がランダムに分布する。

一方、非エッジマクロブロックは通常、同様の大きなＤＣ係数と、そのブロックに関連する他の係数よりも大幅に大きな数個の隣接ＡＣ係数とを特徴とする。ＤＣＴ係数は通常、適応量子化が施され、次に送信媒体に関してラン・レングス符号化および可変長符号化される。このため、送信データのマクロブロックは通常、符号語の８×８のマトリクスよりも小さいマトリクスを含む。

フレーム間符号化フレームデータ、すなわち符号化ＰまたはＢフレームデータのマクロブロックは、マクロブロックにおける予測画素と実際の画素の間の差のみを表すＤＣＴ係数を含む。フレーム内符号化フレームデータおよびフレーム間符号化フレームデータのマクロブロックはまた、用いる量子化のレベル、マクロブロックのアドレスインジケータまたはロケーションインジケータ、およびマクロブロックのタイプ等の情報も含む。後者の情報は、「ヘッダ」または「オーバーヘッド」情報と呼ばれることが多い。

それぞれのＰフレームは、最後に現れたＩフレームまたはＰフレームから予測される。それぞれのＢフレームは、Ｂフレームが間に配置されているＩフレームまたはＰフレームから予測される。予測符号化プロセスは、Ｉフレームのどのマクロブロックの変位量が現在符号化されているＢフレームまたはＰフレームのマクロブロックと最もよく一致しているかを示す、「動きベクトル」としばしば呼ばれる変位ベクトルの生成を含む。Ｉフレームにおける一致するブロックの画素データが、符号化されているＰフレームまたはＢフレームのブロックから画素毎に減算され、残差が生ずる。変換された残差およびベクトルは、ＰフレームおよびＢフレームの符号化されたデータの一部を形成する。

ＩＳＯＭＰＥＧ−１およびＭＰＥＧ−２等の古いビデオ規格は、ビデオ信号の時間圧縮および空間圧縮を主に扱う比較的低位の仕様である。これらの規格を用いることにより、広範な用途で高い圧縮比を達成することができる。ＭＰＥＧ−４等の新しいビデオ符号化規格（「Information Technology--Generic coding of audio/visual objects」ISO/IEC FDIS 14496-2 (MPEG4 Visual), Nov. 1998を参照）では、任意形状のオブジェクトを別個のビデオオブジェクトプレーン（ＶＯＰ）として符号化および復号化することができる。登場してきたこれらの規格は、インタラクティブビデオ等のマルチメディア用途を可能にすることを意図しており、その規格では、自然素材と合成素材が統合され、アクセスが自在になる。例えば、特定のタイプのビデオオブジェクトから特徴を抽出すること、あるいは特定の種類のビデオオブジェクトを処理する（perform for）ことを可能にする。

インターネット上でのビデオ配信等の新しいデジタルビデオサービスの到来と共に、アクティビティの識別のような、フレームレベルまたはオブジェクトレベルでのビデオシーケンスにおける情報を識別する信号処理技法がますます必要になっている。

特徴抽出
圧縮ビデオから識別および索引付けするための特徴を抽出することに関する以前の研究は、主にＤＣ係数抽出を強調していた。「Rapid Scene Analysis on Compressed Video」という題の論文（IEEE Transactions on Circuits and Systems for Video Technology, Vol. 5, No. 6, December 1995, page 533-544）において、YeoおよびLiuは、ＭＰＥＧ−２圧縮ビデオドメインにおける情景変化検出へのアプローチを説明している。また、著者等は、圧縮していない全画像データのシーケンスをベースにした情景変化を検出するこれまでの努力や、他者の様々な圧縮ビデオ処理技法を概説している。YeoおよびLiuは、情景解析操作に役立つように、オリジナルの画像の空間的に低減したバージョン、いわゆるＤＣ画像、および圧縮ビデオから抽出したＤＣシーケンスを用いることを紹介した。彼らの「ＤＣ画像」は、オリジナルの画像の１ブロックにおける画素の平均値である画素からできており、ＤＣシーケンスは、ＤＣ画像の数の低減した画素の組み合わせである。なお、ＤＣ画像抽出ベースの技法はＩフレームに良好であるが、これは、ＩフレームからのＤＣ値の抽出が比較的簡単であるためであることに留意する。しかし、その他のタイプのフレームについては、さらなる計算が必要である。

Proc. SPIE Conf. on Storage and Retrieval for Image and Video Databases, January 1998において発表された論文において、Won等は、ＤＣ係数に費やすビットを利用してフレーム中のエッジを見つけ出すことによって、圧縮ＭＰＥＧ−２ビデオから特徴を抽出する方法を説明している。しかし、彼らの研究は、Ｉフレームのみに限定されている。Kobla等は、同じ会報において、Yeo等のＤＣ画像抽出を用いてビデオクリップを特徴づけるビデオ軌跡を形成する方法を説明している。

Feng等(IEEE International Conference on Image Processing, Vol. II, pp. 821-824, Sept. 16-19, 1996)は、ＤＣ画像を抽出することなく、ＭＰＥＧ−２フレームのマクロブロックにわたるビット割り当てを用いて、ショット境界を検出する。Feng等の技法は、圧縮ビットストリームを解析するのに必要な分にそれほど計算量を必要としないので、計算的に最も簡単である。

米国特許出願の「Methods of scene change detection and fade detection for indexing of video sequences」（出願第０９／２３１，６９８号、１９９９年１月１４日提出）、「Methods of scene fade detection for indexing of video sequence」（出願第０９／２３１，６９９号、１９９９年１月１４日提出）、および「Methods of Feature Extraction for Video Sequences」（出願第０９／２３６，８３８号、１９９９年１月２５日）によれば、Feng等のアプローチのある態様とYeo等のアプローチのある態様との組み合わせを用いて正確かつ簡単な情景変化検出を行う、計算的に簡単な技法が説明されている。

ＤＣ画像抽出をベースにした技法を用いることによって、情景またはオブジェクト変化があると疑われるものを連続したフレームのグループ内で正確に見つけたら、見つけた情景の近傍のＰフレームまたはＢフレーム情報に適当なビット割り当てをベースにした技法および／または適当なＤＣ残差係数処理技法を適用することによって、切点を迅速にかつ正確に見つけ出せることが確認されている。この組み合わせた方法は、ＭＰＥＧ−２フレームシーケンスあるいはＭＰＥＧ−４の多オブジェクトシーケンスのいずれにも適用することができる。ＭＰＥＧ−４の場合には、各オブジェクトの領域を重み付け要素として用いて、フレームの各オブジェクトにおける変化の重み付け総和を用いるのが有利である。情景変化を見つけ出すのはビデオをショットにセグメント化するために有用である。

米国特許出願第０９／３４５，４５２号の「Compressed Bit-Stream Segment Identification and Descriptor」（Divakaran等、１９９９年７月１日提出）によれば、フレーム間符号化フレームに関連する圧縮ビットストリーム中のビット数を基にフレーム間符号化フレームの変位量を求める技法が説明されている。フレーム間符号化フレームはマクロブロックを含む。各マクロブロックは、フレーム間符号化フレームビットの個々の部分と関連する。これらのフレーム間符号化フレームビットは、そのマクロブロックから最もよく一致するフレーム内符号化フレームへの変位を表す。変位量は、フレーム間符号化フレームに関連する全てのマクロブロックの変位量の平均値である。変位量の平均値よりも小さいマクロブロックの変位量はゼロに設定される。変位量がゼロのマクロブロックのラン・レングス数を求め、１番目のフレーム間符号化フレームを識別する。

動きアクティビティ
従来技術の動きアクティビティの研究は主に、動きアクティビティの抽出、および低位の用途（情景変化またはショット変化の検出等）での動きアクティビティの使用に焦点を当てていた（米国特許出願第０９／２３６，８３８号の「Methods of Feature Extraction of Video」（Divakaran等、１９９９年１月２５日提出、参照により本明細書中に援用）を参照）。

動きアクティビティを用いて、ビデオショット中の動きアクティビティ全体および動きアクティビティの空間分布を測定することもできる。このような記述子は、全ての高アクションショットを低アクションショットからフィルタリングにより除去することによって、ビデオ閲覧用途において成功を収めている（米国特許第５，５５２，８３２号の「Run-length encoding sequence for video signals」（Astle、１９９６年９月３日発行）を参照）。このような記述子の強みは計算的な簡単さにある。

トーキングヘッドを含むビデオのセグメントまたはショットと、含まないショットとを速く識別することが望ましい。圧縮ドメインにおいて動きアクティビティを用いることにより、サイズを小さくしたビデオにおけるトーキングヘッドのより高度な検出のためのセグメント化および索引付けを高速化することができる（例えばY. Wang, Z Liu and J-C. Huang「Multimedia Content Analysis」IEEE Signal Processing Magazine, November 2000を参照）。従来技術のトーキングヘッドの検出は主に、色（例えば肌）の検出または顔の検出（複雑な操作が必要）に焦点を当てていた。

発明の開示
本発明は、「主要キャスト」または他の「トーキングヘッド」を含む圧縮ビデオにおいてフレームを識別する方法を提供する。これにより、ビデオを迅速にセグメント化することができ、計算的により費用のかかる顔の検出および認識プロセスを、サイズを小さくしたビデオのフレームに対してのみ使用することができる。

本発明は、グラウンドトルース（ground truth）の特徴セットの重心から得たテンプレートを用いるか、あるいは複数のクラスタリングしたテンプレートを用いることもできる。テンプレートの特徴ベクトルは、訓練用データに適用したガウス混合モデル（ＧＭＭ）を用いてモデル化することができる。

より詳細には、本発明は、圧縮ビデオにおいてトーキングヘッドまたは主要キャストを識別する方法を提供する。まず最初に、ビデオをショットにセグメント化する。次に、各ショットから動きアクティビティ記述子を抽出し、結合して、１つのショット動きアクティビティ記述子にする。ショット動きアクティビティ記述子とテンプレート動きアクティビティ記述子の間の距離を測定する。テンプレート動きアクティビティ記述子は、訓練用ビデオから得る。測定した距離が所定の閾値よりも短い場合、そのショットは、トーキングヘッドを含むものとして識別される。

動きアクティビティ記述子
図１は、本発明による、圧縮ビデオ１０２におけるトーキングヘッドの検出に用いるアクティビティ記述子１００を示す。ビデオ１０２は、「ショット」１０３を形成するフレーム（ｆ_０，．．．，ｆ_ｎ）のシーケンスを含む。以下において、ビデオ１０２のショット、情景、またはセグメントとは、何らかの時間的なまとまりを持つフレームセット（例えばレンズを１回開閉する間に撮影された全てのフレーム）を意味する。本発明は、ビデオ１０２中の空間、時間、方向、および強度（strength）情報を解析および使用する。

空間情報は、ショット中の移動領域のサイズおよび数をフレーム毎に表す。空間情報は、少数の大きな移動領域を有する「疎な」ショット（例えば「トーキングヘッド」）と、多数の小さな移動領域を有する「密な」ショット（例えばサッカーの試合）とを区別する。したがって、アクティビティレベルが疎なショットは少数の大きな移動領域を有するということができ、アクティビティレベルが密なショットは多数の小さな移動領域を有するということができる。

時間情報の分布は、ショットにおける各アクティビティレベルの持続時間を表す。時間情報は、動きアクティビティの強度を時間次元に拡張したものである。方向情報は、等間隔の８方向のセットにおける主な動きの方向を表す。方向情報は、ビデオ中の動きベクトルの平均角度（方向）から抽出することができる。

したがって、アクティビティ記述子１００は、ビデオシーケンス１０２におけるアクティビティレベルの強度属性１１１、方向属性１１２、空間属性１１３、および時間属性１１４を結合する（１１０）。

動きベクトルの大きさ
動きアクティビティ記述子１００のパラメータをビデオの動きベクトルの大きさから次のように導き出す。オブジェクトまたはフレームについて「アクティビティマトリクス」Ｃ_ｍｖを次のように定義する。

ここで、（ｘ_ｉ，ｊ，ｘ_ｉ，ｊ）は（ｉ，ｊ）番目のブロックＢに関連する動きベクトルである。ＭＰＥＧビデオ中のアクティビティ記述子１００を抽出する目的で、フレームまたはオブジェクトの記述子を以下のステップに従って構築する。

動きアクティビティ記述子の抽出
図２は、アクティビティ属性１００を抽出する方法２００を示す。ステップ２１０において、フレーム内符号化ブロックＢ（ｉ，ｊ）２１１をゼロに設定する。ステップ２２０では、フレーム／オブジェクトの各ブロックＢについて、動きベクトルの大きさの平均値Ｃ^ａｖｇ _ｍｖ２１１、すなわち「動きの複雑度の平均値」を次のように求める。

Ｍ＝幅（ブロック数）
Ｎ＝高さ（ブロック数）

ステップ２３０では、Ｃ^ａｖｇ _ｍｖの分散σ^２２３１を次のように求める。

Ｍ＝幅（ブロック数）
Ｎ＝高さ（ブロック数）

ステップ２４０では、動きベクトルアクティビティマトリクスＣ_ｍｖの閾値に平均値を用いることによって、当該アクティビティマトリクスの「ラン・レングス」パラメータ２４１を次のように求める。

以下の説明上、ラスタスキャンの長さに関して、ゼロのラン・レングス・パラメータを特に関心の対象とする。

ゼロのラン・レングス・パラメータを、短い、中間、長いの３つの種類に分類する。ゼロのラン・レングス・パラメータを、オブジェクト／フレームの幅に関して正規化する。短いゼロのラン・レングスをフレーム幅の１／３以下として、中間のゼロのラン・レングスをフレーム幅の１／３より長くフレーム幅の２／３未満として定義する。長いゼロのラン・レングスはフレーム幅以上である（すなわちラン・レングスがいくつかの連続するラスタスキャンラインにまたがる）。「ゼロのラン・レングス」のさらなる説明については、米国特許出願第０９／２３６，８３８号の「Methods of Feature Extraction of Video」（Divakaran等、１９９９年１月２５日提出、参照により本明細書中に援用）を参照されたい。

以下の表記では、パラメータＮ_ｓｒを短いゼロのラン・レングスとして用い、同様に中間のゼロのラン・レングスおよび長いゼロのラン・レングスをそれぞれパラメータＮ_ｍｒおよびＮ_ｌｒで定義する。ゼロのラン・レングス・パラメータを量子化し、回転、平行移動、対称移動等に関して何らかの不変性を得る。

したがって、フレーム／オブジェクトの動きアクティビティ記述子１００は以下を含む。

ここでσは標準偏差である。

トーキングヘッドの識別方法
図３に示すように、上述のようなＭＰＥＧ−７動きアクティビティ記述子１００を用いて、圧縮ビデオにおいて「トーキングヘッド（中心的に話をしている画面上の話手：TALKING HEAD）」または「主要キャスト」のメンバーを識別する。トーキングヘッド、あるいはより狭い意味では「ニュースアナウンサーのショット」を見つけることにより、例えばニュースストーリーの始まりと終わりを確定することによってビデオの要約化が可能になる。

まず最初に、１回限りの前処理ステップのセットにおいて、テンプレート動きアクティビティ記述子（Ｔ）３０１を形成する。このテンプレートは、代表的な「訓練用」トーキングヘッドショットから半自動的または自動的に作成することができる。自動的な作成は、訓練用ビデオ３０２から動きアクティビティ記述子（ＭＡＤ）１００を抽出すること（３１０）によって行う。訓練用ビデオは、多数のショット（例えば１０〜１００の典型的なトーキングヘッドショット）を含む可能性がある。訓練用ビデオには、米国、メキシコ、日本、中国および他国のニュース番組からの、アナウンサーすなわちトーキングヘッドのみを含む番組部分を示すショットを含めることができる。動きアクティビティ記述子１００を結合して（３２０）、テンプレート動きアクティビティ記述子（Ｔ）３０１を形成する。結合３２０は、動きアクティビティ記述子１００の重心または平均とすることができる。任意選択のステップとして、重み付けまたは正規化した（Ｗ）（３３０）係数を次式により生成することができる。

テンプレート３０１の形成後、ビデオ３０３中のトーキングヘッドショットを次のように識別する。まず最初に、任意の既知のセグメント化プロセスを用いてビデオ３０３をショット３０４にセグメント化することができる（３４０）。セグメント化が圧縮したＤＣ画像に基づくものである場合、ショットのセグメント化およびショットの識別は１回のパス（single pass）で行うことができる。

次に、各ショット３０４から動きアクティビティ記述子を抽出する（３５０）。テンプレート３０１に関して上述したように、動きアクティビティ記述子を結合して単一のショット（Ｓ）記述子３０５にする。次に、各ショット３０４について、次式により距離Ｄ（Ｓ，Ｔ）を測定する（３６０）。

ここで、Ｔはテンプレート動きアクティビティ記述子３０１であり、Ｓは、トーキングヘッドの識別のためにテストしているショットのショット動きアクティビティ記述子３０５である。

次に、例えば上述のようなテンプレート動きアクティビティ記述子の標準偏差σを用いて閾値処理３７０を距離に適用する。測定した距離が標準偏差内である場合、そのショットをトーキングヘッドショット３０６として識別する。トーキングヘッドショットとして識別されたショットはさらなる処理または索引付けのために保持することができ、他のショットは全て廃棄することができる。

トーキングヘッドショットは同質であるという事実を考慮してもよい。この場合、あるショットを１つのテンプレートからの距離によりトーキングヘッドショットとして識別した後、二重確認としてその同質性をチェックすることができる。この同質性は、動きアクティビティ記述子の平均値と動きアクティビティ記述子の中央値の間の差を求めることによってチェックする。この差が所定の決められた閾値を超える場合、トーキングヘッドではないと宣言する。この追加的なテストを行うことにより、テンプレート（複数可）からの距離のみを用いた場合と比べて結果が幾分向上する。

本発明による基本的な動きをベースにしたトーキングヘッドの識別方法は、従来技術の色または構造ベースの方法と対比して計算的に単純明快である。しかしながら、ショットサイズを小さくしても、誤警報の回数は（減少すべきであるのに）減少しない。これは、動きアクティビティ記述子がショットにわたって平均化されるため、単一のテンプレート３０１では１ショット全体のトーキングヘッド特徴の時間的な変化を正確に捉えることができないことによるものと思われる。そこで、本発明の方法は複数のテンプレートを用いることもできる。この場合、テンプレートＴ３０１はテンプレートセットとなり、距離はショット動きアクティビティ記述子とテンプレートセットの記述子との間で測定される。この場合、閾値処理は、距離の最小値または最大値を基準に行うことができる。

ガウス混合
テンプレートまたはテンプレートセット３０１は離散関数、例えば４つの要素からなるベクトルを用いて形成する。しかしながら、１回の前処理中に、連続関数、例えば確率密度を用いて、テンプレートの低次元ベクトルも形成することができる。この場合、まず最初に、訓練用ビデオ３０２に最も適合するガウス混合モデル（ＧＭＭ）３０７を訓練する。利点として、ＧＭＭは、任意形状の密度に対して平滑な近似値を形成し、訓練用ビデオ３０２の「ファジーな」すなわち確率的な特徴を捉える。

次に、よく知られた最尤（ＭＬ）推定法を用いて、訓練用ビデオ３０２が与えられた場合にＧＭＭの尤度を最大にするモデルパラメータ（すなわち平均、分散および混合の重み）を更新することができる。識別法に要求されるテンプレートの数に応じて、ガウス成分の平均値をテンプレートセット３０１として、混合重みの大きい順に選択することができる。

距離メトリック
テンプレートと、特定のショットの各フレームの動きアクティビティ記述子との間の半ハウスドルフ（semi-Hausdorff）距離（ｄ_ｓｈ）を測定することも可能である。特定のテンプレートＴ３０１の動きアクティビティ記述子と、特定のビデオショット３０４中のフレームセットとの間の半ハウスドルフ距離ｄ_ｓｈを次のように定義する。

テンプレートセット３０１は、ｍ個の要素Ｔ_ｉ（ｉ＝１，・・・，ｍ）３０１と、「トーキングヘッド」についてテストする、ｎ個のフレームＳ_ｉ（ｉ＝１，・・・，ｎ）を含むショットＳとを含む。上で定義したように、テンプレートＴ_ｉと特定のフレームＳ_ｉとの間の距離はｄ（Ｔ_ｉ，Ｓ_ｉ）である。

フレームＴ_ｉの各々の距離ｄ_ｉが
ｋ＝０，・・・，ｍについてｄ_ｉ＝ｍｉｎ（ｄ（Ｔ_ｋ，Ｔ_Ｒ））である場合、
ＴとＳの間の半ハウスドルフ距離は
ｉ＝１，・・・，ｎについてｄ_ｓｈ（Ｔ，Ｓ）＝ｍａｘ（ｄ_ｉ）である。

言い換えれば、まず最初に全てのｉについて、各フレームＳ_ｉと、テンプレートセットＴ３０１のなかでそれを最も良く表現したものとの間の距離ｄ_ｉを測定する。次に、上記のように距離ｄ_ｉの最大値を求める。したがって、ショット３０４がテンプレートセットＴ３０１にどれほど「近い」かを判断する。よい表現であるほど、フレームＳとテンプレートＴの間の半ハウスドルフ距離は短くなる。例えば、あるショットの半ハウスドルフ距離が短いということは、選択したテンプレートセットに対してそのショットが同質であることを示す。

単一のテンプレートのみではなく複数のテンプレートを用いる場合、本発明による方法の性能は良くなる。しかしながら、この向上に伴い、テンプレートセットとショットのフレームとの間の半ハウスドルフ距離を割り出す複雑性もさらに増す。この複雑性は、ショットをサンプリングし（３０８）、そのショット中のサンプリングしたフレームのサブセットを用いて距離を導き出すことによって、本方法の性能を実質的に下げることなく単純化することができる。

本発明は、具体的な用語および例を用いて説明される。本発明の精神および範囲内で様々な他の適用および変更を行うことができることが理解されるべきである。したがって、添付の特許請求の範囲の目的は、本発明の真の精神および範囲に入る変形および変更をすべて網羅することである。

本発明によるアクティビティ記述子のブロック図である。フレームの動きベクトルの大きさからアクティビティ記述子を抽出する方法のフロー図である。本発明による圧縮ビデオにおけるトーキングヘッドの識別方法のフロー図である。

Claims

圧縮ビデオにおけるトーキングヘッドの識別方法であって、
入力手段により圧縮ビデオが入力されること、
抽出手段が、前記圧縮ビデオにおける複数のショットの各々から動きアクティビティ記述子を抽出すること、
結合手段が、前記ショットの各々の前記複数の動きアクティビティ記述子を結合して、１つのショット動きアクティビティ記述子にすること、
測定手段が、前記ショット動きアクティビティ記述子とテンプレート動きアクティビティ記述子の間の距離を測定すること、および
識別手段が、前記測定した距離が所定の閾値よりも短い場合、特定のショットをトーキングヘッドとして識別すること
を備え、
前記動きアクティビティ記述子の各々はＣ ^ａｖｇ _ｍｖ，Ｎ _ｓｒ，Ｎ _ｍｒ，Ｎ _ｌｒ，σ _ｆｒの形式であり、ここで、Ｃ ^ａｖｇ _ｍｖは動きベクトルの平均値であり、σ _ｆｒ ^２はＣ ^ａｖｇ _ｍｖの分散であり、Ｎ _ｓｒ，Ｎ _ｍｒ，Ｎ _ｌｒはそれぞれ、短い、中間および長いゼロのラン・レングスの動きベクトルである、
圧縮ビデオにおけるトーキングヘッドの識別方法。
訓練用トーキングヘッドを含む複数の訓練用ショットを含んだ訓練用ビデオから複数の訓練用動きアクティビティ記述子を抽出すること、および
前記複数の訓練用動きアクティビティ記述子を結合して、前記テンプレート動きアクティビティ記述子にすること
をさらに備えた請求項１に記載の方法。
前記結合することは、前記複数の訓練用動きアクティビティ記述子の中央値を求めることである請求項２に記載の方法。
前記結合することは、前記複数の訓練用動きアクティビティ記述子の平均値を求めることである請求項２に記載の方法。
前記閾値は前記テンプレート動きアクティビティ記述子の標準偏差σである請求項１に記載の方法。
前記距離は次式により測定され、

ここで、Ｗ_ｔｏｔは正規化重みであり、Ｔは前記テンプレート動きアクティビティ記述子であり、Ｓは前記ショット動きアクティビティ記述子である請求項１に記載の方法。
前記ショット動きアクティビティ記述子とテンプレート動きアクティビティ記述子セットの間の距離を測定すること
をさらに備えた請求項１に記載の方法。
前記距離は半ハウスドルフ距離である請求項１に記載の方法。
前記テンプレート動きアクティビティは離散関数によりモデル化される請求項１に記載の方法。
前記テンプレート動きアクティビティは連続関数によりモデル化される請求項１に記載の方法。
前記連続関数は混合ガウス分布である請求項１０に記載の方法。
訓練用トーキングヘッドを含む複数の訓練用ショットを含んだ訓練用ビデオのサンプリングされたフレームから複数の訓練用動きアクティビティ記述子を抽出すること、および
前記複数の訓練用動きアクティビティ記述子を結合して、前記テンプレート動きアクティビティ記述子にすること
をさらに備えた請求項１に記載の方法。
前記動きアクティビティ記述子を用いて前記ビデオを前記複数のショットにセグメント化すること
をさらに備えた請求項１に記載の方法。
トーキングヘッドショットのみを保持することをさらに備えた請求項１に記載の方法。