JP2003529136A

JP2003529136A - オブジェクト追跡によるプログラム分類方法

Info

Publication number: JP2003529136A
Application number: JP2001542046A
Authority: JP
Inventors: ディミトロワ，ネヴェンカ; アグニホトリ，ラリータ; ウェイ，ガン
Original assignee: Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1999-12-01
Filing date: 2000-11-15
Publication date: 2003-09-30
Also published as: WO2001041064A2; US6754389B1; WO2001041064A3; EP1312046A2

Abstract

(57)【要約】フレーム内のオブジェクト画像の存在を検出し、ビデオのセグメントの多数のフレームを通る各オブジェクト画像のパス若しくは軌跡を判定するコンテンツベース分類システムが提供される。好ましい一実施例において、顔オブジェクト及びテキストオブジェクトが識別用オブジェクト軌跡を確認するため使用される。顔、テキスト及びその他の軌跡情報の組み合わせは、本発明の好ましい一実施例において、ビデオシーケンスの各セグメントを分類するため使用される。一実施例において、階層的情報構造が分類プロセスを強化するため利用される。上位のビデオ、情報層では、分類プロセス用に使用されるパラメータは、たとえば、セグメント内のタイプ別のオブジェクト軌跡の数、オブジェクトタイプ軌跡別の平均区間などを含む。最下位のモデル、情報層では、パラメータは、たとえば、各オブジェクト軌跡に対応するオブジェクト画像のタイプ、カラー及びサイズを含む。他の一実施例において、隠れマルコフモデル（ＨＭＭ）技術が、セグメントに収容されたオブジェクト軌跡の観察された特徴量に基づいて、各セグメントを、所定の分類集合の中の一つに分類するため使用される。

Description

【発明の詳細な説明】

【０００１】１．発明の分野本発明は、通信及び情報処理の分野に係り、特に、ビデオ分類及び検索の分野
に関する。

【０００２】２．関連技術の説明顧客に提供される情報及び娯楽の選択肢は増加し続けている。顧客は、放送、
ケーブル、及び、衛星通信システムを介して、数百種類のテレビジョンチャネル
を入手することが可能である。供給される視聴物の選択肢が増加しているので、
顧客は、特定の関心のある番組を見つけることが非常に困難になり始めている。
選択作業を容易化するための多数の技術が提案され、その中の殆どの技術は、各
番組のコンテンツに基づく利用可能な番組の分類に基礎を置く。

【０００３】番組素材の分類は、手作業で作成されたテレビジョンガイド、或いは、コンテ
ンツ素材と共に送信された補助信号のようなその他の手段を用いて行なわれる。
しかし、このような分類システムは、典型的に、放送システムに限定され、テレ
ビジョンガイド又はその他のシグナリングのような補助情報を利用できることが
要求される。また、このような分類システムは、コマーシャルメッセージ、ニュ
ース定時放送の時刻若しくは継続時間などの詳細情報を含まない。視聴者は、た
とえば、番組のコマーシャルによる中断中に、チャンネルサーフ（他のチャンネ
ルの番組を見て回ること）を行い、コマーシャルが終了して番組が再開したとき
に、自動的に元の番組に戻りたいと思う場合がある。このような機能は、たとえ
ば、ピクチャー・イン・ピクチャー型受像機のような多重チャンネル受像機によ
って提供され得るが、コマーシャルによる中断毎にコマーシャルの開始及び終了
を識別する必要がある。また、視聴者は、ニュース若しくは気象の定時放送が行
なわれるときを除いて、テレビジョンが何も表示せず、音を出さない状態である
ことを望む場合もある。従来の分類システムは、番組のコマ（セグメント）を選
択的に視聴するために十分な細部を提供していない。

【０００４】放送システムは、番組放送時刻と、視聴者の利用できる視聴時刻とを一致させ
る必要がある。多重チャンネルビデオレコーダなどのビデオレコーダは、番組の
放送時刻以外の時刻に番組を簡単に視聴するために屡々使用される。ビデオレコ
ーダは、視聴者が録画された番組の特定の部分を視聴するため選択できるように
する。たとえば、コマーシャルのセグメントは、娯楽番組若しくはニュース番組
を視聴するときには飛ばされ、或いは、選択された時刻に当日のニュースを一括
して観るためニュース以外の全ての素材が飛ばされる。従来の分類システムは、
屡々、記録されたソースからの番組検索に適さない。従来のテレビジョンガイド
は、たとえば、特定の日時の特定の番組を見つけるための情報を提供するが、記
録されたディスク若しくはテープ上で特定の番組を見つけるための情報は、直接
的には得られない。上述の通り、従来のガイド及び分類システムは、視聴するた
めの番組の選択セグメントを見つけることができない。

【０００５】３．発明の概要本発明の目的は、ビデオ放送番組若しくは記録番組のセグメント又はクリップ
内のコンテンツ素材を容易に自動分類する方法及び装置を提供することである。
放送番組内の各セグメントを分類することにより、特定のタイプのコンテンツ素
材を選択的に視聴し、若しくは、視聴しないことが容易になり、番組内の多数の
セグメントの分類に基づいて番組を容易に分類できるようになる。

【０００６】本発明の目的は、フレーム内のオブジェクトの存在を検出し、ビデオのセグメ
ント（ビデオセグメント）の多数のフレームを通る各オブジェクト画像のパス若
しくは軌跡を判定するコンテンツベース分類システムによって達成される。好ま
しい一実施例において、システムは、フレーム内で顔画像及びテキスト画像の存
在を検出し、ビデオセグメントの多数のフレームを通る各画像のパス、すなわち
、軌跡を決定する。顔軌跡情報とテキスト軌跡情報の組み合わせは、本発明の好
ましい一実施例において、ビデオシーケンスの各セグメントを分類するため使用
される。分類プロセスを強化するため、階層的な情報構造が利用される。上位の
ビデオ情報層で、分類プロセス用に使用されるパラメータは、たとえば、セグメ
ント内のオブジェクトタイプ別のオブジェクト軌跡の数、オブジェクトタイプ別
の軌跡の平均継続時間などを含む。最下位のモデル情報層では、パラメータは、
たとえば、各オブジェクト軌跡に対応するオブジェクトのタイプ、カラー及びサ
イズを含む。他の一実施例において、隠れマルコフモデル（ＨＭＭ）技術が、セ
グメントに収容されたオブジェクト軌跡の観察された特徴量に基づいて、各セグ
メントを所定の分類集合の中の一つに分類するため使用される。

【０００７】以下では、一例として添付図面を参照して、本発明を詳細に説明する。全ての
図面を通じて、同じ参照番号は、類似若しくは対応した特徴又は機能を示す。

【０００８】４．実施例の説明図１は、オブジェクト軌跡に基づいて画像フレームのシーケンスを分類する画
像プロセッサ１００の一例のブロック図である。画像フレームのシーケンスを通
じて追跡されるオブジェクトは、画像フレームのシーケンスが属するクラスを容
易に識別できるオブジェクトであれば、いかなるタイプのオブジェクトでも構わ
ない。たとえば、フットボール試合のセグメントと料理ショーのセグメントを区
別するためには、たとえば、人物追跡を使用して画像の各シーケンス内で移動し
ている人物を識別し追跡する。顔オブジェクト及びテキストオブジェクトの軌跡
は、普通のテレビジョン番組のクラスを区別するために特に好適であることが判
明した。また、後述するように、顔オブジェクト及びテキストオブジェクトは、
画像フレームのシーケンスを分類可能なセグメントに分割する点に関して著しく
相異した特性を有することがわかった。顔軌跡及びテキスト軌跡は、番組分類の
ため特に好適であり、各個に異なる処理を必要とするため、顔軌跡及びテキスト
軌跡は、異なるオブジェクト軌跡のための典型的な例として使用する。当業者に
は明白であるように、ここで示される原理は、人物像オブジェクト、動物像オブ
ジェクト、車両像オブジェクト、手（身振り）オブジェクトなどの他のオブジェ
クトにも適用可能である。

【０００９】典型的な画像プロセッサ１００は、ビデオ区分器１１０と、顔追跡システム３
００と、テキスト追跡システム４００と、別オブジェクトの追跡システム５００
と、分類器２００とを含む。説明及び理解を簡単にするため、顔追跡及びテキス
ト追跡は、他のオブジェクト追跡の典型的な例として使用されているので、別オ
ブジェクトの追跡システム５００並びに対応した別の軌跡５０１についてはこれ
以上の説明を加えない。別オブジェクトの追跡システム及び別の軌跡の機能並び
に実施例は、以下の顔追跡システム３００及びテキスト追跡システム４００と、
対応した顔軌跡３０１及びテキスト軌跡４０１の詳細な説明から当業者に明白で
ある。

【００１０】典型的な画像プロセッサ１００内のビデオ区分器１１０は、処理プロセス及び
分類プロセスを容易に行なうため、ビデオストリーム１０の明確なシーケンスを
識別する。ビデオ区分器１１０は、ストリーム１０中で物理的なセグメント、若
しくは、ショット（撮影）を識別するため、カット検出のような一つ以上の一般
的に利用可能な技術を使用する。メロドラマ番組の場合、たとえば、二人の人物
間の対話は、屡々、交互の一人ずつのショットのシーケンスとして表現され、２
回のコマーシャルによる中断の間のこれらのショットのシーケンスなどは、ビデ
オストリーム１０の論理的なセグメントを形成する。物理的な区分は、ビデオス
トリームの処理を容易化する。なぜならば、論理的なセグメントは、一般的に、
物理的なセグメントの境界で開始、終了するからである。ビデオストリーム１０
のフレームの処理の種々の段階で、セグメントの境界は変化し、セグメントは、
単一のセグメントを形成するよう併合され、或いは、個別のセグメントを形成す
るように分割される。たとえば、交互に現れる人物のショットのシーケンスは、
対話セグメントとして識別されるまで、個別のセグメントとして扱われ、同様に
、共通のテキストキャプションを含む個別のショットは、キャプションが各セグ
メントに共通であることが認識された場合に限り、共通セグメントを形成する。
セグメント、すなわち、画像フレームのシーケンスは、連続的な画像フレームの
シーケンスでなくても構わないことに注意する必要がある。たとえば、処理を容
易化し、若しくは、その他の効率のため、セグメント若しくは番組セグメントを
形成する画像フレームのシーケンスは、コマーシャルであるとして分類されたフ
レームを除外するので、非コマーシャルフレームが処理され、単一の論理的セグ
メントとして分類される。

【００１１】顔追跡システム３００は、ビデオストリーム１０中の各セグメント内の顔を識
別し、セグメントの画像フレーム毎にフレーム間でその顔を追跡する。顔追跡シ
ステム３００は、検出された顔ごとに顔軌跡３０１を与える。顔軌跡３０１は、
各フレーム内の顔の座標と、初期フレーム内の顔の座標と、セグメントを通る顔
のパスを記述する動きベクトルのような軌跡情報と、及び／又は、顔のパスの特
徴量、「中距離ショット、直線的な移動」、或いは、「クローズアップショット
、中心から外れ、移動無し」などのような非常に抽象的な情報とを含む。顔がセ
グメント内に出現する時間の長さ、若しくは、フレーム数のような他の軌跡情報
は、カラー、サイズなどのような顔毎に関連した特徴量と共に各顔軌跡３０１の
パラメータに収容される。

【００１２】分類器２００は、ビデオストリーム１０のセグメント毎の類別２０１又はセグ
メントの組２０２を決めるため、ビデオストリーム１０の多数のセグメントの顔
軌跡３０１を使用する。たとえば、ニュースのセグメントのアンカーパーソンは
、屡々、僅かに動きのある中距離ショットで表され、これに対し、状況喜劇の場
合、典型的に中距離ショットを含むが、通常は、アンカーパーソンのショットよ
りも著しく大きく移動する。同様に、気象ニュースのキャスターは、屡々、長距
離ショットで映され、端から端へ少しずつ移動し、コマーシャルのセグメントは
、端から端へ少しずつ移動する長距離ショットを含むが、長距離ショットを含む
コマーシャルのセグメントの長さ、すなわち、持続時間は、典型的に、気象予報
よりも遥かに短い。同様に、セグメントの集団は、分類用の単一のセグメントを
形成するためグループ化される。たとえば、僅かな動きのある中距離ショットと
、その後に続く多少ランダムな顔軌跡を伴う非常に長距離のショットと、その後
に続く多数の顔軌跡を含む中距離ショットとからなる三つ組のセグメントは、ニ
ュース記事を紹介するアンカーパーソンと、その後に続くニュース事件の場面と
、その後に続く、現場インタビューを行なうリポーターとであると判定される。
このような判定を行なった後、分類器２００は、これらの三つのセグメントを、
ニュース類別を有する単一のセグメント２０１として分類する。続いて、コマー
シャルのセグメントによって分離された多数のこのようなニュースのセグメント
を判定した後、分類器２００は、これらのニュースのセグメントの組を、ニュー
ス類別を有する番組２０２として分類する。

【００１３】クラス分類プロセスのためのクラスと、クラス間の関係の具体的な選定は、自
由である。たとえば、気象類別は、気象ニュースを他のニュースから区別するた
めに一部のシステムで定義され、同様に、スポーツニュース類別、市場ニュース
類別、政治ニュース類別などを定義してもよい。これらの類別は、独立した類別
でもよく、或いは、階層型分類システム内のニュース類別の部分集合でも構わな
い。同様に、マトリクス型分類システムが利用され、スポーツニュース類別は、
類別のニュース系統とスポーツ系統の両方の類別に関連付けられる。同様に、一
部の類別は一時的な類別であり、或いは、分類器２００に内在する類別である。
たとえば、番組への導入部は、屡々、他のセグメントとは区別され、初期導入類
別が充当される。後続のセグメントが分類されるとき、後続のセグメントは、暫
定的な導入類別を有するセグメントに分類される。分類されたセグメントは、同
じ類別又は異なる類別のサブセグメントを含むことに注意する必要がある。３０
分間の連続フレームのブロックは、ニュース番組若しくはニュースのセグメント
として分類され、ニュースセグメント、スポーツニュースセグメント、コマーシ
ャルセグメント、及び、その他のセグメントを含み、同様に、スポーツニュース
セグメントは、野球ニュース、フットボールニュースなどからなる不連続的なコ
マーシャルではないフレームのシーケンスを含む。

【００１４】好ましい一実施例において、分類構造は、セグメント、及び、セグメントの組
の類別の決定が更に容易に行なえるように選択される。たとえば、一般的な３０
分ニュースフォーマットは、国内ニュースと、スポーツと、気候ニュースと、地
方ニュースとを順番に含み、それらの間にコマーシャルのセグメントが挿入され
る。分類器２００が３０分間のビデオセグメント内でこの一般的なフォーマット
を検出したとき、非常に曖昧であるため分類できなかったこの期間内のセグメン
トは、ニュース類別若しくはコマーシャル類別へ向かう強いバイアスと、メロド
ラマ類別若しくは状況喜劇類別のようなある種の他の類別に対抗するバイアスと
を用いて再評価される。

【００１５】多様な従来の技術、及び、後述の新規技術は、分類プロセスを実行するため利
用される。エキスパートシステムや知識ベースシステムなどは、顔軌跡と関連し
たパラメータに基づいてビデオのセグメントを分類する多変量解析を行なうため
、特に好適である。より解析的なレベルでは、多変量相関解析のような統計的技
術、並びに、パターンマッチングのようなグラフィック技術がこの分類を実行す
るため使用され得る。たとえば、画像フレームのシーケンス内の顔の場所の時間
的な描画は、特定の分類に共通した区別可能なパターンを例示する。上述の通り
、ある距離で左から右へ徐々に移動する顔の長いシーケンスは、気象レポートと
高い相関があり、多少ランダムな動きを含む短いシーケンスは、コマーシャルの
セグメントと高い相関がある。これらのシーケンス毎のグラフィック表現は、容
易に区別可能なパターンを与える。分類器２００におけるこれらの解析技術及び
その他の従来の解析技術と、分類技術の実施例は、本明細書の開示に基づいて当
業者には明白である。

【００１６】図１には、テキスト追跡システム４００も示されている。顔追跡システム３０
０と同様に、テキスト追跡システム４００は、ビデオストリーム１０のセグメン
トにテキスト素材が存在するかどうかを判定し、フレームのシーケンスを通るテ
キスト要素別のパスに対応したテキスト軌跡を与える。顔追跡システム３００と
の相違点として、テキスト素材は、屡々、多数のカット及びショットに亘って拡
がるので、テキスト追跡システム４００は区分器１１０によって与えられた区分
キューに対する感度が低い。たとえば、番組の最後のクレジット、及び、番組の
冒頭の登場人物紹介は、一般的にフォアグラウンドに提示され、一方、短いクリ
ップの系列はバックグラウンドに提示される。テキストのスクローリングは、ク
レジット類別であることを強く示唆すると共に、テキストのスクローリング中に
出現した他のセグメントの類別を強力に抑える。顔追跡システム３００と同様に
、テキスト追跡システム４００は、検出され、ビデオストリーム１０のセグメン
トを通じて追跡されたテキスト要素毎に対応したテキスト軌跡４０１を与える。

【００１７】分類器２００は、顔軌跡３０１若しくはテキスト軌跡４０１の何れか一方を使
用し、好ましくは、両方（並びに、その他の軌跡５０１）の組み合わせを使用し
、ビデオストリーム１０のセグメントを分類する。テキストがスクローリングす
る際に生じるように、異なるテキスト要素を含むセグメントは重なり合い、顔要
素と関連したセグメントに対応する場合も対応しない場合もある。分類器２００
は、上述のセグメントの再編成及び分類を行なうため多数の技術を適用する。エ
キスパートシステムや知識ベースシステムなどを含む発見的方法は、特に、この
ような区分再編成技術に好適である。

【００１８】上述の通り、セグメントの分類、及び、セグメントの定義／境界は、望ましく
は、個別のオブジェクト軌跡と、セグメント内の軌跡間の関係又はセグメント間
の関係とに基礎をおく。本発明の好ましい一実施例において、分類器２００は、
階層型多変量解析技術を利用する。分類器は、オブジェクト軌跡３０１、４０１
、５０１を処理し、ビデオレベルと軌跡レベルとモデルレベルを含む３レベルの
階層構造を形成する。ビデオレベルにおいて、各セグメント内の顔タイプオブジ
ェクト軌跡の数、テキストタイプオブジェクトの数、及び、その他のタイプのオ
ブジェクト軌跡の数、単位時間当たりのタイプ別（顔、テキストなど）のオブジ
ェクト軌跡の数、オブジェクトタイプ別の軌跡の平均継続時間、併合セグメント
を形成する各セグメントの平均長さなどのようなパラメータが、分類を容易化す
るため使用される。軌跡レベルでは、オブジェクト軌跡毎の継続時間、及び、オ
ブジェクト軌跡毎の特徴量（静止、直線的な動き、ランダムな動き、ズームイン
／ズームアウト、横並び、スクローリングなど）のようなパラメータが分類を容
易化するため使用される。モデルレベルでは、オブジェクト軌跡毎に対応した各
オブジェクト要素と関連したタイプ、カラー、サイズ及び場所のようなパラメー
タが、分類を容易化するため使用される。特定のセグメントシーケンスの個数の
ようなパラメータを有する番組レベルのようなその他の階層レベルは、分類を容
易化するため設けられる。

【００１９】好ましい一実施例において、多次元特徴空間が定義され、定義された類別を分
離可能にさせる特徴が選択される。単位時間当たりの各オブジェクトタイプに対
するオブジェクト軌跡の数と、それらの平均持続時間は、ビデオストリームのセ
グメント中の顔又はテキストのような特定のオブジェクトの密度を表現するので
、かなり有効な分離用特徴であることがわかった。さらに、長い持続時間の軌跡
は、通常、ビデオ内の非常に重要なコンテンツ情報を搬送することがわかった。
そこで、好ましい一実施例は、閾値を超える持続時間をもつオブジェクトタイプ
別の軌跡の数、及び、対応した平均持続時間を有効な分離用特徴として利用する
。さらに、特定のオブジェクトタイプの特定の特徴は、分類プロセスをより一層
容易化するために使用される。クローズアップショットは分類のために特に有効
であることがわかったので、たとえば、肩よりも近い画像を与えるショットを含
む顔軌跡の数が好ましい一実施例において使用される。

【００２０】従来の最近傍パラメトリック分類方法は、番組分類の場合に有効であり、かつ
、効率のよいことが判明した。経験、発見及びその他の要因に基づいて、各特徴
と対応したパラメータ空間の中心が判定される。所与のセグメントは、定義され
た特徴を使用して表現され、各分類中心へのベクトル距離が判定され、セグメン
トは、最も近い中心を有する類別として分類される。好ましい一実施例では、発
見的手法が、たとえば、周囲の状況又はその他の要因に基づいてこのパラメトリ
ック分類方法によって決定された類別が合理的であることを確認するため使用さ
れる。

【００２１】他の一実施例では、隠れマルコフモデル（ＨＭＭ）が分類プロセスを容易化す
るため使用される。隠れマルコフモデルの手法は、軌跡に基づく分類に対し特に
好適である。なぜならば、軌跡は、時間的なイベントを表現し、隠れマルコフモ
デルは、時間的に変化するモデルを本来的に組み込むからである。本発明の好ま
しい一実施例において、特徴量の組に対応したシンボルの組、又は、ラベルがセ
グメント内の各フレームを表現するため定義される。顔オブジェクト及びテキス
トオブジェクトを利用する好ましい一実施例において、シンボルには、１．アンカーパーソン、テキスト付き２．一人以上の人物、長いショット、テキスト付き３．ワイドクローズアップ（肩及び肩よりも上）、テキストなし４．クローズアップ（胸及び胸よりも上）、テキストなし５．３人以上の人物、テキストなし６．２人の人物、テキストなし７．１人以上の人物、中間的な近さ（腰よりも上）８．顔を含まない、５行以上のテキスト９．顔を含まない、２乃至４行のテキスト１０．顔を含まない、１行のテキスト１１．黒又は白の画面、殆ど変動なし１２．ショットの初期フレーム１３．１人の人物、長いショット、テキストなし１４．顔を含まない、テキストなし１５．それ以外が含まれる。

【００２２】図２は、隠れマルコフモデル（ＨＭＭ）に基づいて画像フレームのシーケンス
を分類する分類器２００’の一例のブロック図である。本例の分類器２００’で
は、ニュースと、コマーシャルと、状況喜劇と、メロドラマの４種類の類別タイ
プが定義される。ＨＭＭ２２０ａ−ｄは、類別毎に設けられる。一般的に知られ
た技術を使用して、各ＨＭＭ２２０ａ−ｄは、既知の類別を有する画像フレーム
のサンプルシーケンスを与えることによって学習させる。各ＨＭＭ２２０ａ−ｄ
の内部は、状態間の遷移をモデル化する遷移確率分布マトリクスと、シンボルの
発生をモデル化するシンボル観測確率分布マトリクスを有する状態機械モデルで
ある。学習プロセスは、既知の類別を有するサンプルシーケンスに対応した観測
シーケンスを生成する確率が最大になるように、遷移確率分布マトリクス及びシ
ンボル観測確率分布マトリクスのパラメータと、状態機械の初期状態とを調節す
る。

【００２３】各ＨＭＭ２２０ａ−２２０ｄを適切に学習させた後、新しいセグメント１０’
は、新しいセグメント１０’に対応した観測シンボルのシーケンスを各ＨＭＭ２
２０ａ−ｄに与えることにより分類される。シンボル発生器２１０は、たとえば
、上記のシンボルのリストを使用して、セグメント１０’を形成するフレームの
シーケンスの各フレームに適したシンボルを発生する。画像が２個以上のシンボ
ルによって表現され得る場合、シンボルのリストは、順序付きリストとして取り
扱われ、最初のシンボルが特徴用観測シンボルとして選択される。たとえば、画
像が、テキストを含まない中程度の近さの一人の人物（上記リストのシンボル７
）と、テキストを含まないクローズアップショットの別の人物（シンボル４）と
を含む場合、その画像は、テキストを含まないクローズアップショット（シンボ
ル４）として表される。観測シンボルのシーケンスに応答して、各ＨＭＭ２２０
ａ−ｄは、観察シンボルのシーケンスが指定された類別を有するビデオセグメン
トによって生成されたであろう尤度に関連した確率測度を与える。類別選択器２
５０は、各ＨＭＭ２２０ａ−ｄから通知された確率に基づいてセグメント類別２
０１を判定する。一般的に、最大確率を有するＨＭＭに対応した類別がセグメン
トに割り当てられるが、特に、ＨＭＭ２２０ａ−ｄから通知された最大確率の間
の差が十分に相異しないとき、或いは、通知された最大確率が最小閾値レベルを
超えないとき、他の要因を利用しても構わない。

【００２４】本明細書の開示から当業者には明らかであるように、付加的及び／又は代替的
な観察シンボル集合と、付加的及び／又は代替的な類別タイプが、図２に示され
た構成例の範囲内で利用される。オブジェクトタイプに人物像が含まれる場合、
たとえば、互いに一致しない多数の人物像オブジェクトを表現するシンボルは、
ある種のスポーツのセグメントを、他のスポーツ若しくは他の類別タイプと区別
するために有効なシンボルとして作用するであろう。同様に、オブジェクト軌跡
に基づいてセグメント、及び、セグメントの組を分類する他の技術は、オブジェ
クト軌跡に基づいてビデオのセグメントを分類するために説明した階層パラメト
リック技術及び／又はＨＭＭ技術と共に、或いは、これらの技術の代わりに利用
される。

【００２５】ＭＰＥＧ−４及びＭＰＥＧ−７のような従来の提案された符号化標準は、各フ
レーム内、又は、フレームのシーケンス内のオブジェクト、並びに、フレーム間
の対応した動きベクトルを明確に識別することができる。以下で説明する技術は
、典型的な顔オブジェクトタイプ及びテキストオブジェクトタイプを追跡するこ
のような明確なオブジェクト追跡技術に付加して、又は、このような技術と共に
利用することができる。その他のオブジェクトタイプを識別し追跡するため、こ
れらの技術、及び、その他の技術を適用することは、本明細書の開示に基づいて
当業者には明らかである。

【００２６】図３は、画像フレームのシーケンス内の顔軌跡を判定する顔追跡システム３０
０の一例のブロック図である。図３に示された例示的な顔追跡システム３００は
、顔検出器３２０と、顔モデラー３５０と、顔追跡器３６０とを含む。本発明の
好ましい一実施例において、顔追跡システム３００は、顔追跡を容易に行なうた
め、区分器１１０によって与えられるビデオストリーム１０のセグメントを使用
する。なぜならば、殆どの顔画像は、典型的に区分器１１０によって識別される
物理的なカット境界で開始し、終了するからである。本実施例の場合、区分器１
１０は、顔検出器３４０にスタート信号を供給する。このスタート信号に応答し
て、顔検出器は、セグメントの初期フレーム１１を走査し、初期フレーム１１内
で一つ以上の顔を識別する。図３に示された実施例の場合、顔検出器３２０は、
皮膚色調検出器及び平滑化器３３０と、形状解析器３４０とを含む。皮膚色調検
出器及び平滑化器３３０は、皮膚色を含む初期画像フレーム１１の部分を識別子
、個々の画素を平滑化し、皮膚領域を形状解析器３４０へ供給する。皮膚解析器
３４０は、各領域、又は、隣接した領域の合成が顔画像を形成するかどうかを判
定するため、識別された皮膚領域を処理する。

【００２７】図３に示されるように、顔検出プロセスは、抽出プロセス３３０と解析プロセ
ス３４０を繰り返し、典型的に時間のかかるプロセスである。後続画像フレーム
毎に顔を検出し、識別するために要する時間を最小限に抑えるため、顔モデラー
３５０及び顔追跡器３６０は、各顔軌跡を判定するため予測技術を使用するよう
構成される。顔検出器３２０が初期画像フレーム１１内で顔を見つけ、識別した
後、顔モデラー３５０は、次の後続画像フレーム１２における顔の場所を予測す
る。初期的には、他の情報が無いため、次の後続フレーム１２内の顔の場所は、
初期フレーム１１内の顔の場所と同じ場所であると予測される。顔探索器３６０
は、次の画像フレームの全体を探索して識別された顔３２１を見つけるのではな
く、予測位置３５１の近傍内だけを探索して識別された顔３２１を見つける。本
発明の好ましい一実施例において、顔追跡器３６０は、顔の存否を判定するため
、顔検出器３２０で使用されるプロセスよりも非常に簡単であり、かつ、そのた
め高速化された技術を利用する。予測顔位置の付近で、個別の画像要素（画素）
は、識別された顔３２１の特徴量からの偏差に基づいて「顔」又は「顔を含まな
い（顔以外）」のように分類される。顔画素の十分な分布が予測位置の付近で検
出された場合、顔画素の分布は識別された顔３２１であることが明らかにされ、
後続フレーム１２におけるこの画家画素の分布の位置が判定される。ビデオ区分
器１１０は、カットの位置のような区分情報を生ずるので、予測位置３５１の近
傍で、識別された顔３２１とは異なる後続フレーム１２内の顔を誤認識する尤度
は最小に抑えられる。

【００２８】識別された顔３２１が次の後続フレーム１２に存在するとき、顔追跡器３６０
は、顔モデラー３５０の予測精度を高めるため、顔モデラー３５０へフィードバ
ックを与える。このフィードバック３６１は、フレーム１２における識別された
顔の決定された位置、前の位置に関係した差パラメータなどである。本発明の好
ましい一実施例において、顔モデラーは、僅かな動き若しくは一時的な動きの影
響を最小限に抑えるため、カルマンフィルタのような適切なデータ平滑化技術を
適用する。顔モデラー３５０は、次の後続フレーム１２における顔識別情報３２
１の識別及び位置検出を容易に行なうため、顔追跡器３６０からのフィードバッ
ク３６１に基づいて、次の予測位置３５１を顔追跡器３６０へ供給し、プロセス
は継続する。

【００２９】図３に示された顔追跡器３６０は、顔検出器３２０の顔検出プロセスをリスタ
ート（再スタート）させるように構成される。このリスタートは、顔追跡器３６
０が予測位置３５１の付近で顔の位置を見つけられなかったときに常に行なわれ
、或いは、画像内の新しい顔の出現と相関した他の要因に依存して行なわれる。
たとえば、ＭＰＥＧ及びビデオ情報のその他のデジタル符号化は、後続フレーム
が先行フレームとの差に基づいて符号化される差分符号化を使用する。後続フレ
ーム１２が大規模なエンコーディングを含むとき、すなわち、有意な変化を示す
とき、顔追跡器３６０は、後続フレーム１２内で全ての顔の位置を見つけるため
、顔追跡器のリスタートを始動する。このリスタート信号に応答して、顔検出器
は、後続フレーム１２で見つけられなかった識別された顔を除去するため、或い
は、先行フレームでは検出、識別されなかった識別された顔を追加するため、現
在セグメントと関連した顔識別情報の組を更新する。

【００３０】後続フレーム１２毎に識別された顔３２１を探索する領域を最小限に抑え、か
つ、後続フレーム１２毎の識別作業の複雑さを最小限に抑えることにより、顔追
跡器３６０は、各後続フレーム１２において識別された顔毎の位置を連続的かつ
効率的に判定できるようになる。その他の最適化技術を適用してもよい。たとえ
ば、予測位置３５１に関する探索領域は、予測位置３５１と関連した信頼係数に
基づいて動的に調節される。たとえば、識別された顔が１００フレーム期間に亘
って静止していると判定された場合、顔は１０１番目のフレームで同じ場所に存
在するという予測は、顔フレームが２番目のフレームにおける初期位置に存在す
るという初期デフォルト予測よりも高い信頼係数を有するので、１０１番目のフ
レームの探索領域は、２番目のフレームの初期探索領域よりも縮小することがで
きる。同様に、顔が１００フレームのシーケンス中に素早く、かつ、幾分ランダ
ムに移動する場合、１０１番目のフレームにおける顔の場所に関する予測位置の
信頼性は低下し、１０１番目のフレームにおける予測位置に関する探索領域は確
実に拡張される。同様に、上記のＭＰＥＧ差分符号化は、選択後続フレーム１２
が先行フレームと比較して殆ど変化がないか、若しくは、全く変化がないとき、
選択後続フレーム１２を探索する必要性を除去するため使用され得る。

【００３１】顔追跡器３６０から生成された顔軌跡３０１の形式及び内容は、図１における
分類器２００で使用された技術と、これらの技術によって必要とされるパラメー
タとに依存する。たとえば、図２に示されるようにＨＭＭ分類器２００’を使用
することにより、顔軌跡３０１は、好ましくは、セグメントの各フレームに関連
した情報を含むが、この情報は、単にカメラからの距離に関する顔の位置の情報
であって、「クローズアップ」、「中程度の近さ」、「長距離」などのように表
される。パラメトリック分類器２００を使用することにより、顔軌跡３０１は、
「固定」、「横方向移動」、「接近している」、「遠ざかっている」などの概略
的な顔の動きを含み、或いは、セグメントの各フレームにおける顔の決定された
位置を含む。当業者は、セグメント分類を行なうため選択された方法に基づいて
、顔軌跡３０１に収容される適切な情報を決めることができる。

【００３２】図４には、画像シーケンス内のテキスト軌跡４０１を決定するテキスト追跡シ
ステム４００の一例のブロック図が示されている。エッジ検出器及びフィルタ４
１０は、テキスト要素を表すエッジの有無を識別する。文字検出器４２０は、識
別されたエッジによって形成された文字形式の要素の有無を識別する。テキスト
ボックス検出器４３０は、略隣接した文字を含む画像の領域を識別し、テキスト
行検出器４４０は、１行以上の略隣接したテキストを形成するテキストボックス
の組み合わせを識別する。これらのテキストの識別された行は、テキストモデラ
ー４５０によってテキストモデルとして規定される。テキストモデルは、たとえ
ば、各テキスト行のカラー及びサイズを含み、かつ、各テキスト行を形成する実
際の文字の識別情報を含む。本例のシステム４００の場合、上述のプロセスは、
画像フレームのシーケンスのフレーム毎に繰り返される。なぜならば、エッジ及
び文字ベースのプロセスは、典型的に、完了するまでに殆ど時間を必要としない
からである。テキストモデラー４５０は、フレーム毎に、もし存在するならば、
各テキスト行の位置をテキスト追跡器４６０へ通知する。テキスト追跡器４６０
は、上述の図１に示された分類器２００によって利用される技術及びパラメータ
に依存して、テキスト軌跡情報４０１を作成する。図４に示されるように、テキ
スト追跡器４６０は、テキスト行識別器４４０からの各識別されたテキスト行が
新たに識別されたか、又は、先行して識別されたかの判定が容易に行なえるよう
に、フィードバック４６１をテキストモデラー４５０へ随意的に供給する。

【００３３】テキスト追跡システム４００の性能は、顔追跡システム３００は、顔追跡シス
テム３００に関して提示した最適化技術の一部若しくは全部を利用することによ
って改善される。たとえば、構成要素４１０−４４０は、初期フレーム内のテキ
ストを識別するように構成し、テキスト追跡器４６０は、先行フレームの識別さ
れたテキスト要素に基づいて、たとえば、従来のパターンマッチング技術若しく
は文字マッチング技術を使用して後続フレームを処理するよう構成してもよい。
フレーム間の差を得るためＭＰＥＧに設けられた手段を使用するような他の最適
化技術を利用しても構わない。このような最適化技術を利用するかどうかは、こ
の技術と関連したオーバーヘッド負荷と、この技術によって得られる予測性能上
昇とを比較することによって判定される。

【００３４】上記説明は、本発明の原理を例示するための説明である。当業者は、本明細書
では明確に記載若しくは例示されていないが、本発明の原理を具現化し、かつ、
本発明の精神並びに範囲に含まれる種々の装置を案出することが可能であろう。
たとえば、ここに開示された原理は、他の画像表現及び分類技術並びにシステム
と組み合わせることが可能であり、その他のパラメータが分類プロセスで使用さ
れる。フェード、ディゾルブ、及び、ワイプのような光学的カットの数、又は、
セグメント内のこのようなカットの割合は、ニュース及びコマーシャルをその他
の類別と区別するために非常に効率的であることがわかった。同様に、開示され
た記述の適用分野は、明細書に示された実施例の範囲に制限されるものではない
。たとえば、上述の通り、ニュース番号のような番組類別は、特定の分類タイプ
のサブセグメントのシーケンスによって表される。各サブセグメントの類別は観
測シンボルを形成し、番組類別タイプ毎に対応した観測されたサブセグメント類
別のシーケンスをモデル化する隠れマルコフモデルを定義することができる。上
記並びにその他のシステム構成及び最適化機能は、本明細書の記載に基づいて当
業者には明白であり、請求項に記載された事項の範囲内に含まれる。

【図面の簡単な説明】

【図１】オブジェクト軌跡に基づいて画像フレームのシーケンスを分類する画像プロセ
ッサの一例のブロック図である。

【図２】隠れマルコフモデルに基づいて画像フレームのシーケンスを分類する分類器の
一例のブロック図である。

【図３】画像フレームのシーケンス内で顔軌跡を判定する顔追跡システムの一例のブロ
ック図である。

【図４】画像フレームのシーケンス内でテキスト軌跡を判定するテキスト追跡システム
の一例のブロック図である。

───────────────────────────────────────────────────── フロントページの続き (72)発明者アグニホトリ，ラリータオランダ国，5656 アーアーアインドーフェン，プロフ・ホルストラーン６ (72)発明者ウェイ，ガンオランダ国，5656 アーアーアインドーフェン，プロフ・ホルストラーン６Ｆターム(参考） 5B075 ND06 NR12 5L096 AA06 DA02 EA06 FA69 HA03 HA05

Claims

【特許請求の範囲】

【請求項１】画像フレームのシーケンスの初期画像フレーム内で少なくと
も一つのオブジェクト画像を識別する手順と、画像フレームのシーケンスの後続フレームに基づいて少なくとも一つのオブジ
ェクト画像と関連した少なくとも一つのオブジェクト軌跡を判定する手順と、少なくとも一つのオブジェクト軌跡に基づいて画像フレームのシーケンスを分
類する手順と、を有する、画像フレームのシーケンスを分類する方法。
【請求項２】一つ以上のオブジェクト軌跡を含む画像フレームのシーケン
スを分類する方法であって、画像フレームのシーケンスと関連付けられた、ビデオレベルパラメータ、軌跡
レベルパラメータ、及び、モデルレベルパラメータの中の少なくとも一つを含む
パラメータの組を保持する手順と、パラメータの組に基づいて画像フレームのシーケンスを分類する手順と、を有し、ビデオレベルパラメータは、一つ以上のオブジェクト軌跡のオブジェクト軌跡
数、一つ以上のオブジェクト軌跡の平均持続時間、及び、画像フレームのシーケ
ンスのフレーム数のうちの少なくとも一つを含み、軌跡レベルパラメータは、一つ以上のオブジェクト軌跡の各オブジェクト軌跡
と関連したオブジェクト軌跡持続時間、及び、一つ以上のオブジェクト軌跡の各
オブジェクト軌跡の特徴量のうちの少なくとも一つを含み、モデルレベルパラメータは、各オブジェクト軌跡と関連したオブジェクトタイ
プ、一つ以上のオブジェクト軌跡の各オブジェクト軌跡と関連したオブジェクト
カラー、一つ以上のオブジェクト軌跡の各オブジェクト軌跡と関連したオブジェ
クト位置、及び、一つ以上のオブジェクト軌跡の中の各オブジェクト軌跡と関連
したオブジェクトサイズのうちの少なくとも一つを含む、方法。
【請求項３】画像フレームのシーケンスの初期画像フレーム内で少なくと
も一つのオブジェクト画像を識別するオブジェクト識別器と、画像フレームのシーケンスの後続フレームに基づいて少なくとも一つのオブジ
ェクト画像と関連した少なくとも一つのオブジェクト軌跡を獲得するオブジェク
ト追跡器と、少なくとも一つのオブジェクト軌跡に基づいて画像フレームのシーケンスを分
類する分類器と、を有する、画像フレームのシーケンスを分類する画像プロセッサ。
【請求項４】オブジェクト追跡器は、初期画像フレーム内の少なくとも一
つのオブジェクト画像の初期位置と、画像フレームのシーケンスの一つ以上の後
続フレーム内の少なくとも一つのオブジェクト画像の一つ以上の後続位置とに基
づいて、少なくとも一つのオブジェクト軌跡を繰り返し判定し、画像プロセッサは、オブジェクト追跡器に動作的に接続されたオブジェクトモ
デラーを更に有し、オブジェクトモデラーは、少なくとも一つのオブジェクト画像の初期位置を識別し、目標領域内の一つ以上の後続位置の次の位置が容易に判定できるように、初期
位置及び少なくとも一つのオブジェクト軌跡とに基づいて一つ以上の後続フレー
ムの次のフレーム毎に目標領域を識別する、請求項３記載の画像プロセッサ。
【請求項５】分類器は、少なくとも一つのオブジェクト軌跡に基づいてオブジェクト軌跡情報の階層を
保持し、オブジェクト軌跡情報の階層毎にパラメータに基づいてシーケンスを分類する
、よう構成されている、請求項３記載の画像プロセッサ。
【請求項６】分類器は、少なくとも一つのオブジェクト軌跡に対応したシンボルのシーケンスを発生す
るシンボル発生器と、各モデル毎に少なくとも一つの軌跡に対応したシンボルのシーケンスに基づい
て統計量を決定する複数のマルコフモデルと、を更に有し、分類器は、複数のマルコフモデルによって与えられた統計量に基づいて画像フ
レームのシーケンスを分類する、請求項３記載の画像プロセッサ。
【請求項７】オブジェクト識別器は、画像フレームのシーケンスの画像フレーム内で明確なエッジを識別するエッジ
検出器と、明確なエッジを処理し、明確なエッジから文字要素を含む画像フレームの部分
を識別する特徴検出器と、文字要素を含む画像フレームの部分に基づいて、少なくとも一つのオブジェク
ト画像に対応したテキストボックスを識別するテキストボックス検出器と、を有し、オブジェクト追跡器は、画像フレームのシーケンスの一つ以上の後続フレーム
におけるテキストボックスの少なくとも一つの位置に基づいて、少なくとも一つ
のオブジェクト軌跡を判定するよう構成されている、請求項３記載の画像プロセッサ。
【請求項８】分類器は、少なくとも一つのオブジェクト軌跡と、画像フレ
ームのシーケンスが分類されている識別された各クラスの特徴に対応するクラス
位置との間のベクトル距離に基づいて、画像フレームのシーケンスを分類する、請求項３記載の画像プロセッサ。
【請求項９】画像フレームのシーケンスに対応したシンボルのシーケンス
を発生するシンボル発生器と、各モデル毎に画像フレームのシーケンスに対応したシンボルのシーケンスに基
づいて統計量を決定する複数のマルコフモデルと、複数のマルコフモデルによって与えられた統計量に基づいて画像フレームのシ
ーケンスを分類する分類器と、を有する画像プロセッサ。
【請求項１０】画像フレームのシーケンス内の少なくとも一つのオブジェ
クト画像と関連した少なくとも一つのオブジェクト軌跡を獲得するオブジェクト
追跡器を更に有し、シンボルのシーケンスは少なくとも一つのオブジェクト軌跡に基づいている、請求項９記載の画像プロセッサ。