JP2002536746A

JP2002536746A - 動画シーケンスを表す記述子とその記述子を使用する画像検索システム

Info

Publication number: JP2002536746A
Application number: JP2000597707A
Authority: JP
Inventors: モーリィ，ブヌワ
Original assignee: Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 1999-02-01
Filing date: 2000-01-28
Publication date: 2002-10-29
Also published as: WO2000046695A1; EP1068576A1; US7010036B1; KR20010042310A; CN1293782A

Abstract

(57)【要約】本発明は、動画索引付けの観点から、動画シーンのフレームの任意のシーケンスにある、カメラ、任意の種類のオブザーバ又は観察装置の動作を示す記述子に係る。上記動作は下記の基本操作の少なくとも1つ、又は数個からなる。基本操作は、固定状態、パニング（水平方向の旋回）、トラッキング（水平の横方向の動作）、チルティング（垂直方向の旋回）、ブーミング（垂直に横断する動作）、ズーミング（焦点距離の変更）、ドーリング（光学軸に沿っての移動）、及びローリング（光学軸の周りの回転）、又は少なくとも２つの上記操作の組合わせである。固定状態以外の動作は、２つの異なる方向を表す２つのコンポーネントに更に分けられ、所定の移動の大きさと値が一致するヒストグラムによって示される。本発明は更に、記述子を使用する動画索引付け装置を含む画像検索システムに係る。

Description

【発明の詳細な説明】

【０００１】［発明の分野］本発明は、動画索引付けの観点から、動画シーンのフレームの任意のシーケン
スにある、カメラ、任意の種類のオブザーバ又は観察装置の動作を示す記述子に
係る。上記動作は下記の基本的な動作の少なくとも1つ、又は数個を示す。基本
動作は、固定状態、パニング（水平方向の旋回）、トラッキング（水平の横方向
の動きであり、フィルムに関する専門用語でトラベリングとも呼ばれる）、チル
ティング（垂直方向の旋回）、ブーミング（垂直に横断する動作）、ズーミング
（焦点距離の変更）、ドーリング（光学軸に沿っての移動）、及びローリング（
光学軸の周りの回転）、又は少なくとも２つの上記動作の任意の組合わせである
。本発明は、将来のＭＰＥＧ７の基準に適するようにされた広範な種類のアプリ
ケーションで使用される。

【０００２】［発明の背景］例えばテレビジョン、道路交通、遠隔感知、気象学、医療画像などの幾つかの
アプリケーション分野において、画像及び動画情報をアーカイブすることは非常
に重要な課題である。しかし、所与の問い合わせに直接関係する情報を突き止め
ること又は膨大な動画ファイルをブラウズすることはいまだ困難である。各記憶
された動画に対してキーワードを与え、このキーワードに基づいて検索をするデ
ータベースを用いることが、最も一般的に用いられる取り組み方である。

【０００３】ＭＰＥＧによって既に３つの基準が決められている。オーディオビジュアルシ
ーケンス記憶用のＭＰＥＧ−１、オーディオビジュアルシーケンス放送用のＭＰ
ＥＧ−２、オブジェクト指向の相互作用マルチメディアアプリケーション用のＭ
ＰＥＧ−４である。将来の基準、ＭＰＥＧ−７は、様々な種類のマルチメディア
情報を示すのに使用される記述子の基準の組を特定することによって、オーディ
オビジュアル情報の検索の解決策を供給する。ＭＰＥＧ−７は、（説明スキーム
、即ち、シーンに含まれる情報を示す方法である）記述子の構造及びそれらの関
係のみならず、他の記述子を定義する方法も標準化させる。動画の説明はコンテ
ンツ自体に含まれ、ユーザの関心である（スチール写真、グラフィック、３Ｄモ
デル、音声、スピーチ、動画などの）材料に対して高速で効率的な検索が可能と
なる。

【０００４】［発明の説明］本発明は、動画シーン内のフレームの任意のシーケンスにおける、カメラ（又
は任意の種類のオブザーバ若しくは観察装置）の動作を表示する解決策を提供す
ることを目的とする。

【０００５】上記目的のために、本発明は、冒頭部に定義されたような記述子に係り、更に
上記の固定状態以外の上記動作は、２つの異なる方向を表す２つのコンポーネン
トに細分化され、所定の移動の大きさに一致する値を有するヒストグラムによっ
て示される。

【０００６】効率は、データベースシステムに含まれる検索ストラテジにも依存するが、（
全ての可能な動作のパラメータ及びそれに関連する速度のことであり、上記動作
の速度は、全ての可能なアプリケーションにおいて十分であるように思われる１
フレームに対して半画素であることが好適である）動作のコンポーネントはそれ
ぞれ独立して明確に説明されるので上記記述子の効果は否定できない。記述子は
単純で、包括的であるので、非常に大きい量の可能な問い合わせがパラメータで
表示されることを可能にする。カメラ動作は、動画コンテンツを有する全てのア
プリケーション（問い合わせ−検索システム、更に動画監視、動画編集など）に
おける重要な特徴であるので、適用される範囲は非常に大きい。更に、上記提案
された記述子はデータ量を測定することに適すようにはあまり向けられていない
が、階層スキーム内で、カメラ動作を広い範囲の時間的粒度で示すことを可能に
する。

【０００７】［発明の実施の形態］本発明を、添付図を参照し実施例によって説明する。

【０００８】動画索引付けの観点において、カメラ動作は非常に重要である。対象の動作と
全体の動作は静止画像と動画の違いの最も重要な特徴であるので、動画コンテン
ツに基づいた索引システムは、どれにも広範な向きの動作を効率的に示す方法を
含むべきである。カメラ動作に関して、カメラが静止した状態の動画の部分とカ
メラがトラベリング又はパニングした状態の動画の部分は、明らかに空間的−時
間的コンテンツにおいて同じ向きを有さない。他の識別特徴と同様に、上記全体
の動作は、可能であるならば問題のカメラ動作における、動画の任意の種類及び
アプリケーションの任意の種類をアドレスすることによって説明され、将来のＭ
ＰＥＧ−７のフレームワークに表示されなければならない。動画アーカイブにお
いて、全体の動作を記述することによって、専門家であるないに関わらず、ユー
ザがカメラ動作に関しての問い合わせを行なうことが可能となる。これらの問い
合わせには他の特徴の記述が混合されているが、情報に直接関係する動画ショッ
ト又は意味論上関係のあるカメラ動作を検索することが可能となる。

【０００９】一般的なカメラ動作には、上記記されたような公知である８つの基本的動作を
含む（図１、２及び３参照）。それらは即ち、固定状態、パニング、トラッキン
グ、チルティング、ブーミング、ズーミング、ドーリング及びローリングであり
、これらの動作の少なくとも２つが組合わされる他の可能な動作も多数ある。固
定状態の動作は一般的であり、更なる説明を必要としない。パニング及びチルテ
ィングは、特にカメラの中心を（例えば三脚の上に）固定して用いられ、対象又
は（例えば景色や高層建築などの）大きなシーンの眺めを追うことが可能となる
。ズーミングはしばしばシーンの特定の部分に焦点をあてる場合に用いられる。
トラッキング及びドーリングは、ほとんどの場合、（例えばトラベリングして）
移動している対象を追うために用いられる。ローリングは、例えば飛行機からの
曲芸的なシーケンスの結果、もたらされる。７つの全てのカメラ動作（固定状態
は直進）は、画像点における異なる速度をもたらし、それらは自動的にモデルさ
れ抽出される。

【００１０】これらの動作を考慮して、カメラ動作を示す総称記述子は「カメラ動作」の特
性を特徴付けることが可能であるべきである。即ち、上記動作を別々に表示して
、制限することなく上記動作の全ての組合わせを取り扱えるようにする。本明細
書に説明されるスキームは上記取り組み方と適合する。固定状態のカメラを除い
て、上記動作は、２つの異なる方向を表す２つのコンポーネントに分割される。
つまり、図１乃至３に示されるように、パニング及びトラッキングは左右のどち
らかに、チルティング及びブーミングは上下のどちらかに、ズーミングはインか
アウトのどちらかに、ドーリングは前後のどちらかに、そしてローリングは（直
進方向で）左又は（逆方向で）右のどちらかになる。それぞれの動作において更
に２つの方向に識別することによって、１５個の動作の正の値が常に使用可能で
あり、ヒストグラムと類似の方法でそれらを示すことが可能になる。

【００１１】第１に、瞬間的な動作の場合を考える。動作はそれぞれ独立して、それぞれの
速さを有しているとされ、それは統一された方法で示される。各動作によっても
たらされる局所的速度は、（移動の場合は）シーンの奥行き又は（ズーミング、
ドーリング及び旋回の場合は）画像点の位置に依存するので、速度を示すために
共通の単位が選択される。速度は画像面において、画素／フレーム値として示さ
れ、それは人間の速度認識力に近い。移動の場合、局所的速度は対象の奥行きに
依存するので、動作のベクトルの大きさは画像全体において平均化される。パニ
ング又はチルティングのような旋回の場合は、付随する影響によって歪曲されて
いない画像の中心点における速度である。ズーミング、ドーリング又はローリン
グの場合は、動作のベクトル場は（画像中心の距離に幾分比例して）発散し、速
度は画像の角の画素の移動によって示される。

【００１２】動作の速度は、画素の移動値によって示されて、効率要求に見合うように半画
素の精度で表されるよう提案されている。従って、整数値で表すために、速度は
常に最も近い半画素の値にされ、２で乗算される。これらの定義を仮定すれば、
カメラの瞬間的などの動作も、値が半画素の移動に一致する、動作のヒストグラ
ムによって示される。（「固定状態」において速度はないことは明らかであり、
従って「固定状態」が取り除かれた特定のデータの種類が必要となる。）カメラ動作を長期的に表示する場合を考える。瞬間的な動作のみを記述して表
することは非常に重労働で、時間がかかってしまう。ここでも、幾分階層的に記
述すること、つまりカメラ動作を任意の時間的粒度で表示することを提案する。
動画データ［ｎ_０、ｎ_０＋Ｎ］（Ｎはウィンドウ内のフレームの全体の個数を示
す）の時間的なウィンドウが与えられると、各フレームに対する各動作の速度が
既知となる。次に、フレームＮ（motion_type）の個数を計算することと、（例
えばパニング(panning)の動作に対して）下記の通りに定義される、ある動作が
存在する時間を百分率で示すことが可能となり、フレーム内の各動作は非ゼロの
大きさを有する。

【００１３】

【数２】この式は、どの動作にも適用される。全ての可能なカメラ動作がそれぞれ存在
する時間は、動作のヒストグラムによって示される。そのうち、０乃至１００の
間の値は、百分率と一致する。ウィンドウが１つのフレームに減少される場合、
所与の動作がフレーム内にある又はないという事実に依存して、値は０又は１０
０となる。

【００１４】最後に、表示された動画データに直接アクセスし、記述子を効率的に比較する
には、動画シーケンスの全体、ショット（ショットとは、非連続性のないフレー
ムのシーケンスであり、従って例えば動画シーケンスを基本単位の時間的素子に
分割する場合に、自然索引が可能となる）、（ショットの一部である）マイクロ
セグメント、又は1つのフレームのうちいずれかであるウィンドウを画成する時
間的境界線を付加することが提案される。

【００１５】上記定義される記述子は、始点、終点、（百分率で示される）各動作が存在す
る時間、及び統一された単位（半画素／フレーム）で示される速度の大きさによ
って、所与のフレーム内どのカメラ動作も説明することが可能となる。上記カメ
ラ動作を示す記述子の主たる基礎及び利点は、（全ての方向における、物理的に
可能な全ての動作を考慮するという）包括性、（どのカメラ動作の大きさも、専
門家用のアプリケーションにおいても十分な半画素で表される）精度、及び1つ
のフレームから全体の動画シーケンス（さらには連続した時間の間）までの広い
範囲の時間的粒度に関連付けられるという柔軟性を指す。

【００１６】上記提案されるカメラ動作を示す記述は、公式なＭＰＥＧ−７文書から引用さ
れた全ての要求、特にビジュアルに関する要求及び評価基準を満たしている。Ｍ
ＰＥＧ−７の要求として下記のことが特定されている。（ａ）「ＭＰＥＧ−７は、（時間的に構成された情報を使用して検索する要求が
ある場合に）「動作」の特性に対するビジュアル的な記述を少なくともサポート
する」。（ｂ）「ＭＰＥＧ−７は、ビジュアライゼーションに関する増加する将来性を考
慮して、マルチメディアデータの記述の範囲をサポートし、索引されたデータの
大まかなビジュアライゼーションをＭＰＥＧ−７によって幾分可能とする。」（ａ）は、本発明に明らかに適合し、上記提案される記述子によって注目され
る特性は、つまりカメラ動作のことであるので、上記「動作」に関連し、ビジュ
アライゼーションに関しては、（ストーリボードに記されるような）動画の全体
の動作を示す概略のようなものが得られるよう文章的又はグラフィック的にカメ
ラ動作を示すことが想像できよう。

【００１７】ビジュアルデータの形態及び分類に関して、ＭＰＥＧ−７の要求は下記のよう
に特定される。（ｃ）「ＭＰＥＧ−７は、下記のビジュアルデータの形態に関する記述をサポー
トする。その形態は、（ＭＰＥＧ−１、ＭＰＥＧ−２、ＭＰＥＧ−４の）デジタ
ル動画及びフィルム、アナログ動画及びフィルム、（ＪＰＥＧの）静止画、（Ｃ
ＡＤの）グラフィック、（ＶＲＭＬの）立体モデル、動画に関連のある合成デー
タなどである。」今回の提案は、動画コンテンツ自体に関連し、（例えばＭＰＥＧ−１、ＭＰＥ
Ｇ−２、ＭＰＥＧ−４仕様のモーションベクトルのような）動作に関する情報が
既にコンテンツに含まれたデジタル圧縮動画データ上で動作に関するデータを自
動抽出するほうが簡単であっても、デジタルのみならずアナログの全ての動画デ
ータ形態に適するようにされているので、上記の要求も満たす。（ｄ）「ＭＰＥＧ−７はビジュアルデータの下記の分類に特に適用可能な記述サ
ポートする。その分類は、自然動画、静止画、グラフィック、２次元アニメーシ
ョン、３次元モデル、合成情報である。」上記も、今回の提案が自然動画、アニメーション又は漫画のような動画として
示されたどのビジュアルデータにも適用されるので満たされる。

【００１８】ＭＰＥＧ−７の要求は更に、下記のような他の一般的な特性にも関連する。（ｅ）マルチメディア材料の抽出レベル今回提案された解決策は、包括的であり、カメラ動作が広い範囲の時間的粒度
で示されるように、階層的スキーム内で使用される（従って、異なる抽出レベル
が、シーケンス全体、動画ショット、ショット又は単一のフレーム内のマイクロ
セグメントの全体の動作及び大きさを示す場合がある。）（ｆ）クロスモダリティビジュアル的な記述に基づいた問い合わせは、（例えばオーディオデータのよ
うな）ビジュアルコンテンツと全く異なった特性、又は上記ビジュアルコンテン
ツの異なる特定の特性を検索することが可能となる。（対象へのクローズアップ
はズームすることによって行なわれ、又は風景のショットは一般的にパンするこ
とが含まれることを承知している場合でも、カメラ動作を示す記述子を用いるこ
とは、異なる特性の種類が含まれる検索の場合に検索の助けとなる。）（ｇ）特性優先権記述子に含まれた情報に優先順位をつけることによって、（問い合わせパラメ
ータが決められた場合に）ユーザの好みと要求に強く依存して多数の意味を有す
るようにマッチング機能を可能にする。（ｈ）特性階層カメラ動作を示す記述は階層スキームに従うようにはされていないが、問い合
わせの際に、より効率的にデータを処理するために、例えば、動画シーンの動作
を記述する際に、その中の各ショットも記述し、フレームのレベルに達するまで
上記が繰り返されるといった、説明に対して異なるレベルを構成することが可能
である。（ｉ）時間的範囲の説明カメラ動作を示す記述子は、（例えばフィルムが常に固定されたカメラを使用
して撮影されるといった、全体の動画から、非常に細かい描写を可能にするフレ
ームレベルまで）動画素材の異なる時間的範囲、又はショット内の異なるmicros
clusterのような連続した時間（例えば、上記ショットは２０秒間の長いズーム
で始まり、2秒間の短いチルトで終わる）に関連付けられる。従って、上記の関
連付けは、（記述子がデータ全体、又はデータの時間的サブセットに関連して）
階層的、又は（記述子が連続する時間の期間に関連して）シーケンシャルである
。（ｊ）直接データ操作上記は本提案において可能である。

【００１９】更に、提案された記述子は下記に示される機能的要求も達成しなければならな
い。（ｋ）コンテンツに基づいた検索本提案の主な目的の１つは、コンテンツに基づいたマルチメディアデータの（
「まさに探しているものが見つかる」ので）効果的で、（「まさに探していたも
のが、速く見つかる」ので）効率的な検索を可能にすることである。どのような
意味が含まれている場合でも、上記効果は、全ての可能な動作とそれに関する大
きさが別々に考慮される記述の精度によって保証され、上記効率は用いられるデ
ータベースエンジンと選択される検索ストラテジに依存する。（ｌ）類似性に基づいた検索本発明による記述子は、類似する度合いによってデータベースのコンテンツを
検索しランク付けすることが可能である。（ｍ）ストリームされ記憶された説明本提案の記述子は上記動作を行なう。（ｎ）アナログデータの参照本提案の記述子は、対象、時間参照及び他のどのようなアナログ形態のデータ
を参照することを制限されない。（ｏ）リンク付け本提案の記述子は、動作を示す記述が有効である時間的なウィンドウを決める
時刻が上記記述に含まれるので、参照されたデータを正確に配置することが可能
である。

【００２０】上記のように提案される記述子は、前に定義された動作のパラメータに基づい
て構成されなければならない。（カメラ又は観察装置の）上記動作のパラメータ
を推定する技術は既に幾つか存在しているが、それらはしばしば欠点を有し、１
９９９年１２月２４日に出願された国際特許出願第ＥＰ９９／１０４０９号（Ｐ
ＨＦ９９５０３）に記載されるような、カメラ動作のパラメータを推定する改善
された手段が好適である。

【００２１】上記推定手段を実施する全体的なスキームは、図４に示される。ＭＰＥＧ−７
がマルチメディアコンテンツの記述標準となるので、上記方法は特定の符号化の
種類を特定しないことを明記する。従って、記述子形成の処理は、圧縮されてい
るいないに関わらず、全ての符号化データの種類で作動しなければならない。入
力フレームから得られるほとんどの動画データは一般的にＭＰＥＧ仕様（従って
、それらは圧縮されている）で利用可能なので、ＭＰＥＧ動作の補償によって供
給される動作ベクトルを直接使用することが有利である。反対に、動画データが
圧縮されていない領域で利用可能な場合、モーションベクトル発生装置４１に、
ブロックマッチング方法が用いられて上記ベクトルが得られる。

【００２２】どのような場合でも、一度モーションベクトルが（２つの連続するフレームの
間にある）動画シーケンスから読取られ又は抽出されると、データ量及び上記モ
ーションベクトルの不均一性を減少させるために、ダウンサンプリング及びフィ
ルタリング装置４２が設けられる。上記動作は次に装置４３において、カメラの
特性が瞬時に推定される。この推定は例えば下記の方法に基づいている。

【００２３】この方法を説明する前に、使用されるカメラモデルを説明する。静的環境を移
動する一眼カメラを考える。図５に示されるように、０をカメラの光学中心とし
、ＯＸＹＺをカメラに対して固定された外側の座標系とし、ＯＺは光学軸であり
、ｘ、ｙ及びｚはそれぞれ水平、垂直及び軸の方向を示す。Ｔ_ｘ、Ｔ_ｙ及びＴｚ
はシーンにおけるＯＸＹＺの移動速度であり、Ｒ_ｘ、Ｒ_ｙ及びＲ_ｚは角速度であ
る。（Ｘ、Ｙ、Ｚ）が、立体シーンの点Ｐの瞬間座標であり、点Ｐの速度コンポ
ーネントは下記に示す通りとなる。

【００２４】

【数３】点Ｐ、即ちｐの画像位置は、下記の関係によって画像面に与えられる。

【００２５】

【数４】（ただし、ｆはカメラの焦点距離であり、）上記点ｐは画像面を下記によっても
たらされた速度で移動する。

【００２６】

【数５】幾つかの計算及び代入の後、下記の関係が得られる。

【００２７】

【数６】更に、

【００２８】

【数７】上記は更に下記のようにも表せる。

【００２９】

【数８】更に、カメラモデルにズームの動作を含ませるために、ズームは角度領域にお
いて単一の拡大率で近づけることが可能である。この仮定は、しばしばそうであ
るが、シーンにおける最付近の対象の距離がズームするための焦点距離の変更よ
りも大きい場合に有効である。

【００３０】図６にズームのみを示す。画像面に置かれる点は、時間ｔのときに（ｘ、ｙ）
に置かれ、次の時間ｔ’のときに（ｘ’、ｙ’）に置かれ、ズームしてｘに沿っ
て得られる画像速度ｕ_ｘ＝ｘ’−ｘはＲ_ＺＯＯＭの関数として下記の通り表され
る。（Ｒ_ＺＯＯＭは、図６に示される関係（θ’−θ）／θによって決められる
。） tan（θ’）＝ｘ’／ｆ及びtan（θ）＝ｘ／ｆの場合、下記の式が得られる。

【００３１】

【数９】 tan（θ’）の式は下記の通り表せる。

【００３２】

【数１０】角度差（θ’−θ）が小さいと推定すると、即ちtan（θ’−θ）は（θ’−
θ）によって近づけられ、（θ’−θ）．tanθ＜＜１であるとすると、下記が
得られる。

【００３３】

【数１１】上記は実質的に下記と同等である。

【００３４】

【数１２】この結果は下記の通りに表せる。

【００３５】

【数１３】同様に、ｕ_ｙも下記によって与えられる。

【００３６】

【数１４】速度ｕ＝（ｕ_ｘ、ｕ_ｙ）は、画像面で一回のズームによってもたらされた動作
と一致する。全ての回転、（Ｘ軸及びＹ軸に沿った）移動及びズームが考慮され
る一般的なモデルは論理的に定義することが可能となる。

【００３７】この一般的なモデルは、回転及びズームの動作を示す回転速度と、Ｘ及びＹに
おける移動（即ち、それぞれトラッキングとブーミングである）を示す移動速度
の和として下記の通り表すことが可能である。

【００３８】

【数１５】ただし、

【００３９】

【数１６】上記式では、移動に関する項のみが対象の距離Ｚに依存する。

【００４０】１９９７年に出版されたPattern RecognitionのVol.３０、N^o４の５９３乃至
６０５ページにある、M.V. Srinivasan外による「Qualitative estimation of c
amera motion parameters from video sequences」の記事では、画像のシーケン
スからカメラ動作のパラメータを抽出する、式（２１）乃至（２３）を用いた技
術が記載されている。更に正確には、上記技術の基本原理は上記記事のパート３
に説明される（５９５−５９７ページ）。上記技術は、もとの光学的フローフィ
ールドから差し引かれたときに、フローフィールドを形成するＲ_ｘ、Ｒ_ｙ、Ｒ_ｚ及びＲ_ＺＯＯＭの最適値を見つけて実施され、全てのベクトルが平行である残留
フローフィールドをもたらし、セクタに基づいた有利な基準によって残留フロー
ベクトルの平行のずれを最小化する反復方法を用いる。

【００４１】上記反復方法の各ステップにおいて、現在のカメラ動作のパラメータによる光
学フローは、２つの異なるカメラモデルのうち１つによって計算される。第１の
モデルは、視界（又は焦点距離ｆ）の角度の大きさは既知であるとする。これは
式（２３）におけるｘ／ｆとｙ／ｆの比が画像の各点において計算できることを
意味し、上記式によって光学フローを正確に計算することを可能にする。パニン
グ及びチルティングの歪みを考慮する第１のモデルは、カメラの視野が広く、既
知である場合により正確な結果をもたらす。しかし、焦点距離が既知ではないこ
とが時々あり、視野が広いものとされる場合に画像の制限された領域だけにおい
て第２のモデルを使用する。上記第２のモデルでは、式（２３）で計算する前に
、小さいフィールド近似値（ｘ／ｆ及びｙ／ｆは１より非常に小さい）が必要と
なり、下記の式がもたらされる。

【００４２】

【数１７】従って、装置４３にて行なわれた推定は、各フレームの対に対して１つの特性
ベクトルをもたらす。最後に、関連のシーケンス全体内の特性ベクトルの組が長
期的動作分析装置４４によって受信される。その装置４４は、コンテンツに基づ
いた、特にＭＰＥＧ−７用の動画索引フレームワーク内にある検索コンテキスト
のカメラ動作に関するシーケンスを索引するために用いられる動作を示す記述子
を出力する。

【００４３】２つの主な問題、即ち、画像の低周波数部分又は組成が非常に均一であるとこ
ろにおけるモーションベクトルの不均一性と、ブロックのサイズが非常に小さい
ことが、装置４２における処理ステップを正当化する。ダウンサンプリング及び
フィルタリング処理は、もとの視野をダウンサンプリングして、ベクトルの量を
減らし、同時に全体の情報と一致しないベクトルを拒絶するよう設けられる。各
ベクトルに対して計算される信頼マスクが使用される。信頼マスクは、各モーシ
ョンベクトルの信頼度に応じて０と１の間で異なる基準であり、上記ベクトルが
考慮されるべきであるかそうでないかを決めることを可能にする。信頼マスクの
例は、理論上のどのカメラ動作に対して、モーションベクトルはそれほど変化し
ない、つまり近いベクトルは近い値を有するということを考えることである。例
えば、平均値、又は（大きく離れた誤りに平均値より敏感ではないので）好まし
くはメディアン（median）によって示される各ベクトルから近傍のベクトルまで
の距離によって信頼度を測定することができる。信頼マスクＣ_ｉ、ｊは下記の式
によって決められる。

【００４４】

【数１８】図７はフィルタリング技術を説明する。（右側にある）フィルタされたフィー
ルドのブロックの個数は、（左側にある）もとのフィールドのブロックの個数の
４分の１である。新しいブロックのモーションを示すベクトルは、４つのもとの
ブロックのモーションベクトルに応じて計算され、それらの信頼度は、示される
ように付近のベクトルに応じて計算される。新しいブロックに対するモーション
ベクトルは、もとの小さいブロックの加重平均であり、下記の通り示される。

【００４５】

【数１９】フィルタされたモーションベクトルのフィールドから、各フレームの対に対し
て、上記２つのフレームの間のカメラ動作に関する情報を含む特性ベクトルを計
算するために設けられた装置４３は、下記に説明される推定アルゴリズムも行な
う。

【００４６】まず、式（２６）から信頼マスクが計算される。次に並列処理が開始する。費
用関数、又は結果としてのベクトルの計算の際にモーションベクトルが考慮され
る毎に、モーションベクトルはその信頼マスクによって加重される。下記の式に
よって、全てのベクトルが平行である残留(residual)フィールドとなるＲ_ｘ、Ｒ _ｙ、Ｒ_ｚ、Ｒ_ＺＯＯＭ及び焦点距離ｆの最適値を計算する。

【００４７】

【数２０】更に、

【００４８】

【数２１】広い視野における非移動モーションの場合、残留ベクトルは平行にならないが
、ゼロに近いことが理想である。これは下記の式（３２）によって計算されるβ
比をもたらす。

【００４９】

【数２２】上記式は、残留フィールドにおける平行を示す。これは、残留フローベクトル
の結果の大きさに対する残留フローベクトルの大きさの和の比率を表す。β＝１
は残留ベクトルが完全に整列していることを意味し、一方、β＝０は残留ベクト
ルが互いに対してランダムに向けられていることを意味する。更に、カメラ動作
において顕著なトラッキング要素の有無を確認するために、下記の式（３２）に
よって求められる比率αを計算することによって、残留フローフィールドの強さ
ともとのフローフィールドの強さが比較される。

【００５０】

【数２３】「mean（^＊）」の演算部は、信頼マスクに応じてその独立変項の加重平均を示
す。上記２つの比によって、下記のように示されるトラッキング要素の有無及び
量が確認される。 A）β〜０の場合、トラッキングの動作はない B）β〜１の場合、 α〜０の場合、無視してよいトラッキング動作 α〜１の場合、顕著なトラッキング動作

【００５１】

【数２４】移動に関する動作の推定されるコンポーネント、即ち

【００５２】

【外１】及び

【００５３】

【外２】は、上記第1のモデルの正確なコンポーネントは示さないが、各ブロックの奥行
きが既知であるので、ｆ．T_ｘ／ｚ及びｆ．T_ｙ／ｚの全体の画像内の加重平均を
示す。しかし、上記は画像内の明らかなトラッキングの動作を良好に示す。

【００５４】本発明は、上記説明されるコンテンツに制限されるものではなく、本発明の請
求項の範囲から外れない変更又は適用が可能である。例えば、本発明は、図８に
示されるような画像検索システムにも係る。上記システムは、（シーケンシャル
な動画ビットストリームの形態で利用可能な）動画シーケンスを得るためのカメ
ラ８１、（カメラ又は任意の観察装置の）動作を示す記述子の用いてもたらされ
た分類に基づいてデータ索引付け方法を実施する動画索引付け装置８２、上記分
類の結果としてもたらされるデータ（これらのデータは、時にメタデータと呼ば
れ、次にユーザからの要求に応じて検索及びブラウジングステップを実施する）
を記憶するデータベース８３、要求されたデータベースの検索を実施するグラフ
ィックユーザインタフェース８４、及び検索された情報を表示する動画モニタ８
５を含む。

【図面の簡単な説明】

【図１】カメラの基本的な動作を示す図である。

【図２】カメラの基本的な動作を示す図である。

【図３】カメラの基本的な動作を示す図である。

【図４】カメラの特性を瞬時に推定する推定方法を実施する、完全なカメラ動作分析シ
ステムを示す図である。

【図５】カメラが移動する外側の座標系０ＸＹＺを示し、焦点距離ｆに対して、立体シ
ーン内の点Ｐ及び異なるカメラ動作のパラメータの両方に対応するレチナール（
retinal）座標（ｘ、ｙ）を表す図である。

【図６】カメラモデルに含まれるズームモデルを示す図である。

【図７】図４のシステムで用いられるフィルタリング技術を示す図である。

【図８】本発明の記述子を用いていられた分類に基づいた画像検索システムを示す図で
ある。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考）Ｈ０４Ｎ 5/92 Ｈ０４Ｎ 5/92 ＨＦターム(参考） 5B075 ND12 NK02 NK21 NR12 5C052 AB03 AB04 AC08 DD04 5C053 GB06 HA29 JA30 LA01 5L096 FA35 FA66 FA67 HA05

Claims

【特許請求の範囲】

【請求項１】動画索引付けの観点から、動画シーンの任意のフレームシー
ケンスにおける、カメラ、任意の種類のオブザーバ又は観察装置の動作を表示す
る記述子であって、上記動作は、固定状態、パニング（水平方向の旋回）、トラッキング（水平に
横断する動きであり、フィルムに関する専門用語でトラベリングとも呼ばれる）
、チルティング（垂直方向の旋回）、ブーミング（垂直に横断する動作）、ズー
ミング（焦点距離の変更）、ドーリング（光学軸に沿っての移動）、及びローリ
ング（光学軸の周りの回転）、又は少なくとも２つの上記基本操作の組合わせの
うちの1つ又は数個からなる動作であり、上記固定状態を除いた各動作は、２つの異なる方向を表す２つのコンポーネン
トに更に分けられ、更に上記の固定状態以外の上記動作は、所定の移動の大きさに一致する値を有
するヒストグラムによって示される、記述子。
【請求項２】それぞれ独立している上記動作は、共通の単位を選択して、
統一された方法で示される速度をそれぞれ有する請求項１記載の記述子。
【請求項３】上記動作の速度は、半画素の精度で表される画素の移動値に
よってそれぞれ示される請求項２記載の記述子。
【請求項４】上記速度は、整数値で表すために、半画素値に最も近い値に
され、２が乗算される請求項３記載の記述子。
【請求項５】上記動作は、任意の時間的粒度によって示されるので、階層
的に記述されることを特徴とする請求項１乃至３のうちいずれか一項記載の記述
子。
【請求項６】動画データ［ｎ_０、ｎ_０＋Ｎ］（Ｎはウィンドウ内のフレー
ムの全体の個数を示す）の時間的なウィンドウと、各フレームに対する各動作の
速度が与えられると、動作（motion type）毎にかなりの速度を有するフレーム
Ｎ_{motion_type}の個数が計算されて、【数１】の式によって、上記動作が存在する時間が百分率で示され、全ての可能な動作が存在する時間が、動作ヒストグラムによって示され、上記動作ヒストグラムの０乃至１００の値は、百分率と一致し、上記ウィンドウが1つのフレームに減少されたときに、所与の動作が上記フレ
ーム内に存在する又は存在しないという事実に依存して、上記値が０又は１００
となることを特徴とする請求項４記載の記述子。
【請求項７】動画シーケンスを得るためのカメラと、動画索引付け装置と、データベースと、要求された上記データベースの検索を実施するグラフィックユーザインタフェ
ースと、検索された情報を表示する動画モニタとを含み、上記動画索引付け装置内における索引付けは、上記カメラ動作を示す上記記述
子を用いて得られた分類に基づいている画像検索システムにおける請求項１乃至
６のうちいずれか一項記載の記述子の適用方法。