JP2002536746A - 動画シーケンスを表す記述子とその記述子を使用する画像検索システム - Google Patents

動画シーケンスを表す記述子とその記述子を使用する画像検索システム

Info

Publication number
JP2002536746A
JP2002536746A JP2000597707A JP2000597707A JP2002536746A JP 2002536746 A JP2002536746 A JP 2002536746A JP 2000597707 A JP2000597707 A JP 2000597707A JP 2000597707 A JP2000597707 A JP 2000597707A JP 2002536746 A JP2002536746 A JP 2002536746A
Authority
JP
Japan
Prior art keywords
descriptor
camera
moving image
speed
indicated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000597707A
Other languages
English (en)
Inventor
モーリィ,ブヌワ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Electronics NV filed Critical Philips Electronics NV
Publication of JP2002536746A publication Critical patent/JP2002536746A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/786Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using motion, e.g. object motion or camera motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

(57)【要約】 本発明は、動画索引付けの観点から、動画シーンのフレームの任意のシーケンスにある、カメラ、任意の種類のオブザーバ又は観察装置の動作を示す記述子に係る。上記動作は下記の基本操作の少なくとも1つ、又は数個からなる。基本操作は、固定状態、パニング(水平方向の旋回)、トラッキング(水平の横方向の動作)、チルティング(垂直方向の旋回)、ブーミング(垂直に横断する動作)、ズーミング(焦点距離の変更)、ドーリング(光学軸に沿っての移動)、及びローリング(光学軸の周りの回転)、又は少なくとも2つの上記操作の組合わせである。固定状態以外の動作は、2つの異なる方向を表す2つのコンポーネントに更に分けられ、所定の移動の大きさと値が一致するヒストグラムによって示される。本発明は更に、記述子を使用する動画索引付け装置を含む画像検索システムに係る。

Description

【発明の詳細な説明】
【0001】 [発明の分野] 本発明は、動画索引付けの観点から、動画シーンのフレームの任意のシーケン
スにある、カメラ、任意の種類のオブザーバ又は観察装置の動作を示す記述子に
係る。上記動作は下記の基本的な動作の少なくとも1つ、又は数個を示す。基本
動作は、固定状態、パニング(水平方向の旋回)、トラッキング(水平の横方向
の動きであり、フィルムに関する専門用語でトラベリングとも呼ばれる)、チル
ティング(垂直方向の旋回)、ブーミング(垂直に横断する動作)、ズーミング
(焦点距離の変更)、ドーリング(光学軸に沿っての移動)、及びローリング(
光学軸の周りの回転)、又は少なくとも2つの上記動作の任意の組合わせである
。本発明は、将来のMPEG7の基準に適するようにされた広範な種類のアプリ
ケーションで使用される。
【0002】 [発明の背景] 例えばテレビジョン、道路交通、遠隔感知、気象学、医療画像などの幾つかの
アプリケーション分野において、画像及び動画情報をアーカイブすることは非常
に重要な課題である。しかし、所与の問い合わせに直接関係する情報を突き止め
ること又は膨大な動画ファイルをブラウズすることはいまだ困難である。各記憶
された動画に対してキーワードを与え、このキーワードに基づいて検索をするデ
ータベースを用いることが、最も一般的に用いられる取り組み方である。
【0003】 MPEGによって既に3つの基準が決められている。オーディオビジュアルシ
ーケンス記憶用のMPEG−1、オーディオビジュアルシーケンス放送用のMP
EG−2、オブジェクト指向の相互作用マルチメディアアプリケーション用のM
PEG−4である。将来の基準、MPEG−7は、様々な種類のマルチメディア
情報を示すのに使用される記述子の基準の組を特定することによって、オーディ
オビジュアル情報の検索の解決策を供給する。MPEG−7は、(説明スキーム
、即ち、シーンに含まれる情報を示す方法である)記述子の構造及びそれらの関
係のみならず、他の記述子を定義する方法も標準化させる。動画の説明はコンテ
ンツ自体に含まれ、ユーザの関心である(スチール写真、グラフィック、3Dモ
デル、音声、スピーチ、動画などの)材料に対して高速で効率的な検索が可能と
なる。
【0004】 [発明の説明] 本発明は、動画シーン内のフレームの任意のシーケンスにおける、カメラ(又
は任意の種類のオブザーバ若しくは観察装置)の動作を表示する解決策を提供す
ることを目的とする。
【0005】 上記目的のために、本発明は、冒頭部に定義されたような記述子に係り、更に
上記の固定状態以外の上記動作は、2つの異なる方向を表す2つのコンポーネン
トに細分化され、所定の移動の大きさに一致する値を有するヒストグラムによっ
て示される。
【0006】 効率は、データベースシステムに含まれる検索ストラテジにも依存するが、(
全ての可能な動作のパラメータ及びそれに関連する速度のことであり、上記動作
の速度は、全ての可能なアプリケーションにおいて十分であるように思われる1
フレームに対して半画素であることが好適である)動作のコンポーネントはそれ
ぞれ独立して明確に説明されるので上記記述子の効果は否定できない。記述子は
単純で、包括的であるので、非常に大きい量の可能な問い合わせがパラメータで
表示されることを可能にする。カメラ動作は、動画コンテンツを有する全てのア
プリケーション(問い合わせ−検索システム、更に動画監視、動画編集など)に
おける重要な特徴であるので、適用される範囲は非常に大きい。更に、上記提案
された記述子はデータ量を測定することに適すようにはあまり向けられていない
が、階層スキーム内で、カメラ動作を広い範囲の時間的粒度で示すことを可能に
する。
【0007】 [発明の実施の形態] 本発明を、添付図を参照し実施例によって説明する。
【0008】 動画索引付けの観点において、カメラ動作は非常に重要である。対象の動作と
全体の動作は静止画像と動画の違いの最も重要な特徴であるので、動画コンテン
ツに基づいた索引システムは、どれにも広範な向きの動作を効率的に示す方法を
含むべきである。カメラ動作に関して、カメラが静止した状態の動画の部分とカ
メラがトラベリング又はパニングした状態の動画の部分は、明らかに空間的−時
間的コンテンツにおいて同じ向きを有さない。他の識別特徴と同様に、上記全体
の動作は、可能であるならば問題のカメラ動作における、動画の任意の種類及び
アプリケーションの任意の種類をアドレスすることによって説明され、将来のM
PEG−7のフレームワークに表示されなければならない。動画アーカイブにお
いて、全体の動作を記述することによって、専門家であるないに関わらず、ユー
ザがカメラ動作に関しての問い合わせを行なうことが可能となる。これらの問い
合わせには他の特徴の記述が混合されているが、情報に直接関係する動画ショッ
ト又は意味論上関係のあるカメラ動作を検索することが可能となる。
【0009】 一般的なカメラ動作には、上記記されたような公知である8つの基本的動作を
含む(図1、2及び3参照)。それらは即ち、固定状態、パニング、トラッキン
グ、チルティング、ブーミング、ズーミング、ドーリング及びローリングであり
、これらの動作の少なくとも2つが組合わされる他の可能な動作も多数ある。固
定状態の動作は一般的であり、更なる説明を必要としない。パニング及びチルテ
ィングは、特にカメラの中心を(例えば三脚の上に)固定して用いられ、対象又
は(例えば景色や高層建築などの)大きなシーンの眺めを追うことが可能となる
。ズーミングはしばしばシーンの特定の部分に焦点をあてる場合に用いられる。
トラッキング及びドーリングは、ほとんどの場合、(例えばトラベリングして)
移動している対象を追うために用いられる。ローリングは、例えば飛行機からの
曲芸的なシーケンスの結果、もたらされる。7つの全てのカメラ動作(固定状態
は直進)は、画像点における異なる速度をもたらし、それらは自動的にモデルさ
れ抽出される。
【0010】 これらの動作を考慮して、カメラ動作を示す総称記述子は「カメラ動作」の特
性を特徴付けることが可能であるべきである。即ち、上記動作を別々に表示して
、制限することなく上記動作の全ての組合わせを取り扱えるようにする。本明細
書に説明されるスキームは上記取り組み方と適合する。固定状態のカメラを除い
て、上記動作は、2つの異なる方向を表す2つのコンポーネントに分割される。
つまり、図1乃至3に示されるように、パニング及びトラッキングは左右のどち
らかに、チルティング及びブーミングは上下のどちらかに、ズーミングはインか
アウトのどちらかに、ドーリングは前後のどちらかに、そしてローリングは(直
進方向で)左又は(逆方向で)右のどちらかになる。それぞれの動作において更
に2つの方向に識別することによって、15個の動作の正の値が常に使用可能で
あり、ヒストグラムと類似の方法でそれらを示すことが可能になる。
【0011】 第1に、瞬間的な動作の場合を考える。動作はそれぞれ独立して、それぞれの
速さを有しているとされ、それは統一された方法で示される。各動作によっても
たらされる局所的速度は、(移動の場合は)シーンの奥行き又は(ズーミング、
ドーリング及び旋回の場合は)画像点の位置に依存するので、速度を示すために
共通の単位が選択される。速度は画像面において、画素/フレーム値として示さ
れ、それは人間の速度認識力に近い。移動の場合、局所的速度は対象の奥行きに
依存するので、動作のベクトルの大きさは画像全体において平均化される。パニ
ング又はチルティングのような旋回の場合は、付随する影響によって歪曲されて
いない画像の中心点における速度である。ズーミング、ドーリング又はローリン
グの場合は、動作のベクトル場は(画像中心の距離に幾分比例して)発散し、速
度は画像の角の画素の移動によって示される。
【0012】 動作の速度は、画素の移動値によって示されて、効率要求に見合うように半画
素の精度で表されるよう提案されている。従って、整数値で表すために、速度は
常に最も近い半画素の値にされ、2で乗算される。これらの定義を仮定すれば、
カメラの瞬間的などの動作も、値が半画素の移動に一致する、動作のヒストグラ
ムによって示される。(「固定状態」において速度はないことは明らかであり、
従って「固定状態」が取り除かれた特定のデータの種類が必要となる。) カメラ動作を長期的に表示する場合を考える。瞬間的な動作のみを記述して表
することは非常に重労働で、時間がかかってしまう。ここでも、幾分階層的に記
述すること、つまりカメラ動作を任意の時間的粒度で表示することを提案する。
動画データ[n、n+N](Nはウィンドウ内のフレームの全体の個数を示
す)の時間的なウィンドウが与えられると、各フレームに対する各動作の速度が
既知となる。次に、フレームN(motion_type)の個数を計算することと、(例
えばパニング(panning)の動作に対して)下記の通りに定義される、ある動作が
存在する時間を百分率で示すことが可能となり、フレーム内の各動作は非ゼロの
大きさを有する。
【0013】
【数2】 この式は、どの動作にも適用される。全ての可能なカメラ動作がそれぞれ存在
する時間は、動作のヒストグラムによって示される。そのうち、0乃至100の
間の値は、百分率と一致する。ウィンドウが1つのフレームに減少される場合、
所与の動作がフレーム内にある又はないという事実に依存して、値は0又は10
0となる。
【0014】 最後に、表示された動画データに直接アクセスし、記述子を効率的に比較する
には、動画シーケンスの全体、ショット(ショットとは、非連続性のないフレー
ムのシーケンスであり、従って例えば動画シーケンスを基本単位の時間的素子に
分割する場合に、自然索引が可能となる)、(ショットの一部である)マイクロ
セグメント、又は1つのフレームのうちいずれかであるウィンドウを画成する時
間的境界線を付加することが提案される。
【0015】 上記定義される記述子は、始点、終点、(百分率で示される)各動作が存在す
る時間、及び統一された単位(半画素/フレーム)で示される速度の大きさによ
って、所与のフレーム内どのカメラ動作も説明することが可能となる。上記カメ
ラ動作を示す記述子の主たる基礎及び利点は、(全ての方向における、物理的に
可能な全ての動作を考慮するという)包括性、(どのカメラ動作の大きさも、専
門家用のアプリケーションにおいても十分な半画素で表される)精度、及び1つ
のフレームから全体の動画シーケンス(さらには連続した時間の間)までの広い
範囲の時間的粒度に関連付けられるという柔軟性を指す。
【0016】 上記提案されるカメラ動作を示す記述は、公式なMPEG−7文書から引用さ
れた全ての要求、特にビジュアルに関する要求及び評価基準を満たしている。M
PEG−7の要求として下記のことが特定されている。 (a)「MPEG−7は、(時間的に構成された情報を使用して検索する要求が
ある場合に)「動作」の特性に対するビジュアル的な記述を少なくともサポート
する」。 (b)「MPEG−7は、ビジュアライゼーションに関する増加する将来性を考
慮して、マルチメディアデータの記述の範囲をサポートし、索引されたデータの
大まかなビジュアライゼーションをMPEG−7によって幾分可能とする。」 (a)は、本発明に明らかに適合し、上記提案される記述子によって注目され
る特性は、つまりカメラ動作のことであるので、上記「動作」に関連し、ビジュ
アライゼーションに関しては、(ストーリボードに記されるような)動画の全体
の動作を示す概略のようなものが得られるよう文章的又はグラフィック的にカメ
ラ動作を示すことが想像できよう。
【0017】 ビジュアルデータの形態及び分類に関して、MPEG−7の要求は下記のよう
に特定される。 (c)「MPEG−7は、下記のビジュアルデータの形態に関する記述をサポー
トする。その形態は、(MPEG−1、MPEG−2、MPEG−4の)デジタ
ル動画及びフィルム、アナログ動画及びフィルム、(JPEGの)静止画、(C
ADの)グラフィック、(VRMLの)立体モデル、動画に関連のある合成デー
タなどである。」 今回の提案は、動画コンテンツ自体に関連し、(例えばMPEG−1、MPE
G−2、MPEG−4仕様のモーションベクトルのような)動作に関する情報が
既にコンテンツに含まれたデジタル圧縮動画データ上で動作に関するデータを自
動抽出するほうが簡単であっても、デジタルのみならずアナログの全ての動画デ
ータ形態に適するようにされているので、上記の要求も満たす。 (d)「MPEG−7はビジュアルデータの下記の分類に特に適用可能な記述サ
ポートする。その分類は、自然動画、静止画、グラフィック、2次元アニメーシ
ョン、3次元モデル、合成情報である。」 上記も、今回の提案が自然動画、アニメーション又は漫画のような動画として
示されたどのビジュアルデータにも適用されるので満たされる。
【0018】 MPEG−7の要求は更に、下記のような他の一般的な特性にも関連する。 (e)マルチメディア材料の抽出レベル 今回提案された解決策は、包括的であり、カメラ動作が広い範囲の時間的粒度
で示されるように、階層的スキーム内で使用される(従って、異なる抽出レベル
が、シーケンス全体、動画ショット、ショット又は単一のフレーム内のマイクロ
セグメントの全体の動作及び大きさを示す場合がある。) (f)クロスモダリティ ビジュアル的な記述に基づいた問い合わせは、(例えばオーディオデータのよ
うな)ビジュアルコンテンツと全く異なった特性、又は上記ビジュアルコンテン
ツの異なる特定の特性を検索することが可能となる。(対象へのクローズアップ
はズームすることによって行なわれ、又は風景のショットは一般的にパンするこ
とが含まれることを承知している場合でも、カメラ動作を示す記述子を用いるこ
とは、異なる特性の種類が含まれる検索の場合に検索の助けとなる。) (g)特性優先権 記述子に含まれた情報に優先順位をつけることによって、(問い合わせパラメ
ータが決められた場合に)ユーザの好みと要求に強く依存して多数の意味を有す
るようにマッチング機能を可能にする。 (h)特性階層 カメラ動作を示す記述は階層スキームに従うようにはされていないが、問い合
わせの際に、より効率的にデータを処理するために、例えば、動画シーンの動作
を記述する際に、その中の各ショットも記述し、フレームのレベルに達するまで
上記が繰り返されるといった、説明に対して異なるレベルを構成することが可能
である。 (i)時間的範囲の説明 カメラ動作を示す記述子は、(例えばフィルムが常に固定されたカメラを使用
して撮影されるといった、全体の動画から、非常に細かい描写を可能にするフレ
ームレベルまで)動画素材の異なる時間的範囲、又はショット内の異なるmicros
clusterのような連続した時間(例えば、上記ショットは20秒間の長いズーム
で始まり、2秒間の短いチルトで終わる)に関連付けられる。従って、上記の関
連付けは、(記述子がデータ全体、又はデータの時間的サブセットに関連して)
階層的、又は(記述子が連続する時間の期間に関連して)シーケンシャルである
。 (j)直接データ操作 上記は本提案において可能である。
【0019】 更に、提案された記述子は下記に示される機能的要求も達成しなければならな
い。 (k)コンテンツに基づいた検索 本提案の主な目的の1つは、コンテンツに基づいたマルチメディアデータの(
「まさに探しているものが見つかる」ので)効果的で、(「まさに探していたも
のが、速く見つかる」ので)効率的な検索を可能にすることである。どのような
意味が含まれている場合でも、上記効果は、全ての可能な動作とそれに関する大
きさが別々に考慮される記述の精度によって保証され、上記効率は用いられるデ
ータベースエンジンと選択される検索ストラテジに依存する。 (l)類似性に基づいた検索 本発明による記述子は、類似する度合いによってデータベースのコンテンツを
検索しランク付けすることが可能である。 (m)ストリームされ記憶された説明 本提案の記述子は上記動作を行なう。 (n)アナログデータの参照 本提案の記述子は、対象、時間参照及び他のどのようなアナログ形態のデータ
を参照することを制限されない。 (o)リンク付け 本提案の記述子は、動作を示す記述が有効である時間的なウィンドウを決める
時刻が上記記述に含まれるので、参照されたデータを正確に配置することが可能
である。
【0020】 上記のように提案される記述子は、前に定義された動作のパラメータに基づい
て構成されなければならない。(カメラ又は観察装置の)上記動作のパラメータ
を推定する技術は既に幾つか存在しているが、それらはしばしば欠点を有し、1
999年12月24日に出願された国際特許出願第EP99/10409号(P
HF99503)に記載されるような、カメラ動作のパラメータを推定する改善
された手段が好適である。
【0021】 上記推定手段を実施する全体的なスキームは、図4に示される。MPEG−7
がマルチメディアコンテンツの記述標準となるので、上記方法は特定の符号化の
種類を特定しないことを明記する。従って、記述子形成の処理は、圧縮されてい
るいないに関わらず、全ての符号化データの種類で作動しなければならない。入
力フレームから得られるほとんどの動画データは一般的にMPEG仕様(従って
、それらは圧縮されている)で利用可能なので、MPEG動作の補償によって供
給される動作ベクトルを直接使用することが有利である。反対に、動画データが
圧縮されていない領域で利用可能な場合、モーションベクトル発生装置41に、
ブロックマッチング方法が用いられて上記ベクトルが得られる。
【0022】 どのような場合でも、一度モーションベクトルが(2つの連続するフレームの
間にある)動画シーケンスから読取られ又は抽出されると、データ量及び上記モ
ーションベクトルの不均一性を減少させるために、ダウンサンプリング及びフィ
ルタリング装置42が設けられる。上記動作は次に装置43において、カメラの
特性が瞬時に推定される。この推定は例えば下記の方法に基づいている。
【0023】 この方法を説明する前に、使用されるカメラモデルを説明する。静的環境を移
動する一眼カメラを考える。図5に示されるように、0をカメラの光学中心とし
、OXYZをカメラに対して固定された外側の座標系とし、OZは光学軸であり
、x、y及びzはそれぞれ水平、垂直及び軸の方向を示す。T、T及びTz
はシーンにおけるOXYZの移動速度であり、R、R及びRは角速度であ
る。(X、Y、Z)が、立体シーンの点Pの瞬間座標であり、点Pの速度コンポ
ーネントは下記に示す通りとなる。
【0024】
【数3】 点P、即ちpの画像位置は、下記の関係によって画像面に与えられる。
【0025】
【数4】 (ただし、fはカメラの焦点距離であり、)上記点pは画像面を下記によっても
たらされた速度で移動する。
【0026】
【数5】 幾つかの計算及び代入の後、下記の関係が得られる。
【0027】
【数6】 更に、
【0028】
【数7】 上記は更に下記のようにも表せる。
【0029】
【数8】 更に、カメラモデルにズームの動作を含ませるために、ズームは角度領域にお
いて単一の拡大率で近づけることが可能である。この仮定は、しばしばそうであ
るが、シーンにおける最付近の対象の距離がズームするための焦点距離の変更よ
りも大きい場合に有効である。
【0030】 図6にズームのみを示す。画像面に置かれる点は、時間tのときに(x、y)
に置かれ、次の時間t’のときに(x’、y’)に置かれ、ズームしてxに沿っ
て得られる画像速度u=x’−xはRZOOMの関数として下記の通り表され
る。(RZOOMは、図6に示される関係(θ’−θ)/θによって決められる
。) tan(θ’)=x’/f及びtan(θ)=x/fの場合、下記の式が得られる。
【0031】
【数9】 tan(θ’)の式は下記の通り表せる。
【0032】
【数10】 角度差(θ’−θ)が小さいと推定すると、即ちtan(θ’−θ)は(θ’−
θ)によって近づけられ、(θ’−θ).tanθ<<1であるとすると、下記が
得られる。
【0033】
【数11】 上記は実質的に下記と同等である。
【0034】
【数12】 この結果は下記の通りに表せる。
【0035】
【数13】 同様に、uも下記によって与えられる。
【0036】
【数14】 速度u=(u、u)は、画像面で一回のズームによってもたらされた動作
と一致する。全ての回転、(X軸及びY軸に沿った)移動及びズームが考慮され
る一般的なモデルは論理的に定義することが可能となる。
【0037】 この一般的なモデルは、回転及びズームの動作を示す回転速度と、X及びYに
おける移動(即ち、それぞれトラッキングとブーミングである)を示す移動速度
の和として下記の通り表すことが可能である。
【0038】
【数15】 ただし、
【0039】
【数16】 上記式では、移動に関する項のみが対象の距離Zに依存する。
【0040】 1997年に出版されたPattern RecognitionのVol.30、No4の593乃至
605ページにある、M.V. Srinivasan外による「Qualitative estimation of c
amera motion parameters from video sequences」の記事では、画像のシーケン
スからカメラ動作のパラメータを抽出する、式(21)乃至(23)を用いた技
術が記載されている。更に正確には、上記技術の基本原理は上記記事のパート3
に説明される(595−597ページ)。上記技術は、もとの光学的フローフィ
ールドから差し引かれたときに、フローフィールドを形成するR、R、R 及びRZOOMの最適値を見つけて実施され、全てのベクトルが平行である残留
フローフィールドをもたらし、セクタに基づいた有利な基準によって残留フロー
ベクトルの平行のずれを最小化する反復方法を用いる。
【0041】 上記反復方法の各ステップにおいて、現在のカメラ動作のパラメータによる光
学フローは、2つの異なるカメラモデルのうち1つによって計算される。第1の
モデルは、視界(又は焦点距離f)の角度の大きさは既知であるとする。これは
式(23)におけるx/fとy/fの比が画像の各点において計算できることを
意味し、上記式によって光学フローを正確に計算することを可能にする。パニン
グ及びチルティングの歪みを考慮する第1のモデルは、カメラの視野が広く、既
知である場合により正確な結果をもたらす。しかし、焦点距離が既知ではないこ
とが時々あり、視野が広いものとされる場合に画像の制限された領域だけにおい
て第2のモデルを使用する。上記第2のモデルでは、式(23)で計算する前に
、小さいフィールド近似値(x/f及びy/fは1より非常に小さい)が必要と
なり、下記の式がもたらされる。
【0042】
【数17】 従って、装置43にて行なわれた推定は、各フレームの対に対して1つの特性
ベクトルをもたらす。最後に、関連のシーケンス全体内の特性ベクトルの組が長
期的動作分析装置44によって受信される。その装置44は、コンテンツに基づ
いた、特にMPEG−7用の動画索引フレームワーク内にある検索コンテキスト
のカメラ動作に関するシーケンスを索引するために用いられる動作を示す記述子
を出力する。
【0043】 2つの主な問題、即ち、画像の低周波数部分又は組成が非常に均一であるとこ
ろにおけるモーションベクトルの不均一性と、ブロックのサイズが非常に小さい
ことが、装置42における処理ステップを正当化する。ダウンサンプリング及び
フィルタリング処理は、もとの視野をダウンサンプリングして、ベクトルの量を
減らし、同時に全体の情報と一致しないベクトルを拒絶するよう設けられる。各
ベクトルに対して計算される信頼マスクが使用される。信頼マスクは、各モーシ
ョンベクトルの信頼度に応じて0と1の間で異なる基準であり、上記ベクトルが
考慮されるべきであるかそうでないかを決めることを可能にする。信頼マスクの
例は、理論上のどのカメラ動作に対して、モーションベクトルはそれほど変化し
ない、つまり近いベクトルは近い値を有するということを考えることである。例
えば、平均値、又は(大きく離れた誤りに平均値より敏感ではないので)好まし
くはメディアン(median)によって示される各ベクトルから近傍のベクトルまで
の距離によって信頼度を測定することができる。信頼マスクCi、jは下記の式
によって決められる。
【0044】
【数18】 図7はフィルタリング技術を説明する。(右側にある)フィルタされたフィー
ルドのブロックの個数は、(左側にある)もとのフィールドのブロックの個数の
4分の1である。新しいブロックのモーションを示すベクトルは、4つのもとの
ブロックのモーションベクトルに応じて計算され、それらの信頼度は、示される
ように付近のベクトルに応じて計算される。新しいブロックに対するモーション
ベクトルは、もとの小さいブロックの加重平均であり、下記の通り示される。
【0045】
【数19】 フィルタされたモーションベクトルのフィールドから、各フレームの対に対し
て、上記2つのフレームの間のカメラ動作に関する情報を含む特性ベクトルを計
算するために設けられた装置43は、下記に説明される推定アルゴリズムも行な
う。
【0046】 まず、式(26)から信頼マスクが計算される。次に並列処理が開始する。費
用関数、又は結果としてのベクトルの計算の際にモーションベクトルが考慮され
る毎に、モーションベクトルはその信頼マスクによって加重される。下記の式に
よって、全てのベクトルが平行である残留(residual)フィールドとなるR、R 、R、RZOOM及び焦点距離fの最適値を計算する。
【0047】
【数20】 更に、
【0048】
【数21】 広い視野における非移動モーションの場合、残留ベクトルは平行にならないが
、ゼロに近いことが理想である。これは下記の式(32)によって計算されるβ
比をもたらす。
【0049】
【数22】 上記式は、残留フィールドにおける平行を示す。これは、残留フローベクトル
の結果の大きさに対する残留フローベクトルの大きさの和の比率を表す。β=1
は残留ベクトルが完全に整列していることを意味し、一方、β=0は残留ベクト
ルが互いに対してランダムに向けられていることを意味する。更に、カメラ動作
において顕著なトラッキング要素の有無を確認するために、下記の式(32)に
よって求められる比率αを計算することによって、残留フローフィールドの強さ
ともとのフローフィールドの強さが比較される。
【0050】
【数23】 「mean()」の演算部は、信頼マスクに応じてその独立変項の加重平均を示
す。上記2つの比によって、下記のように示されるトラッキング要素の有無及び
量が確認される。 A)β〜0の場合、トラッキングの動作はない B)β〜1の場合、 α〜0の場合、無視してよいトラッキング動作 α〜1の場合、顕著なトラッキング動作
【0051】
【数24】 移動に関する動作の推定されるコンポーネント、即ち
【0052】
【外1】 及び
【0053】
【外2】 は、上記第1のモデルの正確なコンポーネントは示さないが、各ブロックの奥行
きが既知であるので、f.T/z及びf.T/zの全体の画像内の加重平均を
示す。しかし、上記は画像内の明らかなトラッキングの動作を良好に示す。
【0054】 本発明は、上記説明されるコンテンツに制限されるものではなく、本発明の請
求項の範囲から外れない変更又は適用が可能である。例えば、本発明は、図8に
示されるような画像検索システムにも係る。上記システムは、(シーケンシャル
な動画ビットストリームの形態で利用可能な)動画シーケンスを得るためのカメ
ラ81、(カメラ又は任意の観察装置の)動作を示す記述子の用いてもたらされ
た分類に基づいてデータ索引付け方法を実施する動画索引付け装置82、上記分
類の結果としてもたらされるデータ(これらのデータは、時にメタデータと呼ば
れ、次にユーザからの要求に応じて検索及びブラウジングステップを実施する)
を記憶するデータベース83、要求されたデータベースの検索を実施するグラフ
ィックユーザインタフェース84、及び検索された情報を表示する動画モニタ8
5を含む。
【図面の簡単な説明】
【図1】 カメラの基本的な動作を示す図である。
【図2】 カメラの基本的な動作を示す図である。
【図3】 カメラの基本的な動作を示す図である。
【図4】 カメラの特性を瞬時に推定する推定方法を実施する、完全なカメラ動作分析シ
ステムを示す図である。
【図5】 カメラが移動する外側の座標系0XYZを示し、焦点距離fに対して、立体シ
ーン内の点P及び異なるカメラ動作のパラメータの両方に対応するレチナール(
retinal)座標(x、y)を表す図である。
【図6】 カメラモデルに含まれるズームモデルを示す図である。
【図7】 図4のシステムで用いられるフィルタリング技術を示す図である。
【図8】 本発明の記述子を用いていられた分類に基づいた画像検索システムを示す図で
ある。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI テーマコート゛(参考) H04N 5/92 H04N 5/92 H Fターム(参考) 5B075 ND12 NK02 NK21 NR12 5C052 AB03 AB04 AC08 DD04 5C053 GB06 HA29 JA30 LA01 5L096 FA35 FA66 FA67 HA05

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 動画索引付けの観点から、動画シーンの任意のフレームシー
    ケンスにおける、カメラ、任意の種類のオブザーバ又は観察装置の動作を表示す
    る記述子であって、 上記動作は、固定状態、パニング(水平方向の旋回)、トラッキング(水平に
    横断する動きであり、フィルムに関する専門用語でトラベリングとも呼ばれる)
    、チルティング(垂直方向の旋回)、ブーミング(垂直に横断する動作)、ズー
    ミング(焦点距離の変更)、ドーリング(光学軸に沿っての移動)、及びローリ
    ング(光学軸の周りの回転)、又は少なくとも2つの上記基本操作の組合わせの
    うちの1つ又は数個からなる動作であり、 上記固定状態を除いた各動作は、2つの異なる方向を表す2つのコンポーネン
    トに更に分けられ、 更に上記の固定状態以外の上記動作は、所定の移動の大きさに一致する値を有
    するヒストグラムによって示される、記述子。
  2. 【請求項2】 それぞれ独立している上記動作は、共通の単位を選択して、
    統一された方法で示される速度をそれぞれ有する請求項1記載の記述子。
  3. 【請求項3】 上記動作の速度は、半画素の精度で表される画素の移動値に
    よってそれぞれ示される請求項2記載の記述子。
  4. 【請求項4】 上記速度は、整数値で表すために、半画素値に最も近い値に
    され、2が乗算される請求項3記載の記述子。
  5. 【請求項5】 上記動作は、任意の時間的粒度によって示されるので、階層
    的に記述されることを特徴とする請求項1乃至3のうちいずれか一項記載の記述
    子。
  6. 【請求項6】 動画データ[n、n+N](Nはウィンドウ内のフレー
    ムの全体の個数を示す)の時間的なウィンドウと、各フレームに対する各動作の
    速度が与えられると、動作(motion type)毎にかなりの速度を有するフレーム
    motion_typeの個数が計算されて、 【数1】 の式によって、上記動作が存在する時間が百分率で示され、 全ての可能な動作が存在する時間が、動作ヒストグラムによって示され、 上記動作ヒストグラムの0乃至100の値は、百分率と一致し、 上記ウィンドウが1つのフレームに減少されたときに、所与の動作が上記フレ
    ーム内に存在する又は存在しないという事実に依存して、上記値が0又は100
    となることを特徴とする請求項4記載の記述子。
  7. 【請求項7】 動画シーケンスを得るためのカメラと、 動画索引付け装置と、 データベースと、 要求された上記データベースの検索を実施するグラフィックユーザインタフェ
    ースと、 検索された情報を表示する動画モニタとを含み、 上記動画索引付け装置内における索引付けは、上記カメラ動作を示す上記記述
    子を用いて得られた分類に基づいている画像検索システムにおける請求項1乃至
    6のうちいずれか一項記載の記述子の適用方法。
JP2000597707A 1999-02-01 2000-01-28 動画シーケンスを表す記述子とその記述子を使用する画像検索システム Pending JP2002536746A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP99400219.4 1999-02-01
EP99400219 1999-02-01
PCT/EP2000/000680 WO2000046695A1 (en) 1999-02-01 2000-01-28 Descriptor for a video sequence and image retrieval system using said descriptor

Publications (1)

Publication Number Publication Date
JP2002536746A true JP2002536746A (ja) 2002-10-29

Family

ID=8241866

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000597707A Pending JP2002536746A (ja) 1999-02-01 2000-01-28 動画シーケンスを表す記述子とその記述子を使用する画像検索システム

Country Status (6)

Country Link
US (1) US7010036B1 (ja)
EP (1) EP1068576A1 (ja)
JP (1) JP2002536746A (ja)
KR (1) KR20010042310A (ja)
CN (1) CN1293782A (ja)
WO (1) WO2000046695A1 (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000276469A (ja) * 1999-03-23 2000-10-06 Canon Inc 情報検索装置及びその方法、記憶媒体
AU2001238354A1 (en) 2000-02-18 2001-08-27 The University Of Maryland Methods for the electronic annotation, retrieval, and use of electronic images
US7275067B2 (en) * 2000-07-19 2007-09-25 Sony Corporation Method and apparatus for providing multiple levels of abstraction in descriptions of audiovisual content
KR20020031015A (ko) * 2000-10-21 2002-04-26 오길록 에지 히스토그램 빈의 비선형 양자화 및 유사도 계산
EP1293911A1 (en) * 2001-08-21 2003-03-19 Deutsche Thomson-Brandt Gmbh Method and apparatus for generating editing-related metadata
FR2833797B1 (fr) * 2001-12-19 2004-02-13 Thomson Licensing Sa Procede d'estimation du mouvement dominant dans une sequence d'images
KR100491724B1 (ko) * 2002-10-14 2005-05-27 한국전자통신연구원 공간영상의 효율적인 저장 및 검색을 지원하기 위한공간영상정보시스템 및 그 검색방법
US8824553B2 (en) 2003-05-12 2014-09-02 Google Inc. Video compression method
US7904815B2 (en) * 2003-06-30 2011-03-08 Microsoft Corporation Content-based dynamic photo-to-video methods and apparatuses
KR100612852B1 (ko) * 2003-07-18 2006-08-14 삼성전자주식회사 GoF/GoP의 질감 표현 방법과, 이를 이용한GoF/GoP 검색 방법 및 장치
US7312819B2 (en) * 2003-11-24 2007-12-25 Microsoft Corporation Robust camera motion analysis for home video
US20050215239A1 (en) * 2004-03-26 2005-09-29 Nokia Corporation Feature extraction in a networked portable device
CN100461865C (zh) * 2005-10-21 2009-02-11 广达电脑股份有限公司 运动矢量估计系统
CN100391263C (zh) * 2005-10-27 2008-05-28 复旦大学 一种利用视频的运动矢量判断运动起因的方法
US8804829B2 (en) * 2006-12-20 2014-08-12 Microsoft Corporation Offline motion description for video generation
CN101420595B (zh) 2007-10-23 2012-11-21 华为技术有限公司 一种描述和捕获视频对象的方法及设备
JP5409189B2 (ja) * 2008-08-29 2014-02-05 キヤノン株式会社 撮像装置及びその制御方法
CN102479065B (zh) * 2010-11-26 2014-05-07 Tcl集团股份有限公司 旋转式显示器及其显示方法
US8333520B1 (en) 2011-03-24 2012-12-18 CamMate Systems, Inc. Systems and methods for detecting an imbalance of a camera crane
US8540438B1 (en) 2011-03-24 2013-09-24 CamMate Systems. Inc. Systems and methods for positioning a camera crane
US20140317480A1 (en) * 2013-04-23 2014-10-23 Microsoft Corporation Automatic music video creation from a set of photos
CN111337031B (zh) * 2020-02-24 2022-04-15 南京航空航天大学 一种基于姿态信息的航天器地标匹配自主位置确定方法
US20220002128A1 (en) * 2020-04-09 2022-01-06 Chapman/Leonard Studio Equipment, Inc. Telescoping electric camera crane
CN113177445B (zh) * 2021-04-16 2022-07-12 新华智云科技有限公司 一种视频运镜的识别方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04281679A (ja) * 1991-03-11 1992-10-07 Personal Joho Kankyo Kyokai カメラワーク検出方法
JPH06276467A (ja) * 1993-03-23 1994-09-30 Toshiba Corp 映像インデックス作成方式
JP2000175149A (ja) * 1998-12-09 2000-06-23 Matsushita Electric Ind Co Ltd 映像検出装置、及び要約映像生成装置
JP2000222584A (ja) * 1999-01-29 2000-08-11 Toshiba Corp 映像情報記述方法、映像検索方法及び映像検索装置
JP2000341613A (ja) * 1999-05-25 2000-12-08 Nippon Telegr & Teleph Corp <Ntt> カメラワーク情報によるmpegビデオ検索装置およびmpegビデオ検索プログラムを記録した記録媒体

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100215586B1 (ko) * 1992-11-09 1999-08-16 모리시타 요이찌 다이제스트 화상 자동생성 장치 및 다이제스트 화상 자동생성 방법
US5929940A (en) * 1995-10-25 1999-07-27 U.S. Philips Corporation Method and device for estimating motion between images, system for encoding segmented images
JP3226020B2 (ja) * 1997-05-28 2001-11-05 日本電気株式会社 動きベクトル検出装置
EP1237376B1 (en) * 1997-06-09 2015-08-05 Hitachi, Ltd. Image information recording medium
US6195458B1 (en) * 1997-07-29 2001-02-27 Eastman Kodak Company Method for content-based temporal segmentation of video
JP3149840B2 (ja) * 1998-01-20 2001-03-26 日本電気株式会社 動きベクトル検出装置及び方法
US6389168B2 (en) * 1998-10-13 2002-05-14 Hewlett Packard Co Object-based parsing and indexing of compressed video streams

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04281679A (ja) * 1991-03-11 1992-10-07 Personal Joho Kankyo Kyokai カメラワーク検出方法
EP0509208A2 (en) * 1991-03-11 1992-10-21 Director-General Of The Agency Of Industrial Science And Technology, Camera work detecting method
JPH06276467A (ja) * 1993-03-23 1994-09-30 Toshiba Corp 映像インデックス作成方式
JP2000175149A (ja) * 1998-12-09 2000-06-23 Matsushita Electric Ind Co Ltd 映像検出装置、及び要約映像生成装置
JP2000222584A (ja) * 1999-01-29 2000-08-11 Toshiba Corp 映像情報記述方法、映像検索方法及び映像検索装置
JP2000341613A (ja) * 1999-05-25 2000-12-08 Nippon Telegr & Teleph Corp <Ntt> カメラワーク情報によるmpegビデオ検索装置およびmpegビデオ検索プログラムを記録した記録媒体

Also Published As

Publication number Publication date
WO2000046695A1 (en) 2000-08-10
EP1068576A1 (en) 2001-01-17
US7010036B1 (en) 2006-03-07
KR20010042310A (ko) 2001-05-25
CN1293782A (zh) 2001-05-02

Similar Documents

Publication Publication Date Title
JP2002536746A (ja) 動画シーケンスを表す記述子とその記述子を使用する画像検索システム
JP4320141B2 (ja) 要約映像生成のための方法とシステム
Irani et al. Efficient representations of video sequences and their applications
US6748158B1 (en) Method for classifying and searching video databases based on 3-D camera motion
US20220012495A1 (en) Visual feature tagging in multi-view interactive digital media representations
Kelly et al. An architecture for multiple perspective interactive video
US6956573B1 (en) Method and apparatus for efficiently representing storing and accessing video information
US8818138B2 (en) System and method for creating, storing and utilizing images of a geographical location
EP2005748B1 (en) Virtual observer
CN106156199B (zh) 一种视频监控图像存储检索方法
EP0976089A1 (en) Method and apparatus for efficiently representing, storing and accessing video information
US20040207656A1 (en) Apparatus and method for abstracting summarization video using shape information of object, and video summarization and indexing system and method using the same
Kender et al. On the structure and analysis of home videos
Jeannin et al. Motion descriptors for content-based video representation
Jeannin et al. Video motion representation for improved content access
Greenhill et al. Virtual observers in a mobile surveillance system
WO1999005865A1 (en) Content-based video access
CN113190711A (zh) 地理场景中视频动态对象轨迹时空检索方法及系统
Ferreira et al. Towards key-frame extraction methods for 3D video: a review
Favorskaya et al. Warping techniques in video stabilization
Babaguchi et al. A System for Visualization and Summarization of Omnidirectional Surveillance Video.
Fassold Automatic camera path generation from 360° video
US11044464B2 (en) Dynamic content modification of image and video based multi-view interactive digital media representations
JP3594754B2 (ja) 映像の時空間管理・表示・アクセス方法及び装置
JP3834019B2 (ja) 映像処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070126

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090811

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091021

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091208

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20100511