JP2006507722A

JP2006507722A - 表面の生来の視覚的特徴を用いて３次元シーンにおける表面の追跡

Info

Publication number: JP2006507722A
Application number: JP2004546322A
Authority: JP
Inventors: 博一加藤; ビリングハースト，マーク・ネイザン
Original assignee: アートゥールワークス
Priority date: 2002-10-22
Filing date: 2003-10-22
Publication date: 2006-03-02
Also published as: US7343278B2; WO2004038657A3; AU2003298491A8; EP1556805B1; US20040136567A1; EP1556805A2; WO2004038657A9; ATE521953T1; WO2004038657A8; NZ539632A; US20080232645A1; US7987079B2; EP1556805A4; WO2004038657A2; AU2003298491A1

Abstract

対象表面の識別された透視イメージの中の対象表面の３次元位置及び向きを決定する装置が記載されている。対象表面は固有の視覚的特徴を有し、当該視覚的特徴のサブセットが選択される。該装置は、識別された透視イメージより時間的に前にある対象表面の透視イメージにおける選択された視覚的特徴の位置を用いて、識別された透視イメージの中の探索ゾーンを識別する。該装置は、選択された視覚的特徴を求めて識別された探索ゾーンを探索して、その選択された視覚的特徴が生じる２次元位置の決定する。決定された２次元位置に基づいて、該装置は、識別された透視イメージにおける対象表面の３次元位置及び向きを決定する。

Description

［関連出願の相互参照］
本出願は、（１）２００２年１０月２２日に出願され、発明の名称が「イメージ・テクスチャから発生されたマッチング・テンプレートに基づく拡張現実感位置合わせ方法（ＡｎＡｕｇｕｍｅｎｔｅｄＲｅａｌｉｔｙＲｅｇｉｓｔｒａｔｉｏｎＭｅｔｈｏｄＢａｓｅｄＯｎＭａｔｃｈｉｎｇＴｅｍｐｌａｔｅｓＧｅｎｅｒａｔｅｄＦｒｏｍＡｎＩｍａｇｅＴｅｘｔｕｒｅ）」である米国仮特許出願Ｎｏ．６０／４２０，６３８、及び（２）本出願と同時に出願され、発明の名称が「基準マーカを用いた特有の平面のシーンの位置合わせ（ＲｅｇｉｓｔｒａｔｉｎｇａＳｐｅｃｉｆｉｃＰｌａｎａｒＳｃｅｎｅＵｓｉｎｇＦｉｄｕｃｉａｌＭａｒｋｅｒｓ）」である米国仮特許出願Ｎｏ．６０／５１３，７２５（特許カウンセル案件Ｎｏ．３７１８１−８００２−ＵＳ００）の恩恵を主張し、それらの出願のそれぞれは、本明細書に全部援用されている。

［技術分野］
本発明は、コンピュータ・ビジョン（画像認識）及びビデオ処理の分野を指向している。

［背景］
コンピュータ・ビジョンの分野において直面している１つの課題は、ビデオ・シーン内の対象物の動きを追跡することである。多くの場合、対象物の追跡は、カメラに対する対象物の位置及び向き、即ち、ビデオ・シーンがそれから捕捉される透視図である空間内の点を追跡することから成る。

動き追跡タスクの１つの有意なサブセットは、ビデオ・シーン内のおおよそ平坦な、即ち２次元の表面の動きを追跡することである。そのような表面は、自立している１枚の紙であるにせよ、又は本の中の１枚の紙にせよ、１枚の紙の１つの面であり得る。それはまた、事実上任意の他の対象物により与えられる表面であり得る。表面追跡の１つの応用は、仮想の３次元対象物のビュー（ｖｉｅｗ）を、その表面の周りに浮かんでいるように見えるビデオ・シーンの各フレームの中に導入すること（これは、現実感拡張（ｒｅａｌｉｔｙａｕｇｍｅｎｔａｔｉｏｎ）と呼ばれる。）である。

表面追跡は、基準マーカの追跡を用いることにより都合良く対処されてきた。基準マーカ追跡は、特別の視覚的に区別可能なシンボル（例えば、白い内部を有する太い輪郭の黒い正方形のようなもの）を追跡すべき表面に付けること、各ビデオ・フレームの中のそのシンボル（基準マーカと呼ばれる）の位置を特定することと、各ビデオ・フレームの中のシンボル（基準マーカと呼ばれる。）の位置を特定することと、ビデオ・フレームの中のマーカのサイズ及びビデオ・フレームの中のマーカの位置に基づいてカメラに対する表面の位置を決定することと、ビデオ・フレームの中マーカの向きに基づいてカメラに対する表面の向きを決定することとを伴う。

しかしながら、基準マーカ追跡は、著しい欠点を有する。第１に、基準マーカ追跡は、その基準マーカがシーンの中に存在しないときはいつでも機能しなくなる。これは、表面がシーンの中に留まる間ですら、広範囲の状況で起こる可能性がある。例えば、基準マーカは、カメラと基準マーカとの間の空間に介在する物体、例えば、人の手、又は別の不活発な物体のようなものにより隠蔽（ｏｃｃｌｕｄｅ）され得る。基準マーカはまた、例えば、シーンが基準マーカを除外する表面の一部しか含むことができない程表面の近くまでカメラが動く（又は当該表面にズームインする）ときのように、ビデオ・シーンの境界の外側に動かし得る。この欠点は、表面に一層多くの数の基準マーカを追加することにより克服することができ、それにより表面の様相を圧倒し、そしてその固有の視覚的特徴を見えにくくする。

第２に、基準マーカ追跡は、表面がカメラから隔たっているとき、及び表面のカメラの視野が余りに制限されて基準マーカを区別することができないとき失敗する可能性がある。この欠点に対処する唯一つの方法は、より大きい基準マーカを用いることであり、それにより再び表面の様相を圧倒し、そしてその固有の視覚的特徴を見えにくくする。

これらの欠点に鑑みて、表面に付けられた基準マーカの連続的可視性及び識別可能性に依拠しない表面追跡に対するアプローチが、著しい有益性を有するであろう。

［詳細な説明］
表面の自然の視覚的特徴を用いて３次元シーンにおける表面を追跡するソフトウエア装置（以下、「本装置」）が提供される。或る実施形態においては、本装置は、表面のイメージを獲得し、そしてそれを用いて、本装置が表面を追跡するため用いる当該表面の視覚的特徴を選択する。或る実施形態においては、本装置は、この表面解析及び特徴選択を非リアルタイム・ベースで実行する。或る実施形態においては、本装置は、表面がカメラから種々の距離にある場合に使用するため、各特徴が異なるサイズである特徴のグループを選択する。或る実施形態においては、最初にビデオ・フレームの中の表面を識別するため、本装置は、ビデオ・シーン内の表面に付された基準マーカの位置を特定し、そして、それを用いて、カメラに対する表面の距離及び向きを決定する。この後に、本装置は、それまでの追跡結果を繰り返し用いて、（１）特徴の一グループを選択して、カメラからの表面の距離に基づいて探索することと、（２）本装置が自然の特徴をそれらの以前の位置に基づいてビデオ・シーンの中で見つける当該ビデオ・シーン内の探索ゾーンの輪郭を表すこととの両方を行う。次いで、本装置は、選択されたグループの中の自然の特徴を見つけようとこれらの探索ゾーンを探索し、そしてビデオ・シーンの中のそれらの位置を用いて、カメラに対する表面の位置及び向きを決定する。

自然の特徴のリアルタイム追跡を可能にするキーとなるアイデアは、予め「最良の」特徴を選択して、オフライン処理プログラムを用いて追跡することと、オンライン追跡フェーズ中にリアルタイムでこれらの特徴の検出及びマッチングを可能にする適切で早いマッチング方法を選定することとにある。これらの考慮に基づいて、我々は、複数の点を追跡すべき特徴として、またテンプレート・マッチングをマッチング技術として選定する。

図１は、表面に付されたとき本装置が追跡することができる典型的なイメージを示すイメージ図である。当該イメージは、基準マーカ１１０を含む視覚的コンテンツ１００を有する。

追跡すべき特徴のオフライン抽出は、計算時間を非常に低減し、そしてリアルタイムで特徴を追跡することを可能にする。１組の追跡すべき特定のピクセルがアプリオリ（事前）に定義されるので、自然の点特徴は、各フレームから抽出する必要がないが、しかし時間を通じて追跡のみされることになる。換言すると、オフライン特徴点抽出は、１組の固定の「自然のコーナ」を発生し、当該１組の「自然のコーナ」は、マーカが導入する人工的コーナと同じ機能を正確に実行する、即ち、基準点の座標が対象物フレームの中で既知である基準点となる。しかしながら、カメラがパンイン（ｐａｎｉｎ）又はパンアウト（ｐａｎｏｕｔ）するとき、カメラが感知する詳細（ディテール）のレベルは、著しく変化する。例えば、白い背景上の黒い文字は、カメラが平面のシーン（ｐｌａｎａｒｓｃｅｎｅ）に近接しているとき追跡すべき良好な特徴であり、そしてこの同じ文字はカメラが当該シーンから遠く離れているとき見えないことがあるかも知れない。この問題は、オフライン特徴抽出を独立に種々の解像度で実行し、且つカメラが動くにつれ当該１組の特徴をオンラインで適応させることにより解決することができる。

他の全ての点で、自然特徴ベースの追跡の一般的原理は、マーカ・ベースの追跡と同じである。４つの共平面特徴点の座標がページにおいて既知である当該４つの共平面特徴点とイメージ平面におけるそれらの投影とは、平面のホモグラフィー（ｐｌａｎａｒｈｏｍｏｇｒａｐｈｙ）及び外因性パラメータを計算することを可能にする対応（ｃｏｒｒｅｓｐｏｎｄｅｎｃｅ）を与える。主要相違は、利用可能な４つより多い特徴点が通常存在し、従って隠蔽（ｏｃｃｌｕｓｉｏｎ）にうまく対処するため自然のメカニズムを提供することにある。即ち、追跡される平面のシーンが合理的なサイズを有する場合、ユーザの手がイメージの中の全ての利用可能な特徴を隠蔽することは極めてありそうもない。

しかしながら、自然特徴追跡の１つの欠点は、追跡器の初期化がデリケートなタスクであるように見えることであり、４つの自然の特徴点を最初のビデオ・フレームの中に検出することは、全ての単一の有り得る特徴点に対してイメージ全体についてテンプレート・マッチングを必要とする。この探索は、ビデオ・フレームが追跡すべきシーンの垂直の視野を与えない場合計算の上でコストがかかり且つ非効率である。この欠点を克服するため、以下で更に説明するように、マーカは、初期ホモグラフィーを与えるためページ上に配置される。このホモグラフィーを用いて、イメージをアンワープ（ｕｎ−ｗａｒｐ）し、それにより追跡器は、シーンの垂直の視野を有する。それから、追跡器は、事前定義された自然特徴点を捜すべき場所を知り、もはや見えるマーカを必要としない。探索サイズが固定され、そしてテンプレート・マッチングが、予測された特徴点の位置を囲む窓で実行される。検出された４つの「最良の」自然特徴点は、ホモグラフィーを更新するための入力として選択される。また、ピクセルを囲む領域がカメラが移動するにつれ変化するので、更新されたホモグラフィーを用いて、特徴点を囲む新しいテンプレートを発生する。前の特徴点の位置及び変位を用いて、次のフレームの中のそれらの位置を予測する。次いで、追跡器は、カメラが見るように平面のシーンの現在の解像度を推定し、そして適切ならば追跡すべき１組の事前定義された特徴を変える。最後に、カメラの姿勢が推定され、そして仮想モデルを本のページ（ｂｏｏｋｐａｇｅ）の頂部に描くことができる。

図２は、本装置が表面を追跡するため典型的に実行するステップを示すフロー図である。本装置は、マーカ・ベースの初期化モード２１０で始まる。ステップ２１１において、本装置は、表面のイメージを２値形式に変換する。ステップ２１２において、本装置は、接続された構成要素（ｃｏｍｐｏｎｅｎｔｓ）を表面のイメージの２値バージョンから抽出する。ステップ２１３において、本装置は、輪郭を表面のイメージから抽出する。ステップ２１４において、本装置は、抽出された輪郭の中のどの間違った輪郭も拒絶し、そしてマーカのコーナの座標のサブピクセル回復を実行する。ステップ２１５において、本装置は、表面のホモグラフィー（即ち、カメラに対するその位置及び向き）を計算し、そして、カメラに対する表面の決定された位置及び向きに関して表面のイメージを正規化することにより、当該表面のイメージをアンワープする。ステップ２１６において、本装置は、最良の４つの特徴のような表面の最良の視覚的特徴を選択する。これらの選択された特徴は、時に、「点特徴（ｐｏｉｎｔｆｅａｔｕｒｅｓ）」と呼ばれる。

マーカ・ベースの初期化モード２１０のステップの完了後に、本装置は、自然特徴追跡モード２２０に入る。ステップ２２１において、本装置は、マーカ・ベースの初期化フェーズ中に確立されたテンプレートを更新する。ステップ２２２において、本装置は、それまでの追跡結果を用いて、表面の点特徴が次のビデオ・フレームにおいて生じるビデオ・イメージ内の位置を予測する。ステップ２２３において、本装置は、テンプレート・マッチング・プロセスを用いて、ビデオ・フレームの中の予測された位置近くの点特徴を検出しようと試みる。ステップ２２４において、本装置は、ステップ２２３の結果を用いて、表面のホモグラフィーを更新する。ステップ２２５において、本装置は、自然特徴追跡モードの次の反復のため特徴点選択における解像度を評価する。或る実施形態においては、ステップ２２５は、自然特徴追跡モードにおけるステップ２２１に進む（図示せず）。

自然特徴追跡モード２２０の完了後に、本装置は、試験２３０を実行して、自然特徴追跡モードの最も新しい反復がビデオ・シーンの中の表面を追跡することに失敗したかどうかを決定する。そうであれば、本装置は、マーカ・ベースの初期化モードで、ビデオ・シーンの中の表面の位置を再び特定することを継続する。そうでなければ、本装置は、自然特徴追跡モードで、表面を追跡することを継続する。

図３は、本装置が動作する典型的な環境を示すブロック図である。当該環境はコンピュータ・システム３００（当該コンピュータ・システム３００は、本装置のような、プログラムを実行する１又はそれより多いプロセッサ３１０を含む。）、複数のイメージから成る個々のイメージ及び／又はビデオ・シーケンスを獲得するカメラ３６０に接続されているビデオ・インターフェース３２０、永続型記憶装置３３０、少なくとも本装置３４１を含むメモリ３４０、及びフロッピー・ディスク（登録商標）、ＣＤ−ＲＯＭ又はＤＶＤのような、コンピュータ可読媒体から情報を読み出し又は本装置のようなプログラムをインストールするためのコンピュータ可読媒体ドライブ３５０を含む。当業者は、データ及び／又はプログラムがメモリ管理及びデータ保全性の目的のためメモリと永続型記憶装置との間で転送され得ることを認めるであろう。様々な実施形態が前述した環境の点から見て説明したが、当業者は、本装置が１又はそれより多いコンピュータ・システムの組み合わせ、又は様々な方法で接続されている類似の装置を含む様々な他の環境で実現され得ることを認めるであろう。

１．オフライン特徴抽出
このサブセクションは、異なる解像度でのテンプレート・マッチングのための最良の候補点を検出する特徴抽出スキームの設計を説明する。

１．１テンプレート・マッチング
オフライン特徴抽出方法は、テンプレート・マッチングが良好に働く点を検出する。従って、特徴抽出スキームの設計は、テンプレート・マッチング技術の設計次第である。２つの連続したビデオ・フレームＩ_ｋ及びＩ_ｋ＋１との間の不一致が小さいと仮定すると、点特徴をマッチングさせるため用いることができる判定基準は、類似度である。点に対して、強度の類似度の万能尺度は相関である。ｐ_ｉがＩ_ｋの中の１つの特徴とし、Ｗをｐ_ｉ上に中心付けされたサイズｗ＋１及びｈ＋１（ここで、ｗ及びｈは奇数である。）の窓であるとする。Ｗは、Ｉ_ｋ＋１の中で捜すべきテンプレートを定義する。

図４は、テンプレート・マッチングで用いられる窓と、それを含むビデオ・フレーム内の探索範囲との関係を示すピクセル図である。長方形４００はビデオ・フレームＩ_ｋ＋１である。長方形４１０は探索範囲である。長方形４２０は、（ｙ_０，ｘ_０）にあるピクセル４３０上に中心付けされた探索窓Ｗである。窓Ｗは、列がｘ_０−ｗ／２からｘ_０＋ｗ／２まで及び、そして行がｙ_０−ｗ／２からｙ_０＋ｗ／２まで及ぶ。

ｐ_ｉに最も対応しそうであるピクセルをＩ_ｋ＋１の中で見つけることは、探索範囲内でＷを有する最も高い相関スコアを有するサイズｗ＋１及びｈ＋１の領域をＩ_ｋ＋１の中で見つけることと等価である。正規化された相互相関（ＮＣＣ）（これは、Ｆ．Ｖｉａｌ著「ビジョン・ベースのリアルタイム増強型現実のための自然特徴追跡についての最新技術報告（ＳｔａｔｅｏｆｔｈｅＡｒｔＲｅｐｏｒｔｏｎＮａｔｕｒａｌＦｅａｔｕｒｅＴｒａｃｋｉｎｇｆｏｒＶｉｓｉｏｎ−ＢａｓｅｄＲｅａｌ−ＴｉｍｅＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙ）」（技術報告書、人間インターフェース技術研究所ニュージーランド（ＴｅｃｈｎｉｃａｌＲｅｐｏｒｔ，ＨｕｍａｎＩｎｔｅｒｆａｃｅＴｅｃｈｎｏｌｏｇｙＬａｂｏｒａｔｏｒｙＮｅｗＺｅａｌａｎｄ）（ＨＩＴＬａｂＮＺ）、ＵｎｉｖｅｒｓｉｔｙｏｆＣａｎｔｅｒｂｕｒｙ、Ｃｈｒｉｓｔｃｈｕｒｃｈ、ニュージーランド、２００３）に説明されている。）が、実効的な点相関方法であることを示した。テンプレートＷと、Ｉ_ｋ＋１内のピクセル（ｘ_０，ｙ_０）を囲む同じサイズの領域との間のＮＣＣを計算するため、考察しているピクセルの強度値は、中心付けされねばならない。ｉ及びｊがＷと同じサイズの正方形領域に及ぶ指数とする。従って、

及び

は、Ｉ_ｋ＋１及びＷの中の考察している領域内のピクセル（ｉ，ｊ）のそれぞれの中心付けされた値（「中心値」）であり、ここで、

及び

である。
従って、Ｗと（ｙ_０，ｘ_０）を囲む領域との間の正規化された相互相関スコアは、次式をもたらす。

１つの利点は、ＮＣＣが−１と１との間のスコアを取り、類似度のスレッショルド化を実行するための直感的範囲を与え、−１の値は、類似度が全く無いことを示し、一方１の値は、完全な類似度を示す。ＮＣＣを用いる別の便益は、照度変化に対するその不感受性から生じる。我々が一定値を領域の全てのピクセルに追加することにより照度変化をモデル化する場合、ＮＣＣのスコアは、そのオフセット無しの場合と同じであろう。しかしながら、相関は、いずれのアフィン変換又は透視変換に対して不感受性では無い。従って、テンプレートは、前述したようにシステムにより取り込まれた各フレームに対して発生されるであろう。

更に、ＮＣＣは、計算の上でコストがかかり、そしてｗ，ｈの値及び探索範囲のサイズが大きくなるとき非効率的となる場合があり得る。これを補償するため、粗から精細への技術（ｃｏａｒｓｅｔｏｆｉｎｅｔｅｃｈｎｉｑｕｅ）を用いる。即ち、最初に、探索窓内のテンプレート・マッチングをｎ個のピクセル毎に実行して、探索の複雑さを係数ｎだけ低減する。ＮＣＣスコアが最高である３つの位置を記憶する。次いで、精細探索を実行する。即ち、テンプレート・マッチングを、３つの記憶された位置を囲む領域の中のピクセル毎に実行する。最も高いＮＣＣスコアが、最後に検出された位置を提供する。

１．２点特徴抽出スキーム
マーカを含む追跡すべき平面のシーンの正面の表示（ｆｒｏｎｔ−ｆａｃｉｎｇｒｅｐｒｅｓｅｎｔａｔｉｏｎ）は、追跡器に供給されねばならない。通常、ＪＰＥＧ又はＧＩＦファイルが、入力イメージ・ファイルとして用いられる。最初に、マーカは、米国仮特許出願Ｎｏ．６０／５１３，７２５（特許カウンセル案件Ｎｏ．３７１８１−８００２−ＵＳ００）に記載されている技術のような周知の技術を用いて、入力イメージの中で検出される。入力イメージの中のシーンの位置及びサイズが、計算され、ファイルに格納される。

その後、シーンの自然特徴の抽出が実行される。自然の特徴点をフレームからフレームへマッチングさせるための特定のテンプレート・マッチング技術の選定は、我々が元のイメージから抽出されるべき特徴点に対する１組の制約を定義することを要求する。

・制約１：候補特徴点を囲む（及び制約２に定義される円形範囲の外側の）ｗ×ｈ領域内部のピクセル同士間の類似度は、均一又は低いコントラスト領域が拒絶されるように小さくあるべきである。これは、テンプレートが最小の分散を有するべきであると言うことと等価である。

・制約２：候補特徴点を囲む半径ｎの円形領域内のｗ×ｈ領域内部のピクセル同士間の類似度は、テンプレート・マッチングの粗のステップにおける最良の３つの結果が当該特徴の正しい位置を囲む領域を含むように高くあるべきである。換言すると、この制約は、正しい特徴点がテンプレート・マッチングの粗のステップにより抜かされないことを保証する。

・制約３：テンプレート・マッチングが実行される候補特徴点を囲む探索範囲内に類似の領域が存在すべきでない。換言すると、我々は、追跡器が混乱しないようにするように、候補ピクセルを囲むサイズｗ_{ｓｅａｒｃｈ}及びｈ_{ｓｅａｒｃｈ}の探索範囲においてサイズｗ及びｈのテンプレートに対して１より多いマッチングが存在することができないことを確認することを希望する。

図５は、候補ピクセルに関する特徴点制約を示すピクセル図である。候補ピクセル５０１は、（１）候補ピクセルの周りの小さい環状領域５０２内の類似度が高く、（２）テンプレート５０３の内側、及び円形領域５０２の外側の類似度は、低い、即ち、高い分散が存在し、且つ（３）類似のテンプレート領域が、探索範囲５０４内に存在しない場合、テンプレート５０３内の良好な特徴となりそうである。

オフライン特徴抽出プログラムはこのように進む。即ち、ユーザは、当該ユーザが特徴を自動的に抽出したい種々の解像度を与える。より多くの解像度が指定されれば、追跡器はより正確になるが、しかしより多くの処理時間が必要とされるであろう。自然特徴抽出にため固定されねばならないパラメータは、次のとおりである。即ち、
・テンプレート寸法ｗ及びｈ
・上記の制約１に記載した分散の最小値を定義するスレッショルドｔ_ｖａｒ
・テンプレート・マッチングのための探索サイズｗ_{ｓｅａｒｃｈ}及びｈ_{ｓｅａｒｃｈ}
・制約３で説明した最大の許容された類似度を定義するスレッショルドｔ_{ＭａｘＳｉｍ}
・小さい円形領域の半径ｒ、及び制約２で説明した最小の許容された類似度を定義するスレッショルドｔ_{ＭｉｎＳｉｍ}

これらのパラメータに対するデフォルト値を与える実験的結果が実行された（以下のセクション３を参照）。第１のステップにおいて、特徴抽出プロセスは、制約１及び３に対してのみ試験を行う。その手順は、以下のコード・ブロック１に示される疑似コードに概説されている。

（「コード・ブロック１」の翻訳
「ユーザが選定した解像度毎に対して、
入力イメージの中のピクセルｐｉｘ毎に対して、
・ｐｉｘを囲むサイズｗ及びｈのテンプレートｔｐを発生する。
・半径ｎの中心の円形範囲を除く領域ｔｐにわたって分散を計算する。
（分散＜ｔ_ｖａｒ）の場合、ｐｉｘを棄却し、次のピクセルへ行く。
・ｐｉｘを囲むｗ_{ｓｅａｒｃｈ}×ｈ_{ｓｅａｒｃｈ}窓に含まれるｗ×ｈ領域毎に対して、
→正規化された相互相関を用いてｒｅｇとｔｐとの間の類似度ｓｉｍを計算する。
→探索範囲内の類似度の最大値を更新する。
→（類似度＞ｔ_{ＭａｘＳｉｍ}）の場合、ｐｉｘを棄却し、次のピクセルへ行く。
〜に対して終了
・Ｐｉｘ＝ｓｉｍ
〜に対して終了
〜に対して終了）。

２つの異なる解像度で図１のイメージに対して実行されるこのアルゴリズムの結果が図６Ａ及び図６Ｂに示されている。図６Ａは、２００ｄｐｉの元のイメージ解像度に対するオフライン特徴抽出アルゴリズムのこの最初のステップの出力を示す。図６Ｂは、１００ｄｐｉのより低い解像度での出力を示す。これら両方の図面は、２５×２５ピクセルのテンプレート・サイズを表す。出力イメージにおいて、暗い領域は、特徴点がそれから選定されるべきでない非常に相関の高い領域（一様領域）を含む。これに反して、明るい領域は、テンプレート・マッチングが良好に作用しそうであるイメージ領域である。予測されるように、より低い解像度のイメージでは細部がより少なくしか見えない。

異なる解像度において候補特徴の得られたマップが、追跡すべき最良の点特徴を選択する第２のアルゴリズムのための入力として用いられる。この動作は、制約２を強制することにより、且つ得られた結果をスレッショルド化することにより実行される。追加の制約は、選択されたテンプレート領域が出来るだけ均一に分布されねばならず且つオーバラップしてはならない。ｔ_ｖａｒパラメータは、抽出された特徴の数に直接影響を及ぼす。即ち、ｔ_ｖａｒが高ければ高い程、制約１を満たす特徴点はそれだけ少ない。図７は、図１に示されるイメージから抽出されたサンプル特徴を示すイメージ図である。図７は、ｔ_ｖａｒ＝１０に関して元のイメージの中の抽出された特徴を示す。赤の正方形のそれぞれは、ｔ_ｖａｒ＝１０、ｔ_{ＭａｘＳｉｍ}＝０．６５及びｔ_{ＭｉｎＳｉｍ}＝０．８５を有する元の解像度（２００ｄｐｉ）に対して抽出された特徴を識別する。多数の抽出された特徴を有することは、追跡器が隠蔽により良く対処することを可能にするが、しかし追跡プロセスを遅くし、そして一部の隠蔽条件の下で追跡器を混乱させ得る。

他方、特徴の数が少ししか無いことは、追跡プロセスが速くするが、しかしシステムが隠蔽に対する感度を非常に高くするようにする。その結果、良好な隠蔽処理と速い追跡との間の最適均衡を見つけるためのトレードオフを行わなければならない。マーカに対する抽出された特徴点の相対的位置が、オンライン通信モード中に用いられるであろうファイルに格納される。

２．オンライン追跡
このサブセクションは、有意の（ｓｉｇｎｉｆｉｃａｎｔ）隠蔽が存在する際に継続したパターン追跡を可能にする事前定義された特徴の効率的追跡アルゴリズムを説明する。基本的考え方は、マーカにより与えられる４つの人工的コーナに単純に依拠する代わりに、既知の点特徴をフレームからフレームへと追跡し、且つこれらの自然の特徴に基づいて平面のシーンに対するホモグラフィーを更新することにある。

２．１初期化
前に説明したように、追跡器の初期化は、セクション１．２で説明したような基準マーカを用いて行われる。

２．２特徴選択及びテンプレート更新
初期ホモグラフィーが計算されたので、追跡器は、どの自然特徴が現在のフレームの中で選定すべき「最良の」特徴であるかを決定しなければならない。我々のアプリケーションがリアルタイムでラン（走る）しなければならないことを意識して、我々は、その位置が最適である特徴の数が出来るだけ少なくなるよう選定したい。従って、次の発見的選択方法（ｈｅｕｒｉｓｔｉｃｓｅｌｅｃｔｉｏｎｍｅｔｈｏｄ）を選定する。即ち、
１．前のフレームのホモグラフィーを用いて、特徴のイメージ座標を、対象フレームの中のそれらの既知の座標から得る。現在の解像度の推定を用いて、現在のビデオ・フレームの中の見えない全ての特徴を拒絶する。
２．第１の特徴点の選択：特徴点の位置がビデオ・フレーム中心から最も遠い特徴点を選択する。
３．第２の特徴点の選択：第１の特徴点から最も遠い特徴点を選択する。
４．第３の特徴点の選択：２つの最初に選択された特徴点と一緒に形成される三角形の面積を最大にする特徴点を選択する。
５．第４の特徴点の選択：４つの最初に選択された特徴点と一緒に形成される長方形の面積を最大にする特徴点を選択する。

この選択スキームの後ろにある動機付けは、互いに離れている点特徴から計算されたホモグラフィーが誤差をより受けにくくすることである。ひとたびこれらの４つの点が選択されると、前のフレームからのホモグラフィーをまた用いて、特徴点を囲む新しいテンプレートを発生する。このテンプレートの更新は、テンプレートの回転されたビューがテンプレート・マッチング技術が働くのを妨げないことを保証する。

２．３粗い特徴予測
追跡モードの第１の段階は、前のフレームにおいて計算されたホモグラフィーを用いて、現在のフレームの中の特徴の位置を予測することから成る。時間コヒーレンスを仮定すると、３つの単純な予測方法を導出することができる。

最初に、現在のフレームＩ_ｋの中の特徴が、小さいフレーム間動き仮説を用いて前のフレームＩ_ｋ−１におけるのと同じ位置に配置されるであろう。

ここで、上付き文字「＾」は、推定を表す。
カメラ・イメージがほぼ常に動いているので、この仮定は、ほぼ常に違反されており、従って、我々は、むしろ特徴の一定速度を仮定する。そこで、任意のフレームＩ_ｋに対して、ｋ＞２の場合、速度ベクトルｖの値は、次式を生じる。

ここで、ΔｔはフレームＩ_ｋ−１とＩ_ｋとの間に経過した時間である。我々は、２つのフレーム間を経過した時間が一定であり、且つ単位値を有することを仮定する。我々は、続いて次のように書くことができる。

従って、

は、次のように推定することができる。

同様の要領で、我々は特徴の加速度が一定であると考える場合、フレームＩ_ｋにおけるその位置は次式により推定することができる。

それらの位置推定は、粗いものであり、そしてＧ．Ｉａｎｎｉｚｚｏｔｔｏ及びＬ．Ｖｉｔａ著「カラー・ビデオ解析のためのオンライン対象追跡（Ｏｎ−ｌｉｎｅＯｂｊｅｃｔＴｒａｃｋｉｎｇｆｏｒＣｏｌｏｕｒＶｉｄｅｏＡｎａｌｙｓｉｓ）」（リアルタイム・イメージング（Ｒｅａｌ−ＴｉｍｅＩｍａｇｉｎｇ）８：２、１４５−１５５頁、２００２年４月刊）及びＤ．Ｋｏｌｌｅｒ、Ｇ．Ｋｌｉｎｋｅｒ、Ｅ．Ｒｏｓｅ、Ｄ．Ｂｒｅｅｎ、Ｒ．Ｗｈｉｔａｋｅｒ及びＭ．Ｔｕｃｅｒｙａｎ著「拡張現実感アプリケーションのためのリアルタイム・ビジョン・ベース型カメラ追跡（Ｒｅａｌ−ＴｉｍｅＶｉｓｉｏｎ−ＢａｓｅｄＣａｍｅｒａＴｒａｃｋｉｎｇｆｏｒＡｕｇｍｅｎｔｅｄＲｅａｌｉｔｙＡｐｐｌｉｃａｔｉｏｎｓ）」（仮想現実感ソフトウエア及び技術についてのＡＣＭシンポジウム会報（Ｐｒｏｃ．ｏｆｔｈｅＡＣＭＳｙｍｐｏｓｉｕｍｏｎＶｉｒｔｕａｌＲｅａｌｉｔｙＳｏｆｔｗａｒｅａｎｄＴｅｃｈｎｏｌｏｇｙ）、８７−９４頁、スイス国ローザンヌ、１９９７年９月刊）において議論されている広範囲に用いられているカルマン・フィルタリングには精度の点で対抗できないであろうが、しかしそれらは、計算の上でコストが安いという大きな利点を有する。なお、これらの文献は、そのまま全部本明細書に援用されている。これらの推定の１つ、又は２つ、あるいは３つ全ての後で、現在のフレームの中のｐ_ｉの位置を予測することができる。

２．４特徴検出
特徴の推定された位置は、ホモグラフィーの中の小さい誤差に起因した、並びにセクション４．４．２において導入される近似に起因した誤差を受けやすい。その位置を囲む探索窓は、テンプレート・マッチングを続行するため定義されねばならない。扱いに注意を要する（ｔｒｉｃｋｙ）タスクは、この探索範囲のサイズを固定することである。単純なアプローチは、そのサイズを一定と宣言すること、及びそれを、現実の条件において試験により経験的に決定された値に設定することである。このアプローチは、非常に単純であり、そして動的な動きに十分に適応されないことが有り得るが、しかしそれは、我々が固定の探索窓サイズを仮定して特徴を抽出したので我々のシステムの基礎である。大きい探索窓が、より大きい動きに対して可能であるが、しかし、正規化された相互相関が多数のピクセルに対して実行されねばならないので、マッチング・プロセスの速度を遅くする。逆に、小さい探索窓サイズは、マッチング・プロセスの速度を増大させるが、しかし迅速な動きに起因した追跡器失敗の機会を増大させる。探索窓サイズの経験的決定についてはセクション３を参照されたい。選択された特徴の位置は、１．１において説明したテンプレート・マッチング・プロセスにより決定され（典型的には、ＮＣＣスコアが０．７より大きい場合マッチングが見つけられる。）、そして半径方向の歪みが補正される。

２．５ホモグラフィーの更新及び解像度の推定
特徴点の対応

を用いて、新しいホモグラフィーＨが決定される。再投影誤差尺度が次のように定義される。

εが事前定義されたスレッショルド（５．０の値が有効なスレッショルド値であると実証された。）より小さい場合、ホモグラフィーが受け入れられ、そして別の追跡サイクルが次のビデオ・フレームで始めることができる。εがスレッショルドより大きい場合、それは、点対応の組みが雑音又は隠蔽に起因した疑似値を含むことを指示し得る。これを処理するため、第５の特徴点の探索が実行される。１つの追加の特徴点が検出された場合、平面のホモグラフィーが、５個の特徴点の中の４個の特徴点のサブセット毎に対して計算され、そしてεを最小にする１つの特徴点がその結果選定される。第５の特徴点を検出することができない場合、追跡は失敗し、そして追跡器は初期モードに戻る。基準マーカは、追跡器が再初期化されるため見えなければならない。

追跡が成功した場合、平面のシーンの見られている解像度（ｖｉｅｗｅｄｒｅｓｏｌｕｔｉｏｎ）の推定は、次の通りに計算される。即ち、その座標がワールド・フレーム（ｗｏｒｌｄｆｒａｍｅ）とイメージ・フレームとにおいて既知である２つの特徴点が選定される。我々は、ワールド・フレームの中の２つの特徴を隔てているミリメートル単位の距離と、イメージ・フレームの中のそれらを隔てているピクセル単位の距離とを知る。その結果、何個のピクセルがワールド座標で１センチメートルを表すかを知ること、及びカメラが現在見ているシーンの解像度を推論することは容易である。必要ならば、その解像度に対応する特徴の違った組みを選定する。

３．実現の詳細
３．１パラメータの決定
我々の特徴抽出技術は、我々がテンプレートの寸法ｗ及びｈ、並びに探索サイズの寸法ｗ_{ｓｅａｒｃｈ}及びｈ_{ｓｅａｒｃｈ}を一度だけ全体のプロセスに対して設定することを必要とする。単純さのため、我々は、両方の窓が正方形、即ち、ｗ＝ｈ及びｗ_{ｓｅａｒｃｈ}＝ｈ_{ｓｅａｒｃｈ}であると宣言する。

３．１．１テンプレート・サイズ
正規化された相互相関が信頼できるために、ｗは大きくなければならないが、しかしこれはまた、テンプレート・マッチングが計算の上でコストがかかることを意味する。正規化された相互相関が必要とする計算時間が、ｗの値の或る範囲に対して計算された。２５個のピクセルの値が、寸法３８００ピクセル×１９２０ピクセルのイメージに対して信頼性と速度との間の良好なトレードオフであることを示した。

３．１．２探索範囲サイズ
オンライン追跡フェーズに関して、特徴予測方法は、探索範囲のサイズに対して直接影響を及ぼす。小さい探索範囲は、マッチング・プロセスをより速くするであろうが、しかし追跡を当該予測方法の粗い性質に起因して失敗させるであろう。これは、ｗ_{ｓｅａｒｃｈ}の余りに小さい値が、追跡された特徴が探索範囲の中に無くて追跡を失敗させるより高い機会を与えるであろうことを意味する。ｗ_{ｓｅａｒｃｈ}を経験的に決定するため、現実の条件での追跡が、４０００個の特徴に対して予測方法（２．３．１）、（２．３．２）及び（２．３．３）の種々の組み合わせを用いて実行された。探索範囲の中で検出されなかった特徴点のパーセンテージを表す誤り率は、探索範囲サイズの関数として計算された。その結果が図８に示されている。

図８は、これらの予測方法の種々の組み合わせの実験的有効性を示すグラフである。グラフ８００は、凡例８０１を用いて符号化され、そこにおいて数字１は予測方法（２．３．１）を、数字２は予測方法（２．３．２）を、数字３は予測方法（２．３．３）をそれぞれ表す。

予測方法（２．３．１）は、探索窓サイズが大きくない場合芳しくない結果を与える。更に、我々は、２つの予測方法の任意の組み合わせ、又は３つの予測方法の任意の組み合わせが似た結果を与えることを観測した。探索範囲サイズを選定するため、我々は、４１個のピクセルと６１個のピクセルとの間の範囲をより詳細に調べて、どの値が全ての予測方法に対して許容可能な誤り率を与えるかを知った。

予測方法（２．３．１）及び（２．３．２）の組み合わせを、追跡器の予測段階が必要とする時間を低減するため選定する。その結果、４９の探索範囲サイズが特徴点を探索範囲の中に見つけることを保証する最小サイズであるので、その４９の探索範囲サイズを選択する。

最後に、オンライン追跡中に、テンプレート・マッチングの粗いステップが、ｎ＝３ピクセル毎に実行される。この値は、追跡器がリアルタイムで動作することに対して十分な速度改善を可能にする。

３．２性能評価
我々の拡張現実感（ａｕｇｕｍｅｎｔｅｄｒｅａｌｉｔｙ）システムの主要設計目標の１つは、標準のパーソナル・コンピュータについてのリアルタイム性能であった。ソフトウエアは、ウインドウズＸＰ（登録商標）オペレーティング・システムの元で動作し、そして用いたカメラは、６４０ピクセル×４８０ピクセル・ビデオ・フレームを供給する既製のＵＳＢウェブ・カメラである。追跡システムは、増補されたグラフィックスをビデオの上に表すため用いられたＯｐｅｎＧＬ及びＶＲＭＬ付きのＣで現在実現されている。全ての試験は、ＧｅＦｏｒｃｅ４・Ｔｉ４６００ビデオ・カード付きのインテル・ペンティアムＩＶ（登録商標）の２．４ＧＨｚプロセッサ上で実行した。

３．２．１オフライン特徴抽出
オフライン特徴抽出は、アプリケーション全体のアルゴリズムの複雑さのためそのアプリケーション全体のボトルネックである。小さいイメージ（６４０ピクセル×４８０ピクセル）に対しては、処理時間は数分であることができる。しかしながら、入力のサイズが、我々のアプリケーションのケース（３８００ピクセル×１９２０ピクセル）のように大きくなると、特徴マップを種々の解像度で発生するために必要である時間は、５時間より多い。これは、アプリケーションの主要欠点のままである。

３．２．２オンライン追跡
オンライン追跡は、２５フレーム／秒から３０フレーム／秒のフレーム速度で見込みのある結果を示す。これは、上記方法がリアルタイムの目的に適していることを実証する。

スケール不変性が、シーンから遠く離れてカメラを用いて追跡を開始し、そして徐々にカメラを当該シーンへより接近させることにより試験される。多重解像度テンプレート・スキームが図９Ａから図９Ｃに示されるように良好に働く。

図９Ａから図９Ｃは、シーンにおける様々な解像度に対する追跡結果を示す追跡図である。図９Ａは、低い解像度に対する追跡結果を示し、図９Ｂは、中間の解像度に対する追跡結果を示し、図９Ｃは、高い解像度に対する追跡結果を示す。これらの図面の中の番号を付された緑の正方形は、追跡される現在の点特徴を表す。テンプレートのズームされたビューを各図面の左側に見ることができる。

次いで、隠蔽処理が、典型的なユーザの反応、即ち、手を追跡すべきシーンの上に置くことを用いて試験される。ここで再び、追跡器は、代替の特徴点を選定することに成功し、従って連続した追跡を行う。隠蔽に対する結果が、図１０Ａ及び図１０Ｂに示されている。

図１０Ａ及び図１０Ｂは、隠蔽条件の下での追跡結果を示す追跡図である。図１０Ａは隠蔽されてないシーンに対する追跡結果を示し、一方図１０Ｂは、人間の手により隠蔽されている類似のシーンに対する追跡結果を示す。図１０Ａに示される特徴２の隠蔽は、図１０Ｂのシーンにおいて隠蔽により妨げられるので、本装置は、特徴番号４として示される図１０Ｂのシーンにおける新しい特徴を位置合わせする（ｒｅｇｉｓｔｅｒ）ことを始める。

自然の特徴追跡モードのみが隠蔽に対する強固さを与える。追跡器のマーカ・ベースの初期化モードは、マーカが完全に見えることを必要とする。異なる向きに対する追跡器の強固さがまた、試験された。シーンは、代替として、異なる角度から見られ、そして追跡器は、厳しい回転下でさえ、４個の特徴を見つけることを成功した。一例が、図１１Ａから図１１Ｄに示されている。

図１１Ａから図１１Ｄは、様々な回転角度の下でのシーンに対する追跡結果を示す追跡図である。図１１Ａは回転無しの下での追跡結果を、図１１Ｂは４５°の回転の下での追跡結果を、図１１Ｃは６０°の回転の下での追跡結果を、図１１Ｄは８０°の回転の下での追跡結果をそれぞれ示す。

追跡器の一部の実施形態の１つの制限は、迅速な動きに対するその敏感さである。カメラが急速に回転又は並進される場合、追跡器は通常失敗する。これは、単純なＵＳＢウェブ・カメラにより供給される貧弱なイメージ品質のためである。カメラが急速に移動するとき、カメラにより与えられるフレームは、余りにぼやけ過ぎて、テンプレート・マッチングが成功しない程である。より高いシャッター速度を有するより高い品質のカメラの使用は、迅速なイメージの移動に対する追跡器の強固さを相当に増大させる筈である。

６．追加の詳細
このセクションは、本装置及びその実現についての追加の詳細を含む。
６．１追跡されるイメージ
図１２Ａ及び図１２Ｂは、本装置により追跡されるサンプル・イメージを示すイメージ図である。図１２Ａのイメージは、文字及び写真から成り、そして約２０ｃｍ×２８ｃｍのサイズを有する。図１２Ｂのイメージは、カラー地図の一例であり、そして約８０ｃｍ×１０４ｃｍのサイズである。

６．２テンプレート・マッチングによる位置合わせ
６．２．１座標系
図１３は、本装置が用いる座標系を示す座標図である。追跡される対象物上に中心付けされた対象物座標フレームがある。対象物座標の原点、Ｘ_０軸及びＹ_０軸が表面上にあり、一方Ｚ_０軸は当該表面に対して垂直である。カメラはカメラ座標フレームを有し、そしてカメラ座標とスクリーン座標との間に透視関係がある。３Ｄ環境における直線は、スクリーン座標に変換されたとき理想的には直線のままであるべきである。しかしながら、実際には、これは、レンズの歪みのため起こらない。これを補償するため、我々は、２つのスクリーン座標、即ち、カメラ座標との透視変換を保つ理想スクリーン座標とカメラからの歪んだイメージを表す観測スクリーン座標とを導入する。対象物座標から理想スクリーン座標への変換は、

により表される。ここで、行列Ｃは、透視投影モデルに基づく焦点距離、倍率、光心、アスペクト比、及びスキュー（斜め）係数の固有のカメラ・パラメータを含む。行列Ｔ_ＣＯは、カメラ座標に対する対象物座標間の変換を表し、そして変換要素及び回転要素から成る。

理想スクリーン座標における点（ｘ_ｃ，ｙ_ｃ）は、次式の歪み関数により、観測スクリーン座標における点（ｘ_ｄ，ｙ_ｄ）に変換される。

ここで、（ｘ_ｄ０，ｙ_ｄ０）は歪みの中心であり、ｓはスケール・パラメータであり、ｆは歪み係数である。この変換は、非線形関数であるが、しかし我々は、それを次のように表す。

そこで、位置合わせ問題は、変換行列Ｔ_ＣＯの計算に還元する。我々は、これの実行の仕方を次のセクションで説明する。

６．２．２ポーズ及び位置計算
対象物座標にｎ個の特徴点（Ｘ_ｏｉ，Ｙ_ｏｉ，Ｚ_ｏｉ）（ｉ＝０，１，，ｎ−１）があり、且つそれらが観測スクリーン座標における（ｘ_ｄｉ，ｙ_ｄｉ）（ｉ＝０，１，，ｎ−１）に投影されると仮定すると、誤差関数は、理想スクリーン座標において次の（式６．４）のように表される。

行列Ｔ_ＣＯがこの誤差関数を最小にする。ｎが３より大きく且つ適切な初期値がＴ_ＣＯに対して与えられる場合、この計算は可能である。我々は、この計算に対してＡＲＴｏｏｌＫｉｔにより与えられた関数を用いる。適切な初期値をＴ_ＣＯに設定するため、前のフレームに対する結果を反復追跡フェーズで用いる。黒い正方形基準（ｂｌａｃｋｓｑｕａｒｅｆｉｄｕｃｉａｌ）及びＡＲＴｏｏｌＫｉｔ関数を用いて、初期検出フェーズにおいて初期値を設定する。

Ｔ_ＣＯに対して後続の値を計算するため、我々は、対象物座標におけるｎ個の特徴点に対応する観測スクリーン座標における位置を検出することが必要である。我々は、このプロセスのためテンプレート・マッチングを用いる。

６．２．３テンプレート・マッチングによる特徴検出
テンプレート・マッチングは、イメージからテンプレートに類似の領域を検出することができる。一般的には、テンプレートは、前もって準備されていなければならない。しかしながら、これは、１つの特徴点のイメージがその６ＤＯＦ動きにより変わるので、この種類の３Ｄ追跡では不可能である。従って、テンプレートは、各イメージ・フレームに対して発生されねばならない。我々は、追跡される対象物の動きがそれぞれの連続のイメージ・フレーム間で小さいと仮定する。従って、テンプレートは、前のフレームの中のポーズ及び位置情報に基づいて前もって捕捉されている追跡対象物のテクスチャ・イメージ（ｔｅｘｔｕｒｅｉｍａｇｅ）から発生される。特徴点の検出は、次の３つのステップから成る。

１）特徴点の観測スクリーン座標（ｘ_ｄｉ，ｙ_ｄｉ）の計算
追跡される対象物が、対象物座標のＸ_ｏ−Ｙ_ｏ表面に存在する。そこで、特徴点は、（Ｘ_ｏｉ，Ｙ_ｏｉ，０）（ｉ＝０，１，，ｎ−１）として表すことができる。前のフレームにおける対象物座標からカメラ座標への変換行列がＴ_ＣＯであると仮定すると、（Ｘ_ｏｉ，Ｙ_ｏｉ，０）に対応する観測スクリーン座標（ｘ_ｄｉ，ｙ_ｄｉ）は、（式１）及び（式２）により計算することができる。

２）（ｘ_ｄｉ，ｙ_ｄｉ）がその中で中心付けされるテンプレートの発生
（ｘ_ｄｉ，ｙ_ｄｉ）がその中で中心付けされるテンプレートを発生するため、観測スクリーン座標から対象物座標におけるＸｏ−Ｙｏ表面への変換が必要とされる。Ｚｏ＝０とすると、次の式が得られる。

従って、

この式を用いることにより、全てのテンプレート・ピクセルに対する対象物座標が計算され、そしてカラー値が、追跡される対象物のテクスチャ・イメージからテンプレートにおいて置換されることができる。

テンプレート・マッチング
我々は、テンプレート・マッチングのために正規化された相関を用いる。

ここで、ｘ_ｉはピクセル値であり、

はピクセル値の平均であり、ｙ_ｉはテンプレート値であり、そして

はテンプレート値の平均である。計算された値は、−１．０と１．０との間である。最大値が見つけられる位置は、観測スクリーン座標における対応の位置（ｘ_ｄｉ，ｙ_ｄｉ）を対象物座標における特徴位置（Ｘ_ｏｉ，Ｙ_ｏｉ，０）にマッチングさせる。

少なくとも３つの対応の位置を得ることができる場合、前のセクションでの計算を用いて現在のイメージ・フレームに対してＴ_ＣＯを見つけることができる。

６．３性能及び精度の改善
６．３．１マルチ・スケール・テンプレート及び焦点はずし
テンプレートは、（式６．６）を用いることにより発生されることができるが、しかしテクスチャ・イメージの解像度が発生されたテンプレートの解像度と全く異なる場合、期待されたテンプレートは、再サンプリング問題のため見つけることができない。補間技術を再サンプリングで用いるならば、それを避けることができるであろう。しかし、それは、多くの計算コストを必要とする。このことを克服するため、幾つかの解像度を有する一部のテクスチャされたイメージ（ｔｅｘｔｕｒｅｄｉｍａｇｅｓ）が、前もって準備される必要がある。

我々はまた、カメラが自動焦点制御を持たず、且つ入力イメージがカメラと追跡される対象物との間の或る一定の距離でぼやけて捕捉されることを想定する。これを補償するため、我々は、３×３のマスクの平均化フィルタを採用することにより一部のテクスチャ・イメージに対して焦点はずし（ｄｅｆｏｃｕｓ）を行う。

６．３．２特徴選択
テクスチャ・イメージの中の特徴点は、それらがテンプレート・マッチングのため用いることができるように、前もって我々のソフトウエアでもって位置合わせされる。しかしながら、テンプレート・マッチングのための適切な特徴点は、解像度に依存する。例えば、カメラが追跡される対象物の近くにあるとき、観測されるイメージの解像度は高く、そしてイメージの中の小さい文字を特徴点として用いることができる。他方、カメラが追跡される対象物から遠くにあるとき、観測されるイメージの解像度は低く、そして小さい文字は分析（ｒｅｓｏｌｖｅ）することができない。これを補償するため、適切な特徴点は、テクスチャ・イメージの種々の解像度に対して独立に位置合わせされる。

できるだけ多くの特徴点が位置合わせされ、そしてこれらのうちの最良のものが、追跡フェーズで動的に選択される。我々はテンプレート・マッチングのため特別のハードウエアを用いないので、特徴点の最小数及び最適位置の選択が、計算コストをできるだけ大きく低減するため、希求される。その上、特徴点の選択の順序が、重要であり、そして各特徴点の追跡と共に反復して行われる。

我々は、発見的特徴選択方法を次のように用いる。まず第１に、最も重要な特徴選択方針は、４つの特徴点がイメージから検出されることである。これが不可能である場合、３つの特徴点の検出が必要とされる。３つより少ない数の特徴点が検出される場合、追跡は失敗である。１つの特徴点が選択されるとき、テンプレート・マッチングは、その選択された特徴に対して行われる。テンプレート・マッチングが成功した場合、換言すると、正規化された相関の最大値が０．７より大きい場合、当該特徴点が記憶され、そして次の特徴点の選択が続けられる。テンプレート・マッチングが失敗した場合、特徴点は、拒絶され、そして代替の特徴点の選択が続けられる。この選択方針が用いる条件は、次のとおりである。

１）選択順序に関係しない共通条件
１．１−特徴点の位置は、その３Ｄ位置が観測スクリーン座標に投影されるとき、前のフレームから得られたＴ_ＣＯ行列を用いることにより、イメージ窓内になければならない。
１．２−特徴点の解像度を、それが観測スクリーン座標に投影されるとき各特徴に対して事前定義された条件でもって満足させる。
２）第１の特徴点の選択
特徴位置はイメージ中心から最も遠い。
３）第２の特徴点の選択
特徴点は、第１の特徴点から最も遠い。
４）第３の特徴点の選択
第１及び第２の特徴点と一緒に形成される三角形の面積が最大である。
５）第４の特徴点の選択
第１、第２及び第３の特徴点と一緒に形成される長方形の面積が最大である。
６）第５の特徴点の選択
特徴が、位置合わせされた順序で選択される。

テンプレート・マッチングが４つの特徴点に対して成功したとき、変換行列Ｔ_ＣＯは、それらから（式６．４）に基づいて計算される。誤差が或る一定の値（実験で５．０）より小さい場合、対象物追跡は成功である。そうで無い場合、ミスされた検出が含まれている可能性があり、そして第５の特徴点の検出が実行される。１個が見つけられると、変換行列Ｔ_ＣＯが、５個の特徴点の組みの中の４つの特徴点の全ての組み合わせに対して計算される。従って、最小誤差を有する変換行列が、その結果拾い上げられる。１個の第５の特徴点の検出が失敗した場合、変換行列Ｔ_ＣＯは、４個の特徴点の組みの中の３個の特徴点の全ての組み合わせに対して計算される。従って、最小誤差を有する変換行列が、その結果拾い上げられる。最小誤差値がスレッショルドより大きい場合、対象物追跡は失敗である。

６．３．３テンプレート・マッチングに関する性能の改善
正規化された相関は高い計算コストを有するが、一方それはマッチング点を首尾良く検出する。我々のテンプレート・サイズは、６４０×２４０のイメージに対して２４×１２ピクセルである。６４０×４８０のイメージが入力されるが、しかしフィールド順次式イメージがテンプレート・マッチングのため用いられる。性能を更に改善するため、テンプレート・マッチングは、カラー・ピクセルを平均化することにより計算されるグレイスケール・ピクセル値に対して行われる。今のところ、マッチング・データの寸法は２４×１２×１＝２８８であり、そしてその計算コストは依然高い。

計算コストを低減するため、我々は、２ステップ・テンプレート・マッチングを用いる。まず第１に、粗い探索が実行される。探索範囲上を走査する際に、テンプレート・マッチングが、ｘ方向において３ピクセル毎に１回行われ、そして最良の３つの結果の位置が、記憶される。また、（式６．９）が、このテンプレート・マッチングのために用いられる。

ここで、Ｉ（ｉ，ｊ）はテンプレートがオーバラップする領域の中の位置（ｉ，ｊ）でのピクセルであり、Ｉ￣（本明細書では、「Ｘ￣」は記号Ｘの上に￣を付した記号を表す。）はテンプレートがオーバラップする領域の中の平均ピクセル値であり、Ｔ（ｉ，ｊ）はテンプレートの中の位置（ｉ，ｊ）でのピクセル値であり、Ｔ￣はテンプレートの中の平均ピクセル値である。前述したように、テンプレート・サイズは２４×１２ピクセルである。しかしながら、この計算は、その計算コストが低減されるように２ピクセル毎に１ピクセルを用いる。

次に、精細な探索が実行される。２４×１２テンプレート・サイズの場合の正規化された相関が、前に得られた３つの位置を囲む領域の中で式（６．７）に基づいて用いられる。従って、最も高い相関値を有する位置が、その結果として見つけられる。

このテンプレート・マッチングがうまく働くため、正しい位置を囲む領域の中のマッチング結果は、それらが粗い探索における最良の３つの結果に含まれるように高い類似度を保たねばならない。テクスチャ・イメージの焦点をはずすことが、同様に、この２ステップ・マッチング・プロセスを支援する。

６．４オフライン自動特徴検出
多くの適切な特徴点は、セクション３で説明したテンプレート・マッチングがうまく働くように全ての解像度のイメージにおいて位置合わせされねばならない。適切な特徴点に対する２つの条件がある。

１）テンプレート・マッチングの探索サイズ内に類似の領域が無い。
２）特徴点からの３つのピクセル内の類似度が高い。
我々は、最良の特徴点の自動検出の方法を開発した。特徴点としての適性は、全ての解像度のテクスチャ・イメージに対して全ての位置で検査される。テクスチャ・イメージの中の各点に対して、領域の特徴点が中心である当該領域が、テンプレートとして抽出され、そして正規化された相関の最大値が、中心の５×５ピクセル領域を除く４９×４９ピクセルの探索範囲から計算される。この値は、テクスチャ・イメージの中の全ての位置で計算される。

図１４Ａ及び図１４Ｂは、予備の特徴点抽出結果を示す図である。図１４Ａは、図１２Ａのイメージに対する予備の特徴点抽出結果を示し、一方図１４Ｂは、図１２Ｂのイメージに対する予備の特徴点抽出結果を示す。これらのイメージの中の明るいピクセルは、相関値が殆ど無いことを、即ち、明るい位置は、特徴点として条件１に適していることを意味する。イメージの中の正方形マーカ領域がまた、この計算から省かれている。

次に、正規化された相関が、中心点を除く５×５領域に対して実行される。最小値が０．６より大きく且つ最大値が１．０より小さい場合、当該位置は、特徴点として位置合わせされる。しかしながら、そのテンプレート領域が事前位置合わせされた特徴点のテンプレート領域とのオーバラップを有する場合、それは取り消される。図１５Ａ及び図１５Ｂは、予備の特徴点抽出結果を示す図である。図１５Ａは、図１２Ａのイメージに対する予備の特徴点抽出結果を示し、一方図１５Ｂは、図１２Ｂのイメージに対する予備の特徴点抽出結果を示す。それぞれの図面は、３つの異なるレベルの解像度で抽出された特徴点、即ち、高いレベルの解像度での赤いボックスにより識別される特徴点、中間レベルの解像度での緑のボックスにより識別される特徴点、及び低いレベルの解像度での青のボックスにより識別される特徴点を示す。

６．５実験
実験が図１におけるテクスチャ・イメージに対して行われた。我々は、インテル・ペンティアム４（登録商標）の２．０ＧＨｚ、リナックスＯＳ、アナログ・ビデオ・キャプチャ・カード及びＧｅＦｏｒｃｅ３グラフィックス・カードを有するＰＣを用いた。カメラがＨＭＤ上に取り付けられ、そしてそのシャッター速度は１／２５０秒であった。６４０×４８０のイメージが捕捉され、そして追跡プログラムが約３０フレーム／秒で正確に動作することができた。追跡が続く間に、１６個のワイヤフレーム立方体が、追跡される対象物上に被せられる。

図１６Ａから図１６Ｈは、サンプル追跡実験の結果を示す追跡図である。我々は、仮想対象物が幾つかの条件において追跡される対象物上に適切に被せられることが分かった。
図１７Ａから図１７Ｄは、例示のイメージに対するテンプレート・マッチング結果を示す。各図面の左端部に沿って配列された長方形は、マッチングされた特徴に対して本装置が発生した特徴テンプレートを示す。イメージの中の緑の長方形領域は、受け入れられたマッチング領域であり、そして黄色の長方形領域は、拒絶された領域である。我々は、４個のマッチング領域を見つけるまでテンプレート・マッチングを試みられることを知ることができる。そこで、位置合わせは、テクスチャが手で隠蔽されるときですら、うまく働く。

追跡される対象物が急速に回転するとき追跡が時々失敗した。それは、テンプレート・マッチングが、並進移動に対して強固であるが、しかし追跡される領域の回転に対して強固でないからである。別の問題は、３個の特徴点からのポーズ及び位置計算であった。３個の特徴点が殆ど直線上にあるとき、位置合わせが悪く、そしてそれは、追跡を次のフレームで失敗させた。そこで、４個の特徴点の組みの中の３個の特徴点を選択する条件が、考慮されねばならない。

上記で説明した装置が、様々な方法で直接適用され、又は拡張され得ることが当業者により認められるであろう。上記の説明は好適な実施形態を参照してなされたが、本発明の範囲は、添付の特許請求の範囲及びその中に記載された構成要素によってのみ定義されるものである。

図１は、表面に付されたとき、装置が追跡することができる典型的なイメージを示すイメージ図である。図２は、装置が表面を追跡するため典型的に実行するステップを示すフロー図である。図３は、装置が動作する典型的な環境を示すブロック図である。図４は、テンプレート・マッチングで用いられる窓と、それを含むビデオ・フレーム内の探索範囲との関係を示すピクセル図である。図５は、候補ピクセルに対する特徴点の制約を示すピクセル図である。図６Ａは、２００ｄｐｉの元のイメージ像解像度のためのオフライン特徴抽出アルゴリズムのこの最初のステップの出力を示す。図６Ｂは、１００ｄｐｉのより低い解像度での出力を示す。これらの両方の図面は、２５×２５ピクセルのテンプレート・サイズを表す。図７は、図１に示されるイメージから抽出されたサンプル特徴を示すイメージ図である。図８は、これらの予測方法の異なる組み合わせの実験に基づく有効性を示すグラフである。図９Ａから図９Ｃは、シーンにおいて様々な解像度に対する追跡結果を示す追跡図である。図１０Ａ及び図１０Ｂは、隠蔽条件下での追跡結果を示す追跡図である。図１１から図１１Ｄは、様々な回転の度合い下のシーンに対する追跡結果を示す追跡図である。図１２Ａ及び図１２Ｂは、装置が追跡するサンプル・イメージを示すイメージ図である。図１３は、装置が用いる座標系を示す座標図である。図１４Ａ及び図１４Ｂは、予備特徴点抽出結果を示す図である。図１５Ａ及び図１５Ｂは、予備特徴点抽出結果を示す図である。図１６Ａから図１６Ｆは、サンプル追跡実験の結果を示す追跡図である。図１６Ｇ及び図１６Ｈは、サンプル追跡実験の結果を示す追跡図である。図１７Ａから図１７Ｄは、サンプル・イメージに対するテンプレート・マッチング結果を示す。

Claims

任意の様相を有する寸法のある表面のカメラに対する動きを追跡するコンピュータ・システムにおける方法であって、
前記表面のイメージを捕捉するステップと、
表面の前記の捕捉されたイメージを解析して、前記の捕捉されたイメージに存在する視覚的特徴を識別するステップと、
前記の識別された視覚的特徴から、前記表面の動きを追跡するのに使用するため複数の視覚的特徴を選択するステップと、
前記カメラにより捕捉された一連のイメージを受け取るステップであって、前記一連のイメージのうちの少なくとも一部のイメージが前記表面の少なくとも一部分のビューを構成する、前記受け取るステップと、を備え、
更に、前記一連のイメージの各イメージに対して、
前記の選択された特徴が前記イメージの中で生じる２次元位置を識別するステップと、
前記特徴が前記イメージの中で識別される前記２次元位置に基づいて、前記カメラに対して前記一連のイメージのうちの現在のイメージの中で前記表面の３次元位置及び向きを決定するステップと、を備える、方法。
前記の選択された特徴が前記イメージの中で生じる２次元位置は、前記選択された特徴が前記イメージにおいて同一平面上に見えるという想定の元に予測される請求項１記載の方法。
前記表面が２次元表面である請求項１記載の方法。
前記表面が平坦な表面である請求項１記載の方法。
前記表面が、或る距離で観察されたとき平坦に見える不規則な物体（ｂｏｄｙ）である請求項１記載の方法。
表面の前記の決定された位置及び向きを用いて、前記表面のイメージと関連するサイズ、位置及び向きで、補足のイメージを前記一連のイメージのうちの複数のイメージに導入するステップを更に備える請求項１記載の方法。
表面の前記の決定された位置及び向きを用いて、３次元の対象物のビューを前記表面の上に重畳するステップを更に備える請求項１記載の方法。
前記の識別された特徴の選択が、前記の識別された特徴のそれぞれにより与えられるコントラストのレベル同士の比較に基づいて実行される請求項１記載の方法。
前記の識別された特徴の選択が、全ての前記の識別された特徴の中で各前記の識別された特徴の一意性のレベル同士の比較に基づいて実行される請求項１記載の方法。
前記の識別された特徴の選択が、前記表面の位置及び向きを決定するため前記の識別された特徴を用いることができる正確さのレベル同士の比較に基づいて実行される請求項１記載の方法。
前記の識別された特徴の選択が、少なくとも２つの異なるサイズ範囲において視覚的特徴を選択することを含み、
前記方法は更に、前記サイズ範囲のうちの１つのサイズ範囲を、前記表面の現在位置に対する距離の尺度に基づいて選択するステップを含み、
前記の選択されたサイズ範囲における選択された特徴を用いて、前記表面の位置及び向きを決定する
請求項１記載の方法。
前記一連のイメージの各イメージに対して、
特徴が前記一連のイメージのうちの１又はそれより多い前のイメージの中で識別される２次元位置に基づいて、前記特徴が現在のイメージの中に生じるであろう２次元位置を予測するステップと、
探索ゾーンを前記の予測された位置の周りに確立するステップと、を更に備え、
前記の選択された特徴がイメージの中に生じる２次元位置を識別する前記ステップが、前記の選択された特徴を求めて前記の確立された探索ゾーンを探索するステップを備える
請求項１記載の方法。
前記表面が、任意の様相を有することに加えて、１又はそれより多い基準マーカを含むように変更され、
前記方法は更に、前記一連のイメージの第１のイメージにおいて、基準マーカに対応する前記イメージの部分を識別し且つ解析して、前記イメージでの前記表面の３次元位置及び向きを決定するステップを備え、
前記一連のイメージの第１のイメージでの前記表面の３次元位置及び向きを決定する前記ステップを用いて、前記の選択された特徴が前記一連のイメージの第１のイメージで生じる２次元位置を識別する
請求項１記載の方法。
各基準マーカが一意の識別パターンを備える請求項１３記載の方法。
各基準マーカが正方形の形状である請求項１３記載の方法。
前記一連のイメージのうちの現在のイメージにおける前記表面の３次元位置及び向きが、明示された基準マーカを用いること無しに決定される請求項１記載の方法。
前記カメラを用いて前記一連のイメージを捕捉するステップを更に備え、
前記決定を前記の捕捉に対してリアルタイムで行う
請求項１記載の方法。
前記一連のイメージのうちの２つの連続したイメージの間で、前記カメラが前記環境に対して移動する請求項１記載の方法。
前記一連のイメージのうちの２つの連続したイメージの間で、前記表面が前記環境に対して移動する請求項１記載の方法。
コンピュータ可読媒体のコンテンツが、
表面のイメージを捕捉するステップと、
表面の前記の捕捉されたイメージを解析して、前記の捕捉されたイメージに存在する視覚的特徴を識別するステップと、
前記の識別された視覚的特徴から、前記表面の動きを追跡するのに使用するため複数の視覚的特徴を選択するステップと、
前記カメラにより捕捉された一連のイメージを受け取るステップであって、前記一連のイメージのうちの少なくとも一部が前記表面の少なくとも一部分のビューを構成する、前記受け取るステップと、
前記一連のイメージの各イメージに対して、
前記の選択された特徴が前記イメージの中で生じる２次元位置を識別するステップと、
前記特徴が前記イメージの中で識別される前記２次元位置に基づいて、前記カメラに対して、前記一連のイメージのうちの現在のイメージにおける前記表面の３次元位置及び向きを決定するステップと
を行うことにより、コンピュータ・システムに、任意の様相を有する寸法のある表面の前記カメラに対する動きを追跡させる、コンピュータ可読媒体。
固有の視覚的様相を有し且つ１又はそれより多い明示の基準マーカが付されている２次元表面を追跡するコンピュータ・システムにおける方法であって、
前記表面の固有の視覚的様相の視覚的に有意の外観を識別するステップと、
前記表面の一連の透視イメージのうちの最初の透視イメージにおいて、基準マーカの認識を実行して、当該最初の透視イメージでの前記表面の３次元位置及び向きを決定するステップと、
前記表面の連続した透視イメージにおいて、前記表面の固有の視覚的様相の前記の識別された外観の認識を実行して、前記連続した透視イメージでの前記表面の３次元位置及び向きを決定するステップと
を備える方法。
連続したイメージのそれぞれにおける前記表面の固有の視覚的様相の前記の識別された外観の認識が、前のイメージでの前記表面の３次元位置及び向きにより案内される請求項２１記載の方法。
各基準マーカが正方形の形状である請求項２１記載の方法。
前記表面の固有の視覚的様相の前記の識別された外観の認識が、前記の選択された特徴が前記の連続した透視イメージにおいて同一平面上に見えるという想定の元に予測される請求項２１記載の方法。
固有の視覚的様相を有し且つ１又はそれより多い明示の基準マーカが付されている２次元表面を追跡するコンピュータ・システムであって、
前記表面の固有の視覚的様相の視覚的に有意の外観を識別する視覚解析サブシステムと、
前記表面の一連の透視イメージのうちの最初の透視イメージにおいて、基準マーカの認識を実行して、前記最初の透視イメージでの前記表面の３次元位置及び向きを決定する第１の認識サブシステムと、
前記表面の連続した透視イメージにおいて、前記表面の固有の視覚的様相の前記の識別された外観の認識を実行して、前記連続した透視イメージでの前記表面の３次元位置及び向きを決定する第２の認識サブシステムと
を備えるコンピュータ・システム。
対象表面の識別された透視イメージでの前記対象表面の３次元位置及び向きを決定するコンピュータ・システムにおける方法であって、前記対象表面が固有の視覚的特徴を有し、当該固有の視覚的特徴のサブセットが選択される、前記方法において、
前記の識別された透視イメージより時間的に前にある前記対象表面の透視イメージでの前記の選択された視覚的特徴の位置を用いて、前記の識別された透視イメージの中の探索ゾーンを識別するステップと、
前記の選択された視覚的特徴を求めて前記の識別された探索ゾーンを探索して、前記の選択された視覚的特徴が生じる２次元位置を決定するステップと、
前記の決定された２次元位置に基づいて、識別された透視イメージでの対象表面の３次元位置及び向きを決定するステップと
を備える方法。
前記対象表面の前記の選択された固有の視覚的特徴の数が少なくとも４個である請求項２６記載の方法。
前記対象表面の固有の視覚的特徴のサブセットのそれぞれが異なる一般的サイズの特徴を含む、複数の前記サブセットを選択し、
前記方法は更に、前記対象表面の前に決定された３次元位置に基づいて、特徴の１つのサブセットを選定するステップを備え、
前記の選定されたサブセットの特徴を求めて前記の識別された探索ゾーンを探索する
請求項２６記載の方法。
前記の選択された視覚的特徴が生じる２次元位置の決定が、前記の選択された視覚的特徴が前記イメージにおいて同一平面上に見えるという想定の元に予測される請求項２６記載の方法。
コンピュータ可読媒体のコンテンツが、コンピュータ・システムに、対象表面の識別された透視イメージでの前記対象表面の３次元位置及び向きを以下のステップを行うことにより決定させる、コンピュータ可読媒体であって、前記対象表面が固有の視覚的特徴を有し、当該固有の視覚的特徴のサブセットが選択される、前記コンピュータ可読媒体において、
前記以下のステップが、
前記の識別された透視イメージより時間的に前にある前記対象表面の透視イメージでの前記の選択された視覚的特徴の位置を用いて、前記の識別された透視イメージの中の探索ゾーンを識別するステップと、
前記の選択された視覚的特徴を求めて前記の識別された探索ゾーンを探索して、前記の選択された視覚的特徴が生じる２次元位置を決定するステップと、
前記の決定された２次元位置に基づいて、識別された透視イメージでの対象表面の３次元位置及び向きを決定するステップとである、コンピュータ可読媒体。
或る様相を有する表面に関する視覚的追跡データ構造を格納する１又はそれより多いコンピュータ・メモリであって、
前記データ構造が、複数の自然の特徴テンプレートを備え、
自然の特徴テンプレートのそれぞれが、前記表面の様相に生じる特徴に対応し、且つ前記表面の透視イメージの中の前記特徴を識別するための適切な情報を含み、
それにより、前記データ構造のコンテンツを用いて、前記自然の特徴テンプレートが前記表面の透視イメージにおいて対応する特徴の少なくとも１つのサブセットを識別し、且つ前記透視イメージがそれから捕捉される空間内の点に対する前記表面の距離及び向きを決定し得る、１又はそれより多いコンピュータ・メモリ。