JP2009093611A

JP2009093611A - 三次元オブジェクト認識のためのシステムおよび方法

Info

Publication number: JP2009093611A
Application number: JP2008040298A
Authority: JP
Inventors: Christian Wiedemann; クリスチァン、ヴィーデマン; Markus Ulrich; マルクス、ウルリヒ; Carsten Steger; カルステン、シュテガー
Original assignee: MWTEC SOFTWARE GmbH
Current assignee: MWTEC SOFTWARE GmbH
Priority date: 2007-10-11
Filing date: 2008-02-21
Publication date: 2009-04-30
Anticipated expiration: 2028-02-21
Also published as: ATE452379T1; CN101408931A; JP4785880B2; CN101408931B; DE602007003849D1; US20090096790A1; EP2048599A1; EP2048599B1; US8379014B2

Abstract

【課題】単眼カメラ画像において三次元オブジェクトを認識するためのシステムおよび方法、並びにカメラ座標系においてオブジェクトの三次元位置姿勢を測定するためのシステムおよび方法を提供する。
【解決手段】本発明は、オブジェクト認識およびオンライン段階における三次元位置姿勢の測定に用いることができる三次元モデルの学習を、オフライン段階において自動的に行なう。この学習のために、ユーザは、例えば三次元ＣＡＤモデル等のオブジェクトの幾何学的三次元表象を提供する。前記学習は、十分な数のオブジェクトの二次元画像を得、各画像に対して二次元モデルを算出し、多数の二次元モデルを三次元モデルにおいて保存することで実行される。オンライン段階において、前記二次元モデルは、ランタイムイメージとマッチされ、サーチされたオブジェクトの１つまたは複数の例に対し近似三次元位置姿勢が得られる。前記近似位置姿勢は、その後最小二乗マッチングを用いて絞り込まれる。
【選択図】図１

Description

本発明は、一般に機械視覚システムに関し、特に、画像における三次元オブジェクトの視覚認識およびその三次元位置姿勢の測定に関する。

オブジェクト認識は、多くのコンピュータビジョンアプリケーションにおいてその部分をなすものである。いくつかの例では、オブジェクトは二次元であると想定され、画像におけるオブジェクトの変換は、例えば、類似変換または投影変換にある程度限定されている。文献において、この問題をすでに解決可能な様々な種類のマッチングアプローチが多数ある。マッチングアプローチの概説は、Ｂｒｏｗｎ（１９９２年）により示されている。多くの場合、オブジェクトのモデルは該オブジェクトの画像から生成される。このようなアプローチのうち、産業上の利用における要件、すなわち、高速計算や高精度、ならびにノイズ、オブジェクトオクルージョン、クラッターおよびコントラスト変化に対するロバスト性などを満たす二つの例が、欧州特許第１，１９３，６４２号およびＵｌｒｉｃｈｅｔａｌ．（２００３年）において提示されている。

しかしながら、多くのアプリケーションにおいて、認識対象となるオブジェクトは、二次元ではなく三次元形状であり、未知の視点から撮像される。なぜなら、オブジェクトが固定カメラの前の三次元空間で動く、カメラが固定オブジェクトの回りを動く、またはこの両方の、オブジェクトおよびカメラが同時に動くからである。このことにより、オブジェクト認識タスクが非常に複雑になる。なぜなら、カメラとオブジェクトとの間の相対的動作によって、二次元変換では表現することができない異なる遠近感が生ずるからである。また、二次元変換だけでなく、カメラに対するオブジェクトの三次元位置姿勢もすべて測定しなければならない。三次元位置姿勢は、三次元剛体変換の６つのパラメータ（３つの移動パラメータおよび３つの回転パラメータ）で定義され、カメラに対するオブジェクトの相対的動作を表現する。一つの画像において三次元オブジェクトを視覚的に認識するための様々な技術が開発されている。これらは、特徴ベース技術とビューベース技術とに分類することができる。これらのアプローチの他に、三次元オブジェクトを認識するために、一つのみの画像よりも多くの情報を用いるアプローチがあり、例えば、二つの画像（例えば、ＳｕｍｉおよびＴｏｍｉｔａ、１９９８年）、またはある範囲の画像と組み合わせた一つの画像（例えば、米国特許公開第２００５／０２８６７６７号）がある。後者のアプローチは本発明とは異なり過ぎるため、ここでは論じない。

特徴ベース技術は、三次元オブジェクトの顕著な特徴と、二次元サーチ画像におけるこれらの投影との対応を測定することに基づいている。これら特徴の三次元座標が既知の場合、オブジェクトの三次元位置姿勢を、十分な数のこれら二次元／三次元の対応の集合（例えば、４つのポイント）から直接計算することができる。

特徴ベース技術の１つの形態において、三次元オブジェクトの手動で選択した顕著な特徴は、二次元サーチ画像においてサーチされる（例えば、米国特許第６,５８０,８２１号、米国特許第６,８１６,７５５号、カナダ特許第２，５５５，１５９号）。これらの特徴は、人工的なマークであっても自然な特徴であってもよく、例えば、三次元オブジェクトのコーナーポイント、または特徴的にテキスチャされた近傍を有するポイントのいずれかである。一般的に、テンプレートは、オブジェクトの１つの画像における特徴の位置で定義される。サーチ画像において、特徴は、テンプレートマッチングでサーチされる。いくつかの難点がこれらのアプローチに付随する。通常、視点の変化のために、画像において特徴をロバスト的に見つけることは困難であり、遮断されたり、遠近法的に歪んだ特徴をもたらす。テンプレートマッチング法は、この種の歪みに対処することができない。このため、これらのアプローチは視点変化が非常に限られている範囲にしか適さない。さらに、マーカーベースアプローチは、変化するオブジェクトに対する順応性がない。マーカー付けをし、その三次元座標を測定することは難しい場合が多い。また、オブジェクトの多くは、その表面にマーカー付けされることに適していない。

特徴ベース認識技術の別の形態では、透視変換において、不変である特徴を用いることによってこの制限を取り除く（例えば、米国特許出願公開第２００２／０１８１７８０号、ＢｅｖｅｒｉｄｇｅおよびＲｉｓｅｍａｎ、１９９５年、Ｄａｖｉｄｅｔａｌ．、２００３年、ＧａｖｒｉｌａおよびＧｒｏｅｎ、１９９１年）。例えば、Ｈｏｒａｕｄ（１９８７年）において、線形構造は、二次元サーチ画像内で線形構造が分離され、線形構造が互いに交差され交点を得る。画像における交点は、三次元モデルの隣接するエッジのコーナーポイントに対応すると推定される。モデルの三次元コーナーポイントと抽出された二次元交点との間で正しい対応を得るためのいくつかの方法が、文献（ＨａｒｔｌｅｙおよびＺｉｓｓｅｒｍａｎ、２０００年、米国特許出願公開第２００２／０１８１７８０号）にある。これらの特徴ベースアプローチの利点は、視点の範囲が制限されていないことである。

また、オブジェクトの特定の三次元モデルを必要とせずに、三次元オブジェクトの一つの種類を検出することができる包括的な特徴ベースアプローチがある。一例が米国特許第５，６６６，４４１号に示されており、ここでは、三次元直方体オブジェクトが検出される。最初に、画像内で線形構造に分離される。三次元直方体オブジェクトを検出するためにこれらの線形構造のうちの少なくとも３つの交差が形成され、グループにまとめられる。オブジェクトの大きさについての情報が何も用いられないため、このアプローチではオブジェクトの位置姿勢を測定できない。当然ながら、この種の特徴ベースアプローチは、変化するオブジェクトに対する順応性がない。これらアプローチは、アプローチ開発の対象であるオブジェクトしか検出できない（上記で引用した例においては、三次元直方体オブジェクト）。

一般に、特徴ベース認識技術は、クラッターおよびオクルージョンに関しては特徴の抽出をロバスト的に行うことができないという事実がある。また、抽出した二次元特徴の三次元特徴への正しい割り当てはＮＰ完全問題であるため、これらの技術は、高速認識が重要とされる産業上の利用には不適切である。

ビューベース認識技術は、二次元サーチ画像と、様々な視点から見たオブジェクトの二次元投影図との比較に基づく。オブジェクトの望ましい三次元位置姿勢は、二次元サーチ画像に最も類似した二次元投影図を作成するために用いられた位置姿勢となる。

ビューベース認識の１つの形態において、三次元オブジェクトのモデルは、異なる視点から撮影したオブジェクトの複数の学習画像から習得される（例えば、米国特許第６，５２６，１５６号）。その後、この二次元サーチ画像は各学習画像と比較される。二次元サーチ画像に最も類似した学習画像の位置姿勢は、オブジェクトの望ましい位置姿勢として返される。残念ながら、学習画像の取得および、二次元サーチ画像との比較は非常にコストがかかる。なぜなら、許容される視点をかなり広い範囲で含むので、必要な学習画像の数が非常に多いからである。その上、このビューベース認識の形態は、一般的に照射変化に対して不変でなく、特に、僅かなテキスチャしか示さないオブジェクトに対しては不変でない。これらの問題により、このアプローチは産業上の利用には適していない。

ビューベース認識の別の形態においては、異なる視点から三次元オブジェクトの三次元モデルをレンダリングして二次元投影図が作成される（例えば、米国特許第６，９５６，５６９号、米国特許出願公開第２００１／００２０９４６号）、カナダ特許第２５３５８２８号）。ここでもまた、許容される視点をかなり広い範囲で含むために必要である二次元投影図の数が非常に多いという問題が存在する。これに対処するために、位置姿勢クラスター技術が紹介されている（例えば、Ｍｕｎｋｅｌｔ、１９９６年）。それでも、二次元サーチ画像と比較しなければならない二次元投影の数は依然として多いため、これらのビューベース認識技術は産業上の利用に適していない。ビューの数は、カメラが常に三次元オブジェクトの中心に向くようにビューを作成することによって削減されることが多いが、その結果投影の歪みが生じるため、画像の中心に現れないオブジェクトは見つけることができない。これらのビューベース認識技術の別の未解決な問題は、二次元サーチ画像との比較に適するような二次元投影図の作成である。写実的にレンダーされた二次元投影図を用いるアプローチ（米国特許第６，９５６，５６９号）は、照射変化に対して不変ではない。なぜなら、オブジェクトのエッジの外観は、照射方向によって変化するからである。この問題は、テキスチャを用いることで抑制することはできる（米国特許出願公開第２００１／００２０９４６号）が、解消することはできない。その他のアプローチでは、サンプリングした異なる視点での画像において特徴点を抽出することによりモデルを作成し、ポイント記述子を用いて分類器を学習させる（例えば、Ｌｅｐｅｔｉｔ、２００４年）。サーチ画像においても、ポイント記述子の出力を用いて特徴点が抽出され分類される。最終的に、最も有望な三次元位置姿勢が返される。残念ながら、この種のアプローチは、オブジェクト表面の特異なテキスチャに大きく依存するため、殆どの産業上の利用には適していない。三次元モデルのワイヤフレーム投影図のみを用いたアプローチは、投影されたエッジの多くがサーチ画像において可視ではないという問題に直面しており、特に、オブジェクトの三次元モデルにおいて二次元の三角形で一般的に近似される、若干湾曲した表面について、この問題がある。二次元投影図を二次元サーチ画像と比較するために用いられる技術は、クラッターおよびオクルージョンに対してロバストではないことが多い（Ｕｌｒｉｃｈ、２００３年）。結局、純粋なビューベースアプローチにより測定されるオブジェクト位置姿勢の精度は、視点の許容される範囲がサンプリングされる距離によって制限される。

本発明は、単眼カメラ画像において三次元オブジェクトを認識するためのシステムおよび方法、並びにカメラ座標系に対するオブジェクトの三次元位置姿勢を測定するためのシステムおよび方法を提供する。本発明は、先に説明したビューベースオブジェクト認識方法における従来技術の問題の多くを実質的に解消する方法を提供する。

第１の観点において、本発明は、三次元オブジェクト認識を行うための三次元モデルを構築するための方法を提供するもので、(ａ)カメラの内的パラメータを提供するステップと、（ｂ）三次元オブジェクトの幾何学的表象を提供するステップと、（ｃ）三次元オブジェクトが、カメラから可視である位置姿勢の範囲を提供するステップと、（ｄ）異なる画像解像度、例えば画像ピラミッドのレベルについて前記位置姿勢の範囲をサンプリングすることにより、前記三次元オブジェクトの仮想ビューを作成するステップと、(ｅ)すべてのビューをツリー構造により表現するステップであって、同一のピラミッドレベル上のビューは、前記ツリーにおいて同一の階層レベルに属するステップと、（ｆ）各画像について、適切な二次元マッチングアプローチを用いることにより、画像における二次元ビューを見つけるために使用可能な二次元モデルを作成するステップとを含む。

第２の観点によると、本発明は、三次元オブジェクトを認識するためであって、前記オブジェクトの１つの画像からその三次元位置姿勢を測定するための方法であり、（ａ）前記三次元オブジェクトの三次元モデルを提供するステップと、（ｂ）前記三次元オブジェクトの電子サーチ画像を提供するステップと、（ｃ）例えば、画像ピラミッドといった、異なる解像度を含む前記サーチ画像の表象を作成するステップと、（ｄ）前記階層的ツリー構造において、親ビュー（father view）を持たない二次元モデルを、前記画像ピラミッドの各レベルの画像とマッチさせるステップと、（ｅ）最下位ピラミッドまで追跡することにより、最上位ピラミッドレベルの二次元でのマッチの確認および絞り込み（refining）を行うステップと、（ｆ）前記二次元マッチングの位置姿勢および前記対応する三次元ビューの位置姿勢から、初期三次元オブジェクトの位置姿勢を測定するステップと、（ｇ）前記初期三次元オブジェクトの位置姿勢を絞り込むステップとを含む。

第３の観点によると、本発明は、テキスチャ情報で三次元モデルを補強するための方法を提供するものであって、(ａ)前記三次元オブジェクトのいくつかの画像例を提供するステップと、（ｂ）前記画像例それぞれにおいて、前記三次元オブジェクトの前記三次元位置姿勢を測定するステップと、（ｃ）各画像例について、ステップ（ｂ）で測定した前記三次元位置姿勢を用いて、前記三次元モデルの各面を画像例に投影するステップと、（ｄ）各オブジェクト面について、前記投影面で隠れた画像例部分を、前記面の前記三次元位置姿勢を用いて修正するステップと、（ｅ）前記修正されたテキスチャを備えたオブジェクト面から得られたテキスチャ情報で前記二次元モデルを補強し、幾何学的情報およびテキスチャ情報の両方を含む二次元モデルとするステップとを含む。

第１のステップにおいて、前記カメラは、最終的な三次元オブジェクトの位置姿勢を高精度にするために較正される。また、前記較正は、オブジェクト認識用カメラレンズが著しく歪んでいても、これを用いることを可能にする。

その後、三次元モデルは、例えば、三次元ＣＡＤモデルといった前記オブジェクトの三次元表象に基づいて学習される。これを行うために、三次元オブジェクトのビューは、ユーザが特定した位置姿勢範囲内で生成される。本発明の好ましい実施形態において、オブジェクトは、球座標系を画定する球の中心にあると想定される。このため、三次元モデルに含まれるべきカメラ位置の範囲は、球座標の経度、緯度および距離について間隔を特定することによって表わすことができる。また必要に応じて、前記カメラのロール角度は、モデル学習に適切な値を渡すことで、３６０度よりも狭い範囲に限定することができる。この学習（オフライン段階）の間、カメラは常にオブジェクトの中心に向けられるものとする。

位置姿勢の範囲内でのビューのサンプリングは、前記学習処理中に自動的に測定される。この自動算出によるサンプリングの利点は、サンプリングを行うためのパラメータ値をユーザが特定する必要がなく、オブジェクト認識のロバスト性と速度とが最大になるようにサンプリングを選択することができることである。認識の速度をさらに上げるために、複数のピラミッドレベル上にモデルが作成される。ピラミッドレベルが高くなるにつれて、ビューのサンプリングが粗くなるので、ビューの算出は、各ピラミッドレベルについて個別に行われる。オーバサンプリングから開始して、抽出が原解像度に最適になったとわかるまで、適切な類似度を用いて近傍のビューが順に統合される。次に高位のピラミッドレベル上でサンプリングするために、類似度の閾値はより低い解像度に緩和され、これらの閾値を超えるまでビューはさらに統合される。この処理は、ピラミッドレベルの最大数に達するまで繰り返される。異なるピラミッドレベル上のビュー同士の関係は、三次元モデル内に保存される。この情報があるため、高位のピラミッドレベル上のある特定のビューを求めて、前記高位のピラミッドレベル上にビューを作成するよう統合されたその直下のピラミッドレベル上のビューに問い合わせを行うことが可能である。この情報はツリー構造で保存される。ツリーにおける各ノードは一つのビューを表す。同一ピラミッドレベル上のビューは、ツリーにおける同一の階層レベルに属する。このツリー構造により、各親ノードは１つまたはそれ以上の子ノードに接続される一方で、各子ノードは最大でも１つの親ノードに接続される。さらに、各ビューの三次元位置姿勢は三次元モデル内に保存される。

各ピラミッドレベルおよびそのレベル上の各ビューについて、二次元モデルが作成される。これを行うために、現行のビューにより表わされるカメラの位置姿勢を用いて、オブジェクトの三次元表象が像面に投影される。この結果、３チャネル画像が得られ、ここでは、この３チャネルは、三次元オブジェクトを成す面の法線ベクトルの３つの要素を表す。この３チャネル画像投影を用いる利点は、この画像におけるエッジ振幅が、三次元オブジェクトの二つの近傍面が成す角度に直接関係するという点にある。本発明の好ましい実施形態において、二次元モデル表象は、エッジ位置および各エッジの方向を含む。モデルの三次元描画には、オブジェクトの直接像では可視ではない多くのエッジが含まれていることが多い。例えば、このようなエッジは、十分な数の平らな面によって湾曲した表面を近似するために用いられるＣＡＤソフトの三角測量法を行った結果生じる。このため、これらのエッジは、二次元モデルに含まれてはならない。三次元オブジェクトにおける２つの近傍面の法線ベクトル間の角度差に対して最小値を特定することで、これらを抑制することが可能である。投影モードが選択されるので、この最小角度は、３チャネル画像におけるエッジ振幅に対する閾値に容易に変換することができる。最終的に、二次元モデルは、関連する画像ピラミッドレベル上の３チャネル画像から生成される。本発明の好ましい実施形態において、欧州特許第１,１９３,６４２号において提示される類似度が、二次元マッチングに用いられる。これは、オクルージョン、クラッターおよび非線形コントラスト変化に対しロバストである。二次元モデルは、対応する勾配方向ベクトルを伴う複数のエッジポイントからなり、これらは例えば、エッジ検出方法といった標準的な画像前処理アルゴリズムにより得ることができる。類似度は、エッジ勾配方向のドット積に基づく。あるいは代わりに、その他のエッジに基づく二次元マッチングアプローチを本発明に用いることも可能で、例えば、平均エッジ距離に基づくアプローチ（Ｂｏｒｇｅｆｏｒｓ、１９８８年）、ハウスドルフ距離に基づくアプローチ（Ｒｕｃｋｌｉｄｇｅ、１９９７年）、または一般化ハフ変換に基づくアプローチ（Ｂａｌｌａｒｄ、１９８１年またはＵｌｒｉｃｈｅｔａｌ.、２００３年）がある。最後のステップにおいて、作成された二次元モデルが、画像におけるクラッターからモデルを区別するために必要な十分に顕著な特性を依然として示しているかどうかが確認される。そうでない場合、このビューおよびピラミッドレベルの二次元モデルは取り除かれる。

オンライン段階においては、作成された三次元モデルが、単眼カメラ画像における三次元オブジェクトの認識用に、また、カメラ座標系におけるオブジェクトの三次元位置姿勢の測定用に用いられる。最初に、入力画像から画像ピラミッドを作る。少なくとも１つの有効な二次元モデルが得られる最も高位のピラミッドレベルで認識を開始する。このピラミッドレベルの二次元モデルはすべてサーチされるが、サーチは例えば、ビューの二次元モデルと現行の画像ピラミッドレベルの二次元モデルとの間の欧州特許第１,１９３,６４２号で提示される類似度を算出することにより行なわれる。あるいは、代わりにその他のエッジに基づく二次元マッチングアプローチを本発明に用いることも可能で、前記アプローチには例えば、平均エッジ距離に基づくアプローチ（Ｂｏｒｇｅｆｏｒｓ、１９８８年）、ハウスドルフ距離に基づくアプローチ（Ｒｕｃｋｌｉｄｇｅ、１９９７年）、または一般化ハフ変換に基づくアプローチ（Ｂａｌｌａｒｄ、１９８１年またはＵｌｒｉｃｈｅｔａｌ.、２００３年）がある。サーチを行うために、二次元モデルが必要な範囲で回転および拡大縮小され、この拡大縮小および回転された二次元モデルの画像における各位置で類似度が算出される。所定の類似度を超えるマッチの二次元位置姿勢（位置、回転、拡大縮小）は、マッチ候補の一覧に保存される。次の下位のピラミッドレベル上で、ツリー内に親ノードを持たない二次元モデルがすべて、最も高位のピラミッドレベル上のビューで行った方法と同じ方法でサーチされる。さらに、前のピラミッドレベル上で見つかったマッチ候補は絞り込まれる。この絞り込みは、ツリーにおける子ビューをすべて選択し、これらの子ビューの二次元モデルと現行の画像ピラミッドレベルの二次元モデルとの間の類似度を算出して行われる。しかしながら、親ビューのマッチに従い、非常に制限されたパラメータ範囲内だけで類似度を算出することでも十分である。このことは、精査すべき位置、回転および拡大縮小の範囲が、親マッチの近傍に限定できることを意味する。この処理は、最も下位のピラミッドレベルまですべてのマッチ候補が追跡されるまで繰り返される。ピラミッドアプローチとツリー構造に配列される階層的モデルビューとの組み合わせは、リアルタイムアプリケーションにおいて重要であるが、これまでの認識アプローチにおいては適用されたことが無い。

残念ながら、上述の追跡は、カメラがオブジェクトの中心に向けられておらず、よってオブジェクトが画像の中心に現れない場合は不可能である。学習中に作成された二次元モデルは、オブジェクト中心に向けられるカメラを想定して作成されていることから、画像における二次元モデルおよび投影モデルは二次元投影変換によって関連付けられる。この変換のパラメータは、画像におけるオブジェクトの位置が既知な場合、算出することができる。したがって、次に下位のピラミッドレベルへマッチ候補が追跡される前に、その子ビューの二次元モデルは、マッチ候補の位置に応じて投影的に修正される。これは、これまでのビューベース認識アプローチでは適用されていない極めて重要なステップである。

マッチングの結果、所定の類似度を超える二次元マッチの画像における二次元位置姿勢が得られる。各マッチについて、対応する三次元オブジェクトの位置姿勢を、二次元マッチ位置姿勢とマッチに関連するモデルビューの三次元位置姿勢とに基づき算出することができる。取得した三次元位置姿勢の精度は、ビューのサンプリングおよび二次元マッチング中の二次元位置姿勢、すなわち、位置、回転、拡大縮小のサンプリングによって制限される。これは実用的な利用には十分でない。したがって、位置姿勢絞り込みステップが実用的な利用を可能にするために不可欠である。三次元位置姿勢の絞り込みは最小二乗調整を使用して行われる。これを行うために、マッチングにより取得した三次元位置姿勢を用いて、三次元オブジェクトがサーチ画像に投影される。投影モデルエッジは、適切なサンプリング距離を使用して個別のポイントに至るまでサンプリングされる。サンプリングされた各エッジポイントについて、その近隣で、それに対応する、サブピクセルレベルで正確な画像エッジポイントがサーチされる。すべての画像エッジポイントと投影モデルエッジとの間の距離の二乗を最小化することで、絞り込まれた三次元位置姿勢が得られる。

説明したアプローチはいくつかの拡張が可能である。例えば、カメラレンズが著しく歪んでいる場合、マッチングを適用する前にこの歪みは除去すべきである。これは、サーチ画像を修正することによって容易に行なうことができ、歪みのない画像が得られる。その後、修正した画像においてマッチングが実行される。

二つ目の拡張は、カメラ設定が強い投影歪み（射影歪み）を示す場合に適用することができる。焦点距離が短くなればなるほど、また、オブジェクトの奥行きが深くなればなるほど、画像において遠近法的歪みが強くなる。この場合、追跡中（上記参照）に施される投影の修正では十分ではない可能性がある。代わりに、最も高位のピラミッドレベル上ですでに投影歪みを考慮に入れなければならない。したがって、最高位のピラミッドレベルは、球マッピング（spherical mapping、球面マッピングとも言う。）を適用して変換される。球マッピングは、遠近法的歪みの影響を著しく低減するもので、これにより、オブジェクトが画像中心にない場合でも、該オブジェクトの類似度を高くすることができる。このため、最高位のピラミッドレベル上で用いられる二次元モデルにも、同一の球マッピングが施されなければならない。

オブジェクトが特徴的なテキスチャを示す場合、本発明は、この付加的な情報の恩恵を受けるよう容易に拡張することができる。本発明の好ましい実施形態において、ユーザは、三次元モデルの生成の後、オブジェクトのいくつかの画像例を提供する。第１のステップにおいて、三次元モデルが、この画像例におけるオブジェクトの三次元位置姿勢を測定するために用いられ、画像例からオブジェクトテキスチャを自動的に抽出する。第２のステップにおいて、三次元モデルは、二次元モデルにテキスチャ情報を追加することで補強される。

三次元モデルにおいて必要なビューの数を減らし、これにより、メモリの消費および三次元オブジェクト認識のランタイムを減らすために、欧州特許第１,１９３,６４２号に提示される類似度は、ビューの位置姿勢における細かい変更に対して許容範囲を広げることができる。これは、サーチ画像における類似度の算出に用いられる勾配方向を、エッジの両側へ拡張することで達成できる。

本発明は、付随する図面と共に以下の詳細な説明からさらに十分に理解できるであろう。

以下、本発明の個々のステップを詳細に説明する。最初は、高精度を得るための最初のステップである幾何学的カメラ較正である。その後、三次元オブジェクトをどのように表現するかについての情報を示す。次の項目で、サーチ画像内の三次元オブジェクトを見つけるために用いることができる三次元モデルの生成を説明する。以下の説明において、三次元モデル生成はオフライン段階として示される。そして、画像内のオブジェクトを認識するために使用できる方法を説明する。このステップは、以下の説明においてオンライン段階として示される。前記オフライン段階のステップは、図１のフローチャートにまとめられ、前記オンライン段階のステップは、図２のフローチャートにまとめられている。両方のフローチャートにおいて、不可欠なステップは実線によるボックスで示され、一方、選択的なステップは点線によるボックスで示されている。最後に、提示した方法を利用したロボットビジョンシステムを紹介する。以下の説明は、当業者が本発明を作成し使用できるように提示される。特定の適用についての説明は、単なる例として挙げられている。好ましい実施形態に対する様々な変形は、当業者ならば容易に分かるものであり、また、ここで定義する一般的な原理は、本発明の精神および範囲から逸脱することなく、他の実施形態および利用に適用することができる。このため、本発明は、示されている実施形態によって限定されるものではなく、ここで開示されている原理および特徴と一貫性がある最も広い範囲と一致するものである。

［幾何学的カメラ較正］
幾何学的カメラ較正（工程１０１）は、コンピュータ視覚、ロボット工学、写真測量法、および他の分野において、イメージから精密な三次元情報を抽出するための前提条件である。三次元カメラ較正を用いることについては２つの主な利点をあげることができる。第１に、カメラの内的パラメータが既知の場合、距離的三次元情報は画像からしか得ることができない。第２に、レンズの歪みは、画像測定を著しく誤ったものとすることがあるため、較正処理の際、明確にモデル化し、測定する必要がある。その結果、カメラ較正を行わないと、多くのアプリケーションにとって必要とされるオブジェクト認識アプローチの正確さは得ることができない。本発明の好ましい実施形態において、Ｌｅｎｚ、１９８７年により紹介されたカメラモデルが用いられており、ここでは、径方向に歪みのあるピンホールカメラが想定されている（図３）。カメラの較正は、Ｌａｎｓｅｒｅｔａｌ.、１９９５年において説明されているアプローチに従い行なわれる。ここでは、既知の位置に丸い印が付された平面の較正ターゲットの複数の画像が較正に用いられている（図３）。あるいは、その他のモデルまたは較正方法も、本発明の範囲から逸脱することなく本発明に容易に取り込むことができる。このことは、例えば、使用されているレンズが、径方向の成分しか用いず不十分にモデル化されたさらに複雑な歪みを示す場合に必要となるであろう。較正の結果、内的カメラパラメータ（ｆ、κ、ｓｘ、ｓｙ、ｃｘ、ｃｙ）が得られ、ここでは、ｆが焦点距離であり、κが径方向の歪みを表示し、ｓｘおよびｓｙがそれぞれ、ｘおよびｙ方向におけるセンサ上のセンサ要素同士の距離であり、（ｃｘ、ｃｙ）^Ｔが、画像における主点の位置である。カメラ座標系において与えられる三次元ポイントＰｃ＝（ｘ、ｙ、ｚ）から、画像座標系におけるピクセル座標Ｐ＝（ｒ、ｃ）^Ｔへのマッピングは、以下の３つのステップにより行なわれる（図３参照）。

１．カメラ座標系において与えられる三次元ポイントの像面への投影。

２．径方向の歪みを適用する。

ここでは、径方向の歪みがパラメータκで表わされる。κが負の場合、歪みは樽形であり、またκが正の場合、歪みは糸巻形である。レンズ歪みのこのモデルには、歪みの修正を分析的に算出するために、容易に反転することができるという利点がある。

３．下記の（数４）で表される二次元画像ポイントを、下記の（数５）で表されるピクセル座標ｐ＝（ｒ、ｃ）^Ｔへ変換する。

［三次元オブジェクト表象］
本発明は、任意の剛体三次元オブジェクトに対応することができる。一般的に、三次元オブジェクトは、ＣＡＤモデルまたは同様の三次元記述により表現され、いくつかの利用可能なＣＡＤソフトツールの一つで生成することができる（工程１０２）。ほとんどのＣＡＤソフトツールは三次元記述をＤＸＦファイル形式でエクスポートすることができるため、本発明の好ましい実施形態は、三次元オブジェクトのＤＸＦファイルのインポートをサポートしている。あるいは、三次元の固体の形状を表すことができるその他の表象も同様に適している。オブジェクトは、平らな面の集合で表現されていると想定される。モデルが、円柱、球または任意の湾曲面などの曲面を含む場合、これらの面は、直線的なエッジで輪郭が描かれた十分な数の平らな面の集合によって近似されなければならない。多くの場合、平面近似はＣＡＤソフトの一部である。さもなければ、いくつかの利用可能な公知な標準的アプローチの一つ、例えば、Ｒｙｐｌ、２００３年において提示されているようなアプローチを、平らな面によって曲面を近似するために用いることができる。三角測量法の包括的概説が、ＢｅｒｎおよびＥｐｐｓｔｅｉｎ、１９９２年に示されている。

［三次元モデル生成］
三次元モデル生成の第１のステップ（工程１０４）において、三次元オブジェクトは、内的表象に変換されるが、この内的表象は、輪郭が閉多角形である平らな面の集合として、オブジェクトを表す。図４Ａは、主に平らな面と円柱とからなるオブジェクト例を示す。後者はいくつかの平らな長方形で近似されている。また、４つの小さな円は多角形の面で近似されている。視覚化を行う目的で、図４Ｂは、同一のオブジェクトを、隠線を取り除いた状態で示している。

そして、内的に用いられるオブジェクト座標系を画定する（工程１０７）。本発明の好ましい実施形態において、座標系の中心は、三次元オブジェクトの中心、すなわち、オブジェクトの三次元バウンディングボックスの中心に移動される。別の実施形態において、オブジェクト座標系は、例えば、ＤＸＦファイルといった外的表象から採用される。さらに別の実施形態においては、ユーザが座標系の中心を特定する。オブジェクトの基準方位を特定するために、座標系の方位は、任意でユーザにより変更できる。基準方位は、サーチが行なわれる間、オブジェクトの平均方位を特定する。それは、三次元モデルが作成されサーチされる位置姿勢の範囲をユーザが特定するためのより便利な方法を容易にするように変更可能である。図５Ａは、外的表象の原座標系を示し、図５Ｂは、これを原点に移動し、基準方位に回転させた後の座標系を示す。このため、原座標系中に与えられる三次元ポイントＰ_ｅｘｔは、剛体三次元変換を適用することによって内的に用いられる基準座標系中に与えられるＰ_ｉｎｔに変換することができ、これをＰ_ｉｎｔ＝ＲＰ_ｅｘｔ+Ｔと記すことができる。ここで、Ｒは３×３の回転行列、Ｔは移動ベクトルである。ここより、すべての算出は内的基準座標系についてのものである。三次元オブジェクト認識の結果得られた三次元位置姿勢は、それらをユーザに返す前に元の原座標系に変換される。

そして、例えば、三次元ＣＡＤモデルといったオブジェクトの三次元表象に基づいて三次元モデルの学習が行なわれる。これを行うために、ユーザが特定した位置姿勢の範囲内にオブジェクトの異なるビューが生成される。これらのビューは、仮想カメラを三次元オブジェクトの周囲に置き、各仮想カメラの像面にオブジェクトを投影することで自動的に生成される。本発明の好ましい実施形態において、オブジェクトは、球座標系を画定する球の中心にあると想定される。ビューを作成するために用いる仮想カメラは、これらがすべて座標系の原点に向くよう、すなわち、カメラのＺ軸が原点を通過するよう、オブジェクトの回りに配置される。そして、位置姿勢の範囲は、原点の周りの所定の球面四辺形にビューを制限することによって特定される。これにより当然、球座標λ（緯度）、φ（経度）およびｄ（距離）を用いることになる。カメラは、学習中常に球座標系の中心に向けられるため、カメラのロール角ω（カメラのＺ軸回りの回転）だけが、特定されなければならない自由度として残る。したがって、カメラの位置姿勢は４つのパラメータλ、φ、ｄおよびωで定義される。球座標系の定義は、赤道面（equatorial plane）がデカルト基準座標系のＸＺ面に対応し、Ｙ軸がＳ極（負の緯度）を指し、負のＺ軸が経帯子午線の方向を指すよう選択される。その結果、その座標系が内的基準座標系と同じ方位で、オブジェクトの基準座標系においてｔだけ負のＺ方向に移動させたカメラの球座標は、λ＝０、φ＝０、ｄ＝ｔおよびロール角ω＝０（図６Ａ参照）である。任意の位置姿勢および関連する球座標を備えたカメラが図６Ｂに視覚化されている。

位置姿勢の範囲は、ユーザが、球面パラメータの区間、およびカメラロール角の区間を特定することで測定される（工程１０３）。図７は一例を示しており、経度範囲は区間[(ｍｉｎ、(ｍａｘ]で特定され、緯度範囲は区間[φｍｉｎ、φｍａｘ]で特定され、距離範囲は区間[ｄｍｉｎ、ｄｍａｘ]で特定され、カメラロール角の範囲は区間[ωｍｉｎ、ωｍａｘ]で特定される。これらの値はアプリケーション、すなわち、オブジェクトに対して可能なカメラの相対的動作に大きく依存する。また、これらは認識時間にも大きな影響を及ぼす。区間が広く選択されると、オンライン段階中の認識が遅くなる。殆どの産業上の利用において、カメラとオブジェクトとの間の相対的な位置姿勢はそれほど変動しない。λおよびφの区間の一般的な値は[−４５度、＋４５度]であり、ωは一般的に[−１８０度、＋１８０度]に設定される。

カメラおよびオブジェクトの相対的動作を表す位置姿勢の範囲を測定する方法として、その他にもいくつか考えられる。これらの方法は、本発明の範囲を逸脱することなく、本発明に容易に取り込むことができる。例えば、別の一つの方法としては、カメラ位置のデカルト座標の限界を特定すること、すなわち、三次元空間において立方体を特定することによって、位置姿勢の範囲を特定することが可能である。さらに別の実施形態においては、代わりにカメラを固定の位置姿勢に保持し、オブジェクトの動きの限界を特定することで位置姿勢の範囲が表される。

位置姿勢の範囲内でのビューのサンプリングは、学習処理中に自動的に測定される。自動算出によるサンプリングの利点は、ユーザがサンプリング用にパラメータ値を特定しなくてもよく、オブジェクト認識のロバスト性および速度を最大限にできるようサンプリングを選択することができることである。認識速度をさらに上げるために、複数のピラミッドレベル上にモデルが作成される。画像ピラミッドは、画像処理作業の速度を上げるための一般的な方法である（例えば、Ｔａｎｉｍｏｔｏ、１９８１年参照）。画像ピラミッドは、原画像に対し平滑化操作およびサブサンプリング操作を連続して行い、累進的に小さな画像にすることにより算出される。画像ピラミッドを利用する二次元テンプレートマッチングシステムにおいて、一般的にサーチは粗い（高位の）ピラミッドレベルで開始され、この粗いレベルにおける類似度を有する見込みのある次の細かい（低位の）レベルの限定領域で続けられる。ピラミッドレベルが高くなると、ビューのサンプリングが粗くなるため、ビューの算出はピラミッドレベル毎に個別に行なわれる。

ビューのサンプリングが行なわれる間、カメラの位置だけがサンプリングされる。カメラロール角をサンプリングする必要はない。なぜなら、カメラロール角を変えても、ビューつまり透視図は変化せず、像面において二次元的回転が表現されるだけだからである。ビューのサンプリングは、最も低位のピラミッドレベル上でビューのオーバサンプリングを行うことにより開始される（工程１０８）。本発明の一実施形態において、オーバサンプリングは、ユーザが特定した位置姿勢の範囲内の、三次元空間において均等に配分されたカメラ位置を算出することで行われる。抽出の幅は、オブジェクトの大きさ、カメラパラメータおよびオンライン段階においてビューをマッチするために用いられる類似度の許容値に基づき、簡単な評価を行うことにより測定することができる。この評価が満たさなければならない唯一の条件は、必要最低限よりも多い初期ビューが生成されるということである。本発明の好ましい実施形態において、欧州特許第１，１９３，６４２号において提示される類似度が適用されている。類似度は、オクルージョン、クラッターおよび非線形コントラスト変化に対しロバストである。二次元モデルは、対応する勾配方向ベクトルを備えた複数のエッジポイントからなり、例えば、エッジ検出法といった標準的な画像前処理アルゴリズムにより得ることができる。類似度はエッジ勾配方向のドット積に基づく。あるいは、代わりにその他のエッジに基づく二次元マッチングアプローチを本発明に用いることも可能で、例えば、平均エッジ距離に基づくアプローチ（Ｂｏｒｇｅｆｏｒｓ、１９８８年）、ハウスドルフ距離に基づくアプローチ（Ｒｕｃｋｌｉｄｇｅ、１９９７年）、または一般化ハフ変換に基づくアプローチ（Ｂａｌｌａｒｄ、１９８１年またはＵｌｒｉｃｈｅｔａｌ.、２００３年）がある。本発明の好ましい実施形態において、初期ビューは、空間において均等にサンプリングされない。なぜなら、カメラとオブジェクトとの距離が短い場合は、距離が長い場合よりも多くのビューが必要とされるからである。これを改良することにより、ビューの初期の数を抑えることができ、これに続いて行う余剰ビューを間引きする速度が上がる。初期ビューを取得するために、Ｍｕｎｋｅｌｔ、１９９６年が記載するアプローチを用いて、異なる半径についてガウス球の三角測量が行われる。半径が大きくなるにつれて、その半径に対するステップ幅も大きくなる。

ビューの間引き（工程１０９）は、近傍のビューすべての間で類似度を算出し、最も高い類似度のビューの対を選択し、両方のビューを一つのビューに統合し、新たなビューとその近傍のビューとの間で類似値を再度算出することで実行される。この処理は、最も高い類似値が現行のピラミッドレベルの所定の閾値を下回るまで繰り返される。一実施形態において、２つのビューの間の類似値の算出は、オブジェクトを各ビューの像面に投影し、オンライン段階で適用された類似度を用いて両方の投影の間で類似値を算出することにより行われる。別の実施形態において、オブジェクト投影は、完全な三次元オブジェクトの代わりに三次元境界ボックスを投影することだけで近似される。その後、類似度は、近似投影上でのみ実行される。このことにより、三次元モデル生成のランタイムが短縮される。さらに別の実施形態において、類似度も近似される。このことには、原類似値を用いる場合に必要である投影された境界ボックスの画像の生成が、この場合必要ないという利点がある。または、その他、投影や類似値算出の速度を上げるために役立つ近似もありうる。１つの好ましい実施形態においては、これらの近似は階層的に組み合わされる。最初に、最も高い類似値が所定の閾値以下になるまでビューの統合を行うよう、最も早い近似が用いられる。その後、二番目に早い近似を用いて、残りのビューの統合が続けられ、これがさらに続けられる。このアプローチは、一方で算出時間を短縮しつつ、もう一方では、近似をせずに統合を行う場合に得られるであろう結果と同様の結果を確実に得る。階層的なアプローチが機能するためには、ある近似に対して、その次に遅い近似や原類似度がそれぞれ、それよりも低くなることが確実でなければならない。

類似値が閾値を越えるオブジェクトビューの対が残らない場合、残りのビューは三次元モデルにコピーされる。上述したように、モデルは複数のピラミッドレベル上に作成される。これまで算出がされたビューは、最も低い（原）ピラミッドレベルに保存される。図８Ａにおいて、最も低位のピラミッドレベル上のビューすべてについて、図７に示す位置姿勢の範囲に対して上記の方法を利用した場合に得られる、前記ビューに対応するカメラが視覚化されている。ここでは、底面が像面を、頂点が光学系中心を現す小さな四角錐によりカメラが視覚化されている。次に高位のピラミッドレベル上のビューを算出するために、類似制限を緩めながら統合が続けられる。この緩和は、以下の２つの方法で導入する必要がある。第１の方法の場合、原類似度が算出されると、すなわち、前記類似が投影されたオブジェクトからの画像に基づくのであれば、次に高位のピラミッドレベルを取得するために、画像の平滑化およびサブサンプリングが行われる。その後、サブサンプリングした画像について類似度が算出される。このことにより、類似制限は自動的に緩和される。なぜなら、解像度を下げることで、それより低い非類似値が排除されるためである。第２の方法の場合、類似度が分析的な算出により近似されるのであれば、ピラミッドレベルに応じて類似値を分析的に算出する間、位置の許容値を明確に増加させることでサブサンプリングを考慮に入れておく必要がある。類似値が閾値を越えるオブジェクトビューの対が残らない場合、残りのビューは三次元モデルの対応するレベルにコピーされる。図８Ｂ、図８Ｃおよび図８Ｄにおいて、第２、第３および第４のピラミッドレベルについて得られたビューがそれぞれ視覚化される。この例においては、第４ピラミッドレベル上には４つの異なるビューだけを用いれば十分である。

さらに、各ビューでは、すべての子ビューに対する参照が保存される。子ビューとは、現行のピラミッドレベル上のビューを得るために統合された次に下位のピラミッドレベル上のビューと、統合することができなかったビューとを足したものである。それに応じて、各子ビューでは、その親ビューに対する参照が保存される。子ビューに対する参照があるため、高位のピラミッドレベル上のある特定のビューを求めて、前記高位のピラミッドレベル上のビューを作成するために統合されたその直下のピラミッドレベル上のビューに問い合わせを行なうことができる。この情報はツリー構造で保存される（工程１１０）。図９は、ツリーの簡略化された一次元版である。ツリーにおける各ノードは一つのビューを表現している。同一ピラミッドレベル上のビューは、ツリー内で同一の階層レベル上に属する。ツリー構造であるため、各親ノードは一つまたは複数の子ノードに接続され、一方、各子ノードは一つの親ノードに接続される。さらに、各ビューの三次元位置姿勢は三次元モデル内に保存される。この処理は、ピラミッドレベルの最大数に達するまで繰り返される。最も高位のピラミッドレベル上のビューは親ビューを持たず、一方、最も低位のピラミッドレベル上のビューは子ビューを持たない。

ツリーが完全に生成された後、各ピラミッドレベルおよびこのレベル上の各ビューについて、欧州特許第１，１９３，６４２号で提示されるアプローチを用いて二次元モデルが作成される（工程１１１）。二次元モデルは、例えば、エッジ検出法といった、標準的な画像前処理アルゴリズムにより得ることができる、対応する勾配方向ベクトルを備えた複数のエッジポイントからなる。あるいは、代わりにその他のエッジに基づく二次元マッチングアプローチを本発明において用いることができる。これを行うために、現行のビューで表されるカメラ位置姿勢を用いて、像面にオブジェクトの三次元表象が投影される（工程１１２）。隠線は、適切な隠線アルゴリズム（例えば、ＰａｔｅｒｓｏｎおよびＹａｏ、１９９０年）を用いて除去される。投影は、３チャネル画像が得られるような方法で行われ、３チャネルは、三次元オブジェクトを成す面の法線ベクトルの三要素を表す（工程１１３）。このことは、このカラー画像において測定することができるエッジ振幅が、三次元オブジェクトの２つの近傍面の法線ベクトル間の三次元空間における角度に直接関係するという利点を有する。２つの近傍面の法線ベクトルが、Ｎ１＝（Ｘ１、Ｙ１、Ｚ１）^ＴおよびＮ２＝（Ｘ２、Ｙ２、Ｚ２）^Ｔであると仮定する。３チャネル画像を作成する場合、第１面は色（Ｒ１、Ｇ１、Ｂ１）＝（Ｘ１、Ｙ１、Ｚ１）を用いた画像に描かれる一方、第２面は色（Ｒ２、Ｇ２、Ｂ２）＝（Ｘ２、Ｙ２、Ｚ２）を用いた画像に描かれる。一般原則を失うことなく、さらに、２つの投影面が画像において縦方向のエッジをもたらすと仮定する。画像におけるエッジ振幅を２つの面の間のかわり目で算出する場合、３チャネルの各チャネルにおいて、行方向および列方向で第１の導関数が得られる。

エッジは縦方向に延びるため、行方向における導関数はすべて０となる。カラー画像におけるエッジ振幅は、カラーテンソルＣの固有値を算出することにより得ることができる（ＤｉＺｅｎｚｏ、１９８６年）。

上記の導関数を代入すると以下が得られる。

エッジ振幅Ａは、Ｃの最大固有値の平方根である。よって、

となる。

このように、画像において算出されるエッジ振幅は、２つの法線ベクトルの差ベクトルの長さに対応する。２つの法線ベクトル（長さ１）は、二次元二等辺三角形の長さとなる（図１０参照）。両方の法線ベクトル間の角度δも、三角形の面内にあるのだが、それは最終的に以下の式を用いてエッジ振幅から容易に導き出すことができる。

投影モデルから取得したカラー画像はモデル画像となり、欧州特許第１,１９３,６４２号で提示されるアプローチのモデル生成ステップに送られ、カラーエッジ抽出により拡張される。あるいは、代わりにその他のエッジに基づく二次元マッチングアプローチを本発明に用いることも可能で、例えば、平均エッジ距離に基づくアプローチ（Ｂｏｒｇｅｆｏｒｓ、１９８８年）、ハウスドルフ距離に基づくアプローチ（Ｒｕｃｋｌｉｄｇｅ、１９９７年）、または一般化ハフ変換に基づくアプローチ（Ｂａｌｌａｒｄ、１９８１年またはＵｌｒｉｃｈｅｔａｌ.、２００３年）がある。最初に、モデル画像においてエッジ振幅が算出される（ＤｉＺｅｎｚｏ、１９８６年）。所定の閾値を超えるピクセルだけがモデルに含まれる。モデルの三次元描画には、オブジェクトの直接像では可視ではない多くのエッジが含まれていることが多い。例えば、このようなエッジは、湾曲面を十分な数の平らな面で近似するために用いられるＣＡＤソフトの三角測量法の結果生じる。このため、これらのエッジは二次元モデルに含まれてはならない。例えば、図４Ｂにおいて、円柱状の孔を近似する平らな面のエッジは削除されなければならない。上述の関係のため、ユーザは、最小面角δｍｉｎに対して適切な閾値を送ることで、このようなエッジを削除することができる。その後、この最小角は、エッジ振幅に適用できる閾値Ａｍｉｎへと容易に変換することができる（工程１１４）。

投影されたオブジェクトのシルエットは非常に重要な特徴であるため、どのような場合でも、これをアルゴリズムにより削除してはならない。このことは、あらゆる場合において、シルエットのエッジが閾値の基準を満たすよう、各画像チャネル（Ｒ、Ｇ、Ｂ）＝（Ｘ+ｃ、Ｙ+ｃ、Ｚ+ｃ）に対して十分な大きさの定数ｃを加えることで容易に確実となる。例えば、ｃ＝３と設定することでこれを達成できる。

図１１Ａは、一つのサンプルビューの３チャネルを示す。図１１Ｂにおいて、δｍｉｎを５度に、よって、Ａｍｉｎ＝０.０８７に設定した場合に生じるエッジが視覚化されている。円柱を近似する平らな面は８度間隔で方位付けされているため、垂直エッジが依然として可視である。δｍｉｎ＝１５°（Ａｍｉｎ＝０.２６１）に設定した場合に生じるエッジが図１１Ｃに示される。円柱のエッジはうまく削除されている。ほとんどのモデルについてはδｍｉｎ＝１５°が有効である。したがって、δｍｉｎ＝１５°は、本発明の実施にあたってデフォルト値として用いられる。３チャネルモデル画像が新しく生成されたことにより、単にエッジ振幅に対する閾値を送り、直接像では可視ではないオブジェクトエッジを排除することで、既存の二次元エッジに基づくマッチングアプローチを用いることが可能となる。このことは、これまでの認識アプローチにおいては適用されていない。

最終的に、二次元モデルは、関連する画像ピラミッドレベル上の３チャネル画像から生成される（詳細は、欧州特許第１，１９３，６４２号およびＤｉＺｅｎｚｏ、１９８６年参照）。最後の工程において、作成した二次元モデルが、画像内のクラッターからモデルを区別するために必要とされる顕著な特徴を十分に示しているかどうかが確認される（工程１１６）。本発明の好ましい実施形態において、この検証は、Ｕｌｒｉｃｈ、２００３年で提案されるアプローチを用い、現行のピラミッドレベル上で得られたエッジを、原レベル上のエッジと比較して行われる。この検証が失敗した場合、このビューの二次元モデルおよびピラミッドレベルは廃棄される。図１２は、各ピラミッドレベルについて、オンライン段階においてマッチングを行うために用いられるいくつかの二次元モデル例のエッジを示す。視覚化の目的で、より高位のピラミッドレベル上の二次元モデルは原解像度に調整されている。

三次元モデルは、いくつかあるピラミッドレベル上の複数の二次元モデルからなる。各二次元モデルについて、対応する三次元位置姿勢が保存される。なお、近傍のピラミッドレベル上の二次元モデルは、上述の親子関係によりツリー形式で結びつけられる。

［オブジェクト認識］
オンライン段階では、単眼カメラ画像において三次元オブジェクトを認識するために、また、カメラ座標系に対するオブジェクトの三次元位置姿勢を測定するために、前記作成された三次元モデルが使用される。まず、入力画像から画像ピラミッドが作られる（工程２０３）。前記認識は、少なくとも一つの有効な二次元モデルが得られる最高位のピラミッドレベルから開始される（工程２０５）。ビューの二次元モデルと現行の画像ピラミッドレベルの二次元モデルとの類似度を計測することによって、このピラミッドレベルの二次元モデルすべてがサーチされる。このためには、前記二次元モデルが必要な範囲で回転され拡大縮小されて、前記拡大縮小および回転された二次元モデルの、画像における各位置で、類似度が算出される。欧州特許第１，１９３，６４２号に記載された類似度が適用される。人工画像から二次元モデルが生成されたので、投影されたエッジの極性はわからず、それらの方向のみがわかる。従って、欧州特許第１，１９３，６４２号に記載された類似度からは、勾配の局所的な極性を無視するバリアント（variant）が選択される。あるいは代わりに、他のエッジベースの二次元マッチングアプローチを本発明に用いてもよく、例えば、平均エッジ距離に基づくアプローチ（Ｂｏｒｇｅｆｏｒｓ、１９８８年）、ハウスドルフ距離に基づくアプローチ（Ｒｕｃｋｌｉｄｇｅ、１９９７年）、または一般化ハフ変換に基づくアプローチ（Ｂａｌｌａｒｄ、１９８１年またはＵｌｒｉｃｈｅｔａｌ.、２００３年）がある。所定の類似閾値を超えたマッチの二次元位置姿勢（位置、回転、拡大縮小）は、マッチ候補の一覧に保存される。次の下位のピラミッドレベル上で、ツリー内に親ノードを持たない二次元モデルがすべて、最も高位のピラミッドレベル上のビューで行った方法と同じ方法でサーチされる。さらに、前のピラミッドレベル上で見つかったマッチ候補は絞り込まれる。この絞り込みは、ツリーにおける子ビューをすべて選択し、これらの子ビューの二次元モデルと現行の画像ピラミッドレベルの二次元モデルとの間の類似度を算出して行われる。しかしながら、親ビューのマッチに応じて、非常に制限されたパラメータ範囲内だけで類似度を算出することでも十分である。欧州特許第１，１９３，６４２号に記載されているように、このことは、精査すべき位置、回転および拡大縮小の範囲が、親マッチの近傍に限定できることを意味する。この処理は、最も下位のピラミッドレベルまですべてのマッチ候補が追跡されるまで繰り返される（工程２０６）。ピラミッドアプローチとツリー構造に配列される階層的モデルビューとの組み合わせは、リアルタイムアプリケーションにとって重要であり、これまでの認識アプローチには適用されたことが無い。

残念ながら、上述の追跡は、カメラがオブジェクトの中心に向けられておらず、よってオブジェクトが画像の中心に現れない場合は不可能である。学習中に作成された二次元モデルは、オブジェクト中心に向けられるカメラを想定して作成されていることから、画像における二次元モデルおよび投影モデルは二次元投影変換によって関連付けられる。一例が図１３に示されている。図１３Ａは、カメラがオブジェクトの中心に向けられている場合のビューを示す。３次元モデル生成中に、このビューから二次元モデルが作成される。サーチの間、オブジェクトは、図１３Ｂまたは図１３Ｃに示されるような、任意の画像位置に現れるかもしれない。像面におけるこの見かけの移動は、実際においてはカメラの光心を中心とした回転に対応する。カメラをその光心を中心として回転させると、その結果得られる画像は投影変換によって関連付けられ、これはホモグラフィ（homography）と呼ばれる（例えばHartleyおよびZisserman、２０００年参照）。その結果、図１３Ａの二次元モデルを図１３Ｂまたは図１３Ｃの画像においてサーチすると、前記画像はホモグラフィによって関連付けられるのに二次元マッチング中は類似変換、すなわち移動、回転、縮小拡大のみが考慮されるため、前記モデルは見つからないであろう。マッチング中にホモグラフィの８自由度すべてを考慮すると、そのサーチはリアルタイムアプリケーション用には時間がかかりすぎる。したがって、本発明の好適な実施形態において、二次元モデルはマッチングを行う前の投影変換によって変換される。もし画像におけるオブジェクトの位置がわかっていれば、この変換のパラメータが算出できる。したがって、マッチ候補が次の下位のピラミッドレベルまで追跡される以前に、その子ビューの二次元モデルがマッチ候補の位置に応じて投影的に修正される（工程２０７）。これは、これまでのビューベース認識アプローチでは適用されていない極めて重要なステップである。三次元モデル生成中と同様にモデル中心に向けられたカメラの像面三次元モデルを投影することによって生成された二次元モデルポイントをｘとする。さらに、カメラの内的な方位を維持するカメラ較正行列をＫとする：

ここで、ｆ’はピクセルにおけるカメラの焦点距離、ａはピクセルのアスペクト比、（ｃｘ、ｃｙ）はピクセルにおけるカメラの主点である。さらに、カメラの方位は、回転行列Ｒによって表されている。そして、（非同次（inhomogeneous））三次元世界点Ｘの、（同次（homogeneous））二次元像点ｘへの投影は、変換ｘ＝ＫＲＸによって表すことができる。一般原則を失うことなく、モデル生成中に回転行列Ｒを恒等行列に設定することができるので、ｘ＝ＫＸとなる。もしカメラがその光心を中心としてＲだけ回転すると、前記世界点は、回転したカメラの像において新たな点ｘ’＝ＫＲＸにマッピングされる。これらの結果から、ｘをｘ’にマッピングする前記変換は以下のように算出できる。

ここで、ＫＲＫ^−１は３×３の同次変換行列であり、したがってホモグラフィＨを表す。

したがって、二次元モデルポイントを画像における投影モデルの（同次）位置ｐ＝（ｃ、ｒ、ｌ）^Ｔに応じて変換したい場合、ＫとＲを知らなければならない。較正行列Ｋは前記のカメラ較正プロセスから得られる。カメラの回転行列は、下記の方法で画像における投影モデルの位置から算出できる。まず、問題を明確に規定するために、ｚ軸を中心にカメラが回転してはならないという制約を導入しなければならない。その上で、カメラのｘ軸およびｙ軸を中心としたその他の回転をｐから求めることができる。まずｐが、Ｐ＝（Ｐｘ、Ｐｙ、Ｐｚ）^Ｔ＝Ｋ^−１ｐによって三次元空間における方向Ｐに変換される。その後、カメラのｘ軸およびｙ軸を中心とした回転角αおよびβがそれぞれ下記の数式によって算出できる。

このように、回転行列Ｒは、下記Ｒｙ（β）、Ｒｘ（α）から、Ｒ＝Ｒｙ（β）Ｒｘ（α）として求められる。

さて、追跡中にマッチ候補の像位置に応じて子ビューの二次元モデルを投影的に修正することができる。モデルポイントはホモグラフィＨを使用して変換される一方、欧州特許第１，１９３，６４２号で類似度に使用される勾配方向は、転置された、逆の、Ｈ^−Ｔを使用して変換される。前記マッチングは投影的に修正されたモデルに対して行われる（工程２０８）。

画像におけるオブジェクトの位置に関する情報が得られるピラミッドでのマッチの追跡中に、前記の方法が機能する。一方で、最高位のピラミッドレベルでは、それより前の情報が無いため、網羅的なサーチを行わなければならない。このように、全画像位置においてマッチングが行われる。ただし、現行の画像位置に依存してモデルを変換することはコストがかかりすぎるであろう。幸い最高位のレベルでは通常、画像ピラミッドに付随するサブサンプリングのおかげで投影歪みは非常に小さい。したがって、ほとんどの場合、投影歪みは単に無視することができる。ただし、かかる歪みは、たとえば少ない数のピラミッドレベルのみが使用できる場合やカメラまでの距離に対するオブジェクトの奥行きが大きい場合などでは、最高位のピラミッドレベル上でも歪みを考慮しなければならないことがある。これらの場合への対処は、本発明の好適な実施形態においては、最高位のピラミッドレベル上にマッチングを適用する前に、球の表面上に平面の二次元モデルをマッピングし（工程１１７）かつ画像をマッピングする（工程２０２）ことによって行う。この利点は、カメラをその光心を中心として回転させる時に投影図が変化しないことである。残念ながら、歪みを導入することなく球面から平面にマッピングすることはありえない。しかし、一般的にこれらの歪みは投影歪みよりも小さい。したがって、最高位のピラミッドレベル上の歪みの度合いを低減し、それによりマッチングのロバスト性を上げるために、球マッピングが使用できる。一つの実施形態では、下記の工程を適用することにより球マッピングが行える。まず、再度、三次元空間においてＰ＝（Ｐｘ、Ｐｙ、Ｐｚ）^Ｔ＝Ｋ^−１ｐにより、ピクセルｐが方向Ｐに変換される。球マッピングが下記を適用することによって行われる。

最後に、マッピングされた結果の三次元方向がピクセル座標に変換される。すなわちｐ’＝ＫＰ’である。本発明の別の実施形態では、等方性球マッピングがかわりに適用される。まず、像面のポイントが極座標に変換される。

その後、半径に対してのみ球マッピングが適用される。

そして、前記ポイントがデカルト座標に変換される。

または、前記２つの方法のかわりに、投影歪みを低減できる、別の同様のマッピングを、本発明の範囲から逸脱することなく適用してもよい。

球マッピングは、サーチ画像の画像ピラミッドの最高位レベルと、二次元モデルポイントとに適用される。サーチ画像の球マッピングの速度を上げるために、三次元モデルの生成中にオフラインでマッピングが算出される（工程１０５）。マッピングされた画像の各ピクセルについて、原画像のピクセル座標と双一次補間のための重みとが三次元モデル内に保存される。画像ピラミッドの最高位レベルを効率よくマッピングするためにオンライン段階でこの情報が使用される。（球面）最高位ピラミッドレベル上に見出される各マッチの位置が、それぞれの逆変換を使用して、球面投影から原画像へ変換される。ピラミッドの中の追跡は、前記の原（非球面）画像において行われる。

マッチングの結果、所定の類似度を超えた画像中の二次元マッチの二次元位置姿勢（位置、回転、拡大縮小）が得られる。各マッチについて、当該マッチに関連付けられているモデルビューの二次元マッチング位置姿勢と三次元位置姿勢に基づいて、前記マッチに対応する三次元オブジェクト位置姿勢が算出できる（工程２０９）。前記モデルビューの三次元位置姿勢が、同次４×４行列ＨＶで表され、この行列がモデル基準座標系からカメラ座標系へのポイントの変換をおこなうものとする。さらに、二次元マッチング位置姿勢は、ｐ＝（ｒ、ｃ、ｌ）^Ｔ（行および列方向の位置）、γ（回転）、およびｓ（拡大縮小）により求められる。その後、行列ＨＶは、二次元マッチング位置姿勢を反映するように変更されなければならない。まず、二次元の拡大縮小が適用され、これはオブジェクトとカメラとの間の距離の逆スケール（拡大縮小）関数（inverse scaling）と理解される。

そして、二次元回転が適用され、これはｚ軸を中心としたカメラの三次元回転と理解される。

最後に、前記位置が、ｘ軸とｙ軸とを中心としたカメラの三次元回転と理解される。２つの回転角は前記位置を三次元空間における方向Ｐに変換することにより算出できる。

そして、ｘ軸、ｙ軸を中心とした回転角α、βはそれぞれ、

となる。

これは、最終的な同次変換行列Ｈ_{Ｖ，ｓ，γ，ｐ}となり、これはカメラ座標系に対するオブジェクトの三次元位置姿勢を表している。

得られた三次元位置姿勢の精度は、ビューのサンプリングと二次元マッチング中の二次元位置姿勢すなわち位置、回転、拡大縮小のサンプリングによって制限される。実際の適用においては、これは十分ではない。三次元位置姿勢絞り込みは最小二乗調整を使用して行われる。したがって、実際の適用を可能にするためには、位置姿勢絞込み工程（工程２１０）が不可欠である。これを行うために、マッチングから得られた前記三次元位置姿勢Ｈ_{Ｖ，ｓ，γ，ｐ}を使用して三次元オブジェクトを投影しサーチ画像にする（工程２１１）。投影中、現行の位置姿勢では可視ではない線を抑制するために、隠線アルゴリズムが使用される。さらに、オブジェクトのエッジで、２つの隣接したオブジェクト面間の角度が所定の閾値を越えないようなエッジを表す線は、抑制される。この閾値は、オフライン段階での３チャネル画像におけるエッジ抽出の閾値を導き出すために使用された最小面角度と意味的に同じであるので、同じ値に設定される。投影モデルの可視エッジは適切なサンプリング距離、たとえば１ピクセルを使用してサンプリングされ、離散ポイントになる。サンプリングされた各エッジポイントについて、その近隣で、それに対応する、サブピクセルレベルで正確な画像エッジポイントを見つけるために、局所的なサーチが開始される（工程２１２）。前記サーチは投影されたモデルエッジに垂直な方向に制限される。さらに、見つかった候補対応の各々について、前記投影モデルエッジの垂線と画像勾配との間の角差が算出される。角差が閾値未満の対応のみが、有効対応として承認される。最後に、Ｌｅｖｅｎｂｅｒｇ−Ｍａｒｑｕａｒｄｔ（例えばＰｒｅｓｓｅｔａｌ．、１９９２年参照）など、ロバストな反復非線形最適化アルゴリズムを使用することにより、絞り込まれた三次元位置姿勢が得られる（工程２１３）。前記最適化中に、画像エッジポイントからその対応する投影モデルエッジまでの距離の二乗がそれぞれ、６つの位置姿勢パラメータ（３つの移動パラメータおよび３つの回転パラメータ）について正比例して最小化される。さらに、最適化中に角差に応じて距離が重み付けされる。誤差関数と偏導関数とを含む最小化プロセスは、Ｌａｎｓｅｒ，１９９８年に詳細に述べられている。最小化後、絞り込まれた位置姿勢パラメータが得られる。絞り込まれた位置姿勢パラメータから新たな対応が現れうるため、最適化アルゴリズムは外部反復に組み込まれている。したがって、本発明の一実施形態においては、各反復過程後に、位置姿勢の絞り込みのために陰線アルゴリズムを使用してモデルが再投影され、対応が再算出される。残念ながら陰線算出は膨大な算出時間を必要とし、特に多数のエッジから成る複合三次元モデルを使用する時など、リアルタイム算出には時間がかかりすぎる場合がある。したがって、本発明の好適な実施形態では、各反復過程において陰線アルゴリズムを適用することなく再投影を行う。ただし陰線アルゴリズムは最初の反復過程においてのみ適用する。最初の反復過程での陰線アルゴリズムの結果から、各投影モデルエッジの可視部分の２つの端点が、画像中に得られる。各端点と、光心とから、三次元における視線が画定される。二本の視線が三次元モデルエッジと交わる。この２つの交点によって、三次元モデルエッジの、初期位置姿勢で可視である部分が画定される。その後の反復過程で、完全な三次元モデルエッジではなく、最初の反復過程で可視であった部分のみが投影される。陰線アルゴリズムを適用する必要がないので、これによって位置姿勢絞込みが大幅に加速される。しかしその一方で、この単純化により起こるエラーによって、得られる精度が僅かではあるが悪化する場合が多い。

カメラレンズが大きな歪みを有するなら、マッチングを適用する前にその歪みが取り除かれるべきである。これはサーチ画像を修正することによって簡単に行え（工程２０１）、歪みの無い画像が得られる。サーチ画像の修正の速度をために、球マッピングの算出と同様に、三次元モデルの生成中にマッピングがオフラインで算出される（工程１０６）。まず、径方向の歪みを示さない、すなわちκ＝０である、新たな（仮想の）カメラのパラメータが算出される。その後、修正された画像の各ピクセルについて、原画像のパラメータと仮想カメラのパラメータを使用して、原画像のピクセル座標が算出できる。前記ピクセル座標と双一次補間のための重みとが三次元モデル内に保存される。画像ピラミッドを算出する前にサーチ画像を効率的にマッピングするために、この情報がオンライン段階で使用される。三次元モデル生成中、原カメラのパラメータのかわりに、仮想カメラのパラメータが使用される。本発明の好適な実施形態において、両方のマッピング（球マッピングおよびレンズ歪みの修正）が組み合わされて単一のマップとなり、これによってオンライン段階の算出時間が低減される。

オブジェクトが特徴的なテキスチャを示す場合、本発明はこの付加的な情報から恩恵を受けることができる。本発明の好適な実施形態では、三次元モデルの生成後、ユーザがオブジェクトのいくつかの画像例を提供する。第一の工程で、前記画像例中のオブジェクトの三次元位置姿勢を測定するために三次元モデルが使用される。その後、測定された三次元位置姿勢を使用して、前記三次元モデルの各面が画像例に投影される。投影されたモデル面下で画像例に存在するテキスチャ情報は、三次元面上にその面の三次元位置姿勢に基づいて前記画像例のその部分を修正することによって、テキスチャ情報による前記モデル面の補強を行うために使用される。この工程は全ての面について、かつ全ての画像例について、繰り返される。前記の面が複数の画像例で可視であれば、この面に最も適した画像例が選択される。本発明の好適な実施形態においては、前記面が最も小さい投影歪みを示す画像例が選択される。別の実施形態においては、面内の抽出されたエッジが最も高いコントラストを示す画像例が選択される。最後に、二次元モデルのテキスチャ情報を追加することにより、三次元モデルが補強される（工程１１５）。その結果、三次元モデル内の各ビューは、（極性情報を含まない）幾何学的情報から生じるエッジと、（極性情報を含む／含まない）テキスチャ情報から生じるエッジとを含む二次元モデルを含む。本発明の別の実施形態においては、幾何学情報は完全に省略され、二次元モデルはテキスチャ情報を含むのみである。後者はたとえば、三次元モデルエッジが、選択された照度やオブジェクトの材質のせいで画像中に二次元エッジを生じさせることが無いのであれば、有効である。

サーチ画像の勾配方向情報を拡大することによって、認識の速度をさらに上げることができる（工程２０４）。欧州特許第１，１９３，６４２号の類似度は、モデルの正規化勾配を、サーチ画像の正規化勾配とを比較したものである。これは許可された変換の種類（例えば剛体変換）に応じてモデルエッジとその勾配ベクトルとを変換することにより行われ、変換された各モデルエッジポイントの勾配ベクトルは、サーチ画像の基礎となっている勾配ベクトルと比較される。実際の画像において、この測定は勾配の両方向において約１ピクセル分というエッジポイントの小さな変位に対してロバストである。なぜなら、この近隣の勾配方向は僅かにしか変化しないからである。このように、類似度の許容度は約１ピクセルである。三次元モデル内の二次元モデルの数は、この許容値に大きく依存する。２つの隣接したビューの間の差は、第１のビューに対する第２のビューの投影における抽出されたモデルエッジの小さな変位として解釈できる。もし変位が許容値よりも小さければ、適用された類似度の点では前記２つのビューは同等であるので、これらビューは統合されて一つのビューにできる。したがって、もし許容度を増加できる方法があれば、ビューの数が削減でき、よってオンライン段階での算出時間が低減できるであろう。相対的に移動可能であるいくつかの剛体成分にオブジェクトを分解することによってかかる変位をシミュレーションするアプローチ（米国特許第７，２３９，９２９号）はこの場合使用できない。なぜなら、必要な成分の数が大きすぎると算出時間が長くなるからである。本発明の好適な実施形態においては、勾配方向情報を拡大するためにサーチ画像における勾配に最大値フィルタの一種を適用する。このプロセスは図１４に示されている。図１４Ａでは、サブピクセルレベルで精密な白い曲線の輪郭を画像中に描いて作成した人工サーチ画像例の拡大部分が示されている。ピクセル格子は白い縦横の線で可視化されている。エッジフィルタリング後に得られた前記画像の勾配ベクトルが図１４Ｂに示されている。ベクトルの長さはエッジ振幅に比例している。勾配方向を拡大するために、３×３のサイズの最大値フィルタを画像中で移動させる。各位置で、フィルタの中心の勾配ベクトルが、フィルタ内の最大振幅を有する勾配ベクトルと置換される。例えば、図１４Ｃにおいては、フィルタの位置が３×３の太線の正方形によって示されている。最大振幅を有する勾配は、フィルタマスク内の右下の角にある。その結果、フィルタマスクの中心のピクセルには右下角の勾配ベクトルが割り当てられる（図１４Ｄ参照）。前記フィルタを画像全体に適用した最終結果が図１４Ｅに示されている。両方向のエッジから始まって、エッジ方向が１ピクセル分伝播されたことがわかるであろう。その結果、拡大勾配画像を使用するときに、約２ピクセル分の小さな変位に対して類似度がロバストとなる。より大きなフィルタマスクを適用することによって、または小さなフィルタマスクを連続的に数回適用することによって、より大きな許容度を得ることができる。残念ながらフィルタマスクのサイズは任意の大きさに選択することはできない。さもないと、曲線エッジの近傍における誤差や、いくつかの近接したエッジを有する微細構造の近傍における誤差などが導入されてしまい、その結果マッチングのロバスト性が低下するであろう。本発明の好適な実施形態では、３×３フィルタマスクが使用される。速度とロバスト性のバランスが良好となるからである。

本発明は、単眼カメラ画像における三次元オブジェクト認識のためのシステムおよび方法、およびカメラ座標系に対するオブジェクトの三次元位置姿勢の測定のためのシステムおよび方法を提供する。ピラミッドアプローチとツリー構造に配列される階層的モデルビューとの、新規性を有する組み合わせは、リアルタイムアプリケーションにとって重要であり、これまでの認識アプローチには適用されたことが無い。新規性を有する３チャネルモデル画像生成は、エッジ振幅の閾値を越えるだけで実像では不可視のオブジェクトエッジを削除することにより、既存のエッジベースの二次元マッチングアプローチの使用を可能にする。これも、これまでの認識アプローチには適用されたことが無い。新規性を有する、トラッキング中の二次元モデルの投影変換は、認識アプローチのロバスト性の向上にとって重要である。これもまた、これまでの認識アプローチにおいて適用されたことが無い。最後に、その後の三次元位置姿勢の絞り込みを適用することにより高精度が得られる。絞込みのための最初の三次元位置姿勢は、二次元マッチング位置姿勢と、対応するビューの三次元位置姿勢とを組み合わせることによって得られる。径方向の歪みを効果的に除去するために使用できる別の方法が提供されている。さらに、最高位のピラミッドレベル上で、二次元マッチングのロバスト性を低減しかねないこともある投影歪みを除去するために、モデルと画像とを効果的にマッピングして球面投影を得る別の方法が提供されている。新規性を有する、マッチングに使用される勾配情報の拡大は、マッチされなければならないビューの数を削減できるので、高速認識に重要である。

［ロボットビジョンシステムの実施例］
図１５において、基本的なロボットビジョンシステム例が図示されている。このシステムは、本発明で提示された方法を組み込んでいる。三次元オブジェクト認識の代表的な利用分野がロボットビジョンである。前記システムは、画像を獲得するための画像獲得装置１と、画像を分析するための画像プロセッサ２と、三次元モデルデータを含む記憶装置３と、ロボット４とを含む。前記画像プロセッサは、例えば適切にプログラムされたコンピュータなど、ハードウェアとソフトウェアとの適当な組み合わせとして設けられてもよい。前記ロボットはたとえば、オブジェクトを取り扱うグリッパまたはグラスパ５を備えている。かかるシステムは、ロボットの「手」が機械的な「目」によって導かれるので「ハンド・アイシステム」とも呼ばれている。オブジェクト認識アプローチの結果を使用するために、オブジェクトの三次元位置姿勢がロボットの座標系に変換されなければならない。このように、カメラ較正に加え、ハンド・アイシステムの較正、すなわちカメラ座標とロボット座標との変換を判定しなければならない。その上で、例えばオブジェクト６を把持せよ、などの、適切なロボット指令の作成が可能になる。一般的に、かかるシステムの実現の可能性には２つの形式があるだろう。第１の可能性は、カメラがロボットに接続され、よってロボットが動くとカメラも動くものである（図１５Ａ）。第２の可能性は、カメラが世界座標系に対して固定されるものである（図１５Ｂ）。どちらの場合も、カメラに対するグリッパの相対的位置姿勢は「ハンド・アイ較正」の標準的な方法を使用することによって測定できる。その結果、実際には、オブジェクト認識は下記のように実施される。

オフライン段階では、下記の工程が行われる。Ａ．１．カメラの内的方位を較正する（もし工程Ａ．２．にて同時に行われない場合）。Ａ．２．ロボットの「ハンド・アイ」較正を行う。Ａ．３．見つけるべき三次元オブジェクトの三次元記述を提供する。Ａ．４．オンライン段階でオブジェクトが見つけられるべきパラメータ範囲を特定する。Ａ．５．前記特定された位置姿勢範囲中の三次元オブジェクト記述から三次元モデルを生成し、記憶装置に三次元モデルを記憶する。

オンライン段階では、下記の工程が行われる。Ｂ．１．画像獲得装置でオブジェクトの画像を獲得する。Ｂ．２．カメラ座標系に対するオブジェクトの三次元位置姿勢を測定するために記憶装置に記憶された三次元モデルを使用して三次元オブジェクト認識を行う。Ｂ．３．ロボット座標系におけるオブジェクトの三次元位置姿勢を得るために、カメラに対するオブジェクトの三次元位置姿勢とロボットの位置姿勢とを連結する。Ｂ．４．例えばオブジェクトを把持せよ、などの、適切なロボット指令を作成する。

本発明のいくつかの特定の実施形態を詳細に記載したが、好適な実施形態には、本発明の精神と範囲から逸脱することなく様々な変更が可能である。したがって、前記記載は、以下のクレームに指摘されたもの以外は本発明を制限するものではない。

図１は、オフライン段階、すなわち、三次元モデル生成のフローチャートである。図２は、オンライン段階、すなわち、画像における三次元オブジェクトの認識および前記オブジェクトの三次元位置姿勢の測定のフローチャートである。図３は、幾何学的カメラ較正中に用いられるカメラモデルの図である。図４Ａは、主に平らな表面および円柱からなる三次元オブジェクトの一例を示す。図４Ｂは、隠線を取り除いて視覚化した図４Ａの三次元オブジェクトを示す。図５Ａは、外的三次元オブジェクト表象の原座標系を、例えばＤＸＦファイルで定義されるように示す。図５Ｂは、原座標系を原点に移動して基準方向に回転させることで得られる、内的に用いられる基準座標系を示す。図６Ａは、基準位置姿勢を視覚化したものである。図６Ｂは、位置姿勢の範囲を説明するために用いられる球座標系を視覚化したものである。図７は、位置姿勢の範囲の一例を視覚化したものである。図８Ａは、ピラミッドレベル１上のビューを視覚化したものである。図８Ｂは、ピラミッドレベル２上のビューを視覚化したものである。図８Ｃは、ピラミッドレベル３上のビューを視覚化したものである。図８Ｄは、ピラミッドレベル４上のビューを視覚化したものである。図９は、４つのピラミッドレベルを備えたビューツリーの概略図である。図１０は、２つの近傍オブジェクト面の法線ベクトルの差角と、３チャネル画像における対応するエッジ振幅との関係を示す図である。図１１Ａは、三次元オブジェクトの一つのサンプルビューの３チャネルを示す。図１１Ｂは、図１１Ａに示す３チャネル画像のエッジ振幅に、間違った閾値を適用した場合に得られるエッジを示す。図１１Ｃは、図１１Ａに示す３チャネル画像のエッジ振幅に、正しい閾値を適用した場合に得られるエッジを示す。図１２は、４つのピラミッドレベルそれぞれについて、２つの二次元モデル例のエッジを示す。図１３Ａは、カメラがオブジェクトの中心に向けられた場合のオブジェクトビューを示す。図１３Ｂは、図１３Ａのカメラを、その光心を中心に右下へ回転させた場合に得られるオブジェクトビューを示す。図１３Ｃは、図１３Ａのカメラを、その光心を中心に左上へ回転させた場合に得られるオブジェクトビューを示す。図１４Ａは、サブピクセルレベルで精密な白い曲線の輪郭を黒い像の中に描いて得た人工画像の拡大部分を視覚化したものである。図１４Ｂは、エッジフィルタを適用した後に得た勾配ベクトルを視覚化したものである。図１４Ｃは、勾配ベクトルを適用し、最大振幅の勾配ベクトルを選択することで勾配情報を近傍のピクセルに拡大するために用いることができる３×３フィルタマスクを視覚化したものである。図１４Ｄは、前記フィルタマスクを、図１４Ｃにおいて視覚化された位置で適用した場合に得られる結果を視覚化したものである。図１４Ｅは、前記フィルタマスクを画像全体に適用した場合に得られる結果を視覚化したものである。図１５Ａは、本発明において提示された、移動カメラを用いた方法を組み込んだ基本的なロボットビジョンシステムの一例の図である。図１５Ｂは、本発明において提示された、固定カメラを用いた方法を組み込んだ基本的なロボットビジョンシステムの一例の図である。

符号の説明

Ｐピクセル座標
ｆ焦点距離
ｓ_x ｘ方向におけるセンサ上のセンサ要素同士の距離
ｓ_y ｙ方向におけるセンサ上のセンサ要素同士の距離
（ｃ_x、ｃ_y）^T 画像における主点の位置
λ 緯度
φ 経度
ｄ距離
ω カメラのロール角
Ａエッジ振幅
Ｎ面の法線ベクトル
δ 法線ベクトル間の角度
１画像獲得装置
２画像プロセッサ
３記憶装置
４ロボット
５グリッパまたはグラスパ
６オブジェクト

Claims

三次元オブジェクト認識のための三次元モデルを構築する方法であって、
（ａ）カメラの内的パラメータを提供するステップと、
（ｂ）三次元オブジェクトの幾何学的表象を提供するステップと、
（ｃ）三次元オブジェクトがカメラから可視であるような位置姿勢の範囲を提供するステップと、
（ｄ）異なる画像解像度について前記位置姿勢の範囲をサンプリングすることによって、前記三次元オブジェクトの仮想ビューを作成するステップと、
(ｅ) 同一の画像解像度に対応するビューが前記ツリーにおいて同一の階層レベルに属するように、すべてのビューをツリー構造により表現するステップと、
（ｆ）各画像について、適切な二次元マッチングアプローチを用いることにより、画像における二次元ビューを見つけるために使用可能な二次元モデルを作成するステップとを含む方法。
幾何学的カメラ較正を行うことによって、前記ステップ（ａ）における前記カメラの内的パラメータを得る、請求項１に記載の方法。
前記ステップ（ｂ）の幾何学的表象は、コンピュータ支援設計（ＣＡＤ）モデルである、請求項１または２に記載の方法。
前記三次元ＣＡＤモデルは、ＤＸＦファイルによって表される、請求項３に記載の方法。
前記ステップ（ｃ）の位置姿勢範囲の提供は、固定されたオブジェクト座標系における前記カメラの位置姿勢範囲の提供であって、
（ｃ１）前記三次元オブジェクト表象を基準オブジェクト座標系に変換するステップと、
（ｃ２）前記基準オブジェクト座標系において球座標の緯度、経度、距離の区間を提供することによって、カメラの位置を提供するステップと、
（ｃ３）前記カメラ座標系のＺ軸が前記基準オブジェクト座標系の原点を通り、前記カメラ座標系のＸ軸が予め定められた平面に平行となるように、前記カメラを回転させるステップと、
（ｃ４）前記カメラロール角度の区間を提供することによって前記カメラの方位を提供するステップとを含む、請求項１〜４のいずれかに記載の方法。
前記ステップ（ｃ３）において、前記予め定められた平面は、前記基準オブジェクト座標系の赤道面である、請求項５に記載の方法。
前記ステップ（ｃ）の位置姿勢範囲の提供は、固定されたオブジェクト座標系における前記カメラの位置姿勢範囲の提供であって、
（ｃ１）前記三次元オブジェクト表象を基準オブジェクト座標系に変換するステップと、
（ｃ２）前記基準オブジェクト座標系においてＸ座標、Ｙ座標、Ｚ座標の区間を提供することによって、カメラの位置を提供するステップと、
（ｃ３）前記カメラ座標系のＺ軸が前記基準オブジェクト座標系の原点を通り、前記カメラ座標系のＸ軸が予め定められた平面に平行となるように、前記カメラを回転させるステップと、
（ｃ４）前記カメラロール角度の区間を提供することによって前記カメラの方位を提供するステップとを含む、請求項１〜４のいずれかに記載の方法。
前記ステップ（ｃ３）において、前記予め定められた平面は、前記基準オブジェクト座標系のＸ軸およびＺ軸上に延びる平面である、請求項７に記載の方法。
前記ステップ（ｃ４）において、前記カメラロール角度は、前記カメラのＺ軸を中心とした回転である、請求項５〜８のいずれかに記載の方法。
前記ステップ（ｃ）の位置姿勢範囲の提供は、固定されたカメラ座標系内での前記オブジェクトの位置姿勢範囲の提供である、請求項１〜４および７のいずれかに記載の方法。
前記ステップ（ｃ１）における前記基準オブジェクト座標系は、幾何学的表象によって画定されたオブジェクト座標系と同じである、請求項５または７に記載の方法。
前記ステップ（ｃ１）における基準オブジェクト座標系は、三次元オブジェクトの中心へ移された前記幾何学的表象によって画定され、所定の基準方位を向くよう回転させられたオブジェクト座標系である、請求項５または７に記載の方法。
異なる画像解像度について前記位置姿勢の範囲をサンプリングすることによる前記三次元オブジェクトの仮想ビューの作成は、画像ピラミッドの異なるレベルについて前記位置姿勢をサンプリングすることによる前記三次元オブジェクトの仮想ビューの作成である、請求項１〜１２のいずれかに記載の方法。
前記ステップ（ｄ）は、
（ｄ１）最高画像解像度のビュー、すなわち最下位ピラミッドレベル上のビューのオーバーサンプリングを算出するステップと、
（ｄ２）前記ビューを間引くステップであって、予め定められた閾値を越えた類似度を有する近傍のビューを次々に統合することによって間引きを行うステップと、
（ｄ３）前記ステップ（ｄ２）で２つの近傍のビューが閾値を越えた類似度を有するということがなくなるまで、前記ステップ（ｄ２）を繰り返すステップと、
（ｄ４）前記統合されたビューを前記三次元モデルにコピーするステップと、
（ｄ５）前記ステップ（ｄ２）の類似度閾値を緩和した後に全ての画像解像度について前記ステップ（ｄ２）〜（ｄ４）を繰り返すステップとを含む、請求項１に記載の方法。
両方のビューの像面に前記オブジェクトを投影し、請求項１に記載のステップ（ｆ）の二次元マッチングアプローチで使用される類似度測定に基づいて前記投影図間の類似度を算出することによって、前記ステップ（ｄ２）における類似度が算出される、請求項１４に記載の方法。
両方のビューの像面に前記オブジェクトの三次元バウンディングボックスのみを投影し、請求項１に記載のステップ（ｆ）の二次元マッチングアプローチで使用される類似度測定に基づいて前記投影図間の類似度を算出することによって、前記ステップ（ｄ２）における類似度が算出される、請求項１４に記載の方法。
前記類似度測定に代わって、前記原類似度測定よりも早く算出することができる分析的近似を行う、クレーム１５または１６に記載の方法。
前記類似度測定の最もスピードの速い近似から開始して、前記原類似度測定が使用されるまで類似度測定を絞り込むことによって、前記ステップ（ｄ２）および（ｄ３）が反復される、請求項１４に記載の方法。
次に高位のピラミッドレベルへ至るために前記画像を平滑化しサブサンプリングし、前記サブサンプリングされた画像上で類似度を算出することによって、前記ステップ（ｄ５）の類似度閾値の緩和がおこなわれる、請求項１４に記載の方法。
ピラミッドレベルに応じて類似度の前記分析的近似中に位置の許容値を乗ずることによって、前記ステップ（ｄ５）の類似度閾値の緩和を行う、請求項１４に記載の方法。
前記ステップ（ｅ）が、
（ｅ１）各ビューについて、当該ビューの三次元位置姿勢を前記三次元モデルに保存するステップと、
（ｅ２）各ビューについて、子ビューすべてに対する参照を前記三次元モデルに保存するステップと、
（ｅ３）各ビューについて、その親ビューに対する参照を前記三次元モデルに保存するステップとを含む、請求項１〜２０のいずれかに記載の方法。
前記ステップ（ｆ）が、
（ｆ１）各ビューの像面に前記三次元オブジェクトを投影して３チャネル画像を生じさせ、前記３チャネルとは前記三次元オブジェクトの面の法線ベクトルの三つの要素を表すステップと、
（ｆ２）前記３チャネル画像の勾配振幅を閾値処理することによって得られる画像エッジからなる二次元モデルを作成するステップとを含む、請求項１〜２１のいずれかに記載の方法。
前記ステップ（ｆ２）における二次元モデルの作成は、一般化ハフ変換、ハウスドルフ距離、またはエッジ勾配方向のドット積に基づくマッチングアプローチに使用できる二次元モデルの作成を含む、請求項２２に記載の方法。
前記ステップ（ｆ２）の閾値は、所定の最小面角度から算出される、請求項２２に記載の方法。
前記ステップ（ｆ１）において、各画像チャネルにある一定の値を加えて、投影されたオブジェクトのシルエットが前記ステップ（ｆ２）の閾値処理によって削除されることの無いようにする、請求項２２に記載の方法。
前記ステップ（ｆ２）における閾値処理によって得られた画像エッジは自動的に確認され、確認できない場合には前記二次元モデルが廃棄される、請求項２２に記載の方法。
（ｇ）投影歪みの影響を低減する前記像面の球マッピングを算出し、前記三次元モデルに前記球マッピングを保存するステップと、
（ｈ）前記球マッピングを使用して前記ステップ（ｆ）で作成された二次元モデルをマッピングし、前記原二次元モデルに加えて、前記球マッピングされた二次元モデルを前記三次元モデルに保存するステップとをさらに含む、請求項１〜２６のいずれかに記載の方法。
（ｉ）レンズ歪みの影響を除去する前記像面のマッピングを算出し、前記マッピングを前記三次元モデルに保存するステップをさらに含む、請求項１〜２６のいずれかに記載の方法。
三次元オブジェクトを認識し、前記オブジェクトのひとつの画像からその三次元位置姿勢を測定する方法であって、
（ａ）前記三次元オブジェクトの三次元モデルを提供するステップと、
（ｂ）前記三次元オブジェクトの電子サーチ画像を提供するステップと、
（ｃ）前記サーチ画像の異なる解像度を含むサーチ画像の表象を作成するステップと、
（ｄ）前記階層的ツリー構造において、親ビュー（father view）を持たない二次元モデルを、前記画像ピラミッドの各レベルの画像とマッチさせるステップと、
（ｅ）最下位ピラミッドまで追跡することにより、最上位ピラミッドレベルの二次元でのマッチの確認および絞り込み（refining）を行うステップと、
（ｆ）前記二次元マッチングの位置姿勢および前記各三次元ビューの位置姿勢から、初期三次元オブジェクトの位置姿勢を測定するステップと、
（ｇ）前記初期三次元オブジェクトの位置姿勢を絞り込むステップとを含む、方法。
前記ステップ（ｅ）が、
（ｅ１）前記マッチ候補の位置に応じて子ビューの二次元モデルを投影変換するステップと、
（ｅ２）前記画像ピラミッドの各レベルの画像に対して、限定されたパラメータ範囲で子ビューの変換された二次元モデルをマッチさせるステップと、を含む、請求項２９に記載の方法。
前記ステップ（ｄ）または（ｅ２）のそれぞれにおける前記マッチングは、一般化ハフ変換、ハウスドルフ距離、またはエッジ勾配方向のドット積に基づく、請求項２９または３０に記載の方法。
前記ステップ（ｄ）またはステップ（ｅ２）におけるマッチングはそれぞれ、勾配の局所的な極性を無視したエッジ勾配方向のドット積に基づく、請求項２９または３０に記載の方法。
前記ステップ（ｄ）において、マッチングが行われる各ピラミッドレベルは、マッチングを適用する前に投影歪みを低減するために前記三次元モデルに保存された球マッピングを使用してマップされ、前記ステップ（ｄ）において、前記球マッピングされた二次元モデルは前記原二次元モデルの代わりにマッチングに使用される、請求項２９に記載の方法。
前記ステップ（ｄ）または（ｅ２）のそれぞれにおいて、マッチングが行われる各ピラミッドレベルは、マッチングが適用される前にレンズ歪みを除去するために前記三次元モデルに保存されたマッピングを使用してマップされる、請求項２９または３０に記載の方法。
前記ステップ（ｇ）における前記初期三次元オブジェクト位置姿勢の絞込みは、サブピクセルレベルで正確な画像エッジポイントと対応する投影された三次元オブジェクトエッジとの間の距離を最小にすることによって行われる、請求項２９に記載の方法。
（ｇ１）前記初期三次元オブジェクト位置姿勢を使用することによって前記三次元モデルエッジを前記サーチ画像投影し、その際に陰線アルゴリズムを使用して隠れたオブジェクトエッジを削除し、かつ、２つの隣接した面の間の角度が所定の最小角度を下回るような前記オブジェクトのエッジを削除する、ステップと、
（ｇ２）ピクセルグリッドに応じて、前記投影されたエッジをサンプリングして離間したポイントにするステップと、
（ｇ３）前記サンプリングされたエッジポイント各々について、その近傍でそれに対応する、サブピクセルレベルで正確な画像エッジポイントを探索するステップと、
（ｇ４）反復的な非線形の最適化アルゴリズムを使用して、前記対応ポイント間の距離の二乗の総和を最小化することにより、絞り込まれた三次元オブジェクト位置姿勢の６つのパラメータを決定するステップとを含む、請求項３５に記載の方法。
前記ステップ（ｇ３）において、対応するサブピクセルレベルで正確な画像エッジポイントの探索の方向が、投影されたモデルエッジに垂直な方向に制限される、請求項３６に記載の方法。
前記ステップ（ｇ３）において、閾値未満の角差との対応のみが有効な対応として承認され、前記角差は前記投影モデルエッジに対する垂線と前記画像勾配との間で算出される、請求項３６に記載の方法。
前記ステップ（ｇ４）において、最適化中に角差に応じて前記距離の二乗が重み付けされ、前記角差は前記投影モデルエッジに対する垂線と前記画像勾配との間で算出される、請求項３６に記載の方法。
前記ステップ（ｇ１）〜（ｇ４）が反復され、前記反復は、前記絞り込まれた三次元オブジェクト位置姿勢が前記反復の最後２回分の間で大きく変化しなくなるまで行われる、請求項３６に記載の方法。
前記ステップ（ｇ１）〜（ｇ４）が、所定の回数分反復される、請求項３６に記載の方法。
前記ステップ（ｇ１）において、陰線アルゴリズムは反復の１回目のみに適用され、その後の反復では、前記反復の１回目に可視であった三次元モデルエッジの部分のみが、前記陰線アルゴリズムを再度行うことなく投影される、請求項４０または４１に記載の方法。
前記勾配に最大値フィルタを適用することによって前記マッチングを行う前に前記画像における勾配方向を拡大し、各フィルタ位置において前記フィルタの中心の勾配ベクトルを前記フィルタ内の最大振幅を有する勾配ベクトルと置き換える、請求項３１または３２に記載の方法。
テキスチャ情報で三次元モデルを補強する方法であって、
（ａ）三次元オブジェクトのいくつかの画像例を提供するステップと、
（ｂ）請求項３１に記載のステップを使用して、前記画像例の各々において前記三次元オブジェクトの三次元位置姿勢を測定するステップと、
（ｃ）前記画像例の各々について、前記ステップ（ｂ）で測定された三次元位置姿勢を使用して、前記三次元モデルの各面を前記画像例に投影するステップと、
（ｄ）前記オブジェクト面の各々について、前記面の三次元位置姿勢を使用して前記投影された面が覆っている前記画像例の部分を修正するステップと、
（ｅ）前記テキスチャされ修正されたオブジェクト面から得られたテキスチャ情報で前記二次元モデルを補強し、幾何学的情報とテキスチャ情報とを含む二次元モデルとするステップとを含む、方法。
前記ステップ（ｅ）の代わりに、下記のステップを行う、請求項４４に記載の方法。
（ｅ）前記テキスチャされ修正されたオブジェクト面から得られたテキスチャ情報のみを使用して前記二次元モデルを再生成し、前記幾何学情報を削除するステップ。