JP3976900B2

JP3976900B2 - 視点位置姿勢の決定方法及びカメラ装置

Info

Publication number: JP3976900B2
Application number: JP20830798A
Authority: JP
Inventors: 清秀佐藤; 裕之山本
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1998-07-23
Filing date: 1998-07-23
Publication date: 2007-09-19
Anticipated expiration: 2018-07-23
Also published as: JP2000041173A

Description

【０００１】
【発明の属する技術分野】
本発明は、視点位置姿勢の決定方法及びカメラ装置に関し、特に、カメラの視点位置を、３つのランドマークによって決定する方法などの改良に関する。
【０００２】
【従来の技術】
近年、現実空間と仮想空間の融合を目的とした複合現実感（MR: Mixed Reality）に関する研究が盛んになっている。その中でも、現実空間に仮想空間の情報を重畳表示する技術は「オーグメンティド・リアリティ」（AR: Augmented Reality）と呼ばれている。
【０００３】
ARの実現手段は、大きく２つに分類できる。１つは透過型のHMD（Head-Mounted Display）を利用して、表示面越しに見える現実世界の光景に仮想物体の映像を重畳する方式で、「光学シースルー方式」と呼ばれている。もう１つは、ビデオカメラで撮影された映像に仮想物体を重畳描画する方式で、「ビデオシースルー方式」と呼ばれている。いずれの方式においても、２つの空間の自然な融合を実現するためには、「位置合わせ」、「画質の一致」、「３次元空間合成」（前後関係や衝突の表現）といった要因について取り組まなくてはならない。中でも「位置合わせ」は、ARを実現するための最も基本的でかつ重要な要因といえる。
【０００４】
ARにおける位置合わせとは、基本的に観察者の視点（光学シースルー方式の場合）やカメラ（ビデオシースルー方式の場合）の位置や方位などのパラメータを計測・推定することである。これには、大きく２つの方式が用いられる。１つは磁気センサや超音波センサといった３次元位置方位センサを用いる「センサベース」の方式であり、もう１つは主にビデオシースルー方式のARで用いられる「画像ベース」の位置合わせ方式である。
【０００５】
【発明が解決しようとする課題】
センサベースの位置合わせ方式は、動作の安定性の面では優れているものの、ARに用いるには精度的に不十分な場合が多い。一方、画像ベースの位置合わせ方式は、融合の対象となる現実の画像情報を位置合わせに直接利用することで、精度の高い位置合わせが可能である。そこには、コンピュータビジョン分野で研究されてきた各種カメラ・キャリブレーションの手法を応用することが考えられる。しかし、ARではリアルタイム処理の制約のもとで各種処理を実装する必要があり、そのようなアルゴリズムではランドマークの抽出／識別処理に誤差が生じやすく、動作が不安定になるという課題を有している。
【０００６】
位置あわせについて、従来の手法について説明する。
なお以下では、説明の簡略化のために、カメラ座標系から画像座標系への投影は理想的な透視投影のモデルに基づいて行われていると仮定する。すなわち、画像の歪みや中心のずれ、アスペクト比といった要因は事前に計測されており、画像座標抽出の段階で除去されているものとする。
【０００７】
まず、カメラパラメータ推定の基本形について説明する。
３次元空間中のランドマークQ_i（世界座標Q_Wi = (X_Wi, Y_Wi, Z_Wi, 1)）が、カメラにより、画像座標q_i = (x_i, y_i)で撮像されたとする。このカメラについて透視投影を仮定すると、この投影は、３×４の変換行列Cによって、
【０００８】
【数４】

と表わすことができる。ここでh_iは媒介変数である。この(1)式を展開すると、
【０００９】
【数５】

が得られる。（２）の第３式から媒介変数h_iを消去することができる。また、ランドマークQ _iの世界座標値(X_Wi, Y_Wi, Z_Wi)は既知であり、そのランドマークに対して画像上で観測座標値(x_i, y_i)が得られたのであるから、１点のランドマークについての一対の世界座標値と観測座標値は、(2)式の第１と第２の２つの式を与える。
【００１０】
行列Cは３×４であるから、この１２個の未知数、即ち、行列要素を有する。１つのランドマークは２つの式を与えるから、この行列Cを決定するためには、同一平面上にない6 点以上の（既知の）ランドマーク Q _i (i=1,2,...6)が画像上で観察されていればよいことになる。この行列Cをいかに求めるかが、カメラパラメータの推定、すなわち、位置合わせの問題である。
【００１１】
奥行き情報を利用してカメラのパラメータを推定することが提案されている。
以下に、奥行き情報を利用してカメラのパラメータを推定する方法を説明する。
式(1)における媒介変数h_iは、カメラ座標系におけるランドマークQ_iの奥行き値Z_Ciと比例関係にあり、ある定数kを用いて、
【００１２】
【数６】

と表わすことができる。また、この比例関係を満たす値であれば、kの値は任意に選ぶことができる。
今、ランドマークQ_iに対する奥行きの尺度として、
【００１３】
【数７】

を満たすような値z_iが得られているとする。この場合、z_iを式(1)のh_iに代入することで、1 点のランドマーク Q _iについて次の３つの式を得る。
【００１４】
【数８】

ここで、同一平面上にない4 点のランドマーク Q _i (i=1,2,3,4)の世界座標値が、
(X_W1, Y_W1, Z_W1)
(X_W2, Y_W2, Z_W2)
(X_W3, Y_W3, Z_W3)
(X_W4, Y_W4, Z_W4) …(6)
と与えられ、画像座標系で、座標値が、
(x₁, y₁, z₁)
(x₂, y₂, z₂)
(x₃, y₃, z₃)
(x₄, y₄, z₃) …(7)
と観測された場合、
【００１５】
【数９】

【００１６】
【数１０】

と表記すると、式(5)は、
U=C W …(10)
と表わせるので、行列Cは次式によって求められる。
【００１７】
C=UW^-1 …(11)
ここで、行列Ｗ^−１は、既知のランドマークの世界座標の組によって表現される行列Ｗの逆行列であり、予め計算しておくことができる。したがって、カメラパラメータ（Ｃ＝｛a_ij｝）の推定問題は、従来においては、いかにして行列U、すなわち、4点のランドマークの画像座標(x_i, y_i)とその奥行きの尺度z_iを得るかという問題に帰着する。
【００１８】
ランドマークの奥行きの尺度z_iを得るには、例えば、Mellor（J. P. Mellor: “Realtime camera calibration for enhanced reality visualization,” Proc. CVRMed ’95, pp.471-475, 1995.）は、ランドマークの見かけの大きさの情報を利用する手法を提案した。
このMellorの手法は、ランドマークの見かけの大きさs_iが視点からランドマークまでの距離に反比例することを利用し、こうして得られたs_iの逆数1/s_iを式(6)のz_iとして用いることで、４点のランドマークを用いた位置合わせを行うものである。
【００１９】
このように、カメラパラメータの推定にランドマークの奥行き情報を用いる場合でも、前述したように、4点のランドマークが必要であった。
ランドマークの配置に拘束を課すことによっても、少数のランドマークを用いてカメラパラメータを推定することができる。中沢ら（中沢, 中野, 小松, 斎藤: “画像中の特徴点に基づく実写画像とCG画像との動画像合成システム”, 映像情報メディア学会誌, Vol.51, No.7, pp.1086-1095, 1997.）は、Z=0の平面を利用してカメラパラメータを推定する方法を提案している。即ち、全てのランドマークが世界座標系におけるZ = 0の平面に配置されているという前提に基づいて、4点のランドマークに同一平面上にあるという拘束を課して、カメラパラメータを推定するというものである。また、大隈ら（大隈, 清川, 竹村, 横矢: “ビデオシースルー型拡張現実感のための実画像からのカメラパラメータの実時間推定”, 信学技報, PRMU97-113, 1997. ）は、焦点距離を既知とすることで、中沢らの手法をさらに簡略化した位置合わせを実現した。
【００２０】
【発明が解決しようとする課題】
しかしながら、上述の３つの先行技術の手法は、いずれも、４点のランドマークを必要とするものであり、リアルタイム処理の点で問題があった。
たしかに、３点のランドマークによる提案（例えば、Fisher）も存在するが、これには煩雑な非線形方程式を解く必要があり、またその解は複数存在するものであり、一意な解を得ることができず、従って、カメラパラメータを決定することはできていなかったといっても過言ではない。
【００２１】
本発明は従来技術のこのような欠点に鑑みてなされたもので、その目的は、３点のランドマークから、カメラの位置姿勢を表すカメラパラメータを一意に決定することができる視点位置姿勢の決定方法及びカメラ装置を提案することにある。
【００２２】
【課題を解決するための手段】
すなわち、本発明の要旨は、既知の３次元世界座標を有し、同一直線上にない３つのランドマークの画像をカメラを用いて取得し、画像から３つのランドマークの画像座標(x₁, y₁), (x₂, y₂), (x₃, y₃)を夫々取得し、３つのランドマークの奥行き情報z₁, z₂, z₃を夫々取得し、３つのランドマークの夫々について取得された画像座標と奥行き情報から、
【数１】

で表される行列Ｕ’を求め、
３つのランドマークの座標をＺ＝０平面上に拘束した座標(X_W1, Y_W1,0)、(X_W2, Y_W2,0)、(X_W3, Y_W3,0)から、
【数２】

で表される行列Ｗ’を求め、
【数３】

で表される、３×３の射影変換行列Ｃ’を演算し、この射影変換行列Ｃ’と、カメラの焦点距離ｆとから、３つのランドマークがＺ＝０平面上に存在する場合の、世界座標系Q _Wi =(X _Wi , Y _Wi , Ｚ _Wi , １ )からカメラ座標系q _i =(x _i , y _i )への３×４の射影変換行列であるカメラパラメータＣ、
【数４】

（ h _i は媒介変数）
を求めることを特徴とする視点位置姿勢の決定方法に存する。
【００２３】
また、本発明の別の要旨は、既知の３次元世界座標を有し、同一直線上にない３つのランドマークの画像を取得するカメラと、画像から３つのランドマークの画像座標を夫々取得する手段と、３つのランドマークの奥行き情報を夫々取得する手段と、３つのランドマークの夫々について取得された画像座標と奥行き情報から、本発明の視点位置姿勢の決定方法によりカメラパラメータを演算する手段とを具備することを特徴とするカメラ装置に存する。
【００２４】
また、本発明の別の要旨は、コンピュータ装置が実行可能なコンピュータプログラムを格納したコンピュータ装置読み取り可能な記録媒体であって、コンピュータプログラムが、既知の３次元世界座標を有し、同一直線上にない３つのランドマークの画像を取得する工程と、画像から３つのランドマークの画像座標(x₁, y₁), (x₂, y₂), (x₃, y₃)を夫々取得する工程と、３つのランドマークの奥行き情報z₁, z₂, z₃を夫々取得する工程と、３つのランドマークの夫々について取得された画像座標と奥行き情報から、
【数１】

で表される行列Ｗ’を求め、
【数３】

で表される、３×３の射影変換行列Ｃ’を演算する工程と、この射影変換行列Ｃ’と、カメラの焦点距離ｆとから、３つのランドマークがＺ＝０平面上に存在する場合の、世界座標系Q _Wi =(X _Wi , Y _Wi , Ｚ _Wi , １ )からカメラ座標系q _i =(x _i , y _i )への３×４の射影変換行列であるカメラパラメータＣ、
【数４】

（ h _i は媒介変数）
を求める工程とを有することを特徴とする記録媒体に存する。
【００３４】
【発明の実施の形態】
以下、添付図面を参照しながら、本発明の実施形態を説明する。
本発明の発明者たちは、実施形態の手法を、中沢らの手法を拡張したものとして位置づけている。本実施形態の手法は、3点のランドマークによって位置合わせする、即ち、カメラパラメータの推定を可能にするものである。
【００３５】
まず、中沢らの手法を本発明の発明者の観点から体系化する。
〈Ｚ＝０平面を利用した推定〉
世界座標系におけるランドマークのZ座標を全て0とすると、ランドマークを画像上で観測する時の投影関係を表わす座標変換行列は、(1)式の行列Cの第3列（Z座標に関する成分）を省略した3x3の行列だけで表現することができる。ここで、この３×３の行列をＣ’で、また、ランドマーク Q _i の世界座標を２次元の同次座標 P _wi :(X _wi ,Y _wi ,1) ^T で表わすとする。こうすると、ランドマーク Q _i の、世界座標系から画像座標系への投影は、(1)式よりも単純化されて、次式のように記述できる。
【００３６】
【数１４】

この式を展開して、
【００３７】
【数１５】

が得られる。(13)の第３式を第１式，第２式に代入して媒介変数h_iを消去すると、1点のランドマーク（X_Wi, Y_Wi）について２つの式が得られる。ここで、a₃₄ = 1とすると、行列Ｃ’についての未知数がa₁₁, a₁₂, a₁₄, a₂₁, a₂₁, a₂₂, a₂₄, a₃₁, a₃₂という8個となることから、4点以上のランドマーク（X_Wi, Y_Wi）(i= 1, 2, 3, 4)を観測することで、行列Ｃを求めることができる。
【００３８】
このようにして得られた行列Ｃ’から行列Cの第3列成分（a₁₃, a₂₃, a₃₃）を求めることで、カメラパラメータCを推定することができる。行列Ｃ’から行列Cを求めることの手順を以下にさらに詳しく説明する。
一般に、世界座標系から画像座標系への座標変換を表わす行列C (3x4)は、カメラの焦点距離をｆとすれば、カメラ座標系から画像座標系への透視変換行列P（3x4行列）と、世界座標系からカメラ座標系への座標変換行列M（4x4行列）によって、次式のように記述できる。
【００３９】
【数１６】

一方、前述の行列Ｃ’も同様に、行列Pと、行列Mの第3列を省略した行列Ｍ’(4x3)とによって、次式のように記述することができる。
【００４０】
【数１７】

即ち、行列Ｃ’の各要素は上述の如く求まっているので、カメラの焦点距離fが既知であれば、行列M'の各要素はその行列C'から容易に求める事ができる。
また、行列Mの第3列はカメラ座標系のz軸を表わしており、これは、行列Mの（すなわち行列Ｍ’の）第1列（x軸）と第2列（y軸）が表わす２つのベクトルに直交するベクトルとして求めることができる。したがって、行列Mは行列Ｍ’から推定可能であり、こうして得られた行列Mを式(14)に代入することで、カメラパラメータを表わす行列Cを獲得することができる。即ち、４点のランドマークをＺ＝０平面に拘束することによって、カメラパラメータＣを得ることができる。
【００４１】
〈３点によるカメラパラメータ行列Ｃの推定〉
第１図に示すように、３点のランドマーク (Q _i :i=1,2,3)の、世界座標系から画像座標系への投影は、(12)式と同じように、次式のように記述できる。
【００４２】
【数１８】

この式における媒介変数h_iは、カメラ座標系におけるランドマークQ_iの奥行き値Z_Ciと比例関係にあり、ある定数kを用いて、
【００４３】
【数１９】

と表わすことができる。また、この比例関係を満たす値であれば、kの値は任意に選ぶことができる。今、ランドマークQ_iに対する奥行きの尺度として、
【００４４】
【数２０】

を満たすような値z_i(i=1,2,3)が得られているとする。この場合、z_iを式(16)のh_iに代入することで、1点のランドマークについて次の３つの式を得る。
【００４５】
【数２１】

同一直線上にない3点のランドマークを観測した場合、
【００４６】
【数２２】

【００４７】
【数２３】

と表記すると、式(16)の関係は、
【００４８】
【数２４】

と表わすことができるので、行列Cの第3列（Z座標に関する成分）を省略した3x3の行列であるところの、行列Ｃ’は
【００４９】
【数２５】

によって得ることができる。
そして、得られた行列Ｃ’からカメラパラメータＣを前述の手法と同じように求めることができる。即ち、カメラ座標系から画像座標系への透視変換行列をP（3x4行列）、世界座標系からカメラ座標系への座標変換行列Mを（4x4行列）とすると、
【００５０】
【数２６】

であり、行列C (3x4)は
【００５１】
【数２７】

と表すことができ、行列Ｃ’も同様に、
【００５２】
【数２８】

と表すことができる。カメラの焦点距離fが既知であれば、行列Ｍ’の要素は、前述したように、行列Ｃ’から容易に求めることができる。そして、行列Mの第3列は、行列Mの（すなわち行列Ｍ’の）第1列（x軸）と第2列（y軸）が表わす２つのベクトルに直交するベクトルとして求めることができる。したがって、行列Mは行列Ｍ’から推定可能であり、こうして得られた行列Mを式(26)に代入することで、カメラパラメータを表わす行列Cを獲得することができる。即ち、３点のランドマークをＺ＝０平面に拘束することによって、カメラパラメータＣを得ることができた。
【００５３】
即ち、式(23)の行列Ｗ’ ^−１は、３点の既知のランドマークの世界座標の組であり、予め計算しておくことができる。したがって、カメラパラメータの推定問題は、行列Ｕ’、すなわち、3点のランドマークの画像座標と、その奥行きの尺度z_iを求める問題に帰着する。
なお、３点のランドマーク Q _i (i=1,2,3)は必ず１つの平面上に存在するが、その平面が、第２図に示すように、世界座標系のZ = 0平面でない場合がある。このような場合でも、その3点Q_iのランドマークが配置された平面から、Z = 0平面への座標変換行列N (4x4)は必ず存在し、また容易に求めることができる。したがって、そのような座標変換行列 N によって変換された各ランドマークの世界座標 Q ^N _Wi は、
Q ^N _Wi ＝ NQ _wi … (28)
であり、これらの点はＺ＝０平面上に存在するという要件を満足する。即ち、 Q ^N _Wi からＺ成分を取り除いた世界座標 P ^N _Wi を得て、座標 P ^N _Wi (i=1,2,3) について式 (16) 乃至式 (27) を解いて得たカメラパラメータ行列をC^(N)とすると、
C = C^(N)N …(29)
とすることで、カメラパラメータＣが導出される。
【００５４】
【実施例】
第３図は、実施例のカメラパラメータ決定装置の構成を示す。この決定装置は、同図に示すように、奥行き推定モジュール１００と座標検出モジュール２００とパラメータ推定モジュール３００とからなる。前述したように、本発明の本質は、３つのランドマークの画像座標と、そのランドマークまでの奥行き情報を得て、式(23)の行列U’を求めることにより、ARにおけるカメラ位置を決定することである。第３図の装置では、奥行き情報を得るために、例えば、三次元位置方位センサ（磁気センサ）と１つ以上のカメラを具備することが可能である。従って、本装置に、三次元センサが接続されているのか否か、あるいは、カメラが何台接続されているのか、あるいは、対象のランドマークがその奥行き情報を得ることができる程度に撮像されているのか否かによっても、本装置の動作は異なる。以下、本装置の動作について、入力装置の種々の形態に従って説明する。
【００５５】
尚、実施例の決定装置は、ソフトウエアによってもハードウエアによっても実現可能であり、第３図の構成は一例に過ぎない。
【００５６】
〈ステレオによる位置合わせ〉…第１実施例
第１実施例は、第３図の装置が、ランドマークの画像を入力するのにステレオカメラを有する場合におけるカメラパラメータの決定手法である。
【００５７】
ビデオシースルー方式のARにおいて観察者の左右の眼に視差画像を提示するためには、HMDにステレオカメラを装着し、それぞれのカメラの映像に対して位置合わせを行う必要がある。第１実施例では、位置合わせの手掛かりとして、この２台のカメラから得られる情報を利用するものである。
ステレオカメラを用いて位置合わせを行う場合、両カメラによって得られた画像間でのランドマークの対応関係を求めることで、ランドマークまでの距離情報z_iが得られる。
【００５８】
説明を簡単にするために、2台のステレオカメラの光軸が互いに平行で、かつ基線と直交し、画像座標系のx軸と平行なエピポーラ線を持つように正規化されていると仮定する。ランドマークQ_iが、右画像上の点q^R _i=(x^R _i, y^R _i)として、また、左画像上の点q^L _i=(x^L _i, y^L _i)として観測されたとする（ただし、y^R _i= y^L _i）。このとき、第４図に示すように、対応点間の視差d_i(= x^L _i - x^R _i)は、Q_iの奥行き値Z_Ciと反比例の関係にある。
【００５９】
【数２９】

したがって、3点のランドマークの対応点を得ることによって、行列Ｕ’を、
【００６０】
【数３０】

とおくことで、右カメラのパラメータ、即ち、座標変換行列C^Rを得ることができる。さらに、
【００６１】
【数３１】

となることから、左カメラのパラメータ、即ち、座標変換行列C^Lは、
【００６２】
【数３２】

として、容易に求められる。ここで、a^R _jkは右カメラの座標変換行列C^Rの各要素を表わしている。
尚、ステレオカメラの光軸が互いに平行でなくて、輻輳している場合でも、透視変換行列P (3x4)が既知であり、また、カメラ間の相対位置が与えられていれば、ランドマークQ_iの右カメラ座標系における奥行き値Z^R _Ciは、そのステレオ画像上での対応関係から容易に求められる。したがって、行列Ｕ’を、
【００６３】
【数３３】

とおくことで、右カメラの座標変換行列C^Rが求められる。
〈単眼画像とセンサによる位置合わせ〉…第２実施例
第１実施例は、第３図の装置が、ランドマークの画像を入力するのにステレオカメラを有するシステムに本発明を適用したものであった。第２実施例は、単眼のカメラと三次元位置方位センサを有するシステムに本発明を適用した場合におけるカメラパラメータの決定手法である。
【００６４】
画像ベースとセンサベースの位置合わせ手法の相互の欠点を補うために、画像とセンサ双方の情報を用いて位置合わせを行う試みがなされている。これには、画像ベースの位置合わせを安定化させるためにセンサの情報を利用する考え方と、センサベースの位置合わせを主として捉え、その誤差を画像情報によって補正する考え方がある。第２実施例では、センサベースの位置合わせにおける位置ずれを、単眼画像情報を用いて補正する手法を以下に説明する。
【００６５】
〈3点が観測されている場合〉…第２-1実施例
画像上で3点のランドマークが抽出されている状況を想定する。前述したように、各ランドマークの奥行き情報が利用可能であれば、その3点のランドマークを用いて式(23)を解くことができる。
ここでは、３次元位置方位センサによって大まかなカメラの位置姿勢情報が利用可能であるので、この情報に基づいて、各ランドマークの奥行き情報を導出する。
【００６６】
いま、ランドマークQ_i(i=1, 2, 3)が、画像上の点q_i=(x_i, y_i)(i=1, 2, 3)として抽出されているとする。このとき、３次元位置方位センサから得られるカメラの位置姿勢M^WC（世界座標系からカメラ座標系への4x4の座標変換行列として表現される）によって、ランドマークQ_iのカメラ座標は、
【００６７】
【数３４】

と推定できる。このZ成分Z^(c) _CiをランドマークQ_iの奥行き情報として利用する。
第５図に示すように、ランドマークQ₁, Q₂, Q₃が画像上で観測されたとする。このとき、行列Ｕ’は、各ランドマークの画像座標と、式(35)によって求められる奥行き情報に基づいて、以下のように設定できる。
【００６８】
【数３５】

この行列Ｕ’から求めたカメラパラメータ行列Cは、３次元位置方位センサ出力から求められるカメラパラメータ行列C^(c)(=PM^(WC))に対して、3点のランドマーク上での位置ずれを除去するような補正が加えられたものとなる。
【００６９】
〈2点が観測されている場合〉…第２-2実施例
画像上で2点のランドマークが抽出されている状況を仮定する。この場合、第3のランドマークを仮想的に設定することで、上記と同様にカメラパラメータが推定できる。
第６図に示すように、ランドマークQ₁, Q₂が観測されたとする。第3の（仮想）ランドマークQ₃が、Q_W1, Q_W2とは同一直線上にないZ=0平面上の点Q_W3に存在すると仮定する。ランドマークQ₁,Q₂,Q₃の奥行き値Z^(c) _Ciを式(35)によって求め、さらに、ランドマークQ₃の画像面上への投影座標(x^(c) ₃, y^(c) ₃)を次式によって推定する。
【００７０】
【数３６】

【００７１】
【数３７】

これらを用いて、行列Ｕ’を式(36)のように設定する。
このようにして求めたカメラパラメータ行列Cは、３次元位置方位センサ出力から求められるカメラパラメータ行列に対して、2点のランドマーク上での位置ずれを除去するような補正が加えられたものとなる。
【００７２】
〈1点が観測されている場合〉…第２-３実施例
画像上で1点のランドマークが抽出されている状況でも、２点の場合と同様にして仮想のランドマークを２つ想定することで、ランドマーク上での位置ずれが補正できる。
【００７３】
〈ステレオと３次元センサによる位置合わせ〉…第３実施例
前述の画像ベースの位置合わせ手法と、センサベースの位置ずれ補正手法を統合する手法を提案する。
前述の手法は、入力された3つのランドマーク（仮想を含む）の画像座標(x_i, y_i)と奥行き情報Q_iから、式(23)における行列Ｕ’を求め、これを解くことでカメラパラメータを表わす行列Cを推定するものであった。第３実施例では、これらの手法を統合することで、ステレオカメラとセンサ情報を併用した位置合わせ手法を実現する。この統合は、左右の画像上でのランドマークの抽出状況にしたがって、各ランドマークの奥行き値の推定手法を適応的に切り替えることで実現する。以下、ランドマークの抽出される状況毎に、カメラ座標の推定手法を述べる。
【００７４】
〈3点を全て両眼で抽出〉…第3-1実施例
3点を全て両眼で抽出した場合、即ち、３点の全てがステレオカメラで抽出された場合には、その各ランドマークの奥行き値をステレオ情報に基づいて推定する。すなわち、第１実施例（式(30)乃至式(33)）の手法をそのまま適用する。
〈2点を両眼で、1点を単眼で抽出〉…第3-2実施例
３点のうち、2点（Q₁,Q₂）がステレオカメラによって、1点（Q₃）を単眼で抽出された場合には、その1点（Q₃）の奥行き情報は直ちには求まらない。
【００７５】
そこで、２点Q₁, Q₂の奥行き値Z_C1, Z_C2を、そのステレオ情報に基づいて推定する。一方、センサ情報に基づいた各ランドマークの奥行き値Z ^(C) _C1 ,Z ^(C) _C2 ,Z ^(C) _C3を式(35)を用いて推定する。さらに、ランドマークQ _i (i=1,2)について、
【００７６】
【数３８】

を満たす係数k _i (i=1,2)を求め、その平均値k_avを算出する。この係数k_avを用いて、
【００７７】
【数３９】

によって得られるZ_C3をQ₃の奥行き値として、式(36)から行列Ｕ’を求める。
〈1点を両眼で、2点を単眼で抽出〉…第3-3実施例
この場合は、Q₁の奥行き値Z_C1をステレオ情報に基づいて推定する。一方、センサ情報に基づいた各ランドマークの奥行き値Z^(c) _C1,Z^(c) _C2,Z^(c) _C3を式(35)を用いて推定する。さらに、ランドマークQ₁について、
【００７８】
【数４０】

を満たす係数k_avを求め、式(41)と同様にしてQ₂,Q₃の奥行き値を算出し、式(36)に代入して行列Ｕ’を求める。
【００７９】
〈2点を両眼で抽出〉…第3-4実施例
この場合には、Q₁,Q₂の奥行き値Z_C1,Z_C2をステレオ情報に基づいて推定し、センサ情報に基づいた奥行き値Z^(c) _C1,Z^(c) _C2から係数k_avを算出する。さらに、第２実施例と同様の手法を用いて、第3の（仮想）ランドマークQ₃の画像座標(x^(c) ₃, y^(c) ₃)と奥行き値Z^(c) _C3を推定し、式(41)によって得られるZ_C3をQ₃の奥行き値とする。これらの値を式(36)に代入して行列Ｕ’を求める。
【００８０】
〈1点を両眼で、1点を単眼で抽出〉…第3-5実施例
Q₁の奥行き値Z_C1をステレオ情報に基づいて推定し、センサ情報に基づいた奥行き値Z^(c) _C1から係数k_avを算出する。また、センサ情報に基づいて、 Q ₂ の奥行き値 Z ^(c) _C2 と、第 3 の（仮想）ランドマーク Q ₃ の画像座標 (x ^(c) _3, y ^(c) ₃ ) と奥行き値 Z ^(c) _C3 を推定し、式 (40) によって Q ₂ , Q ₃ の奥行き値を算出する。これらの値を式 (36) に代入して行列Ｕ’を求める。
【００８１】
〈1点を両眼で抽出〉…第3-6実施例
Q₁のカメラ座標Q_C1をステレオ情報に基づいて推定し、第２-3実施例の手法によってカメラ位置を補正する。
【００８２】
〈ステレオ情報が得られない場合〉…第3-7実施例
ステレオ情報が得られない場合とは、m点を単眼で抽出した場合であり、各ランドマークの奥行き値を、センサ情報に基づいて推定する。すなわち、第２実施例の手法をそのまま適用する。
【００８３】
〈処理選択の制御〉
前述したように、本発明のカメラパラメータの決定装置は、装着されているセンサもしくはカメラの有無や数によって処理が異なる。また、センサもしくはカメラに変更がなくとも、画像として検出されたランドマークの数によっても、第１実施例乃至第３実施例のいずれかの形態をとることが適応的に要求される。この選択は、例えばパラメータ推定モジュール３００が行う。
【００８４】
即ち、モジュール３００は、決定装置にいかなるデバイスが装着されているかを不図示のインタフェースを介して知ることができる。デバイスの種類／数などを知ったならば、モジュール３００は、座標検出モジュール２００に問い合わせて、現在カメラから取り込んでいる画像中にいくつのランドマークが捕捉されているかを調べる。その結果、奥行き推定モジュール１００に対して、処理アルゴリズム（第１実施例乃至第３実施例）の切り換え命令を発する。
【００８５】
〈実験結果〉
以上の位置合わせ手法の有効性を評価するための実験を行った。実験には、6自由度の磁気方位センサ（Polhemus社Fastrak）と小型カラーCCDカメラ（ELMO社MN-421）2台を装着したHMDを使用した。提示映像の生成には、左右の映像それぞれに対して1台のSiliconGraphic社製ワークステーションO2を使用した。またランドマーク追跡の画像処理は、PCに搭載した2台の日立製画像処理ボードIP5005によって行った。カメラからの映像はO2と画像処理ボードに分岐入力し、PCからO2へのデータ転送はイーサネットでのパケット通信によって行った。
【００８６】
現実空間のランドマークとして、世界座標の既知な複数の点に赤色のマークを設置した。あらかじめ設定したマーク色の（YUV空間における）存在範囲にしたがって、画像処理ボードは入力画像に二値化、ラベリング処理を施し、各クラスタの重心の座標をビデオレートで抽出する。抽出された座標データはO2に転送され、センサ情報から得られる各ランドマークの予測観測位置との比較により、ランドマークの同定が行われる。
【００８７】
構築したシステムにおける提示画像の更新レートは平均10Hzであった。磁気センサのみを用いた場合の更新レートも同じく10Hzであり、位置合わせのための演算がシステム全体のパフォーマンスに与える影響は、ほとんど無視できる程度のものであることが確認された。
提案した手法の定量的評価を行うために、同一の状況に対していくつかの位置合わせアルゴリズムを適用し、位置ずれの変化を計測した。位置ずれの計測は、ランドマーク以外に３次元位置の既知な基準点を多数用意して、ランドマークや基準点の各点での位置ずれの大きさの平均値を算出することで行った。実験は、 (a)3点両眼、
(b)2点両眼＋1点単眼、
(c)1点両眼＋2点単眼、
(d)3点単眼、
(e)2点両眼、
(f)1点両眼＋1点単眼、
(g)2点単眼、
(h)1点両眼、
(i)1点単眼のランドマーク情報と３次元位置方位センサ情報を併用した場合と、
(j)３次元位置方位センサのみを用いた場合
について行った。
【００８８】
実験に使用した入力画像（データA：右眼画像）を第８図に、上記(a),(d),(e),(j)の各条件での実験の融合結果を第９図乃至第１２図に示す。図中“□”印は抽出されたランドマーク位置を示す。仮想物体としては、現実の立方体に対してそのワイヤーフレームモデルのＣＧ図形を重畳して表示した。各条件での誤差の値を第１３図に示す。第１３図乃至第１５図中、横軸が上記(a)乃至(j)の手法、縦軸が発生した位置ずれを示している。さらに、観測対象とHMD、磁気センサのエミッタとの位置関係を変化させながら同様の実験を行った結果を第１４図乃至第１５図に示す。データBはHMDをエミッタから遠く、観測対象により近い位置に、データCはHMDを観測対象から離れた位置に設置した場合の結果である。
単眼のみを用いる手法を比較すると、3点の特徴点を用いる手法(d)はいずれも高い精度で位置合わせが可能であり、2点(g)、1点(i)の位置ずれ補正によっても、補正を行わない場合(j)に比べ格段の精度の向上が得られていることがわかる。
【００８９】
また、ステレオの情報による位置合わせの効果を見ると、データA（第１３図）,データC（第１５図）では、1点の場合(h)を除いて、ステレオの情報を用いない場合のほうが誤差が小さいという結果となった。これは、既知として与えたカメラ間の相対位置や画像処理による特徴点抽出の誤差の影響と考えられる。一方、データBの状況においては、ステレオの情報を用いることで、位置合わせ精度が向上していることがわかる。これは、ステレオによる距離情報推定の精度がカメラから物体までの距離と反比例の関係にあり、観察対象が近くに存在するデータBの状況においてはステレオ画像処理による距離情報の精度が比較的良かったためであると想像される。
【００９０】
〈ソフトウエアとしての組み込み〉
本決定装置は、カメラの視点位置を精度よく検出して、その検出された視点での座標変換パラメータ、即ち、カメラパラメータを出力するものである。カメラパラメータの出力は、座標変換行列Ｃの行列要素を出力することに他ならない。この座標変換行列Ｃの行列要素の決定・出力をソフトを用いて行うときは、その決定のための処理ルーチンは、ARもしくはMRのためのアプリケーション・プログラムに組み込むことも可能であるが、ＨＭＤ本体内もしくはカメラ本体内にＲＯＭとして組み込んでもよい。行列要素の決定処理はユーザ側よりもＨＭＤ装置や位置姿勢センサのメーカ側が開発した方が好都合だからである。
【００９１】
また、パソコンやワークステーションに適用するときは、ドライバソフトウエアとして組み込む。
〈実施形態及び実施例の効果〉
本明細書では、現実空間と仮想空間の融合技術に関連して、ステレオカメラと３次元センサを併用した位置合わせ手法を提案した。この手法により、センサベースと画像ベースの位置合わせ手法を同一の枠組みで扱うことが可能となった。
【００９２】
第２実施例，第３実施例に述べた手法は、画像処理によって得られる情報が、常に最も信頼性が高いという前提に基づいている。しかし、実験結果からも明らかなように、ステレオによって得られる距離情報の精度は、ランドマークまでの距離と依存関係にある。一方、３次元位置方位センサの精度は、センサ固有の計測範囲にしたがって変化する。今後はこのような画像処理およびセンサの特性にしたがって、情報の信頼性を評価し、それに応じて最適な解を選択するような位置合わせ手法を検討することが重要といえる。
【００９３】
また、本手法によって求められる座標変換は座標軸の直交性を保持していないため、仮想空間に不自然な変形が施される場合がある。このような状況への対処も今後の課題といえる。
【００９４】
【発明の効果】
以上説明したように、本発明によれば、３つのランドマークによって、位置姿勢を正確に検出することができる。
【図面の簡単な説明】
【図１】実施形態に位置姿勢検出装置において、１つの視点と３つのランドマークとの配置関係を説明する図。
【図２】Ｚ＝０でない任意の平面に一般化したときの補正の手法を説明する図。
【図３】実施形態の装置の構成を説明する図。
【図４】２つの視点位置と１つのランドマークとの関係を説明する図。
【図５】ランドマークを３点用いる場合におけるカメラパラメータを決定する原理を説明する図。
【図６】ランドマークを２点を用い、一点を仮想する場合におけるカメラパラメータを決定する原理を説明する図。
【図７】ランドマークを１点用い、２点を仮想する場合におけるカメラパラメータを決定する原理を説明する図。
【図８】本発明の実施例を用いた実験に用いられた物体の斜視図。
【図９】３点のランドマークをステレオカメラを用いて行った実験で実験対象物の上に仮想図形とが重なって表示されることを説明する図。
【図１０】３点のランドマークを、単眼カメラと三次元センサとを用いて行った実験で実験対象物の上に仮想図形とが重なって表示されることを説明する図。
【図１１】２点のランドマークを、ステレオカメラと三次元センサとを用いて行った実験で実験対象物の上に仮想図形とが重なって表示されることを説明する図。
【図１２】三次元センサのみを用いて行った実験で実験対象物の上に仮想図形とが重なって表示されることを説明する図。
【図１３】データＡについて、条件ａ乃至ｊと変えていったときの夫々において発生した位置ずれを説明する図。
【図１４】データＢについて、条件ａ乃至ｊと変えていったときの夫々において発生した位置ずれを説明する図。
【図１５】データＣについて、条件ａ乃至ｊと変えていったときの夫々において発生した位置ずれを説明する図。

Claims

既知の３次元世界座標を有し、同一直線上にない３つのランドマークの画像をカメラを用いて取得し、
前記画像から前記３つのランドマークの画像座標(x₁, y₁), (x₂, y₂), (x₃, y₃)を夫々取得し、
前記３つのランドマークの奥行き情報z₁, z₂, z₃を夫々取得し、
前記３つのランドマークの夫々について取得された画像座標と奥行き情報から、

で表される行列Ｕ’を求め、
前記３つのランドマークの座標をＺ＝０平面上に拘束した座標(X_W1, Y_W1,0)、(X_W2, Y_W2,0)、(X_W3, Y_W3,0)から、

で表される行列Ｗ’を求め、

で表される、３×３の射影変換行列Ｃ’を演算し、
この射影変換行列Ｃ’と、前記カメラの焦点距離ｆとから、前記３つのランドマークがＺ＝０平面上に存在する場合の、世界座標系Q _Wi =(X _Wi , Y _Wi , Ｚ _Wi , １ )からカメラ座標系q _i =(x _i , y _i )への３×４の射影変換行列であるカメラパラメータＣ、

（ h _i は媒介変数）
を求めることを特徴とする視点位置姿勢の決定方法。
前記３つのランドマークの奥行き情報を、単眼カメラと該カメラに設けられた位置姿勢センサの出力とに基づいて検出することを特徴とする請求項１に記載の視点位置姿勢の決定方法。
前記カメラはステレオカメラであり、
前記３つのランドマークの奥行き情報を、前記ステレオカメラによって撮影された画像と三次元位置姿勢センサの出力とによって求めることを特徴とする請求項１に記載の視点位置姿勢の決定方法。
前記カメラはステレオカメラであり、
前記３つのランドマークの奥行き情報を、前記ステレオカメラによって撮影された画像から求めることを特徴とする請求項１に記載の視点位置姿勢の決定方法。
前記奥行き情報を、前記ステレオカメラによって撮影された画像の対応点間の視差情報から求めることを特徴とする請求項４に記載の視点位置姿勢の決定方法。
前記画像から前記３つ全てのランドマークの画像座標を取得できない場合は、該取得できないランドマークの画像座標および奥行き情報を推定することを特徴とする請求項１に記載の視点位置姿勢の決定方法。
既知の３次元世界座標を有し、同一直線上にない３つのランドマークの画像を取得するカメラと、
前記画像から前記３つのランドマークの画像座標を夫々取得する手段と、
前記３つのランドマークの奥行き情報を夫々取得する手段と、
前記３つのランドマークの夫々について取得された画像座標と奥行き情報から、請求項１記載の方法により前記カメラパラメータを演算する手段とを具備することを特徴とするカメラ装置。
コンピュータ装置が実行可能なコンピュータプログラムを格納したコンピュータ装置読み取り可能な記録媒体であって、前記コンピュータプログラムが、
既知の３次元世界座標を有し、同一直線上にない３つのランドマークの画像を取得する工程と、
前記画像から前記３つのランドマークの画像座標(x₁, y₁), (x₂, y₂), (x₃, y₃)を夫々取得する工程と、
前記３つのランドマークの奥行き情報z₁, z₂, z₃を夫々取得する工程と、
前記３つのランドマークの夫々について取得された画像座標と奥行き情報から、

で表される行列Ｕ’を求め、
前記３つのランドマークの座標をＺ＝０平面上に拘束した座標(X_W1, Y_W1,0)、(X_W2, Y_W2,0)、(X_W3, Y_W3,0)から、

で表される行列Ｗ’を求め、

で表される、３×３の射影変換行列Ｃ’を演算する工程と、
この射影変換行列Ｃ’と、前記カメラの焦点距離ｆとから、前記３つのランドマークがＺ＝０平面上に存在する場合の、世界座標系Q _Wi =(X _Wi , Y _Wi , Ｚ _Wi , １ )からカメラ座標系q _i =(x _i , y _i )への３×４の射影変換行列であるカメラパラメータＣ、

（ h _i は媒介変数）
を求める工程とを有することを特徴とする記録媒体。