JP6946912B2

JP6946912B2 - 推定プログラム、推定装置、及び推定方法

Info

Publication number: JP6946912B2
Application number: JP2017195787A
Authority: JP
Inventors: 厚憲茂木; 吉武　敏幸; 敏幸吉武
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2017-10-06
Filing date: 2017-10-06
Publication date: 2021-10-13
Anticipated expiration: 2037-10-06
Also published as: JP2019070898A

Description

本発明は、推定プログラム、推定装置、及び推定方法に関する。

近年、拡張現実（Augmented Reality,ＡＲ）技術を用いて画像を表示するシステムが普及してきている。ＡＲ技術の一例では、パーソナルコンピュータ（ＰＣ）、携帯端末装置等に搭載したカメラを用いて物体が撮影され、物体の画像から３次元空間内におけるカメラの位置及び姿勢が推定される。そして、決定されたカメラの位置及び姿勢を基準にして、画像中の任意の位置にコンテンツ情報が重畳表示される。

重畳表示するコンテンツ情報としては、物体の３次元形状を表すComputer-Aided Design（ＣＡＤ）データが使用される。カメラの位置・姿勢を決定するためには、ＣＡＤデータの三次元線分と、撮影された画像中の対象物において対応する線分とのペアが、少なくとも４ペア用いられる。

第１の技術として、立体構造物とモデル情報が表すモデルとを比較する技術がある（例えば、特許文献１）。第１の技術では、コンピュータは、撮像装置により立体構造物を撮像した撮像画像から抽出されたエッジ線と、その立体構造物のモデル情報が表すモデル画像に含まれる稜線とを、選択可能な状態で表示する。次に、コンピュータは、重ね合わせる対象のエッジ線と稜線とを示す選択指示を受け付ける。そして、コンピュータは、受け付けた選択指示に応じて、重ね合わせる対象のエッジ線と稜線とが重なるようにモデル画像を撮像画像に重畳した重畳画像を表示する。

また、第２の技術として、３次元物体画像をＰＣに取り入れ、コンピュータグラフィックスに用いるとき、その幾何学的な形状と表面の色や模様とを含むテクスチャを貼り付けるテクスチャマッピング技術がある（例えば、特許文献２）。

また、第３の技術として、単一の光源を用いて物体の撮影を行うことにより得られた画像から、撮影時の光源の方向と物体の３次元形状とを推定する技術がある（例えば、特許文献３）。

また、第４の技術として、撮像されたデジタル画像の特徴点から計算された特徴量と、データベース中に登録された文書・画像の特徴点から求められた特徴量とを比較して、撮像されたデジタル画像に対応する文書・画像をデータベースから検索する技術がある（例えば、特許文献４）。特許文献４では、検索装置は、撮像されたデジタル画像から複数の特徴点を抽出する。検索装置は、抽出された各特徴点に対して局所的な特徴点の集合を決定する。検索装置は、決定された各集合から特徴点の部分集合を選択する。検索装置は、選択された各部分集合を特徴付ける量として、部分集合中の特徴点の複数の組合せに基づいて、幾何学的変換に対する不変量をそれぞれ求める。検索装置は、求めた各不変量を組み合わせて特徴量を計算する。検索装置は、対応する特徴量が予め求められたデータベース中の文書・画像に対して投票を行う。これにより、検索装置は、撮像されたデジタル画像に対応するデータベース中の文書・画像を検索する。

さらに、例えば、非特許文献１〜非特許文献９の技術もある。

特開２０１７−９１０７８号公報特開２００３−６７７７５号公報特開２００１−８４３６２号公報ＷＯ２００６／０９２９５７号特開２０１５−１１８６４１号公報

H. Uchiyama and H. Saito, "Random dot markers," 2011 IEEE Virtual Reality Conference, pp.35-38. R. G. Gioi et al., LSD: a Line Segment Detector, Image Processing On Line, 2 (2012), pp. 35-55. H. Uchiyama et al., "Toward augmenting everything: Detecting and tracking geometrical features on planar objects," 10th IEEE International Symposium on Mixed and Augmented Reality(ISMAR), pp.17-25, Oct. 2011. L. G. Robert et al., "Machine perception of three-dimensional solids," MIT Lincoln Lab. Rep. TR3315, pp. 1-82, May 1963. B. G. Baumgart, "A polyhedron representation for computer vision," Proceedings of the May 19-22, 1975, national computer conference and exposition, pp.589-596. C. Xu et al., "Pose Estimation from Line Correspondences: A Complete Analysis and a Series of Solutions," IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol.39, No.6, pp.1209-1222, June 2017. Z. Zhang, "A Flexible New Technique for Camera Calibration," IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol.22, No.11, pp.1330-1334, Nov. 2000. Bruce G. Baumgart,"A polyhedron representation for computer vision", Proceedings of the May 19-22, 1975, national computer conference and exposition, pp.589-596, 1975 E. Rublee et al., "ORB: an efficient alternative to SIFT or SURF," In Proc. of IEEE International Conference on Computer Vision, pp.2564-2571, 2011.

カメラの位置及び姿勢を推定する場合において、カメラにより撮影した物体の画像と、その物体のＣＡＤデータとを対応付ける場合、例えば、第１の技術では次の処理が行われている。撮像画像から抽出されたエッジ線と、その物体のモデル情報（ＣＡＤモデル）が表すモデル画像に含まれる稜線とを重ね合わせるために、撮像画像内の物体の姿勢に合わせて、ユーザが初期のＣＡＤモデルの姿勢（初期モデル姿勢）を調整する。

しかしながら、撮像されている対象物の姿勢が変わる度に、その対象物のＣＡＤデータからその姿勢に対応する線分を算出して対応する線分ペアを探索する場合、探索対象となる線分ペアの候補に際限がなく、演算処理の負担が大きくなる。

本発明の一側面として、対象物の画像と物体の形状情報との対応付け処理にかかる計算量を削減する技術を提供する。

一態様によれば、推定プログラムは、コンピュータに、対象物を撮影した撮像画像を取得し、記憶部から、複数の視点のいずれかから観察される物体の姿勢毎に、該姿勢を表す姿勢情報と、該姿勢情報に対応する視点から観察された該物体の画像を示す視点画像と、該視点画像から抽出された複数の特徴点を用いて算出される該視点画像の特徴量とを関連付けた情報である複数の初期姿勢候補情報を取得し、前記撮像画像の特徴量と前記複数の初期姿勢候補情報の特徴量とを照合し、照合結果に基づいて該複数の初期姿勢候補情報から、前記撮像画像に写っている前記対象物の姿勢に類似する姿勢の姿勢情報を含む初期姿勢候補情報を抽出し、抽出した前記初期姿勢候補情報に対応する姿勢の物体が観察される視点の位置に基づいて、前記物体の形状情報から得られる線分を絞り込み、絞り込んだ前記線分と前記撮像画像から検出される特徴線とを対応付け、対応付け結果に基づいて、前記対象物の画像から３次元空間内における該対象物に対する視点の位置及び方向を推定する、処理を実行させる。

本発明の一側面として、対象物の画像と物体の形状情報との対応付け処理にかかる計算量を削減することができる。

物体の画像の例を示している。図１の物体の形状を表すＣＡＤデータのモデルの初期の姿勢（初期モデル姿勢）の例を示す図である。図１の画像から検出されたエッジ線と、図２の初期モデル姿勢の輪郭線との対応付けの例を示す図である。画像中の物体の姿勢と初期モデル姿勢との関係を示す図である。本実施形態における推定装置の一例を示す図である。本実施形態の全体の処理フローを示す図である。本実施形態における初期モデルの推定処理を説明するための図である。本実施形態（実施例１）における推定装置のブロック図である。本実施形態（実施例１）におけるＣＡＤデータのデータ構造例を示す図である。本実施形態（実施例１）におけるＣＡＤ画像ＤＢの生成処理のフローチャートを示す図である。正八面体上の視点の例を説明するための図である。本実施形態（実施例１）における複数の初期モデル姿勢候補のそれぞれから生成したＣＡＤ画像の一例を示す図である。本実施形態（実施例１）におけるＣＡＤ画像からの交点抽出例を示す図である。本実施形態（実施例１）におけるＬＬＡＨの計算を説明するための図である。本実施形態（実施例１）におけるＣＡＤ画像ＤＢの一例を示す図である。本実施形態（実施例１）における画像処理の具体例を示すフローチャートである。本実施形態（実施例１）における初期モデル姿勢推定処理（Ｓ２４）のフローを示す図である。画像内の四角形の指定領域の例を示す図である。本実施形態（実施例１）における撮像画像から特徴線の交点を抽出することについて説明するための図である。図１８に示した画像の領域に写っている物体のＣＡＤデータから検出された候補線の例を示す図である。図２０に示した候補線から隠線を除去した後の残りの候補線の例を示す図である。本実施形態（実施例１）における物体の外周を表す候補線の例を示す図である。本実施形態（実施例１）における対応ペアの例を示す図である。本実施形態（実施例１）における投影線と特徴線との間の領域の面積に基づく計算方法の例を示す図である。本実施形態（実施例１）における投影線と特徴線との間の距離に基づく計算方法の例を示す図である。１８０度回転した線分の例を示す図である。パラメータの計算に適していない候補線の例を示す図である。本実施形態（実施例１）における誤差の算出について説明するための図である。本実施形態における推定装置として用いられるコンピュータの構成例を示す図である。

以下、図面を参照しながら、実施形態を詳細に説明する。
図１は、物体の画像の例を示す図である。図２は、図１の物体の形状を表すＣＡＤデータのモデルの初期の姿勢（初期モデル姿勢）の例を示す図である。図３は、図１の画像から検出されたエッジ線と、図２の初期モデル姿勢の輪郭線との対応付けの例を示す図である。

まず、携帯端末装置等の推定装置は、図３（ａ）に示すように、エッジ検出処理を行って、画像からエッジ線を検出する。次に、図３（ｂ）に示すように、推定装置は、初期モデル姿勢のＣＡＤデータが表す輪郭線と、検出したエッジ線とを画像中に表示する。ユーザは、エッジ線及び輪郭線をマウス等で選択することで、それらの線同士を対応付ける。カメラの位置及び姿勢を求めるためには、最低限４個の対応ペアを用いることが望ましい。

次に、推定装置は、対応付けられたエッジ線及び輪郭線の組み合わせを用いて、カメラの位置及び姿勢を計算する。そして、図５（ｃ）に示すように、推定装置は、計算したカメラの位置及び姿勢に合わせて、ＣＡＤデータが表す輪郭線を物体の画像に重畳表示する。
このような対応付け方法によれば、以下のような問題が発生すると考えられる。

図４は、画像中の物体の姿勢と初期モデル姿勢との関係を示す図である。ＣＡＤデータのモデルの姿勢は、ＣＡＤデータにより表される物体を撮像するカメラの位置に応じて決定される。

図３（ｂ）において、ユーザは、まず初期モデル姿勢１０１を固定値に設定し、カメラの位置を移動させる。次に、ユーザは、対象物の姿勢１０２に一致するように、タッチ操作やマウス操作等で初期モデル姿勢１０１を動かす。このとき、対象物の姿勢１０２と初期モデル姿勢１０１とが合致していると、エッジ線及び輪郭線を対応づけることができる（図４（ａ））。一方、対象物の姿勢１０２と初期モデル姿勢１０１とが合致していないと、エッジ線及び輪郭線を対応づけることができない（図４（ｂ））。

そこで、第1の技術では、撮像画像から抽出されたエッジ線とＣＡＤデータが表す輪郭線（線分）との対応付けにおいて、画像中の対象物の姿勢１０２に応じて、初期モデル姿勢１０１を手動で調整している。

しかしながら、撮像画像内の物体の姿勢に合わせて初期モデル姿勢を手動で調整するには手間も時間もかかる。一方で、その調整が行われないと、線分ペアを形成する場合に誤った対応付けをして線分ペアを形成する可能性がある。

また、撮像されている対象物の姿勢が変わる度に、その対象物のＣＡＤデータからその姿勢に対応する線分を算出して対応する線分ペアを探索する場合、その探索する線辺ペアを探索する候補に際限がなく、演算処理の負担が大きくなる。

そこで、本実施形態では、対象物を撮像した画像から、その対象物のＣＡＤデータの初期モデル姿勢を推定する。これにより、撮像画像から抽出されたエッジ線とＣＡＤデータが表す輪郭線（線分）との対応付けを簡略することで、その対応付けの時間の削減及びユーザビリティの向上、誤った重畳表示の防止を実現する。

図５は、本実施形態における推定装置の一例を示す図である。推定装置１は、記憶部２、画像取得部３、照合部４、絞込部５、対応付け部６、推定部７を含む。推定装置１の一例として、後述する推定装置２１が挙げられる。

記憶部２は、複数の初期姿勢候補情報９を格納する。記憶部２の一例としては、後述する記憶部３３が挙げられる。初期姿勢候補情報９は、複数の視点のいずれかから観察される物体の姿勢毎に、姿勢情報と、視点画像と、視点画像の特徴量とを関連付けた情報である。姿勢情報は、物体の姿勢を表す。視点画像は、該姿勢情報に対応する視点から観察された該物体の画像を示す。姿勢画像の特徴量は、該視点画像から抽出された複数の特徴点を用いて算出される。初期姿勢候補情報９の一例として、後述するＣＡＤ画像ＤＢ１１が挙げられる。

画像取得部３は、対象物を撮影した撮像画像を取得する。画像取得部３の一例として、後述する画像取得部２５が挙げられる。

照合部４は、撮像画像の特徴量と複数の初期姿勢候補情報の特徴量とを照合し、照合結果に基づいて複数の初期姿勢候補情報９から、撮像画像に写っている対象物の姿勢に類似する姿勢の姿勢情報を含む初期姿勢候補情報を抽出する。照合部４の一例として、後述する姿勢推定部２７が挙げられる。

絞込部５は、照合部４が抽出した初期姿勢候補情報に対応する姿勢の物体が観察される視点の位置に基づいて、物体の形状情報から得られる線分を絞り込む。絞込部５の一例として、後述する候補線抽出部２４が挙げられる。

対応付け部６は、絞り込んだ前記線分と前記撮像画像から検出される特徴線とを対応付ける。対応付け部６の一例として、後述する生成部２８が挙げられる。

推定部７は、対応付け結果に基づいて、前記対象物の画像から３次元空間内における該対象物に対する視点の位置及び方向を推定する。

このように構成することにより、対象物の画像と物体の形状情報との対応付け処理にかかる計算量を削減することができる。

初期姿勢候補情報９は、物体を取り囲む多面体の頂点及び面の中心に視点を配置した場合に視点のそれぞれから観察される該物体の姿勢に関する情報である。初期姿勢候補情報９の数は、多面体の頂点及び面の中心の数に対応する。

このように構成することにより、多面体の頂点及び面の増加に応じて視点数が増えると、初期モデル姿勢候補も増加し精度が高まると共に，撮像する視点の位置の間隔を均等にすることができる。

候補線抽出部２４は、さらに、生成部８を含む。生成部８は、物体の形状情報に基づいて、物体を取り囲む多面体の頂点及び面の中心に視点を配置した場合に視点のそれぞれから観察される物体の姿勢に関する複数の初期姿勢候補情報を生成する。

このように構成することにより、物体の形状情報から、異なる姿勢毎の初期姿勢候補情報を生成することができる。

特徴量は、視点画像または撮像画像から抽出した特徴線の交点それぞれについて、交点それぞれの周囲にある複数の交点に関して幾何学的変換に対する不変量を算出することにより得られる各交点の特徴量である。照合部４は、視点画像から抽出した特徴線の交点の特徴量と撮像画像から抽出した特徴線の交点の特徴量とが一致する交点の数を計測し、一致する交点の数が最も多い姿勢情報を初期姿勢情報として推定する。

このように構成することにより、画像の特徴量を算出することができるので、その特徴量に基づいて、撮像画像中の対象物の初期姿勢情報を推定することができる。

姿勢情報は、回転成分を含む３次元座標系で表される。後述するように、姿勢情報には、少なくとも回転成分を含んでおけばよい。

ここで、上記の特徴量に関して詳述する。幾何学的変換の歪みによらない画像の特徴量を得るため、幾何学的変換に対する不変量を用いて特徴量が計算される。「不変量」とは、幾何学的変換を受けても変化しない量の総称である。幾何学的変換の一例は回転であり、画像を回転させても、画像中に映っている図形の面積は変化しない。図形の面積は回転に対する不変量の例である。また、辺の長さの比は、拡大縮小に対する不変量の例である。幾何学的変換には、回転や拡大縮小などの相似変換のほかに射影変換やアフィン変換がある。

本実施形態では、不変量の一例として、複比を用いる。複比は、直線上の４点または平面上の５点から求められる値で、幾何学的変換の一種である射影変換に対する不変量として知られている。複比を用いるためには、対象とする画像の特徴を点（特徴点）で表す。

特徴点の可能な対応付けを全て試すことは、組み合わせ爆発が生じるため現実的ではない。そこで、本実施形態では、ハッシュを用いた投票を導入し、特徴点の対応を陽に取らずに検索を行う。登録時には、まず画像から特徴点を求めて特徴量を計算し、そこからインデックスを求めてハッシュに登録する。検索時には、検索質問から同様の処理で特徴点、特徴量、インデックスを求めてハッシュにアクセスし、登録されている文書・画像に対して投票を行うことで検索する。

なお、「投票」とは、情報処理の分野で部分的に証拠を集計するために用いる処理であって、得られた証拠に基づいて選択肢の何れかに得点を与え、すべての証拠を集計した結果最高得点を得た選択肢を選択する処理をいう。一般的に各証拠は異なる点数の票を持つ。また、「検索質問」とは、情報検索において、ユーザの検索要求を表すデータをいう。本実施形態の場合には、ユーザは画像を検索質問として入力する。即ち、ユーザは、「この画像と同じものをデータベースより取り出せ」という意味で画像を入力する。

本実施形態では、ある点に着目してその点の近傍ごとに特徴量を定義する。即ち、ある点の近傍ｎ個の点を取り出す。さらに、ｎ個の点からｍ個の点（複比の単位とする点の数、４または５＜ｍ＜ｎ）を取り出せば、幾何学的変換を受けても互いに対応する点の近傍ｎ個のうちｍ個の点が一致するような組合せが存在すると考える。この場合、全ての点についてその近傍ｎ個のうちｍ個の点の組み合わせを全て試すようにする。ｎ、ｍの値を適当に選択することにより、計算量の爆発を回避することができる。

さらに、ｍ個の点から４または５個の点を選んで複比を計算すると、いくつかの複比が他の画像と同じになっても、全ての複比が一致することは非常に稀になる。その結果、精度よく同一性が判定できる。

図６は、本実施形態の全体の処理フローを示す図である。図７は、本実施形態における初期モデルの推定処理を説明するための図である。まず、推定装置１は、物体のＣＡＤデータに基づいて、初期モデル姿勢の候補データが格納されるＣＡＤ画像データベース（以下、データベースを「ＤＢ」と称する。）１１を生成する（Ｓ１）。

ＣＡＤ画像ＤＢ１１には、その物体を複数の視点から観察した場合の各視点から観察された物体の姿勢を表すＣＡＤモデルの画像（ＣＡＤ画像）と、その時のＣＡＤモデルの位置姿勢（Ｒi：回転成分、Ｔi：並進成分）が格納される。ここで、視点とは、上述のカメラに相当する。

ＣＡＤ画像ＤＢ１１には、さらに、ＣＡＤ画像内のＣＡＤモデルの姿勢の候補（初期モデル姿勢候補）を特定するための特徴量ｆが格納される。ここで、推定装置１は、例えば、ＣＡＤ画像から対象物の輪郭線を延長した直線同士の交点を算出する。それから、推定装置１は、各交点ｐの近傍にあるｎ個の交点を局所的な集合として決定し、各集合からｍ個の交点を選択する各組合せに対して特徴量ｆを計算する。

次に、推定装置１は、対象物が撮像された撮像画像１２を取得する（Ｓ２）。推定装置１は、初期モデル姿勢推定処理を行う（Ｓ３）。Ｓ３では、推定装置１は、ＣＡＤ画像ＤＢ１１から撮像画像１２中の対象物の姿勢に最も近いＣＡＤ画像を探し、そのＣＡＤ画像におけるモデル位置姿勢を初期モデル姿勢と決定する。

Ｓ３では、推定装置１は、まず、ＣＡＤ画像ＤＢ１１に格納された各初期モデル姿勢候補の特徴量と、撮像画像に含まれる対象物の画像部分の特徴量とのマッチングを行う（Ｓ３−１）。ここで、推定装置１は、例えば、撮像画像から対象物の輪郭線を延長した直線同士の交点を算出する。それから、推定装置１は、各交点ｐの近傍にあるｎ個の交点を局所的な集合として決定し、各集合からｍ個の交点を選択する各組合せに対して特徴量ｆを計算する。推定装置１は、撮像画像と初期モデル姿勢候補との間で、特徴量が一致する交点の数を計測する。

推定装置１は、マッチングした交点数を類似度として算出する。推定装置１は、ＣＡＤ画像ＤＢ１１に格納された初期モデル姿勢候補から、撮像画像に含まれる対象物の姿勢と類似度が最も高いものを初期モデル姿勢１３として決定する（Ｓ３−２）。

推定装置１は、初期モデル姿勢１３の物体の形状情報に含まれる複数の輪郭線（候補線）のうち、物体を観察した視点から観察される複数の候補線を抽出する（Ｓ４）。

次に、推定装置１は、観察される複数の候補線のうち所定数の候補線それぞれと、画像から検出した複数の特徴線のうち所定数の特徴線それぞれとを対応付けた、所定数の組み合わせを表す対応付け情報を複数個生成する（Ｓ５）。そして、推定装置１は、複数個の対応付け情報それぞれの誤差に基づいて対応付け結果を決定する（Ｓ６）。

推定装置１は、対応付け結果に基づいて、対象物の画像から３次元空間内における対象物に対する視点の位置及び方向（カメラの位置及び姿勢）を推定する（Ｓ７）。

本実施形態について、以下に詳述する。
図８は、本実施形態（実施例１）における推定装置のブロック図である。推定装置２１は、ＣＡＤデータ読込部２２、ＣＡＤ画像ＤＢ生成部２３、候補線抽出部２４、画像取得部２５、特徴検出部２６、姿勢推定部２７、生成部２８、位置計算部２９、誤差計算部３０、決定部３１、出力部３２、及び記憶部３３を含む。

推定装置２１は、タブレット、ノート型ＰＣ、スマートデバイス等の携帯端末装置であってもよく、デスクトップ型ＰＣ等のコンピュータであってもよい。

記憶部３３は、撮像画像１２、ＣＡＤデータ４１、ＣＡＤ画像ＤＢ１１、特徴線４３、候補線４４、対応ペア４５、パラメータ４６、指標４７、パラメータ４８等を記憶する。

ＣＡＤデータ４１は、物体の３次元形状を表す複数の頂点の頂点情報と、複数の線分の線分情報とを含む。頂点情報は、物体の各頂点の３次元座標を含み、線分情報は、各線分の両端の頂点を示す識別情報を含む。

ＣＡＤ画像ＤＢ生成部２３は、ＣＡＤデータ４１により表される物体を複数の撮像位置のそれぞれから観察した場合の物体の位置姿勢を示す値（姿勢値）の候補（初期モデル姿勢候補）を決定する。ＣＡＤ画像ＤＢ生成部２３は、レンダリングプログラムを用いて、その決定した初期モデル姿勢候補それぞれのＣＡＤ物体の画像の画像（ＣＡＤ画像）を生成する。ＣＡＤ画像ＤＢ生成部２３は、生成したＣＡＤ画像からエッジ（特徴線）を抽出し、そのエッジ（特徴線）を延長した直線同士の交点を抽出し、各交点の特徴量を算出する。ＣＡＤ画像ＤＢ生成部２３は、初期モデル姿勢候補の姿勢値（Ｒi，Ｔi）と、その姿勢値に対応するＣＡＤ画像と、そのＣＡＤ画像に対応する各交点の特徴量とを関係づけて、ＣＡＤ画像ＤＢ１１に格納する。

撮像装置２０は、例えば、カメラであり、物体の撮像画像１２を撮影する。画像取得部２５は、撮像装置２０から撮像画像１２を取得して、記憶部３３に格納する。

特徴検出部２６は、エッジ検出処理を行って、撮像画像１２から複数のエッジ線を検出し、検出したエッジ線を特徴線４３として記憶部３３に格納する。

姿勢推定部２７は、ＣＡＤ画像ＤＢ１１に格納された初期モデル姿勢候補の中から、撮像画像１２中の対象物に最も近い初期モデル姿勢候補を初期モデル姿勢と決定する。

候補線抽出部２４は、決定された初期モデル姿勢での物体の輪郭線を抽出し、候補線４４として記憶部３３に格納する。

生成部２８は、撮像画像１２から検出された特徴線４３のうち、所定の条件を満たす複数の特徴線を抽出する。所定の条件としては、例えば、特徴線の少なくとも一部分が撮像画像１２内の指定領域に含まれること、特徴線が撮像画像１２内の基準位置から所定距離の範囲内に存在すること等が用いられる。また、生成部２８は、初期モデル姿勢から検出された候補線４４のうち、初期モデル姿勢が観察される視点の位置及び姿勢から観察される複数の候補線を抽出する。

次に、生成部２８は、抽出した候補線のうちＮ本（Ｎは２以上の整数）の候補線それぞれと、抽出した特徴線のうちＮ本の特徴線それぞれとを対応付けた、Ｎ個の組み合わせを生成する。そして、生成部２８は、生成したＮ個の組み合わせをＮ個の対応ペア４５として記憶部３３に格納する。

位置計算部２９は、Ｎ個の対応ペア４５を用いて、撮像画像１２を撮影したときの撮像装置２０の位置及び姿勢を計算し、計算した位置及び姿勢をパラメータ４６として記憶部３３に格納する。

このとき、位置計算部２９は、撮像装置２０の位置及び姿勢を表す変数を所定値ずつ変更しながら、各対応ペアに含まれる候補線を撮像画像１２上に投影することで、投影線を生成する。

誤差計算部３０は、位置計算部２９が生成した投影線の位置と、その対応ペアに含まれる特徴線の位置との間のずれを表す誤差を計算する。そして、位置計算部２９は、誤差計算部３０が計算した誤差の総和が最小となる変数の値を、パラメータ４６として求める。

位置計算部２９は、Ｎ個の対応ペアの選択を変更しながら、パラメータ４６を計算する処理を複数回繰り返す。

決定部３１は、パラメータ４６が計算される度に、そのパラメータ４６が表す撮像装置２０の位置及び姿勢を用いて、位置計算部２９が選択したＮ個の対応ペアに含まれる候補線を撮像画像１２上に投影することで、Ｎ本の投影線を生成する。そして、決定部３１は、誤差計算部３０と同様にして、Ｎ本の投影線の位置とＮ本の特徴線の位置との間の誤差の総和を計算し、計算した誤差の総和を指標４７として記憶部３３に格納する。

次に、決定部３１は、それぞれのパラメータ４６を用いて計算した指標４７に基づいて、誤差の総和が最小となるＮ個の対応ペアを決定する。これらのＮ個の対応ペアは、対応付け結果に対応する。そして、決定部３１は、決定したＮ個の対応ペアを用いて、３次元空間内における撮像装置２０の位置及び姿勢を計算し、計算した位置及び姿勢をパラメータ４８として記憶部３３に格納する。出力部３２は、パラメータ４８を処理結果として出力する。

図９は、本実施形態（実施例１）におけるＣＡＤデータのデータ構造例を示す図である。ＣＡＤデータ４１は、例えば、ＯＢＪ形式のＣＡＤ物体のデータである。ＣＡＤデータ４１は、例えばＣＡＤ物体を形成する線分、すなわち３次元直線の始点及び終点で表されるＣＡＤデータ構造を格納する。図９のＣＡＤデータ構造は、直線を識別する「直線番号」４１−１、直線の始点座標を示す「始点［ｍｍ］」４１−２、直線の終点座標を示す「終点［ｍｍ］」４１−３を含む。

図１０は、本実施形態（実施例１）におけるＣＡＤ画像ＤＢの生成処理のフローチャートを示す図である。図１１は、正八面体上の視点の例を説明するための図である。図１２は、本実施形態（実施例１）における複数の初期モデル姿勢候補のそれぞれから生成したＣＡＤ画像の一例を示す図である。図１３は、本実施形態（実施例１）におけるＣＡＤ画像からの交点抽出例を示す図である。

ＣＡＤデータ読込部２２は、ＣＡＤデータ４１を読み込み、記憶部３３に格納する（Ｓ１１）。ここで、変数ｉ＝０とする（Ｓ１２）
ＣＡＤ画像ＤＢ生成部２３は、ＣＡＤデータ４１に基づいて、ＣＡＤ物体の初期モデル姿勢候補Ｋｉの位置姿勢（Ｒｉ，Ｔｉ）を決定する（Ｓ１３）。Ｓ１３では、ＣＡＤ画像ＤＢ生成部２３は、ＣＡＤ物体を取り囲むような多面体の頂点及び面の中心からＣＡＤ物体へ向くような視点の位置姿勢のいずれから初期モデル姿勢候補Ｋｉを決定する。例えば、ＣＡＤ画像ＤＢ生成部２３は、ＣＡＤ物体を正八面体（図１１）の中心に置き、正八面体の頂点及び面の中心からＣＡＤ物体に向くような視点の位置姿勢のいずれかから、初期モデル姿勢候補Ｋｉを計算する。

なお、ＣＡＤ物体を取り囲むような多面体として、正八面体ではなく別の正多面体を用いることもできる。視点数が増えると、初期モデル姿勢候補が増加し精度が高まるが、ＣＡＤ画像ＤＢ１１の容量が増え，計算の処理量も増加する。また、正多面体を使用するのは，カメラ間隔を均等にするためである。

ＣＡＤ画像ＤＢ生成部２３は、ＯｐｅｎＧＬ等のレンダリングプログラムで、初期モデル姿勢候補Ｋｉの位置姿勢（Ｒｉ，Ｔｉ）でのＣＡＤ物体の画像（ＣＡＤ画像）を描画する（Ｓ１４）。初期モデル姿勢候補Ｋｉの位置姿勢（Ｒｉ，Ｔｉ）（例えば、ｉ＝１〜６）に基づいて描画されたＣＡＤ画像の例を図１２に示す。

ＣＡＤ画像ＤＢ生成部２３は、初期モデル姿勢候補Ｋｉの位置姿勢（Ｒｉ，Ｔｉ）について生成したＣＡＤ画像のエッジを抽出し、そのエッジを延長した直線同士の交点を抽出する（Ｓ１５）。Ｓ１５では、ＣＡＤ画像ＤＢ生成部２３は、Ｓ１４で生成したＣＡＤ画像に対してエッジ抽出処理を行う。エッジ抽出処理として、例えば、非特許文献２に記載の処理を用いることが考えられる。ＣＡＤ画像ＤＢ生成部２３は、図１３に示すように、抽出したエッジを延長させ、他のエッジと交わる点を交点として抽出する。ここで、エッジを延長させる理由は、実際の撮像画像に対して同様の交点抽出をする際に，エッジが細切れになっていることがあるためである。

ＣＡＤ画像ＤＢ生成部２３は、Ｓ１５で抽出した交点のそれぞれに対して、例えばLocally Likely Arrangement Hashing（ＬＬＡＨ）による特徴量（以下、「ＬＬＡＨ特徴量」と称する）ｆiを算出する（Ｓ１６）。ＬＬＡＨは、ある特徴点の近傍に存在する複数の特徴点との位置関係の組み合わせを利用するものであり、ある程度の視点変化、交点の欠損に対応することができる。ＬＬＡＨは、点の分布に対して定義される特徴量である。

ＣＡＤ画像ＤＢ生成部２３は、各交点ｐの近傍にあるｎ個の交点を局所的な集合として決定し、各集合からｍ個の交点を選択する各組合せに対して特徴量を計算する。ここで、幾何学的変換の歪みによらない画像内のエッジで特定される形状の特徴量を得るため、幾何学的変換に対する不変量を用いて特徴量が計算される。本実施形態では、不変量の一例として、複比をとりあげる。複比は、直線上の４点または平面上の５点から求められる値で、幾何学的変換の一種である射影変換に対する不変量として知られている。

ここで、候補ＩＤは、物体の姿勢を特定する識別番号である。点ＩＤは文書ごとに各点に割り当てられる点の識別番号である。nＣmパターンＩＤはｎ点からｍ点を取り出す際の組み合わせパターンに与えられる識別番号であり、０からＣm−１の値をとる。同様にmＣ₅パターンＩＤはｍ点から５点を取り出す際の組み合わせパターンの識別番号であり、０からmＣ₅−１の値をとる。

例えば、ｍ（＝５点）から５点を取り出す場合を例に説明する。この場合、５点から５通りの複比を計算する。同一平面上の５点から得られる複比として、例えば、以下のものがある。

ここで、Ｐ（Ａ，Ｂ，Ｃ）は、頂点Ａ，Ｂ，Ｃから構成される三角形の面積である。本実施形態では、例えば、このような複比を用いて画像固有の特徴量を計算し、画像の検索を行う。

５通りの複比は、得られた５点ＡＢＣＤＥに対して、ＡＢＣＤＥ，ＢＣＤＥＡ，ＣＤＥＡＢ，ＤＥＡＢＣ，ＥＡＢＣＤというように先頭となる点を巡回させて得られるものである。

次に、ハッシュテーブルのインデックスが計算される。ハッシュ関数を以下に示す。

ここで、ｃｒ_n（ｎ＝０から４）は離散化された５通りの複比、Ｖmaxは離散化された複
比の最大値、ｐａｔは_mＣ₅パターンＩＤである。

その後インデックスを用いて（候補ＩＤ、交点ＩＤ、_nＣ_mパターンＩＤ）の組をハッシ
ュテーブルＨ１に登録する。ハッシュで衝突が起きた場合、データはリスト構造で付け加えられる。ここで、候補ＩＤだけでなく、交点ＩＤおよび_nＣ_mパターンＩＤもハッシュテーブルＨ１に登録するのは、検索時に特徴量の比較を行う際、順序付けられた複比の一致する個数を、候補ＩＤ、交点ＩＤ、_nＣ_mパターンＩＤごとに集計するためである。

図１４は、本実施形態（実施例１）におけるＬＬＡＨの計算を説明するための図である。図１４の例では、ある点ｐの周囲に存在する三角形ペアの面積比（Ａ１／Ａ２）が特徴量として計算される（例えば、非特許文献３参照。）。図１４において、点ｐの特徴量は、近傍の点数を、例えばｎ（＝７）とすると、数が_７Ｃ_ｍ、次元が_ｍＣ_４の数値列で表される。ｍはｎ個のうち使用する特徴点数で、例えば５であるとする。

このようにｍ個の点から４または５個の点を選んで複比を計算すると、いくつかの複比が他の画像と同じになっても、全ての複比が一致することは非常に稀になる。その結果、精度よく同一性が判定できる。

ＣＡＤ画像ＤＢ生成部２３は、ＣＡＤ画像ＤＢ１１に、初期モデル姿勢候補Ｋｉの位置姿勢（Ｒｉ，Ｔｉ）、その初期モデル姿勢候補に対応するＣＡＤ画像、そのＣＡＤ画像に含まれる交点毎のＬＬＡＨ特徴量ｆｉを格納する（Ｓ１７）。ＣＡＤ画像ＤＢ１１について、図１５を用いて説明する。

図１５は、本実施形態（実施例１）におけるＣＡＤ画像ＤＢの一例を示す。ＣＡＤ画像ＤＢ１１は、「ＩＤ」１１−１、「回転成分Ｒｉ」１１−２、「並進成分Ｔｉ」１１−３、「ＬＬＡＨ特徴量ｆｉ」１１−４、「ＣＡＤ画像」１１−５のデータ項目を含む。

「ＩＤ」１１−１には、初期モデル姿勢候補Ｋｉを識別する識別情報が格納される。本実施形態の例では、ＩＤ＝ｉとする。「回転成分Ｒｉ」１１−２には、ＩＤ＝ｉで特定される初期モデル姿勢候補Ｋｉの回転成分Ｒｉ（Ｒｉ_ｘ，Ｒｉ_ｙ，Ｒｉ_ｚ）が格納される。「並進成分Ｔｉ」１１−３には、ＩＤ＝ｉで特定される初期モデル姿勢候補Ｋｉの並進成分Ｔｉ（Ｔｉ_ｘ，Ｔｉ_ｙ，Ｔｉ_ｚ）が格納される。「ＬＬＡＨ特徴量ｆｉ」１１−４には、ＩＤ＝ｉで特定される初期モデル姿勢候補から抽出された交点毎のＬＬＡＨ特徴量ｆｉが格納される。ｍ＝５の場合、それぞれのＩＤに対して、ＬＬＡＨ特徴量ｆｉは、例えば_７Ｃ₅×₅Ｃ_４×（交点の数）個得られる。「ＣＡＤ画像」１１−５には、ＩＤ＝ｉで特定される初期モデル姿勢候補ＫｉのＣＡＤ画像が格納される。

Ｓ１７の処理後、ＣＡＤ画像ＤＢ生成部２３は、ｉをインクリメントする（Ｓ１８）。ＣＡＤ画像ＤＢ生成部２３は、ｉが所定の初期モデル姿勢候補数Ｊ以下の間（Ｓ１９，ＮＯ）、Ｓ１３〜Ｓ１８の処理を繰り返す。所定の初期モデル姿勢候補数Ｊは、例えば、Ｓ１３で説明した多面体の頂点及び面の中心の総数である。ｉが所定の初期モデル姿勢候補数Ｊを超えると（Ｓ１９，ＹＥＳ）、図１０のフローは終了する。

これにより、ＣＡＤ画像ＤＢ１１は予め生成される。次に、撮像画像１２から、撮像画像の対象物姿勢に対応する初期モデル姿勢を推定する処理を含む推定処理について説明する。

図１６は、本実施形態（実施例１）における画像処理の具体例を示すフローチャートである。ＣＡＤデータ読込部２２は、ＣＡＤデータ４１を読み込む（Ｓ２０）。候補線抽出部２４は、ＣＡＤデータ４１から３次元直線を検出し、図９に示すようなデータ構造を作成する（Ｓ２１）。

画像取得部２５は、撮像装置２０から撮像画像１２を取得し（Ｓ２２）、特徴検出部２６は、撮像画像１２から複数の特徴線４３を検出する（Ｓ２３）。

次に、姿勢推定部２７は、ＣＡＤ画像ＤＢ１１を用いて、撮像画像１２中の対象物の姿勢に対応する初期モデル姿勢を推定する（Ｓ２４）。Ｓ２４の詳細については、図１７を用いて説明する。

図１７は、本実施形態（実施例１）における初期モデル姿勢推定処理（Ｓ２４）のフローを示す図である。まずユーザは、撮像画像１２中の対象物の存在範囲を指定する四角形状の指定領域を用いて、画像中の左上座標・右下座標を指定する（Ｓ２４−１）。すると、姿勢推定部２７は、その指定された指定領域の内部で、対象物を示す画像部分のエッジ（特徴線）を抽出する。Ｓ２４−１について、図１８を用いて説明する。

図１８は、撮像画像１２内の四角形の指定領域の例を示す図である。撮像画像１２内においてユーザにより四角形の指定領域５１が指定された場合、特徴検出部２６は、指定領域５１内に一部分又は全体が含まれる特徴線を抽出する。

図１９は、本実施形態（実施例１）における撮像画像から特徴線の交点を抽出することについて説明するための図である。姿勢推定部２７は、図１９に示すように、指定領域５１内で抽出された各エッジを延長して、エッジ同士の交点を抽出する（Ｓ２４−２）。Ｓ２４−２の処理は、Ｓ１５及び図１３で説明した処理と同様の処理である。

姿勢推定部２７は、ＬＬＡＨ特徴量ｆｑを各交点に対して計算する（Ｓ２４−３）。Ｓ２４−３の処理は、Ｓ１６及び図１４で説明した処理と同様の処理である。姿勢推定部２７は、Ｓ１６で説明した方法によりハッシュテーブルにおいてハッシュのインデックスを求め、同様のハッシュテーブルＨ２を得る。

姿勢推定部２７は、ＬＬＡＨ特徴量ｆｉ及びＬＬＡＨ特徴量ｆｑを用いた各交点のマッチングにより、ＣＡＤ画像ＤＢ１１に格納された初期モデル姿勢候補から、特徴量が一致する交点数が最も多いものを類似度が最大となる候補として特定する（Ｓ２４−４）。

Ｓ２４−４では、姿勢推定部２７は、撮像画像１２とＣＡＤ画像１枚について，撮像画像中の交点に対応するＣＡＤ画像中の交点を検索する。姿勢推定部２７は、対応付いた交点の数を保存し，他のＣＡＤ画像でも繰り返す（特許文献４参照。）。

より具体的には、姿勢推定部２７は、Ｈ１，Ｈ２を用いて一定数Ｌ以上の複比が順序も含めて一致しているかどうかを調べ一致しているものについて一致する交点数を計測する。Ｌの好適な値を決定するためには、_mＣ_nの制約条件の下、複数の適当な値を選んで予備的な実験を行い、検索結果の正解と不正解との比が大きい値をＬの値として決定すればよい。

以上の処理により、姿勢推定部２７は、最終的に一致する交点数の最も多い候補ＩＤに対応する初期モデル指定候補を、類似度が最大となる候補として特定する。

姿勢推定部２７は、最も対応付いた交点の数が多いＣＡＤ画像の初期モデル姿勢候補を初期モデル姿勢として決定する（Ｓ２４−５）。

図１６の説明に戻る。初期モデル姿勢推定処理（Ｓ２４）の終了後、候補線抽出部２４は、決定された初期モデル姿勢から候補線を抽出する（Ｓ２５）。Ｓ２５では、まず、候補線抽出部２４は、選択された初期モデル姿勢に従ってＣＡＤデータを座標変換する。ここでは、Ｓ２１で検出した３次元直線を用いる。候補線抽出部２４は、非特許文献４に記載された方法によりＣＡＤデータの座標情報から、３次元直線のうち視点の裏側に存在する線（隠線）を除去する。候補線抽出部２４は、ＣＡＤデータの座標情報から、３次元直線のうち外周に存在する線（外周線）を抽出する。ここで、隠線以外の線を用いる場合と、外周線のみ用いる場合が有り得る。Ｓ２５については、図２０〜図２２を用いて詳述する。

図２０は、図１８に示した撮像画像１２の領域５１に写っている物体のＣＡＤデータ４１から検出された候補線４４の例を示す図である。この例では、２５本の候補線４４が検出されている。

図２１は、図２０に示した候補線４４から隠線を除去した後の残りの候補線の例を示す図である。２５本の候補線４４のうち１１本の隠線を除去することによって、１４本の候補線が抽出されている。

候補線抽出部２４は、残りの候補線のうち物体の外形エッジを表す候補線を抽出してもよく、さらに、外形エッジを表す候補線のうち物体の外周を表す候補線を抽出してもよい。物体の外周を表す候補線は、物体の輪郭線を表しており、コンピュータグラフィックス（ＣＧ）における境界表現（Boundary Representations）の技術を用いることで、検出することが可能である。

例えば、非特許文献８に開示されているように、境界表現の１つであるウィングドエッジ（Winged-Egde）構造のデータには、輪郭線とそれを形成する頂点及び面を表す情報と、他の輪郭線との接続関係を表す情報とが含まれている。これらの情報に基づいて、ＣＡＤデータから検出された各候補線が外周に対応するか否かを判定することができる。

撮像画像１２から検出される特徴線４３が輪郭線である場合、物体と背景との境界線が特徴線４３として検出される。物体と背景は物理的に離れているため、太陽、照明等の光の当たり方が異なっていたり、材質又は色が異なっていたりすることが多い。このため、より明瞭な特徴線が検出されやすく、特徴線の位置の精度も高くなる。また、輪郭線を表す対応ペアを多数生成することで、撮像画像１２内における対応ペアの分布範囲が広くなり、パラメータ４８の計算精度の向上に寄与すると考えられる。

図２２は、本実施形態（実施例１）における物体の外周を表す候補線の例を示す図である。図２２において太線で示す８本の候補線が外周を表す候補線として抽出される。

候補線抽出部２４は、図２１〜図２２に示した候補線の中から、撮像画像１２上に投影した際に所定長よりも長いものを選択して使用してもよい。投影線が長い場合、物体の形状を表す輪郭線自体が長いため、より長い特徴線と対応付けられる可能性が高い。また、長い特徴線ほど、その信頼性も高いと考えられる。さらに、撮像装置２０の位置及び姿勢の計算において、投影線と特徴線がともに長いほど、投影線と特徴線との間の誤差の計算精度が向上するため、パラメータ４８の計算精度も向上する。

次に、生成部２８は、Ｎ本の候補線とＮ本の特徴線とを対応付けたＮ個の対応ペア４５を生成する（Ｓ２６）。ここでは、生成部２８は、対応ペアの直線を選択する。生成部２８は、ランダムで、画像中のエッジ４本とＣＡＤデータの候補直線から４本を選択する。なお、生成部２８は、線分を長い順にソートし、優先的に長い線を選択しても良い。これにより、後の姿勢推定の安定性が向上する。

位置計算部２９は、生成した対応ペア４５を用いて撮像装置２０の位置及び姿勢（パラメータ４６）を計算する（Ｓ２７）。位置計算部２９は、例えば非特許文献６に記載の方法により、モデルに対する撮像装置２０の位置及び姿勢（Ｒ’，Ｔ’）を算出する。

図２３は、本実施形態（実施例１）における対応ペアの例を示す図である。この例では、候補線１７１１〜候補線１７１４が特徴線１７０１〜特徴線１７０４とそれぞれ対応付けられて、４個の対応ペアが生成されている。

Ｓ２７において、位置計算部２９は、例えば、最小二乗法を用いてパラメータ４６を計算することができる。この場合、位置計算部２９は、撮像装置２０の位置及び姿勢を表す変数を所定値ずつ変更しながら、各対応ペアに含まれる候補線を撮像画像１２上に投影することで、投影線を生成する。

誤差計算部３０は、投影線の位置と、その対応ペアに含まれる特徴線の位置との誤差Ｅｉ（ｉ＝１〜Ｎ）を評価し、Ｎ個の対応ペアに対する二乗誤差の総和Ｅが最小となる変数の値を、パラメータ４６として求める。二乗誤差の総和Ｅは、次式により計算される。

誤差計算部３０は、例えば、図２４又は図２５に示すような方法で、誤差Ｅｉを計算することができる。図２４は、本実施形態（実施例１）における投影線と特徴線との間の領域の面積に基づく計算方法の例を示す図である。ｉ番目の対応ペアに含まれる投影線が線分１８０１であり、特徴線が線分１８０２である場合、線分１８０１の両端と線分１８０２の両端とをそれぞれ結ぶ線分１８０３及び線分１８０４を定義することができる。この場合、線分１８０１〜線分１８０４によって囲まれた領域の面積Ａｉを、誤差Ｅｉとして用いることができる（Ｅｉ＝Ａｉ）。

面積Ａｉが小さいほど、誤差Ｅｉは小さくなり、線分１８０１が線分１８０２に重なっている場合、誤差Ｅｉは０になる。

図２５は、本実施形態（実施例１）における投影線と特徴線との間の距離に基づく計算方法の例を示す図である。線分１８０２の両端から線分１８０１上へ下ろした垂線１９０１及び垂線１９０２の長さを、それぞれ、Ｌｉ１及びＬｉ２とする。この場合、Ｌｉ１及びＬｉ２の和を、誤差Ｅｉとして用いることができる（Ｅｉ＝Ｌｉ１＋Ｌｉ２）。

Ｌｉ１及びＬｉ２が短いほど、誤差Ｅｉは小さくなり、線分１８０１が線分１８０２に重なっている場合、誤差Ｅｉは０になる。

次に、決定部３１は、パラメータ４６が表す撮像装置２０の位置及び姿勢を用いて、Ｎ個の対応ペアに含まれる候補線を撮像画像１２上に投影することで、Ｎ本の投影線を生成する（Ｓ２８）。

決定部３１は、以下の式により、ＣＡＤデータの線分を２次元の画像平面内に投影する。

（Ｘ，Ｙ，Ｚ）：ＣＡＤの線分の端点の３次元座標
Ａ：カメラの内部パラメータ（非特許文献７の方法で予め計測しておく。）
Ｒ：算出されたＲ’をロドリゲス変換（Rodrigues' rotation formula）により３行３列の行列に変換したもの
Ｔ：算出されたＴ’
（ｕ，ｖ）：画像平面内に投影されたＣＡＤ線分の端点２次元座標

次に、決定部３１は、Ｎ本の投影線の位置とＮ本の特徴線の位置との間の誤差の総和を表す指標４７を計算し（Ｓ２９）、指標４７の計算を所定回数行ったか否かをチェックする（Ｓ３０）。指標４７の計算を所定回数行っていない場合（Ｓ３０，ＮＯ）、位置計算部２９は、Ｎ個の対応ペアの選択を変更し（Ｓ２６）、推定装置２１は、Ｓ２７以降の処理を繰り返す。

指標４７の計算を所定回数行った場合（Ｓ３０，ＹＥＳ）、決定部３１は、誤差の総和が最小となるＮ個の対応ペアを選択し（Ｓ３１）、それらの対応ペアに基づいてパラメータ４８を計算する（Ｓ３２）。そして、出力部３２は、選択されたＮ個の対応ペア及びパラメータ４８を出力する（Ｓ３３）。

図１６の画像処理によれば、Ｎ個の対応ペアの選択を自動的に変更しながら指標４８の計算を繰り返すことで、誤差の総和が最小となるＮ個の対応ペアを求めることができる。これにより、ユーザによる選択操作の作業時間が削減され、処理時間が短縮されるとともに、撮像装置２０の位置及び姿勢の推定精度が向上する。

また、ヒューマンエラーに起因する選択ミスがなくなるため、選択のやり直しによる処理時間の増加が発生しない。熟練者でなくても最適なＮ個の対応ペアを求めることができるため、対応付け結果を適用する作業の種類及び対象者を拡大することが可能になる。

なお、図１６のＳ３０において、推定装置２１は、指標４７の計算を所定回数行った場合に繰り返し処理を打ち切る代わりに、指標４７が表す誤差が所定値よりも小さくなった場合に繰り返し処理を打ち切ってもよい。

また、ステップＳ２７及びＳ２９において、推定装置２１は、投影線の位置と特徴線の位置との間の誤差の代わりに、投影線と特徴線との間の類似度を評価してもよい。投影線と特徴線との間の類似度としては、例えば、特許文献５に記載された２本の線分の類似度を用いることができる。この場合、Ｓ２７において、類似度の総和が最大となるパラメータ４６が求められ、Ｓ３１において、類似度の総和が最大となるＮ個の対応ペアが選択される。

ところで、Ｓ３１において選択されたＮ個の対応ペアの誤差の総和が最小であったとしても、各投影線が各特徴線を１８０度回転させた線分を表していることがある。

図２６は、１８０度回転した線分の例を示す図である。図２６の投影線及び特徴線のうち、投影線２０１２は、特徴線２００２と重なっている。一方、投影線２０１１、投影線２０１３、及び投影線２０１４は、投影線２０１２を軸として、特徴線２００２、特徴線２００３、及び特徴線２００４をそれぞれ１８０度回転させた線分に対応する。この場合、式（１２）の面積Ａｉはほぼ０になるため、誤差の総和が最小になる可能性がある。

そこで、このような対応付けを禁止するために、決定部３１は、次のような条件を満たすＮ個の対応ペアの中から、誤差の総和が最小となるＮ個の対応ペアを選択してもよい。
（Ｃ１１）Ｎ本の投影線のうち、所定の割合の投影線が画像８２１内に含まれている。
（Ｃ１２）Ｎ本の投影線のうち、所定の割合の投影線が画像８２１内の所定位置の近傍に存在する。
（Ｃ１３）画像８２１の面積に対するＮ本の投影線の分布範囲の割合が所定値以上である。

図２７は、パラメータ４６の計算に適していない候補線の例を示す図である。図２７（ａ）は、互いに平行な４本の候補線を示している。４本の候補線が平行である場合、矢印２１０１の方向に候補線を並行移動させても誤差が変化せず、候補線の位置を固定することが困難になることがある。

図２７（ｂ）は、同一直線上に存在する２本の候補線を示している。２本の候補線が同一直線上に存在する場合、矢印２１０２の方向に候補線を拡大又は縮小させても誤差が変化せず、スケールを固定することが困難になることがある。

そこで、図１６のＳ２６において、生成部２８は、次のような条件を満たすＮ本の候補線を選択して、Ｎ個の対応ペアを生成してもよい。
（Ｃ２１）Ｎ本の候補線のうち少なくとも２本の候補線は平行ではない。
（Ｃ２２）Ｎ本の候補線のうちいずれの２本の候補線も同一直線上に存在しない。

同様の理由から、生成部２８は、次のような条件を満たすＮ本の特徴線を選択して、Ｎ個の対応ペアを生成してもよい。
（Ｃ３１）Ｎ本の特徴線のうち少なくとも２本の特徴線は平行ではない。
（Ｃ３２）Ｎ本の特徴線のうちいずれの２本の特徴線も同一直線上に存在しない。

なお、Ｓ２９において、対応ペア直線の誤差を算出してもよい。図２８は、本実施形態（実施例１）における誤差の算出について説明するための図である。この場合、決定部３１は、図２８に示すように、Ｎ個の対応するエッジ−投影線ペアからなる面積の平均を算出し、各ペアの面積とその平均の面積との誤差を算出してもよい。

次に、本実施形態（実施例２）について説明する。実施例１では初期モデル姿勢候補を回転成分Ｒｉと並進成分Ｔｉのペアとしていたが、実施例２では回転成分Ｒｉのみを候補としても良い（並進成分Ｔｉがない以外は、用いるデータ及び処理、機能等は実施例１と同じである。）。この場合、並進成分Ｔｉは，ＣＡＤモデルの全体像が映る程度の値を予め設定しておく。

例えば、ＣＡＤモデルの大きさが１０ｃｍ四方であった場合，Ｔ＝（０,０,２０）［ｃｍ］として固定してもよい。実施例２の場合、ＣＡＤ画像ＤＢ１１のデータ構造が回転成分だけで済むというメリットが有る。

次に、本実施形態（実施例３）について説明する。実施例１，２では事前にＣＡＤ画像ＤＢを作成していたが，実施例３では初期モデル姿勢推定処理を行うときに、同時にＣＡＤ画像ＤＢ１１が作成される。これにより、１回の初期モデル姿勢推定処理に掛かる時間は長くなるが、メモリ容量を削減することができる。

次に、本実施形態（実施例４）について説明する。実施例４は、構成及び処理等は実施例１と同様である。実施例１では初期モデル姿勢候補の選択方法を、ＬＬＡＨによる交点のマッチング数により決定していたが、それ以外の方法を用いても構わない。対象物の表面上に識別可能な模様が分布している場合、例えば、非特許文献９に記載された局所特徴量によるマッチングにより候補を決定しても良い。

この場合には、姿勢推定部２７は、ＣＡＤ画像、撮像画像の２つからＯＲＢ特徴量を抽出し、マッチングを行い、マッチング点数が最も多い候補を初期モデル姿勢として用いてもよい。

本実施例によれば、カメラの姿勢推定に用いる撮像画像中の直線と３Ｄモデルの直線の対応ペアを決定するための演算量が削減できる。すなわち、姿勢の向きの限定による処理対象の削減と、対象物の後ろに隠れる直線を対応付け処理から外すことで処理量を削減することができる。

図２９は、本実施形態における推定装置２１として用いられるコンピュータの構成例を示す図である。コンピュータ２２００は、Central Processing Unit（ＣＰＵ）２２０１、メモリ２２０２、入力装置２２０３、出力装置２２０４、補助記憶装置２２０５、媒体駆動装置２２０６、及びネットワーク接続装置２２０７を含む。これらの構成要素はバス２２０８により互いに接続されている。撮像装置２０は、バス２２０８に接続されていてもよい。

メモリ２２０２は、例えば、Read Only Memory（ＲＯＭ）、Random Access Memory（ＲＡＭ）、フラッシュメモリ等の半導体メモリであり、画像処理に用いられるプログラム及びデータを格納する。メモリ２２０２は、記憶部３３として用いることができる。

ＣＰＵ２２０１（プロセッサ）は、例えば、メモリ２２０２を利用してプログラムを実行することにより、ＣＡＤデータ読込部２２、ＣＡＤ画像ＤＢ生成部２３、候補線抽出部２４、画像取得部２５、特徴検出部２６、姿勢推定部２７として機能する。さらに、ＣＰＵ２２０１は、生成部２８、位置計算部２９、誤差計算部３０、決定部３１として機能する。

入力装置２２０３は、例えば、キーボード、ポインティングデバイス等であり、オペレータ又はユーザからの指示又は情報の入力に用いられる。出力装置２２０４は、例えば、表示装置、プリンタ、スピーカ等であり、オペレータ又はユーザへの問い合わせ又は指示、及び処理結果の出力に用いられる。処理結果は、決定部３１が決定したＮ個の対応ペアであってもよい。出力装置２２０４は、図８の出力部３２として用いることができる。

補助記憶装置２２０５は、例えば、磁気ディスク装置、光ディスク装置、光磁気ディスク装置、テープ装置等である。補助記憶装置２２０５は、ハードディスクドライブであってもよい。コンピュータ２２００は、補助記憶装置２２０５にプログラム及びデータを格納しておき、それらをメモリ２２０２にロードして使用することができる。補助記憶装置２２０５は、記憶部３３として用いることができる。

媒体駆動装置２２０６は、可搬型記録媒体２２０９を駆動し、その記録内容にアクセスする。可搬型記録媒体２２０９は、メモリデバイス、フレキシブルディスク、光ディスク、光磁気ディスク等である。可搬型記録媒体２２０９は、Compact Disk Read Only Memory（ＣＤ−ＲＯＭ）、Digital Versatile Disk（ＤＶＤ）、Universal Serial Bus（ＵＳＢ）メモリ等であってもよい。オペレータ又はユーザは、この可搬型記録媒体２２０９にプログラム及びデータを格納しておき、それらをメモリ２２０２にロードして使用することができる。

このように、画像処理に用いられるプログラム及びデータを格納するコンピュータ読み取り可能な記録媒体は、メモリ２２０２、補助記憶装置２２０５、又は可搬型記録媒体２２０９のような、物理的な（非一時的な）記録媒体である。

ネットワーク接続装置２２０７は、Local Area Network、Wide Area Network等の通信ネットワークに接続され、通信に伴うデータ変換を行う通信インタフェースである。コンピュータ２２００は、プログラム及びデータを外部の装置からネットワーク接続装置２２０７を介して受信し、それらをメモリ２２０２にロードして使用することができる。ネットワーク接続装置２２０７は、図８の出力部３２として用いることができる。

なお、コンピュータ２２００が図２９のすべての構成要素を含む必要はなく、用途又は条件に応じて一部の構成要素を省略することも可能である。例えば、可搬型記録媒体２２０９又は通信ネットワークを使用しない場合は、媒体駆動装置２２０６又はネットワーク接続装置２２０７を省略してもよい。

本実施形態によれば、撮像装置の位置及び姿勢を推定する技術において、ＣＡＤデータの三次元線分と、撮影された画像中の対象物のエッジとの重畳させる場合に、特定した初期モデル姿勢を用いて線分のペアの対応付けを行うので、処理時間の削減を図ることができる。また、初期モデル姿勢の調整を手動で行う必要がなく、自動調整が可能なので、ユーザビリティの向上を図ることができる。また、初期モデル姿勢が特定されるので、ＣＡＤデータの線分と、画像のエッジ線との対応付けにおいて、初期モデル姿勢に基づいて行うので、誤った重畳表示の防止を実現することができる。

開示の実施形態とその利点について詳しく説明したが、当業者は、特許請求の範囲に明確に記載した本発明の範囲から逸脱することなく、様々な変更、追加、省略をすることができるであろう。

上記実施形態に関し、さらに以下の付記を開示する。
（付記１）
複数の視点のいずれかから観察される物体の姿勢毎に、該姿勢を表す姿勢情報と、該姿勢情報に対応する視点から観察された該物体の画像を示す視点画像と、該視点画像から抽出された複数の特徴点を用いて算出される該視点画像の特徴量とを関連付けた情報である複数の初期姿勢候補情報を記憶する記憶部と、
対象物を撮影した撮像画像を取得する画像取得部と、
前記撮像画像の特徴量と前記複数の初期姿勢候補情報の特徴量とを照合し、照合結果に基づいて該複数の初期姿勢候補情報から、前記撮像画像に写っている前記対象物の姿勢に類似する姿勢の姿勢情報を含む初期姿勢候補情報を抽出する照合部と、
前記照合部が抽出した初期姿勢候補情報に対応する姿勢の物体が観察される視点の位置に基づいて、前記物体の形状情報から得られる線分を絞り込む絞込部と、
絞り込んだ前記線分と前記撮像画像から検出される特徴線とを対応付ける対応付け部と、
対応付け結果に基づいて、前記対象物の画像から３次元空間内における該対象物に対する視点の位置及び方向を推定する推定部と、
を備えることを特徴とする推定装置
（付記２）
前記初期姿勢候補情報は、前記物体を取り囲む多面体の頂点及び面の中心に前記視点を配置した場合に該視点のそれぞれから観察される該物体の姿勢に関する情報であり、
前記初期姿勢候補情報の数は、前記多面体の頂点及び面の中心の数に対応する
ことを特徴とする付記１に記載の勢推定装置。
（付記３）
前記推定装置は、さらに、
前記物体の形状情報に基づいて、前記物体を取り囲む多面体の頂点及び面の中心に前記視点を配置した場合に該視点のそれぞれから観察される該物体の姿勢に関する前記複数の初期姿勢候補情報を生成する生成部
を備えることを特徴とする付記１または２に記載の推定装置。
（付記４）
前記特徴量は、前記視点画像または前記撮像画像から抽出した特徴線の交点それぞれについて、該交点それぞれの周囲にある複数の交点に関して幾何学的変換に対する不変量を算出することにより得られる各交点の特徴量であり、
前記照合部は、前記視点画像から抽出した特徴線の交点の前記特徴量と前記撮像画像から抽出した特徴線の交点の前記特徴量とが一致する交点の数を計測し、一致する交点の数が最も多い姿勢情報を前記初期姿勢情報として推定する
ことを特徴とする付記１〜３のうちいずれかに記載の推定装置。
（付記５）
前記視点情報は、回転成分を含む３次元座標系で表される
ことを特徴とする付記１〜４のうちいずれかに記載の推定装置。
（付記６）
コンピュータに、
対象物を撮影した撮像画像を取得し、
記憶部から、複数の視点のいずれかから観察される物体の姿勢毎に、該姿勢を表す姿勢情報と、該姿勢情報に対応する視点から観察された該物体の画像を示す視点画像と、該視点画像から抽出された複数の特徴点を用いて算出される該視点画像の特徴量とを関連付けた情報である複数の初期姿勢候補情報を取得し、
前記撮像画像の特徴量と前記複数の初期姿勢候補情報の特徴量とを照合し、照合結果に基づいて該複数の初期姿勢候補情報から、前記撮像画像に写っている前記対象物の姿勢に類似する姿勢の姿勢情報を含む初期姿勢候補情報を抽出し、
抽出した前記初期姿勢候補情報に対応する姿勢の物体が観察される視点の位置に基づいて、前記物体の形状情報から得られる線分を絞り込み、
絞り込んだ前記線分と前記撮像画像から検出される特徴線とを対応付け、
対応付け結果に基づいて、前記対象物の画像から３次元空間内における該対象物に対する視点の位置及び方向を推定する、
処理を実行させる推定プログラム。
（付記７）
前記初期姿勢候補情報は、前記物体を取り囲む多面体の頂点及び面の中心に前記視点を配置した場合に該視点のそれぞれから観察される該物体の姿勢に関する情報であり、
前記初期姿勢候補情報の数は、前記多面体の頂点及び面の中心の数に対応する
ことを特徴とする付記６に記載の推定プログラム。
（付記８）
前記推定プログラムは、前記コンピュータに、さらに、
前記物体の形状情報に基づいて、前記物体を取り囲む多面体の頂点及び面の中心に前記視点を配置した場合に該視点のそれぞれから観察される該物体の姿勢に関する前記複数の初期姿勢候補情報を生成する
処理を実行させることを特徴とする付記６または７に記載の推定プログラム。
（付記９）
前記特徴量は、前記視点画像または前記撮像画像から抽出した特徴線の交点それぞれについて、該交点それぞれの周囲にある複数の交点に関して幾何学的変換に対する不変量を算出することにより得られる各交点の特徴量であり、
前記初期姿勢候補情報の抽出において、前記視点画像から抽出した特徴線の交点の前記特徴量と前記撮像画像から抽出した特徴線の交点の前記特徴量とが一致する交点の数を計測し、一致する交点の数が最も多い姿勢情報を前記初期姿勢情報として推定する
ことを特徴とする付記６〜８のうちいずれかに記載の推定プログラム。
（付記１０）
前記視点情報は、回転成分を含む３次元座標系で表される
ことを特徴とする付記６〜９のうちいずれかに記載の推定プログラム。
（付記１１）
コンピュータが、
対象物を撮影した撮像画像を取得し、
記憶部から、複数の視点のいずれかから観察される物体の姿勢毎に、該姿勢を表す姿勢情報と、該姿勢情報に対応する視点から観察された該物体の画像を示す視点画像と、該視点画像から抽出された複数の特徴点を用いて算出される該視点画像の特徴量とを関連付けた情報である複数の初期姿勢候補情報を取得し、
前記撮像画像の特徴量と前記複数の初期姿勢候補情報の特徴量とを照合し、照合結果に基づいて該複数の初期姿勢候補情報から、前記撮像画像に写っている前記対象物の姿勢に類似する姿勢の姿勢情報を含む初期姿勢候補情報を抽出し、
抽出した前記初期姿勢候補情報に対応する姿勢の物体が観察される視点の位置に基づいて、前記物体の形状情報から得られる線分を絞り込み、
絞り込んだ前記線分と前記撮像画像から検出される特徴線とを対応付け、
対応付け結果に基づいて、前記対象物の画像から３次元空間内における該対象物に対する視点の位置及び方向を推定する、
ことを特徴とする推定方法。
（付記１２）
前記初期姿勢候補情報は、前記物体を取り囲む多面体の頂点及び面の中心に前記視点を配置した場合に該視点のそれぞれから観察される該物体の姿勢に関する情報であり、
前記初期姿勢候補情報の数は、前記多面体の頂点及び面の中心の数に対応する
ことを特徴とする付記１１に記載の推定方法。
（付記１３）
前記コンピュータは、さらに、
前記物体の形状情報に基づいて、前記物体を取り囲む多面体の頂点及び面の中心に前記視点を配置した場合に該視点のそれぞれから観察される該物体の姿勢に関する前記複数の初期姿勢候補情報を生成する
ことを特徴とする付記１１または１２に記載の推定方法。
（付記１４）
前記特徴量は、前記視点画像または前記撮像画像から抽出した特徴線の交点それぞれについて、該交点それぞれの周囲にある複数の交点に関して幾何学的変換に対する不変量を算出することにより得られる各交点の特徴量であり、
前記初期姿勢候補情報の抽出において、前記視点画像から抽出した特徴線の交点の前記特徴量と前記撮像画像から抽出した特徴線の交点の前記特徴量とが一致する交点の数を計測し、一致する交点の数が最も多い姿勢情報を前記初期姿勢情報として推定する
ことを特徴とする付記１１〜１３のうちいずれかに記載の推定方法。
（付記１５）
前記視点情報は、回転成分を含む３次元座標系で表される
ことを特徴とする付記１１〜１４のうちいずれかに記載の推定方法。

１推定装置
２記憶部
３画像取得部
４照合部
５絞込部
６対応付け部
７推定部
８生成部
９初期姿勢候補情報
１１ＣＡＤ画像ＤＢ
１２撮像画像
２１推定装置
２２ＣＡＤデータ読込部
２３ＣＡＤ画像ＤＢ生成部
２４候補線抽出部
２５画像取得部
２６特徴検出部
２７姿勢推定部
２８生成部
２９位置計算部
３０誤差計算部
３１決定部
３２出力部
３３記憶部
４１ＣＡＤデータ
４３特徴線
４４候補線
４５対応ペア
４６パラメータ
４７指標
４８パラメータ

Claims

コンピュータに、
対象物を撮影した撮像画像を取得し、
記憶部から、複数の視点のいずれかから観察される物体の姿勢毎に、該姿勢を表す姿勢情報と、該姿勢情報に対応する視点から観察された該物体の画像を示す視点画像と、該視点画像から抽出された複数の特徴点を用いて算出される該視点画像の特徴量とを関連付けた情報である複数の初期姿勢候補情報を取得し、
前記撮像画像の特徴量と前記複数の初期姿勢候補情報の特徴量とを照合し、照合結果に基づいて該複数の初期姿勢候補情報から、前記撮像画像に写っている前記対象物の姿勢に類似する姿勢の姿勢情報を含む初期姿勢候補情報を抽出し、
抽出した前記初期姿勢候補情報に対応する姿勢の物体が観察される視点の位置に基づいて、前記物体の形状情報から得られる線分を絞り込み、
絞り込んだ前記線分と前記撮像画像から検出される特徴線とを対応付け、
対応付け結果に基づいて、前記対象物の画像から３次元空間内における該対象物に対する視点の位置及び方向を推定する、
処理を実行させる推定プログラム。
前記初期姿勢候補情報は、前記物体を取り囲む多面体の頂点及び面の中心に前記視点を配置した場合に該視点のそれぞれから観察される該物体の姿勢に関する情報であり、
前記初期姿勢候補情報の数は、前記多面体の頂点及び面の中心の数に対応する
ことを特徴とする請求項１に記載の推定プログラム。
前記推定プログラムは、前記コンピュータに、さらに、
前記物体の形状情報に基づいて、前記物体を取り囲む多面体の頂点及び面の中心に前記視点を配置した場合に該視点のそれぞれから観察される該物体の姿勢に関する前記複数の初期姿勢候補情報を生成する
処理を実行させることを特徴とする請求項１または２に記載の推定プログラム。
前記特徴量は、前記視点画像または前記撮像画像から抽出した特徴線の交点それぞれについて、該交点それぞれの周囲にある複数の交点に関して幾何学的変換に対する不変量を算出することにより得られる各交点の特徴量であり、
前記初期姿勢候補情報の抽出において、前記視点画像から抽出した特徴線の交点の前記特徴量と前記撮像画像から抽出した特徴線の交点の前記特徴量とが一致する交点の数を計測し、一致する交点の数が最も多い姿勢情報を前記初期姿勢情報として推定する
ことを特徴とする請求項１〜３のうちいずれかに記載の推定プログラム。
前記初期姿勢候補情報は、回転成分を含む３次元座標系で表される
ことを特徴とする請求項１〜４のうちいずれかに記載の推定プログラム。
複数の視点のいずれかから観察される物体の姿勢毎に、該姿勢を表す姿勢情報と、該姿勢情報に対応する視点から観察された該物体の画像を示す視点画像と、該視点画像から抽出された複数の特徴点を用いて算出される該視点画像の特徴量とを関連付けた情報である複数の初期姿勢候補情報を記憶する記憶部と、
対象物を撮影した撮像画像を取得する画像取得部と、
前記撮像画像の特徴量と前記複数の初期姿勢候補情報の特徴量とを照合し、照合結果に基づいて該複数の初期姿勢候補情報から、前記撮像画像に写っている前記対象物の姿勢に類似する姿勢の姿勢情報を含む初期姿勢候補情報を抽出する照合部と、
前記照合部が抽出した初期姿勢候補情報に対応する姿勢の物体が観察される視点の位置に基づいて、前記物体の形状情報から得られる線分を絞り込む絞込部と、
絞り込んだ前記線分と前記撮像画像から検出される特徴線とを対応付ける対応付け部と、
対応付け結果に基づいて、前記対象物の画像から３次元空間内における該対象物に対する視点の位置及び方向を推定する推定部と、
を備えることを特徴とする推定装置。
コンピュータが、
対象物を撮影した撮像画像を取得し、
記憶部から、複数の視点のいずれかから観察される物体の姿勢毎に、該姿勢を表す姿勢情報と、該姿勢情報に対応する視点から観察された該物体の画像を示す視点画像と、該視点画像から抽出された複数の特徴点を用いて算出される該視点画像の特徴量とを関連付けた情報である複数の初期姿勢候補情報を取得し、
前記撮像画像の特徴量と前記複数の初期姿勢候補情報の特徴量とを照合し、照合結果に基づいて該複数の初期姿勢候補情報から、前記撮像画像に写っている前記対象物の姿勢に類似する姿勢の姿勢情報を含む初期姿勢候補情報を抽出し、
抽出した前記初期姿勢候補情報に対応する姿勢の物体が観察される視点の位置に基づいて、前記物体の形状情報から得られる線分を絞り込み、
絞り込んだ前記線分と前記撮像画像から検出される特徴線とを対応付け、
対応付け結果に基づいて、前記対象物の画像から３次元空間内における該対象物に対する視点の位置及び方向を推定する、
ことを特徴とする推定方法。