JP2012022411A - 情報処理装置及びその制御方法、プログラム - Google Patents

情報処理装置及びその制御方法、プログラム Download PDF

Info

Publication number
JP2012022411A
JP2012022411A JP2010158263A JP2010158263A JP2012022411A JP 2012022411 A JP2012022411 A JP 2012022411A JP 2010158263 A JP2010158263 A JP 2010158263A JP 2010158263 A JP2010158263 A JP 2010158263A JP 2012022411 A JP2012022411 A JP 2012022411A
Authority
JP
Japan
Prior art keywords
target object
partial
images
information
processing apparatus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010158263A
Other languages
English (en)
Other versions
JP5631086B2 (ja
Inventor
Hiroto Yoshii
裕人 吉井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2010158263A priority Critical patent/JP5631086B2/ja
Priority to US13/165,917 priority patent/US9053546B2/en
Publication of JP2012022411A publication Critical patent/JP2012022411A/ja
Application granted granted Critical
Publication of JP5631086B2 publication Critical patent/JP5631086B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/74Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)
  • Length Measuring Devices By Optical Means (AREA)

Abstract

【課題】 自己オクルージョンが存在する環境においても、複数の撮影画像を用いて3次元空間内の対象物体の位置姿勢を高精度かつ安定的に推定するための技術を提供する。
【解決手段】 3次元空間内の対象物体の位置姿勢を推定する情報処理装置であって、複数の撮影位置から対象物体を撮影して得られた複数の撮影画像を入力する入力手段と、入力された複数の撮影画像の各々から、3次元空間内の所定の部分空間が占める領域に対応する部分画像を切り出す切出手段と、複数の撮影画像からそれぞれ切り出された複数の部分画像の特徴を示す特徴情報を、当該複数の部分画像から抽出する抽出手段と、物体の位置姿勢と、当該位置姿勢に対応する当該物体の特徴情報とを関連づけて示す辞書情報を記憶する記憶手段と、抽出手段が抽出した対象物体の特徴情報と、辞書情報に示される特徴情報とを比較して、該対象物体の位置姿勢を推定する推定手段とを備える。
【選択図】 図1

Description

本発明は情報処理装置及びその制御方法、プログラムに関し、特に、3次元空間内の対象物体の位置姿勢を推定する技術に関する。
3次元空間内の物体の位置姿勢を推定する手法(3次元測定)としては、大別して以下の2つが知られている。即ち、一方は3角測量を用いたステレオビジョンであり、他方は位置姿勢が既知の登録画像とのパターンマッチングを行う手法である。
ステレオビジョンは、2台のカメラを用いる手法と、レーザー光と1台のカメラを用いる手法とが知られている。どちらの手法も、観測される1つの点と観測する2つの点との間の3角測量に基づいて、観測点の3次元上の位置を求める。2台のカメラを用いる手法ではカメラで撮影した画像中での観測対応点の特定が難しく、誤差が混入する可能性が高い。これはステレオビジョンにおける対応点探索の問題として知られている。これに対してレーザー光を用いる手法は対応点の探索が簡単になるが、レーザー光の正確な制御が難しく、これが誤差の原因となる。
ステレオビジョンが2台のカメラ、または1台のカメラとレーザー光照射装置が必要なのに対して、パターンマッチングを用いる手法は基本的にカメラが1台でもよい。この手法では、事前に3次元上の位置、姿勢がわかっている対象物の画像を蓄えておいて、新規に入力された画像をその蓄積された画像と蓄えておいた画像とをマッチングすることによって、対象物体の位置姿勢を求める。
このパターンマッチングを用いる手法としては、パラメトリック固有空間法を用いることで、少数の登録画像を用いて姿勢推定を行う構成が知られている(特許文献1)。
また、2台以上のカメラを用いてパターンマッチングを行うことにより、より高精度に物体の位置を特定する手法も知られている(特許文献2)。特許文献2の手法は、複数のカメラのパン・チルト・ズームを順次制御していくものである。具体的には、直前のカメラで撮影した画像の物体検出位置を利用することによって、次に撮影するカメラで同一物体を検出できるようにパン・チルト・ズームを逐次決定していく。そして、2台以上のカメラで物体を検出できた場合に正解とし、各カメラによる検出位置との誤差が最小となるように物体の位置を決定する。
特開平8−153198号公報 特開2003−22442号公報
上述したステレオビジョンで2台のカメラを用いる場合は、上記の対応点探索の問題が本質的な課題となる。特に、ステレオビジョンにおいては対応点が2台のカメラから見えている必要があり、対象物体の自己オクルージョンでどちらかのカメラから観測点が見えない場合は、原理的に3次元測定は不可能となる。
また、特許文献2に開示された手法でも、対応点が2台のカメラから見えている必要があり、対象物体の自己オクルージョンで1台のカメラでしか観測点が見えない場合は、1台のカメラでのパターンマッチングを用いた物体の位置姿勢推定手法を複数のカメラに単純に拡張した手法といえる。つまり、複数のカメラで撮影された画像を独立に用いてパターンマッチングしている。したがって、物体の位置姿勢の推定精度には限界がある。また、複数のカメラで矛盾した位置姿勢推定結果が導かれた場合、その解消が困難であるという課題がある。
本発明は上記課題に鑑みなされたものであり、自己オクルージョンが存在する環境においても、複数の撮影画像を用いて3次元空間内の対象物体の位置姿勢を高精度かつ安定的に推定するための技術を提供することを目的とする。
上記目的を達成するため、本発明による情報処理装置は以下の構成を備える。即ち、
3次元空間内の対象物体の位置姿勢を推定する情報処理装置であって、
複数の撮影位置から前記対象物体を撮影して得られた複数の撮影画像を入力する入力手段と、
入力された前記複数の撮影画像の各々から、前記3次元空間内の所定の部分空間が占める領域に対応する部分画像を切り出す切出手段と、
前記複数の撮影画像からそれぞれ切り出された複数の部分画像の特徴を示す特徴情報を、当該複数の部分画像から抽出する抽出手段と、
物体の位置姿勢と、当該位置姿勢に対応する当該物体の特徴情報とを関連づけて示す辞書情報を記憶する記憶手段と、
前記抽出手段が抽出した前記対象物体の特徴情報と、前記辞書情報に示される特徴情報とを比較して、該対象物体の位置姿勢を推定する推定手段と
を備える。
本発明によれば、自己オクルージョンが存在する環境においても、複数の撮影画像を用いて3次元空間内の対象物体の位置姿勢を高精度かつ安定的に推定するための技術を提供することができる。
物体認識手法の基本的な処理手順を説明する処理フロー図。 情報処理装置の構成を示すブロック図。 複数のカメラによる対象物体の撮影の様子を示す図。 3次元空間における対象物体とカメラの相対位置を示した図。 情報処理装置が実行する処理手順を示すフローチャート。 対象物体存在範囲とカメラとの位置関係を模式的に示す図。 物体認識手法の基本的な処理手順を説明する処理フロー図。 情報処理装置が実行する処理手順を示すフローチャート。 複数の画像を撮影する手順を示すフローチャート。 複数の画像を融合する例を示す図。
以下、添付図面を参照して本発明の実施の形態を詳細に説明する。
<<実施形態1>>
本実施形態では、3次元空間内の対象物体の位置姿勢を推定する構成を説明する。
(基本処理手順)
図1は、本実施形態による物体認識手法の基本的な処理手順を説明する処理フロー図である。101は入力画像群(入力撮影画像群)であり、例えば、図3に示すように同一の対象物を複数のカメラ(撮影装置)で撮影した複数の画像のことである。なお、本実施形態では101は複数のカメラで撮影した複数の画像群を想定している。しかし、実施形態3に述べるように1つのカメラで複数回撮影した画像群を用いても構わない。
102は注目投射領域切り出しステップであり、ここでは入力画像群101の各画像から注目投射領域の切り出しが行われる。この処理の詳細は図4を用いて後述する。そして、切り出された入力画像群(切り出し入力画像群と呼ぶ)103は、画像正規化ステップ104でサイズが正規化されて、切り出し正規化入力画像群105が作成される。
一方、予め撮影された登録画像群(登録撮影画像群)106から対象物領域切り出しステップ107を用いて切り出し登録画像群108が作成される。登録画像群106の画像は、入力画像群101と同じように、例えば図3に示すような複数のカメラで撮影した複数の画像である。また、入力画像群101の撮影と登録画像群106の撮影は、1つの対象物についての撮影画像の数(図3の場合はカメラの数)は同じとする。また、詳細は図3を用いて後述するが、基本的に複数の撮影画像の3次元上の関係、すなわち、複数の撮影画像を取得したときのカメラの位置及び撮影方向は101と106で同じとする。言い換えると、登録画像と入力画像を撮影するときは、カメラの位置及び撮影方向は一定である。登録画像群106を作成する際は、対象物の位置、姿勢は既知である。したがって、対象物体の存在範囲が撮影画像中に占める領域も既知ということになる。したがって、対象物領域切り出しステップ107では、対象物体を包含する後述の検出枠(部分空間)について部分画像を切り出す処理を行う。
なお、図1の処理フロー図では、登録画像群106は実際に対象物体を撮影して得られることを前提としているが、高精度なコンピュータグラフィックを用いた擬似的な対象物体画像の集合を登録画像群に代えて用いてもよい。また、限定された方向からの撮影画像を用いて、それらの中間方向からの撮影画像を生成し、生成した撮影画像を用いて登録画像群に代えることも可能である。
ステップ107で切り出された登録画像群(切り出し登録画像群と呼ぶ)108は入力画像群と同じ処理(104)で正規化され、切り出し正規化登録画像群109(切り出し正規化登録撮影画像群)が得られる。
様々な種類の対象物体を様々な姿勢で撮影した登録画像群106から切り出し正規化登録画像群109が作成され、それらを学習することによって辞書(辞書情報)110が出来上がる。辞書110には対象物体の複数の視点からの撮影画像の情報と共に、対象物体の種類、姿勢等の情報が格納されることになる。なお、登録画像群106に対して、対象物領域切り出しステップ107、画像正規化ステップ104を実行して切り出し正規化登録画像群109を生成し、辞書110に登録する処理は、入力画像の認識を行う前に予め行われる。上記のような、物体の位置姿勢と、当該位置姿勢に対応する当該物体の特徴情報とを関連づけて示す辞書情報は、後述するように、記憶手段としての外部記憶装置201に記憶される。
画像マッチングステップ111において、辞書110を用いて切り出し正規化入力画像群105(切り出し正規化入力撮影画像群)のマッチングが行われ、最終的に認識結果112が得られる。
画像マッチングステップ111は、単純な画像同士の照合を行うことによって実現してもよいし、機械学習の技術を用いて実現してもよい。なお、画像マッチングステップ111において単純な画像同士の照合を行う場合は、辞書110は単純に複数セットの切り出し正規化登録画像群が登録されることとなる。
この画像マッチングステップ111で重要なことは、複数の画像の情報をまとめて1つの情報として扱うことである。単純な画像同士の照合を行う場合は、単純に複数の撮影画像を連結し、その連結した1枚の入力画像と複数の登録画像を照合する。機械学習の技術を用いる場合は、それぞれの画像から特徴抽出した結果、得られる複数の特徴量ベクトルを単純につなげて1つの特徴ベクトル(特徴情報)を作成してもよい。また、複数の画像から複合的な特徴量を抽出して1つの特徴ベクトルを作成してもよい。機械学習のアルゴリズムとしては、ニューラルネット、サポートベクターマシン、最近傍マッチングアルゴリズム、分類木など、どのアルゴリズムを用いてもよい。
(情報処理装置の構成)
図2は、本実施形態に係る物体認識手法を実行する情報処理装置の構成を示すブロック図である。図2のように情報処理装置は、外部記憶装置201、中央処理装置(CPU)202、メモリ203、入出力装置204を備える。
記憶手段としての外部記憶装置201は、本実施形態を実現するプログラムや、カメラで撮影した登録画像、登録画像を用いて作成された辞書等を記憶・保持する。また、本実施形態の構成によって求められた対象物体の認識結果を保持する機能を持つ。
中央処理装置202は物体認識手法のプログラムを実行したり、情報処理装置が備える他の装置の制御を行なったりする。メモリ203は中央処理装置202が使用するプログラム、及びサブルーチンやデータを一時的に記憶・保持する。入出力装置204は、カメラからの画像を取り込んだり、ユーザとのインタラクションを行ったり、物体認識結果を他の情報処理装置へ出力したりする。また、本実施形態に係る物体認識手法を実現するプログラム実行のトリガーをこの入出力装置204を介してユーザが出す場合もある。また、ユーザが結果を確認したり、プログラムのパラメータ制御をこの入出力装置を介して行うこともある。また、出力先としてはロボットを制御する装置のような場合も有り得る。
(カメラ)
図3は実施形態1における複数のカメラ(撮影装置)による対象物体の撮影の様子を示す図である。実施形態1においては、複数のカメラを用いて複数の撮影位置から複数の撮影画像を取得して情報処理装置に入力する。図3では3台のカメラで対象物を撮影する例を示している。実施形態1においては、図3のように、対象物体301とカメラ間の距離はある程度離れている。具体的には、対象物体が奥行き方向に移動しても、それぞれのカメラで撮影された対象物体の形が大きさしか変化しないと見なせる程度に、対象物体とカメラとの間の距離は離れている。
図3で重要なことは、それぞれのカメラの位置と姿勢が固定されていることである。それぞれのカメラの位置と姿勢が固定されていることにより、同一の位置姿勢の対象物体を撮影して得られた3枚の撮影画像(撮影画像群302)の間には相関が存在する。本実施形態では、この複数画像間の相関を有効に利用することにより対象物体の位置、姿勢をより高精度で検出する。
(注目投射領域切り出し)
次に、図4を参照して、注目投射領域切り出しステップ102での処理を説明する。図4は3次元空間における対象物体とカメラの相対位置を示した図である。
図4では、1つの対象物体と2台のカメラとが、図面左手に記載のxyz座標空間内に存在する。図4(a)と図4(b)とでは、対象物およびカメラの配置および位置姿勢は同じであるが、注目枠の位置が異なっている。図4(c)は図4(a)で示す空間を上(y軸正方向)から見た図となる。対象物体は、姿勢がわかりやすいように、大きな白い球に小さな黒い球が結合した構造を有している。
本実施形態では、物体認識を行う対象物体が存在する3次元上の範囲が予め与えられている。図4において、401は対象物体が存在可能な範囲を示している。本実施形態では、その存在可能範囲401のどの位置に対象物体があり、どのような姿勢をとっているのかを認識、検出する。実施形態1においては、対象物体とカメラとの距離が十分大きいため、対象物体が存在可能範囲401のどの場所にあっても、それぞれのカメラに映る対象物体の形状は大きさを除いて変化しないと見なすことができる。なお、対象物体とカメラ間の距離が近くなり、対象物体が存在範囲の中を移動すると、その見えが異なってくることが無視できなくなる。このようなケースについては、実施形態2で詳しく述べる。
図4の402は注目枠(部分空間)であり、対象物体の存在可能範囲401の中にある仮想的なボックスである。注目枠402の大きさは対象物体がどの方向を向いていても、それらを被覆(包含)できる大きさとする。
図4(a)及び図4(b)に示したように、注目枠402がそれぞれのカメラに投射された領域を、注目枠の投射領域403とする。注目投射領域切り出しステップ102では、対象物体の存在可能範囲401を注目枠402をxyz軸に移動させながら、注目枠の投射領域403を撮影画像から切り出す処理を行う。例えば、対象物体の存在可能範囲401の大きさがx軸方向、y軸方向、z軸方向について、それぞれ10cm、20cm、15cmだとし、注目枠402が一辺5cmの立方体だとする。そして、注目枠を対象物体存在可能範囲の中を1cm刻みで移動させるとすると、注目投射領域切り出しステップ102は、1056(=6×16×11)回、実行されることになる。このようにして、注目投射領域切り出しステップ102では、入力された複数の撮影画像の各々から、3次元空間内の所定の部分空間(検出枠)が占める領域に対応する部分画像を切り出す切出処理を行う。特に、本実施形態では、検出枠を移動させながら撮影画像から部分画像を切り出していくことで、複数の撮影画像の各々から、複数の部分空間のそれぞれに対応する部分画像を切り出す処理を行う。
図4(a)は注目枠402が対象物体とオーバーラップしていない場合を示しており、図4(b)は注目枠402が対象物体を完全に被覆(包含)した場合を示している。なお、図4(a)の注目枠の投射領域403の中には対象物体が一部しか含まれないのに対して、図4(b)の注目枠の投射領域403には対象物体が全部含まれている。結果的に、図4の(b)に示した位置に402の注目枠が移動した時、対象物体の認識結果が最も高得点となり、3次元上の位置が特定できることとなる。
図4で最も重要なことは、図4(b)で示したように、注目枠が対象物体と完全にオーバーラップした時は、注目枠の投射領域403内の2つの撮影画像が強い関連があるということである。より具体的にはカメラ1の撮影方向とカメラ2の撮影方向とがなす角度と同じ角度だけ、カメラ1の撮影画像に含まれる対象物体は、カメラ2の撮影画像に含まれる対象物体に対して回転していることになる。図4の例で言えば、カメラ2による撮影画像において黒い球が白い大きな球の中心近辺に存在する場合は、カメラ1の撮影画像において、黒い球は白い球の右下に位置することになる。そして、図4(b)のように、対象物体と注目枠の位置が一致する、すなわち、注目枠402が対象物体を完全に包含する場合は、カメラ1とカメラ2それぞれの注目枠の投射領域403内には、対象物体の投射領域が完全に包含されることになる。本実施形態ではこの複数の切り出し画像群の関連性を利用して画像マッチングを行う。具体的には複数の切り出し画像群の情報を融合し、1つの画像、または1つベクトルとする。
なお、図4では、対象物体の存在可能範囲401および注目枠402が、直方体、立方体である場合を説明したが、存在可能範囲401、注目枠402の形状はこれに限られない。例えば、球や楕円球でも構わない。また、直方体や楕円球をつなぎ合わせた不規則な形をしていても構わない。また、注目枠402の形状を球とする場合は、その中心位置と半径を指定するだけで本実施形態における注目枠の切り出しを行うことができる。つまり、注目枠という明示的な枠が必要なのではなく、3次元上のどの位置を注目しているかという情報が必要かつ重要である。
(処理フロー)
図5は図1を参照して説明した処理を実現するために、情報処理装置が実行する処理手順を示すフローチャートである。このフローチャートの各ステップの処理は、情報処理装置の中央処理装置(CPU)202の制御に基づいて実行される。
まず、S501で対象物体の存在領域(存在可能範囲401)を決定する。対象物体の存在領域が直方体の形状を有している場合は、その方向も含めて決定する。図4で示したのが1つの例となる。
次に、S502で注目枠402の初期位置を決定する。初期位置は、例えば、対象物体の存在領域(存在可能範囲401)のコーナーの位置とすることができる。
次にS503で撮影画像群の切り出し正規化のループに入る。1カ所の注目枠402について取得する撮影画像の枚数をn枚とすると、S503、S504、S505のループがn回実行され、切り出し正規化画像がn枚作成される。
すなわち、S503では、処理対象の撮影画像から、3次元空間内の所定の部分空間(検出枠)が占める領域に対応する部分画像を切り出す切出処理を行う。
次に、S504において、切り出した部分画像を正規化する処理を行う。この処理では、切り出した部分画像を画像変換処理により、予め定められた大きさの長方形画像に変換したり、輝度及び明度等を予め定められたスケールに変換する等の処理を行う。
S505では、入力された全ての撮影画像に対してS503、S504の処理を実行したか否かを判定する。全ての撮影画像に対する処理が終了した場合(S505でYES)はS506へ進み、終了していない場合(S505でNO)はS503に戻って処理を継続する。
次に、S506、S507において、複数の撮影画像からそれぞれ切り出された複数の部分画像からなる集合の特徴を示す特徴情報を、当該複数の部分画像から抽出する抽出処理を行う。本実施形態では、複数の部分画像を融合して単一画像を生成し、当該単一画像の特徴を示す情報を特徴情報として抽出する。
まず、S506で、このn枚の切り出し正規化画像を融合する。図10を参照して画像融合の例を説明する。図10(a)(b)は図4(b)のカメラ1とカメラ2の切り出した画像を正規化しておいて融合する例を示している。
最も単純な融合の仕方はn枚の画像を連結して1枚の画像を作成することである。これが図10(a)に相当する。図10の中で表示したxy座標を2次元の撮影画像の座標とすると、図10(a)の手法は単純にx軸の方向にカメラ1の画像とカメラ2の画像を連結していることになる。
これに対し、図10(b)の手法は、x軸に沿って、カメラ1の画像とカメラ2の画像を交互に織り込みながら融合する。式で表すと、カメラ1の画像がV_1(x,y)で、カメラ2の画像がV_2(x,y)だとする。そして融合した結果の画像をN(x,y)で表すと、N(2*n,y)=V_1(n,y)、N(2*n+1,y)=V_2(n,y)とすることを意味する。ただし、nは撮影画像の枚数である。
図10(a)、図10(b)の例ではx軸方向に画像を連結、または織り込みを行って融合したが、y軸方向に融合してもよいし、x軸方向、y軸方向の両方向に対して融合してもよい。図10(c)の例は撮影画像が4つあって、それを1つのx軸方向、y軸方向の両方を使って織り込みながら融合する例を示している。
次に、S507で、その融合した画像から特徴を抽出して特徴ベクトル(特徴情報)を作成する。例えば、非特許文献1に記載のSIFTや非特許文献2に記載のHOGなどのアルゴリズムを用いて画像から特徴ベクトルを計算する。なお、単純な画像照合を行う場合は、特徴情報は融合した画像のピクセル値となる。
[非特許文献1] D. G. Lowe, “Object recognition from local scale-invariant features”, Proc. of IEEE International Conference on Computer Vision (ICCV), pp. 1150-1157, 1999.
[非特許文献2] N. Dalel, B. Triggs, “Histograms of oriented gradientsfor fuman detection”, Proc. of IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 886-893, 2005.
次に、S508で、抽出した対象物体の特徴情報と、辞書情報に示される特徴情報とを比較して、該対象物体の位置姿勢を推定する推定処理を行う。すなわち、辞書と特徴ベクトルをマッチングすることによって、入力画像に対する認識結果を取得する。その結果、信頼度(適合度)が予め定められたしきい値以上の場合は、当該注目枠に対象物体が認識した種類、姿勢で存在するとして結果ファイルに書き込む。
そして、S509で注目枠を移動しながら、ループを回し、存在可能領域を全部スキャンしたら終了する。例えば図4で例示したように、対象物体存在可能範囲の大きさがx、y、zそれぞれ10cm、20cm、15cm、注目枠が一辺5cmの立方体だとする。そして、注目枠を対象物体存在可能範囲の中を1cm刻みで移動させるとすると、この注目枠移動のループは1056(=6×16×11)回、実行されることになる。このようにして、注目枠(部分空間毎)にS502〜S508の処理が実行されることになる。
S508でのマッチングにより得られた結果ファイルにおいて、信頼度(適合度)が最も高い結果を対象物体の位置姿勢として推定することができる。すなわち、部分空間毎に抽出された特徴情報の各々と、辞書情報に示される特徴情報とを比較して、該辞書情報に示される特徴情報との適合度が最も高い特徴情報が抽出された部分画像の集合に基づいて、対象物体の位置姿勢を推定することができる。
上記のように、本実施形態の構成では、複数の撮影画像から切り出された複数の部分画像からなる集合の特徴に基づいて、対象物体の位置姿勢を推定する。このため、一部の部分画像について自己オクルージョンが存在する場合でも、残りの部分画像を用いて対象物体の位置姿勢を高精度かつ安定的に推定することができる。
また、本実施形態の構成では、複数の部分空間のそれぞれに対応する部分画像を切り出し、各部分空間ごとに、切り出した部分空間に対応する複数の部分画像からなる集合の特徴を示す特徴情報を抽出する。そして、辞書情報との適合度が最も高い抽出情報に基づいて、対象物体の位置姿勢を推定する。したがって、本実施形態の構成によれば、対象物体が対象物体存在領域401内のどこにあっても、対象物体の位置姿勢を精確に推定することが可能である。
なお、情報処理装置は、適合度が予め定められたしきい値以上の部分空間の位置を対象物体の位置と推定してもよい。あるいは、部分空間に対応する複数の部分画像の全てに対象物体が占める全領域が表されている場合は、当該部分空間の位置を対象物体の位置と推定することもできる。これらの手法によれば、対象物体の位置を簡易かつ効率的に推定することができる。
また、辞書情報は、物体の種類毎に設けられてもよい。この場合、抽出された特徴情報と、辞書情報に示される特徴情報とを比較して、対象物体の位置姿勢だけでなく、物体の種類をも推定することが可能になる。
以上説明したように、本実施形態に係る構成によれば、高精度に対象物の名称、種類、3次元上の存在位置、姿勢等の情報を推定することが出来るようになるという効果がある。特に、複数の撮影画像を用いる場合、自己オクルージョンなどの理由で原理的に対応点が探索できない場合でも物体の位置姿勢が推定できるという効果がある。また、複数の撮影画像を用いる場合、それぞれの撮影画像を矛盾なく処理して物体の位置姿勢を高精度で推定できるという効果もある。
<<実施形態2>>
実施形態1においては、対象物体とカメラ間の距離はある程度離れていることを前提としていたが、本実施形態では対象物体とカメラ間の距離が近接している場合においても対象物体の位置姿勢を高精度に検出可能な構成を説明する。
(登録画像群取得)
図6を参照して、実施形態2における登録画像群(登録撮影画像群)を取得する手法を説明する。図6は、図4(c)のように対象物体存在範囲とカメラとの位置関係を上方(y軸正方向)から見た様子を模式的に示す図である。601は対象物体の存在領域であり、図4の401に対応する。604は注目枠であり、図4の402に対応する。
図6において、太い枠で囲んで示している対象物体の存在領域601は、実施形態1と同様に(図4の401)、x軸方向、y軸方向、z軸方向の大きさがそれぞれ10cm、20cm、15cmである。図6において、603に対象物体の例を示す。注目領域(注目枠604)は一辺が5cmの立方体であり、図6においては604の点線で囲まれた正方形となる。注目領域(注目枠604)は実施形態1と同じように1cmずつ移動することとする。
図4に示したように、実施形態1においては対象物体が存在領域のどの場所にいても、それぞれの撮影画像中の対象物体の形状は変化しなかった。しかし、図6のように存在可能領域がカメラに近い場合、存在可能領域のどの場所に物体が存在するかによって、対象物体が映った形状も変化することになる。このような場合でも問題なく対象物体の種類、位置、姿勢を精確に認識するために、本実施形態に係る構成は図1の辞書(110)を複数保持する。
具体的には対象物体の存在領域601の中に存在領域の小部屋602を設定する。図6では1つの小部屋の形状は一辺が5cmの立方体である。図6においては小部屋がタイル状に存在領域601の中に存在するので、全部で24個(=2×4×3)あることとなる。なお、この小部屋602をお互いオーバーラップするように設定してもよいが、説明をわかりやすくするために図6ではタイル状に配置した。
実施形態1では、登録時、対象物体の撮影は姿勢のバリエーションを含んだ1セットのみとなるのに対し、実施形態2では例えば図6の状況ならば24セット用意する必要がある。本実施形態の登録画像の取得には非常に手間がかかるので、高精度なコンピュータグラフィックを用いて擬似的な対象物体画像を作成することが、より現実的な実装手法となる。
(処理フロー)
図7は実施形態2の処理フロー図である。701、702、703はそれぞれ図1の101、102、103に対応し、704、705、706はそれぞれ図1の106、107、108に対応する。このため、701〜706については説明を省略する。図1では110の辞書が1つであったが、図7では707にあるように辞書群となっている点が図1と異なる。
708の辞書選択ステップでは、702の注目領域切り出しステップで用いた注目枠に最も近い場所で撮影した辞書を選択する。例えば、図6の点線で表した場所に注目枠が存在する場合、斜線で表した小部屋で撮影した画像群を使って作成された辞書が選択されることとなる。そして、選択された辞書を用いて切り出し入力画像群をマッチングし認識結果を出力する。
709、710、711は、それぞれ図1の110、111、112に対応する。このため、709〜711については説明を省略する。なお、図7の処理フロー図では、切り出した後の撮影画像群の正規化(サイズ変更)の処理は記載されていないが、もちろん正規化を行っても構わない。
図8は図7で説明した処理フロー図を実現するフローチャートである。図8は図5と基本的に同じフローとなる。したがって、図5と処理が異なる部分についてのみ説明する。なお、図7に対応して、図8でも正規化手順を省略しているが、上記の通り、正規化手順を実施しても構わない。
図8が図5と異なる部分は、切り出し画像群を融合(S805)し、特徴抽出(S806)した後で、辞書群の中から適当な辞書を読み出す(S806)ことである。ここで、S802の注目枠位置決定ステップの結果を利用し、現在の注目枠に一番近い場所で撮影した辞書を選択する。これは図7の処理フロー図では、辞書選択ステップ708に対応する。
上記のように、本実施形態では、記憶手段としての外部記憶装置201には部分空間毎に複数の辞書情報が辞書群として記憶されている。そして、本実施形態の情報処理装置は、部分空間毎に抽出された特徴情報の各々を、該部分空間に対応する辞書情報に示される特徴情報とを比較して、対象物体の位置姿勢を推定する。このため、本実施形態では、対象物体の位置に応じて最適な辞書情報を用いて処理を行うため、対象物体の位置姿勢を精確に推定することが可能になる。
<<実施形態3>>
実施形態1、実施形態2においては、カメラの数と撮影画像の数が一致していることを前提としていたが、本実施形態においては1つのカメラで複数の画像を撮影して、複数の撮影画像を取得・入力する。具体的には、ロボットハンド上にカメラを固定して、それを操作することにより異なる視点からの対象物体の撮影を実現する。
例えば、図3に示した3台のカメラで3枚の撮影画像を取得する代わりに、1台のカメラを図3に示した3台のカメラの位置、方向に移動させながら3枚の撮影画像を取得する。なお、図1の入力画像群(101)はカメラを移動させながら取得する一方、登録画像群(106)は図3のように事前に固定したカメラを用いて取得してもよい。
図9は実施形態3を実現する処理をフローチャートにした図である。カメラを所定の位置に移動し(S901)、撮影する(S902)ことによって、撮影画像群を蓄積していく。そして、撮影が終了(S903)すると図5または図8のフローチャートのスタートへ移る。
このように、本実施形態では、同一の撮影手段により複数の撮影位置から撮影された複数の画像を前記撮影画像として入力する。このため、複数の撮影手段を設けなくても、実施形態1,2と同様に精確な位置姿勢の推定を行うことが可能になる。
<<その他の実施形態>>
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。

Claims (11)

  1. 3次元空間内の対象物体の位置姿勢を推定する情報処理装置であって、
    複数の撮影位置から前記対象物体を撮影して得られた複数の撮影画像を入力する入力手段と、
    入力された前記複数の撮影画像の各々から、前記3次元空間内の所定の部分空間が占める領域に対応する部分画像を切り出す切出手段と、
    前記複数の撮影画像からそれぞれ切り出された複数の部分画像の特徴を示す特徴情報を、当該複数の部分画像から抽出する抽出手段と、
    物体の位置姿勢と、当該位置姿勢に対応する当該物体の特徴情報とを関連づけて示す辞書情報を記憶する記憶手段と、
    前記抽出手段が抽出した前記対象物体の特徴情報と、前記辞書情報に示される特徴情報とを比較して、該対象物体の位置姿勢を推定する推定手段と
    を備えることを特徴とする情報処理装置。
  2. 前記切出手段は、前記複数の撮影画像の各々から、複数の前記部分空間のそれぞれに対応する部分画像を切り出し、
    前記抽出手段は、前記部分空間毎に、該部分空間に対応する複数の部分画像からなる集合の特徴を示す特徴情報を抽出し、
    前記推定手段は、前記部分空間毎に抽出された前記特徴情報の各々と、前記辞書情報に示される特徴情報とを比較して、該辞書情報に示される特徴情報との適合度が最も高い特徴情報が抽出された前記部分画像の集合に基づいて、前記対象物体の位置姿勢を推定する
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記記憶手段は前記部分空間毎に前記辞書情報を記憶し、
    前記推定手段は、前記部分空間毎に抽出された前記特徴情報の各々と、該部分空間に対応する前記辞書情報に示される特徴情報とを比較して、前記対象物体の位置姿勢を推定する
    ことを特徴とする請求項2に記載の情報処理装置。
  4. 前記情報処理装置は、前記適合度が予め定められたしきい値以上の前記部分空間の位置を前記対象物体の位置と推定することを特徴とする請求項2に記載の情報処理装置。
  5. 前記情報処理装置は、前記部分空間に対応する複数の部分画像の全てに前記対象物体が占める全領域が表されている場合は、当該部分空間の位置を前記対象物体の位置と推定することを特徴とする請求項2に記載の情報処理装置。
  6. 前記抽出手段は、前記複数の部分画像を融合して単一画像を生成し、当該単一画像の特徴を示す情報を前記特徴情報として抽出することを特徴とする請求項1から5のいずれか1項に記載の情報処理装置。
  7. 前記記憶手段は物体の種類毎に前記辞書情報を記憶し、
    前記推定手段は、前記抽出された特徴情報の各々と、前記物体の種類毎の辞書情報に示される特徴情報の各々とを比較して、前記対象物体の位置姿勢及び種類を推定する
    ことを特徴とする請求項1から6のいずれか1項に記載の情報処理装置。
  8. 前記入力手段は、互いに異なる撮影位置に設けられた複数の撮影手段により撮影された画像を前記複数の撮影画像として入力する請求項1から7のいずれか1項に記載の情報処理装置。
  9. 前記入力手段は、同一の撮影手段により複数の撮影位置から撮影された複数の画像を前記撮影画像として入力する請求項1から7のいずれか1項に記載の情報処理装置。
  10. 物体の位置姿勢と当該位置姿勢に対応する当該物体の特徴情報とを関連づけて示す辞書情報を記憶する記憶手段を備えた、3次元空間内の対象物体の位置姿勢を推定する情報処理装置の制御方法であって、
    入力手段が、複数の撮影位置から前記対象物体を撮影して得られた複数の撮影画像を入力する入力工程と、
    切出手段が、入力された前記複数の撮影画像の各々から、前記3次元空間内の所定の部分空間が占める領域に対応する部分画像を切り出す切出工程と、
    抽出手段が、前記複数の撮影画像からそれぞれ切り出された複数の部分画像の特徴を示す特徴情報を、当該複数の部分画像から抽出する抽出工程と、
    推定手段が、前記抽出工程において抽出された前記対象物体の特徴情報と、前記辞書情報に示される特徴情報とを比較して、該対象物体の位置姿勢を推定する推定工程と
    を有することを特徴とする情報処理装置の制御方法。
  11. コンピュータを請求項1から9のいずれか1項に記載の情報処理装置が備える各手段として機能させるためのプログラム。
JP2010158263A 2010-07-12 2010-07-12 情報処理装置及びその制御方法、プログラム Expired - Fee Related JP5631086B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2010158263A JP5631086B2 (ja) 2010-07-12 2010-07-12 情報処理装置及びその制御方法、プログラム
US13/165,917 US9053546B2 (en) 2010-07-12 2011-06-22 Information processing apparatus, control method therefor, and computer-readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010158263A JP5631086B2 (ja) 2010-07-12 2010-07-12 情報処理装置及びその制御方法、プログラム

Publications (2)

Publication Number Publication Date
JP2012022411A true JP2012022411A (ja) 2012-02-02
JP5631086B2 JP5631086B2 (ja) 2014-11-26

Family

ID=45438617

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010158263A Expired - Fee Related JP5631086B2 (ja) 2010-07-12 2010-07-12 情報処理装置及びその制御方法、プログラム

Country Status (2)

Country Link
US (1) US9053546B2 (ja)
JP (1) JP5631086B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018207426A1 (ja) * 2017-05-09 2018-11-15 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
US10909717B2 (en) 2018-06-29 2021-02-02 National University Corporation Nagoya University Viewpoint recommendation apparatus, recommendation method thereof, and non-transitory computer readable medium
JP7406995B2 (ja) 2020-01-09 2023-12-28 株式会社ProjectA 遊技用システム

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5914992B2 (ja) * 2011-06-02 2016-05-11 ソニー株式会社 表示制御装置、表示制御方法、およびプログラム
IN2013MU01192A (ja) * 2013-03-28 2015-04-24 Tata Consultancy Services Ltd
JP2016139957A (ja) * 2015-01-28 2016-08-04 オリンパス株式会社 撮像装置、撮像方法及び撮像プログラム
KR20180068578A (ko) * 2016-12-14 2018-06-22 삼성전자주식회사 복수의 센서를 이용하여 객체를 인식하는 전자 기기 및 방법
KR20180075224A (ko) * 2016-12-26 2018-07-04 삼성전자주식회사 객체의 인식 결과를 제공하는 방법 및 전자 장치
US10237614B2 (en) * 2017-04-19 2019-03-19 Cisco Technology, Inc. Content viewing verification system
CN109598757A (zh) * 2017-09-30 2019-04-09 爱唯秀股份有限公司 一种用于在空间中捕获物件的3d模型的方法
JP7036783B2 (ja) * 2019-10-09 2022-03-15 株式会社 ミックウェア 位置推定システム、位置推定方法、及び位置推定プログラム
MX2022004292A (es) * 2019-10-09 2022-08-10 Roth River Inc Sistemas y métodos para el monitoreo remoto del inventario y el ciclo de vida del producto.
CN117203677A (zh) * 2021-04-21 2023-12-08 枫熊有限公司 使用计算机视觉的物品识别系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003271928A (ja) * 2002-03-13 2003-09-26 Nippon Hoso Kyokai <Nhk> 三次元モデリング装置及びその方法及びそのプログラム
JP2010146303A (ja) * 2008-12-18 2010-07-01 Fuji Electric Holdings Co Ltd 3次元物体姿勢・位置検出装置、方法、およびプログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3252941B2 (ja) 1994-11-29 2002-02-04 日本電信電話株式会社 画像切り出し認識装置
JP2003022442A (ja) 2001-07-10 2003-01-24 Nippon Telegr & Teleph Corp <Ntt> 物体検出/位置測定方法およびその装置、ならびにこの方法の実行プログラムおよびその記録媒体
JP4556146B2 (ja) * 2008-04-11 2010-10-06 ソニー株式会社 情報処理装置および方法、プログラム、並びに情報処理システム
US9533418B2 (en) * 2009-05-29 2017-01-03 Cognex Corporation Methods and apparatus for practical 3D vision system
JP5361664B2 (ja) * 2009-10-30 2013-12-04 キヤノン株式会社 画像処理装置、画像処理方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003271928A (ja) * 2002-03-13 2003-09-26 Nippon Hoso Kyokai <Nhk> 三次元モデリング装置及びその方法及びそのプログラム
JP2010146303A (ja) * 2008-12-18 2010-07-01 Fuji Electric Holdings Co Ltd 3次元物体姿勢・位置検出装置、方法、およびプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018207426A1 (ja) * 2017-05-09 2018-11-15 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
EP3624060A4 (en) * 2017-05-09 2020-03-25 Sony Corporation INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD, AND PROGRAM
US11263777B2 (en) 2017-05-09 2022-03-01 Sony Corporation Information processing apparatus and information processing method
US10909717B2 (en) 2018-06-29 2021-02-02 National University Corporation Nagoya University Viewpoint recommendation apparatus, recommendation method thereof, and non-transitory computer readable medium
JP7406995B2 (ja) 2020-01-09 2023-12-28 株式会社ProjectA 遊技用システム

Also Published As

Publication number Publication date
US9053546B2 (en) 2015-06-09
JP5631086B2 (ja) 2014-11-26
US20120008830A1 (en) 2012-01-12

Similar Documents

Publication Publication Date Title
JP5631086B2 (ja) 情報処理装置及びその制御方法、プログラム
CN110568447B (zh) 视觉定位的方法、装置及计算机可读介质
WO2019042426A1 (zh) 增强现实场景的处理方法、设备及计算机存储介质
JP5771413B2 (ja) 姿勢推定装置、姿勢推定システム、および姿勢推定方法
EP3547256B1 (en) Extracting a feature descriptor for an image feature
JP5715833B2 (ja) 姿勢状態推定装置および姿勢状態推定方法
US11037325B2 (en) Information processing apparatus and method of controlling the same
JP2021527877A (ja) 3次元人体姿勢情報の検出方法および装置、電子機器、記憶媒体
US20140198951A1 (en) Image processing apparatus and image processing method
JP4709668B2 (ja) 3次元物体認識システム
JP2016099982A (ja) 行動認識装置、行動学習装置、方法、及びプログラム
WO2021218568A1 (zh) 图像深度确定方法及活体识别方法、电路、设备和介质
JP2019114103A (ja) 物体認識処理装置、物体認識処理方法及びプログラム
JP2014134856A (ja) 被写体識別装置、被写体識別方法および被写体識別プログラム
JP6558803B2 (ja) 幾何検証装置及びプログラム
JP2012113438A (ja) 姿勢推定装置および姿勢推定プログラム
JP6016242B2 (ja) 視点推定装置及びその分類器学習方法
US20230100238A1 (en) Methods and systems for determining the 3d-locations, the local reference frames and the grasping patterns of grasping points of an object
JP3940690B2 (ja) 画像処理装置及びその方法
Fehr Covariance based point cloud descriptors for object detection and classification
Hui et al. Determining motion directly from normal flows upon the use of a spherical eye platform
KR20090115738A (ko) 정보 추출 방법, 등록 장치, 대조 장치 및 프로그램
JP2005031044A (ja) 三次元誤差測定装置
CN116051736A (zh) 一种三维重建方法、装置、边缘设备和存储介质
KR20160049639A (ko) 부분 선형화 기반의 3차원 영상 정합 방법

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130712

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140213

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140228

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140424

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140908

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141007

R151 Written notification of patent or utility model registration

Ref document number: 5631086

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees