JP2012178133A - 被写体認識装置、被写体認識方法及び被写体認識プログラム - Google Patents

被写体認識装置、被写体認識方法及び被写体認識プログラム Download PDF

Info

Publication number
JP2012178133A
JP2012178133A JP2011117186A JP2011117186A JP2012178133A JP 2012178133 A JP2012178133 A JP 2012178133A JP 2011117186 A JP2011117186 A JP 2011117186A JP 2011117186 A JP2011117186 A JP 2011117186A JP 2012178133 A JP2012178133 A JP 2012178133A
Authority
JP
Japan
Prior art keywords
subject
data
dimensional
image
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011117186A
Other languages
English (en)
Other versions
JP5647072B2 (ja
Inventor
Hiroko Yabushita
浩子 藪下
Jun Shimamura
潤 島村
Masashi Morimoto
正志 森本
Hideki Koike
秀樹 小池
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2011117186A priority Critical patent/JP5647072B2/ja
Publication of JP2012178133A publication Critical patent/JP2012178133A/ja
Application granted granted Critical
Publication of JP5647072B2 publication Critical patent/JP5647072B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】被写体を高速に認識することができる被写体認識装置を提供する。
【解決手段】被写体の3次元形状データとテクスチャデータに基づいて、所定の視点位置における被写体の2次元展開画像を生成し、生成した2次元展開画像から特徴点データを抽出し、抽出した特徴点データ群と被写体を識別可能な識別情報と関係付けた展開画像特徴量データを記憶した学習データ記憶手段と、認識対象の被写体の画像データから特徴量を抽出し、画像特徴量データとして記憶する被写体特徴量データ記憶手段と、被写体特徴量データ記憶手段に記憶された画像特徴量データと、学習データ記憶手段に記憶された展開画像特徴量データとを照合した結果に基づき、認識対象の被写体の画像データが、学習データ記憶手段に記憶されている被写体のいずれに該当するかを特定し、特定した被写体の識別情報を出力する照合手段とを備えた。
【選択図】図1

Description

本発明は、撮像装置で撮影した被写体を認識する被写体認識装置に関する。
従来から、被写体を特定する装置として、紙等に印刷した2次元のマーカーを対象に貼り付け、このマーカーを携帯電話等に搭載された撮像装置で撮影し、その画像から画像処理によってマーカーに埋め込まれた情報を取得し、対象を特定する技術がある。利用するマーカーとして、例えば、QRコードやバーコードがある。
しかしながら、上記技術では被写体に対してマーカーを貼り付ける必要があり、デザイン性を損なうといった観点やマーカーを貼り付けるスペースを確保する必要があることから、被写体が限定されてしまうという問題がある。
これに対して、マーカーを用いずカメラ等の撮像装置で撮影した画像のみを用いて、対象を特定する画像認識技術がある。例えば、予め被写体を異なる角度から撮影した画像群を学習画像群として記憶しておき、この学習画像群から生成した特徴量データと、利用者が被写体に対して任意の方向から撮影したクエリ画像から得た特徴量とを比較することで、任意の被写体を特定するものがある(例えば、非特許文献1参照)。しかし、被写体が3次元形状の場合、観測方向によって画像上の被写体の構造が変化するため、予め多数の画像群を学習画像群として撮影しておく必要があり、この作業に多大な手間がかかるという問題がある。
このような問題を解決するために、学習画像群の撮影の代わりに、仮想視点を移動させることによって予め入力された被写体の3次元形状とテクスチャから構成されるCG(コンピュータグラフィックス)モデルに対し、コンピュータグラフィックス空間内で被写体を異なる方向から観測した学習画像群を合成し、この合成画像と利用者が被写体に対して任意の方向から撮影したクエリ画像の、両者から得た特徴量の照合によって対象を特定するものがある(例えば、非特許文献1参照)。
村瀬洋,S.Nayar,"2次元照合による3次元物体認識−パラメトリック固有空間法″,信学論(D−II),vol.J77−D−II,no.11,pp.2179−2187,Nov.1994. 望戸雄史,渡辺義浩,小室孝,石川正俊,"Analysis−Synthesis法を用いた三次元物体姿勢推定法のGPUによる実装",第16回画像センシングシンポジウム,2010,講演論文集IS4−17.
しかしながら、上述した従来技術は、学習画像群を任意方向分生成する必要があり、加えて学習対象が複数ある場合には学習対象の分だけ学習画像群を任意方向分生成する必要があり、計算処理量が膨大になるという問題がある。
本発明は、このような事情に鑑みてなされたもので、被写体を高速に認識することができる被写体認識装置、被写体認識方法及び被写体認識プログラムを提供することを目的とする。
本発明は、被写体の3次元形状データとテクスチャデータに基づいて、所定の視点位置における前記被写体の2次元展開画像を生成し、生成した前記2次元展開画像から特徴点データを抽出し、抽出した前記特徴点データ群と前記被写体を識別可能な識別情報と関係付けた展開画像特徴量データを記憶した学習データ記憶手段と、認識対象の被写体の画像データから特徴量を抽出し、画像特徴量データとして記憶する被写体特徴量データ記憶手段と、前記被写体特徴量データ記憶手段に記憶された前記画像特徴量データと、前記学習データ記憶手段に記憶された前記展開画像特徴量データとを照合した結果に基づき、前記認識対象の被写体の画像データが、前記学習データ記憶手段に記憶されている被写体のいずれに該当するかを特定し、特定した被写体の前記識別情報を出力する照合手段とを備えたことを特徴とする。
本発明は、被写体の画像データから特徴量を抽出し、抽出した前記特徴点データ群と前記被写体を識別可能な識別情報と関係付けた画像特徴量データを記憶した学習データ記憶手段と、認識対象の被写体の3次元形状データとテクスチャデータに基づいて、所定の視点位置における前記被写体の2次元展開画像を生成し、生成した前記2次元展開画像から特徴点データを抽出し、抽出した前記特徴点データ群を展開画像特徴量データとして記憶する被写体特徴量データ記憶手段と、前記被写体特徴量データ記憶手段に記憶された前記展開画像特徴量データと、前記学習データ記憶手段に記憶された前記画像特徴量データとを照合した結果に基づき、前記認識対象の被写体の3次元形状データとテクスチャデータが、前記学習データ記憶手段に記憶されている被写体のいずれに該当するかを特定し、特定した被写体の前記識別情報を出力する照合手段とを備えたことを特徴とする。
本発明は、被写体の3次元形状データとテクスチャデータに基づいて、所定の視点位置における前記被写体の2次元展開画像を生成し、生成した前記2次元展開画像から特徴点データを抽出し、抽出した前記特徴点データ群と前記被写体を識別可能な識別情報と関係付けた画像特徴量データを記憶した学習データ記憶手段と、認識対象の被写体の3次元形状データとテクスチャデータに基づいて、所定の視点位置における前記被写体の2次元展開画像を生成し、生成した前記2次元展開画像から特徴点データを抽出し、抽出した前記特徴点データ群を展開画像特徴量データとして記憶する被写体特徴量データ記憶手段と、前記被写体特徴量データ記憶手段に記憶された前記展開画像特徴量データと、前記学習データ記憶手段に記憶された前記画像特徴量データとを照合した結果に基づき、前記認識対象の被写体の3次元形状データとテクスチャデータが、前記学習データ記憶手段に記憶されている被写体のいずれに該当するかを特定し、特定した被写体の前記識別情報を出力する照合手段とを備えたことを特徴とする。
本発明は、前記2次元展開画像は、前記3次元形状データから前記被写体の3次元形状の中心位置と、サンプリング視点群を設定し、前記サンプリング視点と前記3次元形状の中心位置とを結ぶ視線を決定し、該視線と前記3次元形状の交点を決定し、該交点のテクスチャ情報を抽出する処理を、設定した前記サンプリング視点群すべてに対して行うことにより生成することを特徴とする。
本発明は、前記サンプリング視点群は、前記3次元形状の中心位置を中心座標とした球体を設定し、当該球体を視点球とし、該視点球の半径を前記3次元形状の中心位置から3次元形状の表面までの最遠距離よりも大きいものとし、前記サンプリング視点群の位置を、所定距離毎に平行する複数の平面と、該平面に直交し所定距離毎に平行する複数の平面が視点球の表面上で交わる箇所として設定することを特徴とする。
本発明は、前記サンプリング視点群は、前記3次元形状の中心位置を中心座標とした球体を設定し、当該球体を視点球とし、該視点球の半径を前記3次元形状の中心位置から3次元形状の表面までの最遠距離よりも大きいものとし、前記サンプリング視点群の位置を視点球上に、直交する2軸周りを前記3次元形状の中心位置から所定角度毎に設定することを特徴とする。
本発明は、前記被写体を構成する点群を平面毎に分割し、最大点群数を有する回転処理候補面を算出し、原点を通り、前記回転処理候補面に垂直な軸直線を求めて出力する回転処理候補面・軸直線決定手段と、前記回転処理候補面と前記軸直線に基づき、前記被写体を回転する被写体回転手段とをさらに備えたことを特徴とする。
本発明は、前記被写体の所定方向の断面の周囲長を求め、原点を通り、前記断面の最大周囲長である回転処理候補面を求め、前記回転処理候補面に垂直な軸直線を求めて出力する回転処理候補面・軸直線決定手段と、前記回転処理候補面と前記軸直線に基づき、前記被写体を回転する被写体回転手段とをさらに備えたことを特徴とする。
本発明は、前記被写体の所定視点からの正射影した回転処理候補面における投影面積を求め、前記投影面積が最大投影面積となる視点位置と、前記被写体の重心を結ぶ軸直線を求めて出力する回転処理候補面・軸直線決定手段と、前記回転処理候補面と前記軸直線に基づき、前記被写体を回転する被写体回転手段とをさらに備えたことを特徴とする。
本発明は、前記被写体の所定視点からの正射影した投影面積を求め、前記投影面積が最大投影面積となる回転処理候補面を求め、原点を通り、前記回転処理候補面に垂直な軸直線を出力する回転処理候補面・軸直線決定手段と、前記回転処理候補面と前記軸直線に基づき、前記被写体を回転する被写体回転手段とをさらに備えたことを特徴とする。
本発明は、前記被写体を構成する点群を平面毎に分割し、テクスチャ情報が最大となる回転処理候補面を求め、原点を通り、前記回転処理候補面に垂直な軸直線を出力する回転処理候補面・軸直線決定手段と、前記回転処理候補面と前記軸直線に基づき、前記被写体を回転する被写体回転手段とをさらに備えたことを特徴とする。
本発明は、前記被写体の所定視点からの正射影した投影面を求め、テクスチャ情報が最大となる回転処理候補面を求め、原点を通り、前記回転処理候補面に垂直な軸直線を出力する回転処理候補面・軸直線決定手段と、前記回転処理候補面と前記軸直線に基づき、前記被写体を回転する被写体回転手段とをさらに備えたことを特徴とする。
本発明は、被写体の3次元形状データとテクスチャデータに基づいて、所定の視点位置における前記被写体の2次元展開画像を生成し、生成した前記2次元展開画像から特徴点データを抽出し、抽出した前記特徴点データ群と前記被写体を識別可能な識別情報と関係付けた展開画像特徴量データを記憶した学習データ記憶手段と、認識対象の被写体の画像データから特徴量を抽出し、画像特徴量データとして記憶する被写体特徴量データ記憶手段と、照合手段とを備える被写体認識装置上において被写体認識処理を行う被写体認識方法であって、前記照合手段が、前記被写体特徴量データ記憶手段に記憶された前記画像特徴量データと、前記学習データ記憶手段に記憶された前記展開画像特徴量データとを照合した結果に基づき、前記認識対象の被写体の画像データが、前記学習データ記憶手段に記憶されている被写体のいずれに該当するかを特定し、特定した被写体の前記識別情報を出力するステップを有することを特徴とする。
本発明は、被写体の画像データから特徴量を抽出し、抽出した前記特徴点データ群と前記被写体を識別可能な識別情報と関係付けた画像特徴量データを記憶した学習データ記憶手段と、認識対象の被写体の3次元形状データとテクスチャデータに基づいて、所定の視点位置における前記被写体の2次元展開画像を生成し、生成した前記2次元展開画像から特徴点データを抽出し、抽出した前記特徴点データ群を展開画像特徴量データとして記憶する被写体特徴量データ記憶手段と、照合手段とを備える被写体認識装置上において被写体認識処理を行う被写体認識方法であって、前記照合手段が、前記被写体特徴量データ記憶手段に記憶された前記展開画像特徴量データと、前記学習データ記憶手段に記憶された前記画像特徴量データとを照合した結果に基づき、前記認識対象の被写体の3次元形状データとテクスチャデータが、前記学習データ記憶手段に記憶されている被写体のいずれに該当するかを特定し、特定した被写体の前記識別情報を出力するステップを有することを特徴とする。
本発明は、被写体の3次元形状データとテクスチャデータに基づいて、所定の視点位置における前記被写体の2次元展開画像を生成し、生成した前記2次元展開画像から特徴点データを抽出し、抽出した前記特徴点データ群と前記被写体を識別可能な識別情報と関係付けた画像特徴量データを記憶した学習データ記憶手段と、認識対象の被写体の3次元形状データとテクスチャデータに基づいて、所定の視点位置における前記被写体の2次元展開画像を生成し、生成した前記2次元展開画像から特徴点データを抽出し、抽出した前記特徴点データ群を展開画像特徴量データとして記憶する被写体特徴量データ記憶手段と、照合手段とを備える被写体認識装置上において被写体認識処理を行う被写体認識方法であって、前記照合手段が、前記被写体特徴量データ記憶手段に記憶された前記展開画像特徴量データと、前記学習データ記憶手段に記憶された前記画像特徴量データとを照合した結果に基づき、前記認識対象の被写体の3次元形状データとテクスチャデータが、前記学習データ記憶手段に記憶されている被写体のいずれに該当するかを特定し、特定した被写体の前記識別情報を出力するステップを有することを特徴とする。
本発明は、コンピュータを請求項1〜12に記載の被写体認識装置として機能させることを特徴とする。
本発明によれば、高速に被写体を認識することが可能になるという効果が得られる。
本発明の第1の実施形態の構成を示すブロック図である。 被写体データの一例を示す説明図である。 図1に示す2次元画像処理部11の処理動作を示すフローチャートである。 被写体データの一例を示す説明図である。 抽出する特徴点の一例を示す説明図である。 特徴点データの一例を示す説明図である。 図1に示す3次元情報処理部12の処理動作を示すフローチャートである。 サンプリング視点群の設定方法を示す説明図である。 サンプリング視点群の設定方法を示す説明図である。 テクスチャデータを抽出する処理を示す説明図である。 2次元展開画像を生成する処理を示す説明図である。 特徴点データの一例を示す説明図である。 図1に示す照合部13の処理動作を示すフローチャートである。 照合処理を示す説明図である。 被写体認識装置での2次元展開後の画像上の位置と幾何ゆがみの強度関係を示す説明図である。 被写体認識装置での2次元展開図のイメージ図である。 被写体認識装置で照合時に幾何ゆがみを発生させない被写体姿勢を示す説明図である。 本発明の第2の実施形態の構成を示すブロック図である。 図18に示す被写体認識装置の動作を示すフローチャートである。 図18に示す被写体認識装置の動作を示すフローチャートである。 被写体回転部における軸直線を用いた回転の説明図である。 被写体回転部における最小矩形を用いた回転の説明図である。 図18に示す被写体認識装置の動作を示すフローチャートである。 輪郭線の探索方法の一例を示す説明図である。 不向きな形状の物体例を示す説明図である。 図18に示す被写体認識装置の動作を示すフローチャートである。 投影図の求め方の一例を示す説明図である。 図18に示す被写体認識装置の動作を示すフローチャートである。 図18に示す被写体認識装置の動作を示すフローチャートである。 図18に示す被写体認識装置の動作を示すフローチャートである。 本発明の各実施形態における対象物体の形状を示す説明図である。
<第1の実施形態>
以下、図面を参照して、本発明の第1の実施形態による被写体認識装置を説明する。図1は同実施形態の構成を示す機能ブロック図である。被写体認識装置は、コンピュータ装置によって構成する。図1において、符号1は、被写体の認識処理を行う被写体認識部である。符号2は、カメラ等で撮影して得られた2次元画像データを入力する画像入力部である。符号3は、3次元形状データ及びテクスチャデータを入力するデータ入力部である。符号4は、被写体認識処理に必要なデータを記憶する記憶部である。符号5は、キーボード等から構成する入力部である。符号6は、表示装置等から構成する表示部である。
符号11は、予め対象に対して任意の角度から撮影した画像データを画像入力部2を介して入力し、画像の特徴量を抽出して、記憶部4に保存する2次元画像処理部である。符号12は、3次元形状データ(形状の3次元座標データ)とテクスチャデータ(3次元形状表面の模様データ)をデータ入力部3を介して入力し、2次元展開画像を生成し、生成した2次元展開画像から特徴量を抽出して、記憶部4に保存する3次元情報処理部である。符号13は、3次元情報処理部12により得た2次元展開画像の特徴量データと、2次元画像処理部11により得た2次元画像の特徴量データとを照合の上、認識対象の被写体を特定する被写体IDを決定し出力する照合部である。
次に、図1に示す被写体認識装置の処理動作を説明する。ここでは、クエリとして3次元形状データとテクスチャデータを入力し、学習データとして2次元画像群のデータが予め記憶部4に記憶しておくものとして説明する。なお、2次元画像群のデータは対象の被写体を任意の角度から撮影したものとし、図2で示すように予め対象の被写体毎に唯一に付与された被写体IDや名前などの各種情報が関連づけられて保存されているものとする。また、被写体の3次元形状データとテクスチャデータは、例えば携帯電話等に搭載された撮像装置で対象を撮影し、その画像から画像処理によって生成したものでもよいし、レンジファインダ等のセンサーによって計測したものでもよい。また、コンピュータグラフィックス(CG)技術によって手動で生成したものでもよい。
次に、図3を参照して、図1に示す2次元画像処理部11が入力画像から特徴量を抽出し、この特徴量を学習データとして記憶部4に記憶する動作を説明する。図3は、図1に示す2次元画像処理部11が入力画像から特徴量を抽出し、この特徴量を学習データとして記憶部4に記憶する動作を示すフローチャートである。まず、ユーザが入力部5を操作して、2次元画像の入力を指示すると、2次元画像処理部11は、画像入力部2から2次元画像データを入力する(ステップS1)。そして、2次元画像処理部11は、入力した画像から、特徴量を抽出する(ステップS2)。この特徴量抽出処理は、例えば、文献:H.Bay,T.Tuytelaars, and L.V.Gool,"SURF:SpeedUp Robust Features",Proc. of Int. Conf. of ECCV, (2006)に記載の方法や、ヒストグラム等の公知の方法を用いて実行する。
この特徴量抽出処理は入力画像の枚数分繰り返し実行する。
最後に、対象の被写体IDと、各々の画像から得られたk次元の特徴量を関連付けて記憶部4に保存し、これを2次元画像特徴量データとし、学習データとして用いる。例えば、特徴量の上記文献の方法を用い、図4に示す被写体IDが「001」の2次元画像を入力としたときの特徴点を抽出した結果を図5に示す。この時特徴点は各々128次元の特徴量を持ち、各々の特徴量を記憶部4に保存した例を図6に示す。これにより、被写体ID毎に、かつ特徴点を識別する特徴点番号毎に、k(128)次元の特徴量のデータが記憶部4に保存されることになる。
次に、図7を参照して、図1に示す3次元情報処理部12がクエリとして入力した入力データ(3次元形状データとテクスチャデータ)から特徴量を抽出して記憶部4に保存する動作を説明する。図7は、図1に示す3次元情報処理部12が入力データから特徴量を抽出して記憶部4に保存する動作を示すフローチャートである。まず、ユーザが入力部5を操作して、クエリとして3次元情報入力を指示すると、3次元情報処理部12は、データ入力部3を介して対象の被写体の3次元形状データとテクスチャデータを入力する(ステップS11)。
次に、3次元情報処理部12は、入力した3次元形状データで定義される3次元形状の中心位置を決定する(ステップS12)。中心位置は3次元形状内部であれば、任意の点で良く、中心位置の決定は例えば、3次元形状を構成する全点の3次元座標情報から重心位置(Xg,Yg,Zg)を算出し、その点を中心位置とすればよい。重心位置は(1)式によって算出する。なお、(1)式においてnは3次元形状として記録された点の総数を示す。nは形状を表現するのに十分な数であればよく、該点は複雑形状であれば多く必要であり、単純形状であれば少数でよい。例えば立方体ならn=8で表現できる。
Figure 2012178133
次に、3次元情報処理部12は、設定した3次元形状の中心位置を中心座標とした球体を設定し、この球体を視点球とする。なお、視点球の半径は3次元形状の中心位置から3次元形状の表面までの最遠距離よりも大きいものとする。続いて、3次元情報処理部12は、視点球の表面上にサンプリング視点群を設定する(ステップS13)。サンプリング視点群の設定方法は、図8に示すように、ある距離ごとに平行する複数の平面と、平面群に直交しかつ所定距離ごとに平行する複数の平面が視点球の表面上で交わる箇所としてもよい。また、図9に示すように、ある直交する2軸周りを、3次元形状の中心位置から角度が一定となるように配置してもよい。
なお、3次元形状の中心位置に対し視点球を構成する2軸は任意でよい。例えば、視点球を構成する2軸をそれぞれsX軸,sY軸としたとき、x軸,y軸,z軸で構成されるオブジェクト座標系のx軸とsX軸を一致させ、またオブジェクト座標系のy軸とsY軸を一致させてもよい。また部分的な3次元形状データやテクスチャデータに対して、部分的にサンプリング視点群を設定してもよい。例えば、球状にある任意の点をsX軸を回転の軸として0°〜180°まで1°ずつ変化させ、その各々の角度にある点からsY軸まわりを1回転し1°ずつサンプリング視点を設定してもよい。サンプリング視点を設定する角度は1°でなくてもよいが、小さく設定した方がサンプリング数が増え、角度を大きく設定するとサンプリング数が減る。
次に、3次元情報処理部12は、サンプリング視点と3次元形状の中心位置を結ぶ線である視線を決定し(ステップS14)、決定した視線と3次元形状の交点のテクスチャデータを抽出する。この時、図10に示すように、視線と3次元形状の交点うち、サンプリング視点に近い方のテクスチャデータを抽出する。テクスチャデータとして、例えば画素のRGB値を抽出する。
なお、テクスチャデータは交点のテクスチャデータのみではなく、交点に隣接する数画素のテクスチャデータや、交点のデプス情報をともに抽出するようにしてもよい。また、サンプリング視点の観測の角度や、各サンプリング視点の密度を関連付けて抽出してもよい。抽出方法は、例えばコンピュータグラフィクスで使われるピッキング技術を用いることで実現する。3次元情報処理部12は、視線の決定(ステップS14)と、視線と3次元形状の交点のテクスチャ情報の抽出処理(ステップS15)を、全サンプリング視点数分繰り返し実行する。
次に、3次元情報処理部12は、抽出したテクスチャデータ群の2次元展開画像を生成し出力する(ステップS16)。2次元展開画像の縦横のサイズは、例えば図9で示すサンプリング視点の設定において、サンプリング角度を一定としたとき、2次元展開画像の縦のピクセル数をH、横のピクセル数をWとおくと、HとWはそれぞれ(2)式によって算出できる。
Figure 2012178133
なお、(2)式において、Δdx,Δdyはそれぞれ視点球を構成するsX軸、sY軸を回転の軸としたときのサンプリング角度を示す。抽出処理結果の2次元展開画像上の位置は、図11に示すように2次元展開画像左下を原点とし、sX軸を回転の軸としたとき0°を起点とし、サンプリング角度Δdx毎角度が大きくなるとともに2次元展開画像のy軸方向に順に、またsY軸を回転の軸としたとき0°を起点とし、サンプリング角度Δdy毎回転角度が大きくなるとともにx軸方向に順に、それぞれ交点のテクスチャデータの抽出処理結果を展開することで実現する。
最後に、3次元情報処理部12は、前述した特徴量抽出(ステップS2)手法と同じ方法を用いて、2次元展開画像の特徴量を抽出し(ステップS17)、得られた特徴量を識別可能な特徴点番号と関係付けて記憶部4に保存する(ステップS18)。図12に、記憶部4に2次元展開画像の特徴量抽出結果データとして保存した特徴量データを示す。これにより、記憶部4には、入力した3次元形状データとテクスチャデータとから得た2次元展開画像の特徴量が記憶されることになる。
次に、図13を参照して、図1に示す照合部13がクエリと学習データを照合して結果を出力する動作を説明する。図13は、図1に示す照合部13がクエリと学習データを照合して結果を出力する動作を示すフローチャートである。まず、照合部13は、記憶部4からクエリとして入力した3次元形状データとテクスチャデータとから得た2次元展開画像の特徴量抽出結果のデータ(図12)を読み出す(ステップS21)とともに、記憶部4に学習データとして記憶されている2次元画像特徴量データ(図6)を読み出す(ステップS22)。
次に、照合部13は、図14に示すように、読み出した2次元展開画像の特徴量データと2次元画像特徴量データとを照合する(ステップS23)。照合は、読み出した特徴量データそれぞれの特徴量1〜特徴量kまでのk次元ベクトルのベクトル間距離を算出し、2次元画像特徴量データの中で2次元展開画像の特徴量データとの距離が予め定めた閾値より小さくなる組を求め、該当する被写体IDに対して投票を行うことにより行う。そして、照合部13は、2次元展開画像のすべての特徴点において照合を行った結果から、投票数が最も多いものを最短距離の対象の被写体であると決定し、この被写体IDを表示部6に出力する(ステップS24)。
なお、特徴量データのベクトル間距離を算出した結果、予め定めた閾値より小さくなる組が存在しなかった場合には対象被写体が存在しないため投票は行わない。このため、全ての被写体IDに対して投票が行われなかった場合は、対象の被写体は存在しないと見なして、照合結果として何も出力しない。
また、前述した説明においては、3次元形状データとテクスチャデータをクエリ、2次元画像データ群を学習データとして被写体を特定する形態について説明したが、2次元画像データをクエリ、3次元形状データとテクスチャデータを学習データとして被写体を特定するようにしてもよい。この場合は2次元画像処理部11において被写体IDと関連付ける処理は必要なく、また3次元情報処理部12において、各々の特徴量抽出結果と被写体IDを関連付けて保存するようにすればよい。
クエリとして2次元画像データを入力し、学習データとして3次元形状データとテクスチャデータを入力とする場合、クエリは被写体を任意の角度から撮影した2次元画像データとし、学習データは3次元形状データとテクスチャデータが、予め対象ごとに唯一に付与された対象IDや名前などの各種情報が関連づけられて保存されていればよい。さらに、対象の3次元形状データとテクスチャデータは、例えば携帯電話等に搭載された撮像装置で対象を撮影し、その画像から画像処理によって生成したものでもよいし、レンジファインダ等のセンサーによって計測したものでもよい。また、コンピュータグラフィックス(CG)技術によって手動で生成したものでもよい。
さらに、クエリ、及び学習データの双方を3次元形状データとテクスチャデータとして被写体を特定するようにしてもよい。
以上説明したように、被写体の認識を行う際に、被写体データと学習データの照合に用いる特徴量のデータとして、被写体である物体の3次元形状データとテクスチャデータから2次元展開画像に変換し、2次元展開画像の特徴量データを用いて照合を行うようにしたため、高速に被写体を認識するための照合処理を実行することが可能になる。
<第2の実施形態>
次に、本発明の第2の実施形態による被写体認識装置を説明する。第1の実施形態では、3次元形状の中心位置に対し、視点球を構成する2軸は任意でよいものとして説明したが、第2の実施形態以降では、精度を向上させることができる被写体認識装置について説明する。
前述したように、「ある直交する2軸周りを、3次元形状の中心位置から角度が一定となるように配置」する方法をとる時、視点球を構成する2軸のうち1軸に対応する座標値に対しサンプリング視点群の密度が偏るため、2次元展開画像として展開した画素情報に幾何的なゆがみが生じてしまうという問題がある。この幾何ゆがみは3次元の球体に投影した情報を2次元展開画像として表現するため発生自体を避けることは難しい。しかし2次元展開画像生成時における視点球を構成する2軸に対する被写体の姿勢によってその発生箇所や影響の大きさが異なるため、被写体を特徴づける要素であり照合する際に有意となる情報を多く含む箇所を求められればこの箇所に発生する幾何ゆがみを最小限に抑制するように、視点球を構成する2軸に対する被写体の姿勢を決定付けて照合の精度劣化を防ぐことができる。第2の実施形態以降は、この特徴をとらえ、被写体を特徴づける要素であり照合する際に有意となる情報を多く含む箇所を求め、この箇所には幾何ゆがみを発生しないよう被写体を回転させるものである。
以降説明のため、図15に示すようにサンプリング視点群の設定時に視点球を構成するSX軸、SY軸に加え原点で2軸に直交するSZ軸を設定する。図15〜17に姿勢に応じて変化する2次元展開画像上での幾何ゆがみについて示す。図16に被写体を認識する際に有意となる情報が前記被写体の姿勢によって展開画像上でどのように変化し得るか概念図を示す。図16(上)に被写体を照合する際に有意となる情報に対し幾何ゆがみが最小限ですんでいる様子、図16(下)に被写体を照合する際に有意となる情報に幾何ゆがみが大きく発生している様子を示している。図15にサンプリングした画素情報を2次元展開画像として展開したとき、この画像上での位置と幾何ゆがみの発生強度の関係を示す。2次元展開画像を為す2軸をx軸、y軸とすると該画像の中心からy座標方向の距離の絶対値が大きい画素になるほど、2次元展開する前の幾何情報に対し展開後の画素に幾何的なゆがみが大きく発生することとなる。図17に、サンプリング視点群の設定時に視点球を構成するSX軸とSY軸の2軸のうちSY軸に対する情報量を多く含む箇所の座標の範囲と、幾何ゆがみの発生強度の関係を示す。SY軸に対する座標の範囲が広くなるほど2次元展開する前の幾何情報に対し展開後の画素に幾何的なゆがみが大きく発生する部位が増加することとなる。
図18に、第2の実施形態における被写体認識装置の構成を示す。図18に示す装置が、図1に示す装置と異なる点は、回転処理候補面・軸決定部121と被写体回転部122が設けられている点である。回転処理候補面・軸決定部121では被写体の中で、照合の際に有意となる情報を多く含む箇所の候補を選定し、被写体回転部122では選定された箇所を幾何ゆがみの発生の少ない箇所へ回転する。回転処理候補面・軸決定部121は、テクスチャ付き3次元形状、原点、サンプリング視点群を入力データとし、回転処理候補面と軸直線を出力する。被写体回転部122は、テクスチャ付き3次元形状、回転処理候補面、軸直線、原点を入力とし、回転による座標変換後のテクスチャ付き3次元形状を出力する。
なお、以下の説明においては、被写体を照合する際に有意となる情報を以後情報量と呼ぶ。被写体のすべての面のテクスチャが面積に応じて均一な情報量を持つと仮定したとき、照合の際に有意となる情報を多く含むのは面積が広い面である。第2〜第4の実施形態は、情報量を多く含む箇所を被写体の照合対象面積を中心に求める方法を示し、その平面性やテクスチャの特異性からの算出方法を第5、第6の実施形態に示す。ただし、情報量の規定方法は面積、平面性、テクスチャの特異性の限りではない。
次に、図19を参照して、被写体を構成する点群の平面分割に基づき被写体の中で情報量が最大となる箇所の候補を求め、最大情報量を為す平面形状をもとにこの箇所に幾何ゆがみが発生しないよう被写体を回転する方法を説明する。
まず、被写体を構成する点群の平面分割に基づく回転処理候補面・軸決定部121の処理動作を説明する。はじめに、対象のデータを入力し(ステップS31)、続いて、文献「金野哲士,今野晃市,”点群の平面性に基づく領域分割による稜線抽出法”,第126回グラフィックスとCAD研究会,Vol.2007,No.13,pp.13−18,(2007).」による手法に基づき、被写体を構成する点群を平面ごとに分割し(ステップS32)、その点群数が最も多い面を特定し式を算出する(ステップS33)。面の式は面を為す点が3点以上あれば計算可能であるので、最も点群数の多い面を構成する点群の中から任意の3点を選び計算しても良い。その場合3点の座標を面の一般式である式(3)に代入し、連立方程式を解き、(3)式中のa,b,c,dを算出することで求めることができる。これによって求まった平面を回転処理候補面とする。
ax+by+cz+d=0・・・(3)
次に、原点を通り前記面と垂直となる直線を求めこの直線を軸直線とし(ステップS34)、最後にこの軸直線の式と前記回転処理候補面の式と、面を構成するすべての座標群を出力する(ステップS35)。
次に、図20を参照して、被写体回転部122の処理動作を説明する。まず、対象データを入力し(ステップS41)、SX,SZ軸で為る平面とこの軸直線が為す角の角度を求める(ステップS42)。この角度は、軸直線と視点球の交点2点の極座標値を算出し、図21に示すように、その角度成分のうち小さい方の角度分原点を中心として時計回りを正として被写体を回転する(ステップS43)。そして、図22に示すように平面を包含する最小矩形を求める(ステップS44)。この矩形を求める際、文献「Godfried T. Toussaint, "Solving geometric problems with the rotating calipers," Proceedings of IEEE MELECON'83, Athens, Greece, May 1983.」に記載のRotating Calipers法を用いても良い。最後に、最小矩形の短い方の辺がSX軸SZ軸で為る平面に垂直となる回転角を算出し(ステップS45)、この回転角に基づき、軸直線を回転の軸として回転する(ステップS46)。そして、座標変換後の3次元形状を出力する(ステップS47)。
このように、平面分割することで、点群の量もしくは面積が最大である平面を求めることで被写体を回転することを実現する。その特性上曲面形状でのみ為る形状など、不向きな図形が存在する。しかし、予め被写体が主に平面形状で為るような物体のカテゴリに属すことが分かっている場合はこの方法により求めることができる。
<第3の実施形態>
次に、本発明の第3の実施形態による被写体認識装置を説明する。第3の実施形態による被写体認識装置は、曲面を含む被写体を対象とした被写体認識を行うためのものである。図23を参照して、被写体の2次元断面図における輪郭の長さである周囲長が最大となる箇所が、情報量が多い箇所であるとして候補となる被写体の断面図を求め、この2次元断面図上の被写体形状をもとに、情報量が多い箇所に幾何ゆがみが発生しないよう被写体を回転する方法を説明する。
はじめに、被写体の断面図の周囲長に基づく回転処理候補面・軸決定121の処理動作を説明する。まず、対象データを入力し(ステップS51)、被写体の最大周囲長を求める。最大周囲長は、設定したサンプリング視点群の位置情報を扱い、サンプリング視点から被写体を見たときの視線に垂直でかつ被写体の重心を通る平面で被写体の断面図を生成し(ステップS52)、断面図上の被写体の輪郭線を求め、この輪郭線の長さである周囲長を求める(ステップS53)。
なお、図24に示すように断面図の画素を左上から順に注目画素をずらしながら輪郭線探索していき、輪郭線上の点を発見したら以降注目画素の左下から反時計周りに8方向の探索を行い、連結する画素を連続する輪郭点間の距離の総和として算出しても良い。本処理をサンプリング視点数分繰り返し行い、この周囲長が最大となる断面図を為すサンプリング視点を算出する。なお、あるサンプリング視点から被写体を見たときの視線の延長上に他のサンプリング視点を有する場合は、断面図が一致するためどちらか一方の処理を省いても良い。これによって最大でサンプリング視点の半数分の処理を省くことができる。この箇所はサンプリング視点から見ることのできる被写体の面積が広い面の候補である。最後に最大周囲長を持つ被写体の断面図と、重心と前記最大周囲長の断面図を得るサンプリング視点を結ぶ直線を算出する(ステップS54)。そして、算出した回転処理候補面と、軸直線を出力する(ステップS55)。
なお、被写体回転部122の処理動作は、第2の実施形態と同様であるので、ここでは詳細な説明を省略する。
なお、第2の実施形態による方法は、凹形状に代表されるように不向きな図形が存在する。例えば図25に示すように凹形状を多く含む図形の場合、被写体を構成する面のうち最大面積を持つ面は選ばれない。しかし、予め被写体が凸形状で為るような物体カテゴリに属すことが分かっている場合はこの方法により求めることができる。
<第4の実施形態>
次に、本発明の第4の実施形態による被写体認識装置を説明する。第4の実施形態による被写体認識装置は、すべての形状の被写体を対象とした被写体認識のためのものである。図26を参照して、被写体の2次元投影画像を用いてこの投影画像の面積から被写体の中で情報量が最大となる箇所の候補を求め、2次元投影画像上での被写体の形状をもとに、情報量が最大の箇所に幾何ゆがみが発生しないよう被写体を回転する方法を説明する。
はじめに、被写体の2次元投影画像の面積に基づく回転処理候補面・軸決定部121の処理動作を説明する。まず、対象データを入力し(ステップS61)、図27に示すようにサンプリング視点から原点対象となる球上の点と、その球上の点を共有し前記視線とで為す直線に垂直な平面を求め、その平面上に被写体を正射影し射影した図形を2次元投影画像として、該2次元投影画像の面積(投影面積)を求める(ステップS62)。面積の算出方法は一般的にCG(コンピュータグラフィックス)分野で用いられるラベリング処理により、同じ数字のついた画素の中で最大面積のものをノイズではない被写体の投影画像として、画素を数え上げることにより求めてもよい。この処理をサンプリング視点数分行う(ステップS63)。なお、各サンプリング視点の原点対象となる点が他のサンプリング視点と一致する場合は処理を省いても良いので、最大でサンプリング視点の半数回分処理を短縮することができる。最大投影面積を求め、最大投影面積となるときの視点位置を記録する。
次に、図21に示すように、視点と被写体の重心をつなぐ直線を軸直線として、SX,SZ軸で為る平面とこの軸直線が為す角を求める。この角度は最大投影面積となるサンプリング視点の極座標値の角度成分が90°以下の場合は同値をとり、角度成分が90°を超す場合は180°から角度成分を減算したものが該当する。原点を中心として被写体を回転し、第2の実施形態と同様にして投影面を包含する最小矩形を求め、視線を回転の軸として回転する。そして、回転処理候補面と軸直線を出力する(ステップS64)。
以上第2〜第4の実施形態では、照合の際に重要となる情報量を、被写体をある視点から見たときの2次元面積の大きさから定義した方法である。なお、照合の際重要となる情報量は被写体をある視点から見たときの2次元面積のみではなく、その平面性やテクスチャのエントロピーで定義することもできる。第2〜第4の実施形態において回転処理候補面・軸を決定する際に単一ではなく複数候補算出し、その平面性やテクスチャのエントロピーを求め情報量が多く照合のしやすい面に投票を行い、最大投票数を得たものを最大情報量の箇所として以降の回転処理を行っても良い。
<第5の実施形態>
次に、図28を参照して、本発明の第5の実施形態による被写体認識装置を説明する。前述した説明において、図25右図Fに示すように求められた回転処理候補面が複数平面の複合で為る場合、照合の際に特徴量を算出する対象となるテクスチャの色情報に連続性が保たれない。そのため、求めた複数の回転処理候補面において、連続する最大面の大きさを比較することで更に被写体認識の精度劣化を防ぐことができるようになる。
そこで、被写体の2次元投影画像を用いてこの投影画像の面積と平面性から被写体の中で情報量が最大となる箇所の候補を求め、2次元投影画像上での被写体の形状をもとにこの箇所に幾何ゆがみが発生しないよう被写体を回転する方法を説明する。
はじめに、被写体の2次元投影画像の面積と平面性に基づく回転処理候補面・軸決定部121の処理動作を説明する。まず、サンプリング視点から原点対象となる球状の点と、この点を共有し視線とで為す直線に垂直な平面を求め、その平面上に被写体を正射影し射影した図形を2次元投影画像とし、この2次元投影画像の面積(投影面積)を求める。この処理をサンプリング視点数分行う。なお、各サンプリング視点の原点対象となる点が他のサンプリング視点と一致する場合は処理を省いても良いので、最大でサンプリング視点の半数回分処理を短縮することができる。このとき、最大なものから複数の投影面積を求め、それぞれの対となる視点位置を記録する。
次に、対象データ(第3の実施形態において算出した複数の回転処理候補面)を入力し(ステップS71)、複数候補面それぞれを前述した方法と同じように平面分割し(ステップS72)、それぞれの最大となる面を候補面として更新し(ステップS73)、複数の候補面から更新後の面積が最大となる候補面を選定し、軸直線を算出する(ステップS74)。そして、得られた回転処理候補面と軸直線を出力する(ステップS75)。なお、連続性の保たれている曲面にも対応できるよう球表面に作成した投影面を為す点から視線と平行となる線上で一番視点に近い被写体上の点を求めていき、この点群と投影面の距離ヒストグラムを作成し、このヒストグラムの分散が大きければ凹凸の多い形状、この分散が小さければ平面性が高いものとして求めるようにしてもよい。
次に、図21に示すように、視点と被写体の中心をつなぐ直線を軸直線として、SX,SZ軸で為る平面とこの軸直線が為す角を求める。この角度は最大投影面積となるサンプリング視点の極座標値の角度成分が90°以下の場合は同値をとり、該角度成分が90°を超す場合は180°から該角度成分を減算したものが該当する。原点を中心として被写体を回転する。続いて、前述した処理動作と同様にして投影面を包含する最小矩形を求め、視線を回転の軸として回転する。
なお、ここでは、候補面を面積の大きさ、平面性の順に絞り込む形で最終的な候補面を選定したが、その順序はこの限りでは無く、またそれぞれの評価の際の順位の逆数値などをすべての評価において順位の逆数値の合計をとるなどの、投票手法によって求めても良い。
ここまで、情報量の大きさを面積と平面性から求める方法を記載したが、テクスチャの特異性が照合の際に重要な要素となることもある。そこで以下テクスチャの特異性やエントロピーなどの要素をテクスチャ情報量と呼び、面積や平面性に加え、該当箇所のテクスチャ情報量を用いた情報量の求め方を示す。
<第6の実施形態>
次に、図29を参照して、本発明の第6の実施形態による被写体認識装置を説明する。ここでは、情報量の大きさを平面分割による面積の大きさとテクスチャ情報量から求める方法を説明する。
はじめに、被写体を構成する点群の平面分割とテクスチャ情報に基づき被写体の中で情報量が最大となる箇所の候補を求め、最大情報量を為す平面形状をもとにこの箇所に幾何ゆがみが発生しないよう被写体を回転する方法を説明する。まず、前述したように、被写体を構成する点群を平面ごとに分割しその点群数が最も多い面を特定し式を算出する。面の式は面を為す点が3点以上あれば計算可能であるので、最も点群数の多い面を構成する点群の中から任意の3点を選び計算しても良い。その場合3点の座標を面の一般式である式(1)に代入し、連立方程式を解き、(1)式中のa,b,c,dを算出することで求めることができる。これによって求まった平面を回転処理候補面とする。点群数の多い面からこの回転処理候補面を複数求める。続いて、原点を通り、面と垂直となる直線をそれぞれ求め、この直線を軸直線とし、最後に軸直線の式と回転処理候補面の座標群と式を出力する。
次に、対象データ(第1の実施形態において算出された複数の回転処理候補面)を入力し(ステップS81)、複数候補面それぞれに対し、濃度共起行列からテクスチャのエントロピーを求め、このエントロピーをテクスチャ情報量を算出し(ステップS82)、最大値の候補面を算出する(ステップS83)。続いて、原点を通りこの候補面に垂直な直線を軸直線を算出する(ステップS84)。そして、算出した回転処理候補面と軸直線を出力する(ステップS85)。
なお、テクスチャ情報量は、文献「竹村和久,ユーリガタノフ,高橋英彦,“描画の画像解析による偏見研究法” 第49回日本社会心理学会大会,(2008年).」に記載の手法に基づき、濃度共起行列から算出したエントロピーのほか、エネルギーや相関、局所一様性、慣性から算出しても良い。また濃度差分行列から算出したコントラスト、角度別二次モーメント、エントロピー、平均、逆差分モーメント等によって表現してもよい。
次に、被写体回転122の処理動作を説明する。まず、SX軸,SZ軸で為る平面とこの軸直線が為す角を求める。この角度は軸直線と視点球の交点2点の極座標値を算出し、その角度成分のうち小さい方の角度分原点を中心として時計回りを正として被写体を回転する。そして、平面を包含する最小矩形を求める。最後にこの最小矩形の短い方の辺がSX軸,SZ軸で為る平面に垂直となるよう軸直線を回転の軸として回転する。
最後に情報量の大きさを投影面積による面積の大きさ、平面性、テクスチャ情報量から求める方法を以下に示す。
<第7の実施形態>
次に、図30を参照して、本発明の第7の実施形態による被写体認識装置を説明する。ここでは、被写体の2次元投影画像を用いて、投影画像の面積と平面性とテクスチャの情報量から被写体の中で情報量が最大となる箇所の候補を求め、2次元投影画像上での被写体の形状をもとに、この箇所に幾何ゆがみが発生しないよう被写体を回転する方法を説明する。
はじめに、被写体の2次元投影画像の面積と平面性に基づく回転処理候補面・軸決定部121の処理動作を説明する。まず、サンプリング視点から原点対象となる球状の点と、この点を共有し視線とで為す直線に垂直な平面を求め、その平面上に被写体を正射影し射影した図形を2次元投影画像として、2次元投影画像の面積(投影面積)を求める。この処理をサンプリング視点数分行う。なお、各サンプリング視点の原点対象となる点が他のサンプリング視点と一致する場合は処理を省いても良いので、最大でサンプリング視点の半数回分処理を短縮することができる。このとき、最大なものから複数の投影面積を求め、それぞれの対となる視点位置を記録する。
次に、複数候補面それぞれを平面分割し、それぞれの最大となる面を候補面として更新し、複数の候補面から更新後の面積が最大となる候補面を上位から複数選定し、それぞれの軸直線を算出する。なお、連続性の保たれている曲面にも対応できるよう球表面に作成した投影面を為す点から視線と平行となる線上で一番視点に近い被写体上の点を求めていき、この点群と投影面の距離ヒストグラムを作成し、このヒストグラムの分散が大きければ凹凸の多い形状、この分散が小さければ平面性が高いものとして求めることもできる。
次に、対象データ(第5の実施形態において算出された複数の回転処理候補面)を入力し(ステップS91)、複数候補面それぞれに対し、濃度共起行列からテクスチャのエントロピーを求め、このエントロピーをテクスチャ情報量とし(ステップS92)、最大値の候補面を算出し(ステップS93)、原点を通りこの候補面に垂直な直線を軸直線とする(ステップS94)。そして、算出した回転処理候補面と軸直線を出力する(ステップS95)。
なお、テクスチャ情報量は濃度共起行列から算出したエントロピーのほか、エネルギーや相関、局所一様性、慣性から算出しても良い。また濃度差分行列から算出したコントラスト、角度別二次モーメント、エントロピー、平均、逆差分モーメント等によって表現してもよい。
つぎに、視点と被写体の中心をつなぐ直線を軸直線として、SX,SZ軸で為る平面とこの軸直線が為す角を求める。この角度は最大投影面積となるサンプリング視点の極座標値の角度成分が90°以下の場合は同値をとり、該角度成分が90°を超す場合は180°から該角度成分を減算したものが該当する。そして、原点を中心として被写体を回転する。続いて、投影面を包含する最小矩形を求め、視線を回転の軸として回転する。
なお、候補面を面積の大きさ、平面性、テクスチャ情報量の順に絞り込む形で最終的な候補面を選定したが、その順序はこの限りでは無く、またそれぞれの評価の際の順位の逆数値などをすべての評価において順位の逆数値を合計をとるなどの、投票によって求めても良い。
以上説明した第2〜第7の実施形態は、図31に示す関係になっている。すなわち、第2の実施形態は、対象物体が平面からなる物体であり、平面分割に基づく処理を行うものである。第3の実施形態は、対象物体が曲面を含む物体であり、周囲長の基づく処理を行うものである。第4の実施形態は、対象物体が平面と曲面を含む物体であり、投影面に基づく処理を行うものである。第5の実施形態は、第4の実施形態の処理に平面性の処理を加えたものである。第6の実施形態は、第2の実施形態の処理にテクスチャ情報量の処理を加えたものである。第7の実施形態は、第5の実施形態の処理にテクスチャ情報量の処理を加えたものである。
このように、被写体と視点球の回転軸との位置関係により、生成される2次元展開画像には大きな幾何ゆがみが生じる箇所があるが、被写体の特徴点の多い箇所が歪の大きく生じる箇所にあたらないように、視点球の回転軸に対する被写体の姿勢を決定するようにしたため、高速に被写体を認識することが可能になる。
なお、図1、図18における処理部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより被写体認識処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
以上、本発明を実施形態例に基づき具体的に説明したが、上記実施の形態の説明は、本発明を説明するためのものであって、特許請求の範囲に記載の発明を限定し、或いは範囲を減縮する様に解すべきではない。また、本発明の各部の構成は、上記実施の形態に限らず、特許請求の範囲に記載の技術的範囲内で種々の変形が可能であることは勿論である。
撮像装置で撮影した画像を使用して被写体を認識することが不可欠な用途に適用できる。
1・・・被写体認識部、11・・・2次元画像処理部、12・・・3次元情報処理部、121・・・回転処理候補面・軸決定部、122・・・被写体回転部、13・・・照合部、2・・・画像入力部、3・・・データ入力部、4・・・記憶部、5・・・入力部、6・・・表示部

Claims (16)

  1. 被写体の3次元形状データとテクスチャデータに基づいて、所定の視点位置における前記被写体の2次元展開画像を生成し、生成した前記2次元展開画像から特徴点データを抽出し、抽出した前記特徴点データ群と前記被写体を識別可能な識別情報と関係付けた展開画像特徴量データを記憶した学習データ記憶手段と、
    認識対象の被写体の画像データから特徴量を抽出し、画像特徴量データとして記憶する被写体特徴量データ記憶手段と、
    前記被写体特徴量データ記憶手段に記憶された前記画像特徴量データと、前記学習データ記憶手段に記憶された前記展開画像特徴量データとを照合した結果に基づき、前記認識対象の被写体の画像データが、前記学習データ記憶手段に記憶されている被写体のいずれに該当するかを特定し、特定した被写体の前記識別情報を出力する照合手段と
    を備えたことを特徴とする被写体認識装置。
  2. 被写体の画像データから特徴量を抽出し、抽出した前記特徴点データ群と前記被写体を識別可能な識別情報と関係付けた画像特徴量データを記憶した学習データ記憶手段と、
    認識対象の被写体の3次元形状データとテクスチャデータに基づいて、所定の視点位置における前記被写体の2次元展開画像を生成し、生成した前記2次元展開画像から特徴点データを抽出し、抽出した前記特徴点データ群を展開画像特徴量データとして記憶する被写体特徴量データ記憶手段と、
    前記被写体特徴量データ記憶手段に記憶された前記展開画像特徴量データと、前記学習データ記憶手段に記憶された前記画像特徴量データとを照合した結果に基づき、前記認識対象の被写体の3次元形状データとテクスチャデータが、前記学習データ記憶手段に記憶されている被写体のいずれに該当するかを特定し、特定した被写体の前記識別情報を出力する照合手段と
    を備えたことを特徴とする被写体認識装置。
  3. 被写体の3次元形状データとテクスチャデータに基づいて、所定の視点位置における前記被写体の2次元展開画像を生成し、生成した前記2次元展開画像から特徴点データを抽出し、抽出した前記特徴点データ群と前記被写体を識別可能な識別情報と関係付けた画像特徴量データを記憶した学習データ記憶手段と、
    認識対象の被写体の3次元形状データとテクスチャデータに基づいて、所定の視点位置における前記被写体の2次元展開画像を生成し、生成した前記2次元展開画像から特徴点データを抽出し、抽出した前記特徴点データ群を展開画像特徴量データとして記憶する被写体特徴量データ記憶手段と、
    前記被写体特徴量データ記憶手段に記憶された前記展開画像特徴量データと、前記学習データ記憶手段に記憶された前記画像特徴量データとを照合した結果に基づき、前記認識対象の被写体の3次元形状データとテクスチャデータが、前記学習データ記憶手段に記憶されている被写体のいずれに該当するかを特定し、特定した被写体の前記識別情報を出力する照合手段と
    を備えたことを特徴とする被写体認識装置。
  4. 前記2次元展開画像は、前記3次元形状データから前記被写体の3次元形状の中心位置と、サンプリング視点群を設定し、前記サンプリング視点と前記3次元形状の中心位置とを結ぶ視線を決定し、該視線と前記3次元形状の交点を決定し、該交点のテクスチャ情報を抽出する処理を、設定した前記サンプリング視点群すべてに対して行うことにより生成することを特徴とする請求項1から3のいずれかに記載の被写体認識装置。
  5. 前記サンプリング視点群は、前記3次元形状の中心位置を中心座標とした球体を設定し、当該球体を視点球とし、該視点球の半径を前記3次元形状の中心位置から3次元形状の表面までの最遠距離よりも大きいものとし、前記サンプリング視点群の位置を、所定距離毎に平行する複数の平面と、該平面に直交し所定距離毎に平行する複数の平面が視点球の表面上で交わる箇所として設定することを特徴とする請求項4記載の被写体認識装置。
  6. 前記サンプリング視点群は、前記3次元形状の中心位置を中心座標とした球体を設定し、当該球体を視点球とし、該視点球の半径を前記3次元形状の中心位置から3次元形状の表面までの最遠距離よりも大きいものとし、前記サンプリング視点群の位置を視点球上に、直交する2軸周りを前記3次元形状の中心位置から所定角度毎に設定することを特徴とする請求項4記載の被写体認識装置。
  7. 前記被写体を構成する点群を平面毎に分割し、最大点群数を有する回転処理候補面を算出し、原点を通り、前記回転処理候補面に垂直な軸直線を求めて出力する回転処理候補面・軸直線決定手段と、
    前記回転処理候補面と前記軸直線に基づき、前記被写体を回転する被写体回転手段と
    をさらに備えたことを特徴とする請求項1から6のいずれかに記載の被写体認識装置。
  8. 前記被写体の所定方向の断面の周囲長を求め、原点を通り、前記断面の最大周囲長である回転処理候補面を求め、前記回転処理候補面に垂直な軸直線を求めて出力する回転処理候補面・軸直線決定手段と、
    前記回転処理候補面と前記軸直線に基づき、前記被写体を回転する被写体回転手段と
    をさらに備えたことを特徴とする請求項1から6のいずれかに記載の被写体認識装置。
  9. 前記被写体の所定視点からの正射影した回転処理候補面における投影面積を求め、前記投影面積が最大投影面積となる視点位置と、前記被写体の重心を結ぶ軸直線を求めて出力する回転処理候補面・軸直線決定手段と、
    前記回転処理候補面と前記軸直線に基づき、前記被写体を回転する被写体回転手段と
    をさらに備えたことを特徴とする請求項1から6のいずれかに記載の被写体認識装置。
  10. 前記被写体の所定視点からの正射影した投影面積を求め、前記投影面積が最大投影面積となる回転処理候補面を求め、原点を通り、前記回転処理候補面に垂直な軸直線を出力する回転処理候補面・軸直線決定手段と、
    前記回転処理候補面と前記軸直線に基づき、前記被写体を回転する被写体回転手段と
    をさらに備えたことを特徴とする請求項1から6のいずれかに記載の被写体認識装置。
  11. 前記被写体を構成する点群を平面毎に分割し、テクスチャ情報が最大となる回転処理候補面を求め、原点を通り、前記回転処理候補面に垂直な軸直線を出力する回転処理候補面・軸直線決定手段と、
    前記回転処理候補面と前記軸直線に基づき、前記被写体を回転する被写体回転手段と
    をさらに備えたことを特徴とする請求項1から6のいずれかに記載の被写体認識装置。
  12. 前記被写体の所定視点からの正射影した投影面を求め、テクスチャ情報が最大となる回転処理候補面を求め、原点を通り、前記回転処理候補面に垂直な軸直線を出力する回転処理候補面・軸直線決定手段と、
    前記回転処理候補面と前記軸直線に基づき、前記被写体を回転する被写体回転手段と
    をさらに備えたことを特徴とする請求項1から6のいずれかに記載の被写体認識装置。
  13. 被写体の3次元形状データとテクスチャデータに基づいて、所定の視点位置における前記被写体の2次元展開画像を生成し、生成した前記2次元展開画像から特徴点データを抽出し、抽出した前記特徴点データ群と前記被写体を識別可能な識別情報と関係付けた展開画像特徴量データを記憶した学習データ記憶手段と、認識対象の被写体の画像データから特徴量を抽出し、画像特徴量データとして記憶する被写体特徴量データ記憶手段と、照合手段とを備える被写体認識装置上において被写体認識処理を行う被写体認識方法であって、
    前記照合手段が、前記被写体特徴量データ記憶手段に記憶された前記画像特徴量データと、前記学習データ記憶手段に記憶された前記展開画像特徴量データとを照合した結果に基づき、前記認識対象の被写体の画像データが、前記学習データ記憶手段に記憶されている被写体のいずれに該当するかを特定し、特定した被写体の前記識別情報を出力するステップを有することを特徴とする被写体認識方法。
  14. 被写体の画像データから特徴量を抽出し、抽出した前記特徴点データ群と前記被写体を識別可能な識別情報と関係付けた画像特徴量データを記憶した学習データ記憶手段と、認識対象の被写体の3次元形状データとテクスチャデータに基づいて、所定の視点位置における前記被写体の2次元展開画像を生成し、生成した前記2次元展開画像から特徴点データを抽出し、抽出した前記特徴点データ群を展開画像特徴量データとして記憶する被写体特徴量データ記憶手段と、照合手段とを備える被写体認識装置上において被写体認識処理を行う被写体認識方法であって、
    前記照合手段が、前記被写体特徴量データ記憶手段に記憶された前記展開画像特徴量データと、前記学習データ記憶手段に記憶された前記画像特徴量データとを照合した結果に基づき、前記認識対象の被写体の3次元形状データとテクスチャデータが、前記学習データ記憶手段に記憶されている被写体のいずれに該当するかを特定し、特定した被写体の前記識別情報を出力するステップを有することを特徴とする被写体認識方法。
  15. 被写体の3次元形状データとテクスチャデータに基づいて、所定の視点位置における前記被写体の2次元展開画像を生成し、生成した前記2次元展開画像から特徴点データを抽出し、抽出した前記特徴点データ群と前記被写体を識別可能な識別情報と関係付けた画像特徴量データを記憶した学習データ記憶手段と、認識対象の被写体の3次元形状データとテクスチャデータに基づいて、所定の視点位置における前記被写体の2次元展開画像を生成し、生成した前記2次元展開画像から特徴点データを抽出し、抽出した前記特徴点データ群を展開画像特徴量データとして記憶する被写体特徴量データ記憶手段と、照合手段とを備える被写体認識装置上において被写体認識処理を行う被写体認識方法であって、
    前記照合手段が、前記被写体特徴量データ記憶手段に記憶された前記展開画像特徴量データと、前記学習データ記憶手段に記憶された前記画像特徴量データとを照合した結果に基づき、前記認識対象の被写体の3次元形状データとテクスチャデータが、前記学習データ記憶手段に記憶されている被写体のいずれに該当するかを特定し、特定した被写体の前記識別情報を出力するステップを有することを特徴とする被写体認識方法。
  16. コンピュータを請求項1〜12に記載の被写体認識装置として機能させることを特徴とする被写体認識プログラム。
JP2011117186A 2011-02-03 2011-05-25 被写体認識装置、被写体認識方法及び被写体認識プログラム Expired - Fee Related JP5647072B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011117186A JP5647072B2 (ja) 2011-02-03 2011-05-25 被写体認識装置、被写体認識方法及び被写体認識プログラム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2011021909 2011-02-03
JP2011021909 2011-02-03
JP2011117186A JP5647072B2 (ja) 2011-02-03 2011-05-25 被写体認識装置、被写体認識方法及び被写体認識プログラム

Publications (2)

Publication Number Publication Date
JP2012178133A true JP2012178133A (ja) 2012-09-13
JP5647072B2 JP5647072B2 (ja) 2014-12-24

Family

ID=46979916

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011117186A Expired - Fee Related JP5647072B2 (ja) 2011-02-03 2011-05-25 被写体認識装置、被写体認識方法及び被写体認識プログラム

Country Status (1)

Country Link
JP (1) JP5647072B2 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014085933A (ja) * 2012-10-25 2014-05-12 Nippon Telegr & Teleph Corp <Ntt> 3次元姿勢推定装置、3次元姿勢推定方法、及びプログラム
JP2014157509A (ja) * 2013-02-15 2014-08-28 Canon Inc 情報処理装置、情報処理方法
KR101439966B1 (ko) 2014-03-06 2014-09-12 (주) 골프존 뎁스 정보를 이용한 영상의 재구성을 위한 영상 처리 방법 및 이를 이용한 영상 처리 장치
JP2017033278A (ja) * 2015-07-31 2017-02-09 三菱電機ビルテクノサービス株式会社 設備管理台帳作成支援システム、設備管理台帳作成支援装置及びプログラム
JP2019534510A (ja) * 2016-10-05 2019-11-28 マジック リープ, インコーポレイテッドMagic Leap,Inc. 表面モデル化システムおよび方法
WO2023032085A1 (ja) * 2021-09-01 2023-03-09 日本電気株式会社 映像送信システム、端末装置および映像送信方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000193435A (ja) * 1998-12-25 2000-07-14 Nitto Seiko Co Ltd 対象物の画像処理方法
JP2002197472A (ja) * 2000-12-26 2002-07-12 Masahiro Tomono 物体認識方法
JP2004362128A (ja) * 2003-06-03 2004-12-24 Shimizu Corp モデル画像照合における3次元姿勢の補正手法
JP2008102611A (ja) * 2006-10-17 2008-05-01 Canon Inc 画像処理装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000193435A (ja) * 1998-12-25 2000-07-14 Nitto Seiko Co Ltd 対象物の画像処理方法
JP2002197472A (ja) * 2000-12-26 2002-07-12 Masahiro Tomono 物体認識方法
JP2004362128A (ja) * 2003-06-03 2004-12-24 Shimizu Corp モデル画像照合における3次元姿勢の補正手法
JP2008102611A (ja) * 2006-10-17 2008-05-01 Canon Inc 画像処理装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
村瀬洋 外1名: "2次元照合による3次元物体認識 パラメトリック固有空間法", 電子情報通信学会論文誌D−II, vol. 第J77-D-II巻 第11号, JPN6014015374, 25 November 1994 (1994-11-25), pages 2179 - 2187, ISSN: 0002930514 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014085933A (ja) * 2012-10-25 2014-05-12 Nippon Telegr & Teleph Corp <Ntt> 3次元姿勢推定装置、3次元姿勢推定方法、及びプログラム
JP2014157509A (ja) * 2013-02-15 2014-08-28 Canon Inc 情報処理装置、情報処理方法
KR101439966B1 (ko) 2014-03-06 2014-09-12 (주) 골프존 뎁스 정보를 이용한 영상의 재구성을 위한 영상 처리 방법 및 이를 이용한 영상 처리 장치
JP2017033278A (ja) * 2015-07-31 2017-02-09 三菱電機ビルテクノサービス株式会社 設備管理台帳作成支援システム、設備管理台帳作成支援装置及びプログラム
JP2019534510A (ja) * 2016-10-05 2019-11-28 マジック リープ, インコーポレイテッドMagic Leap,Inc. 表面モデル化システムおよび方法
WO2023032085A1 (ja) * 2021-09-01 2023-03-09 日本電気株式会社 映像送信システム、端末装置および映像送信方法

Also Published As

Publication number Publication date
JP5647072B2 (ja) 2014-12-24

Similar Documents

Publication Publication Date Title
CN108509848B (zh) 三维物体的实时检测方法及系统
Huang et al. A coarse-to-fine algorithm for matching and registration in 3D cross-source point clouds
JP5618569B2 (ja) 位置姿勢推定装置及びその方法
JP5771413B2 (ja) 姿勢推定装置、姿勢推定システム、および姿勢推定方法
JP5647072B2 (ja) 被写体認識装置、被写体認識方法及び被写体認識プログラム
CN104007817B (zh) 具有至少一个摄像机的可穿戴信息系统
Glasner et al. aware object detection and continuous pose estimation
CN109859305A (zh) 基于多角度二维人脸的三维人脸建模、识别方法及装置
JP2012043308A (ja) 位置姿勢決定方法、位置姿勢決定装置、物体モデル生成方法、物体モデル生成装置、およびプログラム
JP4938748B2 (ja) 画像認識装置及びプログラム
Ao et al. A repeatable and robust local reference frame for 3D surface matching
JP2014102746A (ja) 被写体認識装置及び被写体認識プログラム
JP2014164483A (ja) データベース生成装置、カメラ姿勢推定装置、データベース生成方法、カメラ姿勢推定方法、およびプログラム
JP2013101423A (ja) 画像マッチング装置及び画像マッチングプログラム
Zhang et al. A fast method for measuring the similarity between 3d model and 3d point cloud
JP5536124B2 (ja) 画像処理システム及び画像処理方法
JP6016242B2 (ja) 視点推定装置及びその分類器学習方法
Barros et al. Real-time human pose estimation from body-scanned point clouds
CN103034859B (zh) 一种获取姿势模型的方法及装置
JP5723301B2 (ja) 被写体認識装置及び被写体認識プログラム
JP6946912B2 (ja) 推定プログラム、推定装置、及び推定方法
Kim et al. Object recognition and pose estimation using KLT
Matusiak et al. Depth-based descriptor for matching keypoints in 3D scenes
JP3706603B2 (ja) データ特徴抽出装置及びデータ照合装置
Li et al. Analysis of range images used in 3D facial expression recognition systems

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20130606

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130731

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20130801

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140314

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140415

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140516

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141104

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141106

R150 Certificate of patent or registration of utility model

Ref document number: 5647072

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees