JP5275373B2 - 画像認識装置、画像認識方法及びプログラム - Google Patents

画像認識装置、画像認識方法及びプログラム Download PDF

Info

Publication number
JP5275373B2
JP5275373B2 JP2011003592A JP2011003592A JP5275373B2 JP 5275373 B2 JP5275373 B2 JP 5275373B2 JP 2011003592 A JP2011003592 A JP 2011003592A JP 2011003592 A JP2011003592 A JP 2011003592A JP 5275373 B2 JP5275373 B2 JP 5275373B2
Authority
JP
Japan
Prior art keywords
curvature
image
point
recognized
reference data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011003592A
Other languages
English (en)
Other versions
JP2012146108A (ja
Inventor
淳 菅原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2011003592A priority Critical patent/JP5275373B2/ja
Publication of JP2012146108A publication Critical patent/JP2012146108A/ja
Application granted granted Critical
Publication of JP5275373B2 publication Critical patent/JP5275373B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明の実施形態は、物体の画像を認識する画像認識装置、画像認識方法及びプログラムに関する。
物体を認識処理する際に、対象物体に、スケール変化、回転変化、部分隠れがあると、物体認識は一般に難しくなる。
スケール変化及び回転変化に対応可能な技術として、物体の輪郭線の全周囲の曲率変化をグラフ化(ベクトル化)し、このスケール変化及び回転変化に対して不変のグラフを画像マッチングに用いる技術が知られている。しかしながら、遮蔽されている部分のグラフを描くことは困難であることから、この技術は、部分隠れに対応可能でない。
部分隠れに強いマッチング技術として、SIFT(Scale Invariant Feature Transform)特徴量を用いた技術が現在注目されている。SIFTは、DOG(Difference of Gaussian)という方法で抽出した特徴点の周りの輝度変化方向ヒストグラムをベクトル化してマッチングを行うものである。しかしながら、この技術は、平面内に多くの絵柄を必要とするものであり、精密な輪郭線マッチングには不向きである。また、ヒストグラムのビンは、8方向のみなので、曲線同士の緻密なマッチングには、不向きである。
特開平10−55447号公報 米国特許第6711293号公報
スケール変化、回転変化、部分隠れがある物体の認識は、一般に難しい。特に特徴点の少ない物体に関しては、SIFTなどの手法でも困難である。
本実施形態は、スケール変化、回転変化、部分隠れがある物体に対して、物体表面の絵柄の有無にかかわらず、物体認識を可能にする画像認識装置、画像認識方法及びプログラムを提供することを目的とする。
実施形態によれば、取得部と、第1の抽出部と、第2の抽出部と、基準データ記憶部と、認識処理部とを備える。取得部は、認識対象となる物体の画像を取得する。第1の抽出部は、前記認識対象となる物体の画像の輪郭線における曲率が極大又は極小となる曲率極値点を抽出する。第2の抽出部は、求められた各々の前記曲率極値点ごとに、当該曲率極値点と当該曲率極値点に係る曲率半径中心と前記輪郭線に基づく局所的な特徴ベクトルを抽出する。基準データ記憶部は、基準となる物体の画像に係る各々の前記曲率極値点ごとに求められた、当該曲率極値点に係る前記特徴ベクトルを含む基準データを記憶する。認識処理部は、前記認識対象となる物体の画像に係る各々の前記曲率極値点ごとに、当該曲率極値点に係る前記特徴ベクトルを、前記基準となる物体の画像に係る前記特徴ベクトルと照合して、前記認識対象となる物体の画像に係る前記曲率極値点と、前記基準となる物体の画像に係る前記曲率極値点とを対応付ける。
実施形態に係る物体認識装置の一構成例を示す図。 局所的な特徴量について概略的に説明するための図。 実施形態に係る物体認識装置の登録時の概略的な動作例を示すフローチャート。 実施形態に係る物体認識装置の認識処理時の概略的な動作例を示すフローチャート。 実施形態に係る前処理部の内部構成の一例を示す図。 実施形態に係る基準データ抽出部の内部構成の一例を示す図。 実施形態に係る認識処理部の内部構成の一例を示す図。 実施形態に係る物体認識装置の登録時の詳細な動作例を示すフローチャート。 局所的な特徴量について詳しく説明するための図。 登録時の処理の例について説明するための図。 認識時の処理の例について説明するための図。 実施形態に係る物体認識装置の認識処理時の詳細な動作例を示すフローチャート。 実施形態の効果について説明するための図。 実施形態の効果について説明するための図。 実施形態の効果について説明するための図。 本実施形態に係る物体認識装置の他の構成例を示す図。 比較例について説明するための図。 比較例について説明するための図。
以下、図面を参照しながら本発明の実施形態に係る物体認識装置について詳細に説明する。なお、以下の実施形態では、同一の番号を付した部分については同様の動作を行うものとして、重ねての説明を省略する。
最初に、物体の画像の輪郭全周囲の曲率変化をグラフ化する比較例について説明する。
認識対象として図17の(a)に示すような形状の物体があったとする。
輪郭線上の位置をx(t),y(t)とし、tを媒介変数とすると、各点tにおける曲率k(t)は、次の式(1)で表すことができる。
Figure 0005275373
そして、横軸にt、縦軸に曲率をとると、(b)のようなグラフが得られる。図中の目盛は、最大曲率を1.0に規格化し、一周を100に規格化しているので、対象物体のスケール変化に対して不変である。例えば、(a)の物体を(c)のように拡大しても、曲率を表すグラフは、(b)のグラフと同じである。さらに、例えば最大曲率を常に横軸の左端にしておけば、(a)から(d)のような回転変化に対しても、(b)のグラフは不変である。
それゆえ、このグラフを画像マッチングに用いれば、スケール変化や回転変化に対して不変のマッチングが可能となる。具体的には、例えば、グラフを適度な粒度で縦切りしてベクトル化し、登録画像のベクトルと、新規入力画像のベクトルとを比較することによりマッチングを行う。ベクトルの比較には、ユークリッド距離の近さなどの類似度を尺度にする。
しかし、この手法は、対象物体に部分隠れがあると成り立たなくなる。
例えば、図17(a)と同じ形状の物体に対して、その一部を遮蔽する遮蔽物(図18の(a)の斜線部900参照)が存在する場合を考える。この場合、得られる曲率グラフは、図18の(b)のようになる。すなわち、遮蔽されている部分のグラフは描くことはできない(901,902参照)。このような場合、縦軸の曲率や、横軸の周囲長を規格化することはできない。対象物体の見えている部分だけでグラフを規格化すると、対象物体の全体が見えている場合に規格化されたグラフから変化してしまう可能性があるので、部分隠れがある対象物体を、全体が見えている物体とマッチングすることは困難である。
そこで、本実施形態では、スケール変化、回転変化があり得るだけでなく、部分隠れがあり得る場合にも、対象物体に対する認識を可能にする。また、SIFTで必要とする物体表面の絵柄を不要とする物体輪郭線のマッチングを可能にし、SIFTよりも緻密なマッチングを行うことを可能にする。
詳しくは後述するが本実施形態では、部分隠れに対応するために、局所的な特徴量を用いる。図2の太線で示すような物体の局所的輪郭(物体の輪郭線の曲率極大点及び曲率極小点の近傍)から固有の特徴量を抽出し(ただし、図2は、局所特徴量自体を示すものではない。)、局所特徴量同士をマッチングさせることにより、部分隠れに対してロバストにするものである(すなわち、幾つかの局所的輪郭が部分隠れしていても、見えている局所的輪郭から、物体認識が可能になる)。
以下、本実施形態について詳しく説明する。
なお、以下の説明において、物体の画像の輪郭線において曲率が極大になる点(以下、曲率極大点)と、物体の画像の輪郭線において曲率が極小になる点(以下、曲率極小点)とを総称して、曲率極値点(或いは極値点)と呼ぶことがある。
図1に、本実施形態に係る物体認識装置の構成例を示す。
図1に示されるように、本実施形態の物体認識装置1は、基準データ記憶部11、画像取得部12、前処理部13、基準データ抽出部14、認識処理部15、認識結果出力部16を含む。
本実施形態の物体認識装置1は、基準とする物体から所定の特徴量(及び後述する関連情報)を抽出して、これを認識処理時の照合における基準となるデータ(すなわち、辞書データ或いは登録画像データ)(以下、基準データと呼んで説明する。)として登録する機能、及び、認識対象とする物体を認識処理する機能を有する。
なお、本実施形態の物体認識装置は、例えば、サービスロボット、FA、施設保全、セキュリティー、車載、医用機器など各種自動化機器の物体検出・認識に利用することができる。
図3に、物体認識装置1の基準データ登録時の概略的な動作例を示す。
まず、画像取得部12により、基準とする物体の画像を取得する(ステップS1)。次に、前処理部12により、取得した画像に所定の前処理を施す(ステップS2)。次に、基準データ抽出部14により、前処理により得られたデータから、基準データを抽出する(ステップS3)。そして、抽出した基準データを、所定の形で基準データ記憶部11に登録する(ステップS4)。
図4に、物体認識装置1の認識処理時の概略的な動作例を示す。
まず、画像取得部12により、認識対象とする物体の画像を取得する(ステップS11)。次に、前処理部12により、取得した画像に所定の前処理を施す(ステップS12)。次に、認識処理部15により、前処理により得られたデータから、特徴データを抽出し、該特徴データと、基準データ記憶部11に登録されている基準データに係る特徴データとをもとに、認識対象物体に対する認識結果を求める(ステップS13)。そして、認識結果出力部16により、認識結果を出力する(ステップS14)。
以下、各部について説明する。
基準データ記憶部11は、上記の基準データを記憶する。
本実施形態では、登録物体に係る基準データは、例えば、当該物体の画像の輪郭線における各曲率極値点(曲率極大点及び曲率極小点)ごとに、当該曲率極値点に係る特徴ベクトル(当該曲率極値点の曲率半径中心から輪郭線へのθ間隔でのn本の放射線の各(基準化した)長さからなる曲率ベクトル)と、関連情報とを対応付けて(例えば、ハフ変換用データベースとして)登録したものである。
関連情報は、例えば、スケール変化、回転変化に関係するデータであり、具体的には、例えば、当該曲率極値点の曲率半径、当該曲率極値点から当該物体の画像における重心への線分の方向ベクトル(長さs、所定の方向(例えば、水平方向)からの角度α)、当該曲率極値点の輪郭線に対する接線と当該方向ベクトルとのなす角度β)などである。
また、基準データは、関連情報として、スケール変化、回転変化に関係するデータの代わりに又はこれに加えて、当該登録物体の画像データそのもの又は輪郭のみ抽出したデータを含んでも良い(なお、このデータは、全曲率極値点に共通のデータになる)。
なお、基準データ記憶部11に基準データを登録するにあたって、実際には、例えば、KD−Treeを作成しても良い。
画像取得部12は、物体の画像を取得するためのものである。画像取得部12は、典型的には、例えば、実際の物体を撮像するカメラであるが、その代わりに又はこれに加えて、例えば、物体の写真、CG又はイラストを読み込むOCR、物体を作図するソフトウェアツール、既に電子化されている物体の画像を、ネットワークを介して取得する通信装置や、記録媒体に記録されている物体の画像を読み込む、ドライブ装置などの全部又は一部を含んでも良い。
前処理部13は、取得した物体の画像に、所定の前処理を施す。所定の前処理は、例えば、物体の画像における重心の抽出と、物体の画像における輪郭線の抽出と、該輪郭線における曲率極値点の探索である。
図5に、本実施形態に係る前処理部13の内部構成の一例を示す。図5に示されるように、本例の前処理部13は、物体の画像における重心を抽出する重心抽出部131、物体の画像における輪郭線を抽出する輪郭線抽出部132、該輪郭線における曲率極値点を抽出する曲率極値点抽出部133を含んでも良い。
基準データ抽出部14は、基準データ登録時に、登録対象とする物体の前処理データから、上記基準データを抽出して、上記記憶部11に登録する。
図6に、本実施形態に係る基準データ抽出部14の内部構成の一例を示す。図6に示されるように、本例の基準データ抽出部14は、登録対象とする物体の画像から特徴ベクトルを抽出する特徴ベクトル抽出部141、登録対象とする物体の画像から関連情報抽出部142を含んでも良い。
認識処理部15は、対象物体の認識処理時に、当該認識対象物体の画像の輪郭線における各曲率極値点ごとに、当該曲率極値点に係る特徴ベクトルと、基準データ記憶部11に登録された基準データの各曲率極値点に係る特徴ベクトルとを照合して、基準データにおける対応する曲率極値点を特定する。また、基準データのうち当該認識対象物体の(遮蔽されずに見えている)各曲率極値点との対応関係が特定された各曲率極値点に係る関連情報を利用して、該認識対象とする物体に対する認識結果を求める。
詳しくは後述するが、例えば、認識対象とする物体の画像の輪郭線における各曲率極値点ごとに、当該曲率極値点に係る特徴ベクトル及び曲率を抽出し、抽出した特徴ベクトルと、登録された基準データに係る特徴ベクトルとを照合して、対応する関連情報を取得し、認識対象物体の曲率Rと関連情報の曲率rと方向ベクトルの長さsとから、認識対象物体の当該曲率極値点から推定重心までの長さSを求めるとともに、認識対象物体の当該曲率極値点の接線と関連情報の角度βから、当該曲率極値点から見た推定重心の方向を求め(これによって、推定重心の位置が特定される)、更に、例えば、認識対象物体の当該曲率極値点から当該物体の重心への方向ベクトルの(例えば、水平方向からの)角度αと、関連情報の角度αとから、認識対象物体の方位角(認識対象物体が、登録された基準データに係る物体の状態に比較して、どのくらい回転しているかを示す角度)を求める。
図7に、本実施形態に係る認識処理部15の内部構成の一例を示す。図7に示されるように、本例の認識処理部15は、認識対象とする物体の画像から特徴ベクトルを抽出する特徴ベクトル抽出151、特徴ベクトル同士の照合処理を行う照合部152、照合の結果に基づき、関連情報を利用して、認識結果を生成する関連情報処理部153を含んでも良い。
認識結果出力部16は、認識結果を出力するためのものである。認識結果出力部16は、認識結果をネットワークを介して送信する通信装置であっても良いし、認識結果を記録媒体に書き込むドライブ装置であっても良いし、認識結果を表示するディスプレイ装置であっても良いし、それらの2以上を含んでも良い。
なお、上記構成は一例であり、種々変形して実施することが可能である。例えば、曲率極値点の探索を、前処理部13ではなく、基準データ抽出部14及び認識処理部15でそれぞれ行っても良い。また、物体の重心の抽出及び曲率極値点の探索を、前処理部13ではなく、基準データ抽出部14及び認識処理部15でそれぞれ行っても良い。また、物体認識時には、物体の重心の抽出を行わなくても良い。また、基準データ抽出部14における特徴ベクトル抽出部141と、認識処理部15における特徴ベクトル抽出部151とを共通化しても良い。
図8に、物体認識装置1の登録時の詳細な動作例を示す。
なお、図8のS101が図3のS1に対応し、図8のS102〜S106が図3のS2に対応し、図8のS107〜S114が図3のS3に対応する(図8では、図3のS4に対応するステップは図示を省略されている)。
ここでは、登録対象となる物体として、図9(a)の1001に示すようなスプーン形状の物体を具体例にとりつつ説明する。なお、図9(b)では、図9(a)の1002の部分を拡大して説明する。
まず、登録対象となる物体の画像を入力し、必要に応じて二値化するなどし(ステップS101)、該対象物体の重心を計算する(ステップS102)。
そして、例えばCannyオペレータなどの手法により輪郭線エッジ(1003参照)を検出する(ステップS103)。
そして、このエッジを点列化し(ステップS104)、この点列への曲線フィッティング(1004参照)を行うことによって、輪郭線を抽出する(ステップS105)。
画像1001は、実際には、拡大した画像1002に示すように、画素の大きさで量子化されており、曲率計算のために微分すると、極端に大きな値や、小さな値が発生してしまう。そこで、画素の点列をスムーシングする必要があり、曲線フィッティングを行う(1004参照)。曲線は、フィッティング性能を高めるため4次関数が好ましく、最小二乗法又はスプライン補間などでフィッティングを行っても良い。
なお、輪郭線を抽出するにあたっては、輪郭線の全周囲の曲率を計算する。曲率計算は、前述の数式(1)で行うことができる。
この曲率をさらに微分して、全ての曲率極値点を探す(ステップS106)。
曲率極値点には、曲率極大点と曲率極小点が含まれる。曲率極大点の曲率をkmax(t)、曲率極小点の曲率をkmin(t)で表すと、曲率極値点の曲率半径rは、r=1/|kmax(t)|又はr=1/|kmin(t)|で表される。
次に、各曲率極値点に対して、ステップS108〜S110の処理と、ステップS111〜S112の処理を行う(S107)。
ステップS108で、曲率極値点の曲率半径中心を計算し、ステップS109で、曲率半径中心から元のフィッティング曲線(すなわち、輪郭線)へθ間隔で放射線状にn本の放射線を引いたときの各放射線の長さを計算し、ステップS110で、それら放射線の長さをN次元成分とする特徴ベクトルを作成する。
この処理について、図9を参照しながら説明すると、曲率極値点(1005参照)の接線から曲率半径r(r=1/|kmax(t)|又はr=1/|kmin(t)|)(例としてr=rとする)だけ離れた点(1006参照)が、曲率極値点においてフィッティング曲線に外接する円(1007参照)の中心となる。この円の中心(1006参照)から、フィッティング曲線すなわち輪郭線(1004参照)へ等角度間隔(θ)で引いたn本の放射線(1007)の長さ要素とするベクトルを定義する。なお、スケール不変性を出すために、各放射線の長さをrで割って規格化したものをベクトルの要素とするのが望ましい。
この場合、曲率極値点の曲率半径をr、各放射線の長さをr〜rとすると、ベクトルは、次の式(2)で表される。
Figure 0005275373
これらの操作により曲率極値点付近の曲線を、スケール不変のベクトルにすることができた。この特徴ベクトルを曲率ベクトルと呼ぶこととする。この曲率ベクトルは、同時に回転不変性も持つ。
放射線の間隔θと本数nは、任意に決めることができる。ただし、登録時と認識時で同じ値を使用するものとする。具体例として、例えば、θ=5°、n=31が挙げられるが、これに制限されるものではない。
なお、曲率ベクトルのマッチングには、kNN(k−ニアレスト・ネイバー)法すなわち、最近傍探索法などを用いることができる。もちろん、ベクトル間の距離又は類似度に基づく他の種々の方法を使用することも可能である。
一方、ステップS111で、曲率極値点から重心への方向ベクトルの長さsを計算し、ステップS112で、曲率極値点の接点と、重心への方向ベクトルとのなす角度βを計算する。
ここで、一般化ハフ変換について説明する。
直線検出のためのハフ変換を、Ballard(Ballard, D.H., “Generalizing the Hough transform to detect arbitrary patterns”, Pattern Recognition, 13(2):pp.111-122. 1981.)が一般図形に拡張したものが、一般化ハフ変換である。これを用いて、データベース登録画像に対する入力画像の回転量、平行移動量を算出し、さらに、不良ペアのフィルタリングを行う。
図10を参照しながら説明する。図10の登録画像用のスプーン形状の物体の画像1010の例においては、6つの曲率極値点(すなわち、4つの曲率極大点1011,1013,1014,1015と、2つの曲率極小値点1012,1016)が存在する。図10に示されるように、各々の曲率極値点(例えば、1011、1013)から重心1020へ線分(補助線)(例えば、1021、1022)を引き、この線分(例えば、1021、1022)と、当該曲率極値点の接線(例えば、1023、1024)とのなす角β(例えば、β、β)及び線分の長さs(例えば、s、s)をそれぞれ求める。
なお、各々の曲率極値点から重心への線分(例えば、1021、1022)について、予め決められた方向に対する(例えば、画像上の水平軸1080からの)回転角度α(例えば、α又はα(なお、図中では、α=0°の例になっている))を求めるようにしても良い。その代わりに又はそれに加えて、各々の曲率極値点の接線について、予め決められた方向に対する(例えば、画像上の水平軸1080からの)回転角度γを求めるようにしても良い。
そして、ステップS113で、各々の曲率極値点について、曲率ベクトルと、関連情報(例えば、当該曲率極値点の曲率半径r、重心への方向ベクトル(長さs、角β)など)とを対応付けて、ハフ変換用データベースとして登録する。
さらに、本手順例では、ステップS114で、複数の曲率ベクトルから、KD−Treeを作成するものとしている。
なお、ハフ変換用データベースやKD−Treeは一例であり、他の手法を利用することも可能である。
次に、物体認識処理について説明する。
物体認識時には、認識対象となる物体の画像に係る特徴ベクトル(曲率ベクトル)と、登録されている基準データにおける各曲率極値点ごとの特徴ベクトル(曲率ベクトル)とを照合して、基準データにおける対応する曲率極値点を特定する。
基準データのうち当該認識対象物体の(遮蔽されずに見えている)各曲率極値点との対応関係が特定されると、当該特定された各曲率極値点に係る関連情報を利用して、該認識対象とする物体に対する認識結果を求めることができる。
例えば、マッチングが成立した曲率極値点に対応して登録されている重心への方向ベクトル(長さs、角β)から、認識対象物体における重心を推定することができる。
図11に、認識対象となる物体の画像の一例を示す。ここで、認識対象物体の画像1030の一部が遮蔽されているものとする(斜線部1050参照)。例えば、図11の認識対象物体の曲率極大点1031に係る曲率ベクトルと、図10の登録画像の曲率極大点1011に係る曲率ベクトルとがマッチングしたものとする。この場合、図11の認識対象物体の曲率極大点1031が、図10の登録画像の曲率極大点1011に対応することになる。
この結果、図11の認識対象物体の曲率極大点1031に対して、図10の登録画像の曲率極大点1011に対応付けて登録されている関連情報、例えば、重心への方向ベクトル(長さs、角β)が得られる(回転角度αも対応付けて登録されている場合には、回転角度αも得られる)。
ここで、認識対象物体における推定重心は、登録画像と認識対象物体との曲率半径同士の比から、重心への線分長を変化させることによって、真の重心を推定することができる。
例えば、図11の曲率極大点1031から推定重心1040への線分1041について、該曲率極大点1031の接線1043と線分1041とのなす角β´は、登録画像の対応する角βに等しい。
図11の曲率極大点1031から推定重心1040への線分1041の推定長さs´については、登録画像の曲率極大点1011の曲率半径をr、登録画像の曲率極大点1011の重心への方向ベクトルの長さをs、対象物体の曲率極大点1031の曲率半径をRとすると、s´=(R1/r1)×s1により求められる。
なお、Rとrを比較して、それらが一致する場合には、スケールが異ならないので、s´を計算せずに、s´=s1とし、それらが一致しない場合には、スケールが異なるので、s´を計算するようにしても良い。
これによって、一つの曲率極値点について、一つの推定重心が得られる。
また、上記登録画像の曲率極大点1011の曲率半径rと、対象物体の曲率極大点1031の曲率半径Rから、スケール比SRを、SR=R/rで求めることができる。
また、対象物体の曲率極大点1031に係る重心への方向ベクトル1041の予め決められた方向に対する(例えば、画像上の水平軸1082からの)回転角度α´が得られるので、これと、登録画像の曲率極大点1011に係る重心への方向ベクトル1021の角度αとを比較することによって、登録画像における物体を基準として、対象物体の(推定)重心の周りの回転角度(方位角)を得ることができる。これは、他の情報、例えば、曲率極値点における接線の予め決められた方向に対する回転角度(前述のγ)を比較することなどによっても、可能である。
どのような関連情報を登録しておき、どのような内容の認識結果を得るかについては、任意に構成可能である。
なお、認識対象物体において、複数の曲率極値点が見えている場合には、複数の曲率極値点に係る推定重心をもとに、一つの重心を求めるようにするのが望ましい。
例えば、複数の曲率極値点から、重心を投票し、最も得票の大きな点をその重心とする。投票にあたっては、例えば、まず、XY座標を適当な間隔で縦横に区切って、複数の領域に分割する。そして、推定重心の座標が属する領域を中心とし、中心から遠ざかるにつれて値が低下する所定の2次元分布(例えば、ガウス分布)に従った値を、それら複数の領域に投票することを、各曲率極値点に対する推定重心について行う(例えば、それぞれの領域において、投票された値は加算される)。そして、最大の得票値を得た領域の代表点を、推定重心とする。なお、得票値の閾値を設け、得票値が閾値未満である場合には、認識エラーとして扱うようにしても良い。
これは、スケール比や方位角など、他の量を推定する場合についても同様である。
なお、例えば、登録画像のデータそのもの又はその輪郭線のデータなどを登録しておけば、認識対象物体の各曲率極値点と登録画像の各曲率極値点との対応が特定できた後は、上記の方法などで対象物体の重心が特定されれば、登録画像の画像データ(或いはその輪郭線)と対象物体の画像データ(或いはその輪郭線)とを比較することによって、登録画像を基準として、対象物体の重心周りの回転角度、重心の並進量、スケール比などを推定することもできる。
図12に、物体認識装置1の認識処理時の詳細な動作例を示す。
なお、図12のS121が図4のS11に対応し、図12のS122〜S126が図4のS12に対応し、図12のS127〜S135が図4のS13に対応する(図12では、図4のS14に対応するステップは図示を省略されている)。
図12の手順例において、対象物画像の取得(S121)、対象物重心の計算(S122)、Cannyエッジ検出(S123)、エッジの点列化(S124)、点列への曲線フィッティング(S125)、曲率極大点の探索(S126)は、登録時の図8の手順例におけるS101〜S106と同じである。
次に、各曲率極値点に対して、ステップS127〜S133の処理を行う(S127)。
なお、極大点の曲率半径中心の計算(S128)、θ間隔の放物線計算(S129)、曲率ベクトル生成(S125)は、図8の登録時の手順例のS108〜S110と同じである。
以下、S131において曲率ベクトルをエッジ情報DBのkd−Treeに流す箇所からの処理について説明する。
kd−Treeとは、前述のkNNを行う部分である。kd−Treeにより、モデル画像で対応する曲率ベクトルを探し出し、それに付随する重心への方向ベクトルと、接線とのなす角βを引き出す(S131)。これにより一般化ハフ変換による重心への投票が行われる(S132)。
そして、最も得票の多かった重心位置を採用する(S134)。
なお、方位角やスケールなどの他の量を推定することを可能とする関連情報が得られる場合には、同様にして、認識した対象物の方位角やスケールなどの他の量への投票を行い(S133)、最も得票の多かった方位角やスケールなどの他の量を採用しても良い(S135)。
さて、以上説明してきたように、本実施形態によれば、図13に示すように認識対象物体が回転変化していても、図14に示すように認識対象物体がスケール変化及び回転変化していても(もちろん図示しないが認識対象物体が回転変化せずにスケール変化していても)、認識することができる。これは、本実施形態で用いる曲率ベクトルがスケール不変性・回転不変性を持っているからである。
また、図15のように、本実施形態によれば、部分隠れ1200に対してもロバストである。本実施形態は、局所的な特徴量を導入したことによって、全体が見えていなくても、局所から(例えば一般化ハフ変換などを用いて)対象物体の重心、方位角、スケール比などの量を求めることができるからである。
なお、図13〜図15において点線は登録画像と認識画像との曲率極値点の対応関係(の一部)を表す。
以上のように本実施形態によれば、スケール変化、回転変化、部分隠れがある物体に対して、物体表面の絵柄の有無にかかわらず、物体認識が可能になる。特に輪郭線同士の画像認識(マッチング)に対して有効である。
ところで、図1の物体認識装置1は、基準データ登録機能と、物体認識機能を有するものであったが、基準データ登録機能の部分を基準データ提供装置として物体認識装置から独立させても良い。
図16に、この場合の基準データ提供装置30及び物体認識装置32の構成例を示す。基準データ提供装置30と物体認識装置32は、1対1に設けられても良いし、1対多に設けられても良い。
図16に示されるように、基準データ提供装置30は、画像取得部12、前処理部13、基準データ抽出部14、記憶部21、基準データ提供部22を含む。
また、物体認識装置32は、基準データ記憶部11、画像取得部12、基準データ取得部23、前処理部24、認識処理部15、認識結果出力部16を含む。
基準データ提供装置30の記憶部21は、1又は複数の物体認識装置32に提供するための基準データを保存する。
基準データ提供装置30の基準データ提供部22は、記憶部21に保存されている基準データを、物体認識装置32に提供する。物体認識装置32の基準データ取得部23は、基準データ提供装置30(の基準データ提供部22)から提供される基準データを取得する。基準データ提供装置30(の基準データ提供部22)と物体認識装置32(の基準データ取得部23)との間の基準データの受け渡しには、通信媒体を利用しても良いし、記録媒体を利用しても良い。
物体認識装置32の基準データ記憶部11は、基準データ取得部23により取得された基準データを格納する。
物体認識機能に必要な前処理が、基準データ登録機能に必要な前処理の一部である場合には、物体認識装置32の前処理部24は、物体認識機能に必要な前処理のみ実行できれば良い。
また、図1の構成に更に基準データ取得部23を備え、物体認識装置1内で基準データを作成することと、外部から基準データを取得することの両方が可能になるようにしても良い。
以下では、これまで説明した実施形態の他の構成例について説明する。
これまで説明した構成例では、曲率極値点(曲率極大点、曲率極小点)から曲率半径中心を求め、その中心から、輪郭線に放射線を引くときに、予め決められた1セットの(θ,n)を用いて、等間隔θ°でn本の放射線を引くものとして説明した。
具体例として挙げたθ=5°、n=31の例の場合、ベクトルとしては31次元で、中心から150°(=5°×30)に亘り放射線が引かれることになる。
しかし、認識の冗長性を上げるために、複数セットの(θ,n)をそれぞれ用いて、複数種類の曲率ベクトルを利用する構成も可能である。
例えば、第1のセット(θ=5°,n=31)、第2のセット(θ=5°,n=51)として、1つの曲率半径中心から、n=31次元の放射線の他に、さらにn=51次元の放射線を引くという手法もある。第2のセットについては、中心から250°(=5°×50)の範囲をカバーするものとなる。なお、3セット以上の(θ,n)をそれぞれ用いて、3種類以上の曲率ベクトルを利用しても良いし、θを各セットごとに異なる値にしても良い。
このように放射線を多重化させれば、冗長性を上げることになる。n=51次元ベクトルの方が、範囲が広い分だけ、部分隠れに弱い場合もあるが、例えば、n=31次元ベクトルでは、類似ベクトルが多いために、一つの曲率極値点を特定できないことがあり得る場合であっても、n=51次元のベクトルなら、範囲が大きいので、一つの曲率極値点を特定できる可能性が大きくなることを期待できる。
このように、カバーする輪郭線の範囲の異なる複数のベクトルを用意することより、相補的となり、冗長性を上げることができる。もちろん、ベクトルのマッチングを行うときは、(θ,n)の異なる曲率ベクトルごとに、それぞれ独立してマッチングを行う必要があるが、例えば、一般化ハフ変換時の重心、方位角、スケール比などの量に関する投票は、(θ,n)の異なる曲率ベクトルからの複数の推定結果を同じ空間に対して行うことができ、これにより冗長性を上げることができる。
また、上述の実施形態の中で示した処理手順に示された指示は、ソフトウェアであるプログラムに基づいて実行されることが可能である。汎用の計算機システムが、このプログラムを予め記憶しておき、このプログラムを読み込むことにより、上述した実施形態の物体認識装置による効果と同様な効果を得ることも可能である。上述の実施形態で記述された指示は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フレキシブルディスク、ハードディスクなど)、光ディスク(CD−ROM、CD−R、CD−RW、DVD−ROM、DVD±R、DVD±RWなど)、半導体メモリ、またはこれに類する記録媒体に記録される。コンピュータまたは組み込みシステムが読み取り可能な記録媒体であれば、その記憶形式は何れの形態であってもよい。コンピュータは、この記録媒体からプログラムを読み込み、このプログラムに基づいてプログラムに記述されている指示をCPUで実行させれば、上述した実施形態の物体認識装置と同様な動作を実現することができる。もちろん、コンピュータがプログラムを取得する場合または読み込む場合はネットワークを通じて取得または読み込んでもよい。
また、記録媒体からコンピュータや組み込みシステムにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワーク等のMW(ミドルウェア)等が本実施形態を実現するための各処理の一部を実行してもよい。
さらに、本実施形態における記録媒体は、コンピュータあるいは組み込みシステムと独立した媒体に限らず、LANやインターネット等により伝達されたプログラムをダウンロードして記憶または一時記憶した記録媒体も含まれる。
また、記録媒体は1つに限られず、複数の媒体から本実施形態における処理が実行される場合も、本実施形態における記録媒体に含まれ、媒体の構成は何れの構成であってもよい。
なお、本実施形態におけるコンピュータまたは組み込みシステムは、記録媒体に記憶されたプログラムに基づき、本実施形態における各処理を実行するためのものであって、パソコン、マイコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であってもよい。
また、本実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって本実施形態における機能を実現することが可能な機器、装置を総称している。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
1…物体認識装置、11…基準データ記憶部、12…画像取得部、13,24…前処理部、14…基準データ抽出部、15…認識処理部、16…認識結果出力部、21…記憶部、22…基準データ提供部、23…基準データ取得部、30…基準データ提供装置、32…物体認識装置。

Claims (12)

  1. 認識対象となる物体の画像を取得する取得部と、
    前記認識対象となる物体の画像の輪郭線における曲率が極大又は極小となる曲率極値点を抽出する第1の抽出部と、
    求められた各々の前記曲率極値点ごとに、当該曲率極値点と当該曲率極値点に係る曲率半径中心と前記輪郭線に基づく局所的な特徴ベクトルを抽出する第2の抽出部と、
    基準となる物体の画像に係る各々の前記曲率極値点ごとに求められた、当該曲率極値点に係る前記特徴ベクトルを含む基準データを記憶する基準データ記憶部と、
    前記認識対象となる物体の画像に係る各々の前記曲率極値点ごとに、当該曲率極値点に係る前記特徴ベクトルを、前記基準となる物体の画像に係る前記特徴ベクトルと照合して、前記認識対象となる物体の画像に係る前記曲率極値点と、前記基準となる物体の画像に係る前記曲率極値点とを対応付ける認識処理部とを備えたことを特徴とする物体認識装置。
  2. 前記基準データ記憶部は、前記基準となる物体の画像に係る各々の前記曲率極値点ごとに求められた前記特徴ベクトルに対応付けて、更に該基準となる物体の画像に係る所定の特徴に関する関連情報を記憶するものであり、
    前記認識処理部は、前記認識対象となる物体の画像に係る前記曲率極値点に対応付けられた、前記基準となる物体の画像に係る前記曲率極値点に対応して前記基準データ記憶部に記憶されている前記関連情報を取得し、該関連情報を使用して、当該認識対象となる物体の画像に係る前記所定の特徴又は前記基準となる物体の画像に係る前記所定の特徴からの変化量を認識結果として求めるものであり、
    前記物体認識装置は、前記認識結果を出力する出力部を更に含むことを特徴とする請求項1に記載の物体認識装置。
  3. 前記所定の特徴は、前記基準となる物体の画像における重心であり、
    前記関連情報は、前記基準となる物体の画像に係る前記曲率極大点から前記重心までを結ぶ補助線の長さと、該補助線が前記輪郭線における当該曲率極大点の接線となす角度と、当該曲率極大点に係る曲率半径とを含むものであり、
    前記認識処理部は、前記認識対象となる物体の画像に係る前記曲率極値点に対応付けられた、前記基準となる物体の画像に係る前記曲率極値点に対応して前記基準データ記憶部に記憶されている前記関連情報に含まれる前記補助線の長さと前記角度と前記曲率半径と、該認識対象となる物体の画像に係る当該曲率極値点の曲率半径とを用いて、該認識対象となる物体における重心を推定する請求項2に記載の物体認識装置。
  4. 前記特徴ベクトルは、前記輪郭線における前記曲率極値点に係る曲率半径中心から該輪郭線へ投射したn本(nは予め定められた数)の放射線それぞれの長さに関する値を各要素とするn次元のベクトルであることを特徴とする請求項1ないし3のいずれか1項に記載の物体認識装置。
  5. 前記特徴ベクトルに係る各々の前記要素の値は、それぞれ、対応する前記放射線の長さを前記曲率極値点に係る曲率半径で除して得た値であることを特徴とする請求項4に記載の物体認識装置。
  6. n本の前記放射線は、等角度間隔で設けられたものであることを特徴とする請求項4または5に記載の物体認識装置。
  7. 前記認識対象となる物体の画像から、数式で近似した輪郭線を得る輪郭線抽出部を更に含むことを特徴とする請求項1ないし6のいずれか1項に記載の物体認識装置。
  8. 前記基準データ記憶部に記憶される前記基準データを抽出するための第3の抽出部を更に備えたことを特徴とする請求項1ないし7のいずれか1項に記載の物体認識装置。
  9. 前記基準データ記憶部に記憶される前記基準データを外部から入力するための入力部を更に備えたことを特徴とする請求項1ないし7のいずれか1項に記載の物体認識装置。
  10. 前記認識処理部は、k−ニアレスト・ネイバー法を用いて、前記認識対象となる物体の画像に係る前記特徴ベクトルを、前記基準となる物体の画像に係る前記特徴ベクトルと照合することを特徴とする請求項1ないし9のいずれか1項に記載の物体認識装置。
  11. 取得部と第1の抽出部と第2の抽出部と基準データ記憶部と認識処理部とを備えた物体認識装置の物体認識方法において、
    前記基準データ記憶部が、基準となる物体の画像の輪郭線における曲率が極大又は極小となる曲率極値点ごとに求められた、当該曲率極値点と当該曲率極値点に係る曲率半径中心と前記輪郭線に基づく局所的な特徴ベクトルを含む基準データを記憶するステップと、
    前記取得部が、認識対象となる物体の画像を取得するステップと、
    前記第1の抽出部が、前記認識対象となる物体の画像の輪郭線における曲率が極大又は極小となる曲率極値点を抽出するステップと、
    前記第2の抽出部が、求められた各々の前記曲率極値点ごとに、当該曲率極値点と当該曲率極値点に係る曲率半径中心と前記輪郭線に基づく局所的な特徴ベクトルを抽出するステップと、
    前記認識処理部が、前記認識対象となる物体の画像に係る各々の前記曲率極値点ごとに、当該曲率極値点に係る前記特徴ベクトルを、前記基準となる物体の画像に係る前記特徴ベクトルと照合して、前記認識対象となる物体の画像に係る前記曲率極値点と、前記基準となる物体の画像に係る前記曲率極値点とを対応付けるステップとを有することを特徴とする物体認識方法。
  12. 認識対象となる物体の画像を取得する取得部と、
    前記認識対象となる物体の画像の輪郭線における曲率が極大又は極小となる曲率極値点を抽出する第1の抽出部と、
    求められた各々の前記曲率極値点ごとに、当該曲率極値点と当該曲率極値点に係る曲率半径中心と前記輪郭線に基づく局所的な特徴ベクトルを抽出する第2の抽出部と、
    基準となる物体の画像に係る各々の前記曲率極値点ごとに求められた、当該曲率極値点に係る前記特徴ベクトルを含む基準データを記憶する基準データ記憶部と、
    前記認識対象となる物体の画像に係る各々の前記曲率極値点ごとに、当該曲率極値点に係る前記特徴ベクトルを、前記基準となる物体の画像に係る前記特徴ベクトルと照合して、前記認識対象となる物体の画像に係る前記曲率極値点と、前記基準となる物体の画像に係る前記曲率極値点とを対応付ける認識処理部としてコンピュータを機能させるためのプログラム。
JP2011003592A 2011-01-12 2011-01-12 画像認識装置、画像認識方法及びプログラム Active JP5275373B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011003592A JP5275373B2 (ja) 2011-01-12 2011-01-12 画像認識装置、画像認識方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011003592A JP5275373B2 (ja) 2011-01-12 2011-01-12 画像認識装置、画像認識方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2012146108A JP2012146108A (ja) 2012-08-02
JP5275373B2 true JP5275373B2 (ja) 2013-08-28

Family

ID=46789613

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011003592A Active JP5275373B2 (ja) 2011-01-12 2011-01-12 画像認識装置、画像認識方法及びプログラム

Country Status (1)

Country Link
JP (1) JP5275373B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6822929B2 (ja) 2017-09-19 2021-01-27 株式会社東芝 情報処理装置、画像認識方法および画像認識プログラム
CN110727814B (zh) * 2019-10-10 2022-10-11 徐庆 一种图像形状特征描述符的获取方法
CN117372790B (zh) * 2023-12-08 2024-03-08 浙江托普云农科技股份有限公司 植物叶片形状分类的方法、系统及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06309465A (ja) * 1993-04-21 1994-11-04 Nippon Telegr & Teleph Corp <Ntt> 線図形学習認識方法
JP3781215B2 (ja) * 1996-09-11 2006-05-31 三洋電機株式会社 画像データの特徴点検出方法
JP4635862B2 (ja) * 2005-12-22 2011-02-23 パナソニック電工株式会社 画像処理装置

Also Published As

Publication number Publication date
JP2012146108A (ja) 2012-08-02

Similar Documents

Publication Publication Date Title
JP5705147B2 (ja) 記述子を用いて3dオブジェクトまたはオブジェクトを表す方法
Buch et al. Rotational subgroup voting and pose clustering for robust 3d object recognition
Salti et al. A performance evaluation of 3d keypoint detectors
Hodaň et al. Detection and fine 3D pose estimation of texture-less objects in RGB-D images
Drost et al. Model globally, match locally: Efficient and robust 3D object recognition
Guo et al. 3D object recognition in cluttered scenes with local surface features: A survey
JP4284288B2 (ja) パターン認識装置及びその方法
JP5673540B2 (ja) 物体検出方法
US8971610B2 (en) Method and apparatus of compiling image database for three-dimensional object recognition
Aldoma et al. CAD-model recognition and 6DOF pose estimation using 3D cues
JP5487970B2 (ja) 特徴点配置照合装置及び画像照合装置、その方法及びプログラム
US8994723B2 (en) Recognition and pose determination of 3D objects in multimodal scenes
Abraham et al. Fingerprint matching using a hybrid shape and orientation descriptor
CN106981077B (zh) 基于dce和lss的红外图像和可见光图像配准方法
CN106709500B (zh) 一种图像特征匹配的方法
US20030128876A1 (en) Pattern recognition apparatus and method therefor
US10025977B2 (en) Method for identifying a sign on a deformed document
Rejeb Sfar et al. Vantage feature frames for fine-grained categorization
Patterson et al. Object detection from large-scale 3d datasets using bottom-up and top-down descriptors
JP3914864B2 (ja) パターン認識装置及びその方法
JP5275373B2 (ja) 画像認識装置、画像認識方法及びプログラム
CN115147433A (zh) 点云配准方法
Higa et al. Multiple object identification using grid voting of object center estimated from keypoint matches
WO2013084731A1 (ja) 画像識別システム
Marvaniya et al. Adaptive locally affine-invariant shape matching

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20121206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121218

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130423

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130515

R151 Written notification of patent or utility model registration

Ref document number: 5275373

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151