JP4613617B2 - 画像処理システム、学習装置および方法、並びにプログラム - Google Patents

画像処理システム、学習装置および方法、並びにプログラム Download PDF

Info

Publication number
JP4613617B2
JP4613617B2 JP2005003049A JP2005003049A JP4613617B2 JP 4613617 B2 JP4613617 B2 JP 4613617B2 JP 2005003049 A JP2005003049 A JP 2005003049A JP 2005003049 A JP2005003049 A JP 2005003049A JP 4613617 B2 JP4613617 B2 JP 4613617B2
Authority
JP
Japan
Prior art keywords
feature
feature point
extracting
image
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005003049A
Other languages
English (en)
Other versions
JP2006190201A (ja
Inventor
洋貴 鈴木
章 中村
隆之 芦ヶ原
浩太郎 佐部
雅博 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2005003049A priority Critical patent/JP4613617B2/ja
Priority to EP05819776A priority patent/EP1835460B1/en
Priority to US11/813,404 priority patent/US8582887B2/en
Priority to CN200580049018XA priority patent/CN101138007B/zh
Priority to PCT/JP2005/023747 priority patent/WO2006073076A1/ja
Publication of JP2006190201A publication Critical patent/JP2006190201A/ja
Application granted granted Critical
Publication of JP4613617B2 publication Critical patent/JP4613617B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/757Matching configurations of points or features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/771Feature selection, e.g. selecting representative features from a multi-dimensional feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Description

本発明は、画像処理システム、学習装置および方法、並びにプログラムに関し、特に、物体を確実に認識できるようにするために特徴点特徴量を抽出し、データベースに登録する際に適用して好適な画像処理システム、学習装置および方法、並びにプログラムに関する。
例えば、ロボットにより対象物体を認識するための実用化されている対象物体認識技術の多くは、残差逐次検定法や相互相関係数によるテンプレートマッチング手法を用いている。しかしテンプレートマッチング手法は、検出対象物体が入力画像中に変形なく出現すると仮定できる特殊な場合には有効であるが、視点や照明状態の一定でない一般的な画像からの物体認識環境においては有効でない。
他方、対象物体の形状特徴と、画像分割手法によって切り出された入力画像中の各領域の形状特徴とをマッチングする形状マッチング手法も提案されているが、上述のような一般的な物体認識環境においては、領域分割の結果が安定せず、入力画像中の物体の良質な形状記述が難しくなる。特に、検出対象物体が、他の物体に部分的に隠されている場合などは認識が非常に困難になる。
以上のような、入力画像全体あるいは領域の全体的な特徴を用いたマッチング手法に対し、画像から特徴的な点やエッジを抽出し、それらが構成する線分集合やエッジ集合の空間的位置関係を線図形やグラフとして表現し、線図形間やグラフ間の構造類似性に基づいてマッチングを行う手法も提案されている。しかしながら、これらの手法は、ある特化した対象物に対してはうまく作用するが、画像の変形により、時として安定した特徴点間構造が抽出されず、特に前に述べたような部分的に隠されている物体の認識は困難となる。
そこで、画像から特徴的な点(特徴点)を抽出し、特徴点とその局所近傍の画像情報から得られる特徴量を用いたマッチング手法が提案されている。このような特徴点の部分的画像変形に対して不変な局所特徴量を用いるマッチング手法では、前述の手法に比べ画像の変形に対しても、検出対象が部分的に隠されるような場合にも安定した検出が可能となる。拡大縮小変換に対して不変性を持つ特徴点の抽出法として、画像のスケールスペースを構築し、各スケール画像のDifference of Gaussian(DoG)フィルタ出力の局所極大点及び局所極小点のうち、スケール方向の変化によっても位置が変化しない点をスケール特徴点として抽出する方法(非特許文献1または非特許文献2)や、画像のスケールスペースを構築し、各スケール画像からHarrisコーナー検出器により抽出されたコーナー点のうち、スケールスペース画像のLaplacian of Gaussian(LoG)フィルタ出力の局所極大を与える点を特徴点として抽出する方法(非特許文献3)などが提案されている。
さらに、このように抽出された特徴点においては、視線変化に対して不変な特徴量が選択されることが好ましい。例えば、 Schmid & Mohr は、 Harris コーナー検出器を用いて検出されたコーナーを特徴点とし、その特徴点付近の回転不変特徴量を用いたマッチング手法を提案している(非特許文献4)。
D. Lowe, "Object recognition from local scale-invariant features, in Proc. International Conference on Computer Vision, Vol. 2, pp. 1150-1157, September 20-25, 1999, Corfu, Greece. D. Lowe, "Distinctive image features from scale-invariant keypoints, accepted for publication in the International Journal of Computer Vision, 2004. K. Mikolajczyk, C. Schmid, 的ndexing based on scale invariant interest points, International Conference on Computer Vision, 525-531, July 2001. K. Mikolajczyk, C. Schmid, "Indexing based on scale invariant interest points, International Conference on Computer Vision, 525-531, July 2001. Schmid, C., and R. Mohr, 鏑ocal grayvalue invariants for image retrieval, IEEE PAMI, 19, 5, 1997, pp. 530-534. Schmid, C., and R. Mohr, "Local grayvalue invariants for image retrieval, IEEE PAMI, 19, 5, 1997, pp. 530-534.
上述したように、認識対象物体画像(モデル画像)と、その認識対象物体を検出したい画像(入力画像)のそれぞれから特徴的な点(特徴点)を抽出し、各特徴点から特徴点における特徴量(以下、適宜、特徴点特徴量または特徴量と記述する)を抽出し、モデル画像の特徴量群と入力画像の特徴量群の類似度を評価(モデル画像と入力画像のマッチング)し、対応特徴点群を抽出し、その対応特徴点群の解析から入力画像中のモデル物体の検出を行う方法は、物体認識の分野において一般的な手法になりつつある。
しかしながら、このような手法においては、類似度を比較する特徴点数(実際に比較するのはその特徴点から抽出された特徴量であり、1つの特徴点から複数の特徴量を抽出する場合もあるため特徴点の数と類似度計算する特徴量の数は一致しないが、ここでは説明の都合上、特徴点数、あるいは特徴点特徴量数と記述する)を多くすれば、認識の精度を上げられる可能性がある一方で、認識にかかる時間が増大してしまうというトレードオフの関係がある。
すなわち、認識パフォーマンスを上げるためには、特徴点数の調整(増加させる、または減少させるといった処理)が不可欠である。この特徴点数の調整は一般的に特徴点抽出のパラメータの調整によって行われていた。
しかしながら、認識対象物の特性(一般物体なのか、特定のカテゴリの物体なのか、人の顔なのか)や認識環境(屋外、屋内、カメラ解像度など)により適したパラメータは異なるため、適切なパラメータを実験経験的に人手によって発見する必要があった。従って、認識の精度を上げるための特徴点数の調整には、人手(労力)がかかり、時間がかかるといった課題があった。
本発明はこのような状況に鑑みてなされたものであり、最適なパラメータを簡便に設定できるようにすることを目的とする。
本発明の画像処理システムは、第1の画像から第1の特徴点を抽出する第1の特徴点抽出手段と、前記第1の特徴点抽出手段により抽出された前記第1の特徴点から第1の特徴量を抽出する第1の特徴量抽出手段と、前記第1の特徴量抽出手段により抽出された前記第1の特徴量を登録する第1の登録手段と、第2の画像から第2の特徴点を抽出する第2の特徴点抽出手段と、前記第2の特徴点抽出手段により抽出された前記第2の特徴点から第2の特徴量を抽出する第2の特徴量抽出手段と、前記第1の登録手段により登録された前記第1の特徴量と、前記第2の特徴量抽出手段により抽出された前記第2の特徴量を比較し、類似する特徴量を有する特徴点の組としての候補対応特徴点組を生成する生成手段と、前記第1の特徴量から、前記生成手段により生成された候補対対応特徴点組に含まれた頻度が閾値以上である前記第1の特徴量を、登録する登録用特徴量として選択する選択手段と、前記選択手段により選択された登録用特徴量を登録する第2の登録手段と、第3の画像から第3の特徴点を抽出する第3の特徴点抽出手段と、前記第3の特徴点抽出手段により抽出された前記第3の特徴点から第3の特徴量を抽出する第3の特徴量抽出手段と、前記第2の登録手段により登録された前記登録用特徴量と、前記第3の特徴量抽出手段により抽出された前記第3の特徴量とを比較し、前記第3の画像に含まれるモデル物体を検出する検出手段とを含む。
本発明の学習装置は、所定の画像に含まれるモデル物体を検出するときに用いられる登録用特徴量を学習し、登録する学習装置において、第1の画像から第1の特徴点を抽出する第1の特徴点抽出手段と、前記第1の特徴点抽出手段により抽出された前記第1の特徴点から第1の特徴量を抽出する第1の特徴量抽出手段と、前記第1の特徴量抽出手段により抽出された前記第1の特徴量を登録する第1の登録手段と、第2の画像から第2の特徴点を抽出する第2の特徴点抽出手段と、前記第2の特徴点抽出手段により抽出された前記第2の特徴点から第2の特徴量を抽出する第2の特徴量抽出手段と、前記第1の登録手段により登録された前記第1の特徴量と、前記第2の特徴量抽出手段により抽出された前記第2の特徴量を比較し、類似する特徴量を有する特徴点の組としての候補対応特徴点組を生成する生成手段と、前記第1の特徴量から、前記生成手段により生成された候補対対応特徴点組に含まれた頻度が閾値以上である前記第1の特徴量を、登録する登録用特徴量として選択する選択手段とを含む。
前記第2の画像には、第1の画像に含まれるモデル画像が必ず含まれているようにすることができる。
前記第1の特徴点抽出手段と前記第1の特徴点抽出手段が抽出処理を実行するときに用いるパラメータは、無効を示す値に設定されるようにすることができる。
前記第2の画像は、所定の画像をデジタル処理することにより生成された画像であるようにすることができる。
前記デジタル処理は、拡大縮小変換、回転変換、相似変換、アフィン変換、投射変換、ノイズ付加、明度変化、シャープネス変化、ぼかし付加、及び、それらの画像変換の組み合わせのうちのいずれか1つの処理であるようにすることができる。
本発明の学習方法は、所定の画像に含まれるモデル物体を検出するときに用いられる登録用特徴量を学習し、登録する学習装置の学習方法において、第1の画像から第1の特徴点を抽出する第1の特徴点抽出ステップと、前記第1の特徴点抽出ステップの処理で抽出された前記第1の特徴点から第1の特徴量を抽出する第1の特徴量抽出ステップと、前記第1の特徴量抽出ステップの処理で抽出された前記第1の特徴量を登録する第1の登録ステップと、第2の画像から第2の特徴点を抽出する第2の特徴点抽出ステップと、前記第2の特徴点抽出ステップの処理で抽出された前記第2の特徴点から第2の特徴量を抽出する第2の特徴量抽出ステップと、前記第1の登録ステップの処理で登録された前記第1の特徴量と、前記第2の特徴量抽出ステップにより抽出された前記第2の特徴量を比較し、類似する特徴量を有する特徴点の組としての候補対応特徴点組を生成する生成ステップと、前記第1の特徴量から、前記生成ステップの処理で生成された候補対対応特徴点組に含まれた頻度が閾値以上である前記第1の特徴量を、登録する登録用特徴量として選択する選択ステップとを含む。
本発明のプログラムは、所定の画像に含まれるモデル物体を検出するときに用いられる登録用特徴量を学習し、登録する学習装置を制御するコンピュータが読み取り可能なプログラムにおいて、第1の画像から第1の特徴点を抽出する第1の特徴点抽出ステップと、前記第1の特徴点抽出ステップの処理で抽出された前記第1の特徴点から第1の特徴量を抽出する第1の特徴量抽出ステップと、前記第1の特徴量抽出ステップの処理で抽出された前記第1の特徴量を登録する第1の登録ステップと、第2の画像から第2の特徴点を抽出する第2の特徴点抽出ステップと、前記第2の特徴点抽出ステップの処理で抽出された前記第2の特徴点から第2の特徴量を抽出する第2の特徴量抽出ステップと、前記第1の登録ステップの処理で登録された前記第1の特徴量と、前記第2の特徴量抽出ステップにより抽出された前記第2の特徴量を比較し、類似する特徴量を有する特徴点の組としての候補対応特徴点組を生成する生成ステップと、前記第1の特徴量から、前記生成ステップの処理で生成された候補対対応特徴点組に含まれた頻度が閾値以上である前記第1の特徴量を、登録する登録用特徴量として選択する選択ステップとを含む。
本発明の学習装置および方法、並びにプログラムにおいては、学習用の画像から特徴量が抽出され、登録され、その登録された特徴量と、同じく学習用の画像として用意された画像から抽出された特徴量が比較される。その比較結果が用いられ、実際の認識処理に用いられる特徴量が設定される。
本発明の画像処理システムにおいては、さらに、上記のようにして設定された特徴量が用いられて、取得される画像とのマッチングが行なわれ、その取得された画像に含まれるモデル物体が検出されることにより認識処理が行われる。
本発明によれば、特徴点(特徴量)を抽出することができる。
本発明によれば、実験、経験的に人手により特徴点抽出のパラメータ設定を行うことなく、認識に最適な特徴点特徴量の選択抽出が可能となる。
本発明によれば、認識の精度を向上させ、かつ、認識の処理にかかる時間を短縮させるための最適な特徴点の数(特徴量の数)を設定することが可能となる。換言すれば、特徴点の数を減らすことができる一方で、認識速度を向上させることが可能となる。
本発明によれば、高い認識パフォーマンスの実現に対して寄与度の高い特徴点(特徴量)のみを選択、抽出することが可能となる。そして、その選択、抽出された特徴点(特徴量)を認識処理に用いることにより、認識速度、認識精度を向上させることが可能となる。
本発明によれば、モデル学習用画像群を用意する際に想定した認識環境下でロバストな認識を実現できる特徴点のみが選択でき、この特徴点を認識処理に用いることで認識速度、認識精度を向上させることが可能となる。
以下に、本発明の実施の形態について図面を参照して説明する。
[システム構成例]
図1は、本発明を適用したシステムの一実施の形態の構成を示す図である。このシステムは、特徴点(特徴点特徴量)の学習処理を行う学習装置11、学習装置11により学習された結果としての特徴点特徴量を記憶するモデル辞書登録部12、および、入力画像中のモデル物体を認識する認識部13の3つの部分から構成される。
学習部11は、特徴点抽出部21、特徴量抽出部22、学習用モデル辞書登録部23、特徴点抽出部24、特徴量抽出部25、特徴量比較部26、およびモデル辞書登録処理部27により構成されている。
特徴点抽出部21は、入力される学習用モデル画像から特徴点を抽出する。特徴量抽出部22は、特徴点抽出部22により抽出された各特徴点の特徴量を抽出する。学習用モデル辞書登録部23は、特徴量抽出部22により抽出されたモデル画像の特徴量群を登録(記憶)する。
特徴点抽出部24は、入力される学習用入力画像から特徴点を抽出する。特徴量抽出部25は、特徴点抽出部24により抽出された各特徴点の特徴量を抽出する。これらの特徴点抽出部24と特徴量抽出部25により行われる処理は、学習用モデル画像を処理する特徴点抽出部21と特徴量抽出部22において行われる処理と同様の処理である。
特徴量比較部26は、特徴量抽出部25により抽出された特徴量と、認識対象となるモデル画像の特徴量群を比較する。モデル辞書登録処理部27は、モデル辞書登録部12に登録させる特徴点特徴量を抽出し、モデル辞書登録部12に供給する。
なお、学習用モデル画像は学習対象物体1つに対して1枚のみである。学習用モデル辞書登録部23には、学習対象物体の学習用モデル画像1枚から抽出されたシード特徴量群(後述する)のみが保持されており、学習装置11の特徴量比較部26は、そのシード特徴量群と学習用入力画像の特徴量群とのマッチングを実行する。
モデル辞書登録部12には、このようにして、学習装置11側で学習された結果(この場合、認識装置13で認識を行うときに参照されるモデル画像に関する特徴量群)が登録される。
学習用モデル辞書登録部23とモデル辞書登録部12には、共に、学習用モデル画像から抽出された特徴量群が登録されるが、モデル辞書登録部12に登録される特徴量群は、学習が行われた後のものであり、認識装置13が認識処理を実行するときに、最適なデータとされている。
モデル辞書登録部12に登録されている特徴量群を用いて認識処理を実行する認識装置13は、特徴点抽出部31、特徴量抽出部32、特徴量比較部33、およびモデル検出判定部34から構成されている。
この認識装置13の特徴点抽出部31、特徴量抽出部32、および特徴量比較部33で行われる処理は、学習装置11の特徴点抽出部24、特徴量抽出部25、および特徴量比較部26で行われる処理と基本的に同様である。
なお、認識対象物体が複数ある場合、そのそれぞれの物体について学習装置11により特徴点特徴量の選択、抽出が行われ、モデル辞書登録部12に登録される。すなわち、モデル辞書登録部12には、認識対象とする全ての物体について、そのモデル特徴量群が保持されており、認識装置13の特徴量比較部33は、全ての認識対象物体の特徴量群と入力画像の特徴量群とマッチングを行うように構成されている。よって、特徴量比較部26と特徴量比較部33とは、アルゴリズムは同じでも、扱うデータが違うことがある。
また、各部で実行される処理において用いられるパラメータなどは適宜異なる値が用いられるようにしても勿論良い。モデル検出判定部34は、入力画像に含まれるモデル物体を、特徴量比較部33から供給されるデータを利用して検出する。
なお、学習装置11において、同一の処理を行う部分、例えば、特徴点抽出部21と特徴点抽出部24などを、別々に設けるのではなく、共用できる構成としても良い。また、学習装置11は、モデル辞書登録部12を含む構成としても良いし、含む構成とした場合、学習用モデル辞書登録部23と共用される(または、学習用モデル辞書登録部23の登録内容が更新される)ようにしても良い。
または、モデル辞書登録部12を、認識装置13に含ませる構成とすることも可能である。
学習装置11、モデル辞書学習部12、認識装置13は、それぞれ、ネットワークで接続され、互いにデータの授受が行える(少なくとも、学習装置11とモデル辞書登録部12、モデル辞書登録部12と認識装置13は、それぞれデータの授受が行える)ように構成されている。そのネットワークは、有線で構成されていても良いし、無線で構成されていても良い。
[学習装置の動作について]
次に、図1に示したシステムのうち、学習装置11の動作について、図2のフローチャートを参照して説明する。なお、図2のフローチャートを参照して説明する処理は、学習用モデル画像の特徴量群を登録するときの処理である。
ステップS11において、学習装置11の特徴点抽出部21は、学習用モデル画像を取得する。この学習用モデル画像は、認識対象物体(モデル物体)が撮像された画像である。
学習装置11には、学習対象物体1つにつき、学習用モデル画像を1枚だけ撮像して用意されている。この1枚の学習用モデル画像からシード特徴量群が抽出される。よって、この学習用モデル画像は、なるべく理想的な撮像環境で用意されたものとすることが好ましい。一方で、後述する学習用入力画像には、様々な視点で撮像された画像が多数枚用意される。または、デジタル処理により学習用モデル画像から生成された画像が多数枚用意される。
ステップS11において、学習用モデル画像が取得されると、ステップS12において、特徴点抽出部21は、学習用モデル画像から特徴点を抽出する。特徴点抽出部21が行う処理(特徴点を抽出するための手法)は、Harrisコーナー検出器(C. Harris and M. Stephens, A combined corner and edge detector", Fourth Alvey Vision Conference, pp.147-151, 1988.)、SUSANコーナー検出器(S.M. Smith and J.M. Brady. SUSAN - a new approach to low level image processing)、KLT特徴点(Carlo Tomasi and Takeo Kanade. Detection and Tracking of Point Features. Carnegie Mellon University Technical Report CMU-CS-91-132, April 1991)など、さまざまな手法が提案されおり、それらの手法を適用することが可能である。
また、上記した手法の他に、元画像(この場合、学習用モデル画像)の多重解像度化、スケールスペース化により複数階層の画像群を生成し、その画像群から回転変換、スケール変換に不変な特徴点の抽出を行う手法も提案されており、その手法を、特徴点抽出部21が行う特徴点の抽出に係わる手法として適用することができる(D. Lowe, “Distinctive image features from scale-invariant keypoints, accepted for publication in the International Journal of Computer Vision, 2004. K. Mikolajczyk, C. Schmid, 的ndexing based on scale invariant interest points, International Conference on Computer Vision, 525-531, July 2001.、K. Mikolajczyk, C. Schmid, “Indexing based on scale invariant interest points,” International Conference on Computer Vision, 525-531, July 2001. Schmid, C., and R. Mohr, “Local grayvalue invariants for image retrieval,” IEEE PAMI, 19, 5, 1997, pp. 530-534.)。
[特徴点の抽出について]
ここでは、図3を参照して、Harrisコーナー検出器によるHarrisLaplacian特徴点抽出手法について簡便に説明を加える(詳細は、K. Mikolajczyk, C. Schmid, 的ndexing based on scale invariant interest points, International Conference on Computer Vision, 525-531, July 2001.に記載されている)。
HarrisLaplacian特徴点抽出手法は、画像Iに対してガウス(Gaussian)フィルタリングすることで、画像G1(I)を生成する。この画像G1(I)と画像Iとは異なるより粗い解像度の画像となる。ガウスフィルタの形状を決めるパラメータσを大きくすることで、より粗い解像度の画像を生成することができる。
画像Iに対して、画像G1(I)とは異なるさらにより粗い解像度になるようなガウスフィルタリングされることで(より大きいσ値のガウスフィルタを用いてフィルタリングされることで)、画像G2(I)が生成される。同様に、画像Iに対して、画像G1(I)や画像G2(I)とは異なるさらにより粗い解像度になるようにガウスフィルタリングすることで(より大きいσ値のガウスフィルタを用いてフィルタリングすることで)、画像G3(I)が生成される。このようにして、異なる解像度の画像I、画像G1(I)、画像G2(I)、画像G3(I)がそれぞれ生成される(なお、生成される画像の数は、適宜変更可能である)。
これらの画像I、画像G1(I)、画像G2(I)、画像G3(I)の各画像(各スケール)で、コーナー検出器により、特徴点の候補が抽出される。この抽出は、Harrisコーナー度に極大点(直接近傍(例えば9ピクセル)中の最大値を有する点(ピクセル))のうち、Harrisコーナー度に対する規定の閾値(ここでは、第1の閾値とする)以上を満たす点が、特徴点の候補として抽出される。
このような特徴点の候補が抽出されると、画像I、画像G1(I)、画像G2(I)、画像G3(I)の各画像に対応し、ラプラシアン(Laplacian)フィルタリングされた画像が生成される。ラプラシアンフィルタの形状を決めるパラメータσを大きくすることで、より粗い解像度のラプラシアンフィルタ出力画像を生成することができる。すなわち、この場合、まず、画像Iにラプラシアンフィルタリングが施され、画像L1(I)が生成される。
次に、画像L1(I)を生成した際のラプラシアンフィルタよりσ値のより大きいラプラシアンフィルタで画像Iにフィルタリングを行い、画像L2(I)が生成される。さらにσ値が大きいラプラシアンフィルタで画像Iにフィルタリングを行い、画像L3(I)が生成される。これらの画像L1(I)、画像L2(I)、画像L3(I)を用いて、特徴点が抽出されるのだが、その抽出については、図4を参照して説明する。
図4においては、画像L1(I)に対応する画像G1(I)から抽出された特徴点の候補を、点P1、画像L2(I)に対応する画像G2(I)から抽出された特徴点の候補を、点P2、画像L3(I)に対応する画像G3(I)から抽出された特徴点の候補を、点P3としている。またこの場合、画像L2(I)の点P2と同じ位置に存在する画像L1(I)の点は、点P1であり、画像L3(I)の点は、点P3である。
特徴点の候補のうち、以下の条件を満たす点が特徴点として抽出される。ここでは、特徴点の候補が、点P2である場合を例に挙げて条件について説明する。まず、点P2が所定の閾値(ここでは、第2の閾値とする)以上であることが第1の条件である。すなわち、点P2≧第2の閾値を満たすことが第1の条件である。
第2の条件は、点P2に対する上下のスケールの画像の対応する点よりも大きいこと、この場合、点P1と点P3よりも大きいことである。すなわちこの場合、点P2≧点P1、かつ点、P2≧点P3を満たすことが第2の条件である。
この第1の条件と第2の条件が満たされたとき、その特徴点の候補は、特徴点として抽出される。
このようにして、ステップS12(図2)において、複数の特徴点が学習用モデル画像から抽出される。
ここでは、特徴点を抽出する1つの手法として、HarrisLaplacian特徴点抽出手法について説明を加えたが、他の手法を適用することも勿論可能である。他の手法を適用して特徴点を抽出した場合においても、特徴点の抽出に関しては、以下のようなことが言える。すなわち、何らかの閾値(パラメータ)を用いて、特徴点を抽出するということである。
上記したHarrisLaplacian特徴点抽出手法においては、ガウスフィルタリングが施された画像の各ピクセルから、特徴点の候補を抽出するときに、第1の閾値が用いられ、ラプラシアンフィルタリングが施された画像の特徴点の候補から、特徴点を抽出するときに、第2の閾値が用いられた。このように、特徴点を抽出するときには、閾値(パラメータ)が何らかのかたちで用いられる。パラメータが用いられて、特徴点が抽出されるということは、HarrisLaplacian特徴点抽出手法以外の手法でも、同様である。
ところで、認識対象物(この場合、学習用モデル画像)の特性(一般物体なのか、特定のカテゴリの物体なのか、人の顔なのかなど)や、認識環境(屋外、屋内、カメラ解像度など)により、最適なパラメータはさまざまな値をとる。その最適なパラメータを設定するには、実験、経験的に人手によって発見する必要があった。
パラメータの調整を人手に頼る必要がある理由の1つとしては、パラメータ調節の結果得られる認識パフォーマンスがシステム内部的に評価されておらず、パラメータ調節にフィードバックされない構成になっていない点であり、そのフィードバックをシステム外部で人が経験的に行っていたからである。また、パラメータ調整は、認識結果に対しては間接的にしか影響を与えないため、パラメータ操作により特徴点の数を調整したからといっても必ずしも望みどおりの認識パフォーマンスの向上が実現されるわけではないという課題もあった。
すなわち、最適な数の特徴点を抽出するには時間がかかり、労力がかかるといった課題があり、また、時間や労力をかけても認識パフォーマンスを必ずしも向上できるとは限らないといった課題があった。本発明は、以下に説明するような処理が実行されることにより特徴点(特徴点特徴量)を抽出(設定)することにより、このような課題を解決する。
図2のフローチャートの説明に戻り、ステップS12において、特徴点抽出部21により、学習用モデル画像から特徴点が抽出されると、ステップS13に処理が進められる。ステップS13において、特徴量抽出部22は、特徴点抽出部21により抽出された特徴点に関して、特徴量を計算する。特徴量抽出部22は、特徴点抽出部21により抽出された複数の特徴点に対して、特徴点毎に、その特徴点の近傍の画像情報から特徴量を計算する。
その特徴量の計算は、例えば、グレーパッチ(近傍ピクセルの輝度値を並べ特徴量ベクトルとする)、グラディエントベクトル、ガボアジェット、ステアラブルジェットなどの、既に提案されている手法を適用することができる。1つの特徴点に同一タイプの特徴量が複数計算される手法や、タイプの異なる複数の特徴量を各特徴量から計算するようにしても良い。特徴量抽出部22による特徴量の計算の手法は、特に、限定を加える必要がなく、どのような手法を適用した場合にも本発明を適用することは可能である。
ステップS13において、特徴量が計算されると、ステップS14において、その計算された特徴量が、学習用モデル辞書登録部23に登録される。ここでは、学習用モデル辞書登録部23に登録される特徴量を、シード特徴点特徴量群と記述する。なお、シードとは、種(SEED)の意味であるとする。
シード特徴点特徴量群は、最適な特徴点(特徴量)を設定するための学習段階で、登録される特徴量である。そのような特徴量である、シード特徴点特徴量群を抽出するためには、特徴点抽出部21と特徴量抽出部22の処理には、以下のような条件が加えられることが好ましい。
特徴点抽出部21は、なるべく多くの特徴点を抽出するように、その特徴点の抽出の処理において用いられるパラメータの値が設定される。すなわちこの場合、[特徴点の抽出について]のところで説明を加えたHarrisLaplacian特徴点抽出手法により特徴点の抽出が行われる場合、第1の閾値と第2の閾値は、なるべく多くの特徴点が抽出されるような値に設定される。
具体的には、第2に閾値は、特徴点の候補から、特徴点を抽出する処理が実行される際に用いられる閾値であったが、その値を0(無効)にすれば、少なくとも、特徴点の候補のうち、第2の閾値以上である候補を特徴点とするという上述した第1の条件は、全ての候補が満たすことになるため、結果として多くの特徴点が候補として抽出されることになる。
このような特徴を有するシード特徴点特徴量群が、学習用モデル辞書登録部23には登録される。
仮に、シード特徴点特徴量群が、認識処理に用いられると、上記したような理由から、特徴点数が多いために、認識にかかる時間が長くなってしまう。また、特徴点数は多いが、その特徴点は、上記したように、単に、多くの特徴点を抽出するためにパラメータを設定した結果であり、最適な特徴点とするために設定されたパラメータが用いられて抽出されたものではないため、認識精度を必ずしも良くするものではない。
よって、本実施の形態においては、以下の処理(学習処理)により、シード特徴点特徴量群を最適化し、特徴点の数を減らすとともに、認識処理に最適な特徴点(特徴点特徴量群)のみが抽出されるようにする。
図2のフローチャートの説明に戻り、ステップS14において、学習用モデル辞書登録部23に、学習用モデル画像に関するシード特徴点特徴量群が登録されると、ステップS15において、特徴点抽出部24により、学習用入力画像が取得される。この学習用入力画像とは、学習対象の物体(モデル物体)を、さまざまな角度から撮影した画像、明暗が異なる状況で撮像した画像などの複数の画像のうちの1枚の画像である。予めこのような複数の画像が撮像されるようにしても良い。または、ステップS11で取得された学習用モデル画像を、デジタル処理によりさまざまに加工し用意した画像でも良い。
デジタル処理が施される場合、そのデジタル処理としては、例えば、拡大縮小変換、回転変換、相似変換、アフィン変換、投射変換、ノイズ付加、明度変化、シャープネス増強、ぼかし付加など、および、それらの画像変換の組み合わせにより、一般の撮像環境、撮像位置の変化により生じる画像変化をデジタル画像処理で擬似的に加工するための処理がある。
学習装置11には、学習対象となる物体1つにつき、学習用モデル画像を1枚だけ撮像した画像が用意されている。すなわち、学習用モデル画像は一枚のみである。一方、ここで言及している学習用入力画像には、さまざまな視点で撮像された画像や、デジタル処理により生成された画像を多数枚用意される。
この学習用入力画像には、学習用モデル画像のモデル物体が必ず含まれている。
ステップS16において、特徴点抽出部24は、取得した学習用入力画像から、特徴点を抽出する。ステップS17において、特徴量抽出部25は、特徴点抽出部24により抽出された特徴点の近傍の画像情報から、特徴量を計算する。このステップS16とステップS17における処理(特徴点抽出部24と特徴量抽出部25により行われる処理)は、基本的に、ステップS12とステップS13における処理(特徴点抽出部21と特徴量抽出部22により行われる処理)と同様であるので、その説明は省略する。
このようにして計算された特徴量は、特徴量比較部26に供給される。特徴量比較部26は、ステップS18において、供給された特徴量と、学習用モデル辞書登録部23に登録されている現在学習対象となっている学習用モデル画像から抽出されたシード特徴点特徴量群とを比較する。すなわち、特徴量比較部26は、所定の物体認識手法の特徴量間マッチング操作に従い、抽出された特徴点特徴量と、学習用モデル辞書登録部23に登録されているシード特徴点特徴量群との類似度を計算し、類似度の高い特徴点特徴量同士の対応付けを行う。この処理により、対応付けされた特徴点ペア群が生成される。
学習用入力画像にモデル物体が存在する場合、そのモデルに対して対応付けされる特徴量が数多く検出されることになる。この場合、上記したように、学習用入力画像中にモデル物体が存在することになっている。よって、学習用モデル画像と学習用入力画像全てに対してこのマッチングの処理を行った結果を集計し、その集計結果から、学習用モデル画像の各特徴点特徴量Miの対応特徴点ペア群として認識に使われた頻度F(Mi)を求めると、この頻度が高い特徴点特徴量ほど、高い認識パフォーマンス実現に対して寄与度が高い特徴点特徴量とみなせる。
よって学習用モデル画像の特徴点特徴量のうち、頻度F(Mi)の高い特徴点特徴量のみを選択抽出し、モデル物体の特徴点特徴量群として、モデル辞書登録部12に登録されるようにする。
このように、モデル辞書登録部12に、寄与度の高い特徴点特徴量(群)のみが、モデル辞書登録部12に登録されるようにするために、まず、学習用モデル画像と、複数の学習用入力画像とがマッチングされ、複数の特徴点特徴量が抽出されるようにする。そのためにステップS20において、全ての学習用入力画像を処理したか否かが判断される。
ステップS20において、全ての学習用入力画像は処理されてはいないと判断された場合、ステップS15に処理が戻され、それ以降の処理が繰り返される。この繰り返しにより、学習用モデル画像と、複数の学習用入力画像とのマッチングの処理が実行される。一方、ステップS20において、全ての学習用入力画像は処理されたと判断された場合、ステップS21に処理が進められる。
ステップS21において、モデル辞書登録処理部27は、各特徴点特徴量Miの対応特徴点ペア群として認識に使われた頻度F(Mi)を求め、この頻度が高い特徴点特徴量を抽出する。特徴点特徴量を選択する基準としては、例えば、頻度F(Mi)が既定の閾値以上となった特徴点特徴量Miのみを抽出する、頻度F(Mi)の大きい順にソートし、上位k個の特徴点特徴量Miのみを抽出する、頻度F(Mi)を学習用入力画像の枚数で割ることで各特徴点特徴量Miが、どれくらいの確率で認識時に利用されたかを求め、この確率が既定の閾値以上になる特徴点特徴量Miのみを抽出するなどの方法が考えられる。そして、これらの方法を適宜利用することにより、抽出処理が実行されるようにすればよい。
この抽出に関し、図5と図6を参照して説明を加える。図5は、学習用モデル画像と5枚の学習用入力画像とをマッチングした結果(一例)を示している。図5においては、マッチングの結果としての対応特徴点ペア群を、線で表している。例えば、学習用モデル特徴点特徴量M1は、学習用入力画像1の特徴点特徴量L11、学習用入力画像2の特徴点特徴量L22、学習用入力画像3の特徴点特徴量L33、および、学習用入力画像5の特徴点特徴量L52と対応特徴点ペア組みされている。
また、同様に、学習用モデル特徴点特徴量M2は、学習用入力画像1の特徴点特徴量L13、学習用入力画像2の特徴点特徴量L24、学習用入力画像3の特徴点特徴量L32、および、学習用入力画像5の特徴点特徴量L51と対応特徴点ペア組みされている。さらに、同様に、学習用モデル特徴点特徴量M3は、学習用入力画像2の特徴点特徴量L24と、学習用入力画像4の特徴点特徴量L43と対応特徴点ペア組みされている。
このようなことを、特徴量比較部26(または、モデル辞書登録処理部27でも良い)は管理(一旦記憶)しており、その記憶されているデータは、例えば、図6に示すようなデータである。図6を参照するに、学習用モデル画像の特徴点特徴量M1には、特徴点特徴量L11、特徴点特徴量L22、特徴点特徴量L33、および、特徴点特徴量L52という4つの特徴点特徴量が対応付けられていることがわかる。すなわち、この結果から、特徴点特徴量M1は、頻度F(M1)=4であることがわかる。
同様に、特徴点特徴量M2は、頻度F(M2)=4であり、特徴点特徴量M3は、頻度F(M3)=2であることがわかる。この結果から、モデル辞書登録処理部27は、ステップS21の処理として、頻度の高い特徴点特徴量を抽出する際、特徴点特徴量M1と特徴点特徴量M2をそれぞれ抽出(選択)する。そして、ステップS22の処理として、その抽出した特徴点特徴量M1と特徴点特徴量M2を、モデル辞書登録部12に登録する。
このようにして、学習装置11において、特徴点特徴量の学習が行われる。
このように、モデル辞書登録部12に登録される特徴点特徴量を学習(抽出、選択)することにより、高い認識パフォーマンスを実現するときに寄与度の高い特徴点特徴量を学習(抽出、選択)することが可能となる。このことにより、特徴点特徴量を抽出する際に設定すべきパラメータ(上記した説明においては、例えば、第1の閾値や第2の閾値)を、実験、経験的に人手により設定することなく、認識に最適な特徴点特徴量の選択抽出が可能となる。
なお、後述する認識装置13により認識対象となる物体が複数ある場合には、それら物体毎に学習装置11側で、ステップS11乃至S22の処理が繰り返し適用され、モデル辞書登録部12のモデル辞書に認識対象となる全ての物体の特徴点特徴量が登録される。
すなわち、図2のフローチャートには記載していないが、複数の学習用モデル画像を処理する(学習する)必要があるときには、ステップS22の処理が実行された後に、“全ての学習対象物体の学習用モデル画像を処理したか?”といったような判定が行われるようにし、NOの場合には(全ての学習対象物体の学習用モデル画像は処理していないと判断された場合には)、ステップS11に処理が戻され、それ以降の処理が繰り返し行われるようにする。
このような特徴点特徴量を利用し、高い認識パフォーマンスを実現する認識装置13(図1)の処理について、以下に説明を加える。
[認識装置の処理について]
図7のフローチャートを参照し、認識装置13の処理について説明する。なお、以下に説明するような認識処理を実行する認識装置13は、例えば、ロボットなどに搭載される。
ステップS41において、認識装置13の特徴点抽出部31は、処理対象となる入力画像を取得する。特徴点抽出部31は、ステップS42において、取得された入力画像から特徴点を抽出し、特徴量抽出部32に供給する。
特徴量抽出部32は、ステップS43において、供給された特徴点に関する特徴量を抽出し、特徴量比較部33に供給する。ここまでの処理は、図2のフローチャートを参照して説明したステップS11乃至S13、または、ステップS15乃至S17の処理と基本的に同様に行われるため、その詳細な説明は省略する。
ただし、特徴点の抽出や特徴量の抽出の際に用いられるパラメータなどは、必ずしも、学習装置11側と認識装置13側で同一の値を用いる必要はなく、適宜、異なる値を用いても良い。また、その抽出に係わる手法自体も、学習装置11側と認識装置13側で、全く同一の手法を用いなくてはならないという限定はなく、異なる手法を用いることも可能である。
ステップS44において、特徴量比較部33は、モデル辞書登録部12に登録されているモデル画像の特徴点特徴量を取得する。上記したように、モデル辞書登録部12と認識装置13がネットワークなどを介して接続されている場合、そのネットワークを介して特徴点特徴量が取得される。
ステップS45において、特徴量比較部33は、特徴量抽出部32から供給された特徴点特徴量と、モデル辞書登録部12から取得した特徴点特徴量を比較する。この比較に関しては、図2のステップS14またはステップS18と基本的に同様の処理により行われるため、その詳細な説明は省略する。この比較の処理は、1枚の入力画像と、複数のモデル画像(学習装置11側で処理された学習用モデル画像の枚数分)とに対して行われる。複数のモデル画像(モデル画像に関する特徴点特徴量)は、一度にまとめて、モデル辞書登録部12から取得されても良いし、必要に応じて取得されるようにしても良く、その取得のタイミングなどに関しては、適宜、設計の段階で決定されればよい。
ステップS46において、モデル検出判定部34は、特徴量比較部33による比較結果を参照し、モデル物体の検出を行う。例えば、対応特徴点ペア組の最も多いモデル画像のモデル物体を検出した物体として判定する。
このような特徴点特徴量の比較の際、モデル辞書登録部12に登録されているモデル画像の特徴点特徴量が用いられるが、その特徴点特徴量は、学習装置11における学習結果が登録されており、その登録されている特徴点特徴量は、上記したように、認識パフォーマンスを向上させるようなものとされている。すなわち、比較の処理が実行される際に取得される(参照される)特徴点特徴量の数は、認識処理を実行するうえで、認識率を向上させるために必要な数だけ登録されているため、認識率を向上させることが可能となる。また、このように登録されている特徴点特徴量の数が限定されているため、比較の処理にかかる時間を短縮させることが可能となる。
[学習装置の他の構成例について]
図8は、学習装置11の他の構成例を示す図である。図8に示した学習装置101と、図1に示した学習装置11とを比較するに、学習装置101は、学習装置11の特徴量比較部26とモデル辞書登録処理部27との間に、アウトライヤ除去部111が追加された構成とされている。
すなわち、学習装置111は、特徴量比較部26からの特徴点特徴量のうち、アウトライヤに該当する特徴量を除去し、モデル辞書登録処理部27に出力する構成とされている。アウトライヤについて、図9を参照して説明する。特徴量比較部26からは、対応特徴点ペア組が出力されるわけだが、その対応特徴点ペア組のなかには、対応特徴点間の空間的位置関係が学習用モデル画像上での姿勢と矛盾しない「真の特徴点ペア(インライヤ)」だけでなく、矛盾するような「偽の特徴点ペア(アウトライヤ)」も含まれている可能性がある。
図9は、インライヤとアウトライヤを模式的に表している。同図に示されるように、図中左側に示される三角形の学習用モデル画像と、図中右側に示される学習用入力画像の三角形の検出対象物体(モデル物体)が対応するとすると、学習用モデル画像の三角形の頂点近傍の特徴点P1乃至P4は、検出対象物体の特徴点P11乃至P14とそれぞれ対応する。すなわち、特徴点P1が特徴点P11と、特徴点P2が特徴点P12と、特徴点P3が特徴点P13と、特徴点P4が特徴点P14とそれぞれ対応する。したがって、これらの候補対応特徴点組はインライヤを構成する。なお、図9において、インライヤは実線で示されている。
これに対して、学習用モデル画像の特徴点P5は三角形の内部のほぼ中央に位置し、特徴点P6は三角形の周辺の近傍の外部に位置する。これに対して、特徴点P5とペア組された学習用入力画像の特徴点P15と、特徴点P6とペア組された学習用入力画像の特徴点P16は、それぞれ、検出対象物体とは遠く離れた点である。すなわち、特徴点P5と特徴点P15の候補対応特徴点組、並びに特徴点P6と特徴点P16の候補対応特徴点組はアウトライヤである。なお、図9において、アウトライヤは破線で示されている。
このようなアウトライヤが存在するような対応特徴点ペア組を利用すると、結果的にモデル辞書登録部12に登録される特徴点特徴量の精度が低下することになり、その結果、認識装置13における認識パフォーマンスが低下する可能性がある。そこで、学習装置101の構成を図8に示したような、アウトライヤ除去部111を備える構成とし、アウトライヤが除去される手法を設けるようにし、そのような精度やパフォーマンスの低下を防ぐようにしても良い。
学習装置101のように、アウトライヤ除去部111を設ける構成とした場合の処理について、図10のフローチャートを参照して説明する。
ステップS111乃至S118の処理は、図2のステップ11乃至S18に、ステップS120乃至S123の処理は、図2のステップS19乃至S22に、それぞれ基本的に同様であるので、その詳細な説明は省略する。すなわち、アウトライヤ除去部111が設けられた学習装置101では、アウトライヤ除去部111が設けられていない学習装置11と比較し、ステップS119においてアウトライヤの除去の処理が実行される点が異なり、その他の処理は、基本的に同様である。もちろん、ステップS120以下の処理は、アウトラインが除去されたデータに対して行われる。
ステップS119において行われるアウトライヤの除去の処理についての詳細は、本出願人が、先に出願した特願2004−244018号に開示されており、その発明を適用することができる。
このように、本発明によれば、モデル学習用画像群を用意する際に想定した認識環境下でロバストな認識を実現できる特徴点のみが選択でき、この特徴点(特徴量)を認識に用いることで認識速度、認識精度を向上させることが可能となる。
[記録媒体について]
上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。この場合、例えば、学習装置11は、図11に示されるようなパーソナルコンピュータにより構成される。
図11において、CPU(Central Processing Unit)121は、ROM(Read Only Memory)122に記憶されているプログラム、または記憶部128からRAM(Random Access Memory)123にロードされたプログラムに従って各種の処理を実行する。RAM123にはまた、CPU121が各種の処理を実行する上において必要なデータなども適宜記憶される。
CPU121、ROM122、およびRAM123は、バス124を介して相互に接続されている。このバス124にはまた、入出力インタフェース125も接続されている。
入出力インタフェース125には、キーボード、マウスなどよりなる入力部126、CRT(Cathode Ray Tube)、LCD(Liquid Crystal display)などよりなるディスプレイ、並びにスピーカなどよりなる出力部127、ハードディスクなどより構成される記憶部128、モデムなどより構成される通信部129が接続されている。通信部129は、インターネットを含むネットワークを介しての通信処理を行う。
入出力インタフェース125にはまた、必要に応じてドライブ130が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア131が適宜装着され、それらから読み出されたコンピュータプログラムが、必要に応じて記憶部128にインストールされる。
一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、ネットワークや記録媒体からインストールされる。
この記録媒体は、図11に示されるように、装置本体とは別に、ユーザにプログラムを提供するために配布される、プログラムが記録されている磁気ディスク(フロッピディスクを含む)、光ディスク(CD-ROM(Compact Disk-Read Only Memory),DVD(Digital Versatile Disk)を含む)、光磁気ディスク(MD(Mini-Disk)を含む)、もしくは半導体メモリなどよりなるリムーバブルメディア131により構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される、プログラムが記録されているROM122や、記憶部128に含まれるハードディスクなどで構成される。
なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
また、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。
本発明を適用したシステムの一実施の形態の構成を示す図である。 学習装置の動作を説明するフローチャートである。 特徴点の抽出について説明するための図である。 特徴点の抽出について説明するための図である。 抽出される特徴点特徴量について説明するための図である。 抽出処理に係わるデータについて説明するための図である。 認識装置の動作について説明するフローチャートである。 学習装置の他の構成例を示す図である。 アウトライヤについて説明するための図である。 学習装置の他の動作について説明するためのフローチャートである。 媒体を説明する図である。
符号の説明
11 学習装置, 12 モデル辞書登録部, 13 認識装置, 21 特徴点抽出部, 22 特徴量抽出部, 23 学習用モデル辞書登録部, 24 特徴点抽出部, 25 特徴量抽出部, 26 特徴量比較部, 27 モデル辞書登録処理部, 31 特徴点抽出部, 32 特徴量抽出部, 33 特徴量比較部, 34 モデル検出判定部, 101 学習装置, 111 アウトライン除去部

Claims (8)

  1. 第1の画像から第1の特徴点を抽出する第1の特徴点抽出手段と、
    前記第1の特徴点抽出手段により抽出された前記第1の特徴点から第1の特徴量を抽出する第1の特徴量抽出手段と、
    前記第1の特徴量抽出手段により抽出された前記第1の特徴量を登録する第1の登録手段と、
    第2の画像から第2の特徴点を抽出する第2の特徴点抽出手段と、
    前記第2の特徴点抽出手段により抽出された前記第2の特徴点から第2の特徴量を抽出する第2の特徴量抽出手段と、
    前記第1の登録手段により登録された前記第1の特徴量と、前記第2の特徴量抽出手段により抽出された前記第2の特徴量を比較し、類似する特徴量を有する特徴点の組としての候補対応特徴点組を生成する生成手段と、
    前記第1の特徴量から、前記生成手段により生成された候補対対応特徴点組に含まれた頻度が閾値以上である前記第1の特徴量を、登録する登録用特徴量として選択する選択手段と、
    前記選択手段により選択された登録用特徴量を登録する第2の登録手段と、
    第3の画像から第3の特徴点を抽出する第3の特徴点抽出手段と、
    前記第3の特徴点抽出手段により抽出された前記第3の特徴点から第3の特徴量を抽出する第3の特徴量抽出手段と、
    前記第2の登録手段により登録された前記登録用特徴量と、前記第3の特徴量抽出手段により抽出された前記第3の特徴量とを比較し、前記第3の画像に含まれるモデル物体を検出する検出手段と
    を含むことを特徴とする画像処理システム。
  2. 所定の画像に含まれるモデル物体を検出するときに用いられる登録用特徴量を学習し、登録する学習装置において、
    第1の画像から第1の特徴点を抽出する第1の特徴点抽出手段と、
    前記第1の特徴点抽出手段により抽出された前記第1の特徴点から第1の特徴量を抽出する第1の特徴量抽出手段と、
    前記第1の特徴量抽出手段により抽出された前記第1の特徴量を登録する第1の登録手段と、
    第2の画像から第2の特徴点を抽出する第2の特徴点抽出手段と、
    前記第2の特徴点抽出手段により抽出された前記第2の特徴点から第2の特徴量を抽出する第2の特徴量抽出手段と、
    前記第1の登録手段により登録された前記第1の特徴量と、前記第2の特徴量抽出手段により抽出された前記第2の特徴量を比較し、類似する特徴量を有する特徴点の組としての候補対応特徴点組を生成する生成手段と、
    前記第1の特徴量から、前記生成手段により生成された候補対対応特徴点組に含まれた頻度が閾値以上である前記第1の特徴量を、登録する登録用特徴量として選択する選択手段と
    を含むことを特徴とする学習装置。
  3. 前記第2の画像には、前記第1の画像に含まれるモデル画像が必ず含まれている
    ことを特徴とする請求項2に記載の学習装置。
  4. 前記第1の特徴点抽出手段と前記第1の特徴点抽出手段が抽出処理を実行するときに用いるパラメータは、無効を示す値に設定される
    ことを特徴とする請求項2に記載の学習装置。
  5. 前記第2の画像は、所定の画像をデジタル処理することにより生成された画像である
    ことを特徴とする請求項2に記載の学習装置。
  6. 前記デジタル処理は、拡大縮小変換、回転変換、相似変換、アフィン変換、投射変換、ノイズ付加、明度変化、シャープネス変化、ぼかし付加、及び、それらの画像変換の組み合わせのうちのいずれか1つの処理である
    ことを特徴とする請求項5に記載の学習装置。
  7. 所定の画像に含まれるモデル物体を検出するときに用いられる登録用特徴量を学習し、登録する学習装置の学習方法において、
    第1の画像から第1の特徴点を抽出する第1の特徴点抽出ステップと、
    前記第1の特徴点抽出ステップの処理で抽出された前記第1の特徴点から第1の特徴量を抽出する第1の特徴量抽出ステップと、
    前記第1の特徴量抽出ステップの処理で抽出された前記第1の特徴量を登録する第1の登録ステップと、
    第2の画像から第2の特徴点を抽出する第2の特徴点抽出ステップと、
    前記第2の特徴点抽出ステップの処理で抽出された前記第2の特徴点から第2の特徴量を抽出する第2の特徴量抽出ステップと、
    前記第1の登録ステップの処理で登録された前記第1の特徴量と、前記第2の特徴量抽出ステップにより抽出された前記第2の特徴量を比較し、類似する特徴量を有する特徴点の組としての候補対応特徴点組を生成する生成ステップと、
    前記第1の特徴量から、前記生成ステップの処理で生成された候補対対応特徴点組に含まれた頻度が閾値以上である前記第1の特徴量を、登録する登録用特徴量として選択する選択ステップと
    を含むことを特徴とする学習方法。
  8. 所定の画像に含まれるモデル物体を検出するときに用いられる登録用特徴量を学習し、登録する学習装置を制御するコンピュータが読み取り可能なプログラムにおいて、
    第1の画像から第1の特徴点を抽出する第1の特徴点抽出ステップと、
    前記第1の特徴点抽出ステップの処理で抽出された前記第1の特徴点から第1の特徴量を抽出する第1の特徴量抽出ステップと、
    前記第1の特徴量抽出ステップの処理で抽出された前記第1の特徴量を登録する第1の登録ステップと、
    第2の画像から第2の特徴点を抽出する第2の特徴点抽出ステップと、
    前記第2の特徴点抽出ステップの処理で抽出された前記第2の特徴点から第2の特徴量を抽出する第2の特徴量抽出ステップと、
    前記第1の登録ステップの処理で登録された前記第1の特徴量と、前記第2の特徴量抽出ステップにより抽出された前記第2の特徴量を比較し、類似する特徴量を有する特徴点の組としての候補対応特徴点組を生成する生成ステップと、
    前記第1の特徴量から、前記生成ステップの処理で生成された候補対対応特徴点組に含まれた頻度が閾値以上である前記第1の特徴量を、登録する登録用特徴量として選択する選択ステップと
    を含むことを特徴とするコンピュータが読み取り可能なプログラム。
JP2005003049A 2005-01-07 2005-01-07 画像処理システム、学習装置および方法、並びにプログラム Expired - Fee Related JP4613617B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2005003049A JP4613617B2 (ja) 2005-01-07 2005-01-07 画像処理システム、学習装置および方法、並びにプログラム
EP05819776A EP1835460B1 (en) 2005-01-07 2005-12-26 Image processing system, learning device and method, and program
US11/813,404 US8582887B2 (en) 2005-01-07 2005-12-26 Image processing system, learning device and method, and program
CN200580049018XA CN101138007B (zh) 2005-01-07 2005-12-26 图像处理系统、学习设备及方法
PCT/JP2005/023747 WO2006073076A1 (ja) 2005-01-07 2005-12-26 画像処理システム、学習装置および方法、並びにプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005003049A JP4613617B2 (ja) 2005-01-07 2005-01-07 画像処理システム、学習装置および方法、並びにプログラム

Publications (2)

Publication Number Publication Date
JP2006190201A JP2006190201A (ja) 2006-07-20
JP4613617B2 true JP4613617B2 (ja) 2011-01-19

Family

ID=36647558

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005003049A Expired - Fee Related JP4613617B2 (ja) 2005-01-07 2005-01-07 画像処理システム、学習装置および方法、並びにプログラム

Country Status (5)

Country Link
US (1) US8582887B2 (ja)
EP (1) EP1835460B1 (ja)
JP (1) JP4613617B2 (ja)
CN (1) CN101138007B (ja)
WO (1) WO2006073076A1 (ja)

Families Citing this family (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4793638B2 (ja) * 2006-03-27 2011-10-12 マツダ株式会社 車両用歩行者検出装置
JP4321645B2 (ja) 2006-12-08 2009-08-26 ソニー株式会社 情報処理装置および情報処理方法、認識装置および情報認識方法、並びに、プログラム
JP4393556B2 (ja) * 2007-03-06 2010-01-06 シャープ株式会社 画像処理方法、画像処理装置、画像読取装置、画像形成装置、コンピュータプログラム及びコンピュータでの読み取りが可能な記録媒体
US8055079B2 (en) * 2007-03-06 2011-11-08 Sharp Kabushiki Kaisha Image processing method, image processing apparatus, and image forming apparatus
JP4508283B2 (ja) * 2007-03-09 2010-07-21 オムロン株式会社 認識処理方法およびこの方法を用いた画像処理装置
JP4982754B2 (ja) * 2007-03-20 2012-07-25 国立大学法人九州工業大学 物体検出方法
JP5096776B2 (ja) * 2007-04-04 2012-12-12 キヤノン株式会社 画像処理装置及び画像検索方法
KR100886557B1 (ko) * 2007-05-03 2009-03-02 삼성전자주식회사 적응형 학습에 기반한 얼굴 인식 시스템 및 방법
JP4989308B2 (ja) * 2007-05-16 2012-08-01 キヤノン株式会社 画像処理装置及び画像検索方法
JP5139716B2 (ja) * 2007-05-16 2013-02-06 キヤノン株式会社 画像検索装置及び画像検索方法
US8254690B2 (en) 2007-10-19 2012-08-28 Sony Corporation Information processing apparatus, information processing method, and program
JP4873258B2 (ja) * 2007-10-19 2012-02-08 ソニー株式会社 情報処理装置および方法、並びにプログラム
JP4983539B2 (ja) * 2007-10-19 2012-07-25 ソニー株式会社 情報処理装置および方法、並びにプログラム
JP5018404B2 (ja) 2007-11-01 2012-09-05 ソニー株式会社 画像識別装置および画像識別方法、並びに、プログラム
JP4894741B2 (ja) * 2007-12-03 2012-03-14 ソニー株式会社 情報処理装置および情報処理方法、プログラム、並びに記録媒体
CN101489082B (zh) * 2008-01-18 2011-12-28 华硕电脑股份有限公司 电子装置、影像串流的处理模块与处理方法
WO2009139161A1 (ja) * 2008-05-15 2009-11-19 株式会社ニコン 画像処理装置、画像処理方法、処理装置、処理方法およびプログラム
JP5294343B2 (ja) * 2008-06-10 2013-09-18 国立大学法人東京工業大学 画像位置合わせ処理装置、領域拡張処理装置及び画質改善処理装置
DE102008039753B3 (de) * 2008-08-26 2010-04-01 Vodafone Holding Gmbh Verfahren zum Bearbeiten einer Bilddatenbank
JP5183392B2 (ja) * 2008-09-25 2013-04-17 キヤノン株式会社 画像処理装置、画像処理方法およびプログラム
JP2011039974A (ja) * 2009-08-18 2011-02-24 Kddi Corp 画像検索方法およびシステム
JP5468332B2 (ja) * 2009-08-20 2014-04-09 Juki株式会社 画像特徴点抽出方法
DE102009049849B4 (de) 2009-10-19 2020-09-24 Apple Inc. Verfahren zur Bestimmung der Pose einer Kamera, Verfahren zur Erkennung eines Objekts einer realen Umgebung und Verfahren zur Erstellung eines Datenmodells
US8897572B2 (en) 2009-12-02 2014-11-25 Qualcomm Incorporated Fast subspace projection of descriptor patches for image recognition
US8798377B2 (en) * 2010-02-08 2014-08-05 Telefonica, S.A. Efficient scale-space extraction and description of interest points
US9530073B2 (en) * 2010-04-20 2016-12-27 Qualcomm Incorporated Efficient descriptor extraction over multiple levels of an image scale space
JP2012033022A (ja) * 2010-07-30 2012-02-16 Panasonic Corp 空間における変化領域検出装置及び方法
CN101968851B (zh) * 2010-09-09 2012-08-08 西安电子科技大学 基于字典学习上采样的医学影像处理方法
JP5214762B2 (ja) * 2011-03-25 2013-06-19 株式会社東芝 認識装置、方法及びプログラム
US8634654B2 (en) 2011-04-15 2014-01-21 Yahoo! Inc. Logo or image recognition
JP5836724B2 (ja) * 2011-09-21 2015-12-24 キヤノン株式会社 画像認識方法、画像認識装置及びプログラム
FR2983607B1 (fr) * 2011-12-02 2014-01-17 Morpho Procede et dispositif de suivi d'un objet dans une sequence d'au moins deux images
JP5836095B2 (ja) * 2011-12-05 2015-12-24 キヤノン株式会社 画像処理装置、画像処理方法
ITMI20120003A1 (it) * 2012-01-02 2013-07-03 Telecom Italia Spa Analisi d'immagine
US20150294189A1 (en) * 2012-07-23 2015-10-15 Selim BenHimane Method of providing image feature descriptors
CN108197631B (zh) * 2012-07-23 2022-06-28 苹果公司 提供图像特征描述符的方法
JP5971112B2 (ja) * 2012-12-25 2016-08-17 富士通株式会社 画像処理方法、画像処理装置および画像処理プログラム
US9829984B2 (en) * 2013-05-23 2017-11-28 Fastvdo Llc Motion-assisted visual language for human computer interfaces
JPWO2015068417A1 (ja) * 2013-11-11 2017-03-09 日本電気株式会社 画像照合システム、画像照合方法およびプログラム
US10083368B2 (en) 2014-01-28 2018-09-25 Qualcomm Incorporated Incremental learning for dynamic feature database management in an object recognition system
WO2015136714A1 (ja) * 2014-03-14 2015-09-17 オムロン株式会社 画像識別装置、画像センサ、画像識別方法
JP6338274B2 (ja) * 2014-06-25 2018-06-06 Kddi株式会社 情報処理装置ならびにその特徴点選択方法、装置およびプログラム
US11151630B2 (en) 2014-07-07 2021-10-19 Verizon Media Inc. On-line product related recommendations
JP6348093B2 (ja) * 2015-11-06 2018-06-27 ファナック株式会社 入力データから検出対象物の像を検出する画像処理装置および方法
JP6333871B2 (ja) * 2016-02-25 2018-05-30 ファナック株式会社 入力画像から検出した対象物を表示する画像処理装置
JP6758929B2 (ja) * 2016-06-03 2020-09-23 株式会社ニューフレアテクノロジー 検査方法
US10739142B2 (en) 2016-09-02 2020-08-11 Apple Inc. System for determining position both indoor and outdoor
CN107967691B (zh) * 2016-10-20 2021-11-23 株式会社理光 一种视觉里程计算方法和装置
JP6948787B2 (ja) * 2016-12-09 2021-10-13 キヤノン株式会社 情報処理装置、方法およびプログラム
WO2019133849A1 (en) 2017-12-29 2019-07-04 Ebay Inc. Computer vision and image characteristic search
WO2019175620A1 (en) * 2018-03-11 2019-09-19 Pratik Sharma View based object detection in images
JP6863946B2 (ja) * 2018-10-31 2021-04-21 ファナック株式会社 画像処理装置
JP7372076B2 (ja) * 2019-08-07 2023-10-31 ファナック株式会社 画像処理システム
CN111860225B (zh) * 2020-06-30 2023-12-12 阿波罗智能技术(北京)有限公司 一种图像处理的方法、装置、电子设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004326693A (ja) * 2003-04-28 2004-11-18 Sony Corp 画像認識装置及び方法、並びにロボット装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0778256A (ja) * 1993-06-17 1995-03-20 Omron Corp 特徴量選択方法及び装置
JPH0755724A (ja) * 1993-08-17 1995-03-03 Sumitomo Metal Ind Ltd 判定支援装置及び判定装置
JP3512992B2 (ja) * 1997-01-07 2004-03-31 株式会社東芝 画像処理装置および画像処理方法
JP3002721B2 (ja) * 1997-03-17 2000-01-24 警察庁長官 図形位置検出方法及びその装置並びにプログラムを記録した機械読み取り可能な記録媒体
BR9906453A (pt) * 1998-05-19 2000-09-19 Sony Computer Entertainment Inc Dispositivo e método do processamento de imagem, e meio de distribuição.
US6975755B1 (en) * 1999-11-25 2005-12-13 Canon Kabushiki Kaisha Image processing method and apparatus
KR100450793B1 (ko) * 2001-01-20 2004-10-01 삼성전자주식회사 영역 분할된 영상의 영역 특징치 정합에 기초한객체추출장치 및 그 방법
JP4605445B2 (ja) 2004-08-24 2011-01-05 ソニー株式会社 画像処理装置および方法、記録媒体、並びにプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004326693A (ja) * 2003-04-28 2004-11-18 Sony Corp 画像認識装置及び方法、並びにロボット装置

Also Published As

Publication number Publication date
WO2006073076A1 (ja) 2006-07-13
CN101138007B (zh) 2010-12-08
CN101138007A (zh) 2008-03-05
EP1835460A1 (en) 2007-09-19
US20090041340A1 (en) 2009-02-12
US8582887B2 (en) 2013-11-12
EP1835460A4 (en) 2009-03-18
JP2006190201A (ja) 2006-07-20
EP1835460B1 (en) 2012-08-01

Similar Documents

Publication Publication Date Title
JP4613617B2 (ja) 画像処理システム、学習装置および方法、並びにプログラム
US8126206B2 (en) Image processing apparatus, image processing method, and program
US9692939B2 (en) Device, system, and method of blind deblurring and blind super-resolution utilizing internal patch recurrence
Alcantarilla et al. KAZE features
US10127679B2 (en) Image alignment method and apparatus
JP4196302B2 (ja) 情報処理装置および方法、並びにプログラム
JP5188334B2 (ja) 画像処理装置、画像処理方法およびプログラム
US6640008B1 (en) Rotation and scale invariant pattern matching method
JP5345109B2 (ja) 画像における物体の変位可能な特徴を正規化するための方法
JP5656768B2 (ja) 画像特徴量抽出装置およびそのプログラム
Fei et al. Real-time visual tracking based on improved perceptual hashing
CN114049499A (zh) 用于连续轮廓的目标对象检测方法、设备及存储介质
Chen et al. Image segmentation based on mathematical morphological operator
Nagahashi et al. Image segmentation using iterated graph cuts based on multi-scale smoothing
JP2009104244A (ja) 情報処理装置および方法、並びにプログラム
CN110570450A (zh) 一种基于级联的上下文感知框架的目标跟踪方法
Zhou et al. Superpixel-driven level set tracking
JP2019220174A (ja) 人工ニューラルネットワークを用いた画像処理
Hu et al. Multi-task l0 gradient minimization for visual tracking
Shao et al. Joint image restoration and matching based on distance-weighted sparse representation
JP5865687B2 (ja) 画像特徴量抽出装置およびそのプログラム
Zhang et al. Video Frame Interpolation via Multi-scale Expandable Deformable Convolution
Ndjiki-Nya et al. Automatic structure-aware inpainting for complex image content
Yang et al. Image copy–move forgery detection based on sped-up robust features descriptor and adaptive minimal–maximal suppression
Zhang et al. Digital image forensics of non-uniform deblurring

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070703

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100715

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100903

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100921

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101004

R151 Written notification of patent or utility model registration

Ref document number: 4613617

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131029

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees