JP4720913B2 - 学習装置、学習方法、識別装置、識別方法、及び、プログラム - Google Patents

学習装置、学習方法、識別装置、識別方法、及び、プログラム Download PDF

Info

Publication number
JP4720913B2
JP4720913B2 JP2009036500A JP2009036500A JP4720913B2 JP 4720913 B2 JP4720913 B2 JP 4720913B2 JP 2009036500 A JP2009036500 A JP 2009036500A JP 2009036500 A JP2009036500 A JP 2009036500A JP 4720913 B2 JP4720913 B2 JP 4720913B2
Authority
JP
Japan
Prior art keywords
feature
image
feature point
generation
dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009036500A
Other languages
English (en)
Other versions
JP2010191772A (ja
Inventor
嘉昭 岩井
章 中村
隆之 芦ヶ原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2009036500A priority Critical patent/JP4720913B2/ja
Priority to CN2010101159784A priority patent/CN101814135B/zh
Priority to US12/704,001 priority patent/US8270707B2/en
Publication of JP2010191772A publication Critical patent/JP2010191772A/ja
Application granted granted Critical
Publication of JP4720913B2 publication Critical patent/JP4720913B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Description

本発明は、学習装置、学習方法、識別装置、識別方法、及び、プログラムに関し、特に、画像に写っている被写体が所定の識別対象であるか否かの識別において、識別性と不変性との両方を向上させることができるようにする学習装置、学習方法、識別装置、識別方法、及び、プログラムに関する。
カメラで取得した画像から、その画像内に存在する識別対象としての物体を識別(認識)する識別方法としては、識別対象を大局的に記述したテンプレートを用いたマッチングを行う方法がある。
すなわち、従来の識別方法では、識別対象を大局的に記述したテンプレート、つまり、識別対象全体のテクスチャのテンプレートを用意しておき、そのテンプレートと、識別を行う対象の画像(処理対象画像)とのマッチングが行われる。
しかしながら、識別対象を大局的に記述したテンプレートを用いたマッチングでは、処理対象画像に写っている識別対象の部分的な隠れや歪み等に対して対応することが困難であった。
そこで、処理対象画像の局所領域に注目して、各局所領域から特徴量を抽出し、各局所領域の特徴量を組み合わせたもの(局所領域の特徴量の集合)、すなわち、例えば、各局所領域の特徴量をコンポーネントとするベクトルを用いて、識別を行う方法がある。
局所領域の特徴量の集合を用いる場合には、識別対象を大局的に記述したテンプレートを用いる方法では対応することが困難であった、識別対象の部分的な隠れや歪み等の問題を、ある程度解消し、精度の高い識別を行うことができる。
局所領域の特徴量は、個別の物体の識別の他、物体のカテゴリの識別にも用いられる。例えば、局所領域の特徴量を用いて、人の顔等の特定のカテゴリを識別する方法が提案されている(例えば、非特許文献1を参照)。
また、カテゴリの識別には、様々なフレームワークが提案されている。カテゴリの識別に提案されているフレームワークとしては、例えば、BoF(Bag of Features)ヒストグラムを用いるフレームワーク(例えば、非特許文献2を参照)や、特徴量の相関を用いるフレームワーク(例えば、特許文献1を参照)等がある。
さらに、識別に用いる局所領域の特徴量としては、例えば、SIFT特徴量(例えば、非特許文献3を参照)や、ステアブルフィルタ(Steerable Filter)の出力(応答)(例えば、非特許文献4を参照)が提案されている。
特開2007-128195号公報
P.Viola, M. Jones. Robust Real-time Face Detection, cvpr2001 G. Csurka, C. Bray, C. Dance, and L. Fan. Visual categorization with bags of keypoint, ECCV2004 D. Lowe. Object recognition from local scale-invariant features, ICCV1999 J.J. Yokono and T. Poggio. "Oriented filters for Object Recognition: an empirical study", FG2004
ところで、個別の物体や物体のカテゴリといった識別対象の識別には、識別対象と、識別対象以外とを識別(区別)する識別性と、処理対象画像に写る識別対象が回転していたり、歪んでいても、識別対象であることを識別することができる不変性とが要求される。しかしながら、識別性と不変性とは、一般に、トレードオフの関係にある。このため、個別の物体や物体のカテゴリの識別等の、画像に写っている被写体が所定の識別対象であるか否かの識別において、SIFT特徴量や、ステアブルフィルタの応答そのものを、特徴量として用いても、識別性と不変性との両方を向上させることは困難である。
本発明は、このような状況に鑑みてなされたものであり、画像に写っている被写体が所定の識別対象であるか否かの識別において、識別性と不変性との両方を向上させることができるようにするものである。
本発明の第1の側面の学習装置、又はプログラムは、画像に写っている被写体が所定の識別対象であるか否かを識別する識別器を生成する学習に用いられる複数の生成用画像であって、かつ、前記識別対象が写っているポジティブ画像と、前記識別対象が写っていないネガティブ画像とを含む生成用画像において、特徴的な点である特徴点を抽出する特徴点抽出手段と、前記生成用画像の前記特徴点の特徴を表す特徴点特徴量を抽出する特徴点特徴量抽出手段と、前記生成用画像の特徴点特徴量から、その生成用画像全体の特徴を表す全体特徴量であって、かつ、複数の次元のベクトルで表される全体特徴量を求める全体特徴量生成手段と、前記生成用画像の全体特徴量と、その生成用画像が、ポジティブ画像、又はネガティブ画像のうちのいずれであるかを表す正解ラベルとを用い、前記識別器を生成する識別器生成手段とを備え、前記特徴点特徴量抽出手段は、複数のスケールσのガウス関数の、複数の角度θ方向の、複数の微分回数cの導関数それぞれで、前記生成用画像をフィルタリングし、そのフィルタリングにより得られる複数の応答画像を出力するフィルタ手段と、同一のスケールσのガウス関数の、同一の角度θ方向の、同一の微分回数cの導関数でのフィルタリングにより得られる前記応答画像について、前記特徴点を中心とする、固定半径の円形の領域である特徴点領域を、前記特徴点を基準に、角度方向と距離方向に区切ることで、前記特徴点領域を、複数の小領域に分割し、前記複数の小領域のそれぞれについて、前記小領域の画素値の平均値を、前記小領域の画素値の統計量として求め、同一のスケールσのガウス関数の、複数の角度θ方向の、同一の微分回数cの導関数それぞれでのフィルタリングにより得られる前記応答画像から求められる、前記小領域の画素値の平均値をコンポーネントとするベクトルを、前記特徴点の1種類の特徴量として、前記複数のスケールσと前記複数の微分回数cとの組み合わせの数だけの種類の特徴量を、前記特徴点の特徴点特徴量として求める特徴点特徴量算出手段とを有し、前記識別器生成手段は、前記全体特徴量である前記複数の次元のベクトルのコンポーネントである複数の次元特徴量のうちの、前記ポジティブ画像、及びネガティブ画像の識別を誤る度合いを表すエラー値を小さくする前記次元特徴量を用いて識別を行う前記識別器と、前記エラー値を小さくする前記次元特徴量の次元を表す次元情報とを生成する学習装置、又は、学習装置として、コンピュータを機能させるためのプログラムである。
本発明の第1の側面の学習方法は、画像に写っている被写体が所定の識別対象であるか否かを識別する識別器を生成する学習に用いられる複数の生成用画像であって、かつ、前記識別対象が写っているポジティブ画像と、前記識別対象が写っていないネガティブ画像とを含む生成用画像において、特徴的な点である特徴点を抽出し、前記生成用画像の前記特徴点の特徴を表す特徴点特徴量を抽出することを、複数のスケールσのガウス関数の、複数の角度θ方向の、複数の微分回数cの導関数それぞれで、前記生成用画像をフィルタリングし、そのフィルタリングにより得られる複数の応答画像を出力し、同一のスケールσのガウス関数の、同一の角度θ方向の、同一の微分回数cの導関数でのフィルタリングにより得られる前記応答画像について、前記特徴点を中心とする、固定半径の円形の領域である特徴点領域を、前記特徴点を基準に、角度方向と距離方向に区切ることで、前記特徴点領域を、複数の小領域に分割し、前記複数の小領域のそれぞれについて、前記小領域の画素値の平均値を、前記小領域の画素値の統計量として求め、同一のスケールσのガウス関数の、複数の角度θ方向の、同一の微分回数cの導関数それぞれでのフィルタリングにより得られる前記応答画像から求められる、前記小領域の画素値の平均値をコンポーネントとするベクトルを、前記特徴点の1種類の特徴量として、前記複数のスケールσと前記複数の微分回数cとの組み合わせの数だけの種類の特徴量を、前記特徴点の特徴点特徴量として求めることにより行い、前記生成用画像の特徴点特徴量から、その生成用画像全体の特徴を表す全体特徴量であって、かつ、複数の次元のベクトルで表される全体特徴量を求め、前記生成用画像の全体特徴量と、その生成用画像が、ポジティブ画像、又はネガティブ画像のうちのいずれであるかを表す正解ラベルとを用い、前記識別器を生成することを、前記全体特徴量である前記複数の次元のベクトルのコンポーネントである複数の次元特徴量のうちの、前記ポジティブ画像、及びネガティブ画像の識別を誤る度合いを表すエラー値を小さくする前記次元特徴量を用いて識別を行う前記識別器と、前記エラー値を小さくする前記次元特徴量の次元を表す次元情報とを生成することにより行うステップを含む学習方法である。
本発明の第1の側面においては、画像に写っている被写体が所定の識別対象であるか否かを識別する識別器を生成する学習に用いられる複数の生成用画像であって、かつ、前記識別対象が写っているポジティブ画像と、前記識別対象が写っていないネガティブ画像とを含む生成用画像において、特徴的な点である特徴点が抽出され、前記生成用画像の前記特徴点の特徴を表す特徴点特徴量が抽出される。さらに、前記生成用画像の特徴点特徴量から、その生成用画像全体の特徴を表す全体特徴量であって、かつ、複数の次元のベクトルで表される全体特徴量が求められ、前記生成用画像の全体特徴量と、その生成用画像が、ポジティブ画像、又はネガティブ画像のうちのいずれであるかを表す正解ラベルとを用い、前記識別器が生成される。この場合において、複数のスケールσのガウス関数の、複数の角度θ方向の、複数の微分回数cの導関数それぞれで、前記生成用画像がフィルタリングされ、そのフィルタリングにより得られる複数の応答画像が出力される。さらに、同一のスケールσのガウス関数の、同一の角度θ方向の、同一の微分回数cの導関数でのフィルタリングにより得られる前記応答画像について、前記特徴点を中心とする、固定半径の円形の領域である特徴点領域を、前記特徴点を基準に、角度方向と距離方向に区切ることで、前記特徴点領域が、複数の小領域に分割され、前記複数の小領域のそれぞれについて、前記小領域の画素値の平均値が、前記小領域の画素値の統計量として求められる。そして、同一のスケールσのガウス関数の、複数の角度θ方向の、同一の微分回数cの導関数それぞれでのフィルタリングにより得られる前記応答画像から求められる、前記小領域の画素値の平均値をコンポーネントとするベクトルを、前記特徴点の1種類の特徴量として、前記複数のスケールσと前記複数の微分回数cとの組み合わせの数だけの種類の特徴量が、前記特徴点の特徴点特徴量として求められる。また、前記全体特徴量である前記複数の次元のベクトルのコンポーネントである複数の次元特徴量のうちの、前記ポジティブ画像、及びネガティブ画像の識別を誤る度合いを表すエラー値を小さくする前記次元特徴量を用いて識別を行う前記識別器と、前記エラー値を小さくする前記次元特徴量の次元を表す次元情報とが生成される。
本発明の第2の側面の識別装置、又はプログラムは、画像に写っている被写体が所定の識別対象であるか否かを識別する対象の処理対象画像において、特徴的な点である特徴点を抽出する特徴点抽出手段と、前記処理対象画像の前記特徴点の特徴を表す特徴点特徴量を抽出する特徴点特徴量抽出手段と、前記処理対象画像の特徴点特徴量から、その処理対象画像全体の特徴を表す全体特徴量であって、かつ、複数の次元のベクトルで表される全体特徴量としての前記ベクトルのコンポーネントである複数の次元特徴量のうちの、次元情報が表す次元の次元特徴量を生成する次元特徴量生成手段と、画像に写っている被写体が所定の識別対象であるか否かを識別する識別器に対して、前記次元特徴量を入力として与えることで、前記処理対象画像に写っている被写体が所定の識別対象であるか否かを識別する識別手段とを備え、前記特徴点特徴量抽出手段は、複数のスケールσのガウス関数の、複数の角度θ方向の、複数の微分回数cの導関数それぞれで、前記処理対象画像をフィルタリングし、そのフィルタリングにより得られる複数の応答画像を出力するフィルタ手段と、同一のスケールσのガウス関数の、同一の角度θ方向の、同一の微分回数cの導関数でのフィルタリングにより得られる前記応答画像について、前記特徴点を中心とする、固定半径の円形の領域である特徴点領域を、前記特徴点を基準に、角度方向と距離方向に区切ることで、前記特徴点領域を、複数の小領域に分割し、前記複数の小領域のそれぞれについて、前記小領域の画素値の平均値を、前記小領域の画素値の統計量として求め、同一のスケールσのガウス関数の、複数の角度θ方向の、同一の微分回数cの導関数それぞれでのフィルタリングにより得られる前記応答画像から求められる、前記小領域の画素値の平均値をコンポーネントとするベクトルを、前記特徴点の1種類の特徴量として、前記複数のスケールσと前記複数の微分回数cとの組み合わせの数だけの種類の特徴量を、前記特徴点の特徴点特徴量として求める特徴点特徴量算出手段とを有し、前記識別器、及び、次元情報は、前記識別器を生成する学習に用いられる複数の生成用画像であって、かつ、前記識別対象が写っているポジティブ画像と、前記識別対象が写っていないネガティブ画像とを含む生成用画像において、特徴点を抽出し、前記生成用画像の前記特徴点の特徴点特徴量を抽出することを、前記生成用画像を、前記複数のフィルタでフィルタリングすることにより得られる複数の応答画像それぞれについて、前記特徴点を中心とする特徴点領域を、前記特徴点を基準に、角度方向と距離方向に区切ることで、前記特徴点領域を、複数の小領域に分割し、前記複数の小領域のそれぞれについて、前記小領域の画素値の統計量を求め、前記特徴点について、前記生成用画像の複数の応答画像それぞれから得られる、前記複数の小領域それぞれの前記統計量を、前記特徴点の特徴点特徴量とすることにより行い、前記生成用画像の特徴点特徴量から、その生成用画像の全体特徴量を求め、前記生成用画像の全体特徴量と、その生成用画像が、ポジティブ画像、又はネガティブ画像のうちのいずれであるかを表す正解ラベルとを用い、前記識別器を生成することを、前記全体特徴量である複数の次元のベクトルのコンポーネントである複数の次元特徴量のうちの、前記ポジティブ画像、及びネガティブ画像の識別を誤る度合いを表すエラー値を小さくする前記次元特徴量を用いて識別を行う前記識別器と、前記エラー値を小さくする前記次元特徴量の次元を表す次元情報とを生成することにより行うことで得られたものである識別装置、又は、識別装置として、コンピュータを機能させるためのプログラムである。
本発明の第2の側面の識別方法は、画像に写っている被写体が所定の識別対象であるか否かを識別する対象の処理対象画像において、特徴的な点である特徴点を抽出する特徴点抽出ステップと、前記処理対象画像の前記特徴点の特徴を表す特徴点特徴量を抽出する特徴点特徴量抽出ステップと、前記処理対象画像の特徴点特徴量から、その処理対象画像全体の特徴を表す全体特徴量であって、かつ、複数の次元のベクトルで表される全体特徴量としての前記ベクトルのコンポーネントである複数の次元特徴量のうちの、次元情報が表す次元の次元特徴量を生成する次元特徴量生成ステップと、画像に写っている被写体が所定の識別対象であるか否かを識別する識別器に対して、前記次元特徴量を入力として与えることで、前記処理対象画像に写っている被写体が所定の識別対象であるか否かを識別する識別ステップとを含み、前記特徴点特徴量抽出ステップでは、複数のスケールσのガウス関数の、複数の角度θ方向の、複数の微分回数cの導関数それぞれで、前記処理対象画像をフィルタリングし、そのフィルタリングにより得られる複数の応答画像を出力し、同一のスケールσのガウス関数の、同一の角度θ方向の、同一の微分回数cの導関数でのフィルタリングにより得られる前記応答画像について、前記特徴点を中心とする、固定半径の円形の領域である特徴点領域を、前記特徴点を基準に、角度方向と距離方向に区切ることで、前記特徴点領域を、複数の小領域に分割し、前記複数の小領域のそれぞれについて、前記小領域の画素値の平均値を、前記小領域の画素値の統計量として求め、同一のスケールσのガウス関数の、複数の角度θ方向の、同一の微分回数cの導関数それぞれでのフィルタリングにより得られる前記応答画像から求められる、前記小領域の画素値の平均値をコンポーネントとするベクトルを、前記特徴点の1種類の特徴量として、前記複数のスケールσと前記複数の微分回数cとの組み合わせの数だけの種類の特徴量を、前記特徴点の特徴点特徴量として求め、前記識別器、及び、次元情報は、前記識別器を生成する学習に用いられる複数の生成用画像であって、かつ、前記識別対象が写っているポジティブ画像と、前記識別対象が写っていないネガティブ画像とを含む生成用画像において、特徴点を抽出し、前記生成用画像の前記特徴点の特徴点特徴量を抽出することを、前記生成用画像を、前記複数のフィルタでフィルタリングすることにより得られる複数の応答画像それぞれについて、前記特徴点を中心とする特徴点領域を、前記特徴点を基準に、角度方向と距離方向に区切ることで、前記特徴点領域を、複数の小領域に分割し、前記複数の小領域のそれぞれについて、前記小領域の画素値の統計量を求め、前記特徴点について、前記生成用画像の複数の応答画像それぞれから得られる、前記複数の小領域それぞれの前記統計量を、前記特徴点の特徴点特徴量とすることにより行い、前記生成用画像の特徴点特徴量から、その生成用画像の全体特徴量を求め、前記生成用画像の全体特徴量と、その生成用画像が、ポジティブ画像、又はネガティブ画像のうちのいずれであるかを表す正解ラベルとを用い、前記識別器を生成することを、前記全体特徴量である複数の次元のベクトルのコンポーネントである複数の次元特徴量のうちの、前記ポジティブ画像、及びネガティブ画像の識別を誤る度合いを表すエラー値を小さくする前記次元特徴量を用いて識別を行う前記識別器と、前記エラー値を小さくする前記次元特徴量の次元を表す次元情報とを生成することにより行うことで得られたものである識別方法である。
本発明の第2の側面においては、画像に写っている被写体が所定の識別対象であるか否かを識別する対象の処理対象画像において、特徴的な点である特徴点が抽出され、前記処理対象画像の前記特徴点の特徴を表す特徴点特徴量が抽出される。さらに、前記処理対象画像の特徴点特徴量から、その処理対象画像全体の特徴を表す全体特徴量であって、かつ、複数の次元のベクトルで表される全体特徴量としての前記ベクトルのコンポーネントである複数の次元特徴量のうちの、次元情報が表す次元の次元特徴量が生成され、画像に写っている被写体が所定の識別対象であるか否かを識別する識別器に対して、前記次元特徴量を入力として与えることで、前記処理対象画像に写っている被写体が所定の識別対象であるか否かが識別される。この場合において、複数のスケールσのガウス関数の、複数の角度θ方向の、複数の微分回数cの導関数それぞれで、前記処理対象画像がフィルタリングされ、そのフィルタリングにより得られる複数の応答画像が出力される。さらに、同一のスケールσのガウス関数の、同一の角度θ方向の、同一の微分回数cの導関数でのフィルタリングにより得られる前記応答画像について、前記特徴点を中心とする、固定半径の円形の領域である特徴点領域を、前記特徴点を基準に、角度方向と距離方向に区切ることで、前記特徴点領域が、複数の小領域に分割され、前記複数の小領域のそれぞれについて、前記小領域の画素値の平均値が、前記小領域の画素値の統計量として求められる。そして、同一のスケールσのガウス関数の、複数の角度θ方向の、同一の微分回数cの導関数それぞれでのフィルタリングにより得られる前記応答画像から求められる、前記小領域の画素値の平均値をコンポーネントとするベクトルを、前記特徴点の1種類の特徴量として、前記複数のスケールσと前記複数の微分回数cとの組み合わせの数だけの種類の特徴量が、前記特徴点の特徴点特徴量として求められる。また、前記識別器、及び、次元情報は、前記識別器を生成する学習に用いられる複数の生成用画像であって、かつ、前記識別対象が写っているポジティブ画像と、前記識別対象が写っていないネガティブ画像とを含む生成用画像において、特徴点を抽出し、前記生成用画像の前記特徴点の特徴点特徴量を抽出することを、前記生成用画像を、前記複数のフィルタでフィルタリングすることにより得られる複数の応答画像それぞれについて、前記特徴点を中心とする特徴点領域を、前記特徴点を基準に、角度方向と距離方向に区切ることで、前記特徴点領域を、複数の小領域に分割し、前記複数の小領域のそれぞれについて、前記小領域の画素値の統計量を求め、前記特徴点について、前記生成用画像の複数の応答画像それぞれから得られる、前記複数の小領域それぞれの前記統計量を、前記特徴点の特徴点特徴量とすることにより行い、前記生成用画像の特徴点特徴量から、その生成用画像の全体特徴量を求め、前記生成用画像の全体特徴量と、その生成用画像が、ポジティブ画像、又はネガティブ画像のうちのいずれであるかを表す正解ラベルとを用い、前記識別器を生成することを、前記全体特徴量である複数の次元のベクトルのコンポーネントである複数の次元特徴量のうちの、前記ポジティブ画像、及びネガティブ画像の識別を誤る度合いを表すエラー値を小さくする前記次元特徴量を用いて識別を行う前記識別器と、前記エラー値を小さくする前記次元特徴量の次元を表す次元情報とを生成することにより行うことで得られたものになっている。
なお、学習装置、及び識別装置のそれぞれは、独立した装置であっても良いし、1つの装置を構成している内部ブロックであっても良い。
また、プログラムは、伝送媒体を介して伝送することにより、又は、記録媒体に記録して、提供することができる。
本発明の第1及び第2の側面によれば、画像に写っている被写体が所定の識別対象であるか否かの識別において、識別性と不変性との両方を向上させることができる。
本発明を適用した学習装置の一実施の形態の構成例を示すブロック図である。 特徴点特徴量抽出部12の構成例を示すブロック図である。 ガウス関数の導関数を示す図である。 ガウス関数の導関数を示す図である。 ガウス関数の導関数を示す図である。 応答画像を示す図である。 特徴点領域を示す図である。 1種類の特徴量を説明する図である。 特徴点特徴量抽出処理を説明するフローチャートである。 全体特徴量生成部23の処理を説明する図である。 全体特徴量生成処理を説明するフローチャートである。 全体特徴量生成処理を説明するフローチャートである。 識別器生成部24の処理を説明する図である。 識別器生成処理を説明するフローチャートである。 学習装置の学習処理を説明するフローチャートである。 本発明を適用した識別装置の一実施の形態の構成例を示すブロック図である。 識別装置の識別処理を説明するフローチャートである。 本発明を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
[学習装置の一実施の形態の構成例]
図1は、本発明を適用した学習装置の一実施の形態の構成例を示すブロック図である。
図1において、学習装置は、学習用画像、及び正解ラベルを用いて、画像に写っている被写体が所定の識別対象であるか否かを識別する識別器と、後述する次元情報とを生成する(求める)。
ここで、学習用画像は、識別器の生成(学習)に用いられる画像であり、複数のモデル画像と、複数の生成用画像とを含む。
モデル画像は、識別対象が写っているポジティブ画像であり、生成用画像は、ポジティブ画像と、識別対象が写っていない(識別対象以外の物体が写っている)ネガティブ画像との両方を含む。
また、正解ラベルは、生成用画像ごとに存在し、各生成用画像が、ポジティブ画像、又はネガティブ画像のうちのいずれであるかを表すラベルである。
図1において、学習装置は、特徴点抽出部11、特徴点特徴量抽出部12、特徴点特徴量記憶部13、特徴点抽出部21、特徴点特徴量抽出部22、全体特徴量生成部23、及び、識別器生成部24から構成される。
特徴点抽出部11には、学習用画像のうちのモデル画像が、外部から供給される。特徴点抽出部11は、そこに供給されるモデル画像において、特徴的な点である特徴点を抽出し、モデル画像とともに、特徴点特徴量抽出部12に供給する。
ここで、画像の局所的な情報は、コーナ(Corner)点に含まれることが多いため、特徴点抽出部11は、コーナ点(となっている画素)を、特徴点として抽出する。
コーナ点の抽出は、ハリーズコーナ検出器(Harris Corner Detector)を用いて行うことができる。ハリーズコーナ検出器では、ある位置(x,y)の画素の画素値(例えば、輝度)を、I(x,y)と表すとすると、式(1)により求められる輝度勾配の2次モーメントLの2つの固有値が所定の閾値以上の画素が、コーナ点として検出される。
Figure 0004720913
・・・(1)
なお、式(1)では、画素値I(x,y)を、(x,y)を省略して、Iと記述してある。
ここで、特徴点としては、その他、例えば、エッジとなっている画素や、所定の固定の位置の画素等を採用することが可能である。
特徴点特徴量抽出部12は、特徴点抽出部11からのモデル画像から、同じく特徴点抽出部11からの特徴点の特徴を表す特徴点特徴量を抽出し、特徴点特徴量記憶部13に供給する。
特徴点特徴量記憶部13は、特徴点特徴量抽出部12からのモデル画像の特徴点特徴量を記憶する。
特徴点抽出部21には、学習用画像のうちの生成用画像が、外部から供給される。特徴点抽出部21は、そこに供給される生成用画像から、特徴点抽出部11と同様にして、特徴点を抽出し、生成用画像とともに、特徴点特徴量抽出部22に供給する。
特徴点特徴量抽出部22は、特徴点抽出部21からの生成用画像から、同じく特徴点抽出部21からの特徴点の特徴を表す特徴点特徴量を、特徴点特徴量抽出部12と同様にして抽出し、全体特徴量生成部23に供給する。
全体特徴量生成部23は、特徴点特徴量記憶部13に記憶されたモデル画像の特徴点特徴量に基づき、特徴点特徴量抽出部22からの生成用画像の特徴点特徴量から、その生成用画像全体の特徴を表す全体特徴量を求める。
ここで、全体特徴量は、例えば、複数の次元のベクトル(複数の値を、コンポーネントとして有するベクトル)で表される。複数の次元のベクトルである全体特徴量は、全体特徴量生成部23から、識別器生成部24に供給される。
識別器生成部24には、全体特徴量生成部23から生成用画像の全体特徴量が供給される他、その生成用画像の正解ラベルが、外部から供給される。識別器生成部24は、生成用画像の全体特徴量と、その生成用画像の正解ラベルとを用い、識別器を生成する(識別器を規定するパラメータを求める学習を行う)。
ここで、全体特徴量としての複数の次元のベクトルのコンポーネントを、次元特徴量ということとすると、全体特徴量は、複数(ベクトルの次元に等しい数)の次元特徴量から構成される。
識別器生成部24では、全体特徴量を構成する次元特徴量のすべてではなく、全体特徴量を構成する次元特徴量の中から選択された一部の次元特徴量を用いて識別を行う識別器が生成される。この識別器が識別に用いる次元特徴量の次元を表す情報(次元特徴量が、全体特徴量としてのベクトルの何番目のコンポーネントであるかを表す情報)が、次元情報であり、識別器生成部24は、識別器とともに、次元情報も生成する。
[特徴点特徴量抽出部12の構成例]
図2は、図1の特徴点特徴量抽出部12の構成例を示すブロック図である。
なお、図1の特徴点特徴量抽出部22、及び、後述する識別装置(図16)の特徴点特徴量抽出部72も、特徴点特徴量抽出部12と同様に構成される。但し、特徴点特徴量抽出部12では、モデル画像を対象として処理が行われるが、特徴点特徴量抽出部22では、生成用画像を、特徴点特徴量抽出部72では、処理対象画像を、それぞれ対象として処理が行われる。
図2において、特徴点特徴量抽出部12は、フィルタ部41と、特徴点特徴量算出部42とから構成される。
フィルタ部41には、特徴点抽出部11(図1)から、特徴点特徴量を抽出する対象の画像、すなわち、ここでは、モデル画像が供給される。
フィルタ部41は、特徴点抽出部11からのモデル画像を、特性の異なる複数のフィルタでフィルタリングし、そのフィルタリングの結果得られる複数の応答画像(フィルタリング結果)を、特徴点特徴量算出部42に供給する。
特徴点特徴量算出部42には、フィルタ部41から、モデル画像の応答画像が供給される他、特徴点抽出部11(図1)から、モデル画像の特徴点が供給される。
特徴点特徴量算出部42は、フィルタ部41からの、モデル画像の複数の応答画像それぞれについて、特徴点抽出部11からの特徴点を中心とする領域である特徴点領域を設定する。さらに、特徴点特徴量算出部42は、特徴点を基準に、特徴点領域を、角度方向と距離方向に区切ることで、特徴点領域を、複数の小領域に分割する。
そして、特徴点特徴量算出部42は、複数の小領域のそれぞれについて、小領域の画素値(応答画像の画素値)の統計量を求め、各特徴点について、複数の応答画像それぞれから得られる、複数の小領域それぞれの統計量を、特徴点の特徴点特徴量として出力する。
図3ないし図6を参照して、図2のフィルタ部41のフィルタリングについて説明する。
フィルタ部41では、特徴点抽出部11からのモデル画像をフィルタリングすることにより、例えば、非特許文献4に記載されているステアブルフィルタの応答を、応答画像として求める。
すなわち、フィルタ部41は、例えば、複数のスケールσのガウス関数の、複数の角度θ方向の、複数の微分回数cの導関数を、特性の異なる複数のフィルタとして、その複数の導関数それぞれで、特徴点抽出部11からのモデル画像をフィルタリングし、モデル画像の複数の応答画像を出力する。
具体的には、2次元のガウス関数G(x,y)が、スケール(標準偏差)σを用いて、式(2)で表されることとする。
Figure 0004720913
・・・(2)
また、ガウス関数G(x,y)の、角度θ[度]方向の、c回の微分回数の導関数(ガウス関数G(x,y)のc回の微分を行って得られる導関数)(以下、c次導関数ともいう)を、Gc θと表すこととする。
ガウス関数G(x,y)の0度の方向の1次導関数G1 0は、ガウス関数G(x,y)のx方向の(偏)微分の結果と一致するので、式(3)で表すことができる。
Figure 0004720913
・・・(3)
また、ガウス関数G(x,y)の90度の方向の1次導関数G1 90は、ガウス関数G(x,y)のy方向の微分の結果と一致するので、式(4)で表すことができる。
Figure 0004720913
・・・(4)
式(3)の1次導関数G1 0、及び、式(4)の1次導関数G1 90は、ガウス関数G(x,y)の任意の角度θの方向の1次導関数G1 θの基底関数になっている。したがって、ガウス関数G(x,y)の任意の角度θの方向の1次導関数G1 θは、基底関数である1次導関数G1 0及びG1 90の線形結合として、式(5)で表すことができる。
Figure 0004720913
・・・(5)
式(5)から、ガウス関数G(x,y)の、例えば、45度の方向の1次導関数G1 45は、式(6)で表される。
Figure 0004720913
・・・(6)
ここで、図3は、基底関数である1次導関数G1 0及びG1 90と、45度の方向の1次導関数G1 45とを示している。
図3において(後述する図4及び図5でも同様)、x方向は横方向であり、y方向は縦方向である。また、白いほど(又は、黒いほど)、値が大(又は、小)であることを表す。
基底関数である1次導関数G1 90は、基底関数である1次導関数G1 0を、(反時計回りに)90度だけ、原点を中心に回転したものになっている。同様に、1次導関数G1 45は、1次導関数G1 0を、45度だけ回転したものになっている。
フィルタ部41は、例えば、2つスケールσ=1,2のガウス関数G(x,y)の、4つの角度θ=θA,θB,θC,θD方向の、微分回数cが1回の1次導関数G1 θそれぞれで、モデル画像をフィルタリングし、モデル画像の8枚の応答画像を求める。
ここで、1次導関数G1 θによるモデル画像のフィルタリングは、1次導関数G1 θと、モデル画像との畳み込みで表されるので、式(5)から、基底関数である1次導関数G1 0及びG1 90それぞれと、モデル画像との畳み込み結果の線形結合で表すことができる。
いま、モデル画像の画素値をIと表すこととすると、1次導関数G1 0と、モデル画像Iとの畳み込み結果R1 0は、式(7)で、1次導関数G1 90と、モデル画像Iとの畳み込み結果R1 90は、式(8)で、それぞれ表される。
Figure 0004720913
・・・(7)
Figure 0004720913
・・・(8)
なお、*は、畳み込みを表す。
1次導関数G1 θによるモデル画像Iのフィルタリングの結果得られる応答画像R1 θは、式(7)の畳み込み結果R1 0と、式(8)の畳み込み結果R1 90とを用いて、式(9)で表される。
Figure 0004720913
・・・(9)
フィルタ部41は、微分回数cが2回の2次導関数G2 θと、3回の3次導関数G3 θとのそれぞれについても、微分回数cが1回の1次導関数G1 θの場合と同様のフィルタリングを行い、2次導関数G2 θに対して、8枚の応答画像を求めるとともに、3次導関数G3 θに対して、8枚の応答画像を求める。
ここで、2次導関数G2 θは、基底関数となる3つの2次導関数G2 0,G2 60,及び、G2 120を用いて、式(10)で表すことができる。
Figure 0004720913
・・・(10)
式(10)の係数k2i(θ)は、式(11)で表される。
Figure 0004720913
・・・(11)
但し、式(11)において、θ1,θ2,θ3は、それぞれ、0度、60度、120度である。
ここで、図4は、2次導関数G2 θの基底関数である3つの2次導関数G2 0,G2 60、及び、G2 120を示している。
2次導関数G2 60は、2次導関数G2 0を、60度だけ回転したものになっており、2次導関数G2 120は、2次導関数G2 0を、120度だけ回転したものになっている。
3次導関数G3 θは、基底関数となる4つの3次導関数G3 0,G3 45,G3 90、及び、G3 135を用いて、式(12)で表すことができる。
Figure 0004720913
・・・(12)
式(12)の係数k3i(θ)は、式(13)で表される。
Figure 0004720913
・・・(13)
但し、式(11)において、θ1,θ2,θ3,θ4は、それぞれ、0度、45度、90度、135度である。
ここで、図5は、3次導関数G3 θの基底関数である4つの3次導関数G2 0,G2 45,G2 90、及び、G2 135を示している。
3次導関数G3 45は、3次導関数G3 0を、45度だけ回転したものになっており、3次導関数G3 90は、3次導関数G3 0を、90度だけ回転したものになっている。さらに、3次導関数G3 135は、3次導関数G3 0を、135度だけ回転したものになっている。
図6は、図2のフィルタ部41が出力するモデル画像の応答画像を示している。
フィルタ部41は、2つスケールσ=1,2のガウス関数G(x,y)の、4つの角度θ=θA,θB,θC,θD方向の、3つの微分回数c=1,2,3の導関数である1次導関数G1 θ、2次導関数G2 θ、3次導関数G3 θそれぞれで、モデル画像をフィルタリングする。
したがって、フィルタ部41では、1枚のモデル画像について、2つスケールσ=1,2、4つの角度θ=θA,θB,θC,θD、及び、3つの微分回数c=1,2,3の組み合わせの数、つまり、24枚の応答画像が求められ、特徴点特徴量算出部42に供給される。
なお、フィルタ部41において、フィルタとして用いる関数は、ガウス関数に限定されるものではない。また、図3ないし図6では、フィルタとして、2つスケールσ=1,2のガウス関数G(x,y)の、4つの角度θ=θA,θB,θC,θD方向の、3つの微分回数c=1,2,3の導関数を採用したが、スケールσ、角度θ、及び、微分回数cは、上述した値に限定されるものではない。さらに、フィルタとしては、ガウス関数G(x,y)の導関数以外の関数を採用することが可能である。
次に、図7及び図8を参照して、図2の特徴点特徴量算出部42の処理について説明する。
図6で説明したように、フィルタ部41では、1枚のモデル画像について、24枚の応答画像が求められ、特徴点特徴量算出部42に供給される。
いま、1枚のモデル画像について求められる24枚の応答画像のうちの、ある1枚の応答画像に注目するとともに、その注目している応答画像(以下、注目応答画像ともいう)の特徴点(正確には、モデル画像の特徴点と同一位置の応答画像上の点)のうちの、ある1つの特徴点に注目する。
特徴点特徴量算出部42は、注目応答画像について、特徴点抽出部11(図1)からの特徴点のうちの、注目している特徴点(以下、注目特徴点ともいう)を中心とする特徴点領域を設定し、注目特徴点を基準に、特徴点領域を、角度方向と距離方向に区切ることで、特徴点領域を、複数の小領域に分割する。
図7は、特徴点領域と、その特徴点領域を分割した複数の小領域とを示している。
特徴点特徴量算出部42は、注目特徴点を中心とする、例えば、固定半径の円形の領域を、特徴点領域に設定し、注目特徴点を基準に、特徴点領域を、角度方向と距離方向に区切ることで、特徴点領域を、複数の小領域に分割する。
図7では、特徴点領域が、8つの角度方向と、3つの距離方向とに区切られ、合計で、24個の小領域に分割されている。
なお、特徴点領域を区切る角度方向や距離方向の数は、特に限定されるものではない。
特徴点特徴量算出部42は、注目特徴点について得られた24個の小領域それぞれについて、小領域の画素値(小領域内にある画素の画素値)の、例えば、平均値を、その小領域の画素値の統計量として求める。
そして、特徴点特徴量算出部42は、同一のスケールσのガウス関数G(x,y)の、4つの角度θ=θA,θB,θC,θD方向の、同一の微分回数cの導関数それぞれでのフィルタリングにより得られる4枚の応答画像から求められる、小領域の画素値の平均値をコンポーネントとするベクトルを、注目特徴点の1種類の特徴量として、2つのスケールσ=1,2と3つの微分回数c=1,2,3との組み合わせの数だけの6種類の特徴量を、注目特徴点の特徴点特徴量として求める。
図8は、特徴点特徴量算出部42が求める1種類の特徴量を説明する図である。
図8では、スケールσが1のガウス関数G(x,y)の、4つの角度θ=θA,θB,θC,θD方向の、微分回数cが1回の導関数(1次導関数)それぞれでのフィルタリングにより得られる4枚の応答画像それぞれから、注目特徴点について、応答画像の1枚あたり、24個の小領域の画素値の平均値(以下、小領域平均値ともいう)が求められている。
したがって、同一のスケールσのガウス関数G(x,y)の、4つの角度θ=θA,θB,θC,θD方向の、同一の微分回数cの導関数それぞれでのフィルタリングにより得られる4枚の応答画像からは、合計で、96個の小領域平均値が求められる。
特徴点特徴量算出部42は、この96個の小領域平均値をコンポーネントとする96次元のベクトルを、注目特徴点の1種類の特徴量とする。
特徴点特徴量算出部42は、スケールσが1で、微分回数cが1である場合の他、スケールσが1で、微分回数cが2である場合、スケールσが1で、微分回数cが3である場合、スケールσが2で、微分回数cが1である場合、スケールσが2で、微分回数cが2である場合、及び、スケールσが2で、微分回数cが3である場合のそれぞれについても、96個の小領域平均値をコンポーネントとする96次元のベクトルを、注目特徴点の1種類の特徴量として求める。
その結果、特徴点特徴量算出部42では、注目特徴点の特徴点特徴量として、6種類の特徴量(6個の96次元のベクトル)が求められる。
以上のように、特徴点特徴量抽出部12では、複数のスケールσ=1,2のガウス関数G(x,y)の、複数の角度θ=θA,θB,θC,θD方向の、複数の微分回数c=1,2,3の導関数それぞれでのフィルタリングにより得られる応答画像から求められる、小領域の画素値の平均値をコンポーネントとするベクトルを、注目特徴点の特徴点特徴量として求める。
ここで、非特許文献4では、複数のスケールσのガウス関数G(x,y)の、複数の角度θ方向の導関数それぞれでのフィルタリングにより得られる複数の応答画像の特徴点の画素値をコンポーネントとするベクトルを、特徴点特徴量とすることで、高い識別性を有する特徴点特徴量を求めている。
一方、図1の学習装置では、複数のスケールσ=1,2のガウス関数G(x,y)の、複数の角度θ=θA,θB,θC,θD方向の、複数の微分回数c=1,2,3の導関数それぞれで、モデル画像をフィルタリングすることにより、複数のスケールσ、複数の角度θ、及び複数の導関数の組み合わせに対応する複数の応答画像から、特徴点特徴量が求められる。したがって、画像(ここでは、モデル画像)における、様々な方向への画素値の変化の具合、つまり、画像の様々なテクスチャ(Texture)の情報が反映された、より識別性の高い特徴点特徴量を得ることができる。
さらに、図1の学習装置では、応答画像について、特徴点を中心とする特徴点領域を、特徴点を基準に、角度方向と距離方向に区切ることで得られる複数の小領域の画素値の平均値を、特徴点特徴量とする。
したがって、複数のスケールσ=1,2のガウス関数G(x,y)の、複数の角度θ=θA,θB,θC,θD方向の、複数の微分回数c=1,2,3の導関数それぞれとしての、異なる特性の複数のフィルタの応答の、特徴点の周辺の分布が反映された、識別性の高い特徴点特徴量を得ることができる。
また、特徴点の周囲の複数の小領域から特徴点特徴量を求めること、及び、小領域の画素値の統計量としての平均値等を、特徴点特徴量とすることにより、画像に写っている被写体の傾き(回転)や歪み等に対するロバスト性がある特徴点特徴量、すなわち、不変性の向上した特徴点特徴量を得ることができる。
[特徴点特徴量抽出処理の説明]
図9を参照して、図2の特徴点特徴量抽出部12が行う、特徴点特徴量を抽出する特徴点特徴量抽出処理を説明する。
特徴点特徴量抽出部12は、ステップS11において、特徴点抽出部11(図1)から供給されるモデル画像から、まだ、注目する注目画像として選択していない1枚のモデル画像を、注目画像として選択し、処理は、ステップS12に進む。
ステップS12では、特徴点特徴量抽出部12において、フィルタ部41(図2)が、2つスケールσ=1,2のガウス関数G(x,y)の、4つの角度θ=θA,θB,θC,θD方向の、3つの微分回数c=1,2,3の導関数それぞれで、注目画像をフィルタリングする。すなわち、フィルタ部41は、注目画像のフィルタリングにより、図6で説明したように、24枚の応答画像を求める。
そして、フィルタ部41は、注目画像について求めた24枚の応答画像を、特徴点特徴量算出部42に供給して、処理は、ステップS12からステップS13に進む。
ステップS13では、特徴点特徴量算出部42は、特徴点抽出部11から供給されるモデル画像の特徴点に含まれる、注目画像の特徴点から、注目する注目特徴点として選択していない1つの特徴点を、注目特徴点として選択し、処理は、ステップS14に進む。
ステップS14では、特徴点特徴量算出部42は、同一のスケールσのガウス関数G(x,y)の、同一の角度θ方向の、同一の微分回数cの導関数でのフィルタリングにより得られた応答画像、つまり、フィルタ部41からの24枚の応答画像のそれぞれに、注目特徴点を中心とする特徴点領域を設定する。
その後、処理は、ステップS14からステップS15に進み、特徴点特徴量算出部42は、24枚の応答画像それぞれについて、注目特徴点を基準に、特徴点領域を、角度方向と距離方向に区切ることで、応答画像の特徴点領域を、図7で説明したように、24個の小領域に分割する。
そして、処理は、ステップS15からステップS16に進み、特徴点特徴量算出部42は、24枚の応答画像それぞれについて、注目特徴点の特徴点領域を分割して得られた24個の小領域それぞれの小領域平均値を求め、処理は、ステップS17に進む。
ステップS17では、特徴点特徴量算出部42は、同一のスケールσのガウス関数G(x,y)の、4つの角度θ=θA,θB,θC,θD方向の、同一の微分回数cの導関数それぞれでのフィルタリングにより得られる応答画像から求められる、小領域平均値をコンポーネントとするベクトルを、注目特徴点の1種類の特徴量として、2つのスケールσ=1,2と3つの微分回数c=1,2,3との組み合わせの数だけの6種類の特徴量を、注目特徴点の特徴点特徴量として求める。
その後、処理は、ステップS17からステップS18に進み、特徴点特徴量抽出部12は、注目画像の特徴点すべての特徴点特徴量を求めたかどうかを判定する。ステップS18において、注目画像の特徴点すべての特徴点特徴量を、まだ求めていないと判定された場合、すなわち、注目画像の特徴点の中に、まだ、注目特徴点として選択いない特徴点がある場合、処理は、ステップS13に戻る。
そして、ステップS13において、特徴点特徴量算出部42は、注目画像の特徴点から、まだ、注目特徴点として選択していない1つの特徴点を、注目特徴点として新たに選択し、以下、同様の処理が繰り返される。
また、ステップS18において、注目画像の特徴点すべての特徴点特徴量を求めたと判定された場合、処理は、ステップS19に進み、特徴点特徴量抽出部12は、特徴点抽出部11(図1)からのモデル画像すべてについて、特徴点特徴量を求めたかどうかを判定する。
ステップS19において、特徴点抽出部11からのモデル画像すべてについて、まだ、特徴点特徴量を求めていないと判定された場合、すなわち、特徴点抽出部11からのモデル画像の中に、まだ、注目画像として選択していないモデル画像がある場合、処理は、ステップS11に戻る。
ステップS11では、特徴点特徴量抽出部12は、特徴点抽出部11からのモデル画像から、まだ、注目画像として選択していない1枚のモデル画像を、注目画像として新たに選択し、以下、同様の処理が繰り返される。
また、ステップS19において、特徴点抽出部11からのモデル画像すべてについて、特徴点特徴量を求めたと判定された場合、特徴点特徴量抽出処理は終了する。
なお、特徴点特徴量抽出部12が、特徴点特徴量抽出処理によって求めたモデル画像の特徴点特徴量は、特徴点特徴量記憶部13(図1)に供給されて記憶される。
また、特徴点特徴量抽出部12では、モデル画像の特徴点特徴量をベクトル量子化し、そのベクトル量子化結果(コード)を、モデル画像の、いわば最終的な特徴点特徴量として、特徴点特徴量記憶部13に記憶させることができる。
ここで、図8及び図9で説明したように、特徴点特徴量抽出部12(の特徴点特徴量算出部42)では、1個の特徴点について、96個の小領域平均値をコンポーネントとする96次元のベクトルを、注目特徴点の1種類の特徴量として、6種類の特徴量(6個の96次元のベクトル)が求められる。
特徴点特徴量抽出部12において、特徴点特徴量のベクトル量子化を行う場合、そのベクトル量子化は、特徴量(96次元のベクトル)の種類ごとに行われる。
ここで、ベクトル量子化には、コードブックが必要であるが、コードブックの生成は、例えば、k-means法等によって行うことができる。コードブックの生成は、ベクトル量子化と同様に、特徴量(96次元のベクトル)の種類ごとに行われ、6種類のコードブックが生成される。また、コードブックのコードベクトルの数(ベクトル量子化のクラスタの数)としては、例えば、400等を採用することができる。
[全体特徴量生成部23の処理の説明]
図10を参照して、図1の全体特徴量生成部23が行う処理について説明する。
図1の学習装置では、特徴点抽出部11、及び特徴点特徴量抽出部12において、上述したように、モデル画像の特徴点特徴量が求められ、特徴点特徴量記憶部13に記憶される。
また、特徴点抽出部21、及び特徴点特徴量抽出部22において、特徴点抽出部11、及び特徴点特徴量抽出部12と同様にして、生成用画像の特徴点特徴量が求められ、全体特徴量生成部23に供給される。
全体特徴量生成部23は、特徴点特徴量記憶部13に記憶されたモデル画像の特徴点特徴量に基づき、特徴点特徴量抽出部22からの生成用画像の特徴点特徴量から、その生成用画像全体の特徴(モデル画像を、いわば基準とする相対的な特徴)を表す全体特徴量を求める。
図10は、全体特徴量生成部23で求められる全体特徴量の例を示している。
全体特徴量生成部23では、例えば、特徴点特徴量記憶部13(図1)に記憶されたモデル画像の特徴点特徴量の値である特徴点特徴量値を階級とする、特徴点特徴量抽出部22からの生成用画像の特徴点特徴量値のヒストグラムを、生成用画像の全体特徴量として求めることができる。
また、全体特徴量生成部23では、例えば、特徴点特徴量記憶部13に記憶されたモデル画像の特徴点特徴量値に対する、特徴点特徴量抽出部22からの生成用画像の特徴点特徴量値の相関値を、生成用画像の全体特徴量として求めることができる。
図10Aは、生成用画像に含まれるポジティブ画像及びネガティブ画像のそれぞれについて、全体特徴量として求められる、特徴点特徴量値のヒストグラム(以下、特徴点特徴量値ヒストグラムともいう)を示している。
また、図10Bは、生成用画像に含まれるポジティブ画像及びネガティブ画像のそれぞれについて、全体特徴量として求められる、特徴点特徴量値の相関値(以下、特徴点特徴量値相関値ともいう)を示している。
図10Aの特徴点特徴量値ヒストグラムは、以下のようにして求められる。
すなわち、いま、説明を簡単にするため、特徴点特徴量が、6種類の特徴量ではなく、1種類の特徴量(96次元のベクトル)であるとする。
また、特徴点特徴量記憶部13(図1)に記憶されている特徴点の特徴点特徴量値の数(種類)が、K個であるとする。
生成用画像の、ある特徴点に注目すると、全体特徴量生成部23は、特徴点特徴量記憶部13に記憶されたモデル画像のK個の特徴点特徴量値(96次元のベクトル)を階級(ヒストグラムの横軸)として、そのK個の階級(特徴点特徴量値)のうちの、生成用画像において注目している特徴点(注目特徴点)の特徴点特徴量値との距離が最も近い階級の頻度を、1だけインクリメントする。
全体特徴量生成部23は、生成用画像のすべての特徴点の特徴点特徴量値を対象として、K個の階級の頻度をカウントし、その結果得られるヒストグラム(特徴点特徴量値ヒストグラム)のK個の階級の頻度をコンポーネントとするK次元のベクトルを、生成用画像の全体特徴量として出力する。
なお、特徴点特徴量が、上述したように、6種類の特徴量(96次元のベクトル)である場合には、各種類ごとに、特徴点特徴量値ヒストグラムが求められ、6種類についての、6つの特徴点特徴量値ヒストグラムの、合計で6×K個の階級の頻度をコンポーネントとする6×K次元のベクトルが、生成用画像の全体特徴量とされる。
ここで、全体特徴量としての特徴点特徴量値ヒストグラムは、BoFヒストグラム(非特許文献2)であり、生成用画像において、モデル画像に存在する特徴点特徴量値が、どの程度存在するかを表現する。
図10Bの特徴点特徴量値相関値は、以下のようにして求められる。
すなわち、ここでも、説明を簡単にするため、特徴点特徴量が、1種類の特徴量(ベクトル)であり、特徴点特徴量記憶部13(図1)に記憶されている特徴点の特徴点特徴量値の数(種類)が、K個であるとする。
全体特徴量生成部23は、特徴点特徴量記憶部13に記憶されたモデル画像のK個の特徴点特徴量値(96次元のベクトル)を、順次、注目値として、注目値に対する、生成用画像の特徴点それぞれの特徴点特徴量値の相関値を演算する。
そして、全体特徴量生成部23は、注目値に対する、生成用画像の特徴点それぞれの特徴点特徴量値の相関値のうちの最大値を、特徴点特徴量値相関値として検出し、モデル画像のK個の特徴点特徴量値に対して得られる、全部でK個の特徴点特徴量値相関値をコンポーネントとするK次元のベクトルを、生成用画像の全体特徴量として出力する。
なお、特徴点特徴量が、6種類の特徴量(96次元のベクトル)である場合には、各種類ごとに、K個の特徴点特徴量値相関値が求められ、6種類についての、合計で6×K個の特徴点特徴量値相関値をコンポーネントとする6×K次元のベクトルが、生成用画像の全体特徴量とされる。
また、モデル画像の特徴点特徴量値(注目値)に対する、生成用画像の特徴点の特徴点特徴量値の相関値としては、モデル画像の特徴点特徴量値としてのベクトルと、生成用画像の特徴点の特徴点特徴量値としてのベクトルとの内積に比例する値等を採用することができる。
ここで、全体特徴量としての特徴点特徴量値相関値は、生成用画像に存在する特徴点特徴量値が、モデル画像に存在する特徴点特徴量値に類似する程度を表現する。
なお、モデル画像の特徴点特徴量値と、生成用画像の特徴点特徴量値との相関値を用いて、識別を行う方法については、特許文献1に記載されている。特許文献1に記載の方法によれば、生成用画像の特徴点の中で、モデル画像の注目値に対応する特徴点の位置に近い特徴点の特徴点特徴量値だけを対象として、モデル画像の注目値との相関値が求められ、その相関値のうちの最大値が、全体特徴量として採用される。
なお、全体特徴量は、特徴点特徴量値ヒストグラムや、特徴点特徴量値相関値に限定されるものではない。
図11は、全体特徴量生成部23が、特徴点特徴量値ヒストグラムを、生成用画像の全体特徴量として求める全体特徴量生成処理を説明するフローチャートである。
ステップS31において、全体特徴量生成部23は、特徴点特徴量抽出部22(図1)から特徴点特徴量が供給された生成用画像のうちの、まだ、注目する注目画像として選択していない1枚の生成用画像を、注目画像として選択し、処理は、ステップS32に進む。
ステップS32では、全体特徴量生成部23は、特徴点特徴量記憶部13(図1)に記憶されたモデル画像の特徴点特徴量値(以下、モデル特徴量値ともいう)を階級とする、注目画像の特徴点特徴量値のヒストグラムを、注目画像の全体特徴量として求め、識別器生成部24に供給する。
そして、処理は、ステップS32からステップS33に進み、全体特徴量生成部23は、特徴点特徴量抽出部22から特徴点特徴量が供給された生成用画像すべてについて、全体特徴量を求めたかどうかを判定する。
ステップS33において、特徴点特徴量抽出部22から特徴点特徴量が供給された生成用画像すべてについて、まだ、全体特徴量を求めていないと判定された場合、処理は、ステップS31に戻り、以下、同様の処理が繰り返される。
また、ステップS33において、特徴点特徴量抽出部22から特徴点特徴量が供給された生成用画像すべてについて、全体特徴量を求めたと判定された場合、全体特徴量生成処理は終了する。
図12は、全体特徴量生成部23が、特徴点特徴量値相関値を、生成用画像の全体特徴量として求める全体特徴量生成処理を説明するフローチャートである。
ステップS41において、全体特徴量生成部23は、特徴点特徴量抽出部22(図1)から特徴点特徴量が供給された生成用画像のうちの、まだ、注目する注目画像として選択していない1枚の生成用画像を、注目画像として選択し、処理は、ステップS42に進む。
ステップS42では、全体特徴量生成部23は、特徴点特徴量記憶部13(図1)に記憶された各モデル特徴量値について、生成用画像の特徴点それぞれの特徴点特徴量値との相関値のうちの最大値を、特徴点特徴量値相関値として求める。そして、全体特徴量生成部23は、特徴点特徴量値相関値を、注目画像の全体特徴量として、識別器生成部24に供給し、処理は、ステップS42からステップS43に進む。
ステップS43では、全体特徴量生成部23は、特徴点特徴量抽出部22から特徴点特徴量が供給された生成用画像すべてについて、全体特徴量を求めたかどうかを判定する。
ステップS43において、特徴点特徴量抽出部22から特徴点特徴量が供給された生成用画像すべてについて、まだ、全体特徴量を求めていないと判定された場合、処理は、ステップS41に戻り、以下、同様の処理が繰り返される。
また、ステップS43において、特徴点特徴量抽出部22から特徴点特徴量が供給された生成用画像すべてについて、全体特徴量を求めたと判定された場合、全体特徴量生成処理は終了する。
ここで、全体特徴量生成部23において求められる全体特徴量としてのベクトルのコンポーネント(例えば、上述した特徴点特徴量値ヒストグラムの頻度や、特徴点特徴量値相関値)が、図1で説明した次元特徴量である。
[識別器生成部24の処理]
図13を参照して、図1の識別器生成部24の処理の概要を説明する。
識別器生成部24は、例えば、ブースティング(Boosting)のアルゴリズムに従い、全体特徴量生成部23からの全体特徴量を構成する次元特徴量の中から、識別に用いる次元特徴量(の次元)を選択するとともに、その次元特徴量を用いて識別を行う識別器を生成する。
すなわち、識別器生成部24は、全体特徴量生成部23(図1)からの全体特徴量を構成する複数の次元特徴量(ベクトルのコンポーネントで)のうちの、ポジティブ画像、及びネガティブ画像の識別を誤る度合いを表すエラー値を小さくする次元特徴量を用いて識別を行う識別器と、エラー値を小さくする次元特徴量の次元を表す次元情報とを生成する。
具体的には、いま、生成用画像として、複数であるN枚の画像が存在し、全体特徴量生成部23において、図13に示すように、N枚の生成用画像のNサンプルの全体特徴量x1,x2,・・・,xNとしてのベクトルが得られたこととする。
さらに、全体特徴量xi(i=1,2,・・・,N)は、図13に示すように、複数であるM個のコンポーネント(次元特徴量)xi,1,xi,2,・・・,xi,Mを有するM次元のベクトルであるとする。
また、識別器生成部24には、図1で説明したように、正解ラベルが供給されるが、第iサンプルxi(i枚目の生成用画像)の正解ラベルを、yiと表す。正解ラベルyiは、i枚目の生成用画像がポジティブ画像である場合に、例えば、+1になっており、i枚目の生成用画像がネガティブ画像である場合に、例えば、-1になっていることとする。
識別器生成部24が生成する識別器は、全体特徴量xiを構成するM個の次元特徴量xi,1ないしxi,Mのうちの、ポジティブ画像、及びネガティブ画像の識別を誤る度合いを表すエラー値を小さくする次元特徴量xi,dを用いて識別を行う関数であり、複数の弱仮説器(Weak learner)ht,d(xi,d)から構成される。
ここで、弱仮説器ht,d(xi,d)のサフィックスtは、弱仮説器ht,d(xi,d)の個数をカウントする変数であり、識別器は、複数であるT個の弱仮説器h1,d(xi,d),h2,d(xi,d),・・・,hT,d(xi,d)から構成されることとする。
弱仮説器ht,d(xi,d)の個数Tとしては、例えば、経験的に、あるいは、識別器による識別の識別率がある程度の値以上となるように、M以下の値が設定される。
弱仮説器ht,d(xi,d)は、生成用画像の全体特徴量xiの第d次元の次元特徴量(全体特徴量xiとしてのベクトルのd番目のコンポーネント)xi,dを入力として、生成用画像が、ポジティブ画像、又はネガティブ画像である旨の識別結果を出力する関数であり、ポジティブ画像である旨の識別結果としては、例えば、+1を、ネガティブ画像である旨の識別結果としては、例えば、-1を、それぞれ出力する。
いま、弱仮説器ht,d(xi,d)の識別結果のエラー値を、εt,dと表すこととすると、識別器生成部24は、弱仮説器ht,d(xi,d)を、エラー値εt,dを小さくするように決定する。
なお、ここでは、説明を簡単にするため、弱仮説器ht,d(xi,d)として、例えば、引数である第d次元の次元特徴量xi,dが、所定の閾値以上である場合に、ポジティブ画像である旨の識別結果を表す+1を出力し、第d次元の次元特徴量xi,dが、所定の閾値未満である場合に、ネガティブ画像である旨の識別結果を表す-1を出力する関数を採用することとする。
この場合、エラー値εt,dを小さくするように、弱仮説器ht,d(xi,d)を決定するとは、弱仮説器ht,d(xi,d)の閾値を決定することを意味する。弱仮説器ht,d(xi,d)の閾値には、引数となりうるN個の第d次元の次元特徴量x1,d,x2,d,・・・,xN,dのうちの最小値以上で、かつ、最大値以下の値が決定される。
識別器生成部24は、エラー値εt,1,εt,2,・・・,εt,Mそれぞれを小さくするように、弱仮説器ht,1(xi,1),ht,2(xi,2),・・・,ht,M(xi,M)それぞれを決定し、エラー値εt,1ないしεt,Mのうちの最小値が得られる次元(以下、最小エラー次元ともいう)d(t)を求める。
また、識別器生成部24は、弱仮説器ht,d(xi,d)によるi番目の生成用画像の識別結果が、正解ラベルyiと一致するか否か、つまり、式ht,d(xi,d)=yiが成り立つか、又は、式ht,d(xi,d)≠yiが成り立つかによって、生成用画像の識別結果の誤りをエラー値εt,dに影響させる重みDt(i)を、生成用画像ごとに求める。
ここで、エラー値εt,dは、N枚の生成用画像のうちの、弱仮説器ht,d(xi,d)による識別結果が誤る生成用画像の重みDt(i)を加算することで求められる。
識別器生成部24は、以上の、弱仮説器ht,d(xi,d)を、エラー値εt,dを小さくするように決定すること、弱仮説器ht,d(xi,d)による生成用画像の識別結果のエラー値εt,1ないしεt,Mのうちの最小値が得られる次元(最小エラー次元)d(t)を求めること、及び、エラー値εt,dを計算するのに用いる重みDt(i)を求めることを、T回だけ繰り返すことで、T個の弱仮説器h1,d(xi,d),h2,d(xi,d),・・・,hT,d(xi,d)から構成される識別器H(x)と、最小エラー次元d(1),d(2),・・・,d(T)を表す次元情報とを生成する。
図14を参照して、図1の識別器生成部24が行う、識別器と次元情報を生成する識別器生成処理を説明する。
ステップS61において、識別器生成部24は、弱仮説器ht,d(xi,d)が識別を誤る度合いを表すエラー値εt,dに、i番目の生成用画像の識別結果の誤りを影響させる重みDt(i)の初期値D1(1),D1(2),・・・,D1(N)を、例えば、式(14)に従って設定し、処理は、ステップS62に進む。
Figure 0004720913
・・・(14)
ステップS62では、識別器生成部24は、識別器H(x)を構成する弱仮説器ht,d(xi,d)の個数をカウントする変数tを、1に初期化して、処理は、ステップS63に進む。
ステップS63では、識別器生成部24は、全体特徴量xiの次元d=1,2,・・・,Mのそれぞれについて、重みDi(t)を用いて求められるエラー値εt,dが最小となるように、弱仮説器ht,d(xi,d)(の閾値THt,d)を決定し、処理は、ステップS64に進む。
ここで、ステップS63では、識別器生成部24は、例えば、式(15)に従って計算されるエラー値εt,dが最小となるように、弱仮説器ht,d(xi,d)の閾値THt,dを決定する。
Figure 0004720913
・・・(15)
式(15)において、[yi≠ht,d(xi,d)]は、指示関数であり、式yi≠ht,d(xi,d)が成り立つ場合は、1となり、成り立たない場合は、0となる。
したがって、式(15)によれば、エラー値εt,dは、N枚の生成用画像のうちの、弱仮説器ht,d(xi,d)による識別結果が誤る生成用画像(式yi≠ht,d(xi,d)が成り立つ生成用画像)の重みDt(i)のみを加算することで求められる。
ステップS64では、識別器生成部24は、直前のステップS63で、次元d=1,2,・・・,Mのそれぞれについて決定された弱仮説器ht,d(xi,d)を用いて、式(15)に従って計算されるエラー値εt,1,εt,2,・・・,εt,Mの中の最小値εtを求める。さらに、識別器生成部24は、エラー値εt,1ないしεt,Mの中の最小値εtが得られる次元(最小エラー次元)d(t)(1ないしMの範囲の整数値)を求め、処理は、ステップS64からステップS65に進む。
ここで、最小エラー次元d(t)が、全体特徴量を構成する次元特徴量のうちの、識別器H(x)による識別に用いられる次元特徴量の次元であり、したがって、識別器H(x)による識別では、全体特徴量を構成する次元特徴量のうちの、最小エラー次元d(t)の次元特徴量が選択されて、識別に用いられる。
また、エラー値εt,1,εt,2,・・・,εt,Mの中の最小値εtを、最小エラー値εtということとすると、その最小エラー値εtが得られる弱仮説器ht,d(t)(xi,d(t))が、識別器H(x)を構成するt番目の弱仮説器となる。
ステップS65では、識別器生成部24は、直前のステップS64で求めた最小エラー値εtを用い、識別器H(x)を構成するt番目の弱仮説器ht,d(t)(xi,d(t))による生成用画像の識別の信頼性を表す信頼度αtを、式(16)に従って求め、処理は、ステップS66に進む。
Figure 0004720913
・・・(16)
ここで、式(16)によれば、最小エラー値εtが大(、又は小)であるほど、値が小(、又は大)の信頼度αtが求められる。
ステップS66では、識別器生成部24は、重みDt(i)を、式(17)に従い、重みDt+1(i)に更新して、処理は、ステップS67に進む。
Figure 0004720913
・・・(17)
ここで、式(17)において、係数Ztは、重みDt+1(i)の正規化のための係数であり、式(18)で表される。
Figure 0004720913
・・・(18)
式(17)によれば、弱仮説器ht,d(t)(xi,d(t))による識別結果が正しいi枚目の生成用画像、つまり、識別結果が正解ラベルyiに一致する生成用画像については、重みDt(i)は、より小さい値の重みDt+1(i)に更新される。その結果、次のステップS63において、重みDt(i)を用いて計算されるエラー値εt,dは、小さくなる。
一方、弱仮説器ht,d(t)(xi,d(t))による識別結果が誤りとなるi枚目の生成用画像、つまり、識別結果が正解ラベルyiに一致しない生成用画像については、重みDt(i)は、より大きい値の重みDt+1(i)に更新される。その結果、次のステップS63において、重みDt(i)を用いて計算されるエラー値εt,dは、大きくなる。
ステップS67では、識別器生成部24は、変数tが、識別器H(x)を構成する弱仮説器ht,d(xi,d)の個数(以下、弱仮説器数ともいう)Tに等しいかどうかを判定する。
ステップS67において、変数tが弱仮説器数Tに等しくないと判定された場合、処理は、ステップS68に進み、識別器生成部24は、変数tを1だけインクリメントする。そして、処理は、ステップS68からステップS63に戻り、以下、同様の処理が繰り返される。
また、ステップS67において、変数tが弱仮説器数Tに等しいと判定された場合、すなわち、識別器H(x)を構成するT個の弱仮説器h1,d(1)(xi,d(1)),h2,d(2)(xi,d(2)),・・・,hT,d(T)(xi,d(T))と、T個の最小エラー次元d(1),d(2),・・・,d(T)とが生成された場合、処理は、ステップS69に進み、識別器生成部24は、T個の弱仮説器h1,d(1)(xi,d(1)),h2,d(2)(xi,d(2)),・・・,hT,d(T)(xi,d(T))と、T個の信頼度α1,α2,・・・,αTを、識別器H(x)(を規定するパラメータ)として出力する。
さらに、ステップS69では、識別器生成部24は、T個の最小エラー次元d(1),d(2),・・・,d(T)を、次元情報として出力し、識別器生成処理を終了する。
識別器生成部24では、以上のような、ブースティングによる統計学習によって、全体特徴量を構成する次元特徴量の中で、識別対象を識別するのにより有効なT個の次元特徴量を表す次元(最小エラー次元)d(1)ないしd(T)と、その最小エラー次元d(t)の次元特徴量を用いて識別を行う識別器H(x)が求められる。
[学習装置の学習処理の説明]
図15を参照して、図1の学習装置が行う処理(学習処理)を説明する。
学習装置において、特徴点抽出部11には、モデル画像が供給され、特徴点抽出部21には、生成用画像が供給される。さらに、識別器生成部24には、正解ラベルが供給される。
そして、学習装置では、ステップS81において、特徴点抽出部11が、そこに供給されるモデル画像から、特徴点を抽出し、モデル画像とともに、特徴点特徴量抽出部12に供給する。
さらに、ステップS81では、特徴点抽出部21が、そこに供給される生成用画像から、特徴点を抽出し、生成用画像とともに、特徴点特徴量抽出部22に供給し、処理は、ステップS82に進む。
ステップS82では、特徴点特徴量抽出部12が、特徴点抽出部11から供給されるモデル画像から、特徴点抽出部11から供給される特徴点の特徴点特徴量を抽出し(図9の特徴点特徴量抽出処理を行い)、特徴点特徴量記憶部13に供給して記憶させる。
さらに、ステップS82では、特徴点特徴量抽出部22が、特徴点抽出部21から供給される生成用画像から、特徴点抽出部21から供給される特徴点の特徴点特徴量を抽出し、全体特徴量生成部23に供給して、処理は、ステップS83に進む。
ステップS83では、全体特徴量生成部23は、特徴点特徴量記憶部13に記憶されたモデル画像の特徴点特徴量に基づき、特徴点特徴量抽出部22からの生成用画像の特徴点特徴量から、その生成用画像全体の特徴を表す全体特徴量を求める(図11又は図12の全体特徴量生成処理を行う)。さらに、ステップS83では、全体特徴量生成部23は、生成用画像の全体特徴量を、識別器生成部24に供給し、処理は、ステップS84に進む。
ステップS84では、識別器生成部24は、全体特徴量生成部23からの生成用画像の全体特徴量と、その生成用画像の正解ラベルとを用いたブースティングによる統計学習によって、識別器と、次元情報を生成して出力し(図14の識別器生成処理を行い)、学習処理は終了する。
なお、異なる複数の識別対象を識別するための識別器、及び次元情報は、異なる識別対象ごとに、学習用画像(モデル画像と生成用画像)、及び、正解ラベルを用意して、図15の学習処理を行うことによって生成される。
[識別装置の一実施の形態の構成例]
図16は、本発明を適用した識別装置の一実施の形態の構成例を示すブロック図である。
図16において、識別装置は、図1の学習装置で得られた識別器H(x)と、次元情報としての最小エラー次元d(1)ないしd(T)とを用いて、処理対象画像に写っている被写体が所定の識別対象であるか否かを識別する。
すなわち、識別装置は、特徴点特徴量記憶部61、次元情報記憶部62、識別器記憶部63、特徴点抽出部71、特徴点特徴量抽出部72、次元特徴量生成部73、及び、識別部74から構成される。
特徴点特徴量記憶部61は、図1の学習装置の特徴点特徴量抽出部12で所定の識別対象について得られたモデル画像の特徴点特徴量(特徴点特徴量記憶部13に記憶されているのと同一の特徴点特徴量)が記憶されている。
次元情報記憶部62は、図1の学習装置の識別器生成部24で所定の識別対象について得られた次元情報としての最小エラー次元d(1)ないしd(T)を記憶している。
識別器記憶部63は、図1の学習装置の識別器生成部24で所定の識別対象について得られた識別器H(x)としてのT個の弱仮説器h1,d(1)(xi,d(1)),h2,d(2)(xi,d(2)),・・・,hT,d(T)(xi,d(T))と、T個の信頼度α1,α2,・・・,αTとを記憶している。
特徴点抽出部71には、画像に写っている被写体が所定の識別対象であるか否かを識別する対象の処理対象画像が供給される。特徴点抽出部71は、そこに供給される処理対象画像から、図1の特徴点抽出部11と同様にして、特徴点を抽出し、処理対象画像とともに、特徴点特徴量抽出部72に供給する。
特徴点特徴量抽出部72は、特徴点抽出部71からの処理対象画像から、同じく特徴点抽出部71からの特徴点の特徴点特徴量を抽出し、次元特徴量生成部73に供給する。
次元特徴量生成部73は、図1の学習装置の全体特徴量生成部23と同様にして、特徴点特徴量記憶部61に記憶されたモデル画像の特徴点特徴量に基づき、特徴点特徴量抽出部72からの処理対象画像の特徴点特徴量から、その処理対象画像の全体特徴量を構成する次元特徴量を求める。
但し、次元特徴量生成部73では、処理対象画像の全体特徴量を構成するM個(M次元)の次元特徴量すべてではなく、そのM個の次元特徴量のうちの、次元情報記憶部62に記憶された次元情報としての最小エラー次元d(1)ないしd(T)の次元特徴量が、選択的に求められる。
なお、次元特徴量生成部73では、最初から、処理対象画像の全体特徴量のうちの、次元情報としての最小エラー次元d(1)ないしd(T)の次元特徴量だけを求めてもよいし、処理対象画像の全体特徴量を求め、その全体特徴量の中から、最小エラー次元d(1)ないしd(T)の次元特徴量を抽出してもよい。
ここで、M個の次元特徴量から構成される、処理対象画像の全体特徴量としての、例えば、M個の次元特徴量をコンポーネントとするベクトルを、x'と表す。また、処理対象画像の全体特徴量x'のM個の次元特徴量のうちのm番目を、x'mと表す。
この場合、処理対象画像の全体特徴量x'のM個の次元特徴量のうちの、最小エラー次元d(1)ないしd(T)の次元特徴量は、x'd(1),x'd(2),・・・,x'd(T)と表される。
次元特徴量生成部73は、処理対象画像の全体特徴量x'のM個の次元特徴量のうちの、最小エラー次元d(1)ないしd(T)のT個の次元特徴量x'd(1)ないしx'd(T)を選択し(選択的に求めて)、識別部74に供給する。
識別部74は、識別器記憶部63に記憶された識別器H(x')に対して、次元特徴量生成部73からの、処理対象画像の最小エラー次元d(1)ないしd(T)の次元特徴量x'd(1)ないしx'd(T)を、入力x'として与えることで、処理対象画像に写っている被写体が所定の識別対象であるか否かを識別し、その識別結果を出力する。
すなわち、識別部74は、識別器記憶部63に記憶された識別器H(x')としてのT個の弱仮説器h1,d(1)(x'd(1)),h2,d(2)(x'd(2)),・・・,hT,d(T)(x'd(T))と、T個の信頼度α1,α2,・・・,αTとを用いて、識別器H(x')としての式(19)の関数H(x')を演算する。
Figure 0004720913
・・・(19)
ここで、式(19)において、sign()は、かっこ()内の符号が正の場合は、例えば、+1を、符号が負の場合は、例えば、-1を、それぞれ出力する関数である。したがって、式(19)の関数H(x')の値は、+1又は-1となる。
式(19)の関数H(x')の値が+1である場合、処理対象画像に写っている被写体が所定の識別対象であるという識別結果を表し、式(19)の関数H(x')の値が-1である場合、処理対象画像に写っている被写体が所定の識別対象でないという識別結果を表す。
[識別装置の識別処理の説明]
図17を参照して、図16の識別装置が行う処理(識別処理)を説明する。
識別装置では、処理対象画像が、特徴点抽出部71に供給される。
特徴点抽出部71は、ステップS91において、特徴点抽出部71は、そこに供給される処理対象画像から、特徴点を抽出し、処理対象画像とともに、特徴点特徴量抽出部72に供給して、処理は、ステップS92に進む。
ステップS92では、特徴点特徴量抽出部72は、特徴点抽出部71から供給される処理対象画像から、特徴点抽出部71から供給される特徴点の特徴点特徴量を抽出し、次元特徴量生成部73に供給して、処理は、ステップS93に進む。
ステップS93では、次元特徴量生成部73が、特徴点特徴量記憶部61に記憶されたモデル画像の特徴点特徴量に基づき、特徴点特徴量抽出部72からの処理対象画像の特徴点特徴量から、その処理対象画像の全体特徴量を構成する次元特徴量のうちの、次元情報記憶部62に記憶された次元情報としての最小エラー次元d(1)ないしd(T)の次元特徴量x'd(1)ないしx'd(T)を求める。
そして、次元特徴量生成部73は、最小エラー次元d(1)ないしd(T)の次元特徴量x'd(1)ないしx'd(T)を、識別部74に供給して、処理は、ステップS93からステップS94に進む。
ステップS94では、識別部74は、識別器記憶部63に記憶された、式(19)で表される識別器H(x')に対して、次元特徴量生成部73からの、処理対象画像の最小エラー次元d(1)ないしd(T)の次元特徴量x'd(1)ないしx'd(T)を、入力x'として与えることで、処理対象画像に写っている被写体が所定の識別対象であるか否かを識別し、その識別結果を出力して、識別処理は終了する。
図16の識別装置の特徴点特徴量抽出部72において、図1の特徴点特徴量抽出部12と同様にして求められる特徴点特徴量は、図8等で説明したように、識別性、及び不変性の高い特徴点特徴量であり、識別装置において、そのような特徴点特徴量から生成される次元特徴量を用いて、処理対象画像の識別を行うことにより、識別性、及び不変性の高い識別を行うことができる。
[本発明を適用したコンピュータの説明]
次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
そこで、図18は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。
プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク105やROM103に予め記録しておくことができる。
あるいはまた、プログラムは、リムーバブル記録媒体111に格納(記録)しておくことができる。このようなリムーバブル記録媒体111は、いわゆるパッケージソフトウエアとして提供することができる。ここで、リムーバブル記録媒体111としては、例えば、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory),MO(Magneto Optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリ等がある。
なお、プログラムは、上述したようなリムーバブル記録媒体111からコンピュータにインストールする他、通信網や放送網を介して、コンピュータにダウンロードし、内蔵するハードディスク105にインストールすることができる。すなわち、プログラムは、例えば、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送することができる。
コンピュータは、CPU(Central Processing Unit)102を内蔵しており、CPU102には、バス101を介して、入出力インタフェース110が接続されている。
CPU102は、入出力インタフェース110を介して、ユーザによって、入力部107が操作等されることにより指令が入力されると、それに従って、ROM(Read Only Memory)103に格納されているプログラムを実行する。あるいは、CPU102は、ハードディスク105に格納されたプログラムを、RAM(Random Access Memory)104にロードして実行する。
これにより、CPU102は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU102は、その処理結果を、必要に応じて、例えば、入出力インタフェース110を介して、出力部106から出力、あるいは、通信部108から送信、さらには、ハードディスク105に記録等させる。
なお、入力部107は、キーボードや、マウス、マイク等で構成される。また、出力部106は、LCD(Liquid Crystal Display)やスピーカ等で構成される。
ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含む。
また、プログラムは、1のコンピュータ(プロセッサ)により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
11 特徴点抽出部, 12 特徴点特徴量抽出部, 13 特徴点特徴量記憶部, 21 特徴点抽出部, 22 特徴点特徴量抽出部, 23 全体特徴量生成部, 24 識別器生成部, 41 フィルタ部, 42 特徴点特徴量算出部, 61 特徴点特徴量記憶部, 62 次元情報記憶部, 63 識別器記憶部, 71 特徴点抽出部, 72 特徴点特徴量抽出部, 73 次元特徴量生成部, 74 識別部, 101 バス, 102 CPU, 103 ROM, 104 RAM, 105 ハードディスク, 106 出力部, 107 入力部, 108 通信部, 109 ドライブ, 110 入出力インタフェース, 111 リムーバブル記録媒体

Claims (11)

  1. 画像に写っている被写体が所定の識別対象であるか否かを識別する識別器を生成する学習に用いられる複数の生成用画像であって、かつ、前記識別対象が写っているポジティブ画像と、前記識別対象が写っていないネガティブ画像とを含む生成用画像において、特徴的な点である特徴点を抽出する特徴点抽出手段と、
    前記生成用画像の前記特徴点の特徴を表す特徴点特徴量を抽出する特徴点特徴量抽出手段と、
    前記生成用画像の特徴点特徴量から、その生成用画像全体の特徴を表す全体特徴量であって、かつ、複数の次元のベクトルで表される全体特徴量を求める全体特徴量生成手段と、
    前記生成用画像の全体特徴量と、その生成用画像が、ポジティブ画像、又はネガティブ画像のうちのいずれであるかを表す正解ラベルとを用い、前記識別器を生成する識別器生成手段と
    を備え、
    前記特徴点特徴量抽出手段は、
    複数のスケールσのガウス関数の、複数の角度θ方向の、複数の微分回数cの導関数それぞれで、前記生成用画像をフィルタリングし、そのフィルタリングにより得られる複数の応答画像を出力するフィルタ手段と、
    同一のスケールσのガウス関数の、同一の角度θ方向の、同一の微分回数cの導関数でのフィルタリングにより得られる前記応答画像について、前記特徴点を中心とする、固定半径の円形の領域である特徴点領域を、前記特徴点を基準に、角度方向と距離方向に区切ることで、前記特徴点領域を、複数の小領域に分割し、
    前記複数の小領域のそれぞれについて、前記小領域の画素値の平均値を、前記小領域の画素値の統計量として求め、
    同一のスケールσのガウス関数の、複数の角度θ方向の、同一の微分回数cの導関数それぞれでのフィルタリングにより得られる前記応答画像から求められる、前記小領域の画素値の平均値をコンポーネントとするベクトルを、前記特徴点の1種類の特徴量として、前記複数のスケールσと前記複数の微分回数cとの組み合わせの数だけの種類の特徴量を、前記特徴点の特徴点特徴量として求める
    特徴点特徴量算出手段と
    を有し、
    前記識別器生成手段は、前記全体特徴量である前記複数の次元のベクトルのコンポーネントである複数の次元特徴量のうちの、前記ポジティブ画像、及びネガティブ画像の識別を誤る度合いを表すエラー値を小さくする前記次元特徴量を用いて識別を行う前記識別器と、前記エラー値を小さくする前記次元特徴量の次元を表す次元情報とを生成する
    学習装置。
  2. 前記ポジティブ画像であるモデル画像から、前記特徴点を抽出する他の特徴点抽出手段と、
    前記モデル画像の前記特徴点の特徴点特徴量を抽出する他の特徴点特徴量抽出手段と
    をさらに備え、
    前記全体特徴量生成手段は、
    前記モデル画像の特徴点特徴量の値である特徴点特徴量値を階級とする、前記生成用画像の特徴点特徴量値のヒストグラム、
    又は、前記モデル画像の特徴点特徴量値に対する、前記生成用画像の特徴点特徴量値の相関値
    を、前記全体特徴量として求める
    請求項に記載の学習装置。
  3. 前記識別器は、複数の弱仮説器から構成され、
    前記識別器生成手段は、
    前記生成用画像の前記全体特徴量を入力として、前記生成用画像が、前記ポジティブ画像、又はネガティブ画像である旨の識別結果を出力する前記弱仮説器を、前記エラー値を小さくするように決定し、
    前記全体特徴量を構成する前記複数の次元特徴量のうちの、前記弱仮説器の前記エラー値の最小値が得られる前記次元特徴量の次元である最小エラー次元を求め、
    前記弱仮説器による前記生成用画像の識別結果が、前記生成用画像の前記正解ラベルと一致するか否かによって、前記生成用画像の識別結果の誤りを前記エラー値に影響させる重みを、前記生成用画像ごとに求める
    ことを、所定の回数だけ繰り返すことで、その所定の回数に等しい所定の数の弱仮説器から構成される前記識別器と、前記所定の数の、前記最小エラー次元を表す前記次元情報とを生成し、
    前記エラー値は、前記複数の生成用画像のうちの、識別結果が誤る前記生成用画像の前記重みを加算することで求められる
    請求項に記載の学習装置。
  4. 前記特徴点抽出手段は、コーナ点を、前記特徴点として抽出する
    請求項に記載の学習装置。
  5. 画像に写っている被写体が所定の識別対象であるか否かを識別する識別器を生成する学習に用いられる複数の生成用画像であって、かつ、前記識別対象が写っているポジティブ画像と、前記識別対象が写っていないネガティブ画像とを含む生成用画像において、特徴的な点である特徴点を抽出し、
    前記生成用画像の前記特徴点の特徴を表す特徴点特徴量を抽出することを、
    複数のスケールσのガウス関数の、複数の角度θ方向の、複数の微分回数cの導関数それぞれで、前記生成用画像をフィルタリングし、そのフィルタリングにより得られる複数の応答画像を出力し、
    同一のスケールσのガウス関数の、同一の角度θ方向の、同一の微分回数cの導関数でのフィルタリングにより得られる前記応答画像について、前記特徴点を中心とする、固定半径の円形の領域である特徴点領域を、前記特徴点を基準に、角度方向と距離方向に区切ることで、前記特徴点領域を、複数の小領域に分割し、
    前記複数の小領域のそれぞれについて、前記小領域の画素値の平均値を、前記小領域の画素値の統計量として求め、
    同一のスケールσのガウス関数の、複数の角度θ方向の、同一の微分回数cの導関数それぞれでのフィルタリングにより得られる前記応答画像から求められる、前記小領域の画素値の平均値をコンポーネントとするベクトルを、前記特徴点の1種類の特徴量として、前記複数のスケールσと前記複数の微分回数cとの組み合わせの数だけの種類の特徴量を、前記特徴点の特徴点特徴量として求める
    ことにより行い、
    前記生成用画像の特徴点特徴量から、その生成用画像全体の特徴を表す全体特徴量であって、かつ、複数の次元のベクトルで表される全体特徴量を求め、
    前記生成用画像の全体特徴量と、その生成用画像が、ポジティブ画像、又はネガティブ画像のうちのいずれであるかを表す正解ラベルとを用い、前記識別器を生成することを、
    前記全体特徴量である前記複数の次元のベクトルのコンポーネントである複数の次元特徴量のうちの、前記ポジティブ画像、及びネガティブ画像の識別を誤る度合いを表すエラー値を小さくする前記次元特徴量を用いて識別を行う前記識別器と、前記エラー値を小さくする前記次元特徴量の次元を表す次元情報とを生成する
    ことにより行う
    ステップを含む学習方法。
  6. 画像に写っている被写体が所定の識別対象であるか否かを識別する識別器を生成する学習に用いられる複数の生成用画像であって、かつ、前記識別対象が写っているポジティブ画像と、前記識別対象が写っていないネガティブ画像とを含む生成用画像において、特徴的な点である特徴点を抽出する特徴点抽出手段と、
    前記生成用画像の前記特徴点の特徴を表す特徴点特徴量を抽出する特徴点特徴量抽出手段と、
    前記生成用画像の特徴点特徴量から、その生成用画像全体の特徴を表す全体特徴量であって、かつ、複数の次元のベクトルで表される全体特徴量を求める全体特徴量生成手段と、
    前記生成用画像の全体特徴量と、その生成用画像が、ポジティブ画像、又はネガティブ画像のうちのいずれであるかを表す正解ラベルとを用い、前記識別器を生成する識別器生成手段と
    して、コンピュータを機能させるためのプログラムであり、
    前記特徴点特徴量抽出手段は、
    複数のスケールσのガウス関数の、複数の角度θ方向の、複数の微分回数cの導関数それぞれで、前記生成用画像をフィルタリングし、そのフィルタリングにより得られる複数の応答画像を出力するフィルタ手段と、
    同一のスケールσのガウス関数の、同一の角度θ方向の、同一の微分回数cの導関数でのフィルタリングにより得られる前記応答画像について、前記特徴点を中心とする、固定半径の円形の領域である特徴点領域を、前記特徴点を基準に、角度方向と距離方向に区切ることで、前記特徴点領域を、複数の小領域に分割し、
    前記複数の小領域のそれぞれについて、前記小領域の画素値の平均値を、前記小領域の画素値の統計量として求め、
    同一のスケールσのガウス関数の、複数の角度θ方向の、同一の微分回数cの導関数それぞれでのフィルタリングにより得られる前記応答画像から求められる、前記小領域の画素値の平均値をコンポーネントとするベクトルを、前記特徴点の1種類の特徴量として、前記複数のスケールσと前記複数の微分回数cとの組み合わせの数だけの種類の特徴量を、前記特徴点の特徴点特徴量として求める
    特徴点特徴量算出手段と
    を有し、
    前記識別器生成手段は、前記全体特徴量である前記複数の次元のベクトルのコンポーネントである複数の次元特徴量のうちの、前記ポジティブ画像、及びネガティブ画像の識別を誤る度合いを表すエラー値を小さくする前記次元特徴量を用いて識別を行う前記識別器と、前記エラー値を小さくする前記次元特徴量の次元を表す次元情報とを生成する
    プログラム。
  7. 画像に写っている被写体が所定の識別対象であるか否かを識別する対象の処理対象画像において、特徴的な点である特徴点を抽出する特徴点抽出手段と、
    前記処理対象画像の前記特徴点の特徴を表す特徴点特徴量を抽出する特徴点特徴量抽出手段と、
    前記処理対象画像の特徴点特徴量から、その処理対象画像全体の特徴を表す全体特徴量であって、かつ、複数の次元のベクトルで表される全体特徴量としての前記ベクトルのコンポーネントである複数の次元特徴量のうちの、次元情報が表す次元の次元特徴量を生成する次元特徴量生成手段と、
    画像に写っている被写体が所定の識別対象であるか否かを識別する識別器に対して、前記次元特徴量を入力として与えることで、前記処理対象画像に写っている被写体が所定の識別対象であるか否かを識別する識別手段と
    を備え、
    前記特徴点特徴量抽出手段は、
    複数のスケールσのガウス関数の、複数の角度θ方向の、複数の微分回数cの導関数それぞれで、前記処理対象画像をフィルタリングし、そのフィルタリングにより得られる複数の応答画像を出力するフィルタ手段と、
    同一のスケールσのガウス関数の、同一の角度θ方向の、同一の微分回数cの導関数でのフィルタリングにより得られる前記応答画像について、前記特徴点を中心とする、固定半径の円形の領域である特徴点領域を、前記特徴点を基準に、角度方向と距離方向に区切ることで、前記特徴点領域を、複数の小領域に分割し、
    前記複数の小領域のそれぞれについて、前記小領域の画素値の平均値を、前記小領域の画素値の統計量として求め、
    同一のスケールσのガウス関数の、複数の角度θ方向の、同一の微分回数cの導関数それぞれでのフィルタリングにより得られる前記応答画像から求められる、前記小領域の画素値の平均値をコンポーネントとするベクトルを、前記特徴点の1種類の特徴量として、前記複数のスケールσと前記複数の微分回数cとの組み合わせの数だけの種類の特徴量を、前記特徴点の特徴点特徴量として求める
    特徴点特徴量算出手段と
    を有し、
    前記識別器、及び、次元情報は、
    前記識別器を生成する学習に用いられる複数の生成用画像であって、かつ、前記識別対象が写っているポジティブ画像と、前記識別対象が写っていないネガティブ画像とを含む生成用画像において、特徴点を抽出し、
    前記生成用画像の前記特徴点の特徴点特徴量を抽出することを、
    前記生成用画像を、前記複数のフィルタでフィルタリングすることにより得られる複数の応答画像それぞれについて、前記特徴点を中心とする特徴点領域を、前記特徴点を基準に、角度方向と距離方向に区切ることで、前記特徴点領域を、複数の小領域に分割し、
    前記複数の小領域のそれぞれについて、前記小領域の画素値の統計量を求め、
    前記特徴点について、前記生成用画像の複数の応答画像それぞれから得られる、前記複数の小領域それぞれの前記統計量を、前記特徴点の特徴点特徴量とする
    ことにより行い、
    前記生成用画像の特徴点特徴量から、その生成用画像の全体特徴量を求め、
    前記生成用画像の全体特徴量と、その生成用画像が、ポジティブ画像、又はネガティブ画像のうちのいずれであるかを表す正解ラベルとを用い、前記識別器を生成することを、
    前記全体特徴量である複数の次元のベクトルのコンポーネントである複数の次元特徴量のうちの、前記ポジティブ画像、及びネガティブ画像の識別を誤る度合いを表すエラー値を小さくする前記次元特徴量を用いて識別を行う前記識別器と、前記エラー値を小さくする前記次元特徴量の次元を表す次元情報とを生成する
    ことにより行う
    ことで得られたものである
    識別装置。
  8. 前記処理対象画像の全体特徴量は、
    前記ポジティブ画像であるモデル画像の特徴点特徴量の値である特徴点特徴量値を階級とする、前記処理対象画像の特徴点特徴量値のヒストグラム、
    又は、前記モデル画像の特徴点特徴量値に対する、前記処理対象画像の特徴点特徴量値の相関値
    である
    請求項に記載の識別装置。
  9. 前記特徴点抽出手段は、コーナ点を、前記特徴点として抽出する
    請求項に記載の識別装置。
  10. 画像に写っている被写体が所定の識別対象であるか否かを識別する対象の処理対象画像において、特徴的な点である特徴点を抽出する特徴点抽出ステップと、
    前記処理対象画像の前記特徴点の特徴を表す特徴点特徴量を抽出する特徴点特徴量抽出ステップと、
    前記処理対象画像の特徴点特徴量から、その処理対象画像全体の特徴を表す全体特徴量であって、かつ、複数の次元のベクトルで表される全体特徴量としての前記ベクトルのコンポーネントである複数の次元特徴量のうちの、次元情報が表す次元の次元特徴量を生成する次元特徴量生成ステップと、
    画像に写っている被写体が所定の識別対象であるか否かを識別する識別器に対して、前記次元特徴量を入力として与えることで、前記処理対象画像に写っている被写体が所定の識別対象であるか否かを識別する識別ステップと
    を含み、
    前記特徴点特徴量抽出ステップでは、
    複数のスケールσのガウス関数の、複数の角度θ方向の、複数の微分回数cの導関数それぞれで、前記処理対象画像をフィルタリングし、そのフィルタリングにより得られる複数の応答画像を出力し、
    同一のスケールσのガウス関数の、同一の角度θ方向の、同一の微分回数cの導関数でのフィルタリングにより得られる前記応答画像について、前記特徴点を中心とする、固定半径の円形の領域である特徴点領域を、前記特徴点を基準に、角度方向と距離方向に区切ることで、前記特徴点領域を、複数の小領域に分割し、
    前記複数の小領域のそれぞれについて、前記小領域の画素値の平均値を、前記小領域の画素値の統計量として求め、
    同一のスケールσのガウス関数の、複数の角度θ方向の、同一の微分回数cの導関数それぞれでのフィルタリングにより得られる前記応答画像から求められる、前記小領域の画素値の平均値をコンポーネントとするベクトルを、前記特徴点の1種類の特徴量として、前記複数のスケールσと前記複数の微分回数cとの組み合わせの数だけの種類の特徴量を、前記特徴点の特徴点特徴量として求め、
    前記識別器、及び、次元情報は、
    前記識別器を生成する学習に用いられる複数の生成用画像であって、かつ、前記識別対象が写っているポジティブ画像と、前記識別対象が写っていないネガティブ画像とを含む生成用画像において、特徴点を抽出し、
    前記生成用画像の前記特徴点の特徴点特徴量を抽出することを、
    前記生成用画像を、前記複数のフィルタでフィルタリングすることにより得られる複数の応答画像それぞれについて、前記特徴点を中心とする特徴点領域を、前記特徴点を基準に、角度方向と距離方向に区切ることで、前記特徴点領域を、複数の小領域に分割し、
    前記複数の小領域のそれぞれについて、前記小領域の画素値の統計量を求め、
    前記特徴点について、前記生成用画像の複数の応答画像それぞれから得られる、前記複数の小領域それぞれの前記統計量を、前記特徴点の特徴点特徴量とする
    ことにより行い、
    前記生成用画像の特徴点特徴量から、その生成用画像の全体特徴量を求め、
    前記生成用画像の全体特徴量と、その生成用画像が、ポジティブ画像、又はネガティブ画像のうちのいずれであるかを表す正解ラベルとを用い、前記識別器を生成することを、
    前記全体特徴量である複数の次元のベクトルのコンポーネントである複数の次元特徴量のうちの、前記ポジティブ画像、及びネガティブ画像の識別を誤る度合いを表すエラー値を小さくする前記次元特徴量を用いて識別を行う前記識別器と、前記エラー値を小さくする前記次元特徴量の次元を表す次元情報とを生成する
    ことにより行う
    ことで得られたものである
    識別方法。
  11. 画像に写っている被写体が所定の識別対象であるか否かを識別する対象の処理対象画像において、特徴的な点である特徴点を抽出する特徴点抽出手段と、
    前記処理対象画像の前記特徴点の特徴を表す特徴点特徴量を抽出する特徴点特徴量抽出手段と、
    前記処理対象画像の特徴点特徴量から、その処理対象画像全体の特徴を表す全体特徴量であって、かつ、複数の次元のベクトルで表される全体特徴量としての前記ベクトルのコンポーネントである複数の次元特徴量のうちの、次元情報が表す次元の次元特徴量を生成する次元特徴量生成手段と、
    画像に写っている被写体が所定の識別対象であるか否かを識別する識別器に対して、前記次元特徴量を入力として与えることで、前記処理対象画像に写っている被写体が所定の識別対象であるか否かを識別する識別手段と
    して、コンピュータを機能させるためのプログラムであり、
    前記特徴点特徴量抽出手段は、
    複数のスケールσのガウス関数の、複数の角度θ方向の、複数の微分回数cの導関数それぞれで、前記処理対象画像をフィルタリングし、そのフィルタリングにより得られる複数の応答画像を出力するフィルタ手段と、
    同一のスケールσのガウス関数の、同一の角度θ方向の、同一の微分回数cの導関数でのフィルタリングにより得られる前記応答画像について、前記特徴点を中心とする、固定半径の円形の領域である特徴点領域を、前記特徴点を基準に、角度方向と距離方向に区切ることで、前記特徴点領域を、複数の小領域に分割し、
    前記複数の小領域のそれぞれについて、前記小領域の画素値の平均値を、前記小領域の画素値の統計量として求め、
    同一のスケールσのガウス関数の、複数の角度θ方向の、同一の微分回数cの導関数それぞれでのフィルタリングにより得られる前記応答画像から求められる、前記小領域の画素値の平均値をコンポーネントとするベクトルを、前記特徴点の1種類の特徴量として、前記複数のスケールσと前記複数の微分回数cとの組み合わせの数だけの種類の特徴量を、前記特徴点の特徴点特徴量として求める
    特徴点特徴量算出手段と
    を有し、
    前記識別器、及び、次元情報は、
    前記識別器を生成する学習に用いられる複数の生成用画像であって、かつ、前記識別対象が写っているポジティブ画像と、前記識別対象が写っていないネガティブ画像とを含む生成用画像において、特徴点を抽出し、
    前記生成用画像の前記特徴点の特徴点特徴量を抽出することを、
    前記生成用画像を、前記複数のフィルタでフィルタリングすることにより得られる複数の応答画像それぞれについて、前記特徴点を中心とする特徴点領域を、前記特徴点を基準に、角度方向と距離方向に区切ることで、前記特徴点領域を、複数の小領域に分割し、
    前記複数の小領域のそれぞれについて、前記小領域の画素値の統計量を求め、
    前記特徴点について、前記生成用画像の複数の応答画像それぞれから得られる、前記複数の小領域それぞれの前記統計量を、前記特徴点の特徴点特徴量とする
    ことにより行い、
    前記生成用画像の特徴点特徴量から、その生成用画像の全体特徴量を求め、
    前記生成用画像の全体特徴量と、その生成用画像が、ポジティブ画像、又はネガティブ画像のうちのいずれであるかを表す正解ラベルとを用い、前記識別器を生成することを、
    前記全体特徴量である複数の次元のベクトルのコンポーネントである複数の次元特徴量のうちの、前記ポジティブ画像、及びネガティブ画像の識別を誤る度合いを表すエラー値を小さくする前記次元特徴量を用いて識別を行う前記識別器と、前記エラー値を小さくする前記次元特徴量の次元を表す次元情報とを生成する
    ことにより行う
    ことで得られたものである
    プログラム。
JP2009036500A 2009-02-19 2009-02-19 学習装置、学習方法、識別装置、識別方法、及び、プログラム Expired - Fee Related JP4720913B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2009036500A JP4720913B2 (ja) 2009-02-19 2009-02-19 学習装置、学習方法、識別装置、識別方法、及び、プログラム
CN2010101159784A CN101814135B (zh) 2009-02-19 2010-02-11 学习设备、学习方法、识别设备、识别方法和程序
US12/704,001 US8270707B2 (en) 2009-02-19 2010-02-11 Learning device, learning method, identification device, identification method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009036500A JP4720913B2 (ja) 2009-02-19 2009-02-19 学習装置、学習方法、識別装置、識別方法、及び、プログラム

Publications (2)

Publication Number Publication Date
JP2010191772A JP2010191772A (ja) 2010-09-02
JP4720913B2 true JP4720913B2 (ja) 2011-07-13

Family

ID=42559944

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009036500A Expired - Fee Related JP4720913B2 (ja) 2009-02-19 2009-02-19 学習装置、学習方法、識別装置、識別方法、及び、プログラム

Country Status (3)

Country Link
US (1) US8270707B2 (ja)
JP (1) JP4720913B2 (ja)
CN (1) CN101814135B (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011154501A (ja) * 2010-01-27 2011-08-11 Sony Corp 学習装置、学習方法、識別装置、識別方法、プログラム、及び情報処理システム
JP5873959B2 (ja) * 2010-09-27 2016-03-01 パナソニックIpマネジメント株式会社 ホワイトリスト内外判定装置及び方法
CN102682309B (zh) * 2011-03-14 2014-11-19 汉王科技股份有限公司 一种基于模板学习的人脸注册方法及装置
JP2013003686A (ja) * 2011-06-13 2013-01-07 Sony Corp 認識装置および方法、プログラム、並びに記録媒体
US8874557B2 (en) 2011-09-02 2014-10-28 Adobe Systems Incorporated Object retrieval and localization using a spatially-constrained similarity model
US8805116B2 (en) * 2011-09-17 2014-08-12 Adobe Systems Incorporated Methods and apparatus for visual search
US8880563B2 (en) 2012-09-21 2014-11-04 Adobe Systems Incorporated Image search by query object segmentation
JP6124566B2 (ja) * 2012-11-29 2017-05-10 国立大学法人九州工業大学 画像認識方法および画像認識装置
KR20140112635A (ko) * 2013-03-12 2014-09-24 한국전자통신연구원 특징점 기반 영상처리 장치 및 그 영상 처리 방법
CN103310485B (zh) * 2013-07-10 2016-12-28 南通纺织丝绸产业技术研究院 一种三维图像的生成方法及装置
JP6043706B2 (ja) * 2013-09-25 2016-12-14 日本電信電話株式会社 マッチング処理装置およびマッチング方法
JP6448325B2 (ja) * 2014-11-19 2019-01-09 キヤノン株式会社 画像処理装置、画像処理方法及びプログラム
CN105022946A (zh) * 2015-07-17 2015-11-04 广东欧珀移动通信有限公司 人脸解密方法及装置
JP6542824B2 (ja) * 2017-03-13 2019-07-10 ファナック株式会社 入力画像から検出した対象物の像の尤度を計算する画像処理装置および画像処理方法
US11080833B2 (en) * 2019-11-22 2021-08-03 Adobe Inc. Image manipulation using deep learning techniques in a patch matching operation

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006338082A (ja) * 2005-05-31 2006-12-14 Sony Corp 画像処理システム、学習装置および方法、画像認識装置および方法、記録媒体、並びにプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6393151B1 (en) * 1978-10-13 2002-05-21 Agency Of Industrial Science And Technology Pattern reading system
DE3815869A1 (de) * 1987-05-08 1988-11-17 Ricoh Kk Verfahren zum extrahieren von merkmalsmengen eines zeichens
JP4459137B2 (ja) * 2005-09-07 2010-04-28 株式会社東芝 画像処理装置及びその方法
JP4618098B2 (ja) 2005-11-02 2011-01-26 ソニー株式会社 画像処理システム
JP4518092B2 (ja) * 2006-03-31 2010-08-04 ソニー株式会社 物体認識装置、物体認識方法、物体認識プログラム、特徴量登録装置、特徴量登録方法、及び特徴量登録プログラム
JP5200015B2 (ja) * 2007-06-14 2013-05-15 パナソニック株式会社 画像認識装置及び画像認識方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006338082A (ja) * 2005-05-31 2006-12-14 Sony Corp 画像処理システム、学習装置および方法、画像認識装置および方法、記録媒体、並びにプログラム

Also Published As

Publication number Publication date
US8270707B2 (en) 2012-09-18
JP2010191772A (ja) 2010-09-02
US20100208983A1 (en) 2010-08-19
CN101814135B (zh) 2012-11-28
CN101814135A (zh) 2010-08-25

Similar Documents

Publication Publication Date Title
JP4720913B2 (ja) 学習装置、学習方法、識別装置、識別方法、及び、プログラム
Krig et al. Interest point detector and feature descriptor survey
Seo et al. Training-free, generic object detection using locally adaptive regression kernels
CA2789887C (en) Face feature vector construction
Pietikäinen et al. Computer vision using local binary patterns
Lategahn et al. Texture classification by modeling joint distributions of local patterns with Gaussian mixtures
US20130004028A1 (en) Method for Filtering Using Block-Gabor Filters for Determining Descriptors for Images
CN104915673B (zh) 一种基于视觉词袋模型的目标分类方法和系统
CN106716450A (zh) 利用边缘向量的基于图像的特征检测
Shen et al. Wireless capsule endoscopy video segmentation using an unsupervised learning approach based on probabilistic latent semantic analysis with scale invariant features
JP6112801B2 (ja) 画像認識装置及び画像認識方法
US9704024B2 (en) Object discriminating apparatus and method
WO2006058154A1 (en) Method for automatic shape classification
JP2011154501A (ja) 学習装置、学習方法、識別装置、識別方法、プログラム、及び情報処理システム
CN107918773A (zh) 一种人脸活体检测方法、装置及电子设备
Lee et al. Robust Face Detection Based on Knowledge‐Directed Specification of Bottom‐Up Saliency
JP2011154500A (ja) 学習装置、学習方法、識別装置、識別方法、及びプログラム
Peng et al. Saliency-aware image-to-class distances for image classification
JP2013003686A (ja) 認識装置および方法、プログラム、並びに記録媒体
Ouanan et al. A novel face recognition system based on Gabor and Zernike features
Dalara et al. Entity Recognition in Indian Sculpture using CLAHE and machine learning
Pang et al. Robust eye center localization through face alignment and invariant isocentric patterns
Stöttinger et al. Systematic evaluation of spatio-temporal features on comparative video challenges
Zhou et al. Hough-space-based hypothesis generation and hypothesis verification for 3D object recognition and 6D pose estimation
Hahmann et al. Combination of facial landmarks for robust eye localization using the Discriminative Generalized Hough Transform

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101202

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110121

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110308

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110321

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140415

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140415

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees