JP5841418B2 - 情報処理装置、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理方法、及びプログラム Download PDF

Info

Publication number
JP5841418B2
JP5841418B2 JP2011264118A JP2011264118A JP5841418B2 JP 5841418 B2 JP5841418 B2 JP 5841418B2 JP 2011264118 A JP2011264118 A JP 2011264118A JP 2011264118 A JP2011264118 A JP 2011264118A JP 5841418 B2 JP5841418 B2 JP 5841418B2
Authority
JP
Japan
Prior art keywords
reference position
input information
classification
information
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2011264118A
Other languages
English (en)
Other versions
JP2013117793A5 (ja
JP2013117793A (ja
Inventor
奥野 泰弘
泰弘 奥野
克彦 森
克彦 森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2011264118A priority Critical patent/JP5841418B2/ja
Priority to US13/684,894 priority patent/US9008437B2/en
Publication of JP2013117793A publication Critical patent/JP2013117793A/ja
Publication of JP2013117793A5 publication Critical patent/JP2013117793A5/ja
Application granted granted Critical
Publication of JP5841418B2 publication Critical patent/JP5841418B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は参照情報を用いて情報の分類を実行する情報処理装置、情報処理方法、及びプログラムに関する。
従来から、分類木の集合(アンサンブル)を用いた、情報の分類、及び識別を行う手法が提案されている。この手法では分類木をL個(Lは2以上の定数)作成し、それら全部を用いて、より高い識別性能を得る。
非特許文献1には、分類木の集合を用いた手法をコンピュータビジョンに応用して複数種類の画像を識別可能とする技術が記載されている。非特許文献1に記載の技術では、はじめに、画像上の2か所を参照するための2つの参照位置のペアを表す2点位置情報をランダムにN個生成する。以下、この2か所の参照点を参照点ペアと呼び、参照点ペアがN個集まったものを参照点ペア列と呼ぶ。次に、参照画像に対して、参照点ペア列のそれぞれの位置における画像輝度値を大小比較し、その比較結果の列を0または1のビット列で表すことにより、一つの画像と一つの参照点ペア列からN桁ビットのバイナリコードを生成する。識別の基準となる複数の参照画像それぞれについて、前述のようにN桁のバイナリコードを生成し、そのバイナリコードと参照画像の種別との関係を記録する。これが一つの分類木の学習に相当する。以上のような処理による学習を、それぞれ異なる参照点ペアを有するL個の参照点ペア列に対して実行する。すなわちL個の分類木を学習する。
画像の識別時には、入力画像に対してL個の分類木のすべてを使用する。すなわち、各分類木において学習時に定めたN個の参照点ペアの位置に従って、入力画像からN桁のバイナリコードを算出する。そして、これをL個の参照点ペア列について実行し、L個のバイナリコードを得る。そして、得られたL個のバイナリコードと、事前学習により得られたL個の分類木とを用いて、最も尤もらしい参照画像の種別を最終的な識別結果とする。
非特許文献1では、参照画像のバリエーションを多数作り、入力画像に関してあるバイナリコードが得られた場合に、当該入力画像が参照画像のどの種別に該当するかを示す確率を予め学習する。そして、入力画像から取得されるL個のバイナリコードのそれぞれについて参照画像の各種別に該当する確率を得て、L個の分類木から得られる確率の積が最大となる参照画像の種別を最終的な識別結果とする。
非特許文献1の方法は、2か所の参照点における画素値の比較という単純な特徴量にしたがって分類を行う分類木を弱分類器とし、多数の弱分類器のアンサンブルによって最終的な識別結果を得るものである。この方法によれば、識別時の処理においては、入力画像の参照点ペアの画素値比較によるバイナリコード化、および、バイナリコードによる辞書テーブル参照により画像識別を行う。このため、古典的な分類木のように、識別時に木構造を逐一走査していく必要がなく、古典的な分類木による処理に比べて高速に実行できる。また、識別精度も十分高いという報告が論文の中でされている。
特開平06−229771号公報 特開平07−129898号公報
Mustafa Ozuysal、Pascal Fua、及びVincent Lepetit、"Fast keypoint recognition in ten lines of code"、cvpr、pp.1−8、2007 IEEE Conference on Computer Vision and Pattern Recognition、2007
識別の対象となる画像は、学習に用いた参照画像と同一の画像ではなく、参照画像になんらかのノイズや変形が加わったものが想定される。識別器は、そのような参照画像と異なった入力画像に対しても、それが参照画像のいずれかと同類のものであると識別できることが期待される。そのことを鑑みると、非特許文献1の方法を適用する場合などでは、参照点ペアの位置における画像の輝度差が大きいことが望ましい。ある画像にある分類木を適用した時、分類木に設定されている参照点ペア位置における輝度値差が小さければ、ノイズによって輝度値の大小比較の結果が逆転しやすくなり、この分類木を使った画像の識別結果の誤差が大きくなる確率が高まるからである。
しかし、輝度差が大きくなるような2点の位置は参照画像ごとに異なるため、望ましい参照点位置も参照画像ごとに異なっているのが一般的である。その一方で、従来の技術においては、参照点ペアの位置は分類木ごとに設定され、すべての画像の分類を行うためにその参照点ペア位置が共通に用いられるため、参照画像ごとに参照点ペア位置を変えて学習することはできない。
対策として、学習時に、すべての参照画像に対してなるべく輝度値差が大きくなるような参照点ペアを選ぶことが考えられる。しかし、好適な参照点ペア位置が画像ごとに互いに背反になることも十分ありえる。特に、識別対象となる画像の種類が多い場合は、すべての画像に対して輝度値差が一定以上になるような参照点ペアが存在しない可能性が高くなる。
よって、すべての画像に対して共通に好適な参照点ペア位置を学習時に設定することは困難である。結果として、ある分類木を得るために設定された参照点ペアは、いくつかの種別の画像の分類には望ましい位置でありえても、他のいくつかの種別の画像の分類には望ましくない位置になるという課題があった。また、このため、従来手法では、ある種別の画像が入力された際に、その種別の画像を分類するのに好適でない参照点ペアによる分類木を用いることにより識別の性能が低下する、という課題があった。
本発明は上記課題に鑑みなされたものであり、複数の参照位置のパターンから、入力情報の識別に適した参照位置のパターンを選択する情報処理装置、情報処理方法及びプログラムを提供することを目的とする。
上記目的を達成するため、本発明による情報処理装置は、学習過程において、入力情報を分類するのに用いられるべき、参照位置パターンを複数個取得する第1の取得手段と、入力情報を取得する第2の取得手段と、識別過程において、前記学習過程で取得された複数の参照位置パターンのそれぞれに従った各データを、前記入力情報から抽出する抽出手段と、前記抽出手段によって抽出された各データを評価する評価手段と、前記評価手段による評価の結果に基づいて、前記入力情報の分類に使用する参照位置パターンを、前記学習過程で取得された前記複数の参照位置パターンから、選択する選択手段と、前記入力情報における、前記選択された参照位置パターンに基づいて取得された特徴量を用いて、前記入力情報の分類を実行する実行手段と、を有する。
本発明によれば、入力情報を分類する際に用いる参照情報の参照位置のパターンを適切に選択し、高精度な識別を可能とする技術を提供することができる。
情報処理装置のハードウェア構成例を表すブロック図。 情報処理装置のソフトウェア機能構成を表すブロック図。 情報処理装置のハードウェアの別の構成例を表すブロック図。 1つの分類木の学習処理の動作を示すフローチャート。 参照2点位置リストのデータ構造の説明図。 符号・種別対応テーブルの説明図。 分類木のデータ構造の説明図。 辞書のデータ構造の説明図。 識別処理の動作を示すフローチャート。 符号化処理の動作を示すフローチャート。 評価値算出処理の動作を示すフローチャート。 弱分類器選択処理の動作を示すフローチャート。 辞書照合処理の動作を示すフローチャート。 識別結果リストのデータ構造の説明図。 実施形態2における評価値算出処理の動作を示すフローチャート。 実施形態3における参照2点位置リストのデータ構造の説明図。 実施形態3における符号化処理の動作を示すフローチャート。 実施形態3における評価値算出処理の動作を示すフローチャート。 実施形態3における情報処理装置の機能構成を表すブロック図。
以下、添付図面を参照して本発明の実施の形態を詳細に説明する。
<<実施形態1>>
(情報処理装置のハードウェア構成)
図1は本実施形態における情報処理装置のハードウェアの構成例を示すブロック図である。本実施形態における情報処理装置は、CPU101、バス102、出力装置103、入力装置104、メモリ105、及びセンサ107を備える。
CPU101は、中央処理装置であり、プログラムの実行や装置の制御を行なう。出力装置103は、CRTやLCDなどの表示装置であり、処理結果の表示や、入力指示を表示するなどの処理を行うものである。入力装置104は、ユーザからの指示入力などの処理を行うものであり、キーボード、マウスなどの入力装置である。メモリ105は、本実施形態に係る情報処理を実現するプログラムや、データ、学習対象とする参照情報、学習により作成された辞書等を保持する。センサ107は、環境の状態を示すデータを取得する装置であり、例えば、入力情報や参照情報として2次元の輝度画像を用いる場合は対象物体を撮影するカメラがセンサ107となる。後に実施形態2で距離画像を用いる場合の説明をするが、その際には環境の状態を示すデータとして距離データを取得する距離計測計がセンサ107となる。なお、本実施形態では、センサ107を用いて識別対象の入力情報を取得するが、入力情報は例えば外部から入力されるのであってもよい。なお、入力情報を外部から取得する場合は、センサ107を省略してもよい。
(情報処理装置のソフトウェア構成)
図2に、本実施形態に係る情報処理装置のソフトウェア機能構成を表すブロック図を示す。情報処理装置は、弱分類器設定手段111、識別手段112、参照位置設定手段113、符号化手段114、評価値算出手段115、弱分類器選択手段116、辞書照合手段117、及び照合結果集計手段118を備える。各手段についての動作の詳細は後述する。また、情報処理装置は、入力手段119、出力手段120、及び記憶手段121をさらに備える。
なお、これらの各手段は、メモリ105に格納されたプログラムを用いてCPU101による処理により実行されてもよい。この場合のハードウェア構成の例を図3に示す。図3では、便宜上、メモリ105を、第1のメモリ105と第2のメモリ106とに分けて記載している。第1のメモリ105には、上述の各手段に対応するプログラムが格納され、第2のメモリ106には、処理対象の情報、または処理における中間生成情報が格納されている。すなわち、CPU101は、第1のメモリ105に格納された各プログラムを読み込んで、第2のメモリ106に記憶された情報を用いて上述の各手段の機能を実行し、その結果の情報を第2のメモリ106へ格納する。
以下では、図2及び図3の構成に基づいて、本実施形態に係る情報処理装置の動作について説明する。なお、ここでは、便宜上、プログラム等を格納する第1のメモリ105とデータ等を格納する第2のメモリ106の2つのメモリを用意しているが、1つのメモリでこれを実現してもよく、また、3つ以上のメモリを用いてもよい。
(学習過程)
以下、本実施形態における入力情報の識別処理の詳細について説明する。機械学習による識別手法では、参照情報を用いて分類木を学習する学習過程と、入力される入力情報を識別する識別過程の2つの過程が存在する。ここでは、はじめに学習過程を実行する弱分類器設定処理について説明し、そのあとで識別過程を実行する識別処理について説明する。
学習過程については従来の技術と同様のものであるが、参照情報中の複数の参照位置における値から算出される特徴量によって入力情報を分類する手法を説明するために詳しく説明する。
なお、以下では、第2のメモリ106には、参照情報として学習用画像ファイル130が事前に複数格納されているものとする。なお、本実施形態において、画像は単なる輝度画像でなくてもよく、輝度画像に対してエッジ抽出、エッジ強調その他の各種特徴抽出を行って得られる特徴量画像(エッジ強度マップなど)などであってもよい。
ここでは、説明を簡単にするため、識別対象となる参照情報の1つの種別につき1つの画像が格納されているものとするが、1つの参照情報の種別につき複数のバリエーション画像があってもよい。学習用画像ファイル130の各画像には、その参照情報の種別を表す識別情報を関連付けておく。関連付けの方法はどのようなものであってもよいが、ここでは一例として、1から始まり連続するユニークな数字からなる識別子によって参照情報の種別を表し、その識別子を画像ファイル名にするものとする。たとえば、参照情報の種別の識別子が000001であるような参照情報を表すファイルは000001.bmpという名前で格納する。
また、ここでは画像の識別を主として扱うが、画像以外の情報について識別するのであってもよい。その場合、学習用画像ファイル130に代えて、識別対象と同種の情報を参照情報として保持する。すなわち、識別対象の入力情報が例えば音声情報であれば、参照情報も音声情報であり、観測した温度情報であれば、参照情報も温度情報となる。
図4は、本実施形態における分類木の学習過程の動作を説明するためのフローチャートである。以下では、一つの分類木を学習し、分類木134を生成する過程について説明する。後述するように、学習処理では、分類木生成の手順を複数回繰り返し、生成された複数の分類木134を結合して辞書135を生成する。複数の分類木134をまとめて一つの辞書135とする処理については、図8を用いて後に詳細に説明する。
図4の処理において、初めに、弱分類器設定手段111は、識別する参照情報の種別の数、符号化のビット数を設定する(S201)。この設定の方法は、例えば、ユーザが入力装置104から入力して指定してもよく、事前に設定用ファイルを作成しておき、それを読み込むのであってもよい。また、さらに他の設定方法を用いてもよい。以下では、識別する参照情報の種別の数をNid、符号化のビット数をNbと記載する。ビット数Nbは、Nid個の異なる参照情報の種別に対して異なる符号を割り当てられるように十分な大きさの値に設定することが好ましい。すなわち2Nb>Nidとなるような数Nbを設定することが好ましい。
次に、メモリ106中に各種の情報を記憶する領域を確保する(S202)。具体的には、Nbビットからなるバイナリの符号132用のメモリ領域と、符号と種別の対応を表す符号・種別対応テーブル133用のメモリ領域をメモリ106中に確保する。
次に、参照位置設定手段113が、学習画像上の2点の参照位置の組(x1、y1)、(x2、y2)をNb個生成し、それを参照位置のパターンとしてメモリ106の参照2点位置リスト131に格納する(S203)。参照位置設定手段113は、例えば、非特許文献1に記載の技術のような従来の技術と同様に、乱数によって参照点の位置の値を生成する。参照点の位置の値は他の方法を用いて生成してもよい。他の方法としては、例えば画像の中心に近い位置が選ばれやすいように参照点を決定してもよいし、画像の輝度値が高くなる確率が高い位置が選ばれやすいように参照点を決定してもよい。本実施形態ではその方法は限定せず、何らかの方法で参照点位置が設定できるものであればよい。
参照2点位置リスト131は、画像上の画素値または特徴量の値を参照するための特定の2点の参照位置のパターンを表したもので、図5に示すように、(x、y)座標値からなる2点の組をNb個有する配列である。(x1、y1)は画像上の第1の参照位置の画像座標を表し、(x2、y2)は画像上の第2の参照位置の画像座標を表している。x1(b)という表記における(b)は、Nb個ある参照2点位置のうちのb番目のものであることを表している。この参照2点位置リスト131として記憶されている参照位置のパターンは、後述の学習過程及び識別過程の両方で使用される。
続いて、これから学習する参照情報の種別を表す変数である変数idを初期化し、「1」に設定する(S204)。そして、識別する参照情報の種別数Nidを変数idが超えていないかどうか、すなわち、参照情報の全種別について符号化等の処理が完了したか否かを判定する(S205)。超えていなければ(S205でYes)、S206に進み、超えていれば(S205でNo)、S210に進み分類木の出力を行う。
S206では、メモリ106中の画像136として、学習用画像ファイル130の中から変数idに応じた学習用画像を抽出する。本実施形態においては、学習用画像ファイル130は、参照情報の種別を表す数字をファイル名としてメモリに格納している。このため、参照情報の種別の識別子を表す変数idと同じ数字のファイル名をもつ画像ファイルを検索することにより、適切な学習用画像を容易にロードできる。
続いて、符号化手段114が、メモリ106中に格納されている参照2点位置リスト131に従って画像136を符号化し、得られた符号をS202で確保したメモリ106の符号132用の領域に格納する(S207)。符号132は、上述の通り、Nb桁のビットから成るバイナリ符号である。
符号化手段114における符号化処理の動作について、図10を用いて説明する。この処理においては、図4のS201で決定したNb(符号化するビットの桁数)を用いる。値Nbは、例えば、符号化手段114に対して処理の引数として渡される。
符号化手段114は、初めに、符号化するビットの桁数を表す変数bを初期化し、「1」にセットする(S801)。次に、メモリ106中に格納されている参照2点位置リスト131の参照位置のパターンから、画像136において参照すべき参照位置の組を取得する(S802)。すなわち、まず、変数b(b=1、2、…、Nb)に従って、参照2点位置リスト131の参照位置のパターンの中から2点の参照位置の組(x1(b)、y1(b))及び(x2(b)、y2(b))を取り出す。参照2点位置リスト131は、例えば図5のようになっているため、変数bが定まれば2つの参照位置の組が得られる。そして、得られた2つの参照位置について画素値を取得する(S802)。なお、参照情報の種別idに対する画素位置(x、y)における画素値を、IMG(id)[x、y]と表す。すなわち、IMG(id)[x、y]は、参照情報の種別の識別子を表す変数idに対応した学習用画像である画像136について、位置(x、y)における画素の値を表すものである。第1の参照位置に対する画素値をL1、第2の参照位置に対する画素値をL2とすると、それぞれ以下のように表される。
L1=IMG(id)[x1(b)、y1(b)]・・・式(1)
L2=IMG(id)[x2(b)、y2(b)]・・・式(2)
次に、L1及びL2の値に基づいてバイナリ値bit(b)を算出する(S803)。bit(b)は、L1−L2>0の場合に1とし、L1−L2≦0の場合に0とする、バイナリ値を出力する関数である。なお、bit(b)は引数として変数bを直接的に取ってはいないが、変数bによりL1とL2が定まり、出力されるバイナリ値も当然に変数bにより定まるため、変数bの関数として表記している。バイナリ値が算出されると、メモリ106中に確保された符号132の領域におけるビット桁のうち、変数bに対応する桁のバイナリ値を算出されたbit(b)の値に変更する(S804)。
そして、変数bに1を加算し(S805)、全ビット桁分だけの処理が終わったかどうか、すなわち参照2点位置リスト131における参照位置のパターンの全参照位置について、符号化が完了したか否かを判定する(S806)。全ビット桁分だけの符号化が終わった場合(S806でNo)は、処理を終了する。全ビット桁数分の符号化が終わっていない場合(S806でYes)、S802に戻り、上述の処理を繰り返す。上述の符号化処理により、メモリ106中の符号132にはNb桁のバイナリ値がセットされる。
図4に戻り、メモリ106中に格納されている符号132と変数idとを関連付けて、メモリ106中の符号・種別対応テーブル133に記憶する(S208)。符号・種別対応テーブル133の構造を図6に示す。これは符号132に対応するバイナリ符号401と、変数idに対応する参照情報識別子402の組をNid組有するテーブルである。図6にはNb=8の例を示している。このようなテーブルにより、符号132と参照情報の識別子である変数idとを関連付けて記憶する。次に、変数idを1加算し(S209)、S205に戻る。
次に、S210における分類木出力の処理を説明する。S210では、メモリ106に格納されている参照2点位置リスト131と、符号・種別対応テーブル133とをメモリ106中の分類木134に出力するものである。
分類木134のデータ構造を図7に示す。分類木データの冒頭は参照情報種別数501、符号ビット数502、参照2点位置リスト503である。これらには、それぞれ、図4のS201で設定したNid、Nb、及びメモリ106に格納されている参照2点位置リスト131をそのまま格納する。なお、すべての分類木においてNid、Nbが等しい場合には、この2つの情報は辞書135に対して1つだけ格納すればよい。ここでは各分類木ごとにこれらの情報が異なる場合を考慮し、分類木ごとにこれらの情報を格納した例を示す。続く部分は、符号とそれに対応する参照情報の種別を表すテーブルである。このテーブルは、図7に示すように、符号504と参照情報種別ポインタ505の対応テーブルになっている。一つの符号に対して複数の参照情報の種別が対応する可能性があるので、一つの符号と参照情報種別情報506へのポインタとの対応テーブルになっている。符号504の種類はNbビットのバイナリ符号の種類だけあるから、この対応テーブルは2Nb組ある。符号504は0から2Nb−1までのバイナリビットで、昇順にソートされている。
参照情報種別ポインタ505は、符号504に対応する1つ以上の参照情報の識別子が格納されるデータ位置を示すオフセットである。オフセットの関係を図7中のオフセット509の矢印で示す。すなわち、参照2点位置リスト503で表された参照位置のパターンにおいて、ある符号504が得られる参照情報の識別子のリストが、符号・種別対応テーブルにおける参照情報種別ポインタ505で示す位置に格納されている。また、図7において、参照情報種別情報506は、1つ以上の参照情報の識別子を格納するメモリである。オフセット509を読み出すことにより、ある符号504に対応する参照情報種別情報506にアクセスできる。参照情報種別情報506は、参照情報個数507と参照情報識別子508のリストからなる。参照情報識別子508は図6の参照情報識別子402と同様のものである。参照情報識別子508のリストは、参照情報個数507の数だけの参照情報識別子508がリストになって格納される。すなわち、ある符号504に対応する参照情報識別子508を取得したい場合、まず参照情報種別ポインタ505で指定されたオフセットにしたがって、参照情報個数507を読み込み、それに続く参照情報識別子508を取得する。このとき、符号504に対応する参照情報識別子508の個数は参照情報個数507に記憶されているため、当該個数分だけ参照情報識別子508を取得する。これにより、符号504をキーとしてそれに対応する複数の参照情報識別子508のリストを取得することができる。
S210の処理では、メモリ106中に格納されている符号・種別対応テーブル133の内容を解析し、上述のようなデータ構造となるように参照情報種別情報506を構成する。符号504と参照情報の種別との対応関係は図6の符号・種別対応テーブル133に記載されているため、この処理は容易に実行できる。以下、データ末尾まで、符号・種別対応テーブル133にある情報の分だけの参照情報種別情報506が書き出される。
学習処理の過程で、学習用画像ファイル130のすべての画像を符号化しても、すべてのパターンの符号が出現するわけではない。すなわち、一部の符号には対応する参照情報識別子508がないことになる。このような場合、符号・種別対応テーブル133中のバイナリ符号401の中にそのような符号が存在しない。このため、分類木134では、その符号に対応する参照情報識別子508は存在しないことを表すため、参照情報種別ポインタ505の部分にはNULLをセットしておく。以上の処理により、学習用画像ファイル130を学習した分類木134がメモリ106中に記録され、ひとつの分類木を学習する処理が終了する。
先に述べたように、図4を用いて説明した処理は、分類木134を1つだけ学習する処理である。弱分類器設定処理では、複数の参照位置のパターンを用いて複数の分類木134を学習し、複数の分類木を結合して辞書を生成する。以下、その処理を説明する。
まず、複数の分類木134を学習するために、図4で説明した1つの分類木を学習する処理を複数回繰り返す。このとき、繰り返しの処理において、S203における参照2点位置リストの生成において、過去に用いた参照位置のパターンと同じ参照位置のパターンを生成しないようにする。繰返しのたびに異なる参照位置のパターンで符号化を行うことにより、同じ画像136に対して異なる符号132が算出され、結果として異なる分類木134が繰返しの回数分だけ生成される。なお、図3には分類木134用のメモリは1つしか示していないが、複数の分類木134のための記憶領域をメモリ106に確保しておいてもよい。これにより、内容が異なる複数の分類木が生成されるので、これらを結合して一つの辞書135とすることができ、これをメモリ106に記憶する。複数の分類木を結合する方法を以下に示す。
図8に、辞書135のファイルの構造の一例を示す。初めに辞書135に含まれる分類木数601を格納し、つぎにそれぞれの分類木の情報へのオフセット602を格納する。分類木数601は、学習に使用した参照位置のパターンの数である。分類木へのオフセット602は分類木数601の数だけあり、これによってそれぞれの分類木情報603の先頭へのアクセスが可能になる。次に分類木情報603が分類木数601だけ続く。分類木情報603の内容は分類木134の内容と同じものである。以上のようにして、辞書135が生成され、弱判定器学習処理を終了する。
(識別過程)
つぎに、識別過程について説明をする。まず、図9を用いて、識別過程における処理の大まかな流れを説明する。識別過程では、参照2点位置リスト131に基づく参照位置のパターンにしたがって、入力画像137の画素値を取得して符号化処理を行い、得られた符号と辞書135とを照合して識別結果として参照情報の識別子を出力する。ここでは、入力画像137は、識別処理の開始前に例えば外部から取得し、メモリ106に格納されているものとする。例えば、カメラなどのセンサ107によって予め取得した画像を格納しておく。
識別処理が開始されると、まず、評価値算出手段115が評価値算出処理を実行する(S701)。評価値算出処理では、入力画像137に対する、辞書135中に格納されている複数の分類木の評価値138を算出する処理を行う。評価値138の算出処理では、参照2点位置リスト131に基づく複数の参照位置のパターンによって正確な識別ができると考えられる分類木134であるほど、高い評価値138が与えられる。すなわち、評価値138が高い参照位置のパターンに対応する分類木134を識別に用いるのが望ましい。評価値138は、分類木の番号とそれに対応する評価値のペアのリストとしてメモリ106に記憶される。評価値算出処理の詳細は後述する。
続いて、弱分類器選択手段116が弱分類器選択処理を実行する(S702)。なお、ここで言う「弱分類器の選択」とは、上述の分類木134のうち、どれを識別に使用するかを決定することである。弱分類器選択処理は、各分類木の評価結果である評価値138に従って、識別に使用する分類木134を選択し、選択された分類木134の番号を選択分類木リスト139としてメモリ106中に格納する。選択分類木リスト139は、例えば3番目と5番目の分類木が使用されると決定された場合は、「3」と「5」とを含むリストである。弱分類器選択処理の詳細も後述する。
S703以降では、選択分類木リスト139に記録された分類木134を用いて入力画像の識別を行う。まず、辞書135中の分類木134の番号を示す変数tをセットする(S703)。ここでは、選択分類木リスト139のリスト先頭のアイテム(分類木番号)をとりだして変数tにセットし、同時に、選択分類木リスト139のリスト先頭のアイテムをリストから削除する。すなわち、上述の選択分類木リスト139の例では、「3」と「5」が記憶されているため、まずtを「3」にセットし、選択分類木リスト139から「3」を削除する。S704以下では、t番目の分類木の情報にアクセスする。t番目の分類木の情報は、辞書135中の分類木へのオフセット602によってアクセス可能である。分類木の情報は辞書135中の分類木情報603に格納されており、その内容は図7に示す通りである。
S704では、辞書135中のt番目の分類木にアクセスし、参照情報種別数501、符号ビット数502を読み出し、それぞれ変数Nid、Nbに格納する。なお、全ての分類木に対して同一の参照情報種別数と符号ビット数を用いる場合など、これらの情報が辞書135に一つだけ保存されている場合は、その情報にアクセスして変数NidとNbを設定する。
次に、t番目の分類木から参照2点位置リスト503をすべて読み出し、メモリ106中の参照2点位置リスト131に格納する(S705)。続いて、符号化手段114が参照2点位置リスト131の参照位置のパターンに従って、入力画像137の符号化を実行する(S706)。そして、メモリ106中に符号132として格納する。符号化処理は学習過程における符号化処理と同様である。ここでの符号132は、検出のために入力画像を符号化した検出用の符号である。
次に、辞書照合手段117が辞書照合処理を実行する(S707)。辞書照合処理では、得られた検出用の符号132をキーとして辞書135を照合する。辞書照合処理に対しては変数tが引数として与えられる。辞書照合処理についても後述する。
その後、選択分類木リスト139が空になっているかどうか判定をする(S708)。空になっていなければS703に戻り、リスト先頭のアイテム(分類木番号)をtにセットして以下前述とおりの処理を繰り返す。選択分類木リスト139が空になっていれば、照合結果集計手段118が識別結果の集計と識別結果の出力を行う照合結果集計処理を実行する(S709)。照合結果集計処理についても後述する。なお、上述の選択分類木リスト139の例では、この時点でリストに「5」が残っているため、tを「5」にセットして上述の処理を繰り返す。そしてt=5に関して一連の処理が終了すると、選択分類木リスト139は空になっているため、照合結果集計処理に移行する。
以上が識別処理の処理の大まかな流れとなる。以下、評価値算出処理(S701)、弱分類器選択処理(S702)、辞書照合処理(S707)、そして照合結果集計処理(S709)について、順に詳細に説明する。
(評価値算出処理)
評価値算出処理では、辞書135中に格納された複数の分類木(弱分類器)のそれぞれが、入力画像137の識別に対してどの程度有効であるかを評価値138として算出する処理である。本実施形態で用いる弱分類器は、画像の2点の参照点におけるデータ値(例えば画像の輝度値やエッジ強度)の比較結果を特徴量として画像の分類を行うものである。ロバストな特徴量、すなわち誤差に十分な耐性を有する特徴量を得るためには、わずかなノイズで比較結果が変わってしまわないような2点を参照することが望ましい。したがって、参照する2点のデータ値の差が小さい参照点位置よりは、データ値の差が大きい参照点位置を参照して分類する分類木を用いる方が効果的である。このため、本実施形態では、辞書135中の分類木134を得るのに用いた複数の参照位置のパターンによって入力画像137の輝度値を抽出し、当該参照2点位置間の輝度値差が大きいものほど評価値を高くする処理を行い、分類木の評価値を算出する。分類の際に誤分類の原因になるのは輝度差が小さい参照2点位置であるため、ここでは、最小となる輝度差を分類木の評価値とする例を説明する。
図11は、本実施形態における評価値算出処理の動作を説明するためのフローチャートである。初めに、辞書135の分類木数601から分類木の総数を読み出し、変数Ntにセットする(S901)。次に、変数tを初期化し、「1」にセットする(S902)。変数tは分類木の番号を示す変数である。次に、辞書135からt番目の分類木134の符号ビット数502を読み出し、変数Nbにセットする(S903)。なお、符号ビット数502は、分類木134を生成するのに利用した参照2点の組の数である。次に、t番目の分類木134の生成に用いた参照位置のパターンを、分類木134の参照2点位置リスト503から読み出す(S904)。この参照2点位置リスト503は、例えばS903でセットした変数Nbに従って、メモリ106に参照2点位置リスト用の記憶領域を確保して(不図示)、そこに読み出す。
次に、入力画像137に対して、S904で読み出した参照2点位置における輝度値差の絶対値をすべて算出し、その最小値を求める(S905)。具体的には、参照2点位置における輝度値L1及びL2を上述の式(1)及び式(2)に基づいて抽出し、輝度値の絶対値を|L1−L2|として計算する処理を行う。そして、参照2点位置リスト503に含まれるすべてのL1とL2の組において、|L1−L2|の最小値を算出する。
次に、分類木134を示す番号tとS905における算出処理結果である輝度値差最小値とを関連付けて、メモリ106の評価値138にセットする(S906)。評価値138は分類木134を示す番号tと最小輝度値差の値とのペアのリストになる。辞書135中に記録されているすべての分類木に対して上記の処理を行ったかどうかを判定し、すべての分類木による処理結果に対して評価値の算出が行われると(S907でNo)、処理を終了する。
以上のように、本実施形態における評価値算出処理では、最小輝度値差を評価値として用いる。これにより、複数ある分類木のうち、入力画像に対して輝度差が小さくなるような参照位置の組が含まれる参照位置のパターンにより得られたものは、評価値138を低く設定することができる。この評価値138により、参照位置のパターンごとの、入力画像に対する符号が雑音等により0と1が逆転する可能性を示すことができる。すなわち、入力画像に適した参照位置のパターンを選択することが可能となる。なお、評価値138の高い分類木を選択して識別に用いると、当該分類木に対応する参照位置のパターンで入力画像を符号化することとなり、得られる符号が雑音に対する耐性を有する確率が高まる。その結果、識別性能を向上させることが可能となる。
なお、本実施形態では最小輝度値差を評価値としたが、他の評価値を用いてもよい。例えば、参照2点位置での輝度値差絶対値に対する何らかの統計量を評価値にすることも考えられる。たとえばすべての参照2点位置における輝度値差の絶対値の総和を評価値としてもよい。
(弱分類器選択処理)
図12に、弱分類器選択処理の動作を説明するフローチャートを示す。本実施形態の弱分類器選択処理では、評価値算出処理における評価結果に基づいて、すなわち、例えば、評価値138の高いものから1つ以上の一定数だけの、分類木を選択する。初めに、メモリ106中の評価値138をその値でソートする(S1001)。評価値138は分類木134に対応する番号とその分類木134の評価値とのペアのリストであるが、ここでは評価値の値によってソートする。次に、評価値の値でソートされたリストの上位から所定数だけの分類木134を示す番号を選択し、選択された番号を選択分類木リスト139にセットする(S1002)。選択分類木リスト139は分類木番号からなるリストである。所定数は、例えば、ユーザが入力装置104を用いて入力して設定する。また、評価値の閾値を所定値に別途設定し、その所定値以上の評価値を持つ分類木134の番号をすべて、選択分類木リスト139に含めてもよい。この場合、例えばユーザが入力装置104を用いて所定値を入力する。または、事前に評価のための入力画像データを用意し、誤識別が発生しにくい値を学習し、所定値としてもよい。
以上の処理により、評価値算出処理における評価結果に基づいて、辞書135に格納されている複数の分類木134のうち、入力画像を分類するのに適した1つ以上の分類木134が選ばれると共に、その番号が選択分類木リスト139に格納される。
(辞書照合処理)
図13は、辞書照合処理の動作の流れを説明するフローチャートである。本処理では、処理を開始すると、初期的にS703で抽出された番号tを取得する。そして、与えられた変数tに対応する分類木134に対して、入力画像から得られた検出用の符号132に対応する参照情報種別情報506にアクセスする。
具体的には、まず、t番目の分類木に対して検出用の符号132に対応する参照情報種別ポインタ505を辞書135から読み出す(S1101)。変数tに対応する分類木134の情報は、辞書135において、t番目の分類木へのオフセット602を用いてアクセスする。また、参照情報種別情報506へのアクセスは、図7中の符号504の中から検出用の符号132とマッチするものを検索し、それに対応する参照情報種別ポインタ505を得てアクセスする。
次に、S1101で読み出した参照情報種別ポインタ505がNULLかどうかを判定する(S1102)。NULLである場合(S1102でYes)、この検出用の符号132に対する学習画像が学習時に与えられなかったことが分かるため処理を終了する。NULLでない場合(S1102でNo)、S1101で読み出した参照情報種別ポインタを用いて辞書135から参照情報個数507を読み出し、変数Npにセットする(S1103)。次に、検出用の符号132をキーとして辞書照合をして得られた参照情報識別子に与える識別得点を算出する(S1104)。識別得点の算出方法はさまざまな方法があり得るが、例えば、以下の式(3)によりPとして算出する。
P=a/Np・・・式(3)
ここで、変数aは検出用の符号132にマッチした参照情報識別子に与えられる総得点で例えば1.0点とし、Npは検出用の符号132にマッチした参照情報種別の個数である。Npは図7の参照情報個数507でありS1103で辞書から読み出したものである。上記の例は、a=1.0ポイントの得点を、検出用の符号132にマッチした複数の参照情報識別子に対して均等な重み付けで分配したものといえる。この分配によれば、同一の検出用の符号132に対応する参照情報の数が多く不定性が高いものについては識別得点を低くする。さらに、検出用の符号132に対応する参照情報の数が少なく、例えば1つの参照情報のみが対応する場合などで検出用の符号132が当該参照情報の特徴を強く示す場合などは、場合は得点を高くする。これにより、複数の参照情報に共通的に現れる特徴が識別性能へ強く影響することを防ぎ、特定の参照情報にのみ現れる特徴が識別性能へ強く影響するようにすることで、識別性能を向上させることができる。
なお、識別得点Pの算出は他の方法によって行われてもよい。たとえば、上記変数aには、辞書照合に使用した分類木の評価値から算出される値を与えてもよい。簡単には、評価値そのものを与えてもよい。そのようにすれば、評価値の高い分類木によって辞書とマッチした識別結果に対して高い得点を付けることが可能になる。そうすることにより、高い評価値を持つ分類木による辞書照合結果をより信頼する識別結果を算出することができる。
次に、Np個ある参照情報識別子508の順番を表す変数iを1にセットする(S1105)。次に、i番目の参照情報識別子508を読み出し、S1104で算出した識別得点Pとペアにして識別結果リスト140としてメモリ106に記憶させる(S1106)。識別結果リスト140のデータ構造を図14に示す。識別結果リスト140は、参照情報識別子1301と、入力画像に対するその識別子に対応する識別得点1302がペアで記載されたリストである。ここで、S1104で識別得点が計算された参照情報識別子508が識別結果リスト140中になかった場合には、識別結果リスト140に当該参照情報識別子508と識別得点Pの組を新規追加する。S1104で識別得点が計算された参照情報識別子508がすでに識別結果リスト140中に記憶されていた場合には、識別結果リスト140中の当該識別子に対応する識別得点にS1104で計算した識別得点Pを加算する。
続いて、変数iが変数Npを超えたかどうかを判定し(S1107)、超えていなければ(S1107でNo)、検出用の符号132に辞書照合マッチした参照情報識別子がまだ存在するので、S1108でiを1加算してS906に戻る。変数iが変数Np以上となった場合(S1107でYes)、処理を終了する。
以上で、辞書照合処理の動作の説明を終える。図9のS703からS707までの繰り返しにおいて、以上説明した辞書照合処理が繰り返し実行される。複数の分類木によって検出用の符号132が識別得点化されて参照情報識別子ごとに識別得点として加算され、識別結果リスト140に記録される。
(照合結果集計処理)
照合結果集計処理では、辞書照合処理においてメモリ106中に格納された識別結果リスト140を集計する。処理の一例としては、識別結果リスト140を識別得点1302の高い順でソートし、識別得点の高い1つ以上の参照情報識別子を図3の出力装置103(たとえばCRT)に表示出力する。
また、他の例として、識別得点1302の値に対して別途定めた閾値以上の上位複数を出力してもよいし、識別得点1302の分布に応じて適応的に閾値を決めて上位複数を出力してもよいし、最上位の1つだけを出力してもよい。また、識別結果(参照情報識別子)の出力先も、出力装置103に限るものではなく、不図示の他の装置や別のプログラムに対する出力としてもよい。以上で、照合結果集計処理についての説明を終える。
上記のような構成により、入力画像137に対して有効な参照位置のパターンを選択して、当該参照位置のパターンに対応する分類木を用いて識別を行うことにより、識別のロバスト性を向上できる。
<<実施形態2>>
実施形態1では、識別対象の参照情報として輝度画像を扱う例を説明したが、本実施形態では距離画像を用いて識別を行う場合について説明する。距離画像は、カメラから撮影対象までの距離を画像として表現したものである。距離画像を生成するための距離計測方法は多数知られており、代表的なものとして光切断法、ステレオ法などがある。
それぞれの距離計測方法において、距離を計測するとともに計測された距離の値の信頼度を距離画像の画素点ごとに定義することが可能である。例えば、特許文献1には、光切断法において、投光したスリット光の反射光の受信レベルの大小によって、距離画像の画素点ごとに距離値の信頼度が算出できることが記載されている。また、特許文献2には、ステレオ法において、複数画像間の対応する小領域の相関の状態を調べることによって、距離画像の画素点ごとに距離値の信頼度が算出できることが記載されている。
実施形態2における処理の流れは、おおむね実施形態1の処理と同じであるが、入力画像として距離画像を取り扱うことと、評価値算出処理で入力データ値の信頼度を用いて算出する点が異なる。以下その2点に関して説明する。
まず、入力画像が距離画像である点について説明する。距離計測装置を用いて距離画像を生成する方法は従来から知られている。本実施形態の構成においては、図1に示す実施形態1の構成のセンサ107として、従来技術による距離計測装置を加えることにより、環境の状態を示すデータとして距離画像を取得することができる。また、取り扱う画像としては距離画像を用いることになるが、2次元位置(x、y)でデータ値にアクセスできるという点では輝度画像と同様であり、実施形態1における輝度画像(濃淡画像)と同様に扱ってよい。ただし、図3の学習用画像ファイル130、画像136、入力画像137が距離画像となる。また、実施形態1では、符号化処理において参照2点位置における画素値の比較を行うが、本実施形態2においても距離画像における参照2点位置の画素値(距離画像では距離値になる)を比較して、符号化処理を行う。
また、上述の特許文献1及び2の従来技術によって、入力画像137として距離画像を取得する際に、距離画像の各画素(距離値)とその信頼度とを対応づけた信頼度マップを作成することができる。信頼度マップとは、たとえば距離画像の縦横幅と同じサイズで値が距離値の信頼度であるような2次元配列として信頼度値を表現したものである。このマップによって、距離画像上の参照位置が与えられればその参照位置における距離値の信頼度値が得られる。距離値の信頼度マップ(不図示)は、入力画像137として距離画像を取得した際に作成し、メモリ106に格納しておくものとする。
次に、実施形態2における評価値算出処理について説明する。図15は実施形態2における評価値算出処理の動作を説明するフローチャートである。
初めに、辞書135の分類木数601から分類木の総数を読み出し、変数Ntにセットする(S1201)。次に、分類木の番号を示す変数tを初期化して「1」に設定する(S1202)。続いて、辞書135からt番目の分類木134の符号ビット数502を読み出し、変数Nbにセットする(S1203)。次に、t番目の分類木134の参照2点位置リスト503を読み出す(S1204)。続いて、メモリ106中にある距離値の信頼度マップに対して、S1204で読み出した参照2点位置リスト503に含まれるすべての参照位置における信頼度値を読み出し、読み出した信頼度値の中から最小値を抽出する(S1205)。次に、メモリ106の評価値138に、分類木番号tとS1205で算出した最小信頼度の値とをセットする(S1206)。評価値138は分類木の番号tと、S1205で算出した最小信頼度の値とのペアのリストになる。続いて、辞書135中に記録されているすべての分類木に対して上記の処理を行ったかどうかを判定し(S1207)、すべての分類木に対して評価値の算出が行われれば(S1207でNo)処理を終了する。
なお、本実施形態では、分類木の選択においては参照2点位置における各点の信頼度を参照するのみであり、その比較は行わない。一方、分類処理においては、画素値(距離値)を比較した結果の分類木を用いる。すなわち、信頼度は分類木の選択においてのみ利用される。また、このため、信頼度のデータは入力画像に含まれていればよく、参照情報については、距離値のみを記憶しておいてもよい。
以上により、入力距離画像に対して信頼度値が小さい参照位置を含む参照位置のパターンについて、分類木の評価値を低く設定することができる。上述の例では最小信頼度値を評価値としたが、他の評価値も考えられる。例えば、参照2点位置での信頼度値に対する何らかの統計量を評価値にすることも考えられる。たとえば信頼度値の総和を評価値としてもよい。
なお、本実施形態のような構成では、入力情報の各データ値に対して信頼度が与えられる場合、入力データの信頼度から符号の各桁の信頼度を算出することができる。これにより、信頼度の低い桁については識別に使用しないようにしてもよい。
<<実施形態3>>
実施形態1では輝度画像に対する処理を、実施形態2では距離画像に対する処理を説明した。本実施形態では、入力情報として複数のセンサによる複数種類のデータが同時に得られる場合の処理について説明する。
図19は、本実施形態における情報処理装置の機能構成を表すブロック図である。実施形態1に係る図1と比して、第2センサ108が追加されている点が異なる。これらのセンサは、例えば、センサ107が実施形態1で説明したような輝度画像を撮影するカメラであり、第2センサ108が実施形態2で説明したような距離画像を撮影する距離計測装置である。なお、ここではセンサが2種類ある場合の説明をするが、センサを3つ以上含む構成でも同様である。
識別対象の情報は、ある物体を通常のカメラによって撮影した輝度画像と、同じ物体を距離計測装置によって計測して得た距離画像の2種類のデータからなるとする。すなわち、図19における学習用画像ファイル130、画像136、入力画像137は、輝度画像とそれに対応する距離画像とがペアで格納されているとする。なお、本実施形態では、説明を簡単にするため輝度画像と距離画像の画像サイズは同じであるとする。
まず、本実施形態における弱分類器設定処理の動作に関し、実施形態1との相違点について、図4を用いて説明する。S203で参照2点位置リストを生成する際、本実施形態では参照2点位置それぞれについてデータ種別を定める。どの参照2点位置がどちらのデータ種別を参照するかの方法については特に制限はなく、ランダムに決めてもよいし、それぞれのデータの状態に応じて決めてもよい。本実施形態における参照2点位置リスト131の例を図16に示す。図16のd(1)〜d(Nb)はデータ種別を表す。本実施形態ではデータ種別は輝度画像か距離画像かの2種類であるため、データ種別は1ビットで表すことができる。例えば輝度画像なら0、距離画像なら1、などとする。また、本実施形態におけるメモリ106中の分類木134のデータ構造は、図7の参照2点位置リスト503の部分が図16に示した参照2点位置リスト131と同様となる。すなわち、参照2点位置リスト503の参照2点位置のそれぞれに、データ種別をあらわすデータが記録される。なお、本実施形態では、図4のS206で学習用の画像をロードする際、複数の種別のデータをすべてロードする。すなわち、輝度画像も距離画像もロードし、アクセスできるようにする。
次に、本実施形態における符号化処理について、図17を用いて説明する。図17の各ステップは、S1502にあたる処理以外は図10におけるS801〜S806と同様であるため、S1502以外のステップについては説明を省略する。S1502では、メモリ106中に格納されている参照2点位置リスト131に記載されているデータ種別(図16参照)に従って画素を参照する。たとえばN番目の参照2点位置のデータ種別d(N)が0なら輝度画像のデータ値を、1なら距離画像のデータ値を、参照2点位置にしたがってアクセスする。
次に、本実施形態における識別処理について、実施形態1との相違点を図7を用いて説明する。本実施形態では、図9のS705において、辞書から参照2点位置を読み出す際に図16に示したデータ種別も読み出し、メモリ106中の参照2点位置リスト131に格納する。S706では、本実施形態における符号化処理に基づいて符号化を実行する。すなわち、参照2点位置に設定されたデータ種別に従ってデータにアクセスし、その値に従って符号を生成する。これは本実施形態における符号化処理の説明で述べたとおりである。
次に、本実施形態における評価値算出処理について説明する。本実施形態では、扱うデータ種別が2つあるので、2つの評価値算出方法を備え、参照先のデータ種別に応じて評価値算出基準を切り替えることを特徴としている。本実施形態で説明する例では輝度値データと距離値データを扱うので、実施形態1で説明した輝度値差の絶対値を基準とした評価値と、実施形態2で説明した距離値の信頼度値を基準とした評価値を使うこととする。なお、以下の説明を簡単にするために、輝度画像における輝度値差の絶対値、及び、距離画像における距離値の信頼度値は、どちらも値域が同じ(最大・最小値が同じ)であり、互いに値が比較できるものとしている。
図18は、実施形態3における評価値算出処理の動作を説明するフローチャートである。これは実施形態1における評価値算出処理の動作を説明したフローチャート図11と類似のものである。S1601からS1603までは図11におけるS901からS903における処理と同様であるため、説明を省略する。
S1604では、図11のS904と同様に、t番目の分類木の参照2点位置を読み出す。ただし、本実施形態においては、辞書の参照2点位置リストにはデータ種別を示すデータも格納されている。参照2点位置リスト503のデータ構造は図16に示す通りである。すなわち、ここでは参照2点の位置に加えてそのデータ種別も読み出される。
次に、入力画像137に対して、S1604で読み出した参照2点位置のうち、データ種別が輝度画像と設定されている全ての参照2点位置について、輝度画像にアクセスして輝度値差の絶対値を算出し、その最小値を求める(S1605)。続いて、入力画像137に対して、S1604で読み出した参照2点位置のうち、データ種別が距離画像と設定されている全ての参照2点位置について、信頼度マップ(不図示)にアクセスし、信頼度値を得て、その最小値を求める(S1606)。
次に、S1605およびS1606で算出した最小輝度差および最小信頼度値のうちの小さいほうを、分類木番号tとともに、メモリ106の評価値138にセットする(S1607)。前述したように、ここでは説明を簡単にするために輝度値差と信頼度値を直接比較しているが、双方の値に何らかの重みを付けて比較してもよい。本実施形態では双方の評価値の優劣を比較するための方法は限定しない。続いて、辞書135中に記録されているすべての分類木に対して上記の処理を行ったかどうかを判定し(S1608)、すべての分類木に対して評価値の算出が行われれば(S1608でNo)、処理を終了する。
ここで説明した以外の処理については、実施形態1と同様である。以上、第3の実施形態について説明した。なお、図4のS203で参照2点位置リストを生成する際、参照2点位置それぞれについてデータ種別を定めたが、一つの分類木に設定する参照2点位置はすべて同じデータ種別に設定してもよい。分類木ごとに使用するデータ種別を分けることで、どちらか一方のデータ種別を使った分類が難しいような入力データに対しても、もう一方のデータ種別だけを用いて精度よく分類を行うことができる。本実施形態によれば、例えば、距離値の信頼度が低い領域が多い入力データに対しては距離画像ではなく輝度画像で分類する分類木が自動的に多く使われてもよい。輝度画像のコントラストが低く輝度差がある領域が少ない場合には輝度画像ではなく距離画像による分類木が自動的に多く選ばれてもよい。
本実施形態の特徴は、データ種別ごとの入力データだけを評価して使用するデータ種別を決定するのではなく、入力データの種別とそれに対する分類木の参照位置の組み合わせで分類木を評価している点である。たとえば、距離画像として距離値信頼度の高い部分が少ない、いわば総じて質の良くない距離データが入力された場合でも、距離画像に対する参照2点位置での距離値信頼度が高い分類木であれば距離画像に対する分類木も選ばれうる。その点で、距離画像全体の信頼度だけを評価して距離画像を使うかどうか判定するような処理とは異なる。
<<その他の実施形態>>
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。

Claims (17)

  1. 情報処理装置であって、
    学習過程において、入力情報を分類するのに用いられるべき、参照位置パターンを複数個取得する第1の取得手段と、
    入力情報を取得する第2の取得手段と、
    識別過程において、前記学習過程で取得された複数の参照位置パターンのそれぞれに従った各データを、前記入力情報から抽出する抽出手段と、
    前記抽出手段によって抽出された各データを評価する評価手段と、
    前記評価手段による評価の結果に基づいて、前記入力情報の分類に使用する参照位置パターンを、前記学習過程で取得された前記複数の参照位置パターンから、選択する選択手段と、
    前記入力情報における、前記選択された参照位置パターンに基づいて取得された特徴量を用いて、前記入力情報の分類を実行する実行手段と、
    を有することを特徴とする情報処理装置。
  2. 前記参照位置パターンは、2点の参照位置の組であり、
    前記選択手段は、前記参照位置の組における入力情報の2点のデータの値の差の大きさに基づいて、複数の参照位置パターンから、前記入力情報の分類に使用する参照位置パターンを選択することを特徴とする請求項1に記載の情報処理装置。
  3. 前記参照位置の組における、入力情報の2点のデータの値の差の大きさの最小値を、前記複数の参照位置パターンのそれぞれについて算出する算出手段をさらに有し、
    前記選択手段は、前記最小値が所定値より大きい参照位置パターンを、前記入力情報の分類に使用する参照位置パターンとして選択することを特徴とする請求項2に記載の情報処理装置。
  4. 前記参照位置の組における、入力情報の2点のデータの値の差の大きさの最小値を、前記複数の参照位置パターンのそれぞれについて算出する算出手段をさらに有し、
    前記選択手段は、前記最小値が大きい順に所定数の参照位置パターンを、前記入力情報の分類に使用する参照位置パターンとして選択することを特徴とする請求項2に記載の情報処理装置。
  5. 前記参照位置の組における、入力情報の2点のデータの値の差の大きさの総和を、前記複数の参照位置パターンのそれぞれについて算出する算出手段をさらに有し、
    前記選択手段は、前記総和が所定値より大きい参照位置パターンを、前記入力情報の分類に使用する参照位置パターンとして選択することを特徴とする請求項2に記載の情報処理装置。
  6. 前記参照位置の組における、入力情報の2点のデータの値の差の大きさの総和を、前記複数の参照位置パターンのそれぞれについて算出する算出手段をさらに有し、
    前記選択手段は、前記総和が大きい順に所定数の参照位置パターンを、前記入力情報の分類に使用する参照位置パターンとして選択することを特徴とする請求項2に記載の情報処理装置。
  7. 前記入力情報は、前記データに対応する信頼度のデータを含み、
    前記抽出手段は、前記複数の参照位置パターンのそれぞれにしたがって、前記信頼度のデータを抽出し、
    前記評価手段は、抽出された前記信頼度の値に基づいて、前記抽出手段によって抽出された各データを評価し、
    前記選択手段は、抽出された前記信頼度の値に基づいて、前記入力情報の分類に使用する参照位置パターンを選択することを特徴とする請求項1に記載の情報処理装置。
  8. 前記複数の参照位置パターンのそれぞれに対して、前記信頼度の値の最小値を算出する算出手段をさらに有し、
    前記選択手段は、前記最小値が所定値より大きい参照位置パターンを、前記入力情報の分類に使用する参照位置パターンとして選択することを特徴とする請求項7に記載の情報処理装置。
  9. 前記複数の参照位置パターンのそれぞれに対して、前記信頼度の値の最小値を算出する算出手段をさらに有し、
    前記選択手段は、前記最小値が大きい順に所定数の前記参照位置パターンを、前記入力情報の分類に使用する参照位置パターンとして選択することを特徴とする請求項7に記載の情報処理装置。
  10. 前記複数の参照位置パターンのそれぞれに対して、前記信頼度の値の総和を算出する算出手段をさらに有し、
    前記選択手段は、前記総和が所定値より大きい参照位置パターンを、前記入力情報の分類に使用する参照位置パターンとして選択することを特徴とする請求項7に記載の情報処理装置。
  11. 前記複数の参照位置パターンのそれぞれに対して、前記信頼度の値の総和を算出する算出手段をさらに有し、
    前記選択手段は、前記総和が最も大きい順に所定数の前記参照位置パターンを、前記入力情報の分類に使用する参照位置パターンとして選択することを特徴とする請求項7に記載の情報処理装置。
  12. 前記入力情報は画像であり、前記抽出手段は、前記入力情報として入力された前記画像の画素値を抽出する、ことを特徴とする請求項1に記載の情報処理装置。
  13. 前記画素値は輝度値である、ことを特徴とする請求項12に記載の情報処理装置。
  14. 学習過程において、複数の弱分類器を設定する設定手段と、
    識別過程において、入力情報の中の複数の参照位置におけるデータの値に対する前記複数の弱分類器のそれぞれの処理結果を評価する評価手段と、
    前記評価手段による評価結果に基づいて前記学習過程で設定された前記複数の弱分類器のうちの1つを選択する選択手段と、
    前記選択手段により選択された弱分類器を用いて前記入力情報の分類を実行する実行手段と、
    を有することを特徴とする情報処理装置。
  15. 情報処理装置における情報処理方法であって、
    第1の取得手段が、学習過程において、入力情報を分類するのに用いられるべき、参照位置パターンを複数個取得する第1の取得工程と、
    第2の取得手段が、入力情報を取得する第2の取得工程と、
    抽出手段が、識別過程において、前記学習過程で取得された複数の参照位置パターンのそれぞれに従った各データを、前記入力情報から抽出する抽出工程と、
    評価手段が、前記抽出工程において抽出された各データを評価する評価工程と、
    選択手段が、前記評価工程における評価の結果に基づいて、前記入力情報の分類に使用する参照位置パターンを、前記学習過程で取得された前記複数の参照位置パターンから、選択する選択工程と、
    実行手段が、前記入力情報における、前記選択された参照位置パターンに基づいて取得された特徴量を用いて、前記入力情報の分類を実行する実行工程と、
    を有することを特徴とする情報処理方法。
  16. 情報処理装置における情報処理方法であって、
    設定手段が、学習過程において、複数の弱分類器を設定する設定工程と、
    評価手段が、識別過程において、入力情報の中の複数の参照位置におけるデータの値に対する前記複数の弱分類器のそれぞれの処理結果を評価する評価工程と、
    選択手段が、前記評価手段による評価結果に基づいて前記学習過程で設定された前記複数の弱分類器のうちの1つを選択する選択工程と、
    実行手段が、前記選択手段により選択された弱分類器を用いて前記入力情報の分類を実行する実行工程と、
    を有することを特徴とする情報処理方法。
  17. コンピュータを請求項1から14のいずれか1項に記載の情報処理装置が有する各手段として機能させるためのプログラム。
JP2011264118A 2011-12-01 2011-12-01 情報処理装置、情報処理方法、及びプログラム Expired - Fee Related JP5841418B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2011264118A JP5841418B2 (ja) 2011-12-01 2011-12-01 情報処理装置、情報処理方法、及びプログラム
US13/684,894 US9008437B2 (en) 2011-12-01 2012-11-26 Information processing apparatus, information processing method and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011264118A JP5841418B2 (ja) 2011-12-01 2011-12-01 情報処理装置、情報処理方法、及びプログラム

Publications (3)

Publication Number Publication Date
JP2013117793A JP2013117793A (ja) 2013-06-13
JP2013117793A5 JP2013117793A5 (ja) 2015-01-15
JP5841418B2 true JP5841418B2 (ja) 2016-01-13

Family

ID=48524054

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011264118A Expired - Fee Related JP5841418B2 (ja) 2011-12-01 2011-12-01 情報処理装置、情報処理方法、及びプログラム

Country Status (2)

Country Link
US (1) US9008437B2 (ja)
JP (1) JP5841418B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6871807B2 (ja) * 2017-05-31 2021-05-12 株式会社Screenホールディングス 分類器構築方法、分類器および分類器構築装置

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2742192B2 (ja) 1993-02-04 1998-04-22 日本電信電話株式会社 経路算出装置
DE69426714T2 (de) 1993-06-30 2001-08-02 Canon K.K., Tokio/Tokyo Dokumentverarbeitungsverfahren und Gerät
JP3367170B2 (ja) 1993-11-05 2003-01-14 株式会社豊田中央研究所 障害物検出装置
JPH09138471A (ja) * 1995-09-13 1997-05-27 Fuji Photo Film Co Ltd 特定形状領域の抽出方法、特定領域の抽出方法及び複写条件決定方法
EP1025517A1 (en) * 1997-10-27 2000-08-09 Massachusetts Institute Of Technology Image search and retrieval system
EP0930585B1 (en) * 1998-01-14 2004-03-31 Canon Kabushiki Kaisha Image processing apparatus
US6233353B1 (en) * 1998-06-29 2001-05-15 Xerox Corporation System for segmenting line drawings from text within a binary digital image
JP3639475B2 (ja) * 1999-10-04 2005-04-20 シャープ株式会社 3次元モデル生成装置および3次元モデル生成方法ならびに3次元モデル生成プログラムを記録した記録媒体
US7007002B2 (en) 2001-05-31 2006-02-28 Canon Kabushiki Kaisha Signal processing circuit involving local synchronous behavior
US7298903B2 (en) * 2001-06-28 2007-11-20 Microsoft Corporation Method and system for separating text and drawings in digital ink
US20040196489A1 (en) * 2003-04-07 2004-10-07 Kia Silverbrook Coupon redemption
JP2005151282A (ja) * 2003-11-18 2005-06-09 Fuji Xerox Co Ltd 画像処理装置、画像処理方法、およびプログラム
EP1754201A1 (en) 2004-05-27 2007-02-21 Canon Kabushiki Kaisha Information processing method, information processing apparatus, and image sensing apparatus
JP4640825B2 (ja) * 2006-02-23 2011-03-02 富士フイルム株式会社 特定向き顔判定方法および装置並びにプログラム
JP2008102907A (ja) * 2006-09-19 2008-05-01 Sharp Corp 画像処理方法、画像処理装置、原稿読取装置、画像形成装置、コンピュータプログラム及び記録媒体
US8320683B2 (en) * 2007-02-13 2012-11-27 Sharp Kabushiki Kaisha Image processing method, image processing apparatus, image reading apparatus, and image forming apparatus
JP4479756B2 (ja) * 2007-07-05 2010-06-09 ソニー株式会社 画像処理装置及び画像処理方法、並びにコンピュータ・プログラム
US8254669B2 (en) * 2007-09-19 2012-08-28 Ricoh Company, Ltd. Data processing apparatus, computer program product, and data processing method for predicting an optimum function based on a case database and image feature values calculated by a feature-value calculating unit

Also Published As

Publication number Publication date
US20130142434A1 (en) 2013-06-06
US9008437B2 (en) 2015-04-14
JP2013117793A (ja) 2013-06-13

Similar Documents

Publication Publication Date Title
US9819677B2 (en) Supplementing biometric identification with device identification
US10127199B2 (en) Automatic measure of visual similarity between fonts
TWI321294B (en) Method and device for determining at least one recognition candidate for a handwritten pattern
JP5725918B2 (ja) 情報処理方法及び情報処理装置
JP3445394B2 (ja) 少なくとも二つのイメージセクションの比較方法
US9842279B2 (en) Data processing method for learning discriminator, and data processing apparatus therefor
JP6211407B2 (ja) 画像検索システム、画像検索装置、検索サーバ装置、画像検索方法、及び画像検索プログラム
JP5240082B2 (ja) 生体認証装置、認証精度評価装置及び生体認証方法
JP2017102906A (ja) 情報処理装置、情報処理方法及びプログラム
JP6128910B2 (ja) 学習装置、学習方法及びプログラム
KR102111858B1 (ko) 기계학습을 이용한 획 기반 수기 서명 인증 방법 및 시스템
JP5777390B2 (ja) 情報処理方法及び装置、パターン識別方法及び装置
JP2008243208A (ja) 住所認識装置
US8934716B2 (en) Method and apparatus for sequencing off-line character from natural scene
JP4570995B2 (ja) マッチング方法およびマッチング装置ならびにプログラム
JP2015225410A (ja) 認識装置、方法及びプログラム
US20200394460A1 (en) Image analysis device, image analysis method, and image analysis program
JP5841418B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP5865043B2 (ja) 情報処理装置、情報処理方法
WO2020183807A1 (ja) 情報処理方法、および、情報処理システム
US11663816B2 (en) Apparatus and method for classifying attribute of image object
Meena et al. Hybrid neural network architecture for multi-label object recognition using feature fusion
JP2009259190A (ja) 文字認識プログラムおよび文字認識装置
KR20210137808A (ko) 단어 추출 장치 및 방법
JP4575356B2 (ja) アイデンティティのチェックのためのシステム、コンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141125

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20141125

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150730

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150810

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150925

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151016

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151113

R151 Written notification of patent or utility model registration

Ref document number: 5841418

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees