JP2017117025A - パターン識別方法及びその装置、そのプログラム - Google Patents

パターン識別方法及びその装置、そのプログラム Download PDF

Info

Publication number
JP2017117025A
JP2017117025A JP2015249148A JP2015249148A JP2017117025A JP 2017117025 A JP2017117025 A JP 2017117025A JP 2015249148 A JP2015249148 A JP 2015249148A JP 2015249148 A JP2015249148 A JP 2015249148A JP 2017117025 A JP2017117025 A JP 2017117025A
Authority
JP
Japan
Prior art keywords
information
pattern
component
identification
category
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2015249148A
Other languages
English (en)
Inventor
俊太 舘
Shunta Tachi
俊太 舘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2015249148A priority Critical patent/JP2017117025A/ja
Publication of JP2017117025A publication Critical patent/JP2017117025A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Image Analysis (AREA)

Abstract

【課題】従来のパターン識別の方法においては入力パターンの構成要素の第一の情報と第二の情報とを個別に抽出するため、必要となる処理の計算量や記憶容量が大きい。
【解決手段】入力パターンを複数の構成要素に分割する構成要素分割工程と、構成要素自体に関する第一の情報の抽出工程と、構成要素間の関係性に関する第二の情報の抽出工程と、前記二つの情報に基づいて構成要素を識別する構成要素識別処理工程と、からなり、前記第一の情報と前記第二の情報を、共通する識別器によって事例学習的な方法で同時に抽出する。
【選択図】図1

Description

本発明は、予め学習したパターン情報に基づいて入力パターンを識別するパターン識別の方法及び装置に関する。ここでいうパターン情報は静止画・動画・音声信号・文書データなど何でもよい。具体的な例としては静止画を入力パターン情報とし、撮影された物体の名称・カテゴリー・位置や姿勢などの情報を識別する形態が挙げられる。この形態のパターン識別対象としてはたとえば、人物・顔・工業製品の部品・基板・自動車・生体の組織など様々なものが挙げられる。
従来のパターン識別の手法として、入力パターンを局所的な構成要素に分割して構成要素ごとに属性を判定する方法がある。しかし局所的な情報のみでは識別が困難な事例も多く存在する。そこで、(1)入力パターンを構成要素に分割し、(2)構成要素の属性に関する第一の情報と(3)構成要素間の関係性に関する第二の情報とを抽出し、(4)上記二つの情報に基づいて構成要素を認識することで、入力パターン全体を認識する方法が広く用いられる。特に画像認識分野における領域分割のようなタスクでは前記のような方法が広く用いられる。また画像認識以外に自然言語処理などにも用いられる。上記方法の代表的な手法には条件付確率場がある(非特許文献1参照)。
J. Shotton, J. Winn, C. Rother, and A. Criminisi, "TextonBoost: Joint Appearance, Shape and Context Modeling for Multi-Class Object Recognition and Segmentation," Proc.of 9th European Conference on Computer Vision, 2006
非特許文献1のような従来の方法においては、(1)入力画像の局所領域を構成要素とし、(2)色やテクスチャの特徴から構成要素がいずれのカテゴリーに属するかの尤度を求め(第一の情報)、(3)構成要素間の画像上の距離や色空間上の距離で構成要素間の近接性・類似性を測り(第二の情報)、(4)カテゴリーの尤度が高く、且つ近接する要素間のカテゴリーの不連続性が小さくなるように各要素のカテゴリーを決定して最終的な識別結果を得ている。
しかしながら、このような従来のパターン識別の方法においては次のような課題がある。すなわち、第一の情報のみを用いるパターン識別方法に比べると必要な計算の規模や記憶容量が大きい。また非特許文献1のような従来の方法では、第二の情報を機械的に求めるので、第二の情報の推定精度が高くない場合がある。
本発明は、上記従来の課題を解決するものであり、従来の方法よりも少ないか同等の計算規模で第一の情報と第二の情報を学習的に推定し、より高精度なパターン識別を行うパターン識別装置を提供することを目的とする。
上記の目的を達成するために、本発明の一形態に係るパターン識別方法は、
入力パターンのデータを取得するデータ入力部と、入力パターンを複数の構成要素に分割する構成要素分割部と、前記構成要素の情報を抽出する第一・第二の情報抽出処理部と、前記二つの情報に基づいて前記構成要素を識別する構成要素識別処理部と、前記識別の結果を統合して出力するデータ出力部とを備え、前記第一・第二の情報抽出処理部は前記構成要素自体に関する第一の情報と前記構成要素間の関係性に関する第二の情報とを共通する一つの処理部によって同時に処理することを特徴とする。
このように本発明に係るパターン識別装置は前記第一の情報と第二の情報とを共通する一つの処理モジュールで一度に抽出するため、従来よりも小さな計算コストでパターンを識別することができる。また従来の方法と異なり上記第二の情報の抽出を事例データに基づいて学習的に行うことができる。そのため事例データに基づかずに第二の情報抽出を行う従来のパターン識別装置よりも、より精度高くパターンを識別することができる。
また、本発明の別の一形態に係るパターン識別方法は、前記構成要素の情報を抽出する際に使用するパラメータが事例データに基づいてあらかじめ学習的に決定してあることを特徴とする。
また、本発明の別の一形態に係るパターン識別方法は、前記第一・第二の情報抽出処理工程と前記構成要素識別処理工程とを繰り返して行うことを特徴とする。
本発明に係るパターン識別方法によれば、従来の方法よりも、計算時間、メモリー量、もしくはハードウェアで実現したときの回路の規模、などの点についてより小さいコストでパターン識別を行うことができる。また同等のコストであれば識別精度をより向上させることを可能とする。
本発明に係るパターン識別装置の実施形態の基本構成の図である。 第一の実施形態に係るパターン識別装置の機能構成を示す図である。 第一の実施形態における処理の流れを示すフローチャートである。 入力画像を局所領域に分割した結果を示す模式図である。 決定木によるパターン識別の動作結果を示す模式図である。 領域情報の抽出結果の例を示す模式図である 第二の実施形態に係るパターン識別装置の機能構成を示す図である。 第二の実施形態における処理の流れを示すフローチャートである。 第三の実施形態における処理の流れを示すフローチャートである。 第三の実施形態における識別器の構成の例を示す模式図である。 第三の実施形態の動作の結果の例を示す図である。 カテゴリーを階層クラスタリングした結果の例である。 第四の実施形態における処理の流れを示すフローチャートである。 RBMの構成の例を示す図である。 近接度の算出処理の派生の形態の例を示す模式図である。 近接度の算出処理の模式図である。 第五の実施形態に係るパターン識別装置の機能構成を示す図である。 第五の実施形態における処理の流れを示すフローチャートである。 スーパーピクセルを生成する処理の流れと結果を示す例である。
以下、添付図面を参照しながら、本発明の実施形態を説明する。
(矩形領域分割、ランダムフォレストで尤度と共起確率を推定、CRFで判定)
本発明の第一の実施形態として、静止画像を入力データとし、被写体を判別して「空」や「草」といった意味的なカテゴリーの領域に分割するパターン識別装置について取り上げる。本実施形態では、静止画像を識別する場合について説明するが、本発明の適用範囲はこれに限るものではなく、動画像や音声データなどの入力データから特定の対象パターンを識別するような場合に広く適用可能である。
本実施例が実現する最も重要な特性は、画像の構成要素自体に関する第一の情報と、画像の構成要素間の関係性に関する第二の情報とを同一の処理モジュールで同時に、且つ学習的な方法によって抽出する点である。
図1(a)に、パターン識別装置の基本構成を示す。以下、このパターン識別装置の概要について図1(a)を用いて説明する。
図1(a)のデータ入力部101は画像を入力する処理部である。構成要素分割処理部102は画像を構成要素に分割する処理部である。第一・第二の情報抽出処理部103は画像の構成要素から第一の情報と第二の情報の抽出を行う処理部である。構成要素識別処理部104は画像の構成要素のカテゴリーを識別する処理部である。データ出力部105は識別結果を出力する処理部である。
本実施例のパターン識別装置においては、まずデータ入力部101に画像データが与えられる。次に構成要素分割処理部102が画像データをその構成要素である局所領域に分割する。第一・第二の情報抽出処理部103は分割された個々の領域について二種類の情報の抽出を行う。
本実施例における第一の情報は局所領域が所定のカテゴリーに属するかどうかの尤度の情報である。ここでのカテゴリーとは非特許文献1に記載のカテゴリーと同様に、「空」「草」「木」といった一般的な被写体のカテゴリーである。第二の情報は注目する局所領域の近傍の領域が注目する局所領域と同じカテゴリーに属しているかどうかの確度を示す情報である。本実施例ではこれを近接度と称する。近接度は領域のペアごとに算出される。第一・第二の情報をまとめて領域情報と称する。
構成要素識別処理部104は前記の領域情報に基づいて各領域のカテゴリーを特定し、データ出力部105は各領域の結果を統合して出力する。このようにして本パターン識別装置は、入力画像のカテゴリーの識別を行う。
本パターン識別装置の第一・第二の情報抽出処理部103は機械学習的な方法によって実現されている。第一・第二の情報抽出処理部103は、<領域の画像特徴量>を入力変数とし、<領域のカテゴリーの尤度>および<領域間の近接度>を目標変数として事例学習した識別器である。すなわち第一・第二の情報抽出処理部103は、局所領域およびその周辺領域についての画像特徴量が入力されると、局所領域のカテゴリーの尤度、および周囲の領域との近接度、の二種の情報を推定して出力する。
このため第一・第二の情報抽出処理部103を実現する識別器は系統の異なる多変量の目標変数の学習が可能である必要があり、本実施例ではランダムフォレスト識別器を用いて実現している(詳細は後述する。)。なお多変量の目標変数を学習する識別器は他にも例えばニューラルネットや、ハッシング、k−最近傍法、構造学習型のサポートベクトルマシン、など様々な手法が考えられる。これ以降に説明する本実施の形態は一例にすぎず、識別器の種類をランダムフォレストにのみ制限するものではない。
構成要素識別処理部104はカテゴリーの尤度と周辺の領域間の近接度とに基づいて局所領域のカテゴリーを特定する処理部である。画像認識のタスクにおいては「白い雲」と「白い雪山」のように、局所的に見ると見分けの困難な事例が多数存在する。そのため周辺の領域との関係性を考慮してカテゴリーの判別を行うことが広く行われる。具体的には、近接度の高い領域同士を同じカテゴリーと判定するようなバイアスを設け、近接度の低い領域同士にはそのようなバイアスを与えずに識別を行う。このような認識手法の代表例に条件付確率場がある(非特許文献1を参照)。本実施例の構成要素識別処理部104も識別処理に条件付確率場を用いており、詳細は後述する。
次に本実施形態の処理の詳細について述べる。図2に、本実施形態におけるパターン識別装置の詳細構成を示す。これは図1(a)の基本構成を詳細化したものである。また、図3は本実施形態における処理の流れを示したものである。以下、本実施形態における動作のフローの詳細について、図2及び図3を用いて説明する。
(前処理と局所領域への分割)
まず、ステップS301においてデータ入力部201は認識対象となる入力画像を受け取って前処理部202に送る。ステップS302では前処理部202が輝度の調整や色空間の変換、平滑化、画像の関心部分の切り出し、サイズやアスペクト比の変更など、画像の調整に関する一般的な処理を必要に応じて行う。ステップS303では局所領域分割部203が入力画像を局所領域に分割する。本実施例では局所領域分割部203は画像を所定の個数の矩形のパッチに分割する。図4に、この処理の模式図を示す。図4(a)は入力画像の例を示しており、図4(b)は入力画像401を局所領域のセット402に分割した結果例を示している。図4(c)は局所領域の隣接関係を示す模式図であり、本実施例では図例のような4近傍系を用いる。ただし本実施形態は4近傍系に限るものではなく8近傍系や他の近傍系を用いても構わない。
(特徴量変換)
ステップS304では特徴量変換部204が画像を一つ以上の画像特徴量に変換する。画像特徴量には様々なタイプが考えられる。画像のエッジ強度分布や、輝度勾配を傾き方向別に集計した頻度ヒストグラム、色チャンネルの頻度ヒストグラムなどが考えられる。またSIFT特徴(非特許文献2を参照)のように、物体認識技術で一般的な特徴量でもよい。
[非特許文献2] S. Lazebnik, C. Schmid, J. Ponce, Proc. of IEEE Conference, ”Beyond Bags of Features: Spatial Pyramid Matching for Recognizing Natural Scene Categories,” on Computer Vision and Pattern Recognition, 2006
またテクスチャ認識の分野で一般的なフィルタバンクを用いてその応答結果を特徴としてもよい。また特徴量を抽出する際に、画素ごと、一定間隔の画素ごと、局所領域分割部203で分割した領域ごと、画像全体、など様々な画像の粒度が考えられる。この粒度も複数存在してよい。特徴量変換部204ではこれら複数種類の情報を複数の特徴のチャンネルとして保存し、次の領域情報抽出部205に送る。以上のように特徴量変換部204には様々な特徴量の選択肢があり得ることについて述べた。本実施形態では画像のRGBの各色のチャンネルの輝度を特徴量fとして次の処理部に送る。
(ランダムフォレストによる第一と第二の領域情報の抽出)
ステップS305では領域情報抽出部205が領域のカテゴリー判別の基となる二種類の領域情報を抽出する。領域情報の抽出処理は局所領域ごとに行われる。1つ目の情報はその領域がいずれのカテゴリーに属するかの尤度である。ここでは局所領域の特徴量を条件として与えた元での各カテゴリーの事後確率をカテゴリーの尤度とする。2つ目の情報は対象領域と近傍の領域との関係性の強さを示す近接度である。ここでは局所領域が隣接の領域と同一カテゴリーである確率、すなわちカテゴリーの共起確率をもって近接度とすることにする。
領域情報抽出部205は内部に決定木処理部205aを備えており、決定木処理部205aはランダムフォレストと呼ばれる識別器(非特許文献3参照)を用いて識別動作を行う。
[非特許文献3] J. Gall, V. Lempitsky, ”Class-Specific Hough Forests for Object Detection,” Proc. of IEEE Conference on Computer Vision and Pattern Recognition, 2009.
ランダムフォレストは複数の決定木で構成される多クラス分類器である。ランダムフォレストの各定木の各ノードには入力データの特徴量fについての簡易な問い合わせと、問い合わせの結果次にどの子ノードへ進むかの情報が記憶されている。ランダムフォレストは各決定木の根ノードから問い合わせを開始し、問い合わせとその結果による子ノードへの移動とを繰り返し行う。そして最終的にどの葉ノードにたどり着いたかによって入力データのクラスを判定する。ランダムフォレストは全ての決定木の判定結果を統合することで単体の決定木よりも高精度なクラス分類を行うことができる。
決定木にどのような問い合わせを設定するかは識別精度を決める肝要な点であり様々なバリエーションが提案されている。最も代表的な方法は、複数の問い合わせの候補をランダムに生成しておき、各候補で学習データを分割してみて分割前と分割後で情報量の増加が最大であった候補を選ぶことである。例えばシャノン情報量の場合、分割前の学習データのカテゴリーを表す確率変数をX、分割後の確率変数をXとXとすると、情報量の増加分ΔHは
として計算される。ただしNは学習データの総数、|n|は分割後の学習データの数、確率P(X=c)は確率変数Xがカテゴリーcである頻度の割合である。
なおランダムフォレストは決定木の本数や最大の深さなどのパラメータによって識別精度が変わるが、決定木の数は許容されるメモリー量と必要精度とのトレードオフを考慮してあらかじめ決めておけばよい。また決定木の深さなどは交差検定法等で適切な値を決めておく。ランダムフォレストの技術はパターン識別の技術分野において一般的であるので、詳細は非特許文献3等を参照されたい。
図5に、本実施例の領域情報抽出部205の動作の模式図を示す。図5(a)に、識別対象である局所領域501を太い黒線で囲んで示す。また局所領域501の周辺の領域502を破線で囲んで示す。本実施例の構成では、一つの局所領域に対して一つのランダムフォレストが対応している。図5(b)はランダムフォレストとその識別動作の例を示した図である。ただし図にはランダムフォレストを構成する複数の決定木のうちの一本だけを図示している。
ここからは決定木処理部205aの実際の処理の流れについて述べる。
決定木処理部205aは決定木の各ノードに記録された問い合わせに関するパラメータに従って、特徴量fについて簡易な問い合わせを行う。そしてその結果に従って次のノードを選ぶことにより、決定木を根ノードから葉ノードまで辿って結果を出力する。ここでは特徴量の問い合わせの条件式として、画像上の所定の二点の画素の値の大小比較を用いる。
図5(c)は所定の二点の画素ペアの比較の例を示したものである。ここでは白丸の画素が黒丸の画素に比べて所定の閾値よりも輝度の値が大きいかどうかの問い合わせを行う。白丸中のアルファベットはその問い合わせで用いるRGBの色チャンネルのいずれかを図示している。なおここで挙げた二点の輝度値の差の比較以外にも、二点の和を閾値と比較するなど、様々なタイプの条件式を用いることが可能である。一般的には複数の条件式を用意しておき、ノードごとに条件式を選択する方法がよく行われる。
各決定木の各ノードに問い合わせのパラメータとして記録されているのは、(1)条件式のタイプ、(2)参照する二点の画素の位置、(3)参照する色のチャンネル、(4)色チャンネルの値と比較する閾値、(5)条件式が真の場合に次に進むノード、(6)偽の場合に次に進むノード、である。上記パラメータは学習時にあらかじめ情報量基準などの標準的な方法で決定しておく。この決定手順の詳細は非特許文献3を参照されたい。
決定木処理部205aが決定木を辿って葉ノードに至ったら、決定木処理部205aは葉ノードに記録された領域情報を参照する。領域情報の抽出の詳細は本発明に係る実施形態の中心的部分であるので図6の模式図を用いて特に詳述する。図6(a)中の事例データセット601は学習時に葉ノード504に分類された事例データのセットを示している。事例データセット601のアルファベットのb、g、s、は非特許文献1の識別対象カテゴリーである「建物」、「草」、「空」の3カテゴリーを示している。また図6(a)の事例データ601aは局所領域501が「草」のカテゴリーに属し、局所領域501の左側と下側の隣接領域も同じく「草」のカテゴリーであったことを示している。また事例データ601aの上側と右側の黒色の四角はその領域が「草」以外のカテゴリーであったことを示す。
省メモリーのため実際の葉ノード504には上記の事例データセット601の全てを記録せず、事例データセット601の統計情報である2種類の情報を領域情報602として記録している。一つはカテゴリーの事後確率の推定値602aであり、式ではP(L=c|f)と表す。これは葉ノード504に分類された局所領域iの事例データのうち、カテゴリーがcであった頻度を規格化して確率値としたものである。
別の一つは領域間の共起確率の推定値602bであり、式ではP(L=L|f)と表す。これは葉ノード504に分類された事例データである局所領域iに対して、局所領域iに隣接する局所領域jが同一のカテゴリーであった頻度を規格化して確率値としたものである。図中の共起確率の推定値602bの例では、注目する局所領域とその上に隣接する領域が共に同じカテゴリーである確率は0.2であり、カテゴリーが異なる確率が0.8であることを示している。なお、ここではカテゴリーを無視して隣接領域間の共起確率602bを求めているが、学習データと記憶容量が十分であれば、たとえば異なるカテゴリー間の共起確率をすべて記録するような形態でもよい。またたとえば領域間の共起の関係を三つ以上の局所領域に拡大した高次の共起確率を用いてもよい。
図6(b)には局所領域iと近傍の4つの隣接領域が同一カテゴリーかどうかの全ての組み合わせパターンの出現頻度を記憶する形態の例を示す。この場合の事後確率を
と表す。ここでLは隣接の4つの領域のカテゴリーが局所領域iと等しいかどうかの組み合わせのパターンを表す4次元の確率変数である(L∈B,B∈{0,1})。cは16通りの組み合わせの内のいずれか一つのパターンである。
図中の隣接領域間の共起確率603bに、共起関係のパターンの例をいくつか示す。ここで白四角は局所領域iとカテゴリーが同じ領域、黒四角は異なる領域であり、併記された数値はそれぞれのパターンの出現頻度を確率に規格化した推定値である。なお、ここでは簡単のために画素のRGB色チャンネルの比較という特徴のみしか用いなかったが、性質の異なる特徴量チャンネルを混在させて用いてもよい。例えば前述のSIFT特徴量の派生に階層型Bag Of Wordsと呼ばれるヒストグラム特徴量がある(非特許文献2)。階層型Bag Of Wordsは所定の領域ごとにSIFT特徴量のコードブックを集計したヒストグラム特徴量である。これを特徴量チャンネルの一つとして決定木の特徴量のチャンネルの候補に加えて学習させてもよい。
なお、本実施例では局所領域一つに対して一つのランダムフォレストを対応づけて個別に学習する構成を用いているが、省メモリーのためにすべての局所領域に対して唯一つのランダムフォレストを学習させるような構成でもよい。ただし後者の場合、図5(d)に示されるような画像の端の局所領域を識別する際に、画像の外の範囲の特徴量の値を参照することがあり、精度低下の原因となる点に注意が必要である。本実施例の場合は、画像外の特徴を参照するような問い合わせは学習時に採用されないため、図5(e)、(f)に示すように画像の端の局所領域についても画像外を参照せずに決定木の識別動作が行われる。
以上が決定木503が局所領域501について画像特徴を識別し、第一の情報であるカテゴリーの事後確率と、第二の情報であるカテゴリーの共起確率という2種類の領域情報を出力するまでの動作フローとなる。領域情報抽出部205は、このようにして得られた各決定木の出力を集め、出力平均処理部205bにおいてこれを算術平均してから後段のカテゴリー判定部206に送る。
(条件付確率場によるカテゴリー同定)
ステップ306からステップ310にかけてはカテゴリー判定部206が局所領域のカテゴリーを同定する処理フローとなる。カテゴリー判定部206は条件付確率場処理部206aを備える。処理フローの説明の前に、条件付確率場で一般的に用いられる語彙を用いて本処理に係る構成の名称および条件付確率場の動作に必要な数式を以下のように定義する。i番目の局所領域iに対応する条件付確率場のノードをサイトiとする。サイトiが持つカテゴリーのラベルをLとしたとき、局所所領域iの単体ポテンシャルV
と定義する。
また隣接するサイトペアiとjの相互ポテンシャルV
と定義する。ただし確率P(L=L|f)はサイトペアiとjが同じカテゴリーラベルであるか否かの共起確率の推定値であり、前段の領域情報抽出部205で推定した共起確率602bを元に下式で定義する。
ただしP は局所領域kの特徴量fを用いて推定した事後確率の値である。P とP の値の幾何平均を求めているのは、共起確率の推定値がサイトペア間で非対称であるのを対称にする補正のためである。
次に、全てのラベルのカテゴリーを要素とする配置パターンをcとする。配置パターンcのエネルギー関数Uを、全てのサイトの集合Sと隣接サイトペアの集合Sについて単体ポテンシャルと相互ポテンシャルを総和して
と定義する。またこのときcの事後確率は
である。ただしZは規格化定数(分配関数)である。このとき事後確率P(c)を最大化するラベルの配置パターンc^は
である。ただしc^は解析的には求められないので繰り返し計算で求める。
以上が条件付確率場を動作させる上で必要な動作式の定義となる。
なお、本実施例では相互ポテンシャルを事例データの頻度確率から算出したが、非特許文献1が採用しているように確率値を用いずに適当にポテンシャル関数を定義してもよい。その場合は内部パラメータや規格化定数を求める必要がありこれは一般に困難な課題であるが、様々な近似的解法が提案されている。詳細については非特許文献1を参照されたい。
次に上記のように構成した条件付確率場を動作させる(条件付確率場の動作のさせ方には複数の方法が提案されており、精度に優れた方法としてグラフカットを用いる方法などがある。)。ここでは簡易な方法として以下のような処理手順を挙げておく。
まずステップS306において条件付確率場処理部206aは、数式3の単体のポテンシャルのみを用いて各サイトiのポテンシャルが最大となるラベルcを割り付ける。次にステップS307において条件付確率場処理部206aはランダムにサイトiをひとつ選び、このサイトと周囲の4近傍のポテンシャルの総和が漸減するようにラベルLを変更する。具体的には、カテゴリーのラベルLを各パターンに変更してみて、最もU(c)の値の小さかったラベルcを採用する。次にステップS309で収束判定部206bが繰り返しの数が所定の数未満かどうかを調べて所定の数以上であれば繰り返し処理を終了する。所定の数未満であればステップS310で収束判定部206bが所定の回数分遡った以前の状態と比べてカテゴリーのラベルに変化があったかどうか調べる。変化していればステップS307に戻って処理を続け、変化がなければ収束したものとして次のステップS311に進む。
ステップS311では結果出力部207が同じラベルが割り当てられている局所領域を連結して一つの領域とする。図4(d)に収束時のラベルの配置の結果例を示し、図4(d)のラベルに基づいて領域分割を行った結果の例を図4(e)に示す。
ステップS312では結果出力部207が上記のラベルと領域分割の結果を出力して本実施例のパターン識別装置の処理を終了する。なお、より高い解像度の分割結果を得たい場合の派生の形態として、上記の領域分割の出力結果を初期値としてグラフカットなどの画像処理手法でカテゴリーの境界を再度詳細に分割してもよい。
以上が本発明のパターン識別装置の動作のフローの詳細になる。
(決定木の学習に関する派生の形態)
なお、本実施例ではカテゴリーの尤度の情報量に基づいて決定木の学習パラメータを決定したが、領域間の共起確率の情報量に基づいて決定木を学習するような派生の形態も考えられる。この場合、共起確率の推定精度を向上させることができる。以下にこの形態の実現例の一つを説明する。
ここでは先に数式2に示した複数の領域間の共起の組み合わせを用いて定式化を行う。分割前の学習データの共起のパターンを表す確率変数をL、分割後の確率変数をLとLとして、情報量の増分ΔHを下記のように定義する。
ここで確率P(L=c)は数式2で説明したものと同一のものである。
次に数式1のカテゴリーの情報量の増分ΔHをΔHとし、ΔHとΔHとを重み付き加算して新たな情報量の基準ΔH12を得る。
ただしαは重み係数である。またここでΔH12としては加算でなく下記のように最大値を取る形態でもよい。
または別の形態としてノードごとにある所定の比率でΔHとΔHを切り替えて情報量の基準値として用いてもよい。またはある所定の比率で決定木を2つに分けてそれぞれの決定木のグループを異なる情報量の基準値で学習させてもよい。
またこの形態では数式2に従って4つの隣接領域の16通りの共起のパターンで情報量の増分ΔHを計算したが、二つの領域の関係ごとに情報量の増分を求めて後で総和するような形態でもよい。
以上で本実施例の決定木の学習の方法に関する派生の形態の説明を終える。
以上が本発明に係る第一の実施例の説明である。本実施例によって本発明に係るパターン識別装置が、入力画像の構成要素の第一の情報である領域のカテゴリーの尤度、および第二の情報である領域間の近接度、を一つの識別器で同時に抽出できることが示された。これにより二つの情報を別々に処理する従来の方法よりも計算コストを削減できる効果を持つことが示された。また本パターン識別装置は上記情報の抽出を学習事例に基づいて行うため、領域間の近接度を機械的に算出する従来の方法よりも高精度にパターンを識別できる効果を持つことが示された。
(ランダムフォレストの実行、領域ラベル決定、を逐次的に繰り返す)
本発明の第二の実施形態として、第一の実施形態と同様に、静止画像を入力データとし、被写体を判別して「空」や「草」といった意味的なカテゴリーの領域に分割する方法について取り上げる。
本実施形態では、静止画像を識別する方法について説明するが、第一の実施形態と同様に本発明の適用範囲はこれに限るものではなく、動画像や音声データなどの入力データから特定の対象パターンを識別するような場合に広く適用可能である。
本実施形態のパターン識別装置の基本構成を図1(b)を用いて説明する。
データ入力部101はパターン識別を行う画像を入力する処理部である。構成要素分割処理部102は画像を局所領域に分割する処理部である。第一・第二の情報抽出処理部113は画像領域から第一の情報と第二の情報の抽出を行う処理部である。構成要素識別処理部114は画像領域のカテゴリーを判別する処理部である。データ出力部105は画像領域の判別結果をまとめて出力する処理部である。
この第二の実施例のパターン識別装置の基本構成が第一の実施形態と異なる点は、構成要素識別処理部114が第一・第二の情報抽出処理部113へフィードバック信号を送る経路が存在する点である。本実施形態のパターン識別装置は、このフィードバック信号を用いて第一の実施例のパターン識別装置とは異なった動作を実現する。
例えば、画像全体のカテゴリーの分布の情報をフィードバック信号とし、第一・第二の情報抽出処理部113を反復動作させる構成が考えられる。この場合、第一・第二の情報抽出処理部113における領域のカテゴリーの尤度の判断を画像全体の傾向に応じて変化させることができる。このようにフィードバック信号によって第一・第二の情報抽出処理部113の動作を適応的に変化させることができる点が、本第二の実施例のパターン識別装置が実現する主たる特徴である。
次に本実施形態の処理の詳細について述べる。
図7に、本実施形態におけるパターン識別装置の機能構成を示す。これは図1(b)の基本構成をさらに詳細化したものである。また、図9は本実施形態における処理の流れを示したものである。図7の領域情報抽出部905には決定木処理部905aを備え、決定木処理部905aは画像の各局所領域に対応した複数のランダムフォレスト識別器を備える。
図10は決定木処理部905aが備えるランダムフォレスト識別器の模式図である。
図10(a)に、9個のランダムフォレスト識別器1101と対応する9個の局所領域1102を示している。一つのランダムフォレスト識別器は複数の決定木から構成される。一つのランダムフォレスト識別器1101aは一つの局所領域1102aに対応している。本実施例ではランダムフォレストは局所領域の位置によらず全て同一であるとする。
本実施例のパターン識別装置の動作の概要は以下である。
まず第一・第二の情報抽出処理部113がランダムフォレスト識別器によって局所領域のカテゴリー尤度と近接度の情報を抽出し、構成要素識別処理部114が条件付確率場によって局所領域のカテゴリーを決定する。ここまでは第一の実施例と同様である。そして次に本実施例を特徴づける処理動作として、構成要素識別処理部114がカテゴリー判定結果を特徴量に変換して第一・第二の情報抽出処理部113へ信号として戻す。第一・第二の情報抽出処理部113はフィードバックされた特徴量の信号を用いて特徴量を更新し、再度局所領域のカテゴリー尤度と近接度の情報を抽出する。このような第一・第二の情報抽出処理部113と構成要素識別処理部114の処理を、収束するまで複数回繰り返す。
以上が本実施例のパターン識別装置の動作の概要である。
以下に本実施形態における動作のフローの詳細について、図7及び図8を用いて説明する。本実施形態のパターン識別装置のデータ入力部901から特徴量変換部904までは第一の実施例と同一の構成である。ステップS801からステップS804までの処理も、第一の実施例と同様にして行う。ステップS805以降は第一の実施例と異なり、領域情報抽出部905とカテゴリー判定部906が信号を交換しながら繰り返し処理を行うフローとなる。
まずステップS805で領域情報抽出部905がランダムフォレスト識別器を動作させることにより、第一の実施例と同様に各領域のカテゴリーの尤度と近接度を算出する。次にステップS806とステップS807で第一の実施例と同様にカテゴリー判定部906が条件付確率場を収束するまで動作させてカテゴリーのラベルを決定する。カテゴリーのラベルが決定したら、ステップS809でカテゴリー判定部906がカテゴリーのラベルの結果を特徴量に変換して領域情報抽出部905に送る。カテゴリーのラベルの結果を特徴量へ変換する仕方としては種々考えられるが、ここでは一つの例として画像中のカテゴリーの出現比率をヒストグラムに変換した多次元の特徴とする。
ステップS810で領域情報抽出部905はカテゴリーの出現比率の特徴量を画像特徴量の一種として追加する。領域情報抽出部905にこのような特徴量を与えることにより、画像のシーン全体の傾向を考慮しながら各領域のカテゴリーの尤度や近接度を判定することが可能となる(なお、領域情報抽出部905の一回目の反復処理の際には全画像のカテゴリーの出現比率の平均値を与えればよい。)。
このような領域情報抽出部905とカテゴリー判定部906の反復を複数回行い、ステップS808でカテゴリー判定部906がカテゴリーラベルの値が変化しなくなったか、あるいは所定の反復回数を超えたと判断したらステップS811に進む。ステップS811では結果出力部907が各局所領域のカテゴリーラベルの結果を統合し、ステップS812で識別結果画像として出力して終了する。
以上が構成要素識別処理部114から第一・第二の情報抽出処理部113へフィードバック信号の入力がある本発明の実施形態の一例の説明になる。このように第一・第二の情報抽出処理と構成要素識別処理を繰り返して処理することで、フィードバック信号がない構成に比べて、複雑なパターン識別処理の動作を行えることが示された。
(同時並列でランダムフォレストと領域ラベルの同定を実行する)
本実施例では第二の実施例を発展させた形態について説明する。
本実施例が第二の実施例の形態と大きく異なる点は、第一・第二の情報抽出処理部113と構成要素識別処理部114が動作を交互に繰り返すのではなく、所定のタイミングで同期して信号を交換する点である。具体的には、第一・第二の情報抽出処理部113が決定木といった多段階の処理を行う識別器であり、第一・第二の情報抽出処理部113は多段処理の途中の所定のタイミングで暫定の結果を構成要素識別処理部114に送る。構成要素識別処理部114は前記の暫定の領域情報に基づいて領域のカテゴリーを判定し、所定のタイミングで第一・第二の情報抽出処理部113にその結果を返す。本実施例の形態では、第一・第二の情報抽出処理部113の動作を一回の処理動作で完遂させることができるので、第二の実施例よりも高速なパターンの識別ができる利点がある。
本実施形態のパターン識別装置の基本構成は第二の実施例と同じく図1(b)で示される。本形態では第二の実施例と同様にして、構成要素識別処理部114が第一・第二の情報抽出処理部113へフィードバック信号を返して第一・第二の情報抽出処理部113の動作を変化させる。ただし、フィードバック信号を返すタイミングが第二の実施例と異なる。以下これについて説明する。
まず第一・第二の情報抽出処理部113は各ランダムフォレストの各決定木の問い合わせ処理を一斉に行う。全決定木で同じ深さの階層に属するノードの問い合わせ処理を同時に行い、一つの階層の問い合わせ処理が終わったら第一・第二の情報抽出処理部113は暫定的に領域情報を抽出する。次に第一・第二の情報抽出処理部113は抽出した領域情報を構成要素識別処理部114へ送る。構成要素識別処理部114は前記領域情報を基に領域のカテゴリーを暫定的に判定する。そして構成要素識別処理部114はカテゴリーの判定結果を再び第一・第二の情報抽出処理部113へ送る。第一・第二の情報抽出処理部113は各決定木について次の階層の深さのノードの問い合わせ処理を行うが、その際に構成要素識別処理部114から送られてきた前記のカテゴリーの判定結果も参考にする。以上の処理を全ての決定木が葉ノードに達するまで繰り返す。
以上のようにこの実施形態では第二の実施形態と異なり、第一・第二の情報抽出処理部113が各決定木を参照して根ノードから葉ノードまで辿る回数は一回で済むことが分かる。
以下、本実施形態における詳細な動作のフローについて、図7及び図9を用いて説明する。本実施形態のパターン識別装置のデータ入力部901から特徴量変換部904までは第二の実施例と同一の構成である。ステップS1001からステップS1004までの処理も、第二の実施例と同様の処理を行う。ステップS1005以降は第二の実施例とは異なり、領域情報抽出部905とカテゴリー判定部906が信号を交換しながら同時に処理を行う部分である。この処理の詳細は以下になる。ここは本実施例の中心的な部分であるので特に図11に本処理の模式的な結果例を併せて示して説明する。なお、図11の中に図示された領域のカテゴリーの種類は、非特許文献で採用されている領域のカテゴリーに準じるものである。
まずステップS1005で領域情報抽出部905が全ての局所領域のラベルを<未決定>に初期化する。次にステップS1006で決定木処理部905aがランダムフォレストの各決定木の問い合わせを開始する。ここで決定木処理部905aは各決定木の根ノードを参照し、この動作は全ての決定木に対して同時並列的に行われる。図11(a)に、この時点での動作の模式的な例を示す。図中の黒丸はこの時点で決定木処理部905aが参照している根ノードである。葉ノード以外の全ノードには問い合わせの内容を決定する学習パラメータが記憶されており、決定木処理部905aは各根ノードに記憶された学習パラメータを読み出して以下の問い合わせ動作を行う。問い合わせは簡易な条件判定であり、次の二つのタイプのいずれかである。一つは領域の特徴ベクトルの値を何らかの値と比較する条件式である。この条件式の最も簡易な形態は、特徴ベクトルの所定の次元の値が閾値以上か否かを問うものである。式で表すと,
である。ここでYは問い合わせの結果である。また添え字ijkはそれぞれ、局所領域iおよび局所領域iに対応するランダムフォレストi、ランダムフォレスト中のj番目の決定木j、決定木のk番目のノードk、を意味する。またf(q)は局所領域iの特徴ベクトルfのq番目の要素の値である。qjkは決定木jのk番目のノードの問い合わせで参照する特徴次元の番号、θjkは同じく比較に用いる閾値である。qjkとθjkの値は学習時にあらかじめ決定されている。なお従来例では上記のような条件式以外に、二つの特徴量を参照してその差や和を閾値と比較するなどの条件式もよく用いられるのでそれらの形態を採用してもよい。
次にもう一つのタイプは周辺の所定の領域のカテゴリーラベルが特定の条件を満たすか否かを問う条件式である。このタイプの問い合わせの存在が本実施例のパターン識別装置を特徴づけるものである。この条件式の最も簡易な形態は、所定の領域のカテゴリーがある特定のカテゴリーであるか否かを問うものである。式で表すと、
である。ただしLxyは画像中のx列y行の局所領域のラベルのカテゴリー、xとyは局所領域iの行と列の位置、vjkとwjkは決定木jのk番目のノードの問い合わせで参照する隣接領域の相対的な位置、cjkはLxyと一致しているかどうかの比較を行う所定のカテゴリーである。vjkとwjkの値と、カテゴリーcjkは、学習時にあらかじめ決定されている。
なお上記のパラメータ、および各決定木が各ノードでどちらのタイプの問い合わせを用いるかのパラメータは、情報量基準等で学習時に決定して学習パラメータとして各ノードに記憶しておく。この学習の手順は第一実施例で説明した方法と同じ標準的な方法でよい。
なお、ラベルの問い合わせの形態は上記以外にも様々な形態が考えられる。例えば上記では参照する領域を4つの隣接領域に限っているが、離れた領域を参照するような問い合わせの形態であっても良い。また更に別の形態として、複数個の領域が含まれる範囲を調べて、所定のカテゴリーの頻度が閾値以上であるか以下であるかを判定するような形態でもよい。ただし広い範囲を参照すると画像外の範囲を参照する頻度も多くなるため、画像外の問い合わせをしたときはランダムにYを決定するなどの処理をする必要がある。
以上のようにして決定木処理部905aは決定木の問い合わせの結果Yを得た。
次にステップS1007では決定木処理部905aが結果Yに応じて各決定木のノードの左(Y=1)あるいは右(Y=0)の枝を辿って二段目の深さのノードを次の参照先として選択する。この結果の例を図11(b)の左半分に示す。図中の黒丸が選択された二段目の深さのノードである。
次にステップS1008で出力平均処理部905bがその時点での各領域の暫定のカテゴリーの尤度を計算する。尤度の算出方法は以下である。すなわち各決定木の各ノードには、学習時にそのノードに分類された事例データのカテゴリーの頻度があらかじめ記憶されている。出力平均処理部905bは現在参照中のノードに記録されているカテゴリーの頻度をランダムフォレストごとに総和する。この値をデータの総数で規格化して領域のカテゴリーの尤度スコアとする。
次にステップS1009ではカテゴリー判定部906が備えるラベル処理部906aが最大尤度のカテゴリーのラベルを暫定のラベルとして各領域に割り付ける。この結果の例を図11(b)の右半分に示す。
次にステップS1010で収束判定部906bがすべての決定木が葉ノードに達したかどうかを判定する。葉ノードに達してない決定木がまだあればステップS1008に戻って繰り返し処理を行う。その際、すでに葉ノードに到達している決定木についてはそれ以降の問い合わせ処理を行わずスキップする。このようにして処理を繰り返す。図11(c)、(d)には参照中のノードおよびラベルの状態が変化して行く例を示す。ステップS1010で全ての決定木で葉ノードに達したと判定されたら、この時点で割り当てられているラベルを最終的な識別結果とする(図11(d))。次にステップS1011で結果出力部907が同一カテゴリーの領域を統合し、ステップS1012で結果として出力する。以上で本実施形態における動作のフローの詳細の説明を終える。
なお本実施例では、決定木の参照ノードを一つ進めるたびにカテゴリー判定部906が同期して各領域のカテゴリーのラベルを更新する。しかしこの更新のための計算量の大きさを考慮すると、これを毎回行わずに決定木の参照先が進む何階層かに一度行うような形態でもよい。
またカテゴリー判定部906のカテゴリーのラベル更新処理が終了するのを待たずに領域情報抽出部905が領域情報の抽出処理を進め、更新処理が終了次第、カテゴリー判定部906が領域情報抽出部905に結果を返してもよい。このように部分的に非同期的に処理を行うような形態も考えられる。
またさらに本実施例のラベル問い合わせに関する工夫として、対象のラベルを所定のラベルと比較する際に、「木」「草」といった個別のカテゴリーと比較するよりも、より大まかなカテゴリーのグループと比較した方が識別精度が高まることが考えられる。例えば根ノードに近いノードを参照している段階では分類が不十分なためラベルの判定結果が不安定である。そのような場合、ある領域が「木」か否かを問い合わせるよりも「自然物」か否か程度の曖昧さで問い合わせたほうが識別の効率が良い。
上記を実現する派生の形態としてここではカテゴリーをグルーピングする方法を説明する。具体的には図12に示すように、あらかじめ事例データの特徴量等でカテゴリーを階層的にクラスタリングしておく。次にカテゴリーの階層グループごとに番号を割り振る。図12では例えば「木」と「草」を統合したカテゴリーを3番としている。学習時にはこの階層的なカテゴリーのグループも含めて全てのカテゴリーを問い合わせの候補として用いる。このようにしておけば、情報量基準によって適切な階層のレベルのカテゴリーが選ばれることが期待できる。
また別のカテゴリーのラベルに関する工夫として、識別処理中に割り付ける暫定のラベルを唯一つに決めず、複数のラベルを保持するような派生の形態も考えられる。例えば集計されたカテゴリーの尤度が1/m以上あるいは所定の閾値以上のカテゴリーのラベルを全て暫定のラベルとして割り付けて保持するような形態が考えられる。なおここでmはカテゴリーの総数である。
またさらに別のカテゴリーのラベルに関する工夫として以下のような派生の形態も考え得る。本実施例では識別時に各領域のラベルが複数回変化する。一方で学習時には問い合わせにラベルの真値を教師値として用いる。そのため学習時に用いられたカテゴリーのラベルと識別時のそれとが必ずしも一致しない事がある。これを避けるには下記のように識別時のラベルの状態を再現しながら学習を行えばよい。
このカテゴリーのラベルに関する派生の形態では識別時のみならず、学習時においても全決定木を同時並行的に処理する。具体的には全決定木の深さの同じ全てのノードを同時に学習する。学習が完了するたびに学習画像を与えてランダムフォレストで識別させる。そしてその時点での暫定のラベルの状態を得る。ラベルの問い合わせを学習する際にはこの暫定のラベルを与えて行う。これを繰り返して根ノードから葉ノードまで各決定木の階層を一段ずつ学習していく。この方法は通常の学習方法よりも計算量がかかるが、このようにすれば識別時の状態を再現した学習が可能となる。
次に局所領域の形状に関してのさらに別の派生の形態について述べる。本実施例では画像を矩形の領域に分割してランダムフォレストを動作させたが、領域分割の境界の精度を高めるための工夫として、矩形領域ではなくスーパーピクセルと呼ばれるタイプの局所領域(非特許文献4等を参照)を用いることも考えられる。
[非特許文献4] P. F. Felzenszwalb, D. P. Huttenlocher, ”Efficient Graph-Based Image Segmentation,” Inter. J. of Computer Vision, Vol. 59, No. 2, 2004
スーパーピクセルは色情報やテクスチャなどが類似した画素を統合して得られる不定形の領域である。スーパーピクセルの手法に関しては様々な手法が公知であり、ここではいずれか特定の方法に限らない以降に、局所領域として不定形の領域を用いる本実施例の派生の形態について説明する。
まず本パターン識別装置は、入力画像を図10(b)に示すように複数のスーパーピクセル1112に分割する。次に本パターン識別装置は各スーパーピクセルに対応する同数のランダムフォレスト識別器1111を用意する。あるスーパーピクセルを識別処理する際に、周囲のスーパーピクセルのラベルの問い合わせを行う手順は次のようになる。
まずスーパーピクセルの重心を基準点1112bとする。そして図10(c)に示すように基準点1112bからX方向とY方向に所定の値ΔxとΔyだけ離れた位置の画素を参照画素1112cとしてその画素のラベルを参照する問い合わせを行う(図の例では参照画素1112cのカテゴリーとして「空」カテゴリーが得られる。)。ΔxとΔyの決め方は下記のようにする。まず決定木の学習時にΔxとΔyのペアの候補をランダムに複数個生成する。そして各ペアの値でラベルの問い合わせを行い、情報量基準に基づいて最も学習データの分離度の良かったΔxとΔyのペアを採用する。
以上の工夫により不定形の局所領域を用いる場合でも本発明の係るパターン識別装置が容易に実現可能であることを示した。
以上のように第一・第二の情報抽出処理部113と構成要素識別処理部114がフィードバック信号を交換しながら同時並行的に動作する第三の実施例の形態について説明した。この派生の形態では第二の実施例と同様にフィードバック信号を用いることでより複雑なパターン識別処理を行うことができる。また第二の実施例と異なり第一・第二の情報抽出処理部113の処理を反復しないため、第二の実施の形態と比較して高速に動作することができる。
(画像をスーパーピクセルに分割。制限付ボルツマンマシンで近接度を評価)
第四の実施形態は第一の実施形態の派生的な形態である。特に本発明に係るパターン識別装置が特定の識別器や特定の局所領域の形状に限定されないことを示すための実施の例である。第一の実施例においては画像の構成要素として矩形領域を用いたが、本発明に係るパターン識別装置は不定形の構成要素も処理可能である。また、領域情報の抽出手段としてはランダムフォレスト識別器を用いたが、他の様々な識別器も可能である。
本実施例では第一の実施例と相違する部分のみを詳述する。相違点は三点ある。一つ目は局所領域としてスーパーピクセルを用いることである。二つ目は識別器に制限付ボルツマンマシン(Restricted Boltzmann Machine,以降はRBMと呼ぶ)と呼ばれる識別器を用いることである(非特許文献5を参照)。
[非特許文献5] G. E. Hinton, S. Osindero and Y. W. Teh, ”A fast learning algorithm for deep belief nets,” Neural Computation, vol. 18, pp.1527-1554, 2006
三つ目は、領域間の近接度を算出する方法が第一の実施例と異なる点である。
図13に、本実施形態におけるパターン識別装置の機能構成を示す。図2の第一の実施形態と多くを共通しており、異なるのは領域情報抽出部1505が決定木ではなくRBM処理部1505aを備えていることである。本機能構成の処理のフロー図を図3に示す。これは第一の実施形態で用いた図と同じである。以下、本実施形態における動作のフローの詳細について、図3及び図13を用いて第一の実施形態との相違点のみに限定して説明を行う。
処理のフローにおいてまず最初に相違点のある処理はステップS303である。ここでは局所領域分割部1503が入力画像をスーパーピクセルに分割する。これは先に図10(b)のスーパーピクセルとして示したものと同様である。次に相違点のある処理はステップS305である。ここでは次に述べるようにRBM識別器を備えたRBM処理部1505aが、スーパーピクセルの画像特徴を入力として受け取り、RBM識別器に識別処理を行わせる。この処理は全スーパーピクセルについて個別に行う。その結果RBM処理部1505aはスーパーピクセルのカテゴリー尤度と、スーパーピクセル間の近接度のスコアを得る。ただし矩形領域を用いた第一の実施例と異なり、不定形のスーパーピクセル間の近接度のスコアを推定するには多少の工夫が必要である。これについては後述する。
ステップS305におけるRBM処理部1505aの識別動作を詳細に説明する。
RBM処理部1505aが備えるRBM識別器の構成の例を図14に示す。本実施例のRBM識別器は特徴ベクトル入力部1601、第一の中間層1602、第二の中間層1603、第一の出力層1604、および第二の出力層1605からなる。wij、wjk、は層の間をつなぐ結合重みであり、各層のユニット同士を全結合させている。ただし図中でbと書かれている矩形はバイアス項を実現するためのユニットで下層との結合は持たず、常に定数を出力する。RBMは多層ニューラルネットの一種であり、各層ごとに学習を行う。学習は教師付き学習である。RBMに入出力データのペアを一つ入力すれば、隣接する層との入出力の関係が整合するように各層間の重みを確率的に変えて行く。RBM識別器の学習の詳細手順については非特許文献5などで広く公知であるのでここでは詳細は省く。
ここでRBM識別器のそれぞれの層の役割を述べると、特徴ベクトル入力部1601はスーパーピクセルに関する画像特徴ベクトルを入力として受け取る層である。第一の中間層1602、第二の中間層1603の中のユニットはそれぞれ下層からの入力信号を重みwで線形和し、非線形関数で変換して次の層へ信号を送るユニットである。第一の出力層1604はスーパーピクセルのカテゴリーの尤度を出力する層である。第一の出力層1604内のユニットの個数はカテゴリーの個数に対応している。第一の出力層1604は第二の層1603のユニットから信号を受け取るが、このユニットは対応するカテゴリーの尤度の値が出力されるようあらかじめ学習させてある。第二の出力層1605は近傍の近接度の値を出力する層である。第二の出力層1605内のユニットのA〜Hまでのアルファベットは図15(a)に示すように、スーパーピクセルの周囲の8点の画素の位置に対応している。このユニットには対応する8点の画素のカテゴリーがスーパーピクセルと同一のカテゴリーであるかどうかの確率値が出力されるよう予め学習してある。従って、RBMの学習時には入力変数としては画像領域iの特徴量f、目標変数としては4クラスのラベルのインデックスと8点の共起の有無を示すインデックスの値を連結したベクトルyi、のペアが与えられる。なおここでyはy=[0,1,0,0,0,0,0,1,1,1,0,0]などの12次元のベクトルである。
ステップS305では、RBM処理部1505aがRBM識別器にスーパーピクセルiの特徴量fを入力し、4クラスの尤度の値と、8点の画素の共起の推定値を出力させる。さらに8点の画素の共起の推定値を用いて、スーパーピクセル間の近接度のスコアを推定する。その方法の模式図を図16に示す。図16(a)は画像を構成する全スーパーピクセルを示す図である。RBM処理部1505aはそのうちSP1と付された第一のスーパーピクセル1802について8点の共起の推定値を得たとする。図16(b)はこのときの8点の共起確率の推定値の出力の例である。ただし8点の中心の×印はスーパーピクセル1802の重心を示している。ここでSP2と付された第二のスーパーピクセル1803との近接度を求める。図16(c)にその方法の模式図を示す。図16(c)に図示するように第二のスーパーピクセル1803がその領域中に8点の値のいずれかを含んでいる場合、その値をもってスーパーピクセル間の近接度スコアとする(図の例ではその値は0.5である。)。複数の点を含む場合はそれらの平均値を近接度スコアとする。一点も含んでない場合は0とする。なお、スーパーピクセル1802の特徴を入力したときのスーパーピクセル1803との共起の推定値と、スーパーピクセル1803の特徴を入力したときのスーパーピクセル1802との共起の推定値とは対称でないため、両方の推定値を平均することで対称に補正するとよい。
以上のように不定形の領域間での近接度の学習と推定の処理について述べた。
上記のような近接度スコアの求め方に類する方法は他にも様々な形態が考えられる。図15(b)から(e)にかけてこれに関する派生の形態を図示する。図15(b)は共起確率を推定する画素点数を増やしたものである。図15(c)は複数の位置に配置した基底関数を用いる形態である。学習時にはスーパーピクセルと同じカテゴリーの画像上の分布を規定関数の混合分布でフィッティングする。このフィッティングのパラメータを目標変数とし、局所領域の特徴量を入力変数としてRBMを学習する。識別時には規定関数のフィッティングパラメータを出力して得て混合分布を再現する。そして周辺のスーパーピクセルの重心点での混合分布の値を調べてそのスーパーピクセルの近接度スコアとする。図15(d)は近傍の領域を複数のゾーンに分けてそれぞれのゾーンの中で同一のカテゴリーの画素が存在した割合を学習する形態である。推定時には周辺のスーパーピクセルの重心がどのゾーンに入るかを調べてそのゾーンの共起の頻度確率をそのスーパーピクセルの近接度のスコアとする。図15(e)は図15(d)のゾーンの変形である。
以上のような処理の流れによってスーパーピクセルのカテゴリー尤度と領域間の近接度が得られる。以降の処理の動作は第一の実施例と同一であるので説明を省く。
以上のように本実施形態では第一の実施形態の派生として、RBMと呼ばれる識別器を使って画像の構成要素である局所領域の第一の情報と第二の情報とを同時に抽出することが可能であることを示した。また局所領域としてスーパーピクセルのような不定形の領域であっても本発明が適用可能であることが示された。すなわち、本発明に係るパターン識別装置が特定の識別器や特定の局所領域の形状に限定されないことが示された。
(画素ごとに判定してスーパーピクセルに分割)
第五の実施形態は第一の実施例の派生の形態であり、本発明がスーパーピクセルの生成方法にも応用できることを示すものである。ここでスーパーピクセルとは前述のように色情報やテクスチャなどが類似した画素を統合して得られる不定形の領域のことである。
本実施例は第一の実施例と多くを共通するので相違する部分のみを詳述する。相違点は二点ある。一つ目は局所領域として画素を用いることである。二つ目は構成要素識別処理部でカテゴリーを判定するのではなく、画素を連結してスーパーピクセルを生成する処理を行うことである。
図17に、本実施形態におけるパターン識別装置の機能構成を示す。図2の第一の実施形態と多くを共通しており、異なるのはカテゴリー判定部206ではなくスーパーピクセル生成部1906を備えていることである。さらにスーパーピクセル生成部1906は画素連結処理部1906aとスーパーピクセル補正処理部1906bを備える。
本機能構成の処理のフロー図を図18に示す。以下、本実施形態における動作のフローの詳細について、図17及び図18を用いて第一の実施形態との相違点を中心に説明を行う。
まずステップS2001とS2002で第一の実施形態と同様に画像データを入力し、前処理を行う。次にステップS2003では局所領域分割部1903が画像を画素の単位に分割して画素間の4近傍系の隣接関係を設定する。次にステップS2004で特徴量変換部1904が第一の実施例と同様に画像特徴を計算して一つ以上の特徴量のチャンネルを作成する。次にステップS2005では第一の実施例と同様にして領域情報抽出部1905によって局所領域の第一・第二の情報を求める。ここで第一・第二の情報は局所領域のカテゴリーの尤度とカテゴリーの共起確率である。ここで第一の実施例と異なるのは局所領域の単位が画素であることである。推定したカテゴリーの共起確率を画素間の近接度のスコアとする。
次にステップS2006では画素連結処理部1906aが画素間の近接度スコアを用いて全ての画素を一つ以上のスーパーピクセルに統合する。様々な統合の方法が考えられるが、ここでは最も簡易な方法の手順を結果の例の模式図19を示しながら説明する。図19(a)は統合前の画素の状態である。まず画素連結処理部1906aはある所定の閾値以下の近接度スコアの画素間に境界を設ける。図19(b)にこの境界の例を太い黒線で示す。次に画素連結処理部1906aは前記境界で分離されてない画素を全て連結してスーパーピクセルとする。この結果のスーパーピクセルの例を図19(c)に示す。次にステップS2007で所定の閾値よりも大きな面積のスーパーピクセルがあるかどうかを判定し、あればステップS2008に進んで再度分割を行う。再分割時には、近接度スコアの閾値を所定の値だけ増加させて、画素間の境界を設定しなおして統合を行う。このようにして、すべてのスーパーピクセルの面積が所定の値以下になるまで近接度スコアの閾値を増加させながら再分割を行う。最終的に得られたスーパーピクセルの例を図19(d)に示す。
次にステップS2010では結果出力部1907がカテゴリーの尤度およびスーパーピクセル間の近接度を求める。スーパーピクセル間の近接度はスーパーピクセル間の境界を構成する画素間の全境界の近接度スコアを平均して得る。この結果の例を図19(e)に示す。カテゴリーの尤度の分布は各スーパーピクセルを構成する画素のカテゴリーの尤度を平均して得る。この結果の例を図19(f)に示す。
以上のようにして事例データに基づいた学習的な方法でスーパーピクセルを生成し、且つスーパーピクセルのカテゴリー尤度および近接度の情報を同時に抽出することができた。
なおここでは簡易な閾値処理によってスーパーピクセルを生成したが他にも様々な形態が考えられる。例えば画素間の共起確率のみならず、カテゴリーの尤度の分布の類似性を考慮して画素を統合するかどうかを決めてもよい。その際はKLダイバージェンスなどで尤度の分布間の距離を定義して用いればよい。
また先の実施形態では過度に大きな面積の領域の再分割する補正を行ったが、同様に所定の値よりも小さな面積の領域を他の領域に併合させる補正処理を行ってもよい。また高速にスーパーピクセルを生成するためにこれらの補正処理を行わないような形態でもよい。また更により複雑なアルゴリズムとして非特許文献4のような方法を用いてもよい。
またこうして得られたスーパーピクセルのカテゴリーの尤度とスーパーピクセル間の近接度スコアを用いれば、第一の実施例で示したような条件付確率場等の方法等で更に高精度な領域の分割を行うことも可能である。またもしくは最大の尤度のカテゴリーを領域の判定結果とし、同一のカテゴリーの領域を統合してそのまま出力するような形態等も考えられる。
またその他の派生の形態として、第一の情報としてカテゴリー以外の画素の属性を抽出してもよい。例えばテクスチャ情報などの画素の特徴を抽出するような形態でもよい。この派生の形態について説明する。まず学習時に学習画像の全画素のテクスチャの種類を判定しておく。これはTexton(非特許文献1を参照)等の一般的な手法を用いればよい。そしてテクスチャの各種類の出現頻度を尤度としてツリーの葉ノードに記憶させる。これは今までの実施例でカテゴリーの種類を学習していた所をテクスチャの種類の学習に置き換えたものである。この派生の形態の場合、結果の例の図19(f)の図中のヒストグラムはスーパーピクセルのテクスチャの分布である。このようにしてスーパーピクセルの生成とスーパーピクセルのテクスチャ情報の抽出を同時に行うことができる。またこのテクスチャの分布情報を特徴量とし、後段であらためてスーパーピクセルのカテゴリーを判定する際に利用してもよい。
以上で本発明をスーパーピクセルの生成に応用した実施の形態についての説明を終える。
本発明は、入力された画像や音声や文書に含まれる識別対象を同定するパターン識別装置として、例えばデジタルカメラにおけるシーン認識や音声認識の装置として、自動的で詳細な情報獲得やデータの分類や二次利用などに役立てることができる。
101 データ入力部、102 構成要素分割処理部、
103 第一・第二の情報抽出処理部、104 構成要素識別処理部、
105 データ出力部、113 第一・第二の情報抽出処理部、
114 構成要素識別処理部

Claims (14)

  1. 入力パターンを一つ以上の構成要素に分割して構成要素ごとにパターン識別を行うパターン識別方法において、入力パターンのデータを取得するデータ入力工程と、入力パターンを複数の構成要素に分割する構成要素分割工程と、前記構成要素の情報を抽出する第一・第二の情報抽出処理工程と、前記二つの情報に基づいて前記構成要素を識別する構成要素識別処理工程と、前記識別の結果を統合して出力するデータ出力工程と
    からなり、前記第一・第二の情報抽出処理工程は前記構成要素自体に関する第一の情報と前記構成要素間の関係性に関する第二の情報とを共通する一つの処理工程によって同時に処理することを特徴とするパターン識別方法。
  2. 前記第一・第二の情報抽出処理工程は、前記第一の情報として構成要素の属性を抽出し前記第二の情報として構成要素間の近接度を抽出することを特徴とする請求項1に記載のパターン識別方法。
  3. 前記第一・第二の情報抽出処理工程は、前記構成要素の情報を抽出する際に使用するパラメータが事例データに基づいてあらかじめ学習的に決定してあることを特徴とする請求項1又は請求項2に記載のパターン識別方法。
  4. 前記データ入力工程は、取得する前記入力パターンが画像であり、前記構成要素分割工程は、前記画像を複数の局所領域に分割することを特徴とする請求項1乃至請求項3の何れか一項に記載のパターン識別方法。
  5. 前記構成要素分割工程は、前記画像を複数の不定形状の局所領域に分割することを特徴とする請求項1乃至請求項4の何れか一項に記載のパターン識別方法。
  6. 前記第一・第二の情報抽出処理工程は、多変数の目標変数を出力する識別器を備えることを特徴とする請求項1乃至請求項5の何れか一項に記載のパターン識別方法。
  7. 前記第一・第二の情報抽出処理工程は、一つ以上の決定木からなる識別器を一つ以上備えることを特徴とする請求項1乃至請求項6の何れか一項に記載のパターン識別方法。
  8. 前記パターン識別方法は、前記第一・第二の情報抽出処理工程と、前記構成要素識別処理工程と、を複数回繰り返すことを特徴とし、前記第一・第二の情報抽出処理工程は、前記構成要素識別処理工程での識別結果に応じて出力を変化させることを特徴とする請求項1乃至7の何れか一項に記載のパターン識別方法。
  9. 前記パターン識別方法は、前記第一・第二の情報抽出処理工程と、前記構成要素識別処理工程との間で所定のタイミングで信号を送ることを特徴とし、その結果に応じて前記第一・第二の情報抽出処理工程と前記構成要素識別処理工程とが出力を変化させることを特徴とする請求項1乃至請求項7の何れか一項に記載のパターン識別方法。
  10. 前記第一・第二の情報抽出処理工程は、一つ以上の決定木からなることを特徴とする請求項9に記載のパターン識別方法。
  11. 前記構成要素分割工程は、前記画像を複数の画素に分割し、前記構成要素識別処理工程は、抽出された前記第一の情報乃至前記第二の情報に基づいて前記画素をスーパーピクセルとして統合することを特徴とする請求項4乃至請求項10の何れか一項に記載のパターン識別方法。
  12. 前記構成要素識別処理工程は、前記第一の情報として画素の特徴を抽出することで前記スーパーピクセルの特徴を生成することを特徴とする請求項11に記載のパターン識別方法。
  13. 前記構成要素識別処理工程は、前記第一の情報として前記画素のテクスチャ特徴を抽出することを特徴とする請求項12に記載のパターン識別方法。
  14. 入力パターンを一つ以上の構成要素に分割して構成要素ごとにパターン識別を行うパターン識別装置において、入力パターンのデータを取得するデータ入力部と、入力パターンを複数の構成要素に分割する構成要素分割部と、前記構成要素の情報を抽出する第一・第二の情報抽出処理部と、前記二つの情報に基づいて前記構成要素を識別する構成要素識別処理部と、前記識別の結果を統合して出力するデータ出力部と
    を備え、前記第一・第二の情報抽出処理部は前記構成要素自体に関する第一の情報と前記構成要素間の関係性に関する第二の情報とを共通する一つの処理部によって同時に処理することを特徴とするパターン識別装置。
JP2015249148A 2015-12-22 2015-12-22 パターン識別方法及びその装置、そのプログラム Pending JP2017117025A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2015249148A JP2017117025A (ja) 2015-12-22 2015-12-22 パターン識別方法及びその装置、そのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015249148A JP2017117025A (ja) 2015-12-22 2015-12-22 パターン識別方法及びその装置、そのプログラム

Publications (1)

Publication Number Publication Date
JP2017117025A true JP2017117025A (ja) 2017-06-29

Family

ID=59231736

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015249148A Pending JP2017117025A (ja) 2015-12-22 2015-12-22 パターン識別方法及びその装置、そのプログラム

Country Status (1)

Country Link
JP (1) JP2017117025A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019016298A (ja) * 2017-07-10 2019-01-31 キヤノン株式会社 画像処理装置、画像処理方法
CN109919116A (zh) * 2019-03-14 2019-06-21 Oppo广东移动通信有限公司 场景识别方法、装置、电子设备及存储介质
CN110175590A (zh) * 2019-05-31 2019-08-27 北京华捷艾米科技有限公司 一种商品识别方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019016298A (ja) * 2017-07-10 2019-01-31 キヤノン株式会社 画像処理装置、画像処理方法
JP7142420B2 (ja) 2017-07-10 2022-09-27 キヤノン株式会社 画像処理装置、学習方法、学習済モデル、画像処理方法
CN109919116A (zh) * 2019-03-14 2019-06-21 Oppo广东移动通信有限公司 场景识别方法、装置、电子设备及存储介质
CN110175590A (zh) * 2019-05-31 2019-08-27 北京华捷艾米科技有限公司 一种商品识别方法及装置

Similar Documents

Publication Publication Date Title
CN109614985B (zh) 一种基于密集连接特征金字塔网络的目标检测方法
Wen et al. Directionally constrained fully convolutional neural network for airborne LiDAR point cloud classification
Costea et al. Creating roadmaps in aerial images with generative adversarial networks and smoothing-based optimization
Rouhani et al. Semantic segmentation of 3D textured meshes for urban scene analysis
WO2014205231A1 (en) Deep learning framework for generic object detection
CN108596195B (zh) 一种基于稀疏编码特征提取的场景识别方法
CN109840518B (zh) 一种结合分类与域适应的视觉追踪方法
Jung et al. Noisy and incomplete fingerprint classification using local ridge distribution models
CN117746260B (zh) 遥感数据智能解析方法及系统
CN112990282B (zh) 一种细粒度小样本图像的分类方法及装置
CN111311702A (zh) 一种基于BlockGAN的图像生成和识别模块及方法
Laha et al. Land cover classification using fuzzy rules and aggregation of contextual information through evidence theory
Munoz Inference Machines Parsing Scenes via Iterated Predictions
Ma et al. Space-time tree ensemble for action recognition and localization
Aissou et al. Building roof superstructures classification from imbalanced and low density airborne LiDAR point cloud
Jebari et al. Color and depth-based superpixels for background and object segmentation
JP2017117025A (ja) パターン識別方法及びその装置、そのプログラム
Wang et al. An efficient scene semantic labeling approach for 3D point cloud
eddine Agab et al. Dynamic hand gesture recognition based on textural features
Lin Semantic building façade segmentation from airborne oblique images
Tan Swarm Intelligence
Becanovic et al. Feature extraction from photographic images using a hybrid neural network
Xu et al. A novel mid-level distinctive feature learning for action recognition via diffusion map
Li et al. Primitive fitting using deep boundary aware geometric segmentation
Arevalo-Ramirez et al. Conditional random field features and structure assessment for digital terrain modeling