JP2016057918A

JP2016057918A - 画像処理装置、画像処理方法及びプログラム

Info

Publication number: JP2016057918A
Application number: JP2014184563A
Authority: JP
Inventors: 雅人青葉; Masahito Aoba
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2014-09-10
Filing date: 2014-09-10
Publication date: 2016-04-21
Also published as: US10395136B2; US20160070976A1

Abstract

【課題】撮影条件の変化等により画像特徴が変化する場合においても、精度よく画像を識別することを目的とする。【解決手段】１以上の第１の学習画像に基づいて、識別器を生成する第１の学習手段と、識別器による第１の学習画像の評価結果に基づいて、第１の学習画像から第２の学習画像を生成する画像生成手段と、第２の学習画像に基づいて、第１の学習手段により生成された識別器と異なる１以上の識別器を生成する第２の学習手段と、第１の学習画像及び第２の学習画像に基づいて、第１の学習手段が生成した識別器及び第２の学習手段が生成した識別器の適正度を判定する判定器を生成する判定器生成手段とを有することを特徴とする。【選択図】図１

Description

本発明は、画像処理装置、画像処理方法及びプログラムに関する。

従来、画像を複数の領域に分割する研究が多く行われてきた。近年では、画像から人物の領域、自動車の領域、道路の領域、建物の領域、空の領域等、意味的な領域を切り出す課題について、盛んに研究されている。このような課題は、意味的領域分割（ＳｅｍａｎｔｉｃＳｅｇｍｅｎｔａｔｉｏｎ）と呼ばれ、写っている物の種類に対応した画像補正や、シーン解釈等に応用できると考えられている。意味的領域分割を行うにあたり、画像の各位置に関するクラスラベルの識別を、画素単位ではなく、小領域（ｓｕｐｅｒｐｉｘｅｌ）単位で行うことは、既に一般的である。小領域は、主に類似した特徴を持つ小さな領域として画像から切り出されるもので、小領域を切り出す技術についても、様々な手法が提案されている。

代表的なものとして、非特許文献１のようなグラフベースの手法や、非特許文献２のようなクラスタリングベースの手法がある。このようにして得られた各小領域は、その小領域の内部の特徴量、またはその周辺のコンテクスト特徴量も一緒に用いてクラスラベルを識別することが行われる。通常は様々な学習画像を用いてこのような局所ベースの領域識別器を学習させることで領域識別を行う。

領域識別器を使って画像上の領域クラスを識別しようとすると、撮影状況によっては、同じクラスカテゴリの小領域であっても、画像特徴に変化が生じることがある。例えば、同じ雲であっても、昼間に撮影された雲は白く、夕日とともに撮影された雲は太陽の照り返しを受けてオレンジ色をしている。このような場合、夕焼け画像におけるオレンジ色の雲と昼間に撮影されたオレンジ色のテクスチャフルな壁は、特徴空間上では類似したものとなる。前述したように様々な学習画像を用いて領域判定器を学習しようとして、夕焼け画像とオレンジ色の壁を同時に学習させると、これらを分離することは困難な問題となる。

特許文献１には、課題を分けることで車両の角度や天気の変動等に対応して、車両を認識する技術が開示されている。この技術では、対象領域における水平線や垂直線の数、コントラストによって、それぞれの条件に対応するＳＶＭ（サポートベクトルマシン）を用意しておき、上記条件によってＳＶＭを切り換えることで車両認識を行う。この例では、上記のような条件に対して所定閾値で問題を切り換えることで、それぞれの認識問題を単純化している。

特許第４９４２５１０号公報

ＥｆｆｉｃｉｅｎｔＧｒａｐｈ−ＢａｓｅｄＩｍａｇｅＳｅｇｍｅｎｔａｔｉｏｎ，Ｐ．Ｆ．Ｆｅｌｚｅｎｓｚｗａｌｂ、ＩＪＣＶ２００４．ＳＬＩＣＳｕｐｅｒｐｉｘｅｌｓ，Ｒ．Ａｃｈａｎｔａ，Ａ．Ｓｈａｊｉ，Ｋ．Ｓｍｉｔｈ，Ａ．Ｌｕｃｃｈｉ，ＥＰＦＬＴｅｃｈｎｉｃａｌＲｅｐｏｒｔ，２０１０．

特許文献１の方法は、分割統治と呼ばれる考え方に従ったものであり、状況の変化等によって問題を切り分けて、解き方を変えるものである。しかしながら、条件によって問題を切り分ける際に、人が意図的にその条件を決定することが最適であるとは限らない。例えば、昼景と夕景を区別しようとしても、昼と夕方の境界は曖昧であって、明確に定義できるものではない。また、昼と夕方以外にも、切り分けることで問題が簡単になる状況があるかもしれないが、それを未然に知ることは難しい。

本発明はこのような問題点に鑑みなされたもので、撮影条件の変化等により画像特徴が変化する場合においても、精度よく画像を識別することを目的とする。

そこで、本発明は、画像形成装置であって、１以上の第１の学習画像に基づいて、識別器を生成する第１の学習手段と、前記識別器による前記第１の学習画像の評価結果に基づいて、前記第１の学習画像から第２の学習画像を生成する画像生成手段と、前記第２の学習画像に基づいて、前記第１の学習手段により生成された前記識別器と異なる１以上の識別器を生成する第２の学習手段と、前記第１の学習画像及び前記第２の学習画像に基づいて、前記第１の学習手段が生成した前記識別器及び前記第２の学習手段が生成した識別器の適正度を判定する判定器を生成する判定器生成手段とを有することを特徴とする。

本発明によれば、撮影条件の変化等により画像特徴が変化する場合においても、精度よく画像を識別することができる。

第１の実施形態に係る画像処理装置のソフトウェア構成を示す図である。画像識別処理を示すフローチャートである。画像識別処理の説明図である。学習データの説明図である。学習処理を示すフローチャートである。学習データセット生成処理を説明図である。第２の実施形態に係る学習データセット生成処理の説明図である。第２の実施形態に係る第２学習処理を示すフローチャートである。第３の実施形態に係る第２学習処理を示すフローチャートである。第５の実施形態に係る学習処理を示すフローチャートである。第５の実施形態に係る画像識別処理を示すフローチャートである。画像処理装置のハードウェア構成を示す図である。

以下、本発明の実施形態について図面に基づいて説明する。

（第１の実施形態）
図１は、第１の実施形態に係る画像処理装置のソフトウェア構成を示す図である。画像処理装置は、画像識別処理と、学習処理とを行う。ここで、画像識別処理とは、入力画像を空、人物、建物といった意味的領域（領域クラス）に分割する処理である。また、学習処理は、学習画像を用いて、画像識別処理において用いられる領域識別器を生成する処理である。本実施形態においては、画像処理装置は、複数の領域識別器を生成し、さらに、画像識別処理において、各領域識別器の入力画像に対する適正度を判定するための判定器も作成する。

まず、画像識別処理に係る構成について説明する。画像設定部１００は、画像識別処理の対象となる入力画像を設定する。画像特徴抽出部１０１は、入力画像全体に対する大域的な画像特徴を抽出する。判定部１０２は、判定器記憶部１１０に予め記憶されている判定器を用いて、入力画像を処理するのに適した領域識別器を選択する。領域分割部１０３は、入力画像を複数の小領域に分割する。ここで、小領域は、主に類似した特徴を示す小さな領域として画像から切り出されるものである。小領域に分割するための処理として代表的なものとして、非特許文献１に示されるグラフベースの手法や、非特許文献２に示されるクラスタリングベースの手法が挙げられる。小領域に分割するための処理は、特に限定されるものではない。領域特徴抽出部１０４は、各小領域から領域特徴を抽出する。識別部１０５は、入力画像の領域を識別する。すなわち、識別部１０５は、判定部１０２で選択された領域識別器を領域識別器記憶部１１１から読み出し、領域特徴抽出部１０４にて抽出された領域特徴量を用いて各小領域の領域クラスを推定する。識別部１０５で得られた各小領域の領域クラスは、出力部１０６にて出力される。領域識別器記憶部１１１は、後述の学習処理において生成された複数の領域識別器を記憶する。判定器記憶部１１０は、学習処理において生成された各領域識別器に対応して生成された複数の判定器を記憶する。

次に、学習処理に係る構成について説明する。学習データ記憶部１１２は、予め用意された学習用の画像（学習画像）と、領域教師データとを記憶している。学習データは、複数の学習画像と、領域教師データとを含む。学習データ設定部１２０は、学習データ記憶部１１２から学習データを読み込み、それぞれの学習画像を小領域に分割し、小領域の特徴量である領域特徴と画像全体の特徴である画像特徴とを抽出する。第１学習部１２１は、与えられた学習画像すべてにおける小領域の領域特徴と領域ラベルに基づいて学習処理を行い、領域識別器を生成し、生成した領域識別器を領域識別器記憶部１１１に記憶する。

評価部１２２は、第１学習部１２１にて生成された領域識別器を用いて、与えられているすべての学習画像に対して領域識別を行う。そして、評価部１２２は、領域識別の結果を領域教師データと比較することで評価を行う。データセット生成部１２３は、評価部１２２における評価結果に基づいて、与えられている学習画像から新たな学習画像（学習データセット）を生成する。第２学習部１２４は、データセット生成部１２３により生成されたそれぞれの学習データセットを用いて学習処理を行い、領域識別器を生成し、生成した領域識別器を領域識別器記憶部１１１に記憶する。

対応付部１２５は、第１学習部１２１及び第２学習部１２４により得られた領域識別器を用いて、すべての学習画像に対して領域識別を行う。そして、対応付部１２５は、識別結果を領域教師データと比較した結果に基づき、それぞれの学習画像を判定器のカテゴリへと対応付ける。第３学習部１２６は、対応付けられた学習画像に基づき、領域識別器の適正度を出力する判定器を学習する。第３学習部１２６は、学習により得られた判定器を判定器記憶部１１０に記憶する。第３学習部１２６は、対応付部１２５でいずれかのカテゴリに対応付けされた学習画像を学習データから取り除く。残った学習画像は、学習データとして、再び第１学習部１２１において、処理が行われる。

図２は、画像処理装置による画像識別処理を示すフローチャートである。Ｓ２００において、画像設定部１００は、入力画像を処理対象として設定する。なお、処理対象となる入力画像は、カメラ等の撮像装置から与えられるものでもよいし、予め画像処理装置のハードディスク等のストレージに保存されていた画像であってもよい。このように、入力画像の取得方法は、特に限定されるものではない。図３に示す３００は、入力画像の一例である。

次に、Ｓ２０１において、画像特徴抽出部１０１は、入力画像から画像全体の画像特徴を抽出する。画像特徴としては、画像全体の色ヒストグラムや勾配ベクトル方向のヒストグラムによるＢｏＷ（ＢａｇｏｆＷｏｒｄｓ）特徴や、フィッシャーベクトル等を用いることができる。画像特徴の種類は、実施形態に限定されるものではない。ここでは、入力画像Ｉから得られた画像特徴をＦとする。

次に、Ｓ２０２において、判定部１０２は、画像特徴Ｆに基づいて、入力画像Ｉの領域分割に適した領域識別器を選択する。具体的には、判定部１０２は、まず、判定器記憶部１１０から、後述する学習処理によって予め得られている判定器ｇを読み込む。判定器ｇは、画像特徴Ｆを入力とし、各領域識別器の適正度ベクトルｇ（Ｆ）を出力する。適正度ベクトルｇ（Ｆ）は、領域識別器の総数Ｎ＿ｓに対してＮ＿ｓ次元のベクトルである。適正度ベクトルｇ（Ｆ）の各要素は、各領域識別器に対する適正度であり、適正度ベクトルｇ（Ｆ）は、（式１）により得られる。

ここで、ｇ＿ｓ（Ｆ）（ｓ＝１，…，Ｎ＿ｓ）は、ｓ番目の領域識別器に対する適正度である。また、Ｎ＿ｓは、領域識別器の総数であり、後述する学習処理において決定される。判定結果は、（式２）に示すように、この適正度ｇ＿ｓ（Ｆ）が最大となる領域識別器のインデックスｓ（Ｉ）として得られる。

すなわち、判定部１０２は、インデックスｓ（Ｉ）より特定される領域識別器を、入力画像Ｉの領域分割に適した領域識別器として選択する。ここで、Ｓ２０２の処理は、判定器により出力される適正度に基づいて、複数の領域識別器の中から、入力画像に対する処理に用いる識別器を選択する選択処理の一例である。

次に、Ｓ２０３において、領域分割部１０３は、入力画像Ｉを小領域に分割する。ここでは、入力画像Ｉを分割することにより得られた小領域の数をＫとする。図３に示す３１０は、入力画像３００に対して得られた小領域分割の結果の一例である。次に、Ｓ２０４において、領域特徴抽出部１０４は、各小領域の領域クラスを識別するための領域特徴を抽出する。領域特徴としては、小領域内部における色平均値や色ヒストグラム、小領域の位置や大きさ、ＬＢＰ（ＬｏｃａｌＢｉｎａｒｙＰａｔｔｅｒｎｓ）等のテクスチャ特徴等が挙げられる。領域特徴の種類は、特に限定されるものではない。領域特徴抽出部１０４はまた、領域特徴として、小領域の周囲に関するコンテクスト特徴を用いてもよい。ここで、小領域ＳＰ＿ｋ（ｋ＝１・・・Ｋ）から抽出された領域特徴をｘ＿ｋとする。

なお、Ｓ２０１とＳ２０２の処理と、Ｓ２０３とＳ２０４の処理とは、互いに独立する処理であり、両処理の実行順番は、実施形態に限定されるものではない。他の例としては、Ｓ２０１とＳ２０２の処理の前に、Ｓ２０３とＳ２０４の処理を実行してもよい。また、他の例としては、Ｓ２０１とＳ２０２の処理と、Ｓ２０３とＳ２０４の処理とを同時に実行してもよい。

次に、Ｓ２０５において、識別部１０５は、Ｓ２０２において選択された領域識別器と、各小領域において得られた領域特徴と、に基づき、入力画像の領域識別を行う。具体的には、識別部１０５は、Ｓ２０２において選択された領域識別器ｆ＿ｓ（Ｉ）を、領域識別器記憶部１１１から読み込む。ここで、領域識別器記憶部１１１には、後述する学習処理によって予め得られた、Ｎ＿ｓ個の領域識別器ｆ＿ｓ（ｓ＝１，，，Ｎ＿ｓ）が記憶されているものとする。識別部１０５は、読み込まれた領域識別器ｆ＿ｓ（Ｉ）に対して、それぞれの小領域ＳＰ＿ｋに関する領域特徴ｘ＿ｋを入力とし、領域クラスのスコアベクトルｆ＿｛ｓ（Ｉ）｝（ｘ＿ｋ）を出力する。ここで、スコアベクトルｆ＿｛ｓ（Ｉ）｝（ｘ＿ｋ）は、領域クラスの総種類数Ｎ＿ｃに対してＮ＿ｃ次元のベクトルである。スコアベクトルｆ＿｛ｓ（Ｉ）｝（ｘ＿ｋ）の各要素は、各領域クラスに対するスコアである。ｃ番目の領域クラスに対するスコアをｆ＿｛ｓ（Ｉ），ｃ｝（ｘ＿ｋ）（ｃ＝１・・・Ｎ＿ｃ）と記述することとすると、スコアベクトルは、（式３）により得られる。

識別部１０５は、各小領域ＳＰ＿ｋに対する領域識別結果を、（式４）に示すように、スコアｆ＿｛ｓ（Ｉ），ｃ｝（ｘ＿ｋ）が最大となるクラスｃ＿ｋとして得る。

識別部１０５は、入力画像に含まれるすべての小領域ＳＰ＿ｋ（ｋ＝１・・・Ｋ）に関して領域識別器ｆ＿ｓ（Ｉ）を適用し、すべての領域識別結果ｃ＿ｋを得ると、Ｓ２０５の処理を終了する。図３に示す３２０は、領域識別処理の結果の一例である。ここで、Ｓ２０５の処理は、領域識別処理の一例である。

次に、Ｓ２０６において、出力部１０６は、Ｓ２０５において得られた領域識別結果を出力する。なお、出力形態は、特に限定されるものではない。例えば、領域識別結果をユーザが目視により確認する場合には、出力部１０６は、領域識別結果として得られた領域クラスを色で分けて画面に出力する。また、他の例としては、出力部１０６は、領域識別結果を利用してタグ付け等他の処理を行う場合には、小領域ＳＰ＿ｋの位置情報と領域識別結果ｃ＿ｋをそのまま次の処理に対して出力する。以上で、画像識別処理が終了する。

上記のような画像識別処理を行うためには、領域識別器ｆ＿ｓ（ｓ＝１・・・Ｎ＿ｓ）と領域識別器の適正度を判定する判定器ｇと、が、それぞれ、領域識別器記憶部１１１と判定器記憶部１１０とに記憶されている必要がある。これらは学習処理によって生成される。以下、学習処理について説明する。図４は、学習データの説明図である。学習データは、図４（ａ）に示す学習画像４００と、図４（ｂ）に示す領域教師データ４１０とを含んでいる。ここで、領域教師データ４１０は、学習画像４００を入力画像とした場合に最終的に獲得したい所望の領域クラスが各画素に対して付与された情報である。領域教師データの領域クラスは、ＭＳＲＣ−２１データセット等で一般的に用いられているような、空（ｓｋｙ）、人物（ｂｏｄｙ）、建物（ｂｕｉｌｄｉｎｇ）、といった意味的なクラスである。また、他の例としては、平坦領域、テクスチャ領域、といった見た目の違いによるクラスであってもよい。

学習データ記憶部１１２には、予めＮ枚の学習画像Ｉ＿ｎ（ｎ＝１，…，Ｎ）と、それぞれの学習画像の領域に対する領域教師データが記憶されているものとする。（式５）に示すように、これらすべての学習画像の集合をＵ＿０とする。

領域クラスは、全部でＮ＿ｃ種類あるものとする。また、学習画像Ｉ＿ｎに対応する領域教師データをＧＴ＿ｎとする。

図５は、画像処理装置による、学習処理を示すフローチャートである。Ｓ５００において、画像処理装置の学習データ設定部１２０は、学習データ設定処理を行う。学習データ設定処理は、画像特徴量抽出処理（Ｓ５０１）、領域分割処理（Ｓ５０２）及び領域特徴抽出処理（Ｓ５０３）を含んでいる。Ｓ５０１において、学習データ設定部１２０は、学習データ記憶部１１２に記憶されている各学習画像から画像全体の画像特徴を抽出する。学習データ設定部１２０は、図２に示す画像識別処理のＳ２０１の処理において抽出される画像特徴と同じ種類の特徴を抽出する。ここで、学習画像Ｉ＿ｎから抽出された画像特徴をＦ＿ｎとする。

次に、Ｓ５０２において、学習データ設定部１２０は、各学習画像を小領域に分割する。学習データ設定部１２０は、画像識別処理におけるＳ２０３の処理と同じ手法により、小領域に分割する。画像Ｉ＿ｎに対する小領域分割結果として、Ｋ＿ｎ個の小領域が生成されたものとし、学習用の小領域の総数をＫ＿ａｌｌ＝ΣＫ＿ｎ個とする。また、学習画像の小領域を通し番号でＳＰ＿ｊ（ｊ＝１，，，Ｋ＿ａｌｌ）とする。次に、Ｓ５０３において、学習データ設定部１２０は、Ｓ５０２において得られたすべての学習画像それぞれに対するすべての小領域ＳＰ＿ｊ（ｊ＝１，，，Ｋ＿ａｌｌ）から領域特徴を抽出する。学習データ設定部１２０は、画像識別処理におけるＳ２０４の処理において抽出される領域特徴と同じ種類の特徴を抽出する。小領域ＳＰ＿ｊから抽出された領域特徴をｘ＿ｊとする。初期学習データセットＳ＿０は、すべての学習小領域を含んだものとし、（式６）により得られる。

以下、Ｓ５０４〜Ｓ５０９の処理は、繰り返し処理である。繰り返し回数のカウンタをｔとし、初期状態でｔ＝１とする。最初の繰り返し時（ｔ＝１）には、学習データ設定部１２０は、学習画像集合Ｕ＿１＝Ｕ＿０、学習データセットＳ＿１＝Ｓ＿０と初期化しておく。２回目以降の繰り返し（ｔ＝２，３，…）では、Ｕ＿ｔ及びＳ＿ｔの更新は後述するＳ５０９において行われる。

Ｓ５０４において、第１学習部１２１は、領域識別器を学習する。第１学習部１２１は、小領域集合Ｓ＿ｔに含まれるすべての小領域を学習対象として用いる。第１学習部１２１は、まず小領域に対する教師ベクトルを算出する。小領域ＳＰ＿ｊが学習画像Ｉ＿ｎから分割されたとし、ＧＴ＿ｎの小領域ＳＰ＿ｊに対応する位置において、多くの面積を占める領域クラスラベルをｃ＿ｊとする。この場合、小領域ＳＰ＿ｊに対する教師ベクトルτ＿ｊは（式７）により得られる。

ここで、τ＿｛ｊ，ｋ｝は、（式８）により得られる。

第１学習部１２１は、教師ベクトルの設定として、上記のように１又は０に設定するのではなく、実数値を与えてもよい。例えば、ＧＴ＿ｎの小領域ＳＰ＿ｊに対応する位置における領域クラスラベルの面積比がｒ＿ｃ（ｃ＝１，，，Ｎ＿ｃ；Σｒ＿ｃ＝１）となっていた場合に、第１学習部１２１は、教師ベクトルτ＿ｊを（式９）から算出してもよい。

第１学習部１２１は、識別関数に対して領域特徴ｘ＿ｊを入力したときに得られる出力ベクトルと教師ベクトルτ＿ｊの誤差が、全学習データを通して小さくなるように識別関数のパラメータを調整して、領域識別器を生成する。識別関数のモデルとその学習方法は、特に限定されるものではない。第１学習部１２１は、例えばＳＶＭや多層ニューラルネットワーク、ロジスティック回帰等を用いてもよい。第１学習部１２１は、学習により得られた領域識別器をｆ＿｛ｔ，０｝として領域識別器記憶部１１１に記録する。ここで、Ｓ５０４は、学習画像に基づいて、識別器を生成する学習処理の一例である。

次に、Ｓ５０５において、評価部１２２は、Ｓ５０３において生成された領域識別器ｆ＿｛ｔ，０｝を用いて、学習データを評価する。具体的には、評価部１２２は、画像特徴ｘ＿ｊを領域識別器ｆ＿｛ｔ，０｝に入力し、その出力として（式１０）に示すスコアベクトルｆ＿｛ｔ，０｝（ｘ＿ｊ）を得る。

評価部１２２は、（式１０）を用いて、すべての領域特徴ｘ＿ｊ（ｊ＝１，，，Ｋ＿ａｌｌ）のスコアベクトルを算出する。すなわち、評価部１２２は、Ｋ＿ａｌｌ個のスコアベクトルｆ＿｛ｔ，０｝（ｘ＿ｊ）（ｊ＝１，…，Ｋ＿ａｌｌ）を得る。

次に、Ｓ５０６において、データセット生成部１２３は、Ｓ５０５における評価結果に基づいて、撮影条件等の変動に応じた領域識別器を学習させるための学習画像のデータセットを生成する。図６は、学習データセット生成処理を説明図である。図６においては、簡単のためＮ＿ｃ＝２としている。図６に示す６００は、小領域集合Ｓ＿ｔの特徴空間における分布を表わしている。６０１は、１番目の領域クラス（ｃ＝１）の分布を表している。６０２は、２番目の領域クラス（ｃ＝２）の分布を表している。６０３は、両領域クラスの識別境界である。識別境界６０３上ではｆ＿｛ｔ，０，１｝＝ｆ＿｛ｔ，０，２｝となる。

データセット生成部１２３は、評価結果として得られたすべての学習用小領域に対するスコアベクトルｆ＿｛ｔ，０｝（ｘ＿ｊ）（ｊ＝１，…，Ｋ＿ａｌｌ）に基づき、以下のように学習用小領域を、２つの画像群、正解データと不正解データに分割する。すなわち、データセット生成部１２３は、学習用小領域ＳＰ＿ｊに対し、（式１１）により評価値ｓｃｏｒｅｄｉｆ＿ｊを算出する。

評価値ｓｃｏｒｅｄｉｆ＿ｊは、大きな値であるほど良く識別できていることを表わしている。また、この評価値ｓｃｏｒｅｄｉｆ＿ｊが負の値を取る場合には、小領域ＳＰ＿ｊは誤識別されたことを意味する。データセット生成部１２３は、（式１２）に示すように、評価値ｓｃｏｒｅｄｉｆ＿ｊが、所定の閾値以上であれば学習用小領域ＳＰ＿ｊを「正解データ」とする。データセット生成部１２３は、（式１３）に示すように、評価値ｓｃｏｒｅｄｉｆ＿ｊが、閾値未満である場合には、学習用小領域ＳＰ＿ｊを「不正解データ」とする。なお、閾値としては、例えば、θ＝０．３とする。このようにして、データセット生成部１２３は、学習用小領域ＳＰ＿ｊを、正解データセットＳ＿ｔｒｕｅと不正解データセットＳ＿ｆａｌｓｅとに分割する。

図６の６０４及び６０５は、Ｓ＿ｔｒｕｅ及びＳ＿ｆａｌｓｅの境界であって、ｓｃｏｒｅｄｉｆ＿ｊ＝θとなる位置である。（式１２）及び（式１３）により、図６の６００で表わされる小領域集合Ｓ＿ｔは、６１０ａ，６１０ｂで表わされる画像群（成功データセット）と６２０で表わされる画像群（不正解データセット）とに分割される。

さらに、データセット生成部１２３は、（式１４）により、不正解データセットＳ＿ｆａｌｓｅを領域クラス毎に分割する。

図６の６３０及び６４０は、６２０で表わされる不正解データセットＳ＿ｆａｌｓｅを、（式１４）に従って、Ｓ＿｛ｆａｌｓｅ，１｝とＳ＿｛ｆａｌｓｅ，２｝に分割した様子を表わしている。データセット生成部１２３は、これらのデータセットを利用して、（式１５）により、領域クラスｃの学習データセットを生成する。すなわち、データセット生成部１２３は、領域クラスｃの正解データセットと、不正解データセットのうち、正解データセットに対応する領域、すなわち領域クラスｃの画像群とを組み合わせて、新たな学習画像を生成する。

図６の６５０及び６６０は、（式１５）に従って生成されたＳ＿｛ｔ，１｝及びＳ＿｛ｔ，２｝を表わしている。なお、Ｓ５０６の処理は、識別器による学習画像の評価結果に基づいて、１以上の学習画像から少領域単位で画像を抽出し、これを新たな学習画像として生成する画像生成処理の一例である。

次に、Ｓ５０７において、第２学習部１２４は、Ｓ５０６において生成された学習データセットを用いて、領域識別器を学習する。具体的には、第２学習部１２４は、学習データセットＳ＿｛ｔ，ｃ｝（ｃ＝１，…，Ｎ＿ｃ）それぞれを用いて学習を行い、Ｎ＿ｃ個の領域識別器を生成する。学習データセットＳ＿｛ｔ，ｃ｝によって学習された領域識別器をｆ＿｛ｔ，ｃ｝とする。それぞれの学習データセットにおける学習方法は、Ｓ５０３における第１学習処理と同様である。第２学習部１２４は、生成した領域識別器ｆ＿｛ｔ，ｃ｝（ｃ＝１，，，Ｎ＿ｃ）を領域識別器記憶部１１１に記録する。ここで、Ｓ５０７の処理は、新たに生成された学習画像に基づいて、識別器を生成する学習処理の一例である。

次に、Ｓ５０８において、対応付部１２５は、Ｓ５０３及びＳ５０７において生成された領域識別器に対して学習画像を対応付ける。具体的には、対応付部１２５は、Ｓ５０３で生成された領域識別器ｆ＿｛ｔ，０｝と、Ｓ５０７で生成された領域識別器ｆ＿｛ｔ，ｃ｝（ｃ＝１，…，Ｎ＿ｃ）と、を処理対象とする。すなわち、対応付部１２５は、これらＮ＿ｃ＋１個の領域識別器ｆ＿｛ｔ，γ｝（γ＝０，…，Ｎ＿ｃ）を処理対象とする。そして、対応付部１２５は、それぞれの領域識別器に対して、初期学習画像集合Ｕ＿０におけるすべての学習画像Ｉ＿ｎ（ｎ＝１，…，Ｎ）を入力させたときの結果を出力する。そして、対応付部１２５は、得られた領域識別結果を、領域教師データＧＴ＿ｎと比較して認識率で評価する。認識率の定義としては、例えば、出力された各画素の領域クラスと領域教師データを比較したときに、領域クラスが一致した画素数の全体画素数に対する割合で表わされるｐｉｘｅｌａｃｃｕｒａｃｙが挙げられる。認識率の定義としてはまた、各領域クラスに関する再現率と適合率を求めてその調和平均をとるＦ値等が挙げられる。認識率の定義は、特に限定されるものではない。

ここで、学習画像Ｉ＿ｎに対する領域識別器ｆ＿｛ｔ，γ｝の認識率をＲ＿｛ｎ，γ｝とする。対応付部１２５は、認識率が所定の閾値η（例えばη＝０．９）以上の場合には、学習画像Ｉ＿ｎを領域識別器ｆ＿｛ｔ，γ｝に対応するポジティブ画像とし、（式１６）によりポジティブ画像集合Ｔ＿｛ｔ，γ｝を生成する。

対応付部１２５はさらに、（式１７）により、上記ポジティブ画像集合Ｔ＿｛ｔ，γ｝（γ＝０，…，Ｎ＿ｃ）に含まれる学習画像を学習画像集合Ｕ＿ｔから除いたものを、次ループの学習画像集合Ｕ＿｛ｔ＋１｝とする。

ここで、学習画像集合Ｕ＿｛ｔ＋１｝に含まれる学習画像から得られる小領域の集合を、Ｓ＿｛ｔ＋１｝とする。Ｓ５０９において、対応付部１２５は、Ｕ＿｛ｔ＋１｝が空集合であれば、繰り返し処理を終了し、処理をＳ５１０へ進める。一方、対応付部１２５は、Ｕ＿｛ｔ＋１｝が空集合でなければ、繰り返しカウンタｔの値をインクリメントし、処理をＳ５０３へ進める。

次に、Ｓ５１０において、第３学習部１２６は、Ｓ５０３及びＳ５０７において生成された各領域識別器に対する判定器を学習する。判定器は、対応する領域識別器の適正度を出力するものである。ここで、簡単のため、Ｓ５０３及びＳ５０７において生成されたすべての領域識別器ｆ＿｛ｔ，γ｝のインデクスを通し番号で書き直すこととする。生成された領域識別器の数を、Ｎ＿ｓとし、領域識別器のインデクスを振り直した表記をｆ＿ｓ（ｓ＝１，・・・，Ｎ＿ｓ）とする。同様に、ポジティブ画像集合Ｔ＿｛ｔ，γ｝のインデクスをＴ＿ｓ（ｓ＝１，・・・，Ｎ＿ｓ）と表記し直す。なお、前述の画像識別処理時の表記は、この振り直したインデクスに従うものとする。

第３学習部１２６は、初期学習画像集合Ｕ＿０におけるすべての学習画像Ｉ＿ｎ（ｎ＝１，・・・，Ｎ）対して、（式１８）に示す適正度の教師信号ρ＿ｎを求めれる。ρ＿｛ｎ，ｓ｝は、（式１９）により得られる。

第３学習部１２６は、Ｓ５０１において抽出された画像特徴Ｆ＿ｎ（ｎ＝１・・・Ｎ）を入力として、教師信号ρ＿ｎ（ｎ＝１・・・Ｎ）に基づいて、領域識別器の適正度を判定する判定器を学習する。判定器のモデルとしては、領域識別器と同様に、ＳＶＭや多層ニューラルネットワーク、ロジスティック回帰等が挙げられる。判定器の種類は、特に限定されるものではない。判定器は、領域識別器と同じモデルであってもよいし、別のモデルであってもよい。例えば、領域識別器はＳＶＭで生成されたものであって、判定器はロジスティック回帰で生成されたものであってもよい。第３学習部１２６は、学習により得られた判定器をｇとして、判定器記憶部１１０に記憶する。以上で、学習処理が終了する。なお、Ｓ５１０の処理は、学習画像に基づいて、識別器の適正度を判定する判定器を生成する判定器生成処理の一例である。

以上のように、学習処理において、判定器ｇ及び領域識別器ｆ＿ｓ（ｓ＝１・・・Ｎ＿ｓ）が生成され、それぞれ判定器記憶部１１０及び領域識別器記憶部１１１に記録される。これにより、画像処理装置は、前述の画像識別処理を行うことが可能となる。
このように、第１の実施形態に係る画像処理装置は、例えば、昼空と夕空等の撮影条件等によって画像の特徴が変化する場合にも、各撮影画像に適した領域判定を行うことができるような学習画像を自動的に生成することができる。すなわち、画像処理装置は、状況に応じた領域識別器を生成することができる。画像処理装置は、さらに状況を選択することにより、領域識別の精度を向上させることができる。このように、画像処理装置は、撮影条件の変化等により画像特徴が変化する場合においても、精度よく画像を識別することができる。

（第２の実施形態）
第１の実施形態に係る画像処理装置は、不正解データを領域クラス毎に分けて各々を正解データと組み合わせることで学習データセットを生成する。これに対し、第２の実施形態に係る画像処理装置は、不正解データをさらに細かく分割して、小領域データを少しずつ追加していくことで学習データセットを生成する。以下、第２の実施形態に係る画像処理装置について説明する。第２の実施形態に係る画像処理装置は、第１の実施形態に係る画像処理装置とは、図５に示す学習データセット生成処理（Ｓ５０６）及び第２学習処理（Ｓ５０７）における処理が異なっている。ここでは、第２の実施形態に係る画像処理装置について、第１の実施形態に係る画像処理装置と異なる点について説明する。

図７は、第２の実施形態に係る画像処理装置による、学習データセット生成処理（Ｓ５０６）の説明図である。ここでは、簡単のため、クラス数をＮ＿ｃ＝２とする。Ｓ５０６において、データセット生成部１２３は、まず（式１１）に従い、学習用小領域ＳＰ＿ｊの正解の領域クラスｃ＿ｊに対する他の領域クラスのスコアと比較した評価値ｓｃｏｒｅｄｉｆ＿ｊを算出する。次に、データセット生成部１２３は、（式１２）及び（式１３）に従い、成功データセットＳ＿ｔｒｕｅ及び不正解データセットＳ＿ｆａｌｓｅを生成する。さらに、データセット生成部１２３は、不正解データセットＳ＿ｆａｌｓｅを（式１４）に従い、領域クラス毎に分割し、Ｓ＿｛ｆａｌｓｅ，ｃ｝（ｃ＝１・・・Ｎ＿ｃ）を生成する。

そして、データセット生成部１２３は、領域クラス毎の不正解データセットＳ＿｛ｆａｌｓｅｉ，ｃ｝を、特徴空間上でそれぞれクラスタリングする。クラスタリング手法は既存の手法でよく、特に限定されるものではない。クラスタリング手法としては、例えばｋ−ｍｅａｎｓや凝集的クラスタリング、階層クラスタリング等が挙げられる。図７の７００は、図６に示す不正解データ６３０のクラスタリング結果である。ここで、クラスｃにおけるクラスタ数をＬ＿ｃとし、各クラスタのインデックスをｌとする。また、領域クラスｃにおけるｌ番目のクラスタをＣＬ＿｛ｃ，ｌ｝（ｌ＝１・・・Ｌ＿ｃ）と表わす。

次に、データセット生成部１２３は、各クラスタＣＬ＿｛ｃ，ｌ｝に関して、（式２０）により、各評価値ｓｃｏｒｅｄｉｆ＿ｊの総和Ｄ＿｛ｃ，ｌ｝を計算する。

Ｄ＿｛ｃ，ｌ｝の値は、クラスタＣＬ＿｛ｃ，ｌ｝に属する小領域が、領域クラスｃに対してどのくらい正しく判定できているかを表わしている。領域クラスｃにおけるクラスタの中で、この値が最も大きなクラスタのインデックスをｌｍａｘとする。ｌｍａｘは、（式２１）のように表される。

領域クラスｃに関してＤ＿｛ｃ，ｌ｝の最も大きなクラスタは、ＣＬ＿｛ｃ，ｌｍａｘ｝と表わされる。

図８は、第２の実施形態に係る画像処理装置による、第２学習処理（Ｓ５０７）における詳細な処理を示すフローチャートである。Ｓ８００〜Ｓ８０４の処理は、各領域クラスｃ（ｃ＝１・・・Ｎ＿ｃ）に対して行われる繰り返し処理である。第２学習部１２４は、繰り返し処理の最初に、まず残クラスタ集合Ｖ＿ｃを、全クラスタＣＬ＿｛ｃ，ｌ｝（ｌ＝１・・・Ｌ＿ｃ）を含む集合として初期化しておく。残クラスタ集合Ｖ＿ｃは、（式２２）により表される。

Ｓ８００において、第２学習部１２４は、（式２３）に示すように、クラスタＣＬ＿｛ｃ，ｌｍａｘ｝に含まれるすべての小領域とＳ＿ｔｒｕｅの和集合を、学習データセットＳ＿｛ｔ，ｃ｝とする。すなわち、第２学習部１２４は、クラスタＣＬ＿｛ｃ，ｌｍａｘ｝のすべての小領域とＳ＿ｔｒｕｅとを組み合わせて、新たな学習画像を生成する。

図７における７１０ａ，７１０ｂは、（式２３）により得られる、正解データ６１０ａ，６１０ｂと、７０１で表わされるＣＬ＿｛ｃ，ｌｍａｘ｝の和集合、すなわち学習データセットＳ＿｛ｔ，ｃ｝を表わしている。

次に、Ｓ８０１において、第２学習部１２４は、Ｓ８００において得られた学習データセットＳ＿｛ｔ，ｃ｝を用いて、領域識別器ｆ＿｛ｔ，ｃ｝を学習する。領域識別器を学習する処理は、第１の実施形態における第２学習処理（Ｓ５０７）において領域識別器を学習する処理と同様である。次に、Ｓ８０２において、第２学習部１２４は、Ｓ８００において追加したクラスタＣＬ＿｛ｃ，ｌｍａｘ｝の要素である小領域を、領域分割器ｆ＿｛ｔ，ｃ｝に入力したときの識別結果を算出する。具体的には、第２学習部１２４は、（式１１）により各小領域における評価値ｓｃｏｒｅｄｉｆの値を算出する。第２学習部１２４は、さらに得られた値のクラスタＣＬ＿｛ｃ，ｌｍａｘ｝内における総和Ｄ＿｛ｃ，ｌｍａｘ｝を算出する。

Ｓ８０３において、第２学習部１２４は、総和Ｄ＿｛ｃ，ｌｍａｘ｝の値が所定の閾値ζ（例えばζ＝０．３）以上であれば、処理をＳ８０４へ進める。一方、第２学習部１２４は、総和Ｄ＿｛ｃ，ｌｍａｘ｝の値が所定の閾値ζ未満であった場合、領域識別器ｆ＿｛ｔ，ｃ｝を前の繰り返し時における状態に戻し、領域識別器記憶部１１１に記憶する。そして、Ｓ８０５において、第２学習部１２４は、未処理の領域クラスｃが存在する場合には、処理をＳ８００へ進め、未処理の領域クラスｃを処理対象として、処理を継続する。

Ｓ８０４において、第２学習部１２４は、（式２４）に示すように、残クラスタ集合Ｖ＿ｃからＣＬ＿｛ｃ，ｌｍａｘ｝を差し引いて更新する。

そして、第２学習部１２４は、残クラスタ集合Ｖ＿ｃに属するすべての小領域データに関して、領域識別器ｆ＿｛ｔ，ｃ｝よる評価を行う。第２学習部１２４は、評価結果に基づいて、残クラスタＶ＿ｃの要素であるクラスタの中から（式２０）及び（式２１）に従ってＣＬ＿｛ｃ，ｌｍａｘ｝を再決定し、処理をＳ８００へ進める。図７の７２０ａ，７２０ｂは、クラスタ追加処理（Ｓ８００）が繰り返されることにより、クラスタ７０２が追加されて更新された学習データセットＳ＿｛ｔ，ｃ｝を表わしている。第２学習部１２４は、すべての領域クラスｃに関する繰り返し処理を終えると、図５に示す対応付け処理（Ｓ５０８）へと処理を進める。なお、第２の実施形態に係る画像処理装置のこれ以外の構成及び処理は、第１の実施形態に係る画像処理装置の構成及び処理と同様である。

（第３の実施形態）
第１、第２の実施形態に係る画像処理装置は、学習データを小領域単位で扱うのに対し、第３の実施形態に係る画像処理装置は、学習データを画像単位で扱う。以下、第３の実施形態に係る画像処理装置について説明する。第３の実施形態に係る画像処理装置は、第１の実施形態に係る画像処理装置とは、図５に示す学習データセット生成処理（Ｓ５０６）及び第２学習処理（Ｓ５０７）における処理が異なっている。ここでは、第３の実施形態に係る画像処理装置について、第１、第２の実施形態に係る画像処理装置と異なる点について説明する。

第２学習部１２４は、学習データセット生成処理（Ｓ５０６）において、評価処理（Ｓ５０５）における評価結果に基づいて、撮影状況の変動等に応じた領域識別器を学習させるためのデータセットを生成する。具体的には、第２学習部１２４は、（式１１）に従い、学習用小領域ＳＰ＿ｊの評価値ｓｃｏｒｅｄｉｆ＿ｊを算出し、（式１２）に従い、成功データＳ＿ｔｒｕｅを生成する。次に、第２学習部１２４は、学習画像集合Ｕ＿ｔに含まれる画像Ｉ＿ｎの、領域クラスｃに対する占有度Ｅ＿｛ｎ，ｃ｝を（式２５）により算出する。

ここでＡ＿ｊは、小領域ＳＰ＿ｊの面積とする。δはクロネッカーデルタであって、（式２６）のように表わされる。

（式２５）の値は、画像Ｉ＿ｎが領域クラスｃに対してどのくらい正しく判定できているかを表わしている。この値が最も大きな画像のインデックスをｃｍａｘとする。ｃｍａｘは、（式２７）のように表される。

Ｅの値が最も大きな画像は、Ｉ＿ｃｍａｘと表わされる。

図９は、第３の実施形態に係る画像処理装置による、第２学習処理（Ｓ５０７）における詳細な処理を示すフローチャートである。Ｓ９００〜Ｓ９０４の処理は、各領域クラスｃ（ｃ＝１・・・Ｎ＿ｃ）に対して行われる繰り返し処理である。第２学習部１２４は、繰り返し処理の最初に、まず追加画像集合Ｕ＿ａｄｄを空集合で初期化しておく。Ｓ９００において、第２学習部１２４は、（式２８）に示すように、画像Ｉ＿ｃｍａｘに含まれるすべての小領域とＳ＿ｔｒｕｅとの和集合を、学習データセットＳ＿｛ｔ，ｃ｝とする。すなわち、第２学習部１２４は、画像Ｉ＿ｃｍａｘに含まれるすべての小領域をＳ＿ｔｒｕｅに追加する。

さらに、第２学習部１２４は、（式２９）に示すように、追加画像集合Ｕ＿ａｄｄに、画像Ｉ＿ｃｍａｘを追加する。

次に、Ｓ９０１において、第２学習部１２４は、Ｓ９００において得られた学習データセットＳ＿｛ｔ，ｃ｝を用いて、領域識別器ｆ＿｛ｔ，ｃ｝を学習する。領域識別器を学習する処理は、第１の実施形態における第２学習処理（Ｓ５０７）において領域識別器を学習する処理と同様である。次に、Ｓ９０２において、第２学習部１２４は、Ｓ９００において追加した学習画像Ｉ＿ｃｍａｘを領域分割器ｆ＿｛ｔ，ｃ｝に入力したときの領域識別結果を算出する。そして、第２学習部１２４は、得られた領域識別結果を領域教師データＧＴ＿ｃｍａｘと比較し、認識率を算出する。Ｓ９０３において、第２学習部１２４は、認識率が所定の閾値η（例えばη＝０．８）以上であれば、処理をＳ９０４へ進める。第２学習部１２４は、認識率が所定の閾値η未満であった場合、領域分割器ｆ＿｛ｔ，ｃ｝を前の繰り返し時における状態に戻し、領域識別器記憶部１１１に記憶する。そして、Ｓ９０５において、第２学習部１２４は、未処理の領域クラスｃが存在する場合には、処理をＳ９００へ進め、未処理の領域クラスｃを処理対象として、処理を継続する。

Ｓ９０４において、第２学習部１２４は、（式３０）により表される、全学習画像集合Ｕ＿０と追加画像集合Ｕ＿ａｄｄの差集合Ｕ＿ｓｕｂに関して、領域識別器ｆ＿｛ｔ，ｃ｝よる評価を行う。

そして、第２学習部１２４は、（式２５）〜（式２７）に従い、Ｕ＿ｓｕｂの中で最も占有度Ｅの大きな画像をＩ＿ｃｍａｘとして置き換える、その後処理をＳ９００へ進める。第２学習部１２４は、すべての領域クラスｃに関する繰り返し処理を終えると、図５に示す対応付け処理（Ｓ５０８）へと処理を進める。なお、第３の実施形態に係る画像処理装置のこれ以外の構成及び処理は、他の実施形態に係る画像処理装置の構成及び処理と同様である。

以上のように、本実施形態に係る画像処理装置は、画像単位で学習データセットを設定することにより、複数の領域識別器と、各領域識別器に対応する判定器とを生成することができる

（第４の実施形態）
第１〜３の実施形態に係る画像処理装置は、画像識別処理において、１つの領域識別器を選択し、この領域識別器を用いて領域識別結果を得る。これに対し、第４の実施形態に係る画像処理装置は、すべての領域識別器による結果に重みを付けて総和を取ることにより、領域識別結果を得る。以下、第４の実施形態に係る画像処理装置について説明する。ここでは、第４の実施形態に係る画像処理装置について、第１の実施形態に係る画像処理装置と異なる点について説明する。以下、第４の実施形態に係る画像処理装置による、画像識別処理を、図２を参照しつつ説明する。

第４の実施形態に係る画像処理装置による、画像設定処理（Ｓ２００）及び画像特徴抽出処理（Ｓ２０１）は、第１の実施形態において説明した処理と同様である。Ｓ２０１の処理の後、Ｓ２０２において、判定部１０２は、（式１）により、領域識別器記憶部１１１に記憶されている各領域識別器の適正度を算出する。なお、このとき、判定部１０２は、（式２）により、適正度ｇ＿ｓ（Ｆ）が最大となる領域識別器のインデックスｓ（Ｉ）を算出する処理は行わない。続く、領域分割処理（Ｓ２０３）及び領域特徴抽出処理（Ｓ２０４）は、第１の実施形態において説明した処理と同様である。

Ｓ２０４の後、Ｓ２０５において、識別部１０５は、領域識別器記憶部１１１に記憶されているすべての領域識別器ｆ＿ｓ（ｓ＝１・・・Ｎ＿ｓ）を利用して、入力画像のすべての小領域ＳＰ＿ｋに関して判定を行う。領域識別器ｆ＿ｓの出力は、（式３１）に示される。

各領域クラスの最終スコアＳＣＯＲＥ＿ｃ（ｘ＿ｋ）は、（式３２）に示すように、判定器の出力である適正度との重み付き線形和で表わされる。

識別部１０５は、各小領域ＳＰ＿ｋに対する領域識別結果を、（式３３）に示すように、ＳＣＯＲＥ＿ｃの値が最も大きくなる領域クラスｃ＿ｋとして得る。

続く、領域識別結果出力処理（Ｓ２０６）は、第１の実施形態において説明した処理と同様である。

次に、第４の実施形態に係る画像識別処理を実現するための、学習処理について説明する。なお、第４の実施形態に係る画像処理装置による学習処理のうち、判定器学習処理（Ｓ５１０）のみが、他の実施形態に係る学習処理と異なる。以下、第４の実施形態に係る画像処理装置による、判定器学習処理（Ｓ５１０）について説明する。判定器学習処理（Ｓ５１０）において、第３学習部１２６は、すべての学習画像Ｉ＿ｎ（ｎ＝１・・・Ｎ）のすべての小領域に対して、学習して得られた領域識別器ｆ＿ｓ（ｓ＝１・・・Ｎ＿ｓ）を利用した領域識別を行う。小領域に対して得られた領域識別器の出力値を、その小領域内部における画素の出力値とすれば、画像における画素毎の出力値が得られることになる。簡単のため、学習画像Ｉ＿ｎの全画素を通し番号ｐで表わすこととする。画素数を、Ｎ＿ｐ個とする。学習画像Ｉ＿ｎの、画素ｐにおける領域クラスｃに対する出力ベクトルｅ＿ｎ（ｐ，ｃ）は、（式３４）のように示される。

ここで、ｅ＿｛ｎ，ｓ｝（ｐ，ｃ）は、（式３５）により示される。

第３学習部１２６は、出力ベクトルｅ＿ｎ（ｐ，ｃ）に対して、重み係数ベクトルｗ＿ｎを乗じた値を、学習画像Ｉ＿ｎの画素ｐにおける、領域クラスｃに対する統合した出力値として得る。具体的には、領域教師データＧＴ＿ｎ（ｎ＝１・・・Ｎ）から、画素ｐの正解領域クラスがｃ（ｐ）の場合の、画素ｐに対する教師ベクトルμ＿ｐを（式３６）のように設定する。

ここで、μ＿｛ｐ，ｃ｝は、（式３７）で示される。

また、学習画像Ｉ＿ｎに関する誤差関数Ｅ＿ｎを以下のように定義する。

ここでＴは、行列及びベクトルの転置を表わす。この誤差関数Ｅ＿ｎを最小化するようなｗ＿ｎの値は、最小二乗法により解析的に（式３９）により求まる。

ここでμは、教師ベクトルμ＿ｐをすべての画素ｐに対して羅列したＮ＿ｃ×Ｎ＿ｐ次元ベクトルで、（式４０）のように表わされる。

Ｆは計画行列と呼ばれ、そのｉ行ｊ列要素Ｆ＿ｉｊは、（式４１）により得られる。

ただし、インデックスｊは、画素ｐと領域クラスｃの組み合わせを表わし、ｊ＝ｐ（Ｎ＿ｃ―１）＋ｃとされる。

第３学習部１２６は、上記より得られたｗ＿ｎの値を、学習画像Ｉ＿ｎに対する判定器の教師ベクトルとする。すなわち、（式１８）で表わされる、学習画像Ｉ＿ｎに対する教師信号ρ＿ｎを、（式４２）のように設定する。

そして、第３学習部１２６は、この教師信号をもとに、回帰学習にて判定器ｇを学習し、生成した判定器ｇを判定器記憶部１１０に記憶する。回帰学習の処理としては、例えばロジスティック回帰やＳＶＲ、回帰木等が挙げられる。なお、回帰学習の処理は、特に限定されるものではない。なお、第４の実施形態に係る画像処理装置のこれ以外の構成及び処理は、他の実施形態に係る画像処理装置の構成及び処理と同様である。

以上のように、第４の実施形態に係る画像処理装置は、複数の領域識別器の出力を、それぞれの適正度で重み付けし、その値を合計して領域分割の結果を得ることができる。

（第５の実施形態）
第１〜４の実施形態に係る画像処理装置は、すべての学習画像を用いて、複数の領域識別器とこれに対応する１つの判定器を生成する。これに対し、第５の実施形態に係る画像処理装置は、学習画像を複数のグループに分け、各グループに対し、複数の領域識別器とこれに対応する１つの判定器を生成する。そして、第５の実施形態に係る画像処理装置は、各グループに対して生成された複数の領域識別器とこれに対応する１つの判定器を用いて、領域識別を行う。以下、第５の実施形態に係る画像処理装置について説明する。ここでは、第５の実施形態に係る画像処理装置について、第１の実施形態に係る画像処理装置と異なる点について説明する。

図１０は、第５の実施形態に係る学習処理を示すフローチャートである。Ｓ１０００において、学習データ設定部１２０は、カウンタｍの値をｍ＝１に初期化する。次に、Ｓ１００１において、学習データ設定部１２０は、学習データにバリエーションを付けるため、学習データをランダムにサンプリングする。学習データ設定部１２０は、学習データ記憶部１１２に記憶されているＮ枚の学習画像Ｉ＿ｎ（ｎ＝１・・・Ｎ）から、ランダムにＮ＿ｍ枚の学習データを選択する。選択された画像集合は、ｍ番目の学習シーケンスにおける初期学習画像集合Ｕ＿０として扱われる。なお、Ｎ＿ｍの値は、Ｎ＿ｍ≦Ｎの範囲からどのように設定してもよいが、例えばＮの半分のように設定してもよい。

次に、Ｓ１００２において、画像処理装置は、学習シーケンス処理を実行する。ここで、学習シーケンス処理は、第１の実施形態において図５を参照しつつ説明したＳ５００〜Ｓ５１０の処理である。すなわち、画像処理装置は、Ｓ１００１において選択した学習データを用いて、図５を参照しつつ説明した学習処理を実行する。次に、Ｓ１００３において、学習データ設定部１２０は、カウンタｍの値と所定値Ｍとを比較する。ここで、Ｍは、学習シーケンス処理を実行する回数であり、予め設定されているものとする。学習データ設定部１２０は、ｍ＝Ｍの場合には、学習処理を終了する。学習データ設定部１２０は、ｍ＜Ｍの場合には、処理をＳ１００４へ進める。Ｓ１００４において、学習データ設定部１２０は、カウンタｍの値をインクリメントし、その後、処理をＳ１００１へ進める。

これにより、本実施形態に係る画像処理装置は、学習シーケンスをＭ回実行することにより、反応の異なるＭ個の判定器と、各判定器に対応する複数の領域識別器を得ることができる。

なお、本実施形態に係る画像処理装置は、学習シーケンス（Ｓ１００１）を繰り返しによりＭ回行うが、他の例としては、異なる学習データの組を用いた学習シーケンス処理を並列に実行してもよい。また、本実施形態に係る画像処理装置は、学習画像をランダムに選択するが、これに替えて、学習条件を変えてバリエーションを付けてもよい。学習データ設定部１２０は、例えば、領域分割に関する制御パラメータ、抽出する画像特徴や領域特徴を、各学習シーケンスで変えて用いてもよい。また、学習データ設定部１２０は、各学習シーケンスにおいて、第１〜４の実施形態において説明したいずれの学習シーケンスを実行してもよく、また、それらの組み合わせでＭ個の学習シーケンスを行ってもよい。

図１１は、第５の実施形態に係る画像識別処理を示すフローチャートである。Ｓ１１００において、画像設定部１００は、入力画像を処理対象として設定する。次に、Ｓ１０１において、画像設定部１００は、カウンタｍの値をｍ＝１に初期化する。次に、Ｓ１００２おいて、画像処理装置は、画像識別シーケンス処理を実行する。ここで、画像識別シーケンス処理は、第１の実施形態において、図２を参照しつつ説明したＳ２０１〜Ｓ２０５の処理である。すなわち、画像処理装置は、Ｓ１１００において設定した入力画像に対し、図２を参照しつつ説明したＳ２０１〜Ｓ２０５の処理を実行する。

次に、Ｓ１００３において、画像設定部１００は、カウンタｍと所定値Ｍとを比較する。画像設定部１００は、ｍ＝Ｍの場合には、処理をＳ１１０５へ進める。画像設定部１００は、ｍ＜Ｍの場合には、処理をＳ１１０４へ進める。Ｓ１１０４において、画像設定部１００は、カウンタｍの値をインクリメントし、その後、処理をＳ１１０２へ進める。すなわち、本実施形態に係る画像識別処理においては、画像識別シーケンス処理をＭ回実行することにより、各学習シーケンスで得られた識別器による領域識別結果を得る。なお、画像処理装置は、各画像識別シーケンス処理（Ｓ１１０２）において、判定器及び領域識別器の異なる組を用いるものとする。なお、実施形態に係る画像処理装置は、画像識別シーケンス（Ｓ１１０２）を繰り返しによりＭ回行うが、他の例としては、異なる判定器等の組み合わせを用いた、画像識別シーケンス（Ｓ１１０２）を並列に実行してもよい。

Ｓ１１０５において、識別部１０５は、Ｍ回の画像識別シーケンスの実行により得られたＭ種類の領域識別結果から、入力画像の各画素の領域クラスに対して投票を行う。そして、識別部１０５は、最も多く投票された領域クラスを、その画素の最終的な領域クラスとする。次に、Ｓ１１０６において、出力部１０６は、領域識別結果を出力する。なお、第５の実施形態に係る画像処理装置のこれ以外の構成及び処理は、他の実施形態に係る画像処理装置の構成及び処理と同様である。

以上のように、第５の実施形態に係る画像処理装置は、学習データにバリエーションを付けることで、アンサンブルによる領域識別を行うことができる。

図１２は、第１〜５の実施形態に係る画像処理装置のハードウェア構成を示す図である。ＣＰＵ１２０１は、ＲＯＭ１２０２に記憶された制御プログラムを読み出して各種処理を実行する。ＲＡＭ１２０３は、ＣＰＵ１２０１の主メモリ、ワークエリア等の一時記憶領域として用いられる。ＨＤＤ１２０４は、画像データや各種プログラム等各種情報を記憶する。表示部１２０５は、各種情報を表示する。入力部１２０６は、キーボードやマウスを有し、ユーザによる各種操作を受け付ける。ネットワークＩ／Ｆ部１２０７は、ネットワークを介して画像形成装置等の外部装置との通信処理を行う。また、他の例としては、ネットワークＩ／Ｆ部１２０７は、無線により外部装置との通信を行ってもよい。なお、画像処理装置の機能や処理は、ＣＰＵ１２０１がＲＯＭ１２０２又はＨＤＤ１２０４に格納されているプログラムを読み出し、このプログラムを実行することにより実現されるものである。なお、画像処理装置の機能や処理は、ＣＰＵ１２０１がＲＯＭ１２０２又はＨＤＤ１２０４に格納されているプログラムを読み出し、このプログラムを実行することにより実現されるものである。

なお、他の例としては、図１を参照しつつ説明した画像処理装置の各部は、それぞれ独立したデバイスとしてもよい。また、他の例としては、画像処理装置の各部は、複数の装置により実現されてもよい。画像処理装置の各部は、また、カメラ等の撮影装置内部においてプログラム又は回路として実装されてもよい。また、画像処理装置の各記憶部は、画像処理装置の内部又は外部ストレージとして実現される。学習データ記憶部１１２、領域識別器記憶部１１１及び判定器記憶部１１０は、同一のストレージであってもよく、異なる３つのストレージであってもよい。

また、上記実施形態においては、画像の領域分割を例にして説明したが、本実施形態に係る画像形成装置の応用は領域分割に限定されるものではない。例えば、領域識別器をパターン識別器、小領域を画像をラスタスキャンしながら得られるブロック領域による部分画像として、撮影状況変動に対応した画像上のパターン識別器を生成することができる。パターン識別器の具体例としては、マルチクラスの物体検出器や、顔検出器等を想定することもできる。

＜その他の実施形態＞
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給する。そして、そのシステム或いは装置のコンピュータ（又はＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

以上、上述した各実施形態によれば、撮影条件の変化等により画像特徴が変化する場合においても、精度よく画像を識別することができる。

以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。上述の実施形態の一部を適宜組み合わせてもよい。

１０２判定部
１０５識別部
１１０判定器記憶部
１１１領域識別器記憶部
１２１第１学習部
１２３データセット生成部
１２４第２学習部
１２６第３学習部

Claims

１以上の第１の学習画像に基づいて、識別器を生成する第１の学習手段と、
前記識別器による前記第１の学習画像の評価結果に基づいて、前記第１の学習画像から第２の学習画像を生成する画像生成手段と、
前記第２の学習画像に基づいて、前記第１の学習手段により生成された前記識別器と異なる１以上の識別器を生成する第２の学習手段と、
前記第１の学習画像及び前記第２の学習画像に基づいて、前記第１の学習手段が生成した前記識別器及び前記第２の学習手段が生成した識別器の適正度を判定する判定器を生成する判定器生成手段と
を有することを特徴とする画像処理装置。
入力画像の画像特徴に応じて前記判定器により出力される適正度と、各識別器による識別結果に基づいて、前記入力画像の領域識別を行う識別手段をさらに有することを特徴とする請求項１に記載の画像処理装置。
入力画像の画像特徴に応じて前記判定器により出力される適正度に基づいて、前記第１の学習手段及び前記第２の学習手段が生成した複数の識別器の中から処理に用いる識別器を選択する選択手段をさらに有し、
前記識別手段は、前記選択手段により選択された前記識別器を利用して、前記入力画像の領域識別を行うことを特徴とする請求項２に記載の画像処理装置。
前記入力画像を複数の小領域に分割する第１の分割手段をさらに有し、
前記識別手段は、前記選択手段により選択された前記識別器を利用し、前記小領域の領域特徴に基づいて、前記入力画像の領域識別を行うことを特徴とする請求項３に記載の画像処理装置。
前記画像生成手段は、１以上の前記第１の学習画像から小領域単位で前記第２の学習画像を生成することを特徴とする請求項４に記載の画像処理装置。
前記第１の学習画像を、前記識別器による評価結果が閾値以上となる第１の画像群と、閾値未満となる第２の画像群と、に分割する第２の分割手段と、
前記第２の画像群を、領域クラス毎に分割する第３の分割手段と
をさらに有し、
前記画像生成手段は、前記第２の画像群のうち、前記第１の画像群に対応する領域クラスの画像と、前記第１の画像群と、を組み合わせて前記第２の学習画像を生成することを特徴とする請求項５に記載の画像処理装置。
前記第１の学習画像を、前記識別器による評価結果が閾値以上となる第１の画像群と、閾値未満となる第２の画像群と、に分割する第２の分割手段と、
前記第２の画像群を、複数のクラスタに分割する第３の分割手段と
をさらに有し、
前記画像生成手段は、前記第１の画像群に対応するクラスタの画像と、前記第１の画像群とを組み合わせて前記第２の学習画像を生成することを特徴とする請求項５に記載の画像処理装置。
前記画像生成手段は、複数の第１の学習画像それぞれに対する前記識別器による評価結果に基づいて、複数の第１の学習画像から画像単位で前記第２の学習画像を生成することを特徴とする請求項１乃至４何れか１項に記載の画像処理装置。
前記第１の学習画像を、前記識別器による評価結果が閾値以上となる１以上の学習画像を含む第１の画像群と、閾値未満となる１以上の第２の画像群と、に分割する第２の分割手段と、
各撮影画像に含まれる画素の領域クラスに基づいて、複数の撮影画像の中から、前記第１の画像群に対応する撮影画像を選択する選択手段と
をさらに有し、
前記画像生成手段は、前記第１の画像群と、前記選択手段により選択された前記撮影画像とを組み合わせて前記第２の学習画像を生成することを特徴とする請求項８に記載の画像処理装置。
前記識別手段は、各識別器による識別結果に、前記適正度に応じた重み付けを行うことにより、前記入力画像の領域識別を行うことを特徴とする請求項２に記載の画像処理装置。
異なる複数の第１の学習画像それぞれから得られた識別器と判定器の複数の組み合わせを記憶する記憶手段をさらに有し、
前記識別手段は、各組み合せに応じた領域識別の結果に基づいて、前記入力画像の領域識別の結果を得ることを特徴とする請求項２に記載の画像処理装置。
画像処理装置が実行する画像処理方法であって、
１以上の第１の学習画像に基づいて、識別器を生成する第１の学習ステップと、
前記識別器による前記第１の学習画像の評価結果に基づいて、前記第１の学習画像から第２の学習画像を生成する画像生成ステップと、
前記第２の学習画像に基づいて、前記第１の学習ステップにおいて生成された前記識別器と異なる１以上の識別器を生成する第２の学習ステップと、
前記第１の学習画像及び前記第２の学習画像に基づいて、前記第１の学習ステップにおいて生成された前記識別器及び前記第２の学習ステップにおいて生成された識別器の適正度を判定する判定器を生成する判定器生成ステップと
を含むことを特徴とする画像処理方法。
コンピュータを、
１以上の第１の学習画像に基づいて、識別器を生成する第１の学習手段と、
前記識別器による前記第１の学習画像の評価結果に基づいて、前記第１の学習画像から第２の学習画像を生成する画像生成手段と、
前記第２の学習画像に基づいて、前記第１の学習手段により生成された前記識別器と異なる１以上の識別器を生成する第２の学習手段と、
前記第１の学習画像及び前記第２の学習画像に基づいて、前記第１の学習手段が生成した前記識別器及び前記第２の学習手段が生成した識別器の適正度を判定する判定器を生成する判定器生成手段と
して機能させるためのプログラム。