JP6448325B2

JP6448325B2 - 画像処理装置、画像処理方法及びプログラム

Info

Publication number: JP6448325B2
Application number: JP2014234869A
Authority: JP
Inventors: 貴之猿田
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2014-11-19
Filing date: 2014-11-19
Publication date: 2019-01-09
Anticipated expiration: 2034-11-19
Also published as: US9779329B2; US20160140422A1; JP2016099734A

Description

本発明は、画像処理装置、画像処理方法及びプログラムに関する。

画像認識手法のひとつとして、撮影して得られた画像（以下撮影画像とする）を複数の領域に分割して、分割した領域毎に被写体の分類に関するクラスを識別する手法がある。この手法は、各領域の画像から抽出される特徴量に基づいて、各領域のクラスを識別する。撮影画像を適切に領域分割することは、どのような被写体や撮影状況（シーン）の撮影がなされたのかを認識する際の処理や、被写体に応じた画質の補正等を行う際の処理などの多くの画像処理を容易にする。

ここで、画像を領域分割する手法として、非特許文献１には、色情報、テクスチャ情報に基づいて入力画像をＳＰ（スーパーピクセル）と呼ばれる小領域に分割する技術が開示されている。この非特許文献１に記載の技術は、分割した各小領域のクラスをＲｅｃｕｒｓｉｖｅ−Ｎｅｕｒａｌ−Ｎｅｔｗｏｒｋｓ（ＲＮＮｓ）と呼ばれる識別器を用いて識別する。

また、非特許文献２には、条件付き確率場ＣＲＦ（Ｃｏｎｄｉｔｉｏｎａｌ−Ｒａｎｄｏｍ−Ｆｉｅｌｄ）を用いて、領域分割及びクラス識別を同時に行う技術が開示されている。この非特許文献２に記載の技術は、各画素から抽出される特徴に基づくだけでなく、隣接する画素間のクラス共起まで考慮した上で各画素のクラスを識別する。この技術は、特徴が曖昧なため単体では認識の難しい画素に対して、周辺の画素との関係を考慮して識別する。より具体的にいうと、この技術は、各画素をノードとして、ノードのエネルギー（ＵｎａｒｙＰｏｔｅｎｔｉａｌ）及びノード間のエネルギー（ＰａｉｒｗｉｓｅＰｏｔｅｎｔｉａｌ）を定義して、それらの画像全体の総和を最小化する。そして、エネルギーを最小化する各画素のクラスラベルが、識別結果となる。

一方、機械学習の分野ではバギングと呼ばれる手法が、有効な手法として画像認識タスクに用いられてきた。バギングは、ブートストラップサンプリングを繰り返して生成した判別器を合成して、より判別精度の高い識別器を生成する方法である。これ以外にも多くの識別器（アンサンブル識別器）を大量に生成して、それらの識別器を統合して、より判別精度の高い識別を行う研究がある。また、特許文献１の技術は、アンサンブル識別器を大量に生成して、その中から精度の高い識別器を選択して、統合することで精度の高い識別を実現している。

その他にも、非特許文献３には、撮影画像をＳＰ（スーパーピクセル）と呼ばれる小領域に分割する技術が開示されている。また、非特許文献４には、撮影シーンの認識の際に、ＳｐａｔｉａｌＰｙｒａｍｉｄＭａｔｃｈｉｎｇＫｅｒｎｅｌと呼ばれる特徴量を利用する技術が開示されている。また、非特許文献５には、撮影シーンを認識する際に、ＧＩＳＴ特徴量と呼ばれる特徴量を利用する技術が開示されている。また、非特許文献６には、学習画像から取得される局所特徴量を利用する技術が開示されている。

特許第４６２３３８７号公報

Ｒ．Ｓｏｃｈｅｒ，"ＰａｒｓｉｎｇＮａｔｕｒａｌＳｃｅｎｅｓａｎｄＮａｔｕｒａｌＬａｎｇｕａｇｅｗｉｔｈＲｅｃｕｒｓｉｖｅＮｅｕｒａｌＮｅｔｗｏｒｋｓ"，ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ２０１１．Ｐ．Ｋｒａｈｅｎｂｕｈｌ，"ＥｆｆｉｃｉｅｎｔＩｎｆｅｒｅｎｃｅｉｎＦｕｌｌｙＣｏｎｎｅｃｔｅｄＣＲＦｓｗｉｔｈＧａｕｓｓｉａｎＥｄｇｅＰｏｔｅｎｔｉａｌｓ"，ＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ２０１１．Ｐ．Ｆｅｌｚｅｎｓｚｗａｌｂ，"ＥｆｆｉｃｉｅｎｔＧｒａｐｈ−ＢａｓｅｄＩｍａｇｅＳｅｇｍｅｎｔａｔｉｏｎ"，ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎ２００４．Ｓ. Ｌａｚｅｂｎｉｋ, Ｃ. ＳｃｈｍｉｄａｎｄＪ. Ｐｏｎｃｅ，"ＢｅｙｏｎｄＢａｇｓｏｆＦｅａｔｕｒｅｓ, ＳｐａｔｉａｌＰｙｒａｍｉｄＭａｔｃｈｉｎｇｆｏｒＲｅｃｏｇｎｉｚｉｎｇ"，ＮａｔｕｒａｌＳｃｅｎｅＣａｔｅｇｏｒｉｅｓ", ＣＶＰＲ２００６. Ａ．ＯｌｉｖａａｎｄＡ．Ｔｏｒｒａｌｂａ，"Ｍｏｄｅｌｉｎｇｔｈｅｓｈａｐｅｏｆｔｈｅｓｃｅｎｅ：ａｈｏｌｉｓｔｉｃｒｅｐｒｅｓｅｎｔａｔｉｏｎｏｆｔｈｅｓｐａｔｉａｌｅｎｖｅｌｏｐｅ"，ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＶｉｓｉｏｎ，２００１．Ｈ.Ｂａｙ, "Ｓｐｅｅｄｅｄ−ＵｐＲｏｂｕｓｔＦｅａｔｕｒｅｓ（ＳＵＲＦ）", ＣｏｍｐｕｔｉｎｇＶｉｓｉｏｎａｎｄＩｍａｇｅＵｎｄｅｒｓｔａｎｄｉｎｇ, ２００８．

ここで、上述した従来の技術では、予め学習画像を用いて生成された１つの識別器が、撮影画像中の各領域のクラスを識別するようになされている。即ち、学習により生成された一つの識別器は、各領域から抽出された特徴量が入力されて、それら特徴量を用いて各領域のクラスを識別する。

しかしながら、撮影状況（シーン）によっては、本来ならば別のクラスと識別すべきものを類似したクラスとして識別したり、或いは、逆に類似クラスとすべきものを異なるクラスと識別したりすることが起こり得る。例えば、被写体が雲であった場合、昼間に撮影された雲は白く写り、夕日とともに撮影される雲は太陽の照り返しを受けてオレンジ色に写る。このような場合、夕焼け時に撮影された画像内のオレンジ色の雲画像と、例えば昼間に撮影されたオレンジ色のテクスチャフルな壁の画像は、画像の特徴空間上では類似したものとなる。このため、さまざまな学習画像を用いて領域判別器（識別器）を生成しようとして、例えば夕焼け画像とオレンジ色の壁の画像を同時に学習させると、これらを類似したものとして誤学習してしまうことがある。この場合、識別器は、夕焼け画像内の雲画像とオレンジ色の壁画像とを類似したものとして識別してしまい、それらを分離して識別することが困難になる。

そこで本発明は、撮影状況（シーン）が異なるさまざまな画像においても、画像の領域毎に被写体の分類に関するクラスを精度よく識別可能な画像処理装置、画像処理方法及びプログラムを提供することを目的とする。

本発明は、複数の学習画像の一部を選択してなるサブセットを複数作成する作成手段と、前記作成されたサブセットごとに、前記学習画像を分割してなる各領域のクラスを判別するための領域判別器を学習する学習手段と、前記学習された複数の領域判別器を用いて複数の学習評価画像を分割してなる各領域のクラスを判別する学習判別手段と、前記学習判別手段により判別された前記複数の学習評価画像の各領域に対する判別結果と、前記複数の学習評価画像それぞれに対応づけられたシーン情報と、に基づいて統合識別器を学習する識別学習手段と、を有することを特徴とする。

本発明によれば、画像の撮影状況（シーン）が異なるさまざまな画像においても、各画像の領域毎に被写体の分類に関するクラスを精度よく識別することが可能となる。

画像認識装置を有するシステム構成の一例を示す図である。識別対象画像と認識された領域の一例を示す図である。識別対象画像と各画素の識別の概念説明に用いる図である。画像認識装置と学習装置のハードウェア構成の一例を示す図である。画像認識装置のＣＰＵが実行する処理を機能ブロックとして示す図である。画像認識装置における認識処理の一例を示すフローチャートである。領域判別工程の処理例の説明に用いる図である。領域判別工程の処理と領域判別器の説明に用いる図である。ヒストグラム特徴量をシーン情報とする例の説明に用いる図である。測距点の距離値をシーン情報とする例の説明に用いる図である。画像のブロック毎にシーン情報を得る例の説明に用いる図である。第１、第２の実施形態の学習装置の機能構成例を示す図である。第１〜第５の実施形態の学習処理のフローチャートである。第１の実施形態の学習画像の一例を示す図である。第１の実施形態のサブセット選択工程のフローチャートである。第１の実施形態の領域判別選択工程のフローチャートである。第１の実施形態の学習評価セット判別工程のフローチャートである。第１の実施形態の統合識別器学習工程のフローチャートである。第２の実施形態の統合識別器学習工程のフローチャートである。第３〜５の実施形態の学習装置の機能構成例の図である。第３の実施形態の領域判別器再学習工程のフローチャートである。第４の実施形態の領域判別器追加学習工程のフローチャートである。第５の実施形態の学習画像重要度設定工程のフローチャートである。第５の実施形態で用いる重要度リストの一例を示す図である。

＜第１の実施形態＞
図１は、画像処理装置を備えたシステムの概略的な構成例を示す図である。図１のシステムは、カメラ１０と、画像処理装置及び情報処理方法を実現する一構成例である画像認識装置２０とが、ネットワーク１５を介して接続されている。なお、画像認識装置２０とカメラ１０は、一体に構成されていてもよい。

カメラ１０は、画像認識装置２０による画像処理の対象となる画像を撮影する。図１は、被写体として木（ｔｒｅｅ）３０ａ、自動車（ｃａｒ）３０ｂ、建物（ｂｕｉｌｄｉｎｇ）３０ｃ、空（ｓｋｙ）３０ｄ、道（ｒｏａｄ）３０ｅ等が画角（撮影範囲）内に存在するシーン（撮影状況）３０を、カメラ１０が撮影する例を示している。画像認識装置２０は、シーン３０をカメラ１０が撮像（撮影）した撮影画像内の各被写体の画像に対応した各領域のクラスを識別する。なお、以下の説明では、画像認識装置２０がクラスを識別する際に識別対象とする画像を、特に識別対象画像と呼ぶことにする。図１の場合、識別対象画像は、カメラ１０がシーン３０を撮影して得られた撮影画像である。また本実施形態において、クラスは、識別対象画像内に写っている被写体等の画像を、それら被写体毎に分類する際のカテゴリー名（クラスカテゴリー名）となっている。クラスの詳細については、図２等を用いて後述する。

図２の（ａ）は、図１のシーン３０がカメラ１０により撮影されたことで、画像認識装置２０へ入力した識別対象画像１００の一例を示している。図２の（ａ）の場合、識別対象画像１００は、シーン３０内の各被写体である木の画像１００ａと自動車の画像１００ｂと建物の画像１００ｃと空の画像１００ｄと道の画像１００ｅ等で構成された画像となっている。画像認識装置２０は、識別対象画像１００が供給されると、その画像１００の各画素についてクラスを識別する。なお、この例の場合、クラスは、図２の（ｂ）に示すように例えば「ｔｒｅｅ（木）」と「ｃａｒ（自動車）」と「ｂｕｉｌｄｉｎｇ（建物）」と「ｓｋｙ（空）」と「ｒｏａｄ（道）」等のような各被写体の分類に関するクラスカテゴリー名となる。

図３は、識別対象画像１００の各画素のクラスを識別する際の画像処理の概要を示す図である。図３の（ａ）は識別対象画像１００を示しており、左上部分に格子状の線で区切られた各部分はそれぞれが画素に対応している。図３の（ｂ）は、図３の（ａ）に示した識別対象画像１００の左上部分の各画素を拡大して示している。また、図３の（ｃ）は、図３の（ｂ）の各画素について、それぞれにクラスを割り当てた様子を示している。ここで、図３の（ａ）の左上部分の各画素は、図２の（ａ）に示した識別対象画像１００内の空（ｓｋｙ）の画像１００ｄを構成している。このため、画像認識装置２０は、図３の（ｂ）の各画素に対して、図３の（ｃ）に示すように、クラスカテゴリー名として例えば「ｓｋｙ」と名付けたクラスを割り当てる。同様にして、画像認識装置２０は、識別対象画像１００の全ての画素に対してクラスを割り当てる。これにより、識別対象画像１００の各画素は、例えば図２の（ｂ）のように「ｔｒｅｅ」や「ｃａｒ」、「ｂｕｉｌｄｉｎｇ」、「ｓｋｙ」、「ｒｏａｄ」等のような各被写体の分類に関するクラスカテゴリー名で分類される。このように、画像認識装置２０は、識別対象画像１００の各画素に対してクラスを割り当てて各クラスで画像の領域分けを行うことにより、識別対象画像１００の領域分割を実現している。

図４は、画像認識装置２０のハードウェア構成の一例を示す図である。この図４の構成において、ＣＰＵ４０１は、画像認識装置２０全体を制御する。ＣＰＵ４０１は、ＲＯＭ４０３やＨＤ（ハードディスク）４０４等に格納されたプログラムを実行することにより、画像認識装置２０の後述する機能ブロックに分けられた構成、及び、それら機能ブロックによるフローチャートの処理を実現する。ＲＡＭ４０２は、ＣＰＵ４０１がプログラムを展開して実行するワークエリアとして機能する記憶領域である。ＲＯＭ４０３は、ＣＰＵ４０１が実行するプログラム等を格納する記憶領域である。ＨＤ４０４は、ＣＰＵ４０１が処理を実行する際に要する各種のプログラムや、閾値に関するデータ等を含む各種のデータを格納する記憶領域である。操作部４０５は、ユーザによる入力操作を受け付ける。表示部４０６は、カメラ１０が撮影した画像や、識別対象画像１００、画像認識装置２０をユーザが操作する際の操作画面、その他各種情報設定のための設定画面などの様々な画像を表示する。ネットワークＩ／Ｆ４０７は、画像認識装置２０が図示しない外部の機器と接続するためのインターフェイス部である。

図５の（ａ）は、第１の実施形態における画像認識装置２０のＣＰＵ４０１が実行する処理を、それぞれ機能ブロックとして描いている。なお、図５の（ａ）には、画像認識装置２０内の各機能ブロックの他に、カメラ１０に相当する撮影部５００も示している。この撮影部５００は、識別対象画像１００を取得する。図５の（ａ）に示すように、画像認識装置２０のＣＰＵ４０１は、入力部５０１、領域判別部５０２、シーン情報取得部５０４、統合識別部５０５、記憶部として領域判別器保持部５０３と統合識別器保持部５０６の各機能ブロックで表される処理を実行する。なお、領域判別器保持部５０３と統合識別器保持部５０６は、不揮発性の記憶装置として画像認識装置２０に接続された構成としてもよい。画像認識装置２０が有するこれらの各機能ブロックの詳細については、図６等を用いて後述する。

図６は、本実施形態の画像認識装置２０の各機能ブロックで実行される処理の概要を示す図である。この図６のフローチャートにおいて、入力工程Ｓ１１０では、入力部５０１が、撮影部５００により撮影された識別対象画像を、入力データとして受信する。次に、領域判別工程Ｓ１２０として、領域判別部５０２は、領域判別器保持部５０３に記憶されている複数の領域判別器を用いて、識別対象画像の領域判別を行う。なお、領域判別器についての詳細は後述する。領域判別工程Ｓ１２０により得られた各領域判別結果は、統合識別部５０５に送られる。次に、シーン情報取得工程Ｓ１３０として、シーン情報取得部５０４は、識別対象画像のシーン情報を取得する。このシーン情報取得工程Ｓ１３０で取得されたシーン情報は、統合識別部５０５に送られる。なお、シーン情報の詳細は後述する。次に、統合識別工程Ｓ１４０として、統合識別部５０５は、複数の領域判別器の領域判別結果とシーン情報を統合して、識別対象画像の各領域のクラスを判別する。

次に、図６に示したフローチャートを参照しつつ、図５の（ａ）に示した画像認識装置２０のＣＰＵ４０１が実行する各処理の、より具体的な流れを説明する。先ず、入力部５０１は、入力工程Ｓ１１０として、図１で示したようなシーン３０を撮影部５００が撮影した画像を、識別対象画像１００として取得する。なお、識別対象画像は、図示しない外部装置に格納されている画像であってもよい。その場合、入力部５０１は外部装置から読み出された画像を識別対象画像として取得する。外部装置に格納されている画像は、例えば撮影部５００等で予め撮影された画像であってもよいし、ネットワーク等を経由するなどの他の方法で取得されてから格納された画像であってもよい。また、入力部５０１は、識別対象画像の他に、シーン情報や撮影情報を取得する場合もあるが、それについては後述する。

次に、領域判別部５０２は、領域判別工程Ｓ１２０として、領域判別器保持部５０３に記憶されている複数の領域判別器を用いて、識別対象画像の領域判別を行う。先ず、領域判別部５０２は、例えば、図７の（ａ）に示す識別対象画像１００に対して図７の（ｂ）に示すような各小領域１０１を設定し、それら各小領域１０１でクラスを識別する。なお、図７の（ｃ）は、領域判別部５０２が識別対象画像１００の領域判別を行った結果、識別対象画像１００について図２の（ｂ）のようにクラスの割り当てが行われた例を示している。ここで、小領域は、識別対象画像１００中の１画素以上の領域であって、特徴量が所定値以下の画素で構成される領域となっている。また、本実施形態において、領域判別部５０２は、例えば非特許文献３に記載されているようなＳＰ（スーパーピクセル）と呼ばれる小領域に、識別対象画像１００を分割する。なお、小領域１０１は、その他の所謂ブロック分割などの手法により分割された領域であってもよい。

このように、領域判別工程Ｓ１２０において、領域判別部５０２は、図８の（ａ）に示す識別対象画像１００を、図８の（ｂ）に示すように小領域１０１へ分割し、その小領域１０１について図８の（ｃ）に示す複数の領域判別器を用いた領域判別を行う。なお、図８の（ｃ）は、複数の領域判別器として、領域判別器１０２（１），１０２（２），・・・，１０２（Ｒ）が用いられる例を示している。図８の（ｃ）に示した各領域判別器１０２（１）〜１０２（Ｒ）での領域判別結果は、統合識別部５０５へ送信される。ここで、領域判別器は、小領域１０１から特徴量を抽出し、その特徴量を入力とする識別器である。領域判別器は、例えば非特許文献１に示すようなＲｅｃｕｒｓｉｖｅ−Ｎｅｕｒａｌ−Ｎｅｔｗｏｒｋｓ（ＲＮＮｓ）が用いられてもよい。また、領域判別器は、ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｓｈｉｎｅｓ（ＳＶＭｓ）などの特徴量を入力して、識別結果を出力する識別器であればよい。各領域判別器における判別学習方法については、後に学習時の処理を説明する際に述べる。なお、領域判別器数をＲｍａｘとし、各領域判別器で識別するクラス数をＣ_R（Ｒは各領域判別器を示すインデックスであり、Ｒ＝１、２、・・・、Ｒｍａｘである）とする。この場合、各小領域に対して領域判別器Ｒの判別器結果Ｓ_Rは、以下の式（１）で表される。

ここで、式（１）中の各Ｓ_nは各クラスに対する尤度である。例えば、各領域判別器で識別するクラス数が全て「４」であり、領域判別器の数が「１００」である場合は、各小領域で４×１００＝４００の尤度が出力される。なお、本実施形態では、識別対象画像を予め小領域に分割し、その小領域毎に領域判別器によってクラス判別を行う方法について説明したが、これに限定されるものではない。例えば、非特許文献２に示されるような条件付き確率場ＣＲＦ（Ｃｏｎｄｉｔｉｏｎａｌ−Ｒａｎｄｏｍ−Ｆｉｅｌｄ）を用いて、領域分割及びクラス識別を同時に行ってもよい。また、本実施形態において、図７の（ｂ）や図８の（ｂ）に示した各小領域１０１は、重なり合うことなく識別対象画像１００に配置されているが、それぞれ一部が重なり合っていてもよい。その場合の統合方法については後述する。

次に、シーン情報取得部５０４は、シーン情報取得工程Ｓ１３０として、識別対象画像のシーン情報を取得する。ここで取得されたシーン情報は、次の統合識別工程Ｓ１４０で利用される。その利用方法については、次の統合識別工程Ｓ１４０の説明で述べる。ここで、シーン情報は、非特許文献４に記載されているようなＳｐａｔｉａｌＰｙｒａｍｉｄＭａｔｃｈｉｎｇＫｅｒｎｅｌや、非特許文献５に記載されているようなＧＩＳＴ特徴量を利用すればよい。又は、シーン情報は、画像をブロック状に分割して各ブロックの色分布をヒストグラム化した特徴量などでもよい。その他にも、シーン情報は、画像全体を表す特徴量や、画像の各部分から得られる特徴量を統計量として集計したものであればなんでもよい。

シーン情報として、非特許文献４にあるようなＳｐａｔｉａｌＰｙｒａｍｉｄＭａｔｃｈｉｎｇＫｅｒｎｅｌ（以下ＳＰＭＫ特徴量）を利用する場合、そのシーン情報は以下のような手順で用いられる。統合識別部５０５は、統合識別工程Ｓ１４０として、非特許文献６に記載されているような局所特徴量を学習画像から密に取得しておき、コードブックベクトルを作成しておく。局所特徴量は、その他にも所謂画像パッチやＥｄｇｅｌｅｔなど画像上からある程度の数の特徴量をとれるものならば何でもよい。統合識別部５０５は、複数枚の学習画像から局所特徴量を取得したのち、ｋｍｅａｎｓなどのクラスタリング手法でコードブックベクトルを推定する。なお、ここではコードブックベクトル数を「Ｍ」とする。

次に、統合識別部５０５は、各学習画像から得られる局所特徴量を、対応するコードブックベクトルに割り当てる。これにより、各学習画像からビン数が「Ｍ」のヒストグラム特徴量（ＢＯＷ特徴量）が生成される。このＭ次元のヒストグラム特徴量をシーン情報として利用してもよいが、統合識別部５０５は、さらにＳＰＭＫ特徴量に変換する。ＳＰＭＫ特徴量は、図９に示すように、画像３９を複数のブロックに分割して、各ブロックに分割された画像上から得られる局所特徴量をコードブックベクトルに割り当ててヒストグラム化される。これにより位置情報が得られ、従来のＢＯＷ特徴量に比べてシーン認識精度が向上する。図９の例の場合、統合識別部５０５は、図９の（ｂ）に示すｌｅｖｅｌ１で４ブロックに分割し、図９の（ｃ）に示すｌｅｖｅｌ２で１６ブロックに分割し、図９の（ａ）に示すｌｅｖｅｌ０と合わせて合計２１ブロックからヒストグラム特徴量を生成する。このため、特徴量は、合計２１Ｍ次元のヒストグラム特徴量になる。なお、本実施形態では、このシーン情報を利用してサブセット選択工程の処理が行われるが、それについては後述する。

また、本実施形態では、ＳＰＭＫ特徴量やＧＩＳＴ特徴量など、シーン認識や画像検索の分野で使われている画像特徴量を用いた説明を行ったが、シーン情報は、カメラで画像を撮影した際に得られる撮影情報が用いられてもよい。なお、撮影情報とは、カメラ１０で撮影した際に取得される画像以外の情報のことであり、画像を出力するまでにカメラ１０で取得される全ての情報を意味する。例えば、撮影情報は、フォーカスを合わせる際等に取得される距離情報や、シャッタースピード情報、撮影の際のカメラパラメータを決定するための色温度及び測光値に関する情報、それらにより決定されたカメラパラメータ等の情報である。その他にも、撮影情報は、撮影日時情報、ＧＰＳ情報、カメラ内の姿勢センサーによる天地判定に関する情報等でもよい。例えば、フォーカスを合わせる際等に取得される距離情報は、図１０に示すようにして得られる。図１０の（ａ）は画像４０の一例を示し、図１０の（ｂ）はその画像４０の撮影時に被写体距離を得るための測距点４２の一配置例を示している。測距点４２は、例えば格子状に配置された各測距枠４１のそれぞれ中心点となる。ここで、測距点数を「Ｎ」とし、各測距点で得られる距離値をＰｈ_n（ｎ＝１、２、・・・、Ｎ）とした場合、シーン情報を表すシーン特徴量Ｓｃは、以下の式（２）又はシーン特徴量Ｓｃをヒストグラム化したヒストグラム特徴量で表される。

Ｓｃ＝｛Ｐｈ₁、Ｐｈ₂、・・・、Ｐｈ_n｝式（２）

また本実施形態の場合、前述した全てのシーン情報は、識別対象画像全体から取得されているため、識別対象画像に対して取得されるシーン情報は１つである。その他にも、シーン情報は、例えば図１１のように識別対象画像１００をブロック分割し、各ブロック１０３毎に取得してもよい。なお、シーン情報を取得する際の各ブロック１０３は、それぞれの一部がオーバーラップしていてもよい。

次に、統合識別部５０５は、統合識別工程Ｓ１４０として、領域判別工程Ｓ１２０で得られた各領域判別結果及びシーン情報取得工程Ｓ１３０で得られたシーン情報を統合して、各小領域のクラスを識別する。具体的には、統合識別部５０５は、小領域毎に式（３）で表されるように各領域判別器の判別器結果及びその小領域に対応するシーン特徴量を結合した特徴ベクトルＦを統合識別器に入力することで最終的にクラスを識別する。また、例えば図１１のように各ブロック１０３に対してシーン情報を取得する場合、統合識別部５０５は、小領域が所属するブロックのシーン特徴量を結合する。なお、利用する統合識別器における識別学習方法については後述の学習処理で説明する。

Ｆ＝｛Ｓ₁、Ｓ₂、・・・、Ｓ_R、Ｓ_c｝式（３）

また、統合識別部５０５は、小領域の一部がそれぞれ重なり合っている場合には、一度小領域毎にクラスを識別した後、各画素が所属している小領域のクラス識別結果を平均化や投票処理することなどにより決定する。また、領域判別工程Ｓ１２０で例えば非特許文献２に記載のような条件付き確率場ＣＲＦを用いて画素毎に領域判別を行った場合、統合識別部５０５は、統合識別工程Ｓ１４０で画素毎に統合を行ってもよいし、小領域毎に統合処理を行ってもよい。その場合、統合識別部５０５は、小領域毎に領域判別結果を平均化してから統合処理を行えばよい。

次に、本実施形態における領域判別工程Ｓ１２０と統合識別工程Ｓ１４０で利用する領域判別器及び統合識別器の学習方法について説明する。図１２の（ａ）は、本実施形態の学習装置３００としてＣＰＵ４０１が実行する各処理を機能ブロックとして示している。なお、学習装置３００のハードウェア構成は、図４と同様である。なお、ここでは図５の（ａ）に示した画像認識装置２０とは別に図１２の（ａ）の学習装置３００の各機能が構成されているものとしているが、画像認識装置２０内に学習装置３００の各機能が構成されていてもよい。即ち、図４のＣＰＵ４０１は、ＲＯＭ４０３やＨＤ４０４等に格納されたプログラムを実行することにより、画像認識装置２０の機能等だけでなく、学習装置３００の機能構成及び学習装置３００に係るフローチャートの処理を実現してもよい。また、図１２において、図５と同じ働きをする構成には同じ符号を付けている。

図１２の（ａ）に示すように、学習装置３００のＣＰＵ４０１は、サブセット選択部３０１、領域判別器学習部３０２、学習評価セット判別部３０３、統合識別器学習部３０４、記憶部として領域判別器保持部５０３と統合識別器保持部５０６の各機能を実行する。学習装置３００のＣＰＵ４０１が実行するこれらの各機能の詳細については、図１３の（ａ）等を用いて説明する。

図１３の（ａ）は、図１２の（ａ）に示した学習装置３００が実行する学習に関する処理の概要を示している。図１３の（ａ）に示すフローチャートにおいて、サブセット選択部３０１は、サブセット選択工程Ｔ１１０として、各領域判別器の学習に用いる学習データを、その学習データのシーン情報に基づいて設定する。なお、学習データとしては、例えば、図１４の（ａ）に示すような画像５０と、図１４の（ｂ）に示すような各画素のクラス名が定義されているグランドトゥルース（ＧＴ）５１と、各学習画像に対応するシーン情報とが必要となる。サブセット選択部３０１は、サブセット選択工程Ｔ１１０において、学習用データ保持部３１０に保持されている学習用データの中から、各領域判別器の学習に用いる学習画像を一枚以上選択する。この選択された学習画像が、サブセットとしてサブセット選択部３０１から領域判別器学習部３０２へ送られる。なお、その選択方法については後に詳しく説明する。

次に、領域判別器学習部３０２は、領域判別器学習工程Ｔ１２０として、サブセット選択工程Ｔ１１０で設定された学習画像のデータを用いて領域判別器を学習する。領域判別器学習部３０２は、その領域判別結果を領域判別器保持部５０３に送信する。次に、学習評価セット判別部３０３は、学習評価セット判別工程Ｔ１３０として、領域判別器学習工程Ｔ１２０で学習された各領域判別器を用いて学習評価セットの領域判別を行う。即ち、学習評価セット判別部３０３は、領域判別器保持部５０３に記憶されている領域判別器を用いて、学習評価セットの領域判別を行う。なお、学習評価セットの詳細は後述する。その領域判別結果は統合識別器学習部３０４に送信される。次に、統合識別器学習部３０４は、統合識別器学習工程Ｔ１４０として、学習評価セット判別工程Ｔ１３０で領域判別された結果と学習評価セットのシーン情報を統合して、最終的な各領域のクラスを識別する識別器を学習する。即ち、統合識別器学習部３０４は、学習評価セットに対する複数の領域判別器の出力と学習評価セットのシーン情報に基づいて統合識別器を学習し、その識別結果を統合識別器保持部５０６に送信する。

次に、図１３の（ａ）に示したフローチャートを参照しながら、学習装置３００のＣＰＵ４０１で実行される各処理の、より具体的な流れを説明する。サブセット選択部３０１は、サブセット選択工程Ｔ１１０として、先に説明したシーン情報に基づいて、各領域判別器の学習に用いる学習画像を選択する。ここでは、シーン情報として先に説明したＳＰＭＫ特徴量が用いられる例を説明する。

図１５は、図１３の（ａ）のサブセット選択工程Ｔ１１０の、より詳細なフローチャートである。なお、図１５中の「Ｒ」は各領域判別器を示すインデックスであり、１からＲｍａｘの値をとる。また、図１５中の「Ｍ」は各領域判別器が学習に用いる学習画像数を示しており、ここでは簡単のため全ての領域判別器が学習に用いる画像数は同じであるとして説明する。図１５のフローチャートにおいて、サブセット選択部３０１は、シーン情報取得工程Ｔ１１０１として、学習用データ保持部３１０から学習画像のシーン情報を取得する。本実施形態の場合、サブセット選択部３０１は、シーン情報として、全学習用データに対してＳＰＭＫ特徴量を取得する。この取得されたＳＰＭＫ特徴量は、学習画像シーン情報として学習用データ保持部３１０に保持される。次に、サブセット選択部３０１は、シード画像設定工程Ｔ１１０２として、各領域判別器に対するシード画像を決定する。シード画像は、例えば全学習画像の中からランダムに一枚選択された画像でもよいし、例えばユーザが任意に選択した画像でもよい。次に、サブセット選択部３０１は、類似学習画像選択工程Ｔ１１０３として、シード画像設定工程Ｔ１１０２で選択したシード画像のシーン情報と類似する学習画像を選択する。なお、本実施形態では各領域判別器が学習に用いる学習画像数を「Ｍ」としているが、各領域判別器の学習画像数は違ってもよい。また本実施形態では、Ｍ枚の学習画像を選択しているとしているが、サブセット選択部３０１は、予めしきい値を設定しておいてシーン情報の類似度がしきい値以上の画像を全て、又はその中からランダムに複数枚選択してもよい。

次に、サブセット選択部３０１は、学習画像リスト出力工程Ｔ１１０４として、類似学習画像選択工程Ｔ１１０３で設定された各領域判別器の学習画像のリストを出力する。本実施形態において、サブセット選択部３０１は、シード画像設定工程Ｔ１１０２から学習画像リスト出力工程Ｔ１１０４までの処理を、領域判別器数のＲｍａｘ回繰り返す。なお、シード画像設定工程Ｔ１１０２でシード画像を設定する場合、サブセット選択部３０１は、今までに設定された学習画像リストを読み込み、なるべく学習画像リストに選択されていない学習画像をシード画像として設定するようにしてもよい。

本実施形態では、シード画像を設定して、そのシード画像とシーン情報が類似している画像を選択することで各領域判別器が学習する学習画像を選択する例を示した。他の例として、シーン情報の類似度に基づいて領域判別器数Ｒｍａｘのクラスタをｋｍｅａｎｓなどのクラスタリング手法を用いて生成し、各クラスタに所属する学習画像を各領域判別器の学習画像として設定してもよい。その際には学習画像が複数の領域判別器で学習されるようにソフトアサインを許してクラスタリングが行われてもよい。

次に、領域判別器学習部３０２は、領域判別器学習工程Ｔ１２０として、サブセット選択工程Ｔ１１０で選択された学習画像（サブセット）に基づいて各領域判別器の学習を行う。領域判別器は先に説明したように各画素のクラスを判別できるものであればなんでもよい。本実施形態において、領域判別器は、非特許文献１に記載されている小領域１０１から特徴量を抽出し、その特徴量を入力とする識別器の１つであるＲｅｃｕｒｓｉｖｅ−Ｎｅｕｒａｌ−Ｎｅｔｗｏｒｋｓ（ＲＮＮｓ）とする。

図１６は、領域判別器学習工程Ｔ１２０の、より詳細なフローチャートを示図である。なお、図１６中の「Ｒ」は各領域判別器を示すインデックスであり、１からＲｍａｘの値をとる。また、図１６中の「Ｍ」は各領域判別器が学習に用いる学習画像数を示しており、ここでは簡単のため全ての領域判別器が学習に用いる画像数は同じであるとして説明する。この図１６のフローチャートにおいて、領域判別器学習部３０２は、学習画像リスト設定工程Ｔ１２０１として、各領域判別器で学習に用いる学習画像のリストを設定する。次に、領域判別器学習部３０２は、小領域分割工程Ｔ１２０２として、学習画像リスト設定工程Ｔ１２０１で設定された学習画像リストに基づいて、領域判別器の学習に用いる各学習画像を小領域に分割する。例えば、先の認識処理の領域判別工程Ｓ１２０で説明したように、非特許文献３に示されているようなＳＰ（スーパーピクセル）と呼ばれる小領域に分割する。次に、領域判別器学習部３０２は、小領域特徴量抽出工程Ｔ１２０３として、小領域分割工程Ｔ１２０２で分割された各小領域の特徴量を抽出する。又は、領域判別器学習部３０２は、全学習画像の特徴量を予め抽出しておき、学習用データ保持部３１０から、学習画像リストに応じて特徴量をロードしてもよい。領域判別器学習部３０２は、各学習画像及びその全小領域に対して、小領域分割工程Ｔ１２０２と小領域特徴量抽出工程Ｔ１２０３の処理を行う。なお、特徴量の例としては、各小領域内の色特徴やテクスチャ特徴の統計量を用いればよい。例えばＲＧＢ、ＨＳＶ、Ｌａｂ、ＹＣｂＣｒ等の色空間の各成分や、Ｇａｂｏｒｆｉｌｔｅｒ、ＬｏＧのフィルタ応答等を用いることができる。なお、色特徴は４（色空間）×３（成分）の１２次元となる。また、フィルタ応答に関しては、Ｇａｂｏｒｆｉｌｔｅｒ、ＬｏＧフィルタの数に対応した次元数となる。この場合、領域毎に特徴づけを行うため、各小領域の内の画素毎に得られる特徴量から統計量が求められる。ここで用いる統計量は、平均、標準偏差、歪度、尖度の４つを用いるとする。歪度は、分布の非対称性の度合いを示し、尖度は分布が平均の近くに密集している度合いを示す統計量である。よって、色特徴は４（色空間）×３（成分）×４（統計量）の４８次元となり、テクスチャ特徴の次元数は（フィルタ応答数）×４（統計量）となる。また、この他に小領域の重心座標や小領域の面積なども特徴量としてもよい。

次に、領域判別器学習部３０２は、クラス数・定義設定工程Ｔ１２０４として、各領域判別器で学習する領域のクラス定義及びクラス数を設定する。クラス数は２以上であればよい。なお、図１４の（ｂ）の例は、「ｓｋｙ」、「ｂｕｉｌｄｉｎｇ」、「ｔｒｅｅ」、「ｒｏａｄ」、「ｂｏｄｙ」のクラスが定義されている。この場合、クラス数は、５クラスとしてもよいし、「ｂｕｉｌｄｉｎｇ」、「ｔｒｅｅ」、「ｒｏａｄ」、「ｂｏｄｙ」を合わせて１つのクラスとして、そのクラスと「ｓｋｙ」の２クラスを識別する領域判別器を学習してもよい。次に、領域判別器学習部３０２は、学習工程Ｔ１２０５として、クラス数・定義設定工程Ｔ１２０４で定義されたクラスを識別する領域判別器を学習する。その学習された領域判別器は、領域判別器保持部５０３に記憶される。そして、学習画像リスト設定工程Ｔ１２０１から学習工程Ｔ１２０５までの処理は、各領域判別器に対して行われる。

次に、学習評価セット判別部３０３は、図１３の学習評価セット判別工程Ｔ１３０として、領域判別器学習工程Ｔ１２０で学習された領域判別器を用いて学習評価セットに対して領域判別を行う。図１７は学習評価セット判別工程Ｔ１３０の、より詳細な流れを示す図である。なお、図１７中の「Ｒ」は先の図１６と同様に、各領域判別器を示すインデックスである。また、図１７中の「Ｉｍ」は学習評価セットとなされる各学習評価画像を示すインデックスである。なお、学習評価セットはすべての領域判別器の評価に対して共通である必要がある。ここでは簡単のため学習評価セットは学習用データの全画像を示すものとして説明する。学習評価セットは、学習用データと別に用意されていてもよいし、学習用データの中からランダムに選択されてもよい。図１７に示すフローチャートにおいて、領域判別器学習部３０２は、領域判別器設定工程Ｔ１３０１として、学習評価を行う領域判別器をロードする。次に、学習評価セット判別部３０３は、評価用データ設定工程Ｔ１３０２として、学習用データ保持部３１０から学習評価画像をロードする。以下、学習評価セット判別部３０３は、前述同様に、小領域分割工程Ｔ１３０３で学習画像を小領域に分割し、特徴量抽出工程Ｔ１３０４で各小領域の特徴量を抽出し、クラス判別工程Ｔ１３０５で領域判別を行う。クラス判別工程Ｔ１３０５で領域判別された結果は、次の統合識別器学習工程Ｔ１４０で利用される。

統合識別器学習部３０４は、図１３の統合識別器学習工程Ｔ１４０として、学習評価セット判別工程Ｔ１３０によって領域判別された結果と学習評価セットのシーン情報を統合して最終的な各領域のクラスを判別する識別器を学習する。図１８は、図１３の統合識別器学習工程Ｔ１４０の、より詳細なフローチャートを示す図である。なお、図１８中の「Ｒ」や「Ｉｍ」は、図１７と同様である。図１８のフローチャートにおいて、統合識別器学習部３０４は、領域判別結果取得工程Ｔ１４０１として、各学習評価画像に対応する領域判別結果をロードする。なお、領域判別結果は、各学習評価画像に対して領域判別器数分の結果が存在する。例えば、全ての領域判別器が４クラスの判別結果を出力するとすれば、各小領域に対して４×Ｒ＝４Ｒ次元の出力結果を取得する。次に、統合識別器学習部３０４は、シーン情報取得工程Ｔ１４０２として、各学習評価画像に対するシーン情報を取得する。ここで、シーン情報は、先の認識処理のシーン情報取得工程Ｓ１３０で説明したＳＰＭＫ特徴量を用いるとすると、２１Ｍ次元のシーン情報が取得されることになる。よって、各学習評価画像の各小領域に対して４Ｒ＋２１Ｍ次元の情報（特徴量）が得られる。次に、統合識別器学習部３０４は、学習工程Ｔ１４０３として、領域判別結果取得工程Ｔ１４０１及びシーン情報取得工程Ｔ１４０２で得られた各小領域の特徴量をもとに統合識別器を学習する。なお、各小領域に対するグランドトゥルース（ＧＴ）は学習用データ保持部３１０に記憶されているとする。ここで、学習するクラスは、最終的に出力するクラス定義に応じて学習する必要がある。図１４の（ｂ）の例の場合、「ｓｋｙ」、「ｂｕｉｌｄｉｎｇ」、「ｔｒｅｅ」、「ｒｏａｄ」、「ｂｏｄｙ」の５クラスが定義されている。したがって、この場合、統合識別器学習部３０４は、５クラスに対応するクラス尤度を出力する識別器を学習する必要がある。なお、統合識別器学習部３０４は、さらに多くのクラスに対応するマルチクラス識別器を学習してもよいし、例えば２クラス識別器を５個学習し、それら５個の識別器のうち最もクラス尤度の高いクラスを領域に割り当ててもよい。なお、本実施形態では、全学習データを用いて統合識別器を学習する例について説明したが、全学習評価画像を用いるのではなく、学習評価画像をランダムに選択してもよいし、学習評価画像内の小領域をランダムに選択してもよい。

以上のように本実施形態によれば、学習装置３００は複数の学習画像の中からシーン情報に基づいてサブセットを選択し、そのサブセットを用いて複数の領域判別器を学習する。さらに、学習装置３００は、学習評価画像を用いてそれら複数の領域判別器による領域判別を行い、その領域判別結果とシーン情報を統合して領域のクラスを識別する統合識別器を学習する。したがって、画像認識装置２０は、複数の領域判別器による領域判別結果とシーン情報を統合して識別することにより、識別対象画像の各領域のクラスを精度よく識別することができるようになる。これにより、画像認識装置２０は、高い精度で領域分割と画像認識が可能となる。

＜第２の実施形態＞
次に、第２の実施形態について説明する。第２の実施形態の学習装置３００は、統合識別器学習工程において、第１の実施形態のようにシーン情報の特徴量をそのまま利用するのではなく、各領域判別器の学習の際に利用した学習画像のシーン情報を保持しておいてそのシーン情報との類似度を用いる。

図１２の（ｂ）は、第２の実施形態における学習装置３００の機能ブロック構成例を示している。この図１２の（ｂ）に示すように、第２の実施形態の学習装置３００は、図１２の（ａ）の機能構成に加えて、シーン情報取得部５０４及びシーン情報保持部５０７を有している。シーン情報取得部５０４の詳細な構成については、図１３の（ｂ）等を用いて後述する。図１２の（ｂ）の他の構成については、図１２の（ａ）と同様であるためそれらの説明は省略する。

図１３の（ｂ）は、第２の実施形態における学習装置３００がサブセットの選択から統合識別器の学習を行うまでの処理の概要を示している。なお、この図１３の（ｂ）のサブセット選択工程Ｔ２１０の処理は、第１の実施形態における学習処理のサブセット選択工程Ｔ１１０の処理と同様であるため説明を省略する。図１３の（ｂ）のフローチャートにおいて、シーン情報取得部５０４は、シーン情報取得工程Ｔ２２０として、各領域判別器に対応するシーン情報を、サブセット選択工程Ｔ２１０で選択された学習画像に基づいて取得する。そして、シーン情報取得部５０４は、その取得したシーン情報をシーン情報保持部５０７に記憶しておく。各領域判別器に対応するシーン情報については後で詳しく説明する。なお、図１３の（ｂ）の領域判別器学習工程Ｔ２３０は第１の実施形態の工程Ｔ１２０と同様であり、また、図１３の（ｂ）の学習評価セット判別工程Ｔ２４０は第１の実施形態の工程Ｔ１３０と同様であるためそれらの説明を省略する。図１３の（ｂ）の統合識別器学習工程Ｔ２５０は、第１の実施形態の工程Ｔ１４０とほぼ同様であるが、ここでは学習評価セットのシーン情報と各領域判別器に対応するシーン情報との類似度も用いて統合識別器の学習を行う。学習評価セットのシーン情報はシーン情報取得部５０４によって得られ、各領域判別器に対応するシーン情報はシーン情報保持部５０７に記憶されている。図１３の（ｂ）のシーン情報取得工程Ｔ２２０及び統合識別器学習工程Ｔ２５０の処理に関しては、第１の実施形態と異なるため、以下に詳しく説明する。

シーン情報取得部５０４は、シーン情報取得工程Ｔ２２０として、各領域判別器に対応するシーン情報を取得する。シーン情報取得部５０４は、例えば、各領域判別器を学習するために選択した学習画像全てのシーン情報を取得し、その平均ベクトルを各領域判別器に対応するシーン情報にする。又は、第１の実施形態でのサブセット選択工程Ｔ１１０に関する図１５の詳細フローのようにシード画像を選択する方法で学習画像を選択した場合、シーン情報取得部５０４は、各シード画像のシーン情報を各領域判別器に対応するシーン情報としてもよい。その他、クラスタリングなどを用いて学習画像を選択した場合、シーン情報取得部５０４は、各クラスタ中心のシーン情報を各領域判別器に対応したシーン情報としてもよい。又は、シーン情報取得部５０４は、各領域判別器を学習するために選択した学習画像同士のシーン情報の類似度を算出し、他の全ての学習画像との類似度の和が最も小さいものを中心画像として設定して、その中心画像のシーン情報を記憶しておいてもよい。類似度は、第１の実施形態にて説明したＳＰＭＫ特徴量を利用する場合には、ヒストグラム距離などを用いればよい。その他、類似度は、ベクトル同士の距離を算出できるものであればなんでもよい。

図１９は、第２の実施形態における統合識別器学習工程Ｔ２５０の詳細なフローチャートである。なお、図１９中に示されている「Ｒ」や「Ｉｍ」は図１７、１８と同様である。図１９のフローチャートにおいて、統合識別器学習部３０４は、領域判別結果取得工程Ｔ２５０１として、第１の実施形態における図１８の工程Ｔ１４０１と同様に、各学習評価画像に対応する領域判別器結果をロードする。ここでは、第１の実施形態と同様に、統合識別器学習部３０４は、各小領域に対して４×Ｒ＝４Ｒ次元の出力結果を取得するものとする。図１９のシーン情報取得工程Ｔ２５０２の処理は、第１の実施形態における図１８の工程Ｔ１４０２の処理と同様であり、各学習評価画像に対するシーン情報の取得がなされる。

次に、類似度算出工程Ｔ２５０３の処理に進み、統合識別器学習部３０４は、シーン情報取得工程Ｔ２５０２で得られた各学習評価画像に対するシーン情報と各領域判別器に対応するシーン情報との類似度を算出する。類似度は、各領域判別器に対応するシーン情報と算出するため、領域判別器数が「Ｒ」の場合、Ｒ次元の情報（特徴量）となる。よって、類似度としては、各学習評価画像の各小領域に対して４Ｒ＋Ｒ＝５Ｒ次元の情報（特徴量）が得られる。なお、第２の実施形態の場合、第１の実施形態と比べて、通常ＳＰＭＫ特徴量の次元数は１２８などと多いため、領域判別器数が少ない場合には統合識別時に利用する情報（特徴量）の次元数を削減することができる。次に、統合識別器学習部３０４は、学習工程Ｔ２５０４として、シーン情報取得工程Ｔ２５０２及び類似度算出工程Ｔ２５０３で得られた各小領域の特徴量をもとに統合識別器を学習する。学習方法は、第１の実施形態における図１８の詳細フロー時の処理と同様である。なお、認識時の処理に関しては第１の実施形態と同様であるため、その説明を省略する。

以上のように第２の実施形態によれば、学習装置３００は、シーン情報に基づいて学習用データ保持部３１０からサブセットを選択し、それを用いて複数の領域判別器を学習する。さらに、学習装置３００は、その複数の領域判別器による領域判別結果とシーン情報を統合して領域のクラスを識別する統合識別器を学習する。そしてその際、学習装置３００は、学習時に各領域判別器の学習を行った時に利用した学習画像のシーン情報を保持しておいて、そのシーン情報との類似度に基づいて領域のクラスを識別する統合識別器を学習する。したがって、第２の実施形態の画像認識装置２０は、複数の領域判別器による領域判別結果とシーン情報の類似度を統合して識別することにより、識別対象画像の各領域のクラスを精度よく識別することができるようになる。これにより、第２の実施形態の画像認識装置２０は、高い精度で領域分割と画像認識が可能となる。また、第２の実施形態の画像認識装置２０は、第１の実施形態の場合と比べて、シーン情報の類似度を利用するため統合識別器に入力する情報（特徴量）の次元数を減らすことが可能になる。

なお、この第２の実施形態の学習装置３００にて領域判別器と識別器の学習がなされ、また、シーン情報が保持されている場合、画像認識装置２０は、例えば図５の（ｂ）に示す構成で実現可能である。図５の（ｂ）は、第２の実施形態における画像認識装置２０の機能ブロック構成例を示している。即ち、第２の実施形態の画像認識装置２０は、図５の（ｂ）に示すように、前述の図５の（ｂ）の各機能構成に加えてシーン情報保持部５０７を有する。そして、統合識別部５０５は、シーン情報保持部５０７に保持されているシーン情報を用いて識別対象画像の各領域のクラスを判別する。なお、図５の（ｂ）でシーン情報保持部５０７の他の各構成は図５の（ａ）のものと同じであるため、それらの説明は省略する。

＜第３の実施形態＞
次に、第３の実施形態について説明する。第３の実施形態の学習装置３００は、第１の実施形態の例とは異なり、学習評価セット判別の結果に応じて領域判別器の再学習即ち再領域判別を行う。図２０の（ａ）は、第３の実施形態の学習装置３００のＣＰＵ４０１が実行する各処理の一例を機能ブロックとして示している。第３の実施形態における学習装置３００は、図１２の（ａ）に示した学習装置３００の機能ブロック構成に加えて、領域判別器再学習部３０５の機能ブロックを実行可能となされている。領域判別器再学習部３０５の詳細な説明については、図１３の（ｃ）等を用いて後述する。図２０の（ａ）の学習装置３００において、領域判別器再学習部３０５の他の構成については、図１２の（ａ）に示した各構成と同様であるためそれらの説明は省略する。

図１３の（ｃ）は、第３の実施形態における学習装置３００が統合識別器を学習するまでの処理の概要を示している。なお、図１３の（ｃ）のフローチャートにおいて、サブセット選択工程Ｔ３１０は第１の実施形態の工程Ｔ１１０と同様であり、領域判別器学習工程Ｔ３２０は第１の実施形態の工程Ｔ１２０と同様であるためそれらの説明を省略する。また、学習評価セット判別工程Ｔ３３０は第１の実施形態の工程Ｔ１３０と同様であるため説明を省略する。図１３の（ｃ）において、領域判別器再学習部３０５は、領域判別器再学習工程Ｔ３４０として、学習評価セット判別工程Ｔ３３０で学習評価セットに対して領域判別を行った結果（再領域判別結果）、再学習を要すると判定された領域判別器の再学習を行う。この領域判別器再学習工程Ｔ３４０の処理に関しては第１の実施形態と異なるため、以下に詳しく説明する。統合識別器学習工程Ｔ３５０の処理は、第１の実施形態の工程Ｔ１４０とほぼ同様であるが、ここでは、領域判別器再学習工程Ｔ３４０で再学習された領域判別器で学習評価セットを再領域判別した結果も用いて統合識別器の学習がなされる。

以下、領域判別器再学習工程Ｔ３４０の処理の詳細について述べる。図２１は、領域判別器再学習工程Ｔ３４０の詳細なフローチャートである。図２１中の「Ｉｍ」は各学習評価画像を表すインデックスである。なお、第３の実施形態では領域判別器学習用データと学習評価画像セットは同一であるとする。図２１のフローチャートにおいて、領域判別器再学習部３０５は、最大値取得工程Ｔ３４０１として、各学習評価画像の各領域判別器での領域判別結果の中で最も領域判別精度の高い領域判別結果を取得する。領域判別結果は、各画素の正解率を計算するＰｉｘｅｌＡｃｃｕｒａｃｙで計算すれば良い。ここで、学習評価画像Ｉｍに対する領域判別器Ｒの領域判別結果の精度をＰＡＩｍ｜Ｒとすると、最大値取得工程Ｔ３４０１で取得する各学習評価画像に対する領域判別結果の精度ＰＡＩｍは、式（４）で表される。

次に、領域判別器再学習部３０５は、評価画像設定工程Ｔ３４０２以降で、各学習評価画像に対して最大値取得工程Ｔ３４０１で取得された領域判別結果の精度ＰＡＩｍをチェックする。即ち、領域判別器再学習部３０５は、最大値判定工程Ｔ３４０３として、評価画像設定工程Ｔ３４０２でセットされた精度ＰＡＩｍが所定値を超えているかをチェックする。この最大値判定工程Ｔ３４０３で所定値を超えていると判定した場合、領域判別器再学習部３０５は、再学習処理に移行せず、次の学習評価画像の精度ＰＡＩｍをセットする。一方、最大値判定工程Ｔ３４０３で所定値を超えていないと判定した場合、領域判別器再学習部３０５は、評価画像学習判定工程Ｔ３４０４の処理に移行する。

評価画像学習判定工程Ｔ３４０４へ進むと、領域判別器再学習部３０５は、学習評価画像Ｉｍが領域判別器の学習時に利用されているかどうかをチェックする。なお、領域判別器学習用データと学習評価画像セットが同一でない場合、領域判別器学習部３０２は、学習用データの中で学習評価画像Ｉｍと最もシーン情報が類似している学習画像をチェックする。評価画像学習判定工程Ｔ３４０４で学習評価画像Ｉｍがどの領域判別器の学習時にも利用されていないと判定された場合、領域判別器再学習部３０５は、領域判別器追加工程Ｔ３４０５へ処理を進める。領域判別器追加工程Ｔ３４０５に進むと、領域判別器学習部３０２は、学習評価画像Ｉｍをシーン情報が類似している領域判別器の学習画像に追加して再学習する。なお、領域判別器学習部３０２は、シーン情報が類似している領域判別器を選択する場合、各領域判別器のシード画像のシーン情報と学習評価画像Ｉｍのシーン情報の類似度を求める。一方、評価画像学習判定工程Ｔ３４０４で学習評価画像Ｉｍが学習されていたと判定された場合、領域判別器再学習部３０５は、学習画像再選択工程Ｔ３４０６として、学習されていた領域判別器の学習画像を再選択する。領域判別器再学習部３０５は、例えば、該当する領域判別器の学習画像のなかで学習評価画像Ｉｍとシーン情報が類似していない画像を除いたり、又は学習評価画像Ｉｍとシーン情報が類似している他の学習画像を追加したりする。なお、この実施形態では、学習画像の再選択方法について説明したが、領域判別器再学習部３０５は、領域判別器に利用する特徴量を変更或いは追加したり、クラス数及びクラス定義を変更したりしてもよい。次に、領域判別器追加工程Ｔ３４０５、学習画像再選択工程Ｔ３４０６の処理後、領域判別器再学習部３０５は、再学習工程Ｔ３４０７へ処理を進める。

領域判別器再学習部３０５は、再学習工程Ｔ３４０７へ進むと、領域判別器追加工程Ｔ３４０５、学習画像再選択工程Ｔ３４０６で変更された事項を用いて領域判別器の再学習を行う。その後、領域判別器再学習部３０５は、評価画像領域判別工程Ｔ３４０８として、再学習工程Ｔ３４０７で再学習された領域判別器を用いて、再度学習評価セットの領域判別を行う。この領域判別結果は、次の統合識別器学習工程Ｔ３５０で利用される。この統合識別器学習工程Ｔ３５０での認識時の処理に関しては第１の実施形態と同様であるため、説明を省略する。

以上のように第３の実施形態によれば、学習装置３００は、シーン情報に基づいて学習用データ保持部３１０からサブセットを選択し、それを用いて複数の領域判別器を学習する。また、学習装置３００は、学習された複数の領域判別器を評価し、学習評価セットに対して十分な性能が得られなかった場合に、領域判別器の再学習を行う。そして、学習装置３００は、その複数の領域判別器による領域判別結果とシーン情報を統合して領域のクラスを識別する統合識別器を学習する。したがって、第３の実施形態の場合の画像認識装置２０は複数の領域判別器による領域判別結果とシーン情報を統合して識別することにより、識別対象画像の各領域のクラスを精度よく識別することができるようになる。これにより、第３の実施形態の画像認識装置２０は、高い精度で領域分割と画像認識が可能となる。

＜第４の実施形態＞
次に第４の実施形態の学習装置３００について説明する。第４の実施形態の学習装置３００は、第１の実施形態と異なり、学習評価セット判別の結果に応じて領域判別器の追加学習を行う。図２０の（ｂ）は、第４の実施形態の学習装置３００のＣＰＵ４０１が実行する各処理の機能ブロック構成例を示している。第４の実施形態における学習装置３００は、図１２の（ａ）に示した機能構成に加えて領域判別器追加学習部３０６の機能を実行可能となされている。領域判別器追加学習部３０６の詳細な説明については、図１３の（ｄ）等を用いて後述する。その他の構成については、図１２と同様であるため説明を省略する。

図１３の（ｄ）は、第４の実施形態における学習装置３００が統合識別器を学習するまでの処理の概要を示す。なお、図１３の（ｄ）のサブセット選択工程Ｔ４１０は第１の実施形態の工程Ｔ１１０と同様であり、領域判別器学習工程Ｔ４２０は第１の実施形態の工程Ｔ１２０と同様であるため説明を省略する。また、学習評価セット判別工程Ｔ４３０は、第１の実施形態の工程Ｔ１３０と同様であるため説明を省略する。第４の実施形態の場合、領域判別器追加学習部３０６は、図１３の（ｄ）の領域判別器追加学習工程Ｔ４４０の処理を行う。領域判別器追加学習部３０６は、この工程Ｔ４４０において、学習評価セット判別工程Ｔ４３０で学習評価セットに対して領域判別を行った結果、追加学習を要すると判定された領域判別器の追加学習を行う。領域判別器追加学習工程Ｔ４４０の処理に関しては第１の実施形態と異なるため、詳しく説明する。

統合識別器学習工程Ｔ４５０は、第１の実施形態の統合識別器学習工程Ｔ１４０とほぼ同様であるが、学習装置３００は、領域判別器追加学習工程Ｔ４４０で再学習された領域判別器で学習評価セットを領域判別した結果も用いて統合識別器を学習する。次に、領域判別器追加学習工程Ｔ４４０の処理の、より具体的な処理について述べる。図２２は、領域判別器追加学習工程Ｔ４４０の詳細フローの一例を示した図である。図２２において、最大値取得工程Ｔ４４０１から最大値判定工程Ｔ４４０３は、図２１に示した第３の実施形態における工程Ｔ３４０１から工程Ｔ３４０３と同様であるため説明を省略する。

図２２のフローチャートにおいて、最大値判定工程Ｔ４４０３で所定値を超えていないと判定された場合、領域判別器追加学習部３０６は、シード画像判定工程Ｔ４４０４へ処理を進める。シード画像判定工程Ｔ４４０４の処理に移行すると、領域判別器追加学習部３０６は、学習評価画像Ｉｍが領域判別器のどれかのシード画像として設定されているかどうかをチェックする。シード画像判定工程Ｔ４４０４で学習評価画像Ｉｍがシード画像として設定されていないと判定されると、領域判別器追加学習部３０６は、学習画像選択工程Ｔ４４０５として、学習評価画像Ｉｍを新たなシード画像として設定する。学習画像選択工程Ｔ４４０５の処理に進むと、領域判別器追加学習部３０６は、シーン情報が類似している学習画像を所定枚数選択する。これにより、領域判別器追加学習部３０６は、次の再学習工程Ｔ４４０７として、その選択された学習画像を用いて領域判別器を追加学習する。一方、シード画像判定工程Ｔ４４０４で学習評価画像Ｉｍがシード画像として設定されていると判定されると、領域判別器追加学習部３０６は、学習画像再選択工程Ｔ４４０６へ処理を進める。学習画像再選択工程Ｔ４４０６の処理に進むと、領域判別器追加学習部３０６は、シード画像として設定されている領域判別器の学習画像を再選択する。この再選択方法は、第３の実施形態における学習画像再選択工程Ｔ３４０６と同様であるため説明を省略する。

次に、領域判別器追加工程Ｔ３４０５、学習画像再選択工程Ｔ４４０６の処理後、領域判別器追加学習部３０６は、再学習工程Ｔ４４０７へ処理を進める。再学習工程Ｔ４４０７から評価画像領域判別工程Ｔ４４０８までの処理は、図２１に示した第３の実施形態における再学習工程Ｔ３４０７から評価画像領域判別工程Ｔ４４０８までの処理と同様であるため説明を省略する。統合識別器学習工程Ｔ４５０での認識時の処理に関しては第１の実施形態と同様であるため、説明を省略する。

以上のように、第４の実施形態によれば、学習装置３００はシーン情報に基づいて学習用データ保持部３１０からサブセットを選択し、それを用いて複数の領域判別器を学習する。また学習装置３００は、学習された複数の領域判別器を評価し、学習評価セットに対して十分な性能が得られなかった場合に、領域判別器の追加学習を行う。また、学習装置３００は、その複数の領域判別器による領域判別結果とシーン情報を統合して領域のクラスを識別する統合識別器を学習する。したがって、第４の実施形態の画像認識装置２０は複数の領域判別器による領域判別結果とシーン情報を統合して識別することにより、識別対象画像の各領域のクラスを精度よく識別することができるようになる。これにより、第４の実施形態の画像認識装置２０は、高い精度で領域分割と画像認識が可能となる。

＜第５の実施形態＞
第５の実施形態における学習装置３００は、第１の実施形態の例とは異なり、各領域判別器で学習する学習画像を選択するのではなく、各領域判別器で学習する各学習画像の重要度を設定する。そして、学習装置３００は、その重要度に基づいて領域判別器を学習する。図２０の（ｃ）は、第５の実施形態における学習装置３００のＣＰＵ４０１が実行する各処理の機能ブロック構成例を示している。第５の実施形態における学習装置３００は、図１２に示した機能構成のサブセット選択部３０１に代えて学習画像重要度設定部３０７の機能を実行可能となされている。学習画像重要度設定部３０７の詳細な説明については、図１３の（ｅ）のフローチャートを用いて後述する。その他の構成については、図１２と同様であるため説明を省略する。図１３の（ｅ）は、第５の実施形態における学習装置３００が統合識別器を学習するまでの処理の概要を示している。この図１３の（ｅ）において、学習画像重要度設定部３０７は、学習画像重要度設定工程Ｔ５１０として、第１の実施形態における学習処理のサブセット選択工程Ｔ１１０と違い、各領域判別器で学習に用いる学習画像の重要度を設定する。また第５の実施形態において、重要度は、シーン情報に基づいて設定される。重要度の具体的な設定方法に関しては後で説明する。

図１３の（ｅ）の領域判別器学習工程Ｔ５２０は第１の実施形態の領域判別器学習工程Ｔ１２０とほぼ同様の処理であるが、学習画像重要度設定部３０７は、各領域判別器の学習の際に学習画像重要度設定工程Ｔ５１０で設定された重要度を用いて学習を行う。例えば、非特許文献１に示されているようなニューラルネットワークを用いて領域判別器を学習する場合、学習画像重要度設定部３０７は、各学習画像が対応付けられる入力層と中間層をつなぐ結合の重みを重要度に応じて設定する。また、ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｓｈｉｎｅｓ（ＳＶＭｓ）のような識別モデルを用いる場合、学習画像重要度設定部３０７は、学習時に経験誤差を算出する際に重要度を重みとして利用する。学習評価セット判別工程Ｔ５３０は第１の実施形態の工程Ｔ１３０と同様であり、統合識別器学習工程Ｔ５４０は第１の実施形態の工程Ｔ１４０と同様であるため説明を省略する。

次に、第５の実施形態における学習画像重要度設定工程Ｔ５１０の処理のより具体的な処理について述べる。図２３は、学習画像重要度設定工程Ｔ５１０の詳細なフローチャートである。図２３中の「Ｒ」は各領域判別器の示すインデックスであり、「Ｍａ」は全学習用データ内の各学習画像のインデックスを表している。なお、シーン情報取得工程Ｔ５１０１とシード画像設定工程Ｔ５１０２は、第１の実施形態のそれぞれ対応した工程Ｔ１１０１と工程Ｔ１１０２と同様であるため説明を省略する。

学習画像重要度設定部３０７は、類似度算出工程Ｔ５１０３の処理に進むと、各学習画像に対してシード画像とのシーン情報の類似度を算出する。類似度としては、第１の実施形態に説明したＳＰＭＫ特徴量を利用する場合には、ヒストグラム距離などを用いればよい。その他ベクトル同士の距離を算出できるものであればなんでもよい。次に、学習画像重要度設定部３０７は、重要度算出工程Ｔ５１０４へ進むと、類似度算出工程Ｔ５１０３で算出した類似度に基づいて各学習画像の重要度を設定する。重要度は、図２４に示すように、領域判別器毎にリスト６０が作成され、各リスト６０には各学習画像に対応する重要度が保持されている。図２４の例では、重要度は「０」から「１」の値で正規化されている。重要度の算出方法は類似度を変数として重要度を算出する関数を定義すればよい。第５の実施形態ではヒストグラム距離をもとに重要度を算出する方法について説明する。例えば、「０」から「２」までの値域をもつヒストグラム距離の場合、各学習画像の重要度ωＩｍはヒストグラム距離をｄｉｓｔＩｍとすると、重要度は式（５）のように表される。

学習画像重要度設定部３０７は、類似度算出工程Ｔ５１０３と重要度算出工程Ｔ５１０４の処理を各学習画像に対して行い、リスト出力工程Ｔ５１０５として、学習画像重要度をリストとして出力する。出力された学習画像重要度は、次の統合識別器学習工程Ｔ５４０で利用される。統合識別器学習工程Ｔ５４０での認識時の処理に関しては第１の実施形態と同様であるため、説明を省略する。

以上のように、第５の実施形態によれば、学習装置３００はシーン情報に基づいて各領域判別器で学習する学習データの重要度を設定し、その重要度に基づいて選択した学習データを用いて複数の領域判別器を学習する。また学習装置３００は、その複数の領域判別器による領域判別結果とシーン情報を統合して領域のクラスを識別する統合識別器を学習する。したがって、第５の実施形態の画像認識装置２０は、複数の領域判別器による領域判別結果とシーン情報を統合して識別することにより、識別対象画像の各領域のクラスを精度よく識別することができるようになる。これにより、第５の実施形態の画像認識装置２０は、高い精度で領域分割と画像認識が可能となる。

以上説明したようなことから、各実施形態によれば、画像認識装置２０は、画像の領域毎に被写体の分類に関するクラスを精度よく識別することができる。

＜その他の実施形態＞
本発明は、上述の実施形態の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。

以上、本発明の好ましい実施の形態について詳述したが、本実施形態は係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

１０カメラ、２０画像認識装置、１５ネットワーク、３０シーン、１００識別対象画像、４０１ＣＰＵ、４０２ＲＡＭ、４０３ＲＯＭ、４０４ＨＤ、４０５操作部、４０６表示部、４０７ネットワークＩ／Ｆ

Claims

複数の学習画像の一部を選択してなるサブセットを複数作成する作成手段と、
前記作成されたサブセットごとに、前記学習画像を分割してなる各領域のクラスを判別するための領域判別器を学習する学習手段と、
前記学習された複数の領域判別器を用いて複数の学習評価画像を分割してなる各領域のクラスを判別する学習判別手段と、
前記学習判別手段により判別された前記複数の学習評価画像の各領域に対する判別結果と、前記複数の学習評価画像それぞれに対応づけられたシーン情報と、に基づいて統合識別器を学習する識別学習手段と、
を有することを特徴とする画像処理装置。
前記複数の学習画像のそれぞれはシーン情報が対応付けられており、
前記作成手段は、前記複数の学習画像それぞれのシーン情報に基づいて、複数のサブセットを作成することを特徴とする請求項１に記載の画像処理装置。
前記作成手段は、前記複数の学習画像からランダムに選択された学習画像のシーン情報に基づいて、前記複数の学習画像から前記選択された学習画像のシーン情報と類似したシーン情報が対応付けられている学習画像を選択してサブセットを作成することを特徴とする請求項２に記載の画像処理装置。
前記作成手段は、前記複数の学習画像からユーザの指示により選択された学習画像のシーン情報に基づいて、前記複数の学習画像から前記選択された学習画像のシーン情報と類似したシーン情報が対応付けられている学習画像を選択してサブセットを作成することを特徴とする請求項２に記載の画像処理装置。
前記作成手段は、前記複数の学習画像を前記シーン情報の類似度に基づいてクラスタリングして、クラスタリングによるクラスタに含まれる学習画像を同一のサブセットとすることを特徴とする請求項２から４のいずれか１項に記載の画像処理装置。
前記識別学習手段は、前記複数の学習画像のシーン情報と前記複数の学習評価画像のシーン情報との類似度に基づいて、前記統合識別器を学習することを特徴とする請求項２から５のいずれか１項に記載の画像処理装置。
前記複数の学習評価画像は、前記複数の学習画像の一部または全部であることを特徴とする請求項１から６のいずれか１項に記載の画像処理装置。
前記学習判別手段による判別結果の精度に応じて、前記複数の領域判別器を再学習する再学習手段を更に有することを特徴とする請求項１から７のいずれか１項に記載の画像処理装置。
前記学習判別手段による判別結果に応じて、領域判別器を追加学習する追加学習手段を更に有し、
前記識別学習手段は、前記追加学習手段によって追加学習された領域判別器の判別結果に基づいて、前記統合識別器を学習することを特徴とする請求項１から８のいずれか１項に記載の画像処理装置。
前記複数の学習画像のそれぞれは重要度が対応付けられており、
前記作成手段は、前記複数の学習画像それぞれの重要度に基づいて、複数のサブセットを作成することを特徴とする請求項１から９のいずれか１項に記載の画像処理装置。
前記学習手段により学習された複数の領域判別器を保持するための保持手段を更に有することを特徴とする請求項１から１０のいずれか１項に記載の画像処理装置。
前記シーン情報は、画像を分割してなる複数のブロックにおける色情報のヒストグラムであることを特徴とする請求項１から１１のいずれか１項に記載の画像処理装置。
前記学習手段は、前記学習画像の各領域から抽出される特徴量と、該各領域に付与された正解データとに基づいて、各領域のクラスを判別するための領域判別器を学習することを特徴とする請求項１から１２のいずれか１項に記載の画像処理装置。
前記識別学習手段は、前記判別結果と前記シーン情報とにより構成される特徴量と、前記複数の学習評価画像の各領域付与される正解データとに基づいて、前記統合識別器を学習することを特徴とする請求項１から１３のいずれか１項に記載の画像処理装置。
識別対象画像を取得する取得手段と、
前記識別対象画像のシーン情報を取得するシーン情報取得手段と、
前記学習手段により学習された複数の領域判別器を用いて、前記識別対象画像を分割してなる各領域のクラスを判別する判別手段と、
前記学習された統合識別器を用い、前記判別手段により判別された前記複数の識別対象画像の各領域に対する判別結果と、前記取得されたシーン情報と、に基づいて前記識別対象画像の各領域のクラスを識別する統合識別手段と、
を更に有することを特徴とする請求項１から１４のいずれか１項に記載の画像処理装置。
画像処理装置が実行する画像処理方法であって、
複数の学習画像の一部を選択してなるサブセットを複数作成すステップと、
前記作成されたサブセットごとに、前記学習画像を分割してなる各領域のクラスを判別するための領域判別器を学習するステップと、
前記学習された複数の領域判別器を用いて複数の学習評価画像を分割してなる各領域のクラスを判別するステップと、
前記判別された前記複数の学習評価画像の各領域に対する判別結果と、前記複数の学習評価画像それぞれに対応づけられたシーン情報と、に基づいて統合識別器を学習するステップと、
を有することを特徴とする画像処理方法。
コンピュータを請求項１から１５のいずれか１項に記載の画像処理装置の各手段として機能させるためのプログラム。