JP6149710B2

JP6149710B2 - 画像処理装置及びプログラム

Info

Publication number: JP6149710B2
Application number: JP2013244842A
Authority: JP
Inventors: 加藤　典司; 典司加藤
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2013-11-27
Filing date: 2013-11-27
Publication date: 2017-06-21
Anticipated expiration: 2033-11-27
Also published as: US20150146974A1; CN104683686A; CN104683686B; JP2015103144A; US9122957B2

Description

本発明は、画像処理装置及びプログラムに関する。

非特許文献１には、画像を複数の領域に分割し、分割した各領域の画像特徴を結合した特徴ベクトルを用いて画像認識処理を行うことが開示されている。

Lazebnik, "Beyond Bags of Features: Spatial Pyramid Matching forRecognizing Natural Scene Categories", Conference on Computer Vision andPattern Recognition, pp. 2169-2178(2006)

本発明の目的は、画像から特定種類のオブジェクトを識別する精度を向上できる画像処理装置及びプログラムを提供することにある。

請求項１に係る発明は、処理対象の画像を取得する取得手段と、前記処理対象の画像中に複数の部分画像領域を設定する設定手段と、前記複数の部分画像領域のそれぞれについて特定種類のオブジェクトが含まれる可能性を示す第１の識別結果を取得する取得手段と、前記複数の部分画像領域のそれぞれについての第１の識別結果に基づいて、前記処理対象の画像中に前記特定種類のオブジェクトが含まれる可能性を示す第２の識別結果を生成する生成手段と、を含む画像処理装置である。

請求項２に係る発明は、前記複数の部分画像領域のそれぞれについての第１の識別結果の中から一部の第１の識別結果を抽出する抽出手段と、前記生成手段は、前記抽出手段により抽出した第１の識別結果に基づいて、前記処理対象の画像中に前記特定種類のオブジェクトが含まれる可能性を示す第２の識別結果を生成する請求項１に記載の画像処理装置である。

請求項３に係る発明は、前記第１の識別結果は、前記特定種類のオブジェクトが含まれる確率であり、前記抽出手段は、前記複数の部分画像領域のそれぞれについての第１の識別結果である確率が大きい順に、予め定められた数又は割合の第１の識別結果を抽出する請求項２に記載の画像処理装置である。

請求項４に係る発明は、前記第１の識別結果は、前記特定種類のオブジェクトが含まれる確率であり、前記抽出手段は、前記複数の部分画像領域のそれぞれについての第１の識別結果である確率が閾値以上の第１の識別結果を抽出する請求項２に記載の画像処理装置である。

請求項５に係る発明は、前記第１の識別結果は、前記特定種類のオブジェクトが含まれる確率であり、前記生成手段は、前記複数の部分画像領域のそれぞれについての第１の識別結果である確率の合計、積、又は、前記複数の部分画像領域のそれぞれについての第１の識別結果である確率が閾値以上である第１の識別結果の数と閾値未満である第１の識別結果の数との比較結果に基づいて、前記処理対象の画像中に前記特定種類のオブジェクトが含まれる可能性を示す第２の識別結果を生成する請求項１に記載の画像処理装置である。

請求項６に係る発明は、前記特定種類のオブジェクトを含む１以上の標本画像にそれぞれ設定した部分画像領域の画像特徴に基づいて、該特定種類のオブジェクトの識別条件を識別器に学習させる手段をさらに含み、前記取得手段は、前記複数の部分画像領域のそれぞれの画像特徴に基づいて、前記識別器により前記複数の部分画像領域のそれぞれについて特定種類のオブジェクトが含まれる可能性を示す第１の識別結果を取得する請求項１乃至５のいずれかに記載の画像処理装置である。

請求項７に係る発明は、前記標本画像に設定した部分画像領域の位置及びサイズに関する特徴を学習する部分領域情報学習手段をさらに含み、前記設定手段は、前記部分領域情報学習手段により学習された部分画像領域の位置及びサイズに関する特徴に基づいて、前記処理対象の画像中に複数の部分画像領域を設定する請求項６に記載の画像処理装置である。

請求項８に係る発明は、前記部分画像領域の画像特徴は、該部分画像領域に含まれる１以上の画素のそれぞれの局所特徴の分布に基づき生成される請求項６又は７に記載の画像処理装置である。

請求項９に係る発明は、前記設定手段は、前記処理対象の画像中に設定する複数の部分画像領域のうち少なくとも一部の領域が重なるように該複数の部分画像領域を設定する請求項１乃至８のいずれかに記載の画像処理装置である。

請求項１０に係る発明は、処理対象の画像を取得する取得手段と、前記処理対象の画像中に複数の部分画像領域を設定する設定手段と、前記複数の部分画像領域のそれぞれについて特定種類のオブジェクトが含まれる可能性を示す第１の識別結果を取得する取得手段と、前記複数の部分画像領域のそれぞれについての第１の識別結果に基づいて、前記処理対象の画像中に前記特定種類のオブジェクトが含まれる可能性を示す第２の識別結果を生成する生成手段としてコンピュータを機能させるためのプログラムである。

請求項１に記載の発明によれば、本構成を有さない場合と比較して、特定種類のオブジェクトを含む可能性がそれぞれ異なる複数の部分画像領域の識別結果を利用して画像から特定種類のオブジェクトを識別する精度を向上できる。

請求項２に記載の発明によれば、本構成を有さない場合と比較して、特定種類のオブジェクトを含む可能性がそれぞれ異なる複数の部分画像領域の識別結果の一部を利用して画像から特定種類のオブジェクトを識別する精度を向上できる。

請求項３に記載の発明によれば、本構成を有さない場合と比較して、画像中に設定した部分画像領域のうち特定種類のオブジェクトを含む可能性が高い部分画像領域の識別結果を利用して画像から特定種類のオブジェクトを識別する精度を向上できる。

請求項４に記載の発明によれば、本構成を有さない場合と比較して、画像中に設定した部分画像領域のうち特定種類のオブジェクトを含む可能性が高い部分画像領域の識別結果を利用して画像から特定種類のオブジェクトを識別する精度を向上できる。

請求項５に記載の発明によれば、本構成を有さない場合と比較して、特定種類のオブジェクトを含む可能性がそれぞれ異なる複数の部分画像領域の識別結果の全てを利用して画像から特定種類のオブジェクトを識別する精度を向上できる。

請求項６に記載の発明によれば、本構成を有さない場合と比較して、画像中に設定した部分画像領域のそれぞれに特定種類のオブジェクトが含まれる可能性を精度良く認識できる。

請求項７に記載の発明によれば、本構成を有さない場合と比較して、識別対象のオブジェクトに適したサイズ、位置の部分画像領域を画像中に設定できる。

請求項８に記載の発明によれば、本構成を有さない場合と比較して、オブジェクトの形状や照明の変動が識別精度に与える影響を小さくできる。

請求項９に記載の発明によれば、本構成を有さない場合と比較して、識別対象のオブジェクトを含む部分画像領域の数を増加させることができる。

学習処理に関して画像処理装置に備えられた機能の一例を示す図である。識別処理に関して画像処理装置に備えられた機能の一例を示す図である。対象画像の一例を示す図である。対象画像に設定される複数の識別対象領域の一例を示す図である。識別結果の統合処理の一例を説明する図である。学習処理のフロー図である。局所特徴量の算出処理のフロー図である。識別器の学習処理のフロー図である。識別処理のフロー図である。

以下、本発明を実施するための実施の形態（以下、実施形態という）を、図面に従って説明する。本実施形態に係る画像処理装置１０は、１以上の種類のオブジェクトの画像特徴を識別器に学習させるとともに、識別器を用いて処理対象の画像中に写し出されたオブジェクト（物体）を識別する処理を実行するコンピュータである。

ここで、本実施形態に係る画像処理装置１０による処理の概要について説明する。まず、画像処理装置１０は、予め写し出されているオブジェクトの種類が判明している標本画像に対して１以上の部分画像領域を設定し、設定した部分画像領域の画像特徴に基づいて、オブジェクトの種類ごとに識別器による学習処理を実行する。また、画像処理装置１０は、写し出されているオブジェクトの種類が判明していない対象画像に対して複数の部分画像領域を設定し、設定した複数の部分画像領域の画像特徴に基づき識別器による識別処理を実行し、複数の部分画像領域のそれぞれの識別結果を統合して、対象画像に写し出されるオブジェクトの情報を決定する。

［１．機能ブロックの説明］
次に、図１及び図２に示された機能ブロック図に基づいて、本実施形態に係る画像処理装置１０に備えられた機能の一例について説明する。

［１−１．学習処理に関する機能ブロックの説明］
図１には、画像処理装置１０に備えられた機能のうち、オブジェクトの画像特徴を機械学習モデル（識別器）に学習させる処理に関する機能の一例を示した。

図１に示されるように、画像処理装置１０は、学習情報受付部１１、標本画像取得部１２、局所画像特徴生成部１３、局所画像特徴クラスタ設定部１４、局所画像特徴量子化部１５、学習領域設定部１６、矩形特徴量生成部１７、矩形特徴量保持部１８、機械学習部１９、識別モデルパラメータ記憶部２０を備える。

画像処理装置１０に備えられる上記各部の機能は、ＣＰＵ等の制御手段、メモリ等の記憶手段、外部デバイスとデータを送受信する入出力手段等を備えたコンピュータが、コンピュータ読み取り可能な情報記憶媒体に格納されたプログラムを読み込み実行することで実現されるものとしてよい。なお、プログラムは光ディスク、磁気ディスク、磁気テープ、光磁気ディスク、フラッシュメモリ等の情報記憶媒体によってコンピュータたる画像処理装置１０に供給されることとしてもよいし、インターネット等のデータ通信網を介して供給されることとしてもよい。以下、図１に示される各部の機能の詳細について説明する。

学習情報受付部１１は、例えば画像処理装置１０に接続された入力装置や外部デバイス（ユーザ端末等）から学習情報を受け付ける。例えば、学習情報受付部１１は、学習に用いる標本画像のファイルパス、標本画像の中で学習処理に用いる部分画像領域（学習領域）を指定した領域指定データ、標本画像による学習するオブジェクトの種類の情報を受け付けることとしてよい。

標本画像取得部１２は、学習情報受付部１１により受け付けた学習情報に基づいて、学習処理に用いる標本画像を取得する。例えば、標本画像取得部１２は、学習情報受付部１１により受け付けた標本画像のファイルパスに基づいて、標本画像を取得することとしてよい。なお、標本画像は、画像処理装置１０の内部の記憶部から取得してもよいし、画像処理装置１０の外部のデータベースから取得しても構わない。

局所画像特徴生成部１３は、標本画像取得部１２により取得した標本画像に対して局所画像特徴を生成する。例えば、局所画像特徴生成部１３は、標本画像の全て又は一部の画素（又は複数の画素からなる画素群）のそれぞれについて、画素（又は画素群）を中心（又画素又は画素群に含まれるいずれかの座標を基点）とする一定領域の画像情報に基づいて局所特徴を生成する。局所特徴としては、例えば画素のＲＧＢ値、ＳＩＦＴ特徴、ＨＯＧ特徴、Ｇａｂｏｒ特徴等のうち１つ又は複数を用いることとしてよい。また、局所画像特徴生成部１３は、標本画像中の画素について、複数サイズ（スケール）の領域を設定し、それぞれのサイズの領域について局所特徴を生成するようにしてもよい。

局所画像特徴クラスタ設定部１４は、局所画像特徴生成部１３により生成される局所特徴を複数のクラスタに分類し、それぞれのクラスタの中心を保持する。例えば、局所画像特徴クラスタ設定部１４は、複数の標本画像について得た局所特徴を、ｋ−Ｍｅａｎｓクラスタリングによりクラスタに分類することとしてよい。本実施形態では、局所特徴のそれぞれのクラスタに識別番号を付与することとし、例えばクラスタ数は数千程度としてよい。なお、局所画像特徴クラスタ設定部１４は、局所特徴に関するクラスタの情報を、例えば識別モデルパラメータ記憶部２０に記憶することとしてよい。

局所画像特徴量子化部１５は、局所画像特徴生成部１３により生成された局所特徴が、局所画像特徴クラスタ設定部１４により設定された複数のクラスタのいずれに属するかに基づいて、局所特徴を量子化する。例えば、局所画像特徴量子化部１５は、局所画像特徴生成部１３により生成された局所特徴を、該局所特徴が属するクラスタの識別番号に置換することで、局所特徴を量子化することとしてよい。

学習領域設定部１６は、学習情報受付部１１により受け付けた学習情報に基づいて、標本画像のうち学習処理に用いる１以上の部分画像領域（学習領域）を設定する。例えば、学習領域設定部１６は、学習情報受付部１１により受け付けた領域指定データに基づいて、標本画像の中に１以上の学習領域を設定することとしてよい。なお、学習領域は、その少なくとも一部が互いに重なっていてもよく、特に、学習対象のオブジェクトが写し出された領域について学習領域の一部を互いに重ねて設定することとしてよい。また、本実施形態では、学習領域を矩形とした場合を例として説明するが、学習領域は矩形以外の形状であってもよい。

矩形特徴量生成部１７は、学習領域設定部１６により設定された学習領域（矩形領域）に含まれる量子化された局所特徴（さらには局所特徴の分布）に基づいて、学習領域（矩形領域）の特徴量を生成する。例えば、矩形特徴量生成部１７は、対象の矩形領域に含まれる各画素について量子化された局所特徴（すなわちクラスタ番号）の頻度を計数して得たヒストグラムに基づいて矩形特徴量として生成することとしてよい。例えば、矩形特徴量生成部１７は、矩形領域に含まれる画素数で各クラスタ番号の頻度を除して正規化されたヒストグラムを得ることとしてもよい。また、矩形特徴量は数千次元のベクトルとなるため、これを圧縮して低次元ベクトルにすることとしてもよい。例えば、ベクトルの次元圧縮の手法としては、あらかじめ多数の矩形特徴量を用意し、主成分分析（ＰＣＡ）によって固有ベクトルを算出し、固有値が大きな少数の固有ベクトルからなる部分空間に射影することで次元圧縮を行うこととしてよい。また、学習用の標本画像に付与されたオブジェクトの種類（画像カテゴリ）を用いて、矩形特徴量と画像カテゴリの相関が大きくなる部分空間を正準相関分析（ＣＣＡ）により求めて次元圧縮を行ってもよい。

矩形特徴量保持部１８は、学習領域設定部１６により設定された矩形領域のそれぞれについて、矩形特徴量生成部１７により生成された矩形特徴量と、矩形領域に対して学習情報受付部１１により受け付けたオブジェクトの種類（画像カテゴリ）を関連付けて保持する。また、矩形特徴量保持部１８は、矩形領域のそれぞれに対してさらに矩形領域の位置（座標位置）、サイズ情報を関連付けて保持するようにしてもよい。

機械学習部１９は、矩形特徴量保持部１８に保持された矩形特徴量とオブジェクトの種類（画像カテゴリ）に基づいて、オブジェクトの種類にそれぞれ対応する識別器を学習する。例えば、機械学習部１９は、オブジェクトの種類ごとに識別器ＩＤを一対一で対応させ、識別器ＩＤにより識別される識別器ごとに、該識別器が対応するオブジェクトの種類が関連付けられた矩形特徴量に基づく学習処理を実行することとしてよい。例えば、機械学習部１９は、オブジェクトが車である場合には、これを車に対応する第Ｘの識別器（識別モデル）により学習し、オブジェクトが人である場合には、これを人に対応する第Ｙの識別器（識別モデル）により学習させることとしてよい。なお、機械学習部１９は、オブジェクトの種類ごとに対応する第１〜第Ｎ（Ｎは１以上の整数）識別器の学習パラメータを、識別モデルパラメータ記憶部２０に記憶させることとしてよい。

また、機械学習部１９は、オブジェクトの種類ごとに、矩形領域のサイズ、位置をクラスタリングし、オブジェクトの種類に対応する代表的な矩形領域のサイズ、位置の情報（座標位置、座標位置の移動量等）を含む矩形領域設定パラメータを、オブジェクトの種類に対応する第ｉ（ｉは１〜Ｎのいずれか）識別モデルパラメータ記憶部２０に記憶することとしてもよい。

なお、識別器としては最近傍識別器、ランダムフォレスト識別器などの高速な識別器が望ましいが、その他の混合ガウス分布モデル、サポートベクタマシンでも構わない。また、最近傍識別器、ランダムフォレスト識別器を用いる場合には、一つの識別器で複数の画像カテゴリを識別し、混合ガウス分布モデル、サポートベクタマシンの場合、画像カテゴリの数だけ識別器を用意することとしてよい。

識別モデルパラメータ記憶部２０は、それぞれ第１〜第Ｎ（Ｎは１以上の整数）識別モデルパラメータ記憶部２０−１〜２０―Ｎを含む。そして、第ｉ（ｉは１〜Ｎのいずれかの整数）識別モデルパラメータ記憶部２０−ｉはそれぞれ、第ｉ識別モデルに対応するオブジェクトの種類について、機械学習部１９により学習された矩形特徴量の識別条件（識別超平面等）を特定する識別モデルパラメータを記憶する。また、第ｉ（ｉは１〜Ｎのいずれかの整数）識別モデルパラメータ記憶部２０−ｉはさらに、学習に用いた矩形領域に基づいて学習された代表的な矩形領域のサイズ、位置の情報を記憶することとしてもよい。

以上が、画像処理装置１０が学習処理に関して備える機能の一例である。次に、識別器を利用して画像中からオブジェクトを識別する処理に関して画像処理装置１０が備える機能の一例について図２に基づき説明する。

［１−２．識別処理に関する機能ブロックの説明］
図２に示されるように、画像処理装置１０は、対象画像取得部２１、局所画像特徴生成部１３、局所画像特徴クラスタ設定部１４、局所画像特徴量子化部１５、識別モデル選択部２２、識別対象領域設定部２３、矩形特徴量生成部１７、識別部２４、識別モデルパラメータ記憶部２０、識別結果統合部２５、識別結果出力部２６を備える。

画像処理装置１０に備えられる上記各部の機能は、ＣＰＵ等の制御手段、メモリ等の記憶手段、外部デバイスとデータを送受信する入出力手段等を備えたコンピュータが、コンピュータ読み取り可能な情報記憶媒体に格納されたプログラムを読み込み実行することで実現されるものとしてよい。なお、プログラムは光ディスク、磁気ディスク、磁気テープ、光磁気ディスク、フラッシュメモリ等の情報記憶媒体によってコンピュータたる画像処理装置１０に供給されることとしてもよいし、インターネット等のデータ通信網を介して供給されることとしてもよい。以下、図２に示される各部の機能の詳細について説明する。

対象画像取得部２１は、識別処理の対象とする画像（対象画像）を取得する。例えば、対象画像取得部２１は、カメラやパーソナルコンピュータ等の外部デバイスから対象画像を取得することとしてよい。ここで、図３には、対象画像取得部２１により取得される対象画像Ｔの一例を示した。

局所画像特徴生成部１３は、対象画像取得部２１により取得した対象画像に対して局所画像特徴を生成する。例えば、局所画像特徴生成部１３は、対象画像の全て又は一部の画素（又は複数の画素からなる画素群）のそれぞれについて、画素（又は画素群）を中心（又画素又は画素群に含まれるいずれかの座標を基点）とする一定領域の画像情報に基づいて局所特徴を生成する。局所特徴としては、例えば画素のＲＧＢ値、ＳＩＦＴ特徴、ＨＯＧ特徴、Ｇａｂｏｒ特徴等のうち１つ又は複数を用いることとしてよい。また、局所画像特徴生成部１３は、対象画像中の画素について、複数サイズ（スケール）の領域を設定し、それぞれのサイズの領域について局所特徴を生成するようにしてもよい。

局所画像特徴クラスタ設定部１４は、局所特徴のそれぞれのクラスタの情報を設定する。例えば、局所画像特徴クラスタ設定部１４は、識別モデルパラメータ記憶部２０に記憶された局所特徴のクラスタの情報に基づいて、局所特徴のクラスタの情報を設定することとしてよい。

識別モデル選択部２２は、第１〜第Ｎ（Ｎは１以上の整数）識別モデルの中から、識別に用いる識別モデルを選択する。例えば、識別モデル選択部２２は、指定がある場合には、当該指定された識別モデルを選択し、指定がない場合には、番号の小さい順（又は大きい順）に第１〜第Ｎ識別モデルを順次選択することとしてよい。

識別対象領域設定部２３は、対象画像の中で識別対象とする複数の部分画像領域（識別対象領域）を設定する。例えば、識別対象領域設定部２３は、対象画像のうち、予め定められた１以上のサイズの矩形領域を、予め定められたシフト量で移動させることで、複数の識別対象領域を設定することとしてよい。ここで、識別対象領域設定部２３は、識別モデル選択部２２で第ｉ（ｉは１〜Ｎのいずれか）識別モデルが選択された場合には、第ｉ識別モデルパラメータ記憶部２０−ｉに記憶される矩形領域設定パラメータを参照し、矩形領域設定パラメータに示されるサイズ、位置の情報に基づいて複数の識別対象領域を設定することとしてよい。そして、識別対象領域設定部２３は、対象画像に設定する複数の部分画像領域の少なくとも一部の部分画像領域の少なくとも一部が互いに重なるように領域の位置を設定することとしてもよい。また、本実施形態では、識別対象領域を矩形とした場合を例として説明するが、識別対象領域は矩形以外の形状であってもよい。

ここで、図４には、対象画像Ｔについて識別対象領域設定部２３により設定される複数の識別対象領域の一例を示した。図４では、４つの識別対象領域（Ａ，Ｂ，Ｃ，Ｄ）が対象画像Ｔに設定された例が示されている。

矩形特徴量生成部１７は、識別対象領域設定部２３により設定された識別対象領域（矩形領域）に含まれる量子化された局所特徴に基づいて、識別対象領域（矩形領域）の特徴量を生成する。例えば、矩形特徴量生成部１７は、対象の矩形領域に含まれる各画素について量子化された局所特徴（すなわちクラスタ番号）の頻度を計数して得たヒストグラムに基づいて矩形特徴量として生成することとしてよい。例えば、矩形特徴量生成部１７は、矩形領域に含まれる画素数で各クラスタ番号の頻度を除して正規化されたヒストグラムを得ることとしてもよい。また、矩形特徴量は数千次元のベクトルとなるため、これを圧縮して低次元ベクトルにすることとしてもよい。例えば、ベクトルの次元圧縮の手法としては、あらかじめ多数の矩形特徴量を用意し、主成分分析（ＰＣＡ）によって固有ベクトルを算出し、固有値が大きな少数の固有ベクトルからなる部分空間に射影することで次元圧縮を行うこととしてよい。また、学習用の標本画像に付与されたオブジェクトの種類（画像カテゴリ）を用いて、矩形特徴量と画像カテゴリの相関が大きくなる部分空間を正準相関分析（ＣＣＡ）により求めて次元圧縮を行ってもよい。

識別モデルパラメータ記憶部２０は、それぞれ第１〜第Ｎ（Ｎは１以上の整数）識別モデルパラメータ記憶部２０−１〜２０−Ｎを含む。そして、第ｉ（ｉは１〜Ｎのいずれかの整数）識別モデルパラメータ記憶部２０−ｉはそれぞれ、第ｉ識別モデルに対応するオブジェクトの種類について、図１に示した機械学習部１９により学習された矩形特徴量の識別条件を特定する識別モデルパラメータを記憶している。

識別部２４は、複数の識別対象領域のそれぞれについて、それぞれの識別対象領域について生成された矩形特徴量と、識別モデル選択部２２により選択された第ｉ識別モデルに対応する第ｉ識別モデルパラメータ記憶部２０−ｉに記憶される学習された識別モデルパラメータとに基づいて、識別対象領域に第ｉ識別モデルにより識別する対象のオブジェクトが含まれる確率、相関の単調増加関数である評価値（スコア）を算出する。本実施形態では、評価値に確率を用いた場合を例として説明する。

識別結果統合部２５は、対象画像について識別対象領域設定部２３により設定した複数の識別対象領域のそれぞれの識別部２４による識別結果（確率）に基づいて、最終的な識別結果を生成する。例えば、識別結果統合部２５は、第ｉ識別モデルによる複数の識別対象領域についてのそれぞれ複数の識別結果（確率）のうち、予め定められた条件を満足する一部の識別結果（確率）を抽出し、抽出した識別結果（確率）の平均や積を第ｉ識別モデルによる識別対象のオブジェクトの存在確率として得ることとしてよい。１つの具体例として、識別結果統合部２５は、複数の識別対象領域についての第ｉ識別モデルによる識別結果（確率）のうち、値が大きい順に予め定められた数又は割合の識別結果（確率）を抽出し、抽出した識別結果（確率）の平均（又は合計）を第ｉ識別モデルによる識別対象のオブジェクトの存在確率（又は最終スコア）として得ることとしてよい。また、他の具体例として、識別結果統合部２５は、複数の識別対象領域についての第ｉ識別モデルによる識別結果（確率）のうち、予め定められた閾値以上（又は閾値より大きい）識別結果（確率）を抽出し、抽出した識別結果（確率）の平均（又は合計）を第ｉ識別モデルによる識別対象のオブジェクトの存在確率（又は最終スコア）として得ることとしてもよい。また、識別結果統合部２５は、複数の識別対象領域についての第ｉ識別モデルによる識別結果（確率）の平均（又は合計）を第ｉ識別モデルによる識別対象のオブジェクトの存在確率（又は最終スコア）として得ることとしてもよい。また、識別結果統合部２５は、複数の識別対象領域についての第ｉ識別モデルによる識別結果（確率）のうち、閾値以上の識別結果の数が、閾値未満の識別結果の数よりも大きい場合には、第ｉ識別モデルによる識別対象のオブジェクトが含まれ、それ以外の場合には含まれないとの結果を得ることとしてもよい。

ここで、図５を参照しながら、識別結果統合部２５による識別結果の統合処理の一例について説明する。図５に示されるように、図４において設定された識別対象領域（矩形Ａ、Ｂ，Ｃ，Ｄ）のそれぞれについて、矩形特徴量生成部１７により矩形特徴量（ヒストグラム）を生成し、生成した矩形特徴量に基づいて、例えば車を識別対象とする識別モデルによる識別結果（確率）を得る。ここで、識別結果統合部２５は、例えば、識別対象領域について得られた識別結果のうち上位２つ（又は閾値０．５とした場合に閾値以上の識別結果）を抽出し、その平均を最終結果として得る。このようにした場合に、矩形Ａや矩形Ｂは、背景等のノイズである可能性が高いため、ノイズ以外の識別対象領域に基づいてオブジェクトの識別処理が可能となる。

識別結果出力部２６は、識別結果統合部２５による最終的な識別結果を出力する。例えば、第ｉ（ｉは１〜Ｎのいずれか）識別モデルによる最終的な識別結果を、第ｉ識別モデルが識別する対象のオブジェクトの情報とともにユーザ（ユーザ端末）に提供することとしてよい。

［２．フローの説明］
次に、図６乃至図９を参照しながら、画像処理装置１０により実行される処理の一例について説明する。

［２−１．学習処理に関するフローの説明］
図６には、画像処理装置１０により実行される学習処理のフロー図を示した。図６に示されるように、画像処理装置１０は、予め学習用の標本画像から得た局所特徴量をクラスタリングし（Ｓ１０１）、各クラスタの中心の情報を記憶しておく。

次に、画像処理装置１０は、学習するオブジェクトのラベル（種類、カテゴリ）Ｌを、例えばユーザ（又はユーザ端末）から受け付ける（Ｓ１０２）。画像処理装置１０は、ラベルＬのオブジェクトが含まれる標本画像を取得するとともに、取得した標本画像の中から未処理の標本画像Ｓを選択する（Ｓ１０３）。

画像処理装置１０は、Ｓ１０３で選択した標本画像Ｓに対して局所特徴量を算出する（Ｓ１０４）。ここで、画像に対する局所特徴量の算出処理については、図７に示したフロー図を参照しながら説明する。

［２−１−１．局所特徴量の算出処理］
図７には、局所特徴量の算出処理のフロー図を示した。図７に示されるフローでは、局所特徴量を算出する対象の画像の画素数をＡ（Ａは１以上の整数）、スケール数をＢ（１以上の整数）とする。

図７に示されるように、画像処理装置１０は、変数ｉ及びｊをそれぞれ１に初期化し（Ｓ２０１）、スケールＳ_ｉを選択する（Ｓ２０２）。本フローの例では、スケールＳ_１〜Ｓ_Ｂが存在し、スケールＳ_ｉはＳ_ｉ×Ｓ_ｉピクセルで表され、Ｓ_ｉ＜Ｓ_ｉ＋１とする。

画像処理装置１０は、対象の画像（画素ｅ_１〜ｅ_Ａ）から画素ｅ_ｊを選択し（Ｓ２０３）、選択した画素ｅ_ｊを中心とするスケールＳ_ｉのサイズの領域から画素ｅ_ｊの局所特徴量ｃ_ｉｊを算出する（Ｓ２０４）。局所特徴量ｃ_ｉｊは、例えば、画素ｅ_ｊを中心とするスケールＳ_ｉのサイズの領域に含まれる画素のＲＧＢ値の平均、ＳＩＦＴ特徴、ＨＯＧ特徴、Ｇａｂｏｒ特徴等としてよい。

次に、画像処理装置１０は、変数ｊがＡに達していない場合には（Ｓ２０５：Ｎ）、ｊをインクリメント（１加算）して（Ｓ２０６）、Ｓ２０３に戻る。また、画像処理装置１０は、変数ｊがＡに達している場合であって（Ｓ２０５：Ｙ）、変数ｉがＢに達していない場合には（Ｓ２０７：Ｎ）、変数ｉをインクリメント（１加算）するとともに、変数ｊを１に初期化して（Ｓ２０８）、Ｓ２０２に戻る。そして、画像処理装置１０は、変数ｊがＡに達している場合であって（Ｓ２０５：Ｙ）、変数ｉもＢに達している場合には（Ｓ２０７：Ｙ）、局所特徴量の算出処理を終了し、リターンする。

ここで、図６のフロー図に戻り説明を続ける。図６に示されるように、画像処理装置１０は、標本画像Ｓの局所特徴量の算出処理（Ｓ１０４）を終えると、例えばユーザ（又はユーザ端末）から受け付けた領域指定データに基づいて、標本画像Ｓに対して１以上の矩形領域を設定する（Ｓ１０５）。

画像処理装置１０は、標本画像Ｓに対して設定された矩形領域のうち、未処理の矩形領域Ａを選択し（Ｓ１０６）、選択した矩形領域Ａのサイズに基づいてスケールを選択する（Ｓ１０７）。例えば、画像処理装置１０は、スケールＳ_１〜Ｓ_Ｂのそれぞれについてサイズの範囲を定めておき、矩形領域Ａのサイズの範囲がどのスケールに該当するかに基づいてスケールを選択することとしてよい。

画像処理装置１０は、Ｓ１０７で選択したスケール（例えばＳ_ｋとする）における矩形領域Ａの局所特徴量を、Ｓ１０１におけるクラスタリング結果に基づいて量子化する（Ｓ１０８）。例えば、スケールＳ_ｋにおける標本画像Ｓの画素ｅ_１〜ｅ_Ａの局所特徴量はｃ_１ｋ〜ｃ_Ａｋとなり、画像処理装置１０は、これらの局所特徴量ｃ_１ｋ〜ｃ_Ａｋが、局所特徴量のクラスタのいずれに属するかに基づいて、局所特徴量ｃ_１ｋ〜ｃ_Ａｋをそれぞれが属するクラスタの識別番号に変換する。

次に、画像処理装置１０は、矩形領域Ａに含まれる画素について量子化された局所特徴量の頻度分布に基づいて矩形特徴量を算出する（Ｓ１０９）。例えば、画像処理装置１０は、矩形領域Ａに含まれる画素について量子化された局所特徴量の頻度を計数して得たヒストグラムを矩形特徴量とすることとしてよい。

画像処理装置１０は、Ｓ１０５で設定した矩形領域の中に未処理の矩形領域がある場合には（Ｓ１１０：Ｙ）、Ｓ１０６に戻り、Ｓ１０５で設定した矩形領域の中に未処理の矩形領域がない場合には（Ｓ１１０：Ｎ）、Ｓ１１１に進む。

画像処理装置１０は、Ｓ１１１において、オブジェクトのラベルＬについて未処理の標本画像がある場合には（Ｓ１１１：Ｙ）、Ｓ１０３に戻り、オブジェクトのラベルＬについて未処理の標本画像がない場合には（Ｓ１１１：Ｎ）、ラベルＬについて得た矩形特徴量に基づいて、ラベルＬに対応する識別器の学習処理を実行する（Ｓ１１２）。ここで、ラベルＬに対応する識別器の学習処理については、図８に示したフロー図を参照しながら説明する。

［２−１−２．識別器の学習処理］
図８に示されるように、画像処理装置１０は、ラベルＬについて得られた学習用の矩形特徴量を取得し（Ｓ３０１）、取得した学習用の矩形特徴量に基づいてラベルＬのオブジェクトを識別するための識別モデルパラメータを算出し（Ｓ３０２）、算出した識別モデルパラメータを、ラベルＬに対応する識別器に関連付けて保存する（Ｓ３０３）。

次に、画像処理装置１０は、ラベルＬの学習に用いた矩形領域のサイズをクラスタリングして（Ｓ３０４）、代表的なサイズを決定する。そして、画像処理装置１０は、ラベルＬの学習に用いた矩形領域に基づいて、クラスタリングにより得た代表的なサイズごとの、位置、シフト量を決定し（Ｓ３０５）、ラベルＬに対応する識別器に関連付けて、矩形領域のサイズ、位置、シフト量等を定めた矩形領域設定パラメータを保存して（Ｓ３０６）、リターンする。

ここで、図６のフロー図に戻り説明を続ける。図６に示されるように、画像処理装置１０は、ラベルＬの識別器の学習処理を終えると、学習する他のラベルがある場合には（Ｓ１１３：Ｙ）、Ｓ１０２に戻り、学習する他のラベルがない場合には（Ｓ１１３：Ｎ）、学習処理を終了する。

［２−２．識別処理に関するフローの説明］
次に、図９に示したフロー図を参照しながら、識別対象の画像（対象画像）に写し出されたオブジェクトの識別処理の一例について説明する。

図９に示されるように、画像処理装置１０は、識別の対象画像Ｔを取得し（Ｓ４０１）、対象画像Ｔについて局所特徴量を算出する（Ｓ４０２）。なお、局所特徴量の算出処理は、図７に示したフローにより実行することとしてよい。

次に、画像処理装置１０は、変数ｉとｊをそれぞれ１に初期化して（Ｓ４０３）、ラベルＬ_ｉ（ラベルＬ_ｉは第ｉ（ｉ＝１〜Ｎ）識別モデルに対応することとする）に対応する識別器に関連付けて保存された矩形領域設定パラメータを読み込む（Ｓ４０４）。

画像処理装置１０は、Ｓ４０４で読み込んだ矩形領域設定パラメータに基づいて、対象画像Ｔに複数の矩形領域（Ａ_１〜Ａ_Ｍ、Ｍは２以上の整数）を設定する（Ｓ４０５）。

次に、画像処理装置１０は、対象画像Ｔに設定した矩形領域Ａ_ｊについて、矩形領域Ａ_ｊのサイズに基づいてスケールを選択する（Ｓ４０６）。例えば、画像処理装置１０は、スケールＳ_１〜Ｓ_Ｂのそれぞれについてサイズの範囲を定めておき、矩形領域Ａ_ｊのサイズの範囲がどのスケールに該当するかに基づいてスケールを選択することとしてよい。

画像処理装置１０は、Ｓ４０６で選択したスケール（例えばＳ_ｋとする）における矩形領域Ａ_ｊの局所特徴量を、Ｓ１０１におけるクラスタリング結果に基づいて量子化する（Ｓ４０７）。局所特徴量の量子化処理については、学習処理時の局所特徴量の量子化処理と同様であるため説明を省略する。

次に、画像処理装置１０は、矩形領域Ａ_ｊに含まれる画素について量子化された局所特徴量の頻度に基づいて矩形特徴量を算出する（Ｓ４０８）。例えば、画像処理装置１０は、矩形領域Ａ_ｊに含まれるそれぞれの画素について量子化された局所特徴量の頻度を計数して得たヒストグラムを矩形特徴量とすることとしてよい。

画像処理装置１０は、Ｓ４０８で算出された矩形領域Ａ_ｊの矩形特徴量と、ラベルＬ_ｉに対応する第ｉ識別モデルパラメータとに基づいて、矩形領域Ａ_ｊにラベルＬ_ｉのオブジェクトが含まれる確率Ｐ_ｉｊを算出し（Ｓ４０９）、算出した確率Ｐ_ｉｊを保存する（Ｓ４１０）。

ここで、画像処理装置１０は、変数ｊがＭに達していない場合には（Ｓ４１１：Ｎ）、変数ｊをインクリメント（１加算）して（Ｓ４１２）、Ｓ４０６に戻り、変数ｊがＭに達している場合には（Ｓ４１１：Ｙ）、Ｓ４１３に進む。

画像処理装置１０は、Ｓ４１３において、矩形領域Ａ_１〜Ａ_Ｍについてそれぞれ算出された確率Ｐ_ｉ１〜Ｐ_ｉＭに基づいて、対象画像ＴのラベルＬ_ｉについての評価値を算出する（Ｓ４１３）。例えば、画像処理装置１０は、確率Ｐ_ｉ１〜Ｐ_ｉＭのうち、上位Ｘ（Ｘは１以上Ｍ未満の整数）番目までの確率の平均値を対象画像ＴのラベルＬ_ｉについての評価値Ｖ_ｉとして算出することとしてよい。

次に、画像処理装置１０は、変数ｉがＮに達していない場合には（Ｓ４１４：Ｎ）、変数ｉをインクリメント（１加算）するとともに、変数ｊを１に初期化して（Ｓ４１５）、Ｓ４０４に戻る。また、画像処理装置１０は、変数ｉがＮに達している場合には（Ｓ４１４：Ｙ）、対象画像Ｔに関する各ラベルの評価値（確率）に基づく識別結果を生成するとともに、生成した識別結果を出力して（Ｓ４１６）、処理を終了する。

例えば、画像処理装置１０は、対象画像Ｔに関してラベルＬ_１〜Ｌ_Ｎについて得られた評価値Ｖ_１〜Ｖ_Ｎのうち、閾値以上（又は閾値より大きい）である評価値に対応するラベルを特定し、特定したラベル（オブジェクトの種類）の情報を出力するようにしてもよい。

本発明は上記の実施形態に限定されるものではない。例えば、上記の実施形態では、画像処理装置１０が学習処理と識別処理とを共に実行する例を説明したが、学習処理を実行する学習装置と、識別処理を実行する識別装置とを別の装置で実現することとしてもよい。この際に、学習装置が図１で説明した機能を備え、識別装置が図２で説明した機能を備えることとしてよい。

Claims

処理対象の画像を取得する取得手段と、
前記処理対象の画像中に、他の部分画像領域と重複する領域を有する部分画像領域を含む複数の部分画像領域を設定する設定手段と、
前記複数の部分画像領域のそれぞれについて特定種類のオブジェクトが含まれる可能性を示す第１の識別結果を取得する取得手段と、
前記複数の部分画像領域のそれぞれについての前記第１の識別結果の中から一部の第１の識別結果を抽出する抽出手段と、
前記抽出手段により抽出した第１の識別結果に基づいて、前記処理対象の画像中に前記特定種類のオブジェクトが含まれる可能性を示す第２の識別結果を生成する生成手段と、を含む
画像処理装置。
前記第１の識別結果は、前記特定種類のオブジェクトが含まれる確率であり、
前記抽出手段は、前記複数の部分画像領域のそれぞれについての第１の識別結果である確率が大きい順に、予め定められた数又は割合の第１の識別結果を抽出する
請求項１に記載の画像処理装置。
前記第１の識別結果は、前記特定種類のオブジェクトが含まれる確率であり、
前記抽出手段は、前記複数の部分画像領域のそれぞれについての第１の識別結果である確率が閾値以上の第１の識別結果を抽出する
請求項１に記載の画像処理装置。
前記第１の識別結果は、前記特定種類のオブジェクトが含まれる確率であり、
前記生成手段は、前記複数の部分画像領域のそれぞれについての第１の識別結果である確率の合計、積、又は、前記複数の部分画像領域のそれぞれについての第１の識別結果である確率が閾値以上である第１の識別結果の数と閾値未満である第１の識別結果の数との比較結果に基づいて、前記処理対象の画像中に前記特定種類のオブジェクトが含まれる可能性を示す第２の識別結果を生成する
請求項１に記載の画像処理装置。
前記特定種類のオブジェクトを含む１以上の標本画像にそれぞれ設定した部分画像領域の画像特徴に基づいて、該特定種類のオブジェクトの識別条件を識別器に学習させる手段をさらに含み、
前記取得手段は、前記複数の部分画像領域のそれぞれの画像特徴に基づいて、前記識別器により前記複数の部分画像領域のそれぞれについて特定種類のオブジェクトが含まれる可能性を示す第１の識別結果を取得する
請求項１乃至４のいずれかに記載の画像処理装置。
前記標本画像に設定した部分画像領域の位置及びサイズに関する特徴を学習する部分領域情報学習手段をさらに含み、
前記設定手段は、前記部分領域情報学習手段により学習された部分画像領域の位置及びサイズに関する特徴に基づいて、前記処理対象の画像中に複数の部分画像領域を設定する
請求項５に記載の画像処理装置。
前記部分画像領域の画像特徴は、該部分画像領域に含まれる１以上の画素のそれぞれの局所特徴の分布に基づき生成される
請求項５又は６に記載の画像処理装置。
処理対象の画像を取得する取得手段と、
前記処理対象の画像中に、他の部分画像領域と重複する領域を有する部分画像領域を含む複数の部分画像領域を設定する設定手段と、
前記複数の部分画像領域のそれぞれについて特定種類のオブジェクトが含まれる可能性を示す第１の識別結果を取得する取得手段と、
前記複数の部分画像領域のそれぞれについての前記第１の識別結果の中から一部の第１の識別結果を抽出する抽出手段と、
前記抽出手段により抽出した第１の識別結果に基づいて、前記処理対象の画像中に前記特定種類のオブジェクトが含まれる可能性を示す第２の識別結果を生成する生成手段
としてコンピュータを機能させるためのプログラム。