JP6059686B2

JP6059686B2 - 画像分類前処理装置、画像分類装置、画像分類前処理方法、画像分類方法及びプログラム

Info

Publication number: JP6059686B2
Application number: JP2014120783A
Authority: JP
Inventors: 泳青孫; 伊藤　直己; 直己伊藤; 数藤　恭子; 恭子数藤; 行信谷口
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2014-06-11
Filing date: 2014-06-11
Publication date: 2017-01-11
Anticipated expiration: 2034-06-11
Also published as: JP2016001387A

Description

本発明は、画像を分類する技術に関する。

或る意味ラベルに関する画像を学習データとして収集し、収集した学習データから色や形状などの特徴量を抽出し、抽出した特徴量を利用した機械学習により識別モデルを構築するという画像辞書の生成手法が知られている（例えば、非特許文献１参照）。このような処理により、学習データから求めた識別モデルを、任意の意味ラベルに対応する画像辞書として生成することができる。

Yongqing Sun, Satoshi Shimada, Masashi Morimoto, "Visual pattern discovery using web images", ACM MIR workshop , 2006

しかし、上記のような画像辞書の生成手法では、意味ラベルごとに画像識別モデルを構築することから、意味ラベルの種類の増加に従って、意味ラベルに応じたカテゴリを区別するのに必要な情報量（例えば、学習画像の枚数と画像サイズ）が増加する。
このために、大量の画像やサイズの大きな画像を収集し、蓄積することが困難になってくる。また、画像サイズの増加に伴って、特徴量の抽出などの画像辞書の生成に要する処理時間が膨大になる。

そこで、例えば画像をサムネイル化することにより縮小し、縮小された画像を用いて画像辞書を生成することが考えられる。しかしながら、画像が縮小されるのに伴っては、画像に含まれる情報量も大きく減少する。このため、縮小された画像から抽出した一つの局所特徴量（例えばＳＩＦＴ（Scale-Invariant Feature Transform）特徴点など）や、複数の特徴量の簡易な組み合わせだけでは、画像と意味ラベルとの対応関係を明確に規定することが難しくなる。この結果、画像辞書を利用した画像分類の精度が低下する。

上記事情に鑑み、本発明は、縮小された画像を利用して生成された画像辞書を利用した場合においても画像分類の精度の低下を抑制することのできる技術の提供を目的としている。

本発明の一態様は、指定の意味ラベルに対応付けられた学習画像から複数の特徴量種別ごとの特徴量を抽出する特徴量抽出部と、前記特徴量抽出部により抽出された複数の特徴量種別ごとの特徴量を利用した機械学習により、意味ラベルと複数の特徴量種別ごとの特徴量との各組み合わせに対応する画像辞書を生成する画像辞書生成部と備える画像分類前処理装置である。

本発明の一態様は、上記の画像分類前処理装置であって、指定の意味ラベルにおける前記複数の特徴量種別ごとに対応して前記特徴量抽出部が抽出した特徴量と前記画像辞書生成部が生成した画像辞書とを利用して、前記複数の特徴量種別ごとに対応する前記学習画像についての一次識別結果を算出する一次識別結果算出部と、指定の意味ラベルと前記複数の特徴量種別ごとに対応する一次識別結果とに基づいて、前記複数の特徴量種別ごとに対応する重みを算出する重み算出部をさらに備える。

本発明の一態様は、上記の画像分類前処理装置であって、前記特徴量抽出部は、指定の意味ラベルに対応付けられた閾値算出のための学習画像から複数の特徴量種別ごとの特徴量を抽出し、前記一次識別結果算出部は、抽出された特徴量と、指定の意味ラベルにおける前記複数の特徴量種別ごとに対応する画像辞書とを利用して、指定の意味ラベルにおける前記複数の特徴量種別ごとに対応する、前記閾値算出のための学習画像についての一次識別結果を算出し、前記一次識別結果算出部により算出された特徴量種別ごとに対応する一次識別結果を利用して、指定の意味ラベルにおける閾値算出のための学習画像についての二次識別結果を算出する二次識別結果算出部と、前記二次識別結果算出部により算出された二次識別結果を閾値と比較する閾値処理の結果の精度が目標値に到達するように前記閾値を算出する閾値算出部とをさらに備える。

本発明の一態様は、分類対象画像について、複数の特徴量種別ごとの特徴量を抽出する特徴量抽出部と、指定の意味ラベルにおける前記複数の特徴量種別ごとに対応して前記特徴量抽出部が抽出した特徴量と、上記の画像分類前処理装置によって生成された画像辞書のうち、指定の意味ラベルにおける前記複数の特徴量種別ごとに対応する画像辞書とを利用して、前記複数の特徴量種別ごとに対応する前記分類対象画像についての一次識別結果を算出する一次識別結果算出部と、前記一次識別結果算出部により算出された特徴量種別ごとに対応する一次識別結果を利用して、指定の意味ラベルにおける前記分類対象画像についての二次識別結果を算出する二次識別結果算出部とを備える画像分類装置である。

本発明の一態様は、上記の画像分類装置であって、前記二次識別結果算出部は、前記一次識別結果算出部により算出された一次識別結果と、上記の画像分類前処理装置により算出された重みとを利用した線形統合に基づいて二次識別結果を算出する。

本発明の一態様は、上記の画像分類装置であって、前記二次識別結果算出部によって算出された二次識別結果と、上記の画像分類前処理装置により算出された閾値とを比較し、比較結果が一定条件を満たした二次識別結果に対応する分類対象画像に前記指定の意味ラベルを付与する意味ラベル付与部をさらに備える。

本発明の一態様は、指定の意味ラベルに対応付けられた学習画像から複数の特徴量種別ごとの特徴量を抽出する特徴量抽出ステップと、前記特徴量抽出ステップにより抽出された複数の特徴量種別ごとの特徴量を利用した機械学習により、意味ラベルと複数の特徴量種別ごとの特徴量との各組み合わせに対応する画像辞書を生成する画像辞書生成ステップとを有する画像分類前処理方法である。

本発明の一態様は、分類対象画像について、複数の特徴量種別ごとの特徴量を抽出する特徴量抽出ステップと、指定の意味ラベルにおける前記複数の特徴量種別ごとに対応して前記特徴量抽出ステップが抽出した特徴量と、上記の画像分類前処理装置によって生成された画像辞書のうち、指定の意味ラベルにおける前記複数の特徴量種別ごとに対応する画像辞書とを利用して、前記複数の特徴量種別ごとに対応する前記分類対象画像についての一次識別結果を算出する一次識別結果算出ステップと、前記一次識別結果算出ステップにより算出された特徴量種別ごとに対応する一次識別結果を利用して、指定の意味ラベルにおける前記分類対象画像についての二次識別結果を算出する二次識別結果算出ステップとを有する画像分類方法である。

本発明の一態様は、上記の画像分類前処理装置としてコンピュータを機能させるためのプログラムである。

本発明の一態様は、上記の画像分類装置としてコンピュータを機能させるためのプログラムである。

本発明により、縮小された画像を利用して生成された画像辞書を利用した場合においても画像分類の精度の低下を抑制することが可能となる。

第１実施形態における画像分類前処理装置の構成例を示す図である。エッジヒストグラムとしての特徴量種別の特徴量を抽出する手法例について説明する例である。色モメントとしての特徴量種別の特徴量を抽出する手法例について説明する例である。ウェーブレットテクスチャグリッドとしての特徴量種別の特徴量を抽出する手法例について説明する例である。ウェーブレットテクスチャグリッドとしての特徴量種別の特徴量を抽出する手法例について説明する例である。第１実施形態の画像分類前処理装置が実行する処理手順例を示すフローチャートである。第１実施形態の画像分類前処理装置が、画像辞書の重み算出のために実行する処理手順例を示すフローチャートである。第２実施形態における画像分類装置の構成例を示す図である。第２実施形態の画像分類装置における特徴量抽出部と一次識別結果算出部の機能構成例を示す図である。第２実施形態における画像分類装置が実行する処理手順例を示すフローチャートである。第３実施形態における画像分類前処理装置の構成例を示す図である。第３実施形態における画像分類前処理装置が閾値算出のために実行する処理手順例を示すフローチャートである。第４実施形態における画像分類装置の構成例を示す図である。第４実施形態の画像分類装置が実行する処理手順例を示すフローチャートである。

＜第１実施形態＞
以下、図面を参照して、本発明の一実施形態について説明する。
図１は、第１実施形態における画像分類前処理装置１００の構成例を示している。画像分類前処理装置１００は、画像分類のための準備としての前処理として、画像辞書の生成を行う装置である。

同図に示す画像分類前処理装置１００は、制御部１０１と蓄積部１０２とを備える。
制御部１０１は、画像分類前処理装置１００としての機能を実現するための各種処理を実行する。制御部１０１は、バスで接続されたＣＰＵ（Central Processing Unit）やメモリなどを備え、画像分類前処理のための画像分類前処理プログラムを実行する。画像分類前処理装置１００は、画像分類前処理プログラムの実行によって、制御部１０１における学習画像取得部１１１、特徴量抽出部１１２、画像辞書生成部１１３、一次識別結果算出部１１４及び重み算出部１１５と、蓄積部１０２とを備える装置として機能する。

なお、画像分類前処理装置１００の各機能の全てまたは一部は、ＡＳＩＣ（Application Specific Integrated Circuit）やＰＬＤ（Programmable Logic Device）やＦＰＧＡ（Field Programmable Gate Array）等のハードウェアを用いて実現されてもよい。画像分類前処理プログラムは、コンピュータ読み取り可能な記録媒体に記録されても良い。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ＲＯＭ（Read Only Memory）、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。

制御部１０１において、学習画像取得部１１１は、蓄積部１０２における学習画像蓄積部１２１から学習画像を取得する。
学習画像蓄積部１２１は、学習画像を蓄積する。学習画像は、事前に用意された画像であって、意味ラベルが対応付けられる。学習画像蓄積部１２１が蓄積する画像は、例えば、Ｗｅｂ上に存在する画像をサムネイル化することにより形成される。
ここで、学習画像蓄積部１２１に蓄積すべき学習画像を形成するにあたり、サムネイル化に適していない画像は、有効な特徴量を得ることができない。そこで、このようなサムネイル化に適していない画像については削除するようにして学習画像の選別が行われる。サムネイル化に適していない画像とは、例えばサムネイル化により縮小された画像のサイズよりも元のサイズが小さい画像や、アスペクト比が一定範囲を超えているような画像などである。
また、学習画像と意味ラベルとの対応付けは、どのような処理によって行われてもよい。例えば、人の手によって意味ラベルに学習画像が対応付けされてもよい。また、例えば、ネットワーク上のウェブページなどに存在する画像とタグとを、それぞれ、学習画像と学習画像に対応付けるべき意味ラベルとして取得してもよい。このように学習画像に対応付けられた意味ラベルは、分類結果についての正解を示す。つまり、学習画像は、正しい意味ラベルが対応付けられた教師データである。

学習画像取得部１１１は、画像辞書の生成のために利用する学習画像の取得にあたり、意味ラベルの指定を行う。
学習画像取得部１１１は、指定の意味ラベルに対応する学習画像として、各複数の正解画像と不正解画像とを、学習画像蓄積部１２１が蓄積する学習画像から取得する。
正解画像は、指定の意味ラベルが対応付けられた学習画像であり、不正解画像は、指定の意味ラベルとは異なる意味ラベルが対応付けられた学習画像である。

本実施形態において、正解画像と不正解画像との比率は一定の範囲内となるように定められる。一例として、１つの正解画像に対して不正解画像が５つというように、正解画像よりも不正解画像が多くなるように、正解画像と不正解画像との比率が定められる。
また、取得される正解画像の構成については、多様な種類の画像（例えば、多様な撮影条件で撮影された画像）が含まれるようにすることが好ましい。そこで、学習画像取得部１１１は、１つの正解画像と重複する他の正解画像について削除を行う。
同様に、不正解画像については、正解画像と異なる、様々な意味ラベルが付与された画像が含まれるようにすることが好ましい。そこで、学習画像取得部１１１は、１つの不正解画像と重複する他の不正解画像について削除を行う。
また、例えば「リンゴ」という内容の意味ラベルに対しては、「梨」という内容の意味ラベルが類似する関係にある。このように意味ラベルの内容に関して正解画像に類似する画像が存在する場合、学習画像取得部１１１は、類似の意味ラベルが付与された画像の一定割合が不正解画像として含められるようにする。
上記のように学習画像取得部１１１により取得された学習画像（正解画像、不正解画像）には、それぞれ前述のように意味ラベルが対応付けられている。具体的には、例えば学習画像は、対応付けられた意味ラベルを示す属性情報を含む構造であってもよい。

特徴量抽出部１１２は、指定の意味ラベルに対応付けられた学習画像から複数の特徴量種別ごとの特徴量を抽出する。特徴量抽出部１１２は、学習画像取得部１１１により取得された学習画像を入力し、入力した学習画像を対象として、複数の特徴量種別ごとの特徴量を抽出する。
本実施形態における学習画像はサムネイル化された縮小画像である。そこで、特徴量抽出部１１２は、サムネイル化された縮小画像から十分な情報量を得るために、例えば以下のように特徴量を抽出してよい。つまり、特徴量抽出部１１２は、画像全体から特徴量を抽出するのに加えて、学習画像を例えば格子（グリッド）状により一定サイズに分割し、分割した各領域から色ヒストグラムや模様ヒストグラムなどの、複数の特徴量種別ごとの特徴量（物理特徴量）を抽出する。そのうえで、特徴量抽出部１１２は、抽出された複数の特徴量種別ごとの特徴量を統合する。

本実施形態における複数の特徴量種別の具体例として、以下の５つを挙げることができる。
特徴量抽出部１１２が抽出対象とする特徴量種別の第１例は、エッジヒストグラム（Edge Histogram）である。図２を参照して、エッジヒストグラムとしての特徴量の抽出手法例について説明する。
エッジヒストグラムの抽出にあたり、まず、特徴量抽出部１１２は、処理対象の学習画像Ｐｌｎをカラー形式からグレースケール形式に変換する。そのうえで、特徴量抽出部１１２は、グレースケールの学習画像Ｐｌｎを、例えば４×４の分割領域ＡＲｄｖに分割する。
次に、特徴量抽出部１１２は、学習画像Ｐｌｎにおける各画素に対して８方向のエッジ検出を行い、検出結果として、エッジ方向とエッジ強度とを算出する。
次に、特徴量抽出部１１２は、例えば、同図に示す５つのヒストグラム生成領域ＡＲｈｔ１、ＡＲｈｔ２、ＡＲｈｔ３、ＡＲｈｔ４、ＡＲｈｔ５ごとに、検出された画素ごとのエッジ方向及びエッジ強度によるヒストグラムを生成する。

特徴量抽出部１１２が抽出対象とする特徴量種別の第２例は、色ヒストグラム（Color Histogram）である。
一例として、特徴量抽出部１１２は、以下のように色ヒストグラムによる特徴量を抽出することができる。まず、特徴量抽出部１１２は、処理対象の学習画像Ｐｌｎの色空間を、ＲＧＢ色空間からＨＳＶ色空間に変換する。次に、特徴量抽出部１１２は、ＨＳＶ色空間による学習画像Ｐｌｎを形成する画素ごとの画素値を、所定の階調（次元）数で量子化する。一例として、特徴量抽出部１１２は、１８階調によるＨ（色相）と、３階調によるＳ（彩度）と、３階調による（明度）とに、４階調によるグレースケールを加えた、１６６（＝１８＊３＊３＋４）階調（次元）で量子化を行うことができる。なお、４階調によるグレースケール（０〜３）は、一定以下の値のＳ（彩度）とＶの値との組み合わせに基づいて導出されればよい。特徴量抽出部１１２は、各画素の量子化の結果を用いて学習画像Ｐｌｎの全体に対応する色ヒストグラムを生成する。

特徴量抽出部１１２が抽出対象とする特徴量種別の第３例は、色コレログラム（Color Correlogram）である。
一例として、特徴量抽出部１１２は、以下のように色コレログラムによる特徴量を抽出することができる。まず、特徴量抽出部１１２は、処理対象の学習画像Ｐｌｎの色空間を、ＲＧＢ色空間からＨＳＶ色空間に変換する。次に、特徴量抽出部１１２は、ＨＳＶ色空間による学習画像Ｐｌｎを形成する画素ごとの画素値を、所定の階調（次元）数で量子化する。なお、特徴量抽出部１１２は、色コレログラムの場合にも、上記の色ヒストグラムの場合と同様に１６６階調（次元）で量子化を行ってよい。特徴量抽出部１１２は、画素ごとの量子化の結果を用いて学習画像Ｐｌｎの全体に対応する階調ヒストグラムを生成する。
次に、特徴量抽出部１１２は、着目画素から任意に定めた距離の範囲内で同じ階調に量子化された画素の出現頻度を求め、求めた出現頻度のヒストグラムを生成する。次に、特徴量抽出部１１２は、上記のように生成した出現頻度のヒストグラムを、階調ヒストグラムで除算する。

特徴量抽出部１１２が抽出対象とする特徴量種別の第４例は、色モメント（Color Moment）である。
色モメント（Color Moment）の抽出にあたり、まず、特徴量抽出部１１２は、処理対象の学習画像Ｐｌｎを、図３に例示するように、例えば５×５の分割領域ＡＲｄｖに分割する。特徴量抽出部１１２は、分割領域ＡＲｄｖごとに、ＲＧＢ色空間の画素値の平均値と、ＲＧＢ色空間の画素値の標準偏差とを算出する。このように算出される分割領域ＡＲｄｖごとの画素値の平均値と標準偏差が色モメントとして扱われる。

特徴量抽出部１１２が抽出対象とする特徴量種別の第５例は、ウェーブレットテクスチャグリッド（Wavelet Texture Grid）である。
ウェーブレットテクスチャグリッドを抽出するにあたり、まず、特徴量抽出部１１２は、処理対象の学習画像Ｐｌｎを、図４に例示するように、例えば３×３の分割領域ＡＲｄｖに分割する。
次に、特徴量抽出部１１２は、分割領域ＡＲｄｖのそれぞれについて、レイヤごとにハールウェーブレット（Harr Wavelet）変換などの離散ウェーブレット変換を行う。なお、分割領域ＡＲｄｖがＲＧＢ色空間による場合、レイヤは、Ｒ、Ｇ、Ｂのそれぞれに対応する画像成分による画像が対応する。
次に、特徴量抽出部１１２は、上記の離散ウェーブレット変換によって得られた、レイヤごとの分割領域ＡＲｄｖのそれぞれを正規化する。
次に、特徴量抽出部１１２は、図５に例示するように、離散ウェーブレット変換後のＲ、Ｇ、Ｂによるレイヤ（ＬＹｒ、ＬＹｇ、ＬＹｂ）ごとの分割領域ＡＲｄｖのそれぞれを４分割する。そして、特徴量抽出部１１２は、４分割により得られた分割領域ＡＲｄｖについての標準偏差を算出する。このように求められた、レイヤごとの分割領域ＡＲｄｖの標準偏差の算出結果がウェーブレットテクスチャグリッドとして扱われる。

本実施形態における特徴量抽出部１１２は、例えば上記の第１例〜第５例による５つの特徴量種別ごとの特徴量を抽出する。これにより、本実施形態においては、サムネイル化された縮小画像としての学習画像から十分な情報量を得ることが可能になる。
特徴量抽出部１１２は、上記のように抽出した複数の特徴量種別ごとの特徴量を画像辞書生成部１１３に出力する。特徴量抽出部１１２が出力する複数の特徴量種別ごとの特徴量には、対応の学習画像に対応付けられていた意味ラベルを示す意味ラベル情報が付加されている。

画像辞書生成部１１３は、特徴量抽出部１１２により抽出された複数の特徴量種別ごとの特徴量を利用した機械学習により、意味ラベルと複数の特徴量種別ごとの特徴量との各組み合わせに対応する画像辞書を生成する。
つまり、画像辞書生成部１１３は、特徴量抽出部１１２が抽出した複数の特徴量種別ごとの特徴量を入力する。画像辞書生成部１１３は、入力した複数の特徴量種別ごとの特徴量を利用した機械学習を実行する。ここで、複数の特徴量種別ごとの特徴量は意味ラベル別に得られている。そこで、画像辞書生成部１１３は、複数の意味ラベルと複数の特徴量種別との組み合わせのそれぞれに対応する特徴量ごとに機械学習を実行する。画像辞書生成部１１３は、このような機械学習の実行により、意味ラベルと特徴量との組み合わせごとに対応する画像辞書を生成する。上記の機械学習のアルゴリズムとしては特に限定されないが、例えばＳＶＭ（サポートベクターマシン）を用いることができる。

画像辞書生成部１１３は、生成した画像辞書を重み算出部１１５に出力する。また、画像辞書生成部１１３は、生成した画像辞書を、蓄積部１０２における画像辞書蓄積部１２２に蓄積（記憶）させる。

ここで、或る１つの意味ラベルにおいて特徴量抽出部１１２により抽出された複数の特徴量種別の特徴量が、識別結果（分類結果）に寄与する貢献度は均一ではない。また、複数の特徴量種別ごとの特徴量の識別結果に対する貢献度は、意味ラベルの内容に応じて異なる。
また、本実施形態では、複数の特徴量に基づく複数の識別結果を組み合わせることができる。一例として、特徴量ごとの識別結果の最大値を二次的な識別結果として求めたり、特徴量ごとの識別結果を積算して二次的な識別結果として求めたりすることができる。これによって最終的な分類結果の精度を高くすることができる。
しかし、異なる特徴量種別は必ずしも互いに独立した関係を有するものではなく、相互に関連している場合もある。このために、上記のような簡易な識別結果の組み合わせの手法では、二次的な識別結果の精度が低下する可能性がある。
さらに、特徴量に基づいて求められる識別結果としては、上記の貢献度の高いものほど重みの高い値となるようにすれば、分類精度の向上が図られる。

上記の点から、画像辞書生成部１１３により生成された画像辞書については、意味ラベルごとにおける複数の特徴量種別ごとに対応する画像辞書の間で重み付けを行っておくことが好ましい。
そこで、本実施形態においては、一次識別結果算出部１１４と重み算出部１１５とにより、以下のような構成によって、複数の特徴量種別ごとに対応する画像辞書間での重み付けを行う。

一次識別結果算出部１１４は、指定の意味ラベルにおける複数の特徴量種別ごとに対応して特徴量抽出部１１２が抽出した特徴量と画像辞書生成部１１３が生成した画像辞書とを利用して、複数の特徴量種別ごとに対応する学習画像についての一次識別結果を算出する。
ここで、１つの特徴量種別に対応する学習画像についての一次識別結果とは、例えば、１つの特徴量種別に対応する特徴量空間における、特徴量と、当該特徴量の特徴量種別に対応する画像辞書が表す特徴超平面との距離（特徴量距離）である。即ち、一次識別結果は、特徴量距離により学習画像についての分類結果を示す。

重み算出部１１５は、指定の意味ラベルと複数の特徴量種別ごとに対応する一次識別結果とに基づいて、複数の特徴量種別ごとに対応する重みを算出する。
具体的に、重み算出部１１５は、上記のように画像辞書生成部１１３によって生成された画像辞書を入力する。重み算出部１１５は、入力した画像辞書について、１つの意味ラベルに対応する複数の特徴量種別ごとに重みを算出する。重み算出部１１５は、このような複数の特徴量種別ごとに対応する重みの算出を、意味ラベルごとに実行する。従って、重みは、意味ラベルと特徴量種別とによる組み合わせごとに対応して求められる。
重み算出部１１５は、算出した重みを、同じ意味ラベルと特徴量種別の組み合わせに対応付する画像辞書と対応付けて、重みデータとして蓄積部１０２の重みデータ蓄積部１２３に蓄積させる。

蓄積部１０２は、制御部１０１が利用する各種の情報を記憶する。同図に示す蓄積部１０２は、学習画像蓄積部１２１と、画像辞書蓄積部１２２と、重みデータ蓄積部１２３とを備える。
学習画像蓄積部１２１は、学習画像（学習画像）を蓄積する。これまでの説明から理解されるように、学習画像蓄積部１２１が記憶する学習画像のそれぞれには意味ラベルが対応付けられている。
画像辞書蓄積部１２２は、画像辞書生成部１１３が生成した画像辞書を蓄積する。
重みデータ蓄積部１２３は、重み算出部１１５が算出した画像辞書ごとの重みを示す重みデータを、画像辞書ごとに対応付けて蓄積する。つまり、重みデータ蓄積部１２３に蓄積される重みデータは、例えば対応の画像辞書を示す属性情報が付加されている。
なお、重みデータについては、画像辞書蓄積部１２２に蓄積される画像辞書の属性情報に含めることにより、画像辞書とともに画像辞書蓄積部１２２に蓄積されるようにしてもよい。この場合、重みデータ蓄積部１２３は省略されてよい。

続いて、図６のフローチャートを参照して、本実施形態の画像分類前処理装置１００が実行する処理手順例について説明する。なお、同図に示す処理は、画像分類前処理として、１つの意味ラベルに対応した画像辞書を生成する処理である。

画像分類前処理装置１００において、制御部１０１の学習画像取得部１１１は、指定の意味ラベルに対応する学習画像として、各複数の正解画像と不正解画像とを、学習画像蓄積部１２１が記憶する学習画像のうちから取得する（ステップＳ１０１）。

次に、特徴量抽出部１１２は、複数の特徴量種別ごとに付した番号を示す変数ｍに初期値として１を代入する（ステップＳ１０２）。そのうえで、特徴量抽出部１１２は、ｍ番目の特徴量種別の特徴量を、ステップＳ１０１にて取得した学習画像から抽出する（ステップＳ１０３）。
次に、画像辞書生成部１１３は、ステップＳ１０３にて抽出された特徴量を利用した機械学習により、ｍ番目の特徴量種別に対応する画像辞書を生成する（ステップＳ１０４）。なお、ステップＳ１０４により生成された画像辞書は、前述のように画像辞書蓄積部１２２に蓄積される。

次に、特徴量抽出部１１２は、変数ｍをインクリメントしたうえで（ステップＳ１０５）、現在の変数ｍが最大値よりも大きいか否かについて判定する（ステップＳ１０６）。変数ｍの最大値は、特徴量抽出部１１２が抽出対象とする特徴量種別の数に対応する。
変数ｍが最大値以下である場合には（ステップＳ１０６−ＮＯ）、まだ特徴量が抽出されていない特徴量種別が残っている。そこで、この場合の特徴量抽出部１１２は、ステップＳ１０３に処理を戻す。これにより、次の特徴量種別の特徴量の抽出と、次の特徴量種別に対応する画像辞書の生成が行われる。

一方、変数ｍが最大値より大きい場合には（ステップＳ１０６−ＹＥＳ）、全ての特徴量種別の特徴量の抽出が完了している。そこで、この場合には、重み算出部１１５が、指定の意味ラベルにおける複数の特徴量種別ごとに対応して、画像辞書の重み算出を実行する（ステップＳ１０７）。
重み算出部１１５は、ステップＳ１０７により算出した重みを示す重みデータを、同じ意味ラベルと特徴量種別との組み合わせに対応する画像辞書と対応付けて重みデータ蓄積部１２３に蓄積させる（ステップＳ１０８）。

図７のフローチャートは、図６のステップＳ１０７として示した画像辞書の重み算出のために画像分類前処理装置１００が実行する処理手順例を示している。同図に示す処理は、指定の１つの意味ラベルに対応して実行される。なお、同図に示す処理は、制御部１０１における一次識別結果算出部１１４と重み算出部１１５とが実行する。
まず、一次識別結果算出部１１４は、図６のステップＳ１０３にて抽出された特徴量種別ごとの特徴量と、図６のステップＳ１０４により生成された特徴量種別ごとの画像辞書を利用して、特徴量種別ごとに対応する一次識別結果を算出する（ステップＳ２０１）。
ここでの１つの特徴量種別に対応する一次識別結果は、前述のように、例えば１つの特徴量種別に対応する特徴量空間における、特徴量と、当該特徴量の特徴量種別に対応する画像辞書が表す特徴超平面との距離（特徴量距離）である。

次に、重み算出部１１５は、ステップＳ２０１により算出された特徴量種別ごとに対応する一次識別結果のそれぞれを正規化する（ステップＳ２０２）。
複数の特徴量種別ごとに対応する各一次識別結果は、互いの基準が異なることから、そのままでは、一次識別結果の間での数値を対照させることができない。そこで、ステップＳ２０２により、特徴量種別ごとに対応する複数の一次識別結果のそれぞれを正規化することによって、一次識別結果間での数値基準を統一する。
ステップＳ２０２の正規化のアルゴリズムとしては特に限定されないが、一例として、特徴量種別ごとに対応する複数の一次識別結果のうちの最大値と最小値とに基づくシグモイド関数により正規化を行うことができる。

次に、重み算出部１１５は、ステップＳ２０２により正規化された一次識別結果を利用して、最適化された重みを特徴量種別ごとに算出する（ステップＳ２０３）。
ステップＳ２０３による重みの算出は、以下の式１、式２に示す行列Ｘ、行列Ｙを利用することができる。なお、式１は、特徴量種別が５つである場合に対応した演算を表している。

式１の行列Ｘは、ｎ行×６列による行列である。行列Ｘにおける要素Ｘ_ｉｍは、ｉ番目の学習画像におけるｍ番目の特徴量種別に対応して、ステップＳ２０１により算出された一次識別結果である。
式２の行列Ｙは、ｎ行×１列による行列である。行列Ｙにおける要素Ｙ_ｉは、ｉ番目の学習画像に対応付けられた意味ラベル（正解ラベル）を示す。

重み算出部１１５は、式１、式２を利用して、変数ｍで表される特徴量種別ごとに、式６として示す条件が満たされるまで、以下の式３、式４、式５について計算を行う。式６の条件が満たされたときの式３における左辺が、ｍ番目の特徴量種別に対応して最適化された重みｗ_ｍとして求められる。

式３における項Πは、式４の行列Πとして表される。また、式３における項Ｒは、式５の行列Ｒとして表される。また、式３におけるＴは転置行列を示す。また、式６におけるεは、予め定められた定数である。
ｗ_ｍは、ｍ番目の特徴量種別に対応する重みを表し、式３、式４、式５において、ｗ_ｍの初期値は、以下の式７のように表される。

以上の演算により、指定の意味ラベルにおける特徴量種別ごとの重みが求められる。具体的に、特徴量種別が前述の第１例から第５例までの５つである場合には、指定の意味ラベルにおける特徴量種別ごとの重みｗ_１〜ｗ_５が求められる。なお、式４、式７は特徴量種別が５つである場合に対応した演算を表している。

このように、本実施形態の画像分類前処理装置１００は、画像分類前処理として、学習画像から複数の特徴量種別ごとの特徴量を求めて画像辞書を生成している。これにより、学習画像がサムネイル化された縮小された画像であっても十分な情報量による特徴量を得ることができるので、画像辞書としても良質なものを生成することが可能になる。このように前処理が行われることで、その後に画像分類装置によって画像分類が行われる段階においても、高い分類精度を維持できる。

＜第２実施形態＞
続いて、第２実施形態として、本実施形態の画像分類装置について説明する。本実施形態の画像分類装置は、図１の画像分類前処理装置１００により生成された画像辞書を利用して、分類対象の画像がどのカテゴリに属するのかを分類する。

図８を参照して、本実施形態の画像分類装置２００の構成例について説明する。同図に示す画像分類装置２００は、制御部２０１と蓄積部２０２とを備える。
制御部２０１は、画像分類装置２００としての機能を実現するための各種処理を実行する。制御部２０１は、バスで接続されたＣＰＵやメモリなどを備え、画像分類プログラムを実行する。画像分類装置２００は、画像分類プログラムの実行によって、制御部２０１における分類対象画像取得部２１１、特徴量抽出部２１２、一次識別結果算出部２１３及び二次識別結果算出部２１４と、蓄積部２０２とを備える装置として機能する。

なお、画像分類装置２００の各機能の全てまたは一部は、ＡＳＩＣやＰＬＤやＦＰＧＡ等のハードウェアを用いて実現されてもよい。画像分類プログラムは、コンピュータ読み取り可能な記録媒体に記録されても良い。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。

制御部２０１において、分類対象画像取得部２１１は、蓄積部２０２の分類対象画像蓄積部２２１から分類対象画像を取得する。
特徴量抽出部２１２は、分類対象画像取得部２１１が取得した分類画像について、複数の特徴量種別ごとの特徴量を抽出する。
一次識別結果算出部２１３は、指定の意味ラベルにおける複数の特徴量種別ごとに対応して特徴量抽出部２１２が抽出した特徴量と、画像分類前処理装置１００によって生成された画像辞書のうち、指定の意味ラベルにおける複数の特徴量種別ごとに対応する画像辞書とを利用して以下の処理を実行する。つまり、一次識別結果算出部２１３は、複数の特徴量種別ごとに対応する分類対象画像についての一次識別結果を算出する。
なお、一次識別結果算出部２１３により算出された複数の特徴量種別ごとの一次識別結果は、指定の意味ラベルに対応して求められる。

二次識別結果算出部２１４は、一次識別結果算出部２１３により算出された特徴量種別ごとに対応する一次識別結果を利用して、指定の意味ラベルにおける分類対象画像についての二次識別結果を算出する。
一例として、二次識別結果算出部２１４は、一次識別結果算出部２１３により算出された一次識別結果と、画像分類前処理装置１００により算出された重みとを利用した線形統合に基づいて二次識別結果を算出することができる。
なお、画像分類前処理装置１００により算出された重みは、蓄積部２０２における重みデータ蓄積部２２３に蓄積されている。二次識別結果算出部２１４は、二次識別結果の算出に際して、重みデータ蓄積部２２３から読み出した重みデータが示す重みを利用すればよい。
二次識別結果算出部２１４は、算出した二次識別結果を、分類対象画像についての分類結果として蓄積部２０２の分類結果蓄積部２２４に蓄積させる。

蓄積部２０２は、制御部２０１が利用する各種の情報を記憶する。同図に示す蓄積部２０２は、分類対象画像蓄積部２２１と、画像辞書蓄積部２２２と、重みデータ蓄積部２２３と、分類結果蓄積部２２４とを備える。
分類対象画像蓄積部２２１は、分類対象となる画像（分類対象画像）を蓄積する。本実施形態における分類対象画像は、サムネイル化により縮小された画像であってよい。

画像辞書蓄積部２２２は、画像分類前処理装置１００により生成された画像辞書を蓄積する。画像辞書蓄積部２２２は、意味ラベルごとにおいて、複数の特徴量種別ごとに対応する画像辞書を蓄積する。従って、画像辞書蓄積部２２２は、図１の画像分類前処理装置１００が備える画像辞書蓄積部１２２と同じ画像辞書を蓄積すればよい。

重みデータ蓄積部２２３は、画像分類前処理装置１００により算出された重みを示す重みデータを蓄積する。重みデータ蓄積部２２３は、画像辞書蓄積部２２２が蓄積する画像辞書ごとに対応する重みを示す重みデータを蓄積する。従って、重みデータ蓄積部２２３は、図１の画像分類前処理装置１００が備える重みデータ蓄積部１２３と同じ重みデータを蓄積すればよい。
分類結果蓄積部２２４は、二次識別結果算出部２１４が出力する二次識別結果を、分類対象画像についての分類結果として蓄積する。

図９は、特徴量抽出部２１２と一次識別結果算出部２１３の機能構成例を示している。なお、同図に示す構成は、分類対象画像について指定の１つの意味ラベルに該当するか否かの分類を行う場合に対応する構成である。
同図に示すように、特徴量抽出部２１２は、第１特徴量抽出器２１２ａ−１〜第Ｎ特徴量抽出器２１２ａ−ＮによるＮ個の特徴量抽出器を備える。一例として、特徴量抽出部２１２が先に説明した第１例〜第５例による５つの特徴量種別の特徴量を算出する場合には、第１特徴量抽出器２１２ａ−１〜第５特徴量抽出器２１２ａ−５の５つ（Ｎ＝５）が備えられる。
なお、第１特徴量抽出器２１２ａ−１〜第Ｎ特徴量抽出器２１２ａ−Ｎについて特に区別しない場合には、特徴量抽出器２１２ａと記載する。

特徴量抽出器２１２ａは、それぞれ、分類対象画像取得部２１１が取得した分類対象画像Ｐｃｌｓを入力し、入力した分類対象画像Ｐｃｌｓから自己が対応する特徴量種別の特徴量を算出する。

一次識別結果算出部２１３は、第１識別器２１３ａ−１〜第Ｎ識別器２１３ａ−ＮによるＮ個の識別器を備える。
また、第１識別器２１３ａ−１〜第Ｎ識別器２１３ａ−Ｎのそれぞれには、第１画像辞書ｄｉｃ−１〜第Ｎ画像辞書ｄｉｃ−Ｎが対応付けられる。第１画像辞書ｄｉｃ−１〜第Ｎ画像辞書ｄｉｃ−Ｎは、図８の画像辞書蓄積部２２２に蓄積される画像辞書のうち、指定の意味ラベルにおける複数の特徴量種別ごとに対応する画像辞書である。

なお、以降の説明において、第１識別器２１３ａ−１〜第Ｎ識別器２１３ａ−Ｎについて特に区別しない場合には、識別器２１３ａと記載する。また、第１画像辞書ｄｉｃ−１〜第Ｎ画像辞書ｄｉｃ−Ｎについて特に区別しない場合には、画像辞書ｄｉｃと記載する。

１つの識別器２１３ａは、それぞれ、自己が対応するのと同じ特徴量種別に対応する特徴量抽出器２１２ａにより抽出された特徴量と、指定の意味ラベルにおいて同じ特徴量種別に対応する画像辞書ｄｉｃとを利用して、同じ特徴量種別に対応する一次識別結果を出力する。

上記のようにして、一次識別結果算出部２１３からは、第１〜第Ｎの特徴量種別ごとの特徴量に対応するＮ個の一次識別結果が出力される。
二次識別結果算出部２１４は、一次識別結果算出部２１３から出力されるＮ個の一次識別結果を利用して算出した二次識別結果を分類結果Ｄｃｌｓとして出力する。

図１０のフローチャートは、本実施形態の画像分類装置２００が実行する処理手順例を示している。
画像分類装置２００において、制御部２０１の分類対象画像取得部２１１は、分類対象画像蓄積部２２１から、今回の分類対象とする分類対象画像を取得する（ステップＳ３０１）。
次に、特徴量抽出部２１２は、特徴量種別に付した番号を示す変数ｍに初期値として１を代入する（ステップＳ３０２）。そのうえで、特徴量抽出部１１２は、ｍ番目の特徴量種別の特徴量を、ステップＳ２０１にて取得した分類対象画像から抽出する（ステップＳ３０３）。
次に、一次識別結果算出部２１３は、ステップＳ３０３にて抽出されたｍ番目の特徴量種別の特徴量と、ｍ番目の特徴量種別に対応する画像辞書とを利用して、ｍ番目の特徴量種別に対応する一次識別結果を算出する（ステップＳ３０４）。

次に、特徴量抽出部１１２は、変数ｍをインクリメントしたうえで（ステップＳ３０５）、変数ｍが最大値（Ｎ）よりも大きいか否かについて判定する（ステップＳ３０６）。
変数ｍが最大値以下である場合には（ステップＳ３０６−ＮＯ）、まだ一次識別結果が算出されていない特徴量種別が残っている。そこで、この場合の特徴量抽出部１１２は、ステップＳ３０３に処理を戻す。これにより、次の特徴量種別の特徴量の抽出と、次の特徴量種別に応じた一次識別結果の算出が行われる。

一方、変数ｍが最大値より大きい場合には（ステップＳ３０６−ＹＥＳ）、全ての特徴量種別に応じた一次識別結果の算出が完了している。そこで、この場合には、二次識別結果算出部２１４が、これまでのステップＳ３０４により算出された全ての特徴量種別に応じた一次識別結果を利用して二次識別結果を算出する（ステップＳ３０７）。

前述のように、ステップＳ３０７として、二次識別結果算出部２１４は、複数の特徴量種別ごとの一次識別結果と、複数の特徴量種別ごとの重みとを利用した線形統合に基づいて、１つの意味ラベルに対応した二次識別結果を算出することができる。
上記の線形統合による一次識別結果の統合は、以下の式８によって実現できる。

式８は、ｊ番目の分類対象画像ｙｊについてｙｊ＝１となる確率を対応させた確率関数Ｐである。式８における右辺の分母において、ｗ_０・・・ｗ_ｍｘ_ｊｍ・・・ｗ_Ｎｘ_ｊＮを積算する演算が線形統合に相当する。ｗ_０は重みの初期値である。

このように、本実施形態の画像分類装置２００は、分類対象画像について、複数の特徴量種別ごとの特徴量を算出し、算出した特徴量と、画像分類前処理装置１００により生成された画像辞書とを利用して一次識別結果を得るようにしている。これにより、例えば分類対象画像がサムネイル化された縮小画像であっても、特徴量としては十分な情報量が得られ、精度の高い一次識別結果が得られ、この結果、精度の高い分類結果が得られる。そのうえで、本実施形態においては、例えば複数の特徴量種別ごとに対応して算出された一次識別結果と、同じ複数の特徴量種別ごとに対応する重みとを用いた線形統合により二次識別結果を算出している。このように一次識別結果の統合に基づいて得られた二次識別結果によっては、さらに高い精度による分類結果を得ることが可能になる。

＜第３実施形態＞
続いて、第３実施形態について説明する。第３実施形態は、画像分類前処理として、閾値を算出する処理を行う画像分類前処理装置である。ここで算出される閾値は、画像分類の段階において、分類対象画像についての二次識別結果に対する閾値処理を行う際に用いられる。
図１１は、第３実施形態における画像分類前処理装置１００Ａの構成例を示している。同図において、図１と同一部分には同一符号を付して説明を省略し、ここでは主に図１との相違点について説明する。
同図に示す画像分類前処理装置１００Ａは、制御部１０１において、二次識別結果算出部１１６と閾値算出部１１７とをさらに備える。また、画像分類前処理装置１００Ａは、蓄積部１０２において、閾値蓄積部１２４をさらに備える。

本実施形態の画像分類前処理装置１００Ａは、閾値を算出するにあたり、以下のように処理を実行する。
まず、学習画像取得部１１１は、指定の意味ラベルに対応する閾値算出のための学習画像を、学習画像蓄積部１２１から取得する。
特徴量抽出部１１２は、学習画像取得部１１１により取得された学習画像から複数の特徴量種別ごとの特徴量を抽出する。
一次識別結果算出部１１４は、特徴量抽出部１１２により抽出された特徴量と、指定の意味ラベルにおける複数の特徴量種別ごとに対応する画像辞書とを利用して、指定の意味ラベルにおける複数の特徴量種別ごとに対応する一次識別結果を算出する。ここで算出される一次識別結果は、閾値算出のための学習画像についてのものである。
二次識別結果算出部１１６は、一次識別結果算出部１１４により算出された特徴量種別ごとに対応する一次識別結果を利用して、指定の意味ラベルにおける閾値算出のための学習画像についての二次識別結果を算出する。
閾値算出部１１７は、二次識別結果算出部１１６により算出された二次識別結果を閾値と比較する閾値処理の結果の精度が目標値に到達するように閾値を算出する。
上記の一連の処理は１つ意味ラベルに対応して行われる。上記の一連の処理が意味ラベルごとに実行されることで、意味ラベルごとに対応する閾値が算出される。

蓄積部１０２における閾値蓄積部１２４は、上記のようにして算出される意味ラベルごとに対応する閾値を蓄積する。

図１２のフローチャートは、本実施形態の画像分類前処理装置１００Ａが閾値算出のために実行する処理手順例を示している。
画像分類前処理装置１００Ａにおいて、制御部１０１の学習画像取得部１１１は、指定の意味ラベルに対応付けられた学習画像を、閾値算出のための画像として学習画像蓄積部１２１から取得する（ステップＳ４０１）。

次に、特徴量抽出部１１２は、特徴量種別に付した番号を示す変数ｍに初期値として１を代入する（ステップＳ４０２）。
そのうえで、特徴量抽出部１１２は、ｍ番目の特徴量種別の特徴量を、ステップＳ４０１にて取得した学習画像から抽出する（ステップＳ４０３）。
次に、一次識別結果算出部１１４は、ステップＳ４０３にて抽出されたｍ番目の特徴量種別の特徴量と、ｍ番目の特徴量種別に対応する画像辞書とを利用して、ｍ番目の特徴量種別に対応する一次識別結果を算出する（ステップＳ４０４）。

次に、特徴量抽出部１１２は、変数ｍをインクリメントしたうえで（ステップＳ４０５）、変数ｍが最大値よりも大きいか否かについて判定する（ステップＳ４０６）。
変数ｍが最大値以下である場合には（ステップＳ４０６−ＮＯ）、ステップＳ４０３に処理を戻す。これにより、次の特徴量種別の特徴量の抽出と、次の特徴量種別に応じた一次識別結果の算出が行われる。

一方、変数ｍが最大値より大きい場合には（ステップＳ４０６−ＹＥＳ）、全ての特徴量種別に応じた一次識別結果の算出が完了している。そこで、この場合には、二次識別結果算出部１１６が、これまでのステップＳ４０４により算出された全ての特徴量種別を利用して二次識別結果を出力する（ステップＳ４０７）。
具体的に、二次識別結果算出部１１６は、ステップＳ４０７において、図１０のステップＳ３０６にて説明したのと同様の処理を行ってもよい。つまり、二次識別結果算出部１１６は、これまでのステップＳ４０４により算出された特徴量種別ごとの一次識別結果と、同じ指定の意味ラベルにおける特徴量種別ごとの重みとを利用した線形統合（線型結合）に基づいて二次識別結果を算出することができる。

次に、閾値算出部１１７は、ステップＳ４０７により得られた二次識別結果に対して、現在の閾値による閾値処理を実行する（ステップＳ４０８）。なお、最初のステップＳ４０８の処理に際しては、予め定められた初期値による閾値を利用して閾値処理が行われるようにすればよい。
閾値算出部１１７は、ステップＳ４０８による閾値処理の結果と指定の意味ラベルとに基づいて、ステップＳ４０７にて得られた二次識別結果についての精度を算出する（ステップＳ４０９）。ここでの二次識別結果についての精度は、例えば指定の意味ラベルに対する適合率、再現率などとして求められてもよい。

閾値算出部１１７は、ステップＳ４０９により算出された精度が予め定めた目標値に到達しているか否かについて判定する（ステップＳ４１０）。目標値は、例えば、所望の分類精度が得られるように定められればよい。
ステップＳ４０９により算出された精度が目標値に到達していない場合（ステップＳ４１０−ＮＯ）、閾値算出部１１７は、閾値を変更（修正）したうえで（ステップＳ４１１）ステップＳ４０８の処理に戻る。これにより、変更後の閾値による閾値処理と、閾値処理結果に応じた二次識別結果についての精度の算出が行われる。
そして、ステップＳ４０９により算出された精度が目標値に到達するのに応じて（ステップＳ４１０−ＹＥＳ）、同図に示す処理が終了し、閾値が確定される。この段階では、確定された閾値が閾値蓄積部１２４に蓄積される。

＜第４実施形態＞
続いて、第４実施形態について説明する。第４実施形態は、第３実施形態の画像分類前処理装置１００Ａにより算出された閾値を利用して分類結果を出力するように構成された画像分類装置である。
図１３は、第４実施形態における画像分類装置２００Ａの構成例を示している。同図において、図８と同一部分には同一符号を付し説明を省略し、ここでは主に図８との相違点について説明する。
同図に示す画像分類装置２００Ａは、制御部２０１において意味ラベル付与部２１５をさらに備える。
また、画像分類装置２００Ａは、蓄積部２０２において、閾値蓄積部２２５をさらに備える。閾値蓄積部２２５は、第３実施形態の画像分類前処理装置１００Ａにより算出された意味ラベルごとの閾値を記憶する。即ち、閾値蓄積部２２５は、図１１の閾値蓄積部１２４と同じ閾値が記憶されればよい。

意味ラベル付与部２１５は、二次識別結果算出部２１４によって算出された二次識別結果と、画像分類前処理装置１００Ａにより算出された閾値とを比較し、比較結果が一定条件を満たした二次識別結果に対応する分類対象画像に指定の意味ラベルを付与する。
ここで、意味ラベル付与部２１５が指定の意味ラベルを分類対照画像に付与する処理は、分類対象画像に対して意味ラベルに対応するカテゴリに分類した分類結果を得ることに相当する。
本実施形態においては、意味ラベル付与部２１５を備えることにより、二次識別結果が閾値と比較されるために、二次識別結果を分類結果とする場合と比較して、高い分類結果の精度が得られる。また、意味ラベル付与部２１５によっては、分類対象画像が対応するカテゴリが示されることから、より明確な分類結果が得られる。

意味ラベル付与部２１５が利用する、第３実施形態の画像分類前処理装置１００Ａにより算出された閾値は、閾値蓄積部２２５が蓄積している。即ち、閾値蓄積部２２５は、第３実施形態の画像分類前処理装置１００Ａにより算出された意味ラベルごとの閾値を記憶する。従って、閾値蓄積部２２５には、図１１の閾値蓄積部１２４と同じ閾値が記憶されればよい。

図１４のフローチャートは、画像分類装置２００Ａにおける意味ラベル付与部２１５が実行する処理手順例を示している。同図に示す処理は、画像分類装置２００Ａにおける分類対象画像取得部２１１、特徴量抽出部２１２、一次識別結果算出部２１３及び二次識別結果算出部２１４が図１０のステップＳ３０１〜Ｓ３０６までの処理を実行した後に実行される処理である。

意味ラベル付与部２１５は、１つの意味ラベルを選択したうえで（ステップＳ５０１）、選択した意味ラベルに対応する閾値を閾値蓄積部２２５から取得する（ステップＳ５０２）。
次に、意味ラベル付与部２１５は、図１０のステップＳ３０６により得られた二次識別結果に対して、ステップＳ５０２にて取得した閾値による閾値処理を実行する（ステップＳ５０３）。つまり、意味ラベル付与部２１５は、二次識別結果を閾値と比較する。
次に、意味ラベル付与部２１５は、ステップＳ５０３により、二次識別結果が閾値を超えているとの閾値処理結果（比較結果）が得られたか否かについて判定する（ステップＳ５０４）。

二次識別結果が閾値を超えている（一定条件を満たしている）との閾値処理結果が得られた場合（ステップＳ５０４−ＹＥＳ）、図１０のステップＳ３０１により取得された分類対象画像は、ステップＳ５０１において選択した意味ラベルがカテゴリとして該当していることになる。そこで、この場合の意味ラベル付与部２１５は、二次識別結果に対応する分類対象画像に、ステップＳ５０１にて選択した意味ラベルを付与する（ステップＳ５０５）。
分類対象画像とステップＳ５０５により付与された意味ラベルとの対応関係を示す情報は、分類結果として分類結果蓄積部２２４に蓄積されればよい。

これに対して、二次識別結果が閾値を超えていないとの閾値処理結果が得られた場合（ステップＳ５０４−ＮＯ）、意味ラベル付与部２１５は、二次識別結果に対応する分類対象画像に対して特に意味ラベルを付与することなく同図に示す処理を終了する。
意味ラベル付与部２１５は、用意された意味ラベルごとに、同図に示す処理を実行すればよい。これにより、１つの分類対象画像に対して、全ての意味ラベルとの適合性の可否が判断される。

なお、第１実施形態における画像分類前処理装置１００と第２実施形態における画像分類装置２００とは１つの装置で構成されてもよい。同様に、第３実施形態における画像分類前処理装置１００Ａと第４実施形態における画像分類装置２００Ａとは１つの装置で構成されてもよい。
また、第１実施形態における画像分類前処理装置１００としての構成部位を適宜複数の装置に分散させ、複数の装置間を例えば通信で接続することにより、画像分類前処理装置１００としての機能が実現されるように構成してもよい。画像分類前処理装置１００Ａ、画像分類装置２００、２００Ａについてもそれぞれに構成されてよい。

なお、上述した実施形態における画像分類前処理装置１００、１００Ａ、あるいは画像分類装置２００、２００Ａをコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、ＦＰＧＡ（Field Programmable Gate Array）等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

１００…画像分類前処理装置，１００Ａ…画像分類前処理装置，１０１…制御部，１０２…蓄積部，１１１…学習画像取得部，１１２…特徴量抽出部，１１３…画像辞書生成部，１１４…一次識別結果算出部，１１５…重み算出部，１１６…二次識別結果算出部，１１７…閾値算出部，１２１…学習画像蓄積部，１２２…画像辞書蓄積部，１２３…データ蓄積部，１２４…閾値蓄積部，２００…画像分類装置，２００Ａ…画像分類装置，２０１…制御部，２０２…蓄積部，２１１…分類対象画像取得部，２１２…特徴量抽出部，２１３…一次識別結果算出部，２１４…二次識別結果算出部，２１５…意味ラベル付与部，２２１…分類対象画像蓄積部，２２２…画像辞書蓄積部，２２３…データ蓄積部，２２４…分類結果蓄積部，２２５…閾値蓄積部

Claims

指定の意味ラベルに対応する学習画像を取得する学習画像取得部と、
前記学習画像から複数の特徴量種別ごとの特徴量を抽出する特徴量抽出部と、
前記特徴量抽出部により抽出された複数の特徴量種別ごとの特徴量を利用した機械学習により、意味ラベルと複数の特徴量種別ごとの特徴量との各組み合わせに対応する画像辞書を生成する画像辞書生成部と、
指定の意味ラベルにおける前記複数の特徴量種別ごとに対応して前記特徴量抽出部が抽出した特徴量と前記画像辞書生成部が生成した画像辞書とを利用して、前記複数の特徴量種別ごとに対応する前記学習画像についての一次識別結果を算出する一次識別結果算出部と、
指定の意味ラベルと前記複数の特徴量種別ごとに対応する一次識別結果とに基づいて、前記複数の特徴量種別ごとに対応する重みを算出する重み算出部とを備え、
前記学習画像取得部は、前記学習画像の取得にあたり、サムネイル化により縮小された画像のサイズよりも元のサイズが小さい画像と、アスペクト比が一定範囲を超えている画像とを除外するように選別された画像をサムネイル化した縮小画像を前記学習画像として取得し、前記学習画像としての正解画像と前記正解画像よりも多い不正解画像との比率が一定の範囲内となるように取得し、１つの正解画像と重複する他の正解画像について削除を行うことと、１つの不正解画像と重複する他の不正解画像について削除を行うことと、類似の意味ラベルが付与された画像の一定割合が不正解画像として含められるようにすることとのうち、少なくともいずれか１つを行い、
前記特徴量抽出部は、格子状に分割された前記学習画像から、エッジヒストグラム、色ヒストグラム、色コレログラム、色モメント、及びウェーブレットテクスチャグリッドの特徴量種別ごとの特徴量を抽出し、
前記重み算出部は、前記複数の特徴量種別ごとに対応する一次識別結果のそれぞれを正規化し、正規化された一次識別結果を前記重みの算出に利用する
画像分類前処理装置。
前記特徴量抽出部は、指定の意味ラベルに対応付けられた閾値算出のための学習画像から複数の特徴量種別ごとの特徴量を抽出し、
前記一次識別結果算出部は、抽出された特徴量と、指定の意味ラベルにおける前記複数の特徴量種別ごとに対応する画像辞書とを利用して、指定の意味ラベルにおける前記複数の特徴量種別ごとに対応する、前記閾値算出のための学習画像についての一次識別結果を算出し、
前記一次識別結果算出部により算出された特徴量種別ごとに対応する一次識別結果を利用して、指定の意味ラベルにおける閾値算出のための学習画像についての二次識別結果を算出する二次識別結果算出部と、
前記二次識別結果算出部により算出された二次識別結果を閾値と比較する閾値処理の結果の精度が目標値に到達するように前記閾値を算出する閾値算出部とをさらに備える
請求項１に記載の画像分類前処理装置。
分類対象画像について、複数の特徴量種別ごとの特徴量を抽出する特徴量抽出部と、
指定の意味ラベルにおける前記複数の特徴量種別ごとに対応して前記特徴量抽出部が抽出した特徴量と、請求項１又は２に記載の画像分類前処理装置によって生成された画像辞書のうち、指定の意味ラベルにおける前記複数の特徴量種別ごとに対応する画像辞書とを利用して、前記複数の特徴量種別ごとに対応する前記分類対象画像についての一次識別結果を算出する一次識別結果算出部と、
前記一次識別結果算出部により算出された特徴量種別ごとに対応する一次識別結果を利用して、指定の意味ラベルにおける前記分類対象画像についての二次識別結果を算出する二次識別結果算出部と
を備える画像分類装置。
前記二次識別結果算出部は、
前記一次識別結果算出部により算出された一次識別結果と、請求項１又は２に記載の画像分類前処理装置により算出された重みとを利用した線形統合に基づいて二次識別結果を算出する
請求項３に記載の画像分類装置。
前記二次識別結果算出部によって算出された二次識別結果と、請求項２に記載の画像分類前処理装置により算出された閾値とを比較し、比較結果が一定条件を満たした二次識別結果に対応する分類対象画像に前記指定の意味ラベルを付与する意味ラベル付与部をさらに備える
請求項３又は４に記載の画像分類装置。
指定の意味ラベルに対応する学習画像を取得する学習画像取得ステップと、
前記学習画像から複数の特徴量種別ごとの特徴量を抽出する特徴量抽出ステップと、
前記特徴量抽出ステップにより抽出された複数の特徴量種別ごとの特徴量を利用した機械学習により、意味ラベルと複数の特徴量種別ごとの特徴量との各組み合わせに対応する画像辞書を生成する画像辞書生成ステップと、
指定の意味ラベルにおける前記複数の特徴量種別ごとに対応して前記特徴量抽出ステップが抽出した特徴量と前記画像辞書生成ステップが生成した画像辞書とを利用して、前記複数の特徴量種別ごとに対応する前記学習画像についての一次識別結果を算出する一次識別結果算出ステップと、
指定の意味ラベルと前記複数の特徴量種別ごとに対応する一次識別結果とに基づいて、前記複数の特徴量種別ごとに対応する重みを算出する重み算出ステップとを有し、
前記学習画像取得ステップは、前記学習画像の取得にあたり、サムネイル化により縮小された画像のサイズよりも元のサイズが小さい画像と、アスペクト比が一定範囲を超えている画像とを除外するように選別された画像をサムネイル化した縮小画像を前記学習画像として取得し、前記学習画像としての正解画像と前記正解画像よりも多い不正解画像との比率が一定の範囲内となるように取得し、１つの正解画像と重複する他の正解画像について削除を行うことと、１つの不正解画像と重複する他の不正解画像について削除を行うことと、類似の意味ラベルが付与された画像の一定割合が不正解画像として含められるようにすることとのうち、少なくともいずれか１つを行い、
前記特徴量抽出ステップは、格子状に分割された前記学習画像から、エッジヒストグラム、色ヒストグラム、色コレログラム、色モメント、及びウェーブレットテクスチャグリッドの特徴量種別ごとの特徴量を抽出し、
前記重み算出ステップは、前記複数の特徴量種別ごとに対応する一次識別結果のそれぞれを正規化し、正規化された一次識別結果を前記重みの算出に利用する
画像分類前処理方法。
分類対象画像について、複数の特徴量種別ごとの特徴量を抽出する特徴量抽出ステップと、
指定の意味ラベルにおける前記複数の特徴量種別ごとに対応して前記特徴量抽出ステップが抽出した特徴量と、請求項１又は２に記載の画像分類前処理装置によって生成された画像辞書のうち、指定の意味ラベルにおける前記複数の特徴量種別ごとに対応する画像辞書とを利用して、前記複数の特徴量種別ごとに対応する前記分類対象画像についての一次識別結果を算出する一次識別結果算出ステップと、
前記一次識別結果算出ステップにより算出された特徴量種別ごとに対応する一次識別結果を利用して、指定の意味ラベルにおける前記分類対象画像についての二次識別結果を算出する二次識別結果算出ステップと
を有する画像分類方法。
請求項１又は２に記載の画像分類前処理装置としてコンピュータを機能させるためのプログラム。
請求項３から５のいずれか一項に記載の画像分類装置としてコンピュータを機能させるためのプログラム。