JP6059686B2 - 画像分類前処理装置、画像分類装置、画像分類前処理方法、画像分類方法及びプログラム - Google Patents

画像分類前処理装置、画像分類装置、画像分類前処理方法、画像分類方法及びプログラム Download PDF

Info

Publication number
JP6059686B2
JP6059686B2 JP2014120783A JP2014120783A JP6059686B2 JP 6059686 B2 JP6059686 B2 JP 6059686B2 JP 2014120783 A JP2014120783 A JP 2014120783A JP 2014120783 A JP2014120783 A JP 2014120783A JP 6059686 B2 JP6059686 B2 JP 6059686B2
Authority
JP
Japan
Prior art keywords
image
identification result
feature amount
feature
types
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014120783A
Other languages
English (en)
Other versions
JP2016001387A (ja
Inventor
泳青 孫
泳青 孫
伊藤 直己
直己 伊藤
数藤 恭子
恭子 数藤
行信 谷口
行信 谷口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2014120783A priority Critical patent/JP6059686B2/ja
Publication of JP2016001387A publication Critical patent/JP2016001387A/ja
Application granted granted Critical
Publication of JP6059686B2 publication Critical patent/JP6059686B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は、画像を分類する技術に関する。
或る意味ラベルに関する画像を学習データとして収集し、収集した学習データから色や形状などの特徴量を抽出し、抽出した特徴量を利用した機械学習により識別モデルを構築するという画像辞書の生成手法が知られている(例えば、非特許文献1参照)。このような処理により、学習データから求めた識別モデルを、任意の意味ラベルに対応する画像辞書として生成することができる。
Yongqing Sun, Satoshi Shimada, Masashi Morimoto, "Visual pattern discovery using web images", ACM MIR workshop , 2006
しかし、上記のような画像辞書の生成手法では、意味ラベルごとに画像識別モデルを構築することから、意味ラベルの種類の増加に従って、意味ラベルに応じたカテゴリを区別するのに必要な情報量(例えば、学習画像の枚数と画像サイズ)が増加する。
このために、大量の画像やサイズの大きな画像を収集し、蓄積することが困難になってくる。また、画像サイズの増加に伴って、特徴量の抽出などの画像辞書の生成に要する処理時間が膨大になる。
そこで、例えば画像をサムネイル化することにより縮小し、縮小された画像を用いて画像辞書を生成することが考えられる。しかしながら、画像が縮小されるのに伴っては、画像に含まれる情報量も大きく減少する。このため、縮小された画像から抽出した一つの局所特徴量(例えばSIFT(Scale-Invariant Feature Transform)特徴点など)や、複数の特徴量の簡易な組み合わせだけでは、画像と意味ラベルとの対応関係を明確に規定することが難しくなる。この結果、画像辞書を利用した画像分類の精度が低下する。
上記事情に鑑み、本発明は、縮小された画像を利用して生成された画像辞書を利用した場合においても画像分類の精度の低下を抑制することのできる技術の提供を目的としている。
本発明の一態様は、指定の意味ラベルに対応付けられた学習画像から複数の特徴量種別ごとの特徴量を抽出する特徴量抽出部と、前記特徴量抽出部により抽出された複数の特徴量種別ごとの特徴量を利用した機械学習により、意味ラベルと複数の特徴量種別ごとの特徴量との各組み合わせに対応する画像辞書を生成する画像辞書生成部と備える画像分類前処理装置である。
本発明の一態様は、上記の画像分類前処理装置であって、指定の意味ラベルにおける前記複数の特徴量種別ごとに対応して前記特徴量抽出部が抽出した特徴量と前記画像辞書生成部が生成した画像辞書とを利用して、前記複数の特徴量種別ごとに対応する前記学習画像についての一次識別結果を算出する一次識別結果算出部と、指定の意味ラベルと前記複数の特徴量種別ごとに対応する一次識別結果とに基づいて、前記複数の特徴量種別ごとに対応する重みを算出する重み算出部をさらに備える。
本発明の一態様は、上記の画像分類前処理装置であって、前記特徴量抽出部は、指定の意味ラベルに対応付けられた閾値算出のための学習画像から複数の特徴量種別ごとの特徴量を抽出し、前記一次識別結果算出部は、抽出された特徴量と、指定の意味ラベルにおける前記複数の特徴量種別ごとに対応する画像辞書とを利用して、指定の意味ラベルにおける前記複数の特徴量種別ごとに対応する、前記閾値算出のための学習画像についての一次識別結果を算出し、前記一次識別結果算出部により算出された特徴量種別ごとに対応する一次識別結果を利用して、指定の意味ラベルにおける閾値算出のための学習画像についての二次識別結果を算出する二次識別結果算出部と、前記二次識別結果算出部により算出された二次識別結果を閾値と比較する閾値処理の結果の精度が目標値に到達するように前記閾値を算出する閾値算出部とをさらに備える。
本発明の一態様は、分類対象画像について、複数の特徴量種別ごとの特徴量を抽出する特徴量抽出部と、指定の意味ラベルにおける前記複数の特徴量種別ごとに対応して前記特徴量抽出部が抽出した特徴量と、上記の画像分類前処理装置によって生成された画像辞書のうち、指定の意味ラベルにおける前記複数の特徴量種別ごとに対応する画像辞書とを利用して、前記複数の特徴量種別ごとに対応する前記分類対象画像についての一次識別結果を算出する一次識別結果算出部と、前記一次識別結果算出部により算出された特徴量種別ごとに対応する一次識別結果を利用して、指定の意味ラベルにおける前記分類対象画像についての二次識別結果を算出する二次識別結果算出部とを備える画像分類装置である。
本発明の一態様は、上記の画像分類装置であって、前記二次識別結果算出部は、前記一次識別結果算出部により算出された一次識別結果と、上記の画像分類前処理装置により算出された重みとを利用した線形統合に基づいて二次識別結果を算出する。
本発明の一態様は、上記の画像分類装置であって、前記二次識別結果算出部によって算出された二次識別結果と、上記の画像分類前処理装置により算出された閾値とを比較し、比較結果が一定条件を満たした二次識別結果に対応する分類対象画像に前記指定の意味ラベルを付与する意味ラベル付与部をさらに備える。
本発明の一態様は、指定の意味ラベルに対応付けられた学習画像から複数の特徴量種別ごとの特徴量を抽出する特徴量抽出ステップと、前記特徴量抽出ステップにより抽出された複数の特徴量種別ごとの特徴量を利用した機械学習により、意味ラベルと複数の特徴量種別ごとの特徴量との各組み合わせに対応する画像辞書を生成する画像辞書生成ステップとを有する画像分類前処理方法である。
本発明の一態様は、分類対象画像について、複数の特徴量種別ごとの特徴量を抽出する特徴量抽出ステップと、指定の意味ラベルにおける前記複数の特徴量種別ごとに対応して前記特徴量抽出ステップが抽出した特徴量と、上記の画像分類前処理装置によって生成された画像辞書のうち、指定の意味ラベルにおける前記複数の特徴量種別ごとに対応する画像辞書とを利用して、前記複数の特徴量種別ごとに対応する前記分類対象画像についての一次識別結果を算出する一次識別結果算出ステップと、前記一次識別結果算出ステップにより算出された特徴量種別ごとに対応する一次識別結果を利用して、指定の意味ラベルにおける前記分類対象画像についての二次識別結果を算出する二次識別結果算出ステップとを有する画像分類方法である。
本発明の一態様は、上記の画像分類前処理装置としてコンピュータを機能させるためのプログラムである。
本発明の一態様は、上記の画像分類装置としてコンピュータを機能させるためのプログラムである。
本発明により、縮小された画像を利用して生成された画像辞書を利用した場合においても画像分類の精度の低下を抑制することが可能となる。
第1実施形態における画像分類前処理装置の構成例を示す図である。 エッジヒストグラムとしての特徴量種別の特徴量を抽出する手法例について説明する例である。 色モメントとしての特徴量種別の特徴量を抽出する手法例について説明する例である。 ウェーブレットテクスチャグリッドとしての特徴量種別の特徴量を抽出する手法例について説明する例である。 ウェーブレットテクスチャグリッドとしての特徴量種別の特徴量を抽出する手法例について説明する例である。 第1実施形態の画像分類前処理装置が実行する処理手順例を示すフローチャートである。 第1実施形態の画像分類前処理装置が、画像辞書の重み算出のために実行する処理手順例を示すフローチャートである。 第2実施形態における画像分類装置の構成例を示す図である。 第2実施形態の画像分類装置における特徴量抽出部と一次識別結果算出部の機能構成例を示す図である。 第2実施形態における画像分類装置が実行する処理手順例を示すフローチャートである。 第3実施形態における画像分類前処理装置の構成例を示す図である。 第3実施形態における画像分類前処理装置が閾値算出のために実行する処理手順例を示すフローチャートである。 第4実施形態における画像分類装置の構成例を示す図である。 第4実施形態の画像分類装置が実行する処理手順例を示すフローチャートである。
<第1実施形態>
以下、図面を参照して、本発明の一実施形態について説明する。
図1は、第1実施形態における画像分類前処理装置100の構成例を示している。画像分類前処理装置100は、画像分類のための準備としての前処理として、画像辞書の生成を行う装置である。
同図に示す画像分類前処理装置100は、制御部101と蓄積部102とを備える。
制御部101は、画像分類前処理装置100としての機能を実現するための各種処理を実行する。制御部101は、バスで接続されたCPU(Central Processing Unit)やメモリなどを備え、画像分類前処理のための画像分類前処理プログラムを実行する。画像分類前処理装置100は、画像分類前処理プログラムの実行によって、制御部101における学習画像取得部111、特徴量抽出部112、画像辞書生成部113、一次識別結果算出部114及び重み算出部115と、蓄積部102とを備える装置として機能する。
なお、画像分類前処理装置100の各機能の全てまたは一部は、ASIC(Application Specific Integrated Circuit)やPLD(Programmable Logic Device)やFPGA(Field Programmable Gate Array)等のハードウェアを用いて実現されてもよい。画像分類前処理プログラムは、コンピュータ読み取り可能な記録媒体に記録されても良い。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM(Read Only Memory)、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。
制御部101において、学習画像取得部111は、蓄積部102における学習画像蓄積部121から学習画像を取得する。
学習画像蓄積部121は、学習画像を蓄積する。学習画像は、事前に用意された画像であって、意味ラベルが対応付けられる。学習画像蓄積部121が蓄積する画像は、例えば、Web上に存在する画像をサムネイル化することにより形成される。
ここで、学習画像蓄積部121に蓄積すべき学習画像を形成するにあたり、サムネイル化に適していない画像は、有効な特徴量を得ることができない。そこで、このようなサムネイル化に適していない画像については削除するようにして学習画像の選別が行われる。サムネイル化に適していない画像とは、例えばサムネイル化により縮小された画像のサイズよりも元のサイズが小さい画像や、アスペクト比が一定範囲を超えているような画像などである。
また、学習画像と意味ラベルとの対応付けは、どのような処理によって行われてもよい。例えば、人の手によって意味ラベルに学習画像が対応付けされてもよい。また、例えば、ネットワーク上のウェブページなどに存在する画像とタグとを、それぞれ、学習画像と学習画像に対応付けるべき意味ラベルとして取得してもよい。このように学習画像に対応付けられた意味ラベルは、分類結果についての正解を示す。つまり、学習画像は、正しい意味ラベルが対応付けられた教師データである。
学習画像取得部111は、画像辞書の生成のために利用する学習画像の取得にあたり、意味ラベルの指定を行う。
学習画像取得部111は、指定の意味ラベルに対応する学習画像として、各複数の正解画像と不正解画像とを、学習画像蓄積部121が蓄積する学習画像から取得する。
正解画像は、指定の意味ラベルが対応付けられた学習画像であり、不正解画像は、指定の意味ラベルとは異なる意味ラベルが対応付けられた学習画像である。
本実施形態において、正解画像と不正解画像との比率は一定の範囲内となるように定められる。一例として、1つの正解画像に対して不正解画像が5つというように、正解画像よりも不正解画像が多くなるように、正解画像と不正解画像との比率が定められる。
また、取得される正解画像の構成については、多様な種類の画像(例えば、多様な撮影条件で撮影された画像)が含まれるようにすることが好ましい。そこで、学習画像取得部111は、1つの正解画像と重複する他の正解画像について削除を行う。
同様に、不正解画像については、正解画像と異なる、様々な意味ラベルが付与された画像が含まれるようにすることが好ましい。そこで、学習画像取得部111は、1つの不正解画像と重複する他の不正解画像について削除を行う。
また、例えば「リンゴ」という内容の意味ラベルに対しては、「梨」という内容の意味ラベルが類似する関係にある。このように意味ラベルの内容に関して正解画像に類似する画像が存在する場合、学習画像取得部111は、類似の意味ラベルが付与された画像の一定割合が不正解画像として含められるようにする。
上記のように学習画像取得部111により取得された学習画像(正解画像、不正解画像)には、それぞれ前述のように意味ラベルが対応付けられている。具体的には、例えば学習画像は、対応付けられた意味ラベルを示す属性情報を含む構造であってもよい。
特徴量抽出部112は、指定の意味ラベルに対応付けられた学習画像から複数の特徴量種別ごとの特徴量を抽出する。特徴量抽出部112は、学習画像取得部111により取得された学習画像を入力し、入力した学習画像を対象として、複数の特徴量種別ごとの特徴量を抽出する。
本実施形態における学習画像はサムネイル化された縮小画像である。そこで、特徴量抽出部112は、サムネイル化された縮小画像から十分な情報量を得るために、例えば以下のように特徴量を抽出してよい。つまり、特徴量抽出部112は、画像全体から特徴量を抽出するのに加えて、学習画像を例えば格子(グリッド)状により一定サイズに分割し、分割した各領域から色ヒストグラムや模様ヒストグラムなどの、複数の特徴量種別ごとの特徴量(物理特徴量)を抽出する。そのうえで、特徴量抽出部112は、抽出された複数の特徴量種別ごとの特徴量を統合する。
本実施形態における複数の特徴量種別の具体例として、以下の5つを挙げることができる。
特徴量抽出部112が抽出対象とする特徴量種別の第1例は、エッジヒストグラム(Edge Histogram)である。図2を参照して、エッジヒストグラムとしての特徴量の抽出手法例について説明する。
エッジヒストグラムの抽出にあたり、まず、特徴量抽出部112は、処理対象の学習画像Plnをカラー形式からグレースケール形式に変換する。そのうえで、特徴量抽出部112は、グレースケールの学習画像Plnを、例えば4×4の分割領域ARdvに分割する。
次に、特徴量抽出部112は、学習画像Plnにおける各画素に対して8方向のエッジ検出を行い、検出結果として、エッジ方向とエッジ強度とを算出する。
次に、特徴量抽出部112は、例えば、同図に示す5つのヒストグラム生成領域ARht1、ARht2、ARht3、ARht4、ARht5ごとに、検出された画素ごとのエッジ方向及びエッジ強度によるヒストグラムを生成する。
特徴量抽出部112が抽出対象とする特徴量種別の第2例は、色ヒストグラム(Color Histogram)である。
一例として、特徴量抽出部112は、以下のように色ヒストグラムによる特徴量を抽出することができる。まず、特徴量抽出部112は、処理対象の学習画像Plnの色空間を、RGB色空間からHSV色空間に変換する。次に、特徴量抽出部112は、HSV色空間による学習画像Plnを形成する画素ごとの画素値を、所定の階調(次元)数で量子化する。一例として、特徴量抽出部112は、18階調によるH(色相)と、3階調によるS(彩度)と、3階調による(明度)とに、4階調によるグレースケールを加えた、166(=18*3*3+4)階調(次元)で量子化を行うことができる。なお、4階調によるグレースケール(0〜3)は、一定以下の値のS(彩度)とVの値との組み合わせに基づいて導出されればよい。特徴量抽出部112は、各画素の量子化の結果を用いて学習画像Plnの全体に対応する色ヒストグラムを生成する。
特徴量抽出部112が抽出対象とする特徴量種別の第3例は、色コレログラム(Color Correlogram)である。
一例として、特徴量抽出部112は、以下のように色コレログラムによる特徴量を抽出することができる。まず、特徴量抽出部112は、処理対象の学習画像Plnの色空間を、RGB色空間からHSV色空間に変換する。次に、特徴量抽出部112は、HSV色空間による学習画像Plnを形成する画素ごとの画素値を、所定の階調(次元)数で量子化する。なお、特徴量抽出部112は、色コレログラムの場合にも、上記の色ヒストグラムの場合と同様に166階調(次元)で量子化を行ってよい。特徴量抽出部112は、画素ごとの量子化の結果を用いて学習画像Plnの全体に対応する階調ヒストグラムを生成する。
次に、特徴量抽出部112は、着目画素から任意に定めた距離の範囲内で同じ階調に量子化された画素の出現頻度を求め、求めた出現頻度のヒストグラムを生成する。次に、特徴量抽出部112は、上記のように生成した出現頻度のヒストグラムを、階調ヒストグラムで除算する。
特徴量抽出部112が抽出対象とする特徴量種別の第4例は、色モメント(Color Moment)である。
色モメント(Color Moment)の抽出にあたり、まず、特徴量抽出部112は、処理対象の学習画像Plnを、図3に例示するように、例えば5×5の分割領域ARdvに分割する。特徴量抽出部112は、分割領域ARdvごとに、RGB色空間の画素値の平均値と、RGB色空間の画素値の標準偏差とを算出する。このように算出される分割領域ARdvごとの画素値の平均値と標準偏差が色モメントとして扱われる。
特徴量抽出部112が抽出対象とする特徴量種別の第5例は、ウェーブレットテクスチャグリッド(Wavelet Texture Grid)である。
ウェーブレットテクスチャグリッドを抽出するにあたり、まず、特徴量抽出部112は、処理対象の学習画像Plnを、図4に例示するように、例えば3×3の分割領域ARdvに分割する。
次に、特徴量抽出部112は、分割領域ARdvのそれぞれについて、レイヤごとにハールウェーブレット(Harr Wavelet)変換などの離散ウェーブレット変換を行う。なお、分割領域ARdvがRGB色空間による場合、レイヤは、R、G、Bのそれぞれに対応する画像成分による画像が対応する。
次に、特徴量抽出部112は、上記の離散ウェーブレット変換によって得られた、レイヤごとの分割領域ARdvのそれぞれを正規化する。
次に、特徴量抽出部112は、図5に例示するように、離散ウェーブレット変換後のR、G、Bによるレイヤ(LYr、LYg、LYb)ごとの分割領域ARdvのそれぞれを4分割する。そして、特徴量抽出部112は、4分割により得られた分割領域ARdvについての標準偏差を算出する。このように求められた、レイヤごとの分割領域ARdvの標準偏差の算出結果がウェーブレットテクスチャグリッドとして扱われる。
本実施形態における特徴量抽出部112は、例えば上記の第1例〜第5例による5つの特徴量種別ごとの特徴量を抽出する。これにより、本実施形態においては、サムネイル化された縮小画像としての学習画像から十分な情報量を得ることが可能になる。
特徴量抽出部112は、上記のように抽出した複数の特徴量種別ごとの特徴量を画像辞書生成部113に出力する。特徴量抽出部112が出力する複数の特徴量種別ごとの特徴量には、対応の学習画像に対応付けられていた意味ラベルを示す意味ラベル情報が付加されている。
画像辞書生成部113は、特徴量抽出部112により抽出された複数の特徴量種別ごとの特徴量を利用した機械学習により、意味ラベルと複数の特徴量種別ごとの特徴量との各組み合わせに対応する画像辞書を生成する。
つまり、画像辞書生成部113は、特徴量抽出部112が抽出した複数の特徴量種別ごとの特徴量を入力する。画像辞書生成部113は、入力した複数の特徴量種別ごとの特徴量を利用した機械学習を実行する。ここで、複数の特徴量種別ごとの特徴量は意味ラベル別に得られている。そこで、画像辞書生成部113は、複数の意味ラベルと複数の特徴量種別との組み合わせのそれぞれに対応する特徴量ごとに機械学習を実行する。画像辞書生成部113は、このような機械学習の実行により、意味ラベルと特徴量との組み合わせごとに対応する画像辞書を生成する。上記の機械学習のアルゴリズムとしては特に限定されないが、例えばSVM(サポートベクターマシン)を用いることができる。
画像辞書生成部113は、生成した画像辞書を重み算出部115に出力する。また、画像辞書生成部113は、生成した画像辞書を、蓄積部102における画像辞書蓄積部122に蓄積(記憶)させる。
ここで、或る1つの意味ラベルにおいて特徴量抽出部112により抽出された複数の特徴量種別の特徴量が、識別結果(分類結果)に寄与する貢献度は均一ではない。また、複数の特徴量種別ごとの特徴量の識別結果に対する貢献度は、意味ラベルの内容に応じて異なる。
また、本実施形態では、複数の特徴量に基づく複数の識別結果を組み合わせることができる。一例として、特徴量ごとの識別結果の最大値を二次的な識別結果として求めたり、特徴量ごとの識別結果を積算して二次的な識別結果として求めたりすることができる。これによって最終的な分類結果の精度を高くすることができる。
しかし、異なる特徴量種別は必ずしも互いに独立した関係を有するものではなく、相互に関連している場合もある。このために、上記のような簡易な識別結果の組み合わせの手法では、二次的な識別結果の精度が低下する可能性がある。
さらに、特徴量に基づいて求められる識別結果としては、上記の貢献度の高いものほど重みの高い値となるようにすれば、分類精度の向上が図られる。
上記の点から、画像辞書生成部113により生成された画像辞書については、意味ラベルごとにおける複数の特徴量種別ごとに対応する画像辞書の間で重み付けを行っておくことが好ましい。
そこで、本実施形態においては、一次識別結果算出部114と重み算出部115とにより、以下のような構成によって、複数の特徴量種別ごとに対応する画像辞書間での重み付けを行う。
一次識別結果算出部114は、指定の意味ラベルにおける複数の特徴量種別ごとに対応して特徴量抽出部112が抽出した特徴量と画像辞書生成部113が生成した画像辞書とを利用して、複数の特徴量種別ごとに対応する学習画像についての一次識別結果を算出する。
ここで、1つの特徴量種別に対応する学習画像についての一次識別結果とは、例えば、1つの特徴量種別に対応する特徴量空間における、特徴量と、当該特徴量の特徴量種別に対応する画像辞書が表す特徴超平面との距離(特徴量距離)である。即ち、一次識別結果は、特徴量距離により学習画像についての分類結果を示す。
重み算出部115は、指定の意味ラベルと複数の特徴量種別ごとに対応する一次識別結果とに基づいて、複数の特徴量種別ごとに対応する重みを算出する。
具体的に、重み算出部115は、上記のように画像辞書生成部113によって生成された画像辞書を入力する。重み算出部115は、入力した画像辞書について、1つの意味ラベルに対応する複数の特徴量種別ごとに重みを算出する。重み算出部115は、このような複数の特徴量種別ごとに対応する重みの算出を、意味ラベルごとに実行する。従って、重みは、意味ラベルと特徴量種別とによる組み合わせごとに対応して求められる。
重み算出部115は、算出した重みを、同じ意味ラベルと特徴量種別の組み合わせに対応付する画像辞書と対応付けて、重みデータとして蓄積部102の重みデータ蓄積部123に蓄積させる。
蓄積部102は、制御部101が利用する各種の情報を記憶する。同図に示す蓄積部102は、学習画像蓄積部121と、画像辞書蓄積部122と、重みデータ蓄積部123とを備える。
学習画像蓄積部121は、学習画像(学習画像)を蓄積する。これまでの説明から理解されるように、学習画像蓄積部121が記憶する学習画像のそれぞれには意味ラベルが対応付けられている。
画像辞書蓄積部122は、画像辞書生成部113が生成した画像辞書を蓄積する。
重みデータ蓄積部123は、重み算出部115が算出した画像辞書ごとの重みを示す重みデータを、画像辞書ごとに対応付けて蓄積する。つまり、重みデータ蓄積部123に蓄積される重みデータは、例えば対応の画像辞書を示す属性情報が付加されている。
なお、重みデータについては、画像辞書蓄積部122に蓄積される画像辞書の属性情報に含めることにより、画像辞書とともに画像辞書蓄積部122に蓄積されるようにしてもよい。この場合、重みデータ蓄積部123は省略されてよい。
続いて、図6のフローチャートを参照して、本実施形態の画像分類前処理装置100が実行する処理手順例について説明する。なお、同図に示す処理は、画像分類前処理として、1つの意味ラベルに対応した画像辞書を生成する処理である。
画像分類前処理装置100において、制御部101の学習画像取得部111は、指定の意味ラベルに対応する学習画像として、各複数の正解画像と不正解画像とを、学習画像蓄積部121が記憶する学習画像のうちから取得する(ステップS101)。
次に、特徴量抽出部112は、複数の特徴量種別ごとに付した番号を示す変数mに初期値として1を代入する(ステップS102)。そのうえで、特徴量抽出部112は、m番目の特徴量種別の特徴量を、ステップS101にて取得した学習画像から抽出する(ステップS103)。
次に、画像辞書生成部113は、ステップS103にて抽出された特徴量を利用した機械学習により、m番目の特徴量種別に対応する画像辞書を生成する(ステップS104)。なお、ステップS104により生成された画像辞書は、前述のように画像辞書蓄積部122に蓄積される。
次に、特徴量抽出部112は、変数mをインクリメントしたうえで(ステップS105)、現在の変数mが最大値よりも大きいか否かについて判定する(ステップS106)。変数mの最大値は、特徴量抽出部112が抽出対象とする特徴量種別の数に対応する。
変数mが最大値以下である場合には(ステップS106−NO)、まだ特徴量が抽出されていない特徴量種別が残っている。そこで、この場合の特徴量抽出部112は、ステップS103に処理を戻す。これにより、次の特徴量種別の特徴量の抽出と、次の特徴量種別に対応する画像辞書の生成が行われる。
一方、変数mが最大値より大きい場合には(ステップS106−YES)、全ての特徴量種別の特徴量の抽出が完了している。そこで、この場合には、重み算出部115が、指定の意味ラベルにおける複数の特徴量種別ごとに対応して、画像辞書の重み算出を実行する(ステップS107)。
重み算出部115は、ステップS107により算出した重みを示す重みデータを、同じ意味ラベルと特徴量種別との組み合わせに対応する画像辞書と対応付けて重みデータ蓄積部123に蓄積させる(ステップS108)。
図7のフローチャートは、図6のステップS107として示した画像辞書の重み算出のために画像分類前処理装置100が実行する処理手順例を示している。同図に示す処理は、指定の1つの意味ラベルに対応して実行される。なお、同図に示す処理は、制御部101における一次識別結果算出部114と重み算出部115とが実行する。
まず、一次識別結果算出部114は、図6のステップS103にて抽出された特徴量種別ごとの特徴量と、図6のステップS104により生成された特徴量種別ごとの画像辞書を利用して、特徴量種別ごとに対応する一次識別結果を算出する(ステップS201)。
ここでの1つの特徴量種別に対応する一次識別結果は、前述のように、例えば1つの特徴量種別に対応する特徴量空間における、特徴量と、当該特徴量の特徴量種別に対応する画像辞書が表す特徴超平面との距離(特徴量距離)である。
次に、重み算出部115は、ステップS201により算出された特徴量種別ごとに対応する一次識別結果のそれぞれを正規化する(ステップS202)。
複数の特徴量種別ごとに対応する各一次識別結果は、互いの基準が異なることから、そのままでは、一次識別結果の間での数値を対照させることができない。そこで、ステップS202により、特徴量種別ごとに対応する複数の一次識別結果のそれぞれを正規化することによって、一次識別結果間での数値基準を統一する。
ステップS202の正規化のアルゴリズムとしては特に限定されないが、一例として、特徴量種別ごとに対応する複数の一次識別結果のうちの最大値と最小値とに基づくシグモイド関数により正規化を行うことができる。
次に、重み算出部115は、ステップS202により正規化された一次識別結果を利用して、最適化された重みを特徴量種別ごとに算出する(ステップS203)。
ステップS203による重みの算出は、以下の式1、式2に示す行列X、行列Yを利用することができる。なお、式1は、特徴量種別が5つである場合に対応した演算を表している。
Figure 0006059686
Figure 0006059686
式1の行列Xは、n行×6列による行列である。行列Xにおける要素Ximは、i番目の学習画像におけるm番目の特徴量種別に対応して、ステップS201により算出された一次識別結果である。
式2の行列Yは、n行×1列による行列である。行列Yにおける要素Yは、i番目の学習画像に対応付けられた意味ラベル(正解ラベル)を示す。
重み算出部115は、式1、式2を利用して、変数mで表される特徴量種別ごとに、式6として示す条件が満たされるまで、以下の式3、式4、式5について計算を行う。式6の条件が満たされたときの式3における左辺が、m番目の特徴量種別に対応して最適化された重みwとして求められる。
Figure 0006059686
Figure 0006059686
Figure 0006059686
Figure 0006059686
式3における項Πは、式4の行列Πとして表される。また、式3における項Rは、式5の行列Rとして表される。また、式3におけるTは転置行列を示す。また、式6におけるεは、予め定められた定数である。
は、m番目の特徴量種別に対応する重みを表し、式3、式4、式5において、wの初期値は、以下の式7のように表される。
Figure 0006059686
以上の演算により、指定の意味ラベルにおける特徴量種別ごとの重みが求められる。具体的に、特徴量種別が前述の第1例から第5例までの5つである場合には、指定の意味ラベルにおける特徴量種別ごとの重みw1〜が求められる。なお、式4、式7は特徴量種別が5つである場合に対応した演算を表している。
このように、本実施形態の画像分類前処理装置100は、画像分類前処理として、学習画像から複数の特徴量種別ごとの特徴量を求めて画像辞書を生成している。これにより、学習画像がサムネイル化された縮小された画像であっても十分な情報量による特徴量を得ることができるので、画像辞書としても良質なものを生成することが可能になる。このように前処理が行われることで、その後に画像分類装置によって画像分類が行われる段階においても、高い分類精度を維持できる。
<第2実施形態>
続いて、第2実施形態として、本実施形態の画像分類装置について説明する。本実施形態の画像分類装置は、図1の画像分類前処理装置100により生成された画像辞書を利用して、分類対象の画像がどのカテゴリに属するのかを分類する。
図8を参照して、本実施形態の画像分類装置200の構成例について説明する。同図に示す画像分類装置200は、制御部201と蓄積部202とを備える。
制御部201は、画像分類装置200としての機能を実現するための各種処理を実行する。制御部201は、バスで接続されたCPUやメモリなどを備え、画像分類プログラムを実行する。画像分類装置200は、画像分類プログラムの実行によって、制御部201における分類対象画像取得部211、特徴量抽出部212、一次識別結果算出部213及び二次識別結果算出部214と、蓄積部202とを備える装置として機能する。
なお、画像分類装置200の各機能の全てまたは一部は、ASICやPLDやFPGA等のハードウェアを用いて実現されてもよい。画像分類プログラムは、コンピュータ読み取り可能な記録媒体に記録されても良い。コンピュータ読み取り可能な記録媒体とは、例えばフレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置である。
制御部201において、分類対象画像取得部211は、蓄積部202の分類対象画像蓄積部221から分類対象画像を取得する。
特徴量抽出部212は、分類対象画像取得部211が取得した分類画像について、複数の特徴量種別ごとの特徴量を抽出する。
一次識別結果算出部213は、指定の意味ラベルにおける複数の特徴量種別ごとに対応して特徴量抽出部212が抽出した特徴量と、画像分類前処理装置100によって生成された画像辞書のうち、指定の意味ラベルにおける複数の特徴量種別ごとに対応する画像辞書とを利用して以下の処理を実行する。つまり、一次識別結果算出部213は、複数の特徴量種別ごとに対応する分類対象画像についての一次識別結果を算出する。
なお、一次識別結果算出部213により算出された複数の特徴量種別ごとの一次識別結果は、指定の意味ラベルに対応して求められる。
二次識別結果算出部214は、一次識別結果算出部213により算出された特徴量種別ごとに対応する一次識別結果を利用して、指定の意味ラベルにおける分類対象画像についての二次識別結果を算出する。
一例として、二次識別結果算出部214は、一次識別結果算出部213により算出された一次識別結果と、画像分類前処理装置100により算出された重みとを利用した線形統合に基づいて二次識別結果を算出することができる。
なお、画像分類前処理装置100により算出された重みは、蓄積部202における重みデータ蓄積部223に蓄積されている。二次識別結果算出部214は、二次識別結果の算出に際して、重みデータ蓄積部223から読み出した重みデータが示す重みを利用すればよい。
二次識別結果算出部214は、算出した二次識別結果を、分類対象画像についての分類結果として蓄積部202の分類結果蓄積部224に蓄積させる。
蓄積部202は、制御部201が利用する各種の情報を記憶する。同図に示す蓄積部202は、分類対象画像蓄積部221と、画像辞書蓄積部222と、重みデータ蓄積部223と、分類結果蓄積部224とを備える。
分類対象画像蓄積部221は、分類対象となる画像(分類対象画像)を蓄積する。本実施形態における分類対象画像は、サムネイル化により縮小された画像であってよい。
画像辞書蓄積部222は、画像分類前処理装置100により生成された画像辞書を蓄積する。画像辞書蓄積部222は、意味ラベルごとにおいて、複数の特徴量種別ごとに対応する画像辞書を蓄積する。従って、画像辞書蓄積部222は、図1の画像分類前処理装置100が備える画像辞書蓄積部122と同じ画像辞書を蓄積すればよい。
重みデータ蓄積部223は、画像分類前処理装置100により算出された重みを示す重みデータを蓄積する。重みデータ蓄積部223は、画像辞書蓄積部222が蓄積する画像辞書ごとに対応する重みを示す重みデータを蓄積する。従って、重みデータ蓄積部223は、図1の画像分類前処理装置100が備える重みデータ蓄積部123と同じ重みデータを蓄積すればよい。
分類結果蓄積部224は、二次識別結果算出部214が出力する二次識別結果を、分類対象画像についての分類結果として蓄積する。
図9は、特徴量抽出部212と一次識別結果算出部213の機能構成例を示している。なお、同図に示す構成は、分類対象画像について指定の1つの意味ラベルに該当するか否かの分類を行う場合に対応する構成である。
同図に示すように、特徴量抽出部212は、第1特徴量抽出器212a−1〜第N特徴量抽出器212a−NによるN個の特徴量抽出器を備える。一例として、特徴量抽出部212が先に説明した第1例〜第5例による5つの特徴量種別の特徴量を算出する場合には、第1特徴量抽出器212a−1〜第5特徴量抽出器212a−5の5つ(N=5)が備えられる。
なお、第1特徴量抽出器212a−1〜第N特徴量抽出器212a−Nについて特に区別しない場合には、特徴量抽出器212aと記載する。
特徴量抽出器212aは、それぞれ、分類対象画像取得部211が取得した分類対象画像Pclsを入力し、入力した分類対象画像Pclsから自己が対応する特徴量種別の特徴量を算出する。
一次識別結果算出部213は、第1識別器213a−1〜第N識別器213a−NによるN個の識別器を備える。
また、第1識別器213a−1〜第N識別器213a−Nのそれぞれには、第1画像辞書dic−1〜第N画像辞書dic−Nが対応付けられる。第1画像辞書dic−1〜第N画像辞書dic−Nは、図8の画像辞書蓄積部222に蓄積される画像辞書のうち、指定の意味ラベルにおける複数の特徴量種別ごとに対応する画像辞書である。
なお、以降の説明において、第1識別器213a−1〜第N識別器213a−Nについて特に区別しない場合には、識別器213aと記載する。また、第1画像辞書dic−1〜第N画像辞書dic−Nについて特に区別しない場合には、画像辞書dicと記載する。
1つの識別器213aは、それぞれ、自己が対応するのと同じ特徴量種別に対応する特徴量抽出器212aにより抽出された特徴量と、指定の意味ラベルにおいて同じ特徴量種別に対応する画像辞書dicとを利用して、同じ特徴量種別に対応する一次識別結果を出力する。
上記のようにして、一次識別結果算出部213からは、第1〜第Nの特徴量種別ごとの特徴量に対応するN個の一次識別結果が出力される。
二次識別結果算出部214は、一次識別結果算出部213から出力されるN個の一次識別結果を利用して算出した二次識別結果を分類結果Dclsとして出力する。
図10のフローチャートは、本実施形態の画像分類装置200が実行する処理手順例を示している。
画像分類装置200において、制御部201の分類対象画像取得部211は、分類対象画像蓄積部221から、今回の分類対象とする分類対象画像を取得する(ステップS301)。
次に、特徴量抽出部212は、特徴量種別に付した番号を示す変数mに初期値として1を代入する(ステップS302)。そのうえで、特徴量抽出部112は、m番目の特徴量種別の特徴量を、ステップS201にて取得した分類対象画像から抽出する(ステップS303)。
次に、一次識別結果算出部213は、ステップS303にて抽出されたm番目の特徴量種別の特徴量と、m番目の特徴量種別に対応する画像辞書とを利用して、m番目の特徴量種別に対応する一次識別結果を算出する(ステップS304)。
次に、特徴量抽出部112は、変数mをインクリメントしたうえで(ステップS305)、変数mが最大値(N)よりも大きいか否かについて判定する(ステップS306)。
変数mが最大値以下である場合には(ステップS306−NO)、まだ一次識別結果が算出されていない特徴量種別が残っている。そこで、この場合の特徴量抽出部112は、ステップS303に処理を戻す。これにより、次の特徴量種別の特徴量の抽出と、次の特徴量種別に応じた一次識別結果の算出が行われる。
一方、変数mが最大値より大きい場合には(ステップS306−YES)、全ての特徴量種別に応じた一次識別結果の算出が完了している。そこで、この場合には、二次識別結果算出部214が、これまでのステップS304により算出された全ての特徴量種別に応じた一次識別結果を利用して二次識別結果を算出する(ステップS307)。
前述のように、ステップS307として、二次識別結果算出部214は、複数の特徴量種別ごとの一次識別結果と、複数の特徴量種別ごとの重みとを利用した線形統合に基づいて、1つの意味ラベルに対応した二次識別結果を算出することができる。
上記の線形統合による一次識別結果の統合は、以下の式8によって実現できる。
Figure 0006059686
式8は、j番目の分類対象画像yjについてyj=1となる確率を対応させた確率関数Pである。式8における右辺の分母において、w・・・wjm・・・wjNを積算する演算が線形統合に相当する。wは重みの初期値である。
このように、本実施形態の画像分類装置200は、分類対象画像について、複数の特徴量種別ごとの特徴量を算出し、算出した特徴量と、画像分類前処理装置100により生成された画像辞書とを利用して一次識別結果を得るようにしている。これにより、例えば分類対象画像がサムネイル化された縮小画像であっても、特徴量としては十分な情報量が得られ、精度の高い一次識別結果が得られ、この結果、精度の高い分類結果が得られる。そのうえで、本実施形態においては、例えば複数の特徴量種別ごとに対応して算出された一次識別結果と、同じ複数の特徴量種別ごとに対応する重みとを用いた線形統合により二次識別結果を算出している。このように一次識別結果の統合に基づいて得られた二次識別結果によっては、さらに高い精度による分類結果を得ることが可能になる。
<第3実施形態>
続いて、第3実施形態について説明する。第3実施形態は、画像分類前処理として、閾値を算出する処理を行う画像分類前処理装置である。ここで算出される閾値は、画像分類の段階において、分類対象画像についての二次識別結果に対する閾値処理を行う際に用いられる。
図11は、第3実施形態における画像分類前処理装置100Aの構成例を示している。同図において、図1と同一部分には同一符号を付して説明を省略し、ここでは主に図1との相違点について説明する。
同図に示す画像分類前処理装置100Aは、制御部101において、二次識別結果算出部116と閾値算出部117とをさらに備える。また、画像分類前処理装置100Aは、蓄積部102において、閾値蓄積部124をさらに備える。
本実施形態の画像分類前処理装置100Aは、閾値を算出するにあたり、以下のように処理を実行する。
まず、学習画像取得部111は、指定の意味ラベルに対応する閾値算出のための学習画像を、学習画像蓄積部121から取得する。
特徴量抽出部112は、学習画像取得部111により取得された学習画像から複数の特徴量種別ごとの特徴量を抽出する。
一次識別結果算出部114は、特徴量抽出部112により抽出された特徴量と、指定の意味ラベルにおける複数の特徴量種別ごとに対応する画像辞書とを利用して、指定の意味ラベルにおける複数の特徴量種別ごとに対応する一次識別結果を算出する。ここで算出される一次識別結果は、閾値算出のための学習画像についてのものである。
二次識別結果算出部116は、一次識別結果算出部114により算出された特徴量種別ごとに対応する一次識別結果を利用して、指定の意味ラベルにおける閾値算出のための学習画像についての二次識別結果を算出する。
閾値算出部117は、二次識別結果算出部116により算出された二次識別結果を閾値と比較する閾値処理の結果の精度が目標値に到達するように閾値を算出する。
上記の一連の処理は1つ意味ラベルに対応して行われる。上記の一連の処理が意味ラベルごとに実行されることで、意味ラベルごとに対応する閾値が算出される。
蓄積部102における閾値蓄積部124は、上記のようにして算出される意味ラベルごとに対応する閾値を蓄積する。
図12のフローチャートは、本実施形態の画像分類前処理装置100Aが閾値算出のために実行する処理手順例を示している。
画像分類前処理装置100Aにおいて、制御部101の学習画像取得部111は、指定の意味ラベルに対応付けられた学習画像を、閾値算出のための画像として学習画像蓄積部121から取得する(ステップS401)。
次に、特徴量抽出部112は、特徴量種別に付した番号を示す変数mに初期値として1を代入する(ステップS402)。
そのうえで、特徴量抽出部112は、m番目の特徴量種別の特徴量を、ステップS401にて取得した学習画像から抽出する(ステップS403)。
次に、一次識別結果算出部114は、ステップS403にて抽出されたm番目の特徴量種別の特徴量と、m番目の特徴量種別に対応する画像辞書とを利用して、m番目の特徴量種別に対応する一次識別結果を算出する(ステップS404)。
次に、特徴量抽出部112は、変数mをインクリメントしたうえで(ステップS405)、変数mが最大値よりも大きいか否かについて判定する(ステップS406)。
変数mが最大値以下である場合には(ステップS406−NO)、ステップS403に処理を戻す。これにより、次の特徴量種別の特徴量の抽出と、次の特徴量種別に応じた一次識別結果の算出が行われる。
一方、変数mが最大値より大きい場合には(ステップS406−YES)、全ての特徴量種別に応じた一次識別結果の算出が完了している。そこで、この場合には、二次識別結果算出部116が、これまでのステップS404により算出された全ての特徴量種別を利用して二次識別結果を出力する(ステップS407)。
具体的に、二次識別結果算出部116は、ステップS407において、図10のステップS306にて説明したのと同様の処理を行ってもよい。つまり、二次識別結果算出部116は、これまでのステップS404により算出された特徴量種別ごとの一次識別結果と、同じ指定の意味ラベルにおける特徴量種別ごとの重みとを利用した線形統合(線型結合)に基づいて二次識別結果を算出することができる。
次に、閾値算出部117は、ステップS407により得られた二次識別結果に対して、現在の閾値による閾値処理を実行する(ステップS408)。なお、最初のステップS408の処理に際しては、予め定められた初期値による閾値を利用して閾値処理が行われるようにすればよい。
閾値算出部117は、ステップS408による閾値処理の結果と指定の意味ラベルとに基づいて、ステップS407にて得られた二次識別結果についての精度を算出する(ステップS409)。ここでの二次識別結果についての精度は、例えば指定の意味ラベルに対する適合率、再現率などとして求められてもよい。
閾値算出部117は、ステップS409により算出された精度が予め定めた目標値に到達しているか否かについて判定する(ステップS410)。目標値は、例えば、所望の分類精度が得られるように定められればよい。
ステップS409により算出された精度が目標値に到達していない場合(ステップS410−NO)、閾値算出部117は、閾値を変更(修正)したうえで(ステップS411)ステップS408の処理に戻る。これにより、変更後の閾値による閾値処理と、閾値処理結果に応じた二次識別結果についての精度の算出が行われる。
そして、ステップS409により算出された精度が目標値に到達するのに応じて(ステップS410−YES)、同図に示す処理が終了し、閾値が確定される。この段階では、確定された閾値が閾値蓄積部124に蓄積される。
<第4実施形態>
続いて、第4実施形態について説明する。第4実施形態は、第3実施形態の画像分類前処理装置100Aにより算出された閾値を利用して分類結果を出力するように構成された画像分類装置である。
図13は、第4実施形態における画像分類装置200Aの構成例を示している。同図において、図8と同一部分には同一符号を付し説明を省略し、ここでは主に図8との相違点について説明する。
同図に示す画像分類装置200Aは、制御部201において意味ラベル付与部215をさらに備える。
また、画像分類装置200Aは、蓄積部202において、閾値蓄積部225をさらに備える。閾値蓄積部225は、第3実施形態の画像分類前処理装置100Aにより算出された意味ラベルごとの閾値を記憶する。即ち、閾値蓄積部225は、図11の閾値蓄積部124と同じ閾値が記憶されればよい。
意味ラベル付与部215は、二次識別結果算出部214によって算出された二次識別結果と、画像分類前処理装置100Aにより算出された閾値とを比較し、比較結果が一定条件を満たした二次識別結果に対応する分類対象画像に指定の意味ラベルを付与する。
ここで、意味ラベル付与部215が指定の意味ラベルを分類対照画像に付与する処理は、分類対象画像に対して意味ラベルに対応するカテゴリに分類した分類結果を得ることに相当する。
本実施形態においては、意味ラベル付与部215を備えることにより、二次識別結果が閾値と比較されるために、二次識別結果を分類結果とする場合と比較して、高い分類結果の精度が得られる。また、意味ラベル付与部215によっては、分類対象画像が対応するカテゴリが示されることから、より明確な分類結果が得られる。
意味ラベル付与部215が利用する、第3実施形態の画像分類前処理装置100Aにより算出された閾値は、閾値蓄積部225が蓄積している。即ち、閾値蓄積部225は、第3実施形態の画像分類前処理装置100Aにより算出された意味ラベルごとの閾値を記憶する。従って、閾値蓄積部225には、図11の閾値蓄積部124と同じ閾値が記憶されればよい。
図14のフローチャートは、画像分類装置200Aにおける意味ラベル付与部215が実行する処理手順例を示している。同図に示す処理は、画像分類装置200Aにおける分類対象画像取得部211、特徴量抽出部212、一次識別結果算出部213及び二次識別結果算出部214が図10のステップS301〜S306までの処理を実行した後に実行される処理である。
意味ラベル付与部215は、1つの意味ラベルを選択したうえで(ステップS501)、選択した意味ラベルに対応する閾値を閾値蓄積部225から取得する(ステップS502)。
次に、意味ラベル付与部215は、図10のステップS306により得られた二次識別結果に対して、ステップS502にて取得した閾値による閾値処理を実行する(ステップS503)。つまり、意味ラベル付与部215は、二次識別結果を閾値と比較する。
次に、意味ラベル付与部215は、ステップS503により、二次識別結果が閾値を超えているとの閾値処理結果(比較結果)が得られたか否かについて判定する(ステップS504)。
二次識別結果が閾値を超えている(一定条件を満たしている)との閾値処理結果が得られた場合(ステップS504−YES)、図10のステップS301により取得された分類対象画像は、ステップS501において選択した意味ラベルがカテゴリとして該当していることになる。そこで、この場合の意味ラベル付与部215は、二次識別結果に対応する分類対象画像に、ステップS501にて選択した意味ラベルを付与する(ステップS505)。
分類対象画像とステップS505により付与された意味ラベルとの対応関係を示す情報は、分類結果として分類結果蓄積部224に蓄積されればよい。
これに対して、二次識別結果が閾値を超えていないとの閾値処理結果が得られた場合(ステップS504−NO)、意味ラベル付与部215は、二次識別結果に対応する分類対象画像に対して特に意味ラベルを付与することなく同図に示す処理を終了する。
意味ラベル付与部215は、用意された意味ラベルごとに、同図に示す処理を実行すればよい。これにより、1つの分類対象画像に対して、全ての意味ラベルとの適合性の可否が判断される。
なお、第1実施形態における画像分類前処理装置100と第2実施形態における画像分類装置200とは1つの装置で構成されてもよい。同様に、第3実施形態における画像分類前処理装置100Aと第4実施形態における画像分類装置200Aとは1つの装置で構成されてもよい。
また、第1実施形態における画像分類前処理装置100としての構成部位を適宜複数の装置に分散させ、複数の装置間を例えば通信で接続することにより、画像分類前処理装置100としての機能が実現されるように構成してもよい。画像分類前処理装置100A、画像分類装置200、200Aについてもそれぞれに構成されてよい。
なお、上述した実施形態における画像分類前処理装置100、100A、あるいは画像分類装置200、200Aをコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA(Field Programmable Gate Array)等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
100…画像分類前処理装置, 100A…画像分類前処理装置, 101…制御部, 102…蓄積部, 111…学習画像取得部, 112…特徴量抽出部, 113…画像辞書生成部, 114…一次識別結果算出部, 115…重み算出部, 116…二次識別結果算出部, 117…閾値算出部, 121…学習画像蓄積部, 122…画像辞書蓄積部, 123…データ蓄積部, 124…閾値蓄積部, 200…画像分類装置, 200A…画像分類装置, 201…制御部, 202…蓄積部, 211…分類対象画像取得部, 212…特徴量抽出部, 213…一次識別結果算出部, 214…二次識別結果算出部, 215…意味ラベル付与部, 221…分類対象画像蓄積部, 222…画像辞書蓄積部, 223…データ蓄積部, 224…分類結果蓄積部, 225…閾値蓄積部

Claims (9)

  1. 指定の意味ラベルに対応する学習画像を取得する学習画像取得部と、
    前記学習画像から複数の特徴量種別ごとの特徴量を抽出する特徴量抽出部と、
    前記特徴量抽出部により抽出された複数の特徴量種別ごとの特徴量を利用した機械学習により、意味ラベルと複数の特徴量種別ごとの特徴量との各組み合わせに対応する画像辞書を生成する画像辞書生成部と、
    指定の意味ラベルにおける前記複数の特徴量種別ごとに対応して前記特徴量抽出部が抽出した特徴量と前記画像辞書生成部が生成した画像辞書とを利用して、前記複数の特徴量種別ごとに対応する前記学習画像についての一次識別結果を算出する一次識別結果算出部と、
    指定の意味ラベルと前記複数の特徴量種別ごとに対応する一次識別結果とに基づいて、前記複数の特徴量種別ごとに対応する重みを算出する重み算出部とを備え、
    前記学習画像取得部は、前記学習画像の取得にあたり、サムネイル化により縮小された画像のサイズよりも元のサイズが小さい画像と、アスペクト比が一定範囲を超えている画像とを除外するように選別された画像をサムネイル化した縮小画像を前記学習画像として取得し、前記学習画像としての正解画像と前記正解画像よりも多い不正解画像との比率が一定の範囲内となるように取得し、1つの正解画像と重複する他の正解画像について削除を行うことと、1つの不正解画像と重複する他の不正解画像について削除を行うことと、類似の意味ラベルが付与された画像の一定割合が不正解画像として含められるようにすることとのうち、少なくともいずれか1つを行い、
    前記特徴量抽出部は、格子状に分割された前記学習画像から、エッジヒストグラム、色ヒストグラム、色コレログラム、色モメント、及びウェーブレットテクスチャグリッドの特徴量種別ごとの特徴量を抽出し、
    前記重み算出部は、前記複数の特徴量種別ごとに対応する一次識別結果のそれぞれを正規化し、正規化された一次識別結果を前記重みの算出に利用する
    画像分類前処理装置。
  2. 前記特徴量抽出部は、指定の意味ラベルに対応付けられた閾値算出のための学習画像から複数の特徴量種別ごとの特徴量を抽出し、
    前記一次識別結果算出部は、抽出された特徴量と、指定の意味ラベルにおける前記複数の特徴量種別ごとに対応する画像辞書とを利用して、指定の意味ラベルにおける前記複数の特徴量種別ごとに対応する、前記閾値算出のための学習画像についての一次識別結果を算出し、
    前記一次識別結果算出部により算出された特徴量種別ごとに対応する一次識別結果を利用して、指定の意味ラベルにおける閾値算出のための学習画像についての二次識別結果を算出する二次識別結果算出部と、
    前記二次識別結果算出部により算出された二次識別結果を閾値と比較する閾値処理の結果の精度が目標値に到達するように前記閾値を算出する閾値算出部とをさらに備える
    請求項1に記載の画像分類前処理装置。
  3. 分類対象画像について、複数の特徴量種別ごとの特徴量を抽出する特徴量抽出部と、
    指定の意味ラベルにおける前記複数の特徴量種別ごとに対応して前記特徴量抽出部が抽出した特徴量と、請求項1又は2に記載の画像分類前処理装置によって生成された画像辞書のうち、指定の意味ラベルにおける前記複数の特徴量種別ごとに対応する画像辞書とを利用して、前記複数の特徴量種別ごとに対応する前記分類対象画像についての一次識別結果を算出する一次識別結果算出部と、
    前記一次識別結果算出部により算出された特徴量種別ごとに対応する一次識別結果を利用して、指定の意味ラベルにおける前記分類対象画像についての二次識別結果を算出する二次識別結果算出部と
    を備える画像分類装置。
  4. 前記二次識別結果算出部は、
    前記一次識別結果算出部により算出された一次識別結果と、請求項1又は2に記載の画像分類前処理装置により算出された重みとを利用した線形統合に基づいて二次識別結果を算出する
    請求項3に記載の画像分類装置。
  5. 前記二次識別結果算出部によって算出された二次識別結果と、請求項2に記載の画像分類前処理装置により算出された閾値とを比較し、比較結果が一定条件を満たした二次識別結果に対応する分類対象画像に前記指定の意味ラベルを付与する意味ラベル付与部をさらに備える
    請求項3又は4に記載の画像分類装置。
  6. 指定の意味ラベルに対応する学習画像を取得する学習画像取得ステップと、
    前記学習画像から複数の特徴量種別ごとの特徴量を抽出する特徴量抽出ステップと、
    前記特徴量抽出ステップにより抽出された複数の特徴量種別ごとの特徴量を利用した機械学習により、意味ラベルと複数の特徴量種別ごとの特徴量との各組み合わせに対応する画像辞書を生成する画像辞書生成ステップと、
    指定の意味ラベルにおける前記複数の特徴量種別ごとに対応して前記特徴量抽出ステップが抽出した特徴量と前記画像辞書生成ステップが生成した画像辞書とを利用して、前記複数の特徴量種別ごとに対応する前記学習画像についての一次識別結果を算出する一次識別結果算出ステップと、
    指定の意味ラベルと前記複数の特徴量種別ごとに対応する一次識別結果とに基づいて、前記複数の特徴量種別ごとに対応する重みを算出する重み算出ステップとを有し、
    前記学習画像取得ステップは、前記学習画像の取得にあたり、サムネイル化により縮小された画像のサイズよりも元のサイズが小さい画像と、アスペクト比が一定範囲を超えている画像とを除外するように選別された画像をサムネイル化した縮小画像を前記学習画像として取得し、前記学習画像としての正解画像と前記正解画像よりも多い不正解画像との比率が一定の範囲内となるように取得し、1つの正解画像と重複する他の正解画像について削除を行うことと、1つの不正解画像と重複する他の不正解画像について削除を行うことと、類似の意味ラベルが付与された画像の一定割合が不正解画像として含められるようにすることとのうち、少なくともいずれか1つを行い、
    前記特徴量抽出ステップは、格子状に分割された前記学習画像から、エッジヒストグラム、色ヒストグラム、色コレログラム、色モメント、及びウェーブレットテクスチャグリッドの特徴量種別ごとの特徴量を抽出し、
    前記重み算出ステップは、前記複数の特徴量種別ごとに対応する一次識別結果のそれぞれを正規化し、正規化された一次識別結果を前記重みの算出に利用する
    画像分類前処理方法。
  7. 分類対象画像について、複数の特徴量種別ごとの特徴量を抽出する特徴量抽出ステップと、
    指定の意味ラベルにおける前記複数の特徴量種別ごとに対応して前記特徴量抽出ステップが抽出した特徴量と、請求項1又は2に記載の画像分類前処理装置によって生成された画像辞書のうち、指定の意味ラベルにおける前記複数の特徴量種別ごとに対応する画像辞書とを利用して、前記複数の特徴量種別ごとに対応する前記分類対象画像についての一次識別結果を算出する一次識別結果算出ステップと、
    前記一次識別結果算出ステップにより算出された特徴量種別ごとに対応する一次識別結果を利用して、指定の意味ラベルにおける前記分類対象画像についての二次識別結果を算出する二次識別結果算出ステップと
    を有する画像分類方法。
  8. 請求項1又は2に記載の画像分類前処理装置としてコンピュータを機能させるためのプログラム。
  9. 請求項3から5のいずれか一項に記載の画像分類装置としてコンピュータを機能させるためのプログラム。
JP2014120783A 2014-06-11 2014-06-11 画像分類前処理装置、画像分類装置、画像分類前処理方法、画像分類方法及びプログラム Active JP6059686B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014120783A JP6059686B2 (ja) 2014-06-11 2014-06-11 画像分類前処理装置、画像分類装置、画像分類前処理方法、画像分類方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014120783A JP6059686B2 (ja) 2014-06-11 2014-06-11 画像分類前処理装置、画像分類装置、画像分類前処理方法、画像分類方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2016001387A JP2016001387A (ja) 2016-01-07
JP6059686B2 true JP6059686B2 (ja) 2017-01-11

Family

ID=55076958

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014120783A Active JP6059686B2 (ja) 2014-06-11 2014-06-11 画像分類前処理装置、画像分類装置、画像分類前処理方法、画像分類方法及びプログラム

Country Status (1)

Country Link
JP (1) JP6059686B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200051095A (ko) * 2018-11-02 2020-05-13 진영글로벌 주식회사 차량 전장용 디바이스

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6781950B2 (ja) * 2016-10-12 2020-11-11 オムロン株式会社 識別情報付与システム、識別情報付与方法、及びそのプログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3071841B2 (ja) * 1991-02-14 2000-07-31 株式会社リコー カテゴリー識別方式
JP3161107B2 (ja) * 1992-11-20 2001-04-25 富士ゼロックス株式会社 文字認識装置
JPH06274633A (ja) * 1993-03-22 1994-09-30 Nippon Telegr & Teleph Corp <Ntt> 特徴検出器生成装置および方法
JPH08320930A (ja) * 1995-05-24 1996-12-03 Toshiba Corp テクスチャ解析処理装置
JP2004013306A (ja) * 2002-06-04 2004-01-15 Nec Corp 類似度計算装置、インデックスデータ生成装置、映像または音声データベース装置、類似度計算方法、インデックスデータ生成方法、内容表現データ記憶装置、および、記録媒体
JP2005250771A (ja) * 2004-03-03 2005-09-15 Fuji Photo Film Co Ltd 対象物識別装置および方法並びにプログラム
JP4556891B2 (ja) * 2006-03-17 2010-10-06 ソニー株式会社 情報処理装置および方法、記録媒体、並びにプログラム
JP4989308B2 (ja) * 2007-05-16 2012-08-01 キヤノン株式会社 画像処理装置及び画像検索方法
JP4995770B2 (ja) * 2008-05-21 2012-08-08 日本電信電話株式会社 画像辞書生成装置,画像辞書生成方法,および画像辞書生成プログラム
JP5885583B2 (ja) * 2012-05-18 2016-03-15 三菱電機株式会社 目標類識別装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200051095A (ko) * 2018-11-02 2020-05-13 진영글로벌 주식회사 차량 전장용 디바이스
KR102152101B1 (ko) * 2018-11-02 2020-09-07 진영글로벌 주식회사 차량 전장용 디바이스

Also Published As

Publication number Publication date
JP2016001387A (ja) 2016-01-07

Similar Documents

Publication Publication Date Title
Joutou et al. A food image recognition system with multiple kernel learning
CN108596154B (zh) 基于高维特征选择与多级融合的遥感图像分类方法
US9342757B2 (en) Pattern recognition apparatus, method thereof, and program product therefor
Bencherif et al. Fusion of extreme learning machine and graph-based optimization methods for active classification of remote sensing images
JP2021517330A (ja) 画像中の物体を識別するための方法、及び当該方法を実施するためのモバイル装置
JP6341650B2 (ja) 画像処理装置、画像処理方法及びプログラム
JP2017157138A (ja) 画像認識装置、画像認識方法及びプログラム
Herdiyeni et al. Mobile application for Indonesian medicinal plants identification using fuzzy local binary pattern and fuzzy color histogram
JP6945253B2 (ja) 分類装置、分類方法、プログラム、ならびに、情報記録媒体
CN107480620A (zh) 基于异构特征融合的遥感图像自动目标识别方法
JP6937508B2 (ja) 画像処理システム、評価モデル構築方法、画像処理方法及びプログラム
CN111091147B (zh) 一种图像分类方法、装置及设备
CN104408733A (zh) 基于对象随机游走的遥感图像视觉显著性检测方法及系统
CN109034218B (zh) 模型训练方法、装置、设备及存储介质
Sujee et al. Image enhancement through pyramid histogram matching
JP6059686B2 (ja) 画像分類前処理装置、画像分類装置、画像分類前処理方法、画像分類方法及びプログラム
JP6546385B2 (ja) 画像処理装置及びその制御方法、プログラム
Sandoval et al. Crop classification using different color spaces and rbf neural networks
JP6017005B2 (ja) 画像検索装置、画像検索方法及びプログラム
KR20230071942A (ko) Cnn 알고리즘 역추적 방법 및 이를 위한 전자 장치
Al Shuaeba et al. Marigold blooming maturity levels classification using machine learning algorithms
JP5548508B2 (ja) 画像分類装置及びプログラム
Zhang et al. No-reference image quality assessment using independent component analysis and convolutional neural network
Mary et al. An optimized feature selection CBIR technique using ANN
JP6375778B2 (ja) 画像処理方法および画像処理装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151218

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160204

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160517

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160715

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161206

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161209

R150 Certificate of patent or registration of utility model

Ref document number: 6059686

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150