JP2009193183A

JP2009193183A - 画像辞書生成装置，画像辞書生成方法，画像辞書生成プログラムおよびその記録媒体

Info

Publication number: JP2009193183A
Application number: JP2008031210A
Authority: JP
Inventors: Yongqing Sun; 泳青孫; Satoshi Shimada; 聡嶌田; Yukinobu Taniguchi; 行信谷口
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2008-02-13
Filing date: 2008-02-13
Publication date: 2009-08-27
Anticipated expiration: 2028-02-13
Also published as: JP4964798B2

Abstract

【課題】画像に対して自動的に画像の意味を示すラベルを付与するときに用いる精度のよい画像辞書を生成することができるようにする。
【解決手段】ある意味に関する画像群を学習データとして収集しておく。領域分割部１０２は，学習データの各画像を特徴量に従って領域に分割し，代表領域クラスタ抽出部１０３は，分割によって得られた領域群に対してクラスタリングを行って，その中で意味をよく表現できる複数オブジェクトに対応する代表領域クラスタを抽出する。代表領域クラスタモデル学習部１０４は，各代表領域クラスタに含まれるサンプルを学習データとして代表領域クラスタモデルを構築し，重み付け係数算出部１０５は，代表領域クラスタモデルの意味に対する重要度を表す重み付け係数を算出する。これらの代表領域クラスタモデルと重み付け係数の情報を画像辞書として画像辞書記憶部１０６に格納する。
【選択図】図１

Description

本発明は，画像に対して自動的に画像の意味を示すラベルを付与するようなときに用いる画像辞書を生成する技術に係り，特に，画像の領域情報を用いて画像辞書を生成する装置，方法，プログラムおよびそのプログラムの記録媒体に関する。

従来の画像辞書生成方法として，次のような方法がある。

（１）まず，ある意味に関する画像群を学習データとして収集する。次に，学習データから色，テクスチャ，形状などの特徴量（Ｌ個）を別々に抽出する。最後に，学習手法を用いて，個々の特徴空間において特徴識別モデル（Ｌ個）を構築する。以上の処理により，学習データから求めた特徴識別モデル（Ｌ個）と各モデルの重み付け係数で構成した画像辞書を生成することができる（非特許文献１参照）。

（２）画像における画像の意味を表す基本単位は領域と考えられるので，まず，収集した学習データに対して領域分割を行う。次に，学習データの領域群におけるクラスタリングをし，領域数が最大となる領域クラスタを画像の意味を表す最大領域クラスタとして抽出する。最後に，最大領域クラスタから求めた領域モデルを学習することで画像辞書を生成することができる（非特許文献２参照）。

なお，非特許文献３には，本発明の実施例で用いることができる画像を領域分割する方法の一例が記載されている。
A.Yanagawa，S.-F.Chang，L.Kennedy ，and W.Hsu ，"Columbia University's Baseline detectors for 374 LSCOM Semantic Visual Concepts "，Columbia University ADVENT Technical Report #222-2006-8 ，March 20，2007. Yongqing Sun，Satoshi Shimada ，Masashi Morimoto，"Visual pattern discovery using web images "，ACM MIR workshop，2006． Yongqing Sun，Ｓhinji Ozawa ，"HIRBIR: A Hierarchical Approach for Region-based Image Retrieval"，ACM Multimedia Systems Journal，10(6): 559-569 (2005) ．

上記の非特許文献１に示されるような画像辞書生成方法は，学習データの画像全体に対する色，テクスチャ，形状などの物理特徴量を用いて画像辞書を求めるので，画像の物理的な特徴と画像の意味との対応関係を明確に規定できない。そのため，精度が低いという問題がある。

また，上記の非特許文献２にされるような画像辞書生成方法は，一つの領域クラスタだけで画像をモデル化しているので，複数の領域で構成される画像に対して，精度が悪くなる。例えば，“ビーチ”という画像の意味は，“海”，“太陽”，“砂”などの複数の代表オブジェクトを表した複数の代表領域の集合で表現されるので，一つのオブジェクト（例えば，海）に対応する領域モデルだけで“ビーチ”の意味を表現することは不十分である。

本発明は上記問題点の解決を図り，精度のよい画像辞書を生成する手段を提供することを目的とする。

画像の意味の表現には，以下の二つの観点がある。
（１）画像の意味を表した基本的な単位は画像の領域と考えられる。ここで，画像の領域は，実世界のオブジェクト（例：芝生，人，山など）に対応する。
（２）画像の意味は，画像における代表オブジェクトを表した複数の代表領域で表現される。

上記の点を踏まえて，本発明は，画像辞書の精度が低いという従来技術の問題を解決するために，学習データから意味をよく表現できる代表オブジェクトに対応する代表領域クラスタを抽出し，個々の代表領域クラスタに対して代表領域クラスタモデルを構築して，各代表領域クラスタモデルに適切な重み付け係数を求めることにより，複数の代表領域クラスタモデルとそれに対応する重み付け係数で構成した画像辞書を生成する手段を設ける。これにより，画像辞書の精度を向上させる。ここで，オブジェクトとは，画像中の意味的にまとまりのある撮像対象のことをいう。

具体的には，本発明は，ある意味に関する画像群を学習データとして取得する学習データ取得手段と，前記収集した学習データに対して領域を分割する領域分割手段と，前記領域分割手段で得られた学習データの領域群に対してクラスタリングを行って，意味をよく表現できる複数オブジェクトに対応する代表領域クラスタを抽出する代表領域クラスタ抽出手段と，前記抽出した各代表領域クラスタに対し，代表領域クラスタに含まれる画像サンプルを学習データとして代表領域クラスタモデルを構築する代表領域クラスタモデル学習手段と，前記複数の代表領域クラスタモデルの意味に対する重要度を表す重み付け係数を算出する重み付け係数算出手段とを用い，これらにより算出した情報から画像辞書を生成する。

本発明において，前記重み付け係数算出手段では，各代表領域クラスタに属する，代表領域クラスタの領域数と代表領域クラスタにおける分布のばらつきに基づいて，重み付け係数を算出することができる。

本発明では，学習データから画像の意味を表すオブジェクトに対応する複数の代表領域クラスタを抽出し，個々の代表領域クラスタに対して代表領域クラスタモデルを構築して，各代表領域クラスタに適切な重み付け係数を求めることにより，複数の代表領域クラスタモデルとそれに対応する重み付け係数で構成した画像辞書を生成する手段を設けることで，高精度な画像辞書を生成することができる。

本発明の実施の形態を以下に説明する。本発明の一実施形態に係る画像辞書生成装置の構成例を図１に示す。同図における画像辞書生成装置１０は，学習データ記憶部１００と，学習データ取得部１０１と，領域分割部１０２と，代表領域クラスタ抽出部１０３と，代表領域クラスタモデル学習部１０４と，重み付け係数算出部１０５と，画像辞書記憶部１０６とから構成される。各部の処理内容について，以下に説明する。

学習データ記憶部１００は，あらかじめ意味ラベルとそれに関連する画像を手動で収集し，それらを格納する。すなわち，学習データ記憶部１００には，多数の画像と各画像に対して人間が付与した意味ラベルとの対応情報が格納されている。学習データ記憶部１００は，学習データ取得部１０１から意味ラベルを指定した学習データ取得要求に対し，格納している画像群の中から，指定された意味ラベルを持つ画像を収集して，学習データとして学習データ取得部１０１へ出力する。

学習データ取得部１０１は，学習データ記憶部１００に意味ラベルを指定して学習データ取得要求を出すことにより，学習データ記憶部１００から同じ意味ラベルを持つ代表画像を学習データとして取得する。取得した学習データを領域分割部１０２へ出力する。

領域分割部１０２は，学習データ取得部１０１から意味に関する学習データを受け取ると，個々の画像に対して，領域分割を行う。全部の学習データから得られた領域で構成した領域群を代表領域クラスタ抽出部１０３へ出力する。

代表領域クラスタ抽出部１０３は，領域分割部１０２から学習データの領域群を受け取ると，領域群に対してクラスタリングを行い，画像の意味をよく表現できる代表的なオブジェクトに対応する複数の領域クラスタを代表領域クラスタとして抽出する。抽出した複数の代表領域クラスタを代表領域クラスタモデル学習部１０４へ出力する。この処理の詳細については，図３を用いて後述する。

代表領域クラスタモデル学習部１０４は，代表領域クラスタ抽出部１０３から複数の代表領域クラスタを受け取ると，学習手法により個々の代表領域クラスタに対して，代表領域クラスタモデルを求める。代表領域クラスタと求めた代表領域クラスタモデルを重み付け係数算出部１０５へ出力する。

重み付け係数算出部１０５は，代表領域クラスタモデル学習部１０４から代表領域クラスタと求めた代表領域クラスタモデルを受け取る。複数の代表領域クラスタを用いて，各代表領域クラスタの重要度に応じた重み付け係数を算出する。代表領域クラスタモデルと算出した重み付け係数を画像辞書記憶部１０６に出力する。この処理の詳細については，図４を用いて後述する。

画像辞書記憶部１０６は，重み付け係数算出部１０５より受け取った複数の代表領域クラスタモデルとそれらに対応付ける重み付け係数を画像辞書として記憶する。以上の構成により，画像辞書が生成できる。

次に，上記の構成における基本動作を説明する。図２は，本発明の一実施形態に係る画像辞書生成装置１０の基本動作を示すフローチャートである。

（１）ステップＳ２０１：学習データ取得部１０１は，ある意味に関する学習データを学習データ記憶部１００から取得する。

（２）ステップＳ２０２：次に，領域分割部１０２は，ステップＳ２０１で学習データ取得部１０１が取得した学習データに対して，領域分割を行う。領域分割の手法については，例えば非特許文献３に記載されているような従来の技術を用いればよい。領域分割の手法については種々の方法が知られているので，ここでの詳細な説明は省略する。

（３）ステップＳ２０３：代表領域クラスタ抽象部１０３は，ステップＳ２０２で得られた学習データの領域群において，意味をよく表現できる複数の代表的なオブジェクトに対応する代表領域クラスタを抽出する（図３により後述）。抽出された代表領域クラスタの個数をＭとする。また，抽出された各代表領域クラスタの番号（インデックス）をｍ（ｍ＝１，２，…，Ｍ）とする。

（４）ステップＳ２０４：代表領域クラスタモデル学習部１０４は，まずｍ＝１として，最初の代表領域クラスタを処理対象として選択する。

（５）ステップＳ２０５：代表領域クラスタモデル学習部１０４は，代表領域クラスタ毎に，クラスタに属する領域の特徴空間での分布をモデル化する。モデル化の実施例として，学習手法は“Gassian Bayes Classifier”を用いればよい。Gassian Bayes Classifierで求めた代表領域クラスタモデルに関するモデルパラメータは，
・特徴空間における学習データの平均ベクトルυ，
・特徴空間における学習データの分散共分散行列Σ，
であり，次のように算出される。

ｍ番目の代表領域クラスタに属する領域の個数をＬ個とする。これらの各領域の学習データから得られた特徴量をＸ_jとする（ｊ＝１，２，…，Ｌ）。特徴量Ｘ_jは，ｎ次元の特徴空間におけるベクトルデータとして表されるものである。

平均ベクトルυ：
υ＝Σ_j=1 ^L（Ｘ_j）／Ｌ
分散共分散行列Σ：
Σ＝｛Σ_j=1 ^L（Ｘ_j−υ）（Ｘ_j−υ）^T｝／Ｌ
ここで，Σ_j=1 ^Lｆ（ｊ）は，ｊ＝１からｊ＝Ｌまでのｆ（ｊ）の総和を表す。

（６）ステップＳ２０６：すべてのＭ個の代表領域クラスタにおいて，ステップＳ２０５の処理を行ったかを判定する。行っていなければ，ｍ＝ｍ＋１とし，次の代表領域クラスタについて，ステップＳ２０５の処理を繰り返す。Ｍ個の代表領域クラスタについて処理を終えたならば，ステップＳ２０７へ移行する。

（７）ステップＳ２０７：重み付け係数算出部１０５は，代表領域クラスタモデル学習部１０４がステップＳ２０５で求めた複数の代表領域クラスタモデルに対して，各代表領域クラスタモデルに対応付ける重み付け係数を算出する。具体的な算出方法の例は，図４を参照して後述する。

（８）ステップＳ２０８：ステップＳ２０７で得られたＭ個の代表領域クラスタモデルとそれらに各々対応付ける重み付け係数を，ある意味に関する画像辞書のデータベースとして画像辞書記憶部１０６に格納する。

図３は，代表領域クラスタ抽出部１０３の処理フローチャートであり，図２のステップＳ２０３の詳細な処理を示している。

（１）ステップＳ３０１：領域分割部１０２で検出した学習データの領域群を読み込む。

（２）ステップＳ３０２：領域毎に特徴量を抽出する。例えば，色ヒストグラムを領域の特徴量として抽出すればよい。

（３）ステップＳ３０３：クラスタリングを精度よく行うために，学習データの各領域から抽出した特徴量の正規化を行う。ここで，正規化は以下の手法で行えばよい。特徴空間はｎ次元であるとする。

学習データの画像を領域分割して得られたＲ個の各領域ｉ（ｉ＝１，２，…，Ｒ）の特徴量を（ｘ_i1，…，ｘ_is，…，ｘ_in），ｓ＝１，２，…，ｎとすると，それを正規化した特徴量（ｘ′_i1，…，ｘ′_is…，ｘ′_in）は，次式で求められる。

ｘ′_is＝｛ｘ_is−ｘ_min（ｓ）｝／｛ｘ_max（ｓ）−ｘ_min（ｓ）｝
ここで，ｘ_max（ｓ）は，Ｒ個の領域ｉの中でのｓ番目の特徴量の最大値，ｘ_min（ｓ）はＲ個の領域ｉの中でのｓ番目の特徴量の最小値である。

（４）ステップＳ３０４：正規化後の特徴空間において学習データの領域群に対して，適当なクラスタリング手法を用いてＮ個の領域クラスタに分類する。クラスタリング手法の一例として，従来技術のＦｕｚｚｙＫ−ｍｅａｎｓというアルゴリズムを用いることができる。クラスタリング手法としては，この他にも周知の種々の方法を用いることができる。クラスタリングは，基本的には特徴量が類似する領域群を反覆的または階層的に統合する処理である。

（５）ステップＳ３０５：次に，ステップＳ３０６からＳ３０９までを，各領域クラスタに対して繰り返すことにより，Ｎ個の領域クラスタから代表領域クラスタを選定する。このため，まず，ｎ＝１として，最初の領域クラスタを処理対象として選択する。

（６）ステップＳ３０６：ｎ番目の領域クラスタにおける領域の数が予め設定しておいた一定の閾値以上になっているかを判定し，閾値以上になっている場合には，ステップＳ３０７へ移行する。そうでなければ，ステップＳ３０９に移行する。

（７）ステップＳ３０７：領域クラスタにおける領域の平均面積が予め設定しておいた一定の閾値以上になるかを判定し，閾値以上になる場合，ステップＳ３０８へ移行する。そうでなければ，ステップＳ３０９へ移行する。

（８）ステップＳ３０８：現在処理対象となっているｎ番目の領域クラスタを，代表領域クラスタとして選定する。

（９）ステップＳ３０９：すべてのＮ個の領域クラスタにおいて上記ステップＳ３０６からＳ３０８までの処理を行ったかを判定する。未処理の領域クラスタがあれば，ｎ＝ｎ＋１として，ステップＳ３０６へ移行し，次の領域クラスタについて同様に処理を繰り返す。すべての領域クラスタに対して処理を行ったならば代表領域クラスタの抽出処理を終了する。

以上のステップＳ３０１からＳ３０９に至る処理により，Ｎ個の領域クラスタに対して領域クラスタの領域数と領域平均面積が予め設定した閾値以上になるＭ個の領域クラスタを代表領域クラスタとして抽出することができる。なお，ステップＳ３０７においては，領域平均面積ではなく，領域クラスタにおける全領域の面積を所定の閾値との比較対象としてもよい。また，領域の面積は，領域の画素数を単位とした値でもよく，また画像の全面積に対する領域の面積の割合として算出した値でもよい。

ここでは，代表領域クラスタを選定する条件として，領域クラスタにおける領域の数および領域の面積を用いたが，意味をよく表現できる複数オブジェクトに対応する領域クラスタを代表領域クラスタとするための条件として，さらに他の条件を用いてもよい。

図４は，重み付け係数算出部１０５の処理フローチャートであり，図２のステップＳ２０７の詳細な処理を示している。

（１）ステップＳ４０１：重み付け係数算出部１０５は，代表領域クラスタ（Ｍ個）を読み込む。

（２）ステップＳ４０２：Ｍ個の各代表領域クラスタに対する重み付け係数を算出するため，まずｍ＝１として，最初の代表領域クラスタを処理対象として選択する。

（３）ステップＳ４０３：代表領域クラスタにおける特徴量の分布のばらつきδ_mを求める。ばらつきδ_mの値の算出例としては，例えば以下の方法が挙げられる。

ｍ番目（ｍ＝１，２，…，Ｍ）の代表領域クラスタにおける各領域ｊ（ｊ＝１，２，…，Ｌ）の特徴量Ｘ_jを，（ｘ_j1，…，ｘ_js，…，ｘ_jn），ｓ＝１，２，…，ｎとする。

ｍ番目の代表領域クラスタのばらつきδ_mは，次式により算出される。

δ_m＝｛Σ_s=1 ⁿΣ_j=1 ^L（ｘ_js−μ_s）²｝／（ｎ×Ｌ）
μ_s＝Σ_j=1 ^L（ｘ_js）／Ｌ
（ただし，Σ_s=1 ⁿはｓ＝１からｎまでの総和，Σ_j=1 ^Lはｊ＝１からＬまでの総和を表す。）
なお，このばらつきδ_mの算出方法は一例であり，他に分散や標準偏差値等を用いることもできる。ばらつきδ_mは，代表領域クラスタに含まれる各領域の特徴量の平均値からのズレの量を表しているものであればよい。

（４）ステップＳ４０４：代表領域クラスタモデルの重み付け係数を算出する。代表領域クラスタの重み付けを算出するときに，二つの観点がある。
〔観点１〕代表領域クラスタに属する領域数が多ければ，画像の意味を表現するのに重要となる再現性の高いオブジェクトに対応するクラスタであると考えられる。
〔観点２〕ばらつきが小さい代表領域クラスタは，画像の意味の表現に重要となる代表的なオブジェクトに対応するクラスタと考えられる。例えば，“ｔｉｇｅｒ”という意味に関する画像群において，虎の頭，体というオブジェクトは再現性が高く，画像間の類似性が高いと考えられる。

以上の観点を鑑みると，ｍ番目（ｍ＝１，２，…，Ｍ）の代表領域クラスタに対応付ける重み付け係数ｗ_mは，ｍ番目の代表領域クラスタの領域数Ｌ_mとばらつきδ_mを用いて次式で算出できる。

ｗ_m＝（Ｌ_m／Σ_m=1 ^MＬ_m）×（ｅの−δ_m乗）
（５）ステップＳ４０５：すべてのＭ個の代表領域クラスタに対して，ステップＳ４０３，Ｓ４０４の処理を行ったかを判定する。行っていなければ，ｍ＝ｍ＋１として，ステップＳ４０３へ戻り，次の代表領域クラスタに対して同様に処理を繰り返す。すべて行ったならば，重み付け係数の算出処理を終了する。

図５は，学習データ記憶部１００に格納されている学習データの例を示している。学習データ記憶部１００には，予め収集されたある意味に関する画像データが多数格納されている。例えば，「虎」を表す意味ラベル“ｔｉｇｅｒ”毎に，図５（Ａ），（Ｂ）に示されるような種々の虎の画像データ（通常はカラー画像）が学習データ記憶部１００に多数格納されている。

図６は，図５（Ａ），（Ｂ）の意味ラベル“ｔｉｇｅｒ”を持つ画像データから，学習データ取得部１０１，領域分割部１０２，代表領域クラスタ抽出部１０３の処理によって得られた代表領域クラスタの例を示している。

図６（Ａ）は，図５（Ａ）の画像から得られた代表領域クラスタであり，黒で塗りつぶした部分以外の領域が，代表領域クラスタである。また，図６（Ｂ１），（Ｂ２）は，図５（Ｂ）の画像から得られた代表領域クラスタである。図５（Ｂ）の学習データでは，１枚の画像から複数の代表領域クラスタが得られている。

この代表領域クラスタの例から明らかなように，本発明では，代表領域クラスタを用い，画像の意味を“画像の中で広い領域を占め，かつ，頻繁に出てくる画像の構成要素の組み合わせ”で表現することを主要な特徴としている。

図７は，画像辞書記憶部１０６に記憶される画像辞書のデータ構造の例を示している。図７（Ａ）のように，画像辞書記憶部１０６には，代表オブジェクト数：Ｍと，Ｍ個の代表オブジェクトモデルｉ（ｉ＝１，２，…，Ｍ）のデータが格納される。各代表オブジェクトモデルｉのデータは，代表領域クラスタモデル学習部１０４で算出された平均ベクトルυ_iと分散共分散行列Σ_iのモデルパラメータである。また，重み付け係数ｗ_iは，重み付け係数算出部１０５で算出された重み付け係数である。

代表オブジェクト数は，ある意味に関する画像群から得られた代表領域クラスタの数である。代表領域クラスタは，画像中の特徴的な領域のかたまりであり，画像中に撮影されている何らかの意味のある対象（オブジェクト）に対応していると考えられる。そこで，ここでは代表領域クラスタの画像情報を代表オブジェクトと称している。

図６に示した代表領域クラスタの例では，“ｔｉｇｅｒ”に関する画像辞書として，画像辞書記憶部１０６には，図７（Ｂ）に示すような代表オブジェクト数（代表領域クラスタ数）と，図６（Ａ）の代表領域クラスタのモデルパラメータυ₁，Σ₁および重み付け係数ｗ₁と，図６（Ｂ１）の代表領域クラスタのモデルパラメータυ₂，Σ₂および重み付け係数ｗ₂と，図６（Ｂ２）の代表領域クラスタのモデルパラメータυ₃，Σ₃および重み付け係数ｗ₃などの情報が格納されることになる。

画像辞書生成装置１０で生成した画像辞書は，未知画像に対する意味ラベルの付与などに用いることができる。図８に，画像辞書を用いて未知画像に対して意味ラベルを付与する処理のフローチャートを示す。以下，図８に従って未知画像への意味ラベル付与の処理の流れを説明する。

（１）ステップＳ５０１：意味ラベル付与の対象となる新しい画像（未知画像という）を入力する。

（２）ステップＳ５０２：入力した未知画像を，画像辞書生成時における領域分割部１０２と同じ手法により領域分割する（図２のステップＳ２０２の説明を参照）。

（３）ステップＳ５０３：未知画像をＴ個の領域に分割したとする。その分割した各領域のｎ次元特徴空間における特徴量Ｒ_t（ｔ＝１，２，…，Ｔ）を抽出する。

（４）ステップＳ５０４：意味ラベルに応じて図７（Ａ）に示されるような情報が格納された，ある意味に関する画像辞書から代表オブジェクトモデルのモデルパラメータである平均ベクトルυ_m，分散共分散行列Σ_mおよび重み付け係数ｗ_m（ｍ＝１，２，…，Ｍ）を読み出す。

（５）ステップＳ５０５：読み出した代表オブジェクトモデルと未知画像との類似度Ｓｉｍを，次式に従って算出する。未知画像における各領域の特徴量を，Ｒ₁，Ｒ₂，…，Ｒ_t，…，Ｒ_Tとする。また，ある意味に関する画像辞書から読み出されたモデル情報が，（υ₁，Σ₁，ｗ₁），（υ₂，Σ₂，ｗ₃），…，（υ_m，Σ_m，ｗ_m），…，（υ_M，Σ_M，ｗ_M）であったとする。

式中，‖Σ_m‖はΣ_mのノルム，（Ｒ_t−υ_m）^Tは（Ｒ_t−υ_m）の転置行列，Σ_m ^-1はΣ_mの逆行列を表している。

（６）ステップＳ５０６：算出した類似度Ｓｉｍと予め設定された閾値とを比較し，類似度Ｓｉｍが閾値より大きければ，現在の画像辞書が持つ意味ラベルを未知画像に付与する。類似度Ｓｉｍが閾値より小さければ，意味ラベルは付与しない。

（７）ステップＳ５０７：他の意味ラベルを持つ画像辞書がある場合，ステップＳ５０４へ戻り，その画像辞書について同様に処理を繰り返す。

なお，上記処理において，意味ラベルに関連付けられたすべての画像辞書について類似度Ｓｉｍを算出し，その中で最大の類似度Ｓｉｍとなる画像辞書の意味ラベルを未知画像に付与するようにしてもよいし，最大の類似度Ｓｉｍがある閾値以上である場合にだけ，その意味ラベルを付与するような実施も可能である。

ここでは，画像辞書を未知画像への意味ラベル付与に用いる例を説明したが，例えば大量な画像群の中から「虎」の画像を検索するというような画像検索に，本発明により生成した画像辞書を用いることもできる。このときにも上記類似度Ｓｉｍの算出を行い，目的とする画像であるかどうかの判定を行う。

以上の画像辞書の生成処理は，コンピュータとソフトウェアプログラムとによって実現することができ，そのプログラムをコンピュータ読み取り可能な記録媒体に記録して提供することも，ネットワークを通して提供することも可能である。

本発明の一実施形態に係る画像辞書生成装置の構成例を示す図である。画像辞書生成装置の基本動作を示すフローチャートである。代表領域クラスタ抽出部の処理フローチャートである。重み付け係数算出部の処理フローチャートである。学習データの例を示す図である。代表領域クラスタの例を示す図である。画像辞書のデータ構造の例を示す図である。画像辞書の利用例を示すフローチャートである。

符号の説明

１０画像辞書生成装置
１００学習データ記憶部
１０１学習データ取得部
１０２領域分割部
１０３代表領域クラスタ抽出部
１０４代表領域クラスタモデル学習部
１０５重み付け係数算出部
１０６画像辞書記憶部

Claims

画像の意味の解析に用いる画像辞書を生成する画像辞書生成装置であって，
ある意味に関する意味ラベルが付与された画像群を学習データとして取得する学習データ取得手段と，
取得した学習データの画像を，画像の特徴量に基づいて複数の領域に分割する領域分割手段と，
前記領域分割手段で得られた学習データの領域群に対して類似する特徴量を持つ領域を統合することによりクラスタリングを行い，クラスタリング結果の領域クラスタの中から，少なくとも領域クラスタにおける領域の数または領域の面積を条件として含む所定の代表領域クラスタの選定条件に基づき，代表領域クラスタを抽出する代表領域クラスタ抽出手段と，
抽出した各代表領域クラスタに対し，代表領域クラスタに含まれる画像サンプルを学習データとして代表領域クラスタモデルを構築し，構築した代表領域クラスタモデルを表すモデルパラメータを出力する代表領域クラスタモデル学習手段と，
前記各代表領域クラスタモデルの意味に対する重要度を表す重み付け係数を，前記代表領域クラスタに属する領域群の特徴量に基づいて算出する重み付け係数算出手段とを備え，
前記学習データの画像群に付与された意味ラベル毎に，前記各代表領域クラスタモデルのモデルパラメータと前記重み付け係数とを画像辞書として格納する
ことを特徴とする画像辞書生成装置。
前記重み付け係数算出手段は，
前記各代表領域クラスタに属する領域群の領域の数と，該代表領域クラスタに属する領域群の特徴量の分布のばらつきに基づいて，前記領域の数が多いほど重み付け係数の値が大きく，前記ばらつきが大きいほど重み付け係数の値が小さくなるように重み付け係数を算出する
ことを特徴とする請求項１記載の画像辞書生成装置。
画像辞書生成装置が画像の意味の解析に用いる画像辞書を生成する画像辞書生成方法であって，
ある意味に関する意味ラベルが付与された画像群を学習データとして取得する学習データ取得過程と，
取得した学習データの画像を，画像の特徴量に基づいて複数の領域に分割する領域分割過程と，
前記領域分割過程で得られた学習データの領域群に対して類似する特徴量を持つ領域を統合することによりクラスタリングを行い，クラスタリング結果の領域クラスタの中から，少なくとも領域クラスタにおける領域の数または領域の面積を条件として含む所定の代表領域クラスタの選定条件に基づき，代表領域クラスタを抽出する代表領域クラスタ抽出過程と，
抽出した各代表領域クラスタに対し，代表領域クラスタに含まれる画像サンプルを学習データとして代表領域クラスタモデルを構築し，構築した代表領域クラスタモデルを表すモデルパラメータを出力する代表領域クラスタモデル学習過程と，
前記各代表領域クラスタモデルの意味に対する重要度を表す重み付け係数を，前記代表領域クラスタに属する領域群の特徴量に基づいて算出する重み付け係数算出過程とを有し，
前記学習データの画像群に付与された意味ラベル毎に，前記各代表領域クラスタモデルのモデルパラメータと前記重み付け係数とを画像辞書として格納する
ことを特徴とする画像辞書生成方法。
前記重み付け係数算出過程では，
前記各代表領域クラスタに属する領域群の領域の数と，該代表領域クラスタに属する領域群の特徴量の分布のばらつきに基づいて，前記領域の数が多いほど重み付け係数の値が大きく，前記ばらつきが大きいほど重み付け係数の値が小さくなるように重み付け係数を算出する
ことを特徴とする請求項３記載の画像辞書生成方法。
請求項３または請求項４記載の画像辞書生成方法を，コンピュータに実行させるための画像辞書生成プログラム。
請求項５記載の画像辞書生成プログラムを記録したコンピュータ読み取り可能な記録媒体。