JP6131723B2

JP6131723B2 - 情報処理装置、情報処理方法、プログラムおよび記録媒体

Info

Publication number: JP6131723B2
Application number: JP2013120922A
Authority: JP
Inventors: 聡史中村
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2012-11-26
Filing date: 2013-06-07
Publication date: 2017-05-24
Anticipated expiration: 2033-06-07
Also published as: JP2014123341A; US9519660B2; US20140149412A1

Description

本発明は、データ群をクラスタリングする情報処理装置、情報処理方法、プログラムおよび記録媒体に関する。

入力されたデータ群を解析するために、データ群を複数のクラスに分類するクラスタリング手法がある。例えば、特許文献１では、クラス数が既知でない場合でも適切にクラスタリングを行い、確率密度関数として混合ガウス分布を用いることにより、各クラスのばらつきが違う場合にも適切にクラスタリングを行っている。

しかし、一般的に利用されるクラスタリング手法であるＫ平均法や混合ガウス分布を用いた手法では次のような問題があった。
（１）クラス数を予め指定する必要がある。
データ群のクラス数が既知であることを前提としており、入力されたデータ群に対して最適なクラス数を選択することが困難である。
（２）初期値依存である。
Ｋ平均法では、データ群に対してまずランダムにクラスを割り当てるが、この結果としてクラスの初期配置に偏りが生じたり、データが割り当てられない空のクラスが生じたりする問題がある。

具体的に説明するために、１つの大きな分布と２つの小さな分布が順に並んだ１次元の分布を仮定する。データ群にランダムにクラスを割り当てると、クラスの初期配置が大きなピーク周辺に偏る可能性が高い。また、Ｋ平均法ではデータを最近傍のクラスに独占的に再割り当てするため、クラス中心はデータ数の多い分布に引っ張られる傾向にあり、このようなケースでクラスの配置が大きく改善する見込みはない。したがって、小さな分布同士が適切に分割されない懸念がある。これを回避するためにクラス中心の初期値をランダムに設定する方法もあるが、データが存在しない領域に設定されることで空のクラスが出現する恐れがある。
（３）再現性がない。
先述したように、Ｋ平均法では、データ群に対してまずランダムに初期クラスを割り当てる。したがって、この初期の割り振りが試行毎に異なるため、同じデータ群をクラスタリングする場合であっても毎回結果が異なってしまう。

なお、上記（２）と（３）は、Ｋ平均法について説明しているが、混合ガウス分布を用いた手法でもクラスの初期値の設定にＫ平均法を用いることが一般的であるため、同様の問題から無縁ではない。

本発明は上記した課題に鑑みてなされたもので、
本発明の目的は、データ群のクラスタリングに際して、既にクラスタリングされている類似するデータ群のモデルパラメータに基づいて初期値を決定し、この初期値を実際のデータ群に合わせて更新することで最適なクラスタリング結果を得る情報処理装置、情報処理方法、プログラムおよび記録媒体を提供することにある。

本発明は、所定のデータ群から算出される特徴量がつくる特徴空間における前記データ群の確率密度分布を、複数の分布の重ね合せである混合分布モデルを用いてクラスタリングする情報処理装置であって、既にクラスタリングが行われたデータ群（以下、参照データ群）と、前記クラスタリングに用いられた混合分布のモデルパラメータ（以下、参照パラメータ）とを対応付けて記録する記録手段と、処理対象のデータ群に類似する参照データ群を前記記録手段から検索し、類似する参照データ群に対応する参照パラメータを取得する検索手段と、前記取得された参照パラメータに基づいて混合分布のモデルパラメータの初期値を決定する決定手段と、前記混合分布のモデルパラメータの初期値を、前記処理対象のデータ群の確率密度分布に応じて更新する更新手段と、前記更新されたモデルパラメータに基づいて前記処理対象のデータ群の確率密度分布をクラスタリングするクラスタリング手段を備えたことを最も主要な特徴とする。

本発明によれば、データ群のクラスタリングに際して、既にクラスタリングされて記録されているデータ群の中から類似するデータ群を検索し、類似するデータ群をクラスタリングする際に用いられたモデルパラメータに基づいてモデルパラメータの初期値を決定し、この初期値を実際のデータ群に合わせて更新することで最適なクラスタリング結果を得ることができる。

本発明の実施例１の情報処理装置の構成を示す。実施例１の処理フローチャートを示す。参照パラメータを合成する際の対応付け方法の例を示す。実施例２の情報処理装置の構成を示す。実施例２の処理フローチャートを示す。本発明の概要を説明する図である。実施例３の情報処理装置の構成を示す。実施例３の処理フローチャートを示す。実施例３の画面表示の例を示す。

以下、発明の実施の形態について図面により詳細に説明する。本発明の概要を図により具体的に説明する。ここでは視覚的な分かりやすさを優先し、２次元の特徴空間におけるデータ群を用いて説明するが、特徴空間は１次元であっても良いし、３次元以上であっても良い。

図６（ａ）は、入力データ群の例を示し、楕円で示す３つの分布５０１〜５０３が重なりを持って存在している。図６（ｂ）、（ｃ）は、従来技術によりクラスタリングした例を示す。図６（ｂ）、（ｃ）では、実線の楕円がクラスタリング結果を表し、破線の楕円が入力データ群を表す。また、×印は各クラスの中心位置を示し、クラスタリング開始時には初期値の位置に相当する。

図６（ｂ）では、初期値はランダムに実際のクラス数と同じだけ与えられ、何れの初期値も入力データ群の内部に存在している場合に、クラスタリングを行った例である。入力データ群の分布が重なっていることから、分割すべき位置を誤り、この影響で実際の分布とは異なるクラスタリング結果５０１ａ〜５０３ａ生成している。図６（ｃ）でも初期値は実際のクラス数と同じだけ与えられるが、ランダムに与えられたため、１つの初期値５０４が入力データ群の存在しない場所に設定された例である。この初期値が代表するクラスには、クラスタリング開始時に要素が含まれないことから、空のクラスとなってしまう。このため、３つの分布を実質的に２つのクラスにクラスタリングしてしまい、適切でないクラスタリング結果５０１ｂ、５０３ｂを生成している。

本発明では次の手順によりクラスタリングを行う。
（１）入力データ群と類似する参照データ群を検索する。
入力データ群と所定の観点で類似すると判断される参照データ群をデータベースから検索する。参照データ群は事前に適切にクラスタリングされた上でデータベースに登録されているものとする。検索により取得された参照データ群６０１〜６０３の例を図６（ｄ）に示す。この参照データ群６０１〜６０３と入力データ群５０１〜５０３とを比較すると分かるように、それぞれ３つの分布から構成され、概ね似たような形状と分布の重なり方をしている。

（２）参照パラメータを取得し、入力データ群の初期値に設定する。
図６（ｄ）の×印で示す、参照データ群６０１〜６０３のクラスタリング結果である参照パラメータを取得する。参照パラメータが内包する情報の例としては、データ群を構成する分布の数（クラス数）、各分布の中心位置、各分布の広がりの情報などが挙げられる。入力データ群と参照データ群の分布は類似しているため、参照データ群のクラスタリング結果（参照パラメータ）は入力データ群の理想的なクラスタリング結果に近いことが予想される。そこで、参照パラメータを入力データ群の初期値に設定する。

（３）入力データ群をクラスタリングする。
設定された初期値を用いて入力データ群５０１〜５０３をクラスタリングする。図６（ｅ）の５０１ｃ〜５０３ｃは、クラスタリング結果を示す。前述したように、設定された初期値は入力データ群の理想的なクラスタリング結果に近いことから、初期値を微調整することでクラスタリングが可能となる。したがって、大域最適解の近傍から探索が開始されるため、従来技術のように、局所解に落ちるリスクが低減されることが期待できる。

実施例１は、データ群として画像（２次元のデータ群）を、個々のデータとして画像を構成する画素または画素群とし、画像の領域をクラスタリングする実施例である。

図１は、本発明の実施例１の情報処理装置の構成を示す。図１において、１０１は画像の入力を受け付ける画像入力部、１０２は入力画像を解析し、特徴量を算出する画像解析部、１０３は入力画像と特徴量を記憶する記憶部、１０４は更新されたモデルパラメータに基づいて入力画像の確率密度分布をクラスタリングするクラスタリング部、１０５はクラスタリング結果を出力する結果出力部、１０６は入力画像に類似する参照画像を記録部から検索する類似画像検索部、１０７は参照画像の類似度とその参照パラメータを用いてモデルパラメータの初期値を決定する初期パラメータ決定部、１０８はモデルパラメータの初期値を入力画像に合わせて更新するパラメータ更新部、１０９は参照画像とその特徴量、並びにクラスタリング時に用いた混合分布のモデルパラメータ（参照パラメータ）を記録する記録部、１１０はネットワークバスである。

図２は、実施例１の処理フローチャートを示す。
（１）クラスタリングする画像を入力する（Ｓ２０１）。
画像入力部１０１からクラスタリングを行う対象である入力画像を入力する。入力画像は予めＣＤ、ＤＶＤ、ＨＤＤなどの記録メディアに保存されているものを読み出しても良いし、図示しないスキャナなどで原稿を読み取っても良い。

（２）入力画像の特徴量を算出する（Ｓ２０２）。
画像解析部１０２は入力画像の特徴量を算出し、記憶部１０３に記憶する。この特徴量を用いてクラスタリングを行う特徴空間を張る。特徴量の例としては次のようなものが挙げられる。
（ａ）色：ＲＧＢ値、ＣＩＥ−ＸＹＺ値、ＣＩＥ−Ｌａｂ値など
（ｂ）形状の記述子：ＳＩＦＴ、ＳＵＲＦ、ＨｏＧなど
（ｃ）テクスチャの記述子：ＬｏｃａｌＢｉｎａｒｙＰａｔｔｅｒｎ（ＬＢＰ）、Ｈａｒｒ−ｌｉｋｅ特徴など
どの特徴量を用いるか、どのような観点で入力画像をクラスタリングするかに依存するため、クラスタリングの目的に応じてユーザが適切な特徴量並びに特徴空間を選択すればよい。また、画素値をそのまま特徴量として利用しても良い。

入力画像の画素または画素群に対応する特徴量をこの特徴空間にマップ（写像）することで、モデル化の対象となる確率密度分布が構築される。特徴空間としてＣＩＥ−Ｌａｂ空間を選択した場合には、３次元の確率密度分布となる。尚、確率密度分布は後段の計算を簡略化するために、主成分分析などを用いて次元を圧縮したり、より低次元の確率密度分布の組み合わせとして表現したりしても良い。例えば３次元の確率密度分布を３つの１次元の分布の重ね合わせとして近似的に表現することもできる。

（３）類似する参照画像を検索する（Ｓ２０３）。
類似画像検索部１０６は入力画像と類似する参照画像を記録部１０９から検索する。例えば、入力画像の特徴量と参照画像の特徴量に基づいて類似度（距離など）を算出し、類似度の高い参照画像を検索する。このような類似画像検索技術は、例えば特許４３４０３６７号など公知のものを用いればよい。尚、類似画像検索に用いる特徴量は、先述したクラスタリングに用いるものと同じであっても良いし、別のものであっても良い。更に、画像に起因する特徴量だけでなく、特徴空間における確率密度分布を特徴付ける特徴量を新たに導出して、入力画像と参照画像との間の類似度を測っても良い。類似する参照画像が見つかった場合には（Ｓ２０４でＹｅｓ）、Ｓ２０５に進み、見つからなかった場合には（Ｓ２０４でＮｏ）、Ｓ２０９に進む。

クラスタリングに用いる特徴量と参照データの検索に用いる特徴量を分けるメリットを説明する。クラスタリングに用いる特徴量と類似画像検索に用いる特徴量とを別個のものとする例としては、前者にＲＧＢ値などの色を用い、後者に形状やテクスチャの記述子を用いるものが挙げられる。これは一般的に行われている、画像を色領域に分割することに相当する。具体的には、風景画において青色の領域を空、緑色の領域を草、橙色の領域を土として分割することが考えられる。

類似する参照画像の検索に際して用いる特徴量として、形状やテクスチャの記述子を利用することが望ましい。これは、画像中の画素間の空間的な位置関係や関連性を類似画像検索に利用できるためである。例えば、画像中の各画素をＲＧＢ空間にデータ点としてプロットすると画素間の隣接関係が失われてしまうため、データ群の特徴量では画像の内容に関する情報を表現することができない。これに対し、形状やテクスチャの記述子を利用することで、画像の内容に関する情報を、画像同士の類似性の評価に利用することができる。

記録部１０９では、参照画像と参照パラメータとを対応付けて記録しても良いし、参照画像の特徴量と参照パラメータとを対応付けて記録しても良い。特徴量は画像から求められ、この画像を一意に特定する情報であることから、参照パラメータと対応付けて記憶するのは参照画像自体であっても良いし、そこから導出された特徴量で代替しても良い。

参照画像を利用するメリットの例は次の通りである。
・参照画像を記録部に登録した後に特徴量の種類を変更することが可能である。
・参照画像を画面に表示してユーザに提示することができる。
前者は画像そのものという完全な情報が存在すれば、特徴量はいつでも再計算可能であることに起因している。

一方、参照画像から求められた特徴量を利用するメリットの例は次の通りである。
・参照画像よりも特徴量の方がコンパクトな表現であるため、記録部の容量を削減できる。
・類似画像検索に際しては必ず特徴量を計算するため、検索のたびに特徴量を再計算する手間を省ける。
無論、参照画像とそこから求めた特徴量との両方を参照パラメータと対応付けて記録しても良い。

（４）参照パラメータを取得する（Ｓ２０５）。
類似する参照画像が見つかれば、記録部１０９から類似する参照画像に対応付けて記録されている参照パラメータを読み出す。参照パラメータは参照画像をクラスタリングする際に用いられたモデルパラメータである。混合分布として混合ガウス分布を用いる場合には、モデルパラメータはクラス数Ｋと、各クラスを表すガウス分布のパラメータ（平均μ、分散ｓ、混合重みｗ）から構成される。仮に特徴空間が３次元であれば平均μは３次元ベクトル、分散ｓは３×３の行列（共分散行列）、混合重みｗはスカラー量である。尚、分散ｓは行列の対角成分のみを抽出した３次元ベクトルを用いても良い。また、３次元の特徴空間を３つの１次元の重ね合わせとして表現するのであれば、平均μ、分散ｓ、混合重みｗは何れもスカラー量となり、この組が１つのガウス分布に付き３つ必要となる。参照パラメータは事前に手作業でクラスタリングを行って作成してもよいし、以前にクラスタリングを行った結果を蓄積しても利用しても良い。

（５）参照パラメータを合成してモデルパラメータの初期値を決定する（Ｓ２０６）。
初期パラメータ決定部１０７は、類似する参照画像の参照パラメータを、類似度を用いて合成してモデルパラメータの初期値を決定する。合成方法としては、
（ａ）最も類似度の高い参照画像の参照パラメータを採用する方法
入力画像が参照画像と等しいと仮定して、該当する参照画像の参照パラメータをそのまま流用する方法である。最も単純な手法で、前述の仮定が成立するケースで最も高い効果を発揮する。
（ｂ）予め設定された閾値を超える類似度を持つ参照画像に対応する参照パラメータを算術平均する方法
入力画像を複数の類似する参照画像の組み合わせとして表現する方法の中で、最も単純な方法である。入力画像と極めて近い参照画像が存在しないケースであっても、複数の類似する参照画像を用いて代替することで、比較的安定した結果が得られる。
（ｃ）参照パラメータに類似度を重みとして重畳して加重平均する方法
入力画像を複数の類似する参照画像の組み合わせとして表現する方法の中で、入力画像に類似する参照画像ほど大きな影響を及ぼすように調整された合成方法である。算術平均を行うよりも計算の複雑度は高い反面、安定性と精度の向上が期待できる。
などが考えられる。尚、複数の参照パラメータを合成するためには、各参照画像の確率密度分布をモデル化した混合分布の各分布同士を画像間で対応付ける必要がある。この対応付けは次のように行えばよい。

・分布の対応付け方法
混合分布では複数の分布が存在するため、複数の参照画像の参照パラメータを合成する際にはある参照画像の分布を別の参照画像のどの分布と対応付けるかが課題となる。このようなケースでは、次のような対応付け方が例示できる。
（ａ）分布の中心が最も近いものを対応付ける
参照画像Ａの分布群｛ａ１，…，ａｋ｝と参照画像Ｂの分布群｛ｂ１，…，ｂｋ｝との間の中心間の距離を求め、最も近い分布同士を合成する方法である。分布間の距離はユークリッド距離など既知の技術を用いればよい。
（ｂ）分布を所定の基準で並べて同じ順位のものを対応付ける
参照画像Ａの分布群｛ａ１，…，ａｋ｝と参照画像Ｂの分布群｛ｂ１，…，ｂｋ｝を所定の基準でソートし、１番目の分布同士、２番目の分布同士、と順に対応付ける方法である。一例を挙げれば、特徴空間がＣＩＥ−Ｌａｂ空間であるケースで明度の大きさで分布を並べ替えた上で、同じ順位の分布を対応付けるケースが考えられる。尚、（ａ）と（ｂ）の中間的な方法として、同程度の明度の分布を対応付け方法も考えられる。

・クラス数が異なる場合の対応付け方法
参照画像の間でクラス数が異なる場合には、次のような対応付け方が例示できる。
（ａ）最もクラス数の多い参照画像を基準にして前述の方法で分布間を対応付ける
基準とする参照画像を除けば、必ず他の参照画像の分布は基準とする参照画像の分布のいずれかに対応付けが成されるアプローチである。クラス数は変動しない。
（ｂ）最もクラス数の少ない参照画像を基準にして前述の方法で分布間を対応付ける
基準とする参照画像を除けば、必ず他の参照画像の分布は基準とする参照画像の分布のいずれかに対応付けがなされるアプローチである。クラス数は変動しない。
（ｃ）分布の中心が近いものを対応付けつつ、対応づかないものはそのまま残す（ＯＲを取るイメージ）
分布の中心間の距離が最も近いものを対応付けつつ、所定の閾値を超える分布は対応付けずに単に追加していくアプローチである。クラス数は対応付けの過程で増加する場合がある。
（ｄ）分布の中心が近いものを対応付けつつ、対応づかないものは削除する（ＡＮＤを取るイメージ）
分布の中心間の距離が最も近いものを対応付けつつ、所定の閾値を超える分布は対応付けずに無視するアプローチである。クラス数は対応付けの過程で減少する場合がある。
（ｅ）分布の中心が近いものを対応付け、最終的に合成された分布の数が所定の閾値を超える分布のみを採用する
（ｃ）と近いアプローチであるが、各分布に対して対応付けられた分布の数を管理し、これが閾値を超える（頻繁に対応付けが行われた）分布のみを残すアプローチである。
分布の中心の距離に基づいて対応付けるケースを例に図３に基づいて説明する。参照画像Ａ（クラス数５）の分布｛ａ１，ａ２，ａ３，ａ４，ａ５｝と、参照画像Ｂ（クラス数４）の分布｛ｂ１，ｂ２，ｂ３，ｂ４｝があったとする。尚、説明の都合上、各分布は１次元で表現しており、また、分布間の重なりはないものとしている。

（ａ）のアプローチでは、クラス数の多い参照画像Ａを基準とし、分布｛ａ１，ａ２，ａ３，ａ４，ａ５｝に分布｛ｂ１，ｂ２，ｂ３，ｂ４｝を対応付ける。このとき、分布の中心の距離が最も近いものと対応付けると、ｂ１はａ２と、ｂ２はａ３と、ｂ３はａ４と、ｂ４はａ５と、それぞれ対応付けられ、最終的に５クラスとなる。

逆に（ｂ）のアプローチでは、クラス数の少ない参照画像Ｂを基準とし、分布｛ｂ１，ｂ２，ｂ３，ｂ４｝に分布｛ａ１，ａ２，ａ３，ａ４，ａ５｝を対応付ける。このとき、分布の中心の距離が最も近いものと対応付けると、ａ１とａ２はｂ１と、ａ３はｂ２と、ａ４はｂ３と、ａ５はｂ４と、それぞれ対応付けられ、最終的に４クラスとなる。

また、（ｃ）のアプローチでは、ａ２とｂ１、ａ３とｂ２、ａ４とｂ３が対応付けられるが、ａ１、ａ５、ｂ４は最も近い分布との距離が閾値を超えるため対応付けられず、最終的に６クラスとなる。一方、（ｄ）のアプローチでは（ｃ）と同様の対応付けの結果、対応付けが行われなかった３つは削除され、最終的に３クラスとなる。更に、（ｅ）のアプローチでは（ｃ）と同様の対応付けが行われ、仮に対応付けられた分布数の閾値を２以上とすれば、（ｄ）と同じ結果となる。

上記した方法以外にも合成方法は考えられる。まず入力画像と参照画像との類似度に、特徴空間における確率密度分布の形状の類似度を含め、この類似度が最も高い参照画像の参照パラメータのクラス数を用い、分布のモデルパラメータは先述した方法を用いるアプローチも考えられる。つまり、クラス数と分布のモデルパラメータを別の基準で決定するものである。

（６）モデルパラメータの初期値をランダムに決定する（Ｓ２０９）。
類似する参照画像が見つからなければ、初期パラメータ決定部１０７において従来技術と同様にモデルパラメータの初期値をランダムに決定する。

（７）モデルパラメータを更新する（Ｓ２０７）。
パラメータ更新部１０８は、前ステップで得られたモデルパラメータの初期値を、入力画像の特徴空間における確率密度分布に合わせて更新する。更新方法は従来技術を用いればよく、一例としてはＥＭアルゴリズムが挙げられる。

（８）クラスタリング結果を出力する（Ｓ２０８）。
クラスタリング部１０４は、前ステップで得られたモデルパラメータに基づいて、特徴空間における確率密度分布をクラスタリングし、その結果を結果出力部１０５から出力する。出力する内容はクラスタリング結果の利用方法に応じて決定すればよく、例示すればモデルパラメータの値でも良いし、各画素とクラスとの対応関係のリストでも良いし、入力画像を特徴空間におけるクラスタリング結果に応じて分割した結果を画像として出力しても良い。

クラスタリング結果を画像の形で出力する方法は次のようなものが例示できる。
（ａ）ラベルマップ
入力画像と同じサイズのクラス番号を管理する画像（ラベルマップ）を用意し、入力画像の各画素が属するラベルの識別子をラベルマップの対応する画素に記録するものである。
（ｂ）２値マップ
入力画像と同じサイズの画像（マップ）をクラス数だけ用意し、各クラスについて入力画像のある画素がそのクラスに属すればマップの対応する画素に１を、そうでなければ０を記録するものである。尚、２値マップに記録される値は０と１に限定されるわけではなく、クラスへの帰属の有無が判別できればどのような値を用いても良い。
（ｃ）多値マップ
入力画像と同じサイズの画像（マップ）をクラス数だけ用意し、各クラスについて入力画像の各画素がそのクラスに属する確率をマップの対応する画素に記録するものである。一般にマップは０から１までの範囲の値を取り、全てのマップについて同じ画素の値を累積すると１になる。但し、多値マップの設計の仕方しだいではこの条件を満たさない場合もある。

実施例１を画像の領域分割に適用する具体例を説明する。本実施例の具体的な適用例として、画像の領域分割が挙げられる。領域分割とは、画像を複数の意味的なまとまりに分解する処理のことであり、例えば風景画像を空、山、森、湖などの領域に分けるシナリオが想定できる。領域分割を色に基づいて行うケースを考えれば、この問題は色を特徴量とする特徴空間におけるデータ群（画素群）の分布のクラスタリングと見なすことができる。

仮に、空は青色、山は明るい緑色、森は深い緑色、湖は明るい青色であったとする。一つの領域と判断されるべき領域の大きさは、画像の種類や領域分割の目的に依存するものの、ここでは上記単位で分割するものとする。モデル分布の初期値として、ランダムな値や事前に定義された色カテゴリ（赤、青、黄、緑、など）ごとの代表値を用いると、同じ系統の色である空と湖、山と森が同じ領域として切り出されてしまう場合や、逆に同じ領域として分割されるべきものが複数の領域に分かれてしまう場合がある。前者を過統合、後者を過分割と呼ぶ。

前述したように、一つの領域として区分されるべき領域の大きさや最終的に得たい領域数は、様々な要因により決定されるため、自動的に同定することは困難である。本発明では、この問題を過去に領域分割がなされた画像（参照画像）をヒントにすることで解消する。類似する画像には類似する領域分割結果が期待されていると考えることができる。そこで、参照画像の領域分割結果（参照パラメータ）を入力画像の領域分割に流用することで、不確かな情報を過去の事例から補うことができる。

前述した風景画像の領域分割の例において、過去に似たような構図で撮影された風景画像を青色の空、明るい緑色の山、深い緑色の森、明るい青色の川に分割していたとする。類似画像検索によりこの参照画像が得られれば、入力画像の初期値として、空には参照画像の空の青、山には参照画像の山の緑、森には参照画像の森の深緑、そして湖には参照画像の川の水色を、それぞれ設定することができ、且つ最終的な領域数は４つであると判断できる。これにより過分割や過統合などの問題を回避して、高精度な領域分割が可能となる。無論、前述した方法で複数の参照画像を合成して初期値を決定しても用いても良い。

画像の領域分割を部分領域ごとに行う例を説明する。上記した画像の領域分割における類似画像検索を用いたモデルパラメータの流用は、画像の部分領域に対しても適用可能である。類似画像検索で得られる参照画像は、入力画像と完全に構図の一致したものとは限らない。仮に入力画像が参照画像の一部分に対応づく場合には、参照パラメータはそのまま流用しても多くの場合に問題は生じないが、逆のケースでは問題が生じる可能性がある。このようなケースでは、例えば入力画像のうち参照画像と対応づく範囲のみを前述の方法で参照パラメータを活用して分割し、残った範囲について再度類似する参照画像を検索して前述の方法で分割し、これを繰り返すことで入力画像全体に渡る領域分割を行うという、代替手段が考えられる。また、入力画像を部分的にカバーする複数の参照画像の参照パラメータを統合して、クラスタリングの初期値に設定する方法も考えられる。モデルパラメータの統合方法は前述した方法を利用すれば良い。

実施例２は、データ群をデータ列（１次元のデータ群）とし、これをクラスタリングする実施例である。図４は、実施例２の情報処理装置の構成を示す。図４において、３０１はデータ列の入力を受け付けるデータ列入力部、３０２は入力データ列を解析し、特徴量を算出するデータ列解析部、３０３は入力データ列と特徴量を記憶する記憶部、３０４は更新されたモデルパラメータに基づいて入力データ列の確率密度分布をクラスタリングするクラスタリング部、３０５はクラスタリング結果を出力する結果出力部、３０６は入力データ列に類似する参照データ列を記録部から検索する類似データ列検索部、３０７は参照データ列の類似度とその参照パラメータを用いてモデルパラメータの初期値を決定する初期パラメータ決定部、３０８はモデルパラメータの初期値を入力データ列に合わせて更新するパラメータ更新部、３０９は参照データ列とその特徴量、並びにクラスタリング時に用いた混合分布のモデルパラメータ（参照パラメータ）を記録する記録部、３１０はネットワークバスである。

図５は、実施例２の処理フローチャートを示す。
（１）クラスタリングするデータ列を入力する（Ｓ４０１）。
データ列入力部３０１からクラスタリングを行う対象である入力データ列を入力する。入力データ列は予めＣＤ、ＤＶＤ、ＨＤＤなどの記録メディアに保存されているものを読み出しても良い。

（２）入力データ列の特徴量を算出する（Ｓ４０２）。
データ列解析部３０２は入力データ列の特徴量を算出し、記憶部３０３に記憶する。この特徴量を用いてクラスタリングを行う特徴空間を張る。特徴量の例としては次のようなものが挙げられる。
（ａ）データの値そのもの
（ｂ）データの勾配
どの特徴量を用いるか、どのような観点で入力データ列をクラスタリングするかに依存するため、クラスタリングの目的に応じてユーザが適切な特徴量並びに特徴空間を選択すればよい。入力データ列のデータまたはデータ群に対応する特徴量をこの特徴空間にマップすることで、モデル化の対象となる確率密度分布が構築される。

（３）類似する参照データ列を検索する（Ｓ４０３）。
類似データ列検索部３０６は入力データ列と類似する参照データ列を記録部３０９から検索する。類似データ列検索技術はハミング距離やレーベンシュタイン距離など公知のものを用いればよい。尚、類似データ列検索に用いる特徴量は、先述したクラスタリングに用いるものと同じであっても良いし別のものであっても良い。類似する参照データ列が見つかった場合には（Ｓ４０４でＹｅｓ）、Ｓ４０５に進み、見つからなかった場合には（Ｓ４０４でＮｏ）、Ｓ４０９に進む。

（４）参照パラメータを取得する（Ｓ４０５）。
類似する参照データ列が見つかれば、記録部３０９から類似する参照データ列に対応付けて記録されている参照パラメータを読み出す。参照パラメータは参照データ列をクラスタリングする際に用いられたモデルパラメータである。混合分布として混合ガウス分布を用いる場合には、モデルパラメータはクラス数Ｋと、各クラスを表すガウス分布のパラメータ（平均μ、分散ｓ、混合重みｗ）から構成される。参照パラメータは事前に手作業でクラスタリングを行って作成してもよいし、以前にクラスタリングを行った結果を蓄積しても利用しても良い。

（５）参照パラメータを合成してモデルパラメータの初期値を決定する（Ｓ４０６）。
初期パラメータ決定部３０７は、類似する参照データ列の参照パラメータを、類似度を用いて合成する。合成方法としては、
（ａ）最も類似度の高い参照データ列の参照パラメータを採用する方法
入力データ列が参照データ列と等しいと仮定して、該当する参照データ列のモデルパラメータをそのまま流用する方法である。最も単純な手法で、前述の仮定が成立するケースで最も高い効果を発揮する。
（ｂ）予め設定された閾値を超える類似度を持つ参照データ列に対応する参照パラメータを算術平均する方法
入力データ列を複数の類似する参照データ列の組み合わせとして表現する方法の中で、最も単純な方法である。入力データ列と極めて近い参照データ列が存在しないケースであっても、複数の類似する参照データ列を用いて代替することで、比較的安定した結果が得られる。
（ｃ）参照パラメータに類似度を重みとして重畳して加重平均する方法
入力データ列を複数の類似する参照データ列の組み合わせとして表現する方法の中で、入力データ列に類似する参照データ列ほど大きな影響を及ぼすように調整された合成方法である。算術平均を行うよりも計算の複雑度は高い反面、安定性と精度の向上が期待できる。
などが考えられる。尚、複数の参照パラメータを合成するためには、各参照データ列の確率密度分布をモデル化した混合分布の各分布同士をデータ列間で対応付ける必要がある。この分布の対応付けに関しては、実施例１で説明した方法を実施すればよい。

（６）モデルパラメータの初期値をランダムに決定する（Ｓ４０９）
類似する参照データ列が見つからなければ、初期パラメータ決定部３０７は従来技術と同様にモデルパラメータの初期値をランダムに決定する。

（７）モデルパラメータを更新する（Ｓ４０７）。
パラメータ更新部３０８は、前ステップで得られたモデルパラメータの初期値を、入力データ列の特徴空間における確率密度分布に合わせて更新する。更新方法は従来技術を用いればよく、一例としてはＥＭアルゴリズムが挙げられる。

（８）クラスタリング結果を出力する（Ｓ４０８）。
クラスタリング部３０４は、前ステップで得られたモデルパラメータに基づいて、特徴空間における確率密度分布をクラスタリングし、その結果を結果出力部３０５から出力する。出力する内容はクラスタリング結果の利用方法に応じて決定すればよく、例示すればモデルパラメータの値でも良いし、各データとクラスとの対応関係のリストでも良い。対応関係は各データに唯一のクラスを割り当てる２値のものと、各データが各クラスに属する確率を与える多値のものとがある。

以上説明したように、本発明では、性質の似たデータ群は、クラスタリング結果も類似する可能性が高いため、予め適切にクラスタリングをされた類似するデータ群のモデルパラメータを流用することで、高精度で安定したクラスタリングを行うことができる。

また、類似するデータ群のモデルパラメータを初期値とし、実際のデータ群の性質に合わせて調整することで細かい差異を埋め、クラスタリングの精度を向上させることができる。

本実施例の具体的な適用例としては、教育現場などで試験の得点の分布から成績の上位、中位、下位を判断する用途が挙げられる。この判断のために事前にそれぞれのクラスに分類する得点の範囲を決定しておいても良いが、この範囲は試験の難易度に応じて適宜調整されるべきものである。しかし、難易度を客観的に評価することは容易ではない。そこで、本発明により過去に分類した結果を利用することで、自動的なクラスタリングを実現することができる。

また、別の適用例としては、画像の減色処理が挙げられる。減色処理にはカラーで色数を削減するものとグレースケールで階調数を作成するものとがあるが、ここではグレースケールの減色処理を用いて説明する。グレースケールの２５６階調の画像が入力され、これを３階調に減色するケースを考える。まず、入力画像から階調ごとの画素の頻度を表すヒストグラムを作成する。次に、入力画像と類似する参照画像を検索する。この検索に際しては、画像同士の類似度ではなく、ヒストグラム同士の類似度に基づいて参照画像を選択しても良い。続いて、得られた参照画像の参照パラメータに基づいて、入力画像のヒストグラムのモデルパラメータの初期値を設定し、これを更新することでヒストグラムをクラスタリングする。最後に、３つの階調を表す、得られた３つの分布は重なりを持つことから、所定の基準で分布間の境界を設定し、この境界を閾値として３値化することで、減色処理が完了する。分布間の境界を設定する基準の例としては、隣接する分布で値が等しくなること、隣接する分布で値の比が所定の割合となること、などが考えられる。

カラーでの減色処理に際しては、チャンネルごとに独立にグレースケールと同じ処理をすればよい。これにより演算量を抑えながら減色処理ができるが、最終的に得られる色が必ずしも入力画像に対して適切でない場合がある。このような場合にはチャンネル間の相関を維持しながら減色を行うことが有効であり、実施例１と同様に、２次元以上の特徴空間においてクラスタリング処理を行えばよい。

実施例３は、データ群として画像（２次元のデータ群）を用い、個々のデータとして画像を構成する画素または画素群を用い、画像を領域に分割する際にユーザのインタラクションを受け付ける実施例である。本実施例において実施例１と共通する部分については説明を省略する。

図７は、本発明の実施例３の情報処理装置の構成を示す。図７において、７０１は画像の入力を受け付ける画像入力部、７０２は入力画像を解析し、特徴量を算出する画像解析部、７０３は入力画像と特徴量を記憶する記憶部、７０４は更新されたモデルパラメータに基づいて入力画像の確率密度分布をクラスタリングするクラスタリング部、７０５はクラスタリング結果を出力する結果出力部、７０６は入力画像に類似する参照画像を記録部から検索する類似画像検索部、７０７は参照画像の類似度とその参照パラメータを用いてモデルパラメータの初期値を決定する初期パラメータ決定部、７０８はモデルパラメータ
の初期値を入力画像に合わせて更新するパラメータ更新部、７０９は参照画像とその特徴量、並びにクラスタリング時に用いた混合分布のモデルパラメータ（参照パラメータ）を記録する記録部、７１０はネットワークバス、７１１は参照画像を表示する画像表示部、７１２は参照画像の選択を受け付ける画像選択部である。

図８は、実施例３の処理フローチャートを示す。図８（実施例３）と図２（実施例１）との相違点は次の通りである。
・参照パラメータを合成してモデルパラメータの初期値を決定するステップ（Ｓ２０６）が省略された。
・見つかった類似する参照画像を表示するステップ（Ｓ８０５）が追加された。
・ユーザが表示された参照画像から１つ以上を選択するステップ（Ｓ８０６）が追加された。
・ユーザにより選択された参照画像の参照パラメータをモデルパラメータの初期値に設定するステップ（Ｓ８０７）が追加された。

ここでは、追加されたステップＳ８０５からＳ８０７について説明し、図２と共通する他のステップの説明は省略する。
（１）クラスタリングする画像を入力する（Ｓ８０１）。
（２）入力画像の特徴量を算出する（Ｓ８０２）。
（３）類似する参照画像を検索する（Ｓ８０３）。
（４）参照画像を表示する（Ｓ８０５）。

類似する参照画像が見つかれば、記録部７０９から類似する参照画像を読み出し、画像表示部７１１に表示する。参照画像を表示する際には、画像だけを表示しても良いし、参照パラメータも併せて表示しても良い。更に、参照画像の画素のクラスタリング結果も表示しても良い。クラスタリング結果の表示方法としては、特徴空間におけるデータ分布をクラスごとに色分けしたり、各データ点（画素）をこのクラスごとに色分けや番号付けして画像化したりすれば良い。類似する参照画像は複数表示することが望ましい。

図９は、実施例３の画面表示の例を示す。メインウィンドウ９０１の中に、入力画像の表示領域９０２と参照画像の表示領域９０３とが配置されている。表示領域９０２には、画像入力部７０１により入力された画像が示されている。また、表示領域９０３には、類似画像検索部７０６が記録部７０９から取得した、入力画像に類似する３枚の参照画像９０５〜９０７が列挙されている。参照画像９０５〜９０７には、それぞれクラスタリング結果を画像化して付属しており、すなわち、クラスタリング結果として、各クラスに属する画素を連続する領域となるように統合した上で、各領域のクラスを１から５までの番号で示している。尚、同じクラスに属する領域が離れて存在しても良い。

参照画像を表示する際には、所定の基準に基づいて並び替えられることが望ましい。基準の例としては、入力画像と参照画像との画像間の類似度や特徴空間におけるデータ分布の類似度の他、参照パラメータにおけるクラス数、参照画像が選択された回数（又は頻度）などが挙げられる。

参照画像のクラスタリング結果は、参照パラメータを用いて表示時に生成しても良いし、予め記録部７０９に参照画像と対応付けて記録しておいても良い。

（５）参照画像を選択する（Ｓ８０６）。
ユーザにより参照画像の選択を受け付ける。ユーザはマウスポインタなど一般的な入力機器を用いて、画像表示部７１１に表示された参照画像の中から入力画像のモデルパラメータの初期値として利用するものを選択する。前述したように、選択する画像は１つであっても良いし、複数であっても良い。

図９を用いて説明すれば、ユーザは参照画像の表示領域９０３に列挙された参照画像の中から、ユーザが期待するクラスタリング結果に近いと考えるものを選択する。入力画像は空を背景に、森の奥に山がそびえる風景画像である。この風景画像を空、山、森に分割したいとすれば、同様の構図で分割結果が目的に一致している参照画像Ａを選択することが妥当であると考えられる。ユーザが参照画像Ａをマウスなどで選択すると、参照画像Ａの参照パラメータが入力画像のモデルパラメータの初期値に採用される。

尚、ユーザが参照画像を選択すると、参照パラメータを初期値に設定して入力画像をクラスタリングした結果をプレビューとしてユーザに提示しても良い。プレビューを行うことで試行錯誤による探索を、より直感的に実行できるようになる。

（６）参照パラメータを取得してモデルパラメータの初期値に設定する（Ｓ８０７）。
初期パラメータ決定部７０７は、ユーザにより選択された参照画像の参照パラメータを、モデルパラメータの初期値に設定し、初期値を決定する。尚、Ｓ８０５において、複数の類似する参照画像を表示し、Ｓ８０６においてユーザにより複数の参照画像の選択を受け付けた場合には、実施例１のＳ２０６における方法により参照パラメータを合成して、モデルパラメータの初期値を決定しても良い。
（７）モデルパラメータの初期値をランダムに決定する（Ｓ８１０）。
（８）モデルパラメータを更新する（Ｓ８０８）。
（９）クラスタリング結果を出力する（Ｓ８０９）。

以上で説明したように、本発明では、予め適切にクラスタリングされた類似するデータ群のモデルパラメータを流用する際に、類似するデータ群の複数の候補をユーザに提示し、最適な１または複数のデータ群をユーザに選択させることで、ユーザが所望するクラスタリング結果が得られると共に、高精度で安定したクラスタリングを行うことができる。

前述した課題は、本発明により以下のように解決された。すなわち、
（１）「クラス数を予め指定する必要がある」点に関して、
類似するデータ群の間でクラスタリング結果が類似するため、適切なクラス数も等しいと考えられる。そこで、本発明では、予め適切にクラスタリングされた類似データ群のモデルパラメータを流用することで、未知のデータ群に対しても適切なクラスタリングが行える。

（２）「初期値依存である」点に関して、
類似するデータ群の間でクラスタリング結果が類似するため、モデルパラメータもほぼ等しいと考えられる。そこで、本発明では、初期値をランダムに生成するのではなく、予め適切にクラスタリングされた類似データ群のモデルパラメータを流用することで、未知のデータ群に対しても適切な初期値の設定が行える。尚、類似するデータ群の間で全ての分布が完全に一致するわけではないので、流用するモデルパラメータは初期値とし、それを実際のデータ群の性質に合わせて更新することによって、最適なモデル化とクラスタリングが可能となる。

（３）「再現性がない」点に関して、
従来技術では、モデルパラメータの初期値をランダムに割り当てていた。本発明では、適切にクラスタリングされた類似するデータ群のモデルパラメータを初期値として流用するため、初期値は複数回試行を行っても変わらず、クラスタリング結果に再現性が担保できる。

本発明は、前述した実施例の機能を実現するソフトウエアのプログラムコードを記録した記憶媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ（ＣＰＵやＭＰＵ）が記憶媒体に格納されたプログラムコードを読出し実行することによっても達成される。この場合、記憶媒体から読出されたプログラムコード自体が前述した実施例の機能を実現することになる。プログラムコードを供給するための記憶媒体としては、例えば、ハードディスク、光ディスク、光磁気ディスク、不揮発性のメモリカード、ＲＯＭなどを用いることができる。また、コンピュータが読出したプログラムコードを実行することにより、前述した実施例の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼働しているＯＳ（オペレーティングシステム）などが実際の処理の一部または全部を行い、その処理によって前述した実施例の機能が実現される場合も含まれる。さらに、記憶媒体から読出されたプログラムコードが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるＣＰＵなどが実際の処理の一部または全部を行い、その処理によって前述した実施例の機能が実現される場合も含まれる。また、本発明の実施例の機能等を実現するためのプログラムは、ネットワークを介した通信によってサーバから提供されるものでも良い。

１０１画像入力部
１０２画像解析部
１０３記憶部
１０４クラスタリング部
１０５結果出力部
１０６類似画像検索部
１０７初期パラメータ決定部
１０８パラメータ更新部
１０９記録部
１１０ネットワークバス

特開２００４−２７２３５０号公報

Claims

所定のデータ群から算出される特徴量がつくる特徴空間における前記データ群の確率密度分布を、複数の分布の重ね合せである混合分布モデルを用いてクラスタリングする情報処理装置であって、既にクラスタリングが行われたデータ群（以下、参照データ群）と、前記クラスタリングに用いられた混合分布のモデルパラメータ（以下、参照パラメータ）とを対応付けて記録する記録手段と、処理対象のデータ群に類似する参照データ群を前記記録手段から検索し、類似する参照データ群に対応する参照パラメータを取得する検索手段と、前記取得された参照パラメータに基づいて混合分布のモデルパラメータの初期値を決定する決定手段と、前記混合分布のモデルパラメータの初期値を、前記処理対象のデータ群の確率密度分布に応じて更新する更新手段と、前記更新されたモデルパラメータに基づいて前記処理対象のデータ群の確率密度分布をクラスタリングするクラスタリング手段を備えたことを特徴とする情報処理装置。
前記検索手段は、前記処理対象のデータ群と参照データ群との類似度に基づいて複数の参照パラメータを取得し、前記決定手段は、前記複数の参照パラメータを前記類似度に基づいて合成して初期値を決定することを特徴とする請求項１記載の情報処理装置。
前記検索手段は、前記処理対象のデータ群の特徴量と、前記参照データ群の特徴量に基づいて前記類似度を算出することを特徴とする請求項２記載の情報処理装置。
前記検索手段は、前記特徴量とは異なる特徴量を用いて前記処理対象のデータ群と参照データ群との類似度を算出することを特徴とする請求項２記載の情報処理装置。
前記混合分布を構成する各分布は、ガウス分布であることを特徴とする請求項１記載の情報処理装置。
前記処理対象のデータ群は画像であり、前記処理対象のデータ群を構成する各データは画素または画素の集合であることを特徴とする請求項１乃至５のいずれか１項に記載の情報処理装置。
前記検索手段は、画像の形状を表す特徴量またはテクスチャを表す特徴量を用いて、前記処理対象のデータ群と前記参照データ群との類似度を算出することを特徴とする請求項３記載の情報処理装置。
所定のデータ群から算出される特徴量がつくる特徴空間における前記データ群の確率密度分布を、複数の分布の重ね合せである混合分布モデルを用いてクラスタリングする情報処理方法であって、既にクラスタリングが行われたデータ群（以下、参照データ群）と、前記クラスタリングに用いられた混合分布のモデルパラメータ（以下、参照パラメータ）とを対応付けて記録する記録工程と、処理対象のデータ群に類似する参照データ群を前記記録工程から検索し、類似する参照データ群に対応する参照パラメータを取得する検索工程と、前記取得された参照パラメータに基づいて混合分布のモデルパラメータの初期値を決定する決定工程と、前記混合分布のモデルパラメータの初期値を、前記処理対象のデータ群の確率密度分布に応じて更新する更新工程と、前記更新されたモデルパラメータに基づいて前記処理対象のデータ群の確率密度分布をクラスタリングするクラスタリング工程を備えたことを特徴とする情報処理方法。
請求項８記載の情報処理方法をコンピュータに実現させるためのプログラム。
請求項８記載の情報処理方法をコンピュータに実現させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。