JP5373536B2

JP5373536B2 - 複数の画像モデルの混合としての画像のモデリング

Info

Publication number: JP5373536B2
Application number: JP2009235579A
Authority: JP
Inventors: ペロニンフローラン; リュウヤン
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 2008-10-16
Filing date: 2009-10-09
Publication date: 2013-12-18
Anticipated expiration: 2029-10-09
Also published as: JP2010097610A; US20100098343A1; US8463051B2

Description

本発明は、画像の特徴付け（特徴解析）に関し、特に、一組の参照画像の組み合わせとしての画像表現の生成に関する。この装置及び方法の実装例には、例えば画像検索、画像カテゴリ分け、画像クラスタリングなどの応用がある。

デジタル画像の利用が広まったことにより、検索、カテゴリ分け、クラスタリング、画像強調などの様々な画像処理アプリケーションの重要性が高まってきている。画像のデータベースから、例えば自動車などといった特定の種類の物の画像を検索したり、ある画像が与えられた場合に画像データベースから類似の画像を識別し検索したり、大量の画像を内容の類似性に基づき一組のクラス（分類）へとクラスタリングしたりできることは、有益であろう。

そのような技術を自動又は半自動で実行できるようにするために、画像の内容に基づく自動化された画像特徴付け（特徴解析）のための何らかの機構が望まれる。デジタル画像は本質的に、一般的には何百万物画素のそれぞれについての、色値などの画素値の形であるので、画像特徴付け技術は典型的には、パッチと呼ばれる画像の複数の小さい部分に基づいて画像中から特徴を抽出することに依拠している。多数の学習用画像から抽出された情報を用いて分類器を学習させることに依拠する画像のカテゴリ分けのための方法がこれまで発展してきた。学習用画像は、人、有形、動物、建物などといったあらかじめ定められた一組の被写体カテゴリの１つ又は複数に手作業でラベル付けされる。分類器は、新たな画像を当該画像から抽出された特徴とラベル付けされた複数の画像から抽出された特徴とに基づきどのように特徴付けするかを学習する。しかし、このような技術は、学習フェーズにおいて多くの人手を要し、分類器が学習すべき各クラスに多数の画像を人手でラベル付けすることがしばしば必要となる。更に、新たなカテゴリを追加するには、分類器をかなり再学習させる必要がある。

類似する画像同士の識別に依拠する処理では、画像は抽出された低レベルの特徴から生成される高レベルの表現を用いて特徴付けしてもよい。パラメータ化したモデルを用いて画像をモデリングすることが知られている。例えば、ガウシアン・モデルは、低レベルの画像特徴を表し平均ベクトルと共分散行列パラメータを有するガウス分布を用いて画像を特徴付けする。画像を単一のガウシアン成分で特徴付けすることで、例えば２つの画像モデルの平均ベクトルと共分散行列とを比較する等の方法により、異なる画像同士の直接的な比較が可能になる。しかし、単一のガウシアン成分を持つ分布では内容（コンテンツ）の記述力が限られ、画像を適切に記述するのには不十分である。他の方法では、画像を特徴付けするのに混合（組み合わせ）モデルが用いられる。例えば、ガウシアン混合モデル（ＧＭＭ）は、画像の低レベルの特徴の分布を、それぞれが平均ベクトルと共分散行列パラメータとを有する複数のガウシアン成分を重み付けして」組み合わせたものを用いて記述する。

ＧＭＭやその他の混合モデルは、画像を特徴付ける成分の数を多くすることができるという利点がある。その一方、画像同士の類似度を評価（推定）するのがより難しくなる。例えば、実際にはかなり類似している２つの画像同士が、画像から抽出される特徴ベクトルの集合の疎らさにより、互いに非常に異なる混合モデルパラメータ集合に適合することになるかもしれない。このような場合、それら２つの画像の混合モデル同士から計算される距離は大きくなり、それら画像は、誤ってかなり異なるものとみなされてしまうことになる。

このロバスト（頑強）性の問題に加えて、混合モデルを用いることにより、画像比較のために多くの計算が必要になる。例えば、いくつかの研究では、約１２８のガウシアン成分を持つＧＭＭが画像を十分に特徴付けするのに望ましいと見積もられている。したがって、２つの画像の比較では、１２８個のガウシアン成分同士の組み合わせごとにペアごとの比較を行うことになり、これには約１６０００のガウス比較演算が必要であり、多くの応用において計算量的に高コスト過ぎるものとなる。

米国特許出願公開第２００７／０００５３５６号明細書米国特許出願公開第２００７／０２５８６４８号明細書米国特許出願公開第２００８／００６９４５６号明細書米国特許出願公開第２００８／０１４４０６８号明細書米国特許第７１２４１４９号明細書

Bosch, et al, "Scene Classification Via pLSA", ECCV, 2006. Goldberger et al., "An Efficient Image Similarity Measure based on Approximations of KL-Divergence Between Two Gaussian Mixtures," ICCV, 2003 G. Csurka, C. Dance, L. Fan, J. Willamowski , C. Bray, "Visual Categorization with Bags of Keypoints," ECCV workshop on Statistical Learning in Computer Vision, 2004 T. Hofmann, "Unsupervised learning by probabilistic latent semantic analysis," Journal of Machine Learning, vol. 42, pp. 177-196, 2001

頑強で使いやすく、大部分は自動的に生成することができる画像表現の生成装置及び方法を提供する。

１つの側面では、画像表現を生成する方法が提供される。この方法は、原画像を複数の参照画像の混合としてモデル化するステップであって、前記原画像を前記複数の参照画像の各々についての混合重みを含んだ一組の混合重みにより表現することを特徴とするステップ、を含む。

上述の方法では、前記複数の参照画像は、それぞれ、一組の確率分布についての確率密度関数としてモデル化されていてもよい。

この方法では、前記確率分布は連続確率分布であってもよい。

この方法では、前記参照画像のモデルはガウシアン混合モデル（ＧＭＭ）であってもよい。

各ＧＭＭは一組のガウシアン関数の各々についての重みを含んでいてもよい。

前述のＧＭＭは、ある共通のＧＭＭから求めてもよい。

この方法では、前記参照画像は多項式分布として表現してもよい。

前記多項式分布は、bag-of-visual-words表現であってもよい。

当該方法では、モデル化の処理では、目的関数を最適化することにより前記混合重みを推定する。なお、目的関数の中では、各参照画像が重み付けされた確率分布により表現される。

目的関数の最適化では、次の一般形式を持つ目的関数を最大化してもよい。

ここで、Ｅ_qはｑの元での期待値を表し、Ωは原画像と複数の参照画像から抽出された低レベル特徴ベクトルの空間である。

目的関数の最適化は、期待値最大化法又は勾配降下法により実行してもよい。

原画像は前記複数の参照画像のうちの1つであってもよく、目的関数の最適化処理は、最適化が完全に達成される前に終了してもよい。

この方法は、更に、メモリ内で、前記一組の混合重みを含んだ画像表現を前記原画像と対応づけるステップを更に含む。

画像同士の間の類似度を計算する方法は、上述の方法を用いて少なくとも２つの原画像の画像表現を生成するステップを含んでいてもよい。また、この方法は、更に、複数の原画像のうちの第１の原画像と、それら複数の原画像のうちの少なくとも第２の原画像との間の類似度を、前記第１の原画像についての混合重みの第１の集合と、前記第２の原画像についての混合重みの第２の集合と，に基づいて計算するステップを含んでいてもよい。ここで、混合重みの第１の集合と第２の集合は、それぞれ、前記第１の原画像と前記第２の原画像と前記複数の参照画像のモデルの混合としてモデル化したものである。

画像を分類する方法は、複数の学習用画像についての画像表現を上述の方法により生成するステップと、前記各学習用画像の画像表現と前記各学習用画像に対応する分類ラベルとに基づいて分類器を学習させるステップと、学習済みの分類を用いて、新たな画像に対して、当該新たな画像の画像表現に基づいて分類(クラス）を割り当てる(すなわち分類する）ステップと，を含む。

この方法は、一組の画像を少なくとも２つのグループへとクラスタリングするステップを更に含む。ここで、各画像はそれぞれ一組の混合重みとしてモデル化されており、クラスタリングはその一組の混合重みに基づいている。

以上に記載した方法を実行するための命令群をコード化したコンピュータプログラムを提供してもよい。

コンピュータ装置は、上に記載した方法（上述したいくつかの例のうちのどれでも）を実行するための命令群を記憶するメモリと、それら命令群を実行する、前記メモリと通信可能なプロセッサと、を含んでいてもよい。

別の側面では、画像表現を生成するための、コンピュータに実装される装置が提供される。この装置は、参照画像の集合を記憶するメモリと、画像表現生成器とを備える。画像表現生成器は、原画像の画像表現を、前記複数の参照画像のモデルの混合として出力し、前記混合においては、前記複数の参照画像のモデルの各々についての混合重みを含んだ一組の混合重みにより前記原画像が記述される。

上述の装置において、前記画像表現生成器は、画像から特徴を抽出する特徴抽出コンポーネントと、抽出された特徴に基づいて各参照画像と原画像とについてのＧＭＭをそれぞれ生成する画像モデル生成器と、前記各参照画像のＧＭＭについての重みを最適化することにより目的関数を最適化する最適化コンポーネントと、前記原画像について一組の最適化された重みを含んだベクトルを出力する出力コンポーネントと、を備えていてもよい。

また別の側面では、画像表現を生成するための方法は、一組の参照画像のうちの各参照画像を、それぞれ、当該参照画像から抽出された特徴群に基づくＧＭＭとしてモデル化するステップを含む。この方法は、目的関数(この目的関数の中では前記各ＧＭＭがそれぞれ重みに対応づけられている）を最適化することにより、原画像を前記各参照画像のＧＭＭの混合としてモデル化するステップと、最適化された目的関数の各重みを前記画像表現として出力するステップとを更に含む。

デジタル画像の表現を生成するための装置の例を示す機能ブロック図である。図１の装置で実行することができる、デジタル画像の表現を生成するための方法の例を示すフローチャートである。図１の装置により生成された画像表現を入力として受け取る分類器の例を示すブロック図である。図１の装置の画像表現生成器の例を示すブロック図である。比較対象の方法と実施形態の方法とについて、平均精度の平均値（ｍＡＰ）とガウシアン成分の数とをプロットした図である。

これから例示する実施形態は、原画像の画像表現を生成するための装置、方法及びコンピュータプログラムに関する。複数の参照画像が、最初にそれぞれモデル化される。次に原画像がそれら参照画像の混合（組み合わせ）、より正確にはそれら参照画像のモデルの混合、としてモデル化される。画像表現は、例えば、個々の参照画像のモデルについてそれぞれ１つの重みで、重み混合のベクトルである。この表現は、検索、カテゴリ分け、クラスタリングなどの様々な応用（アプリケーション）に利用可能である。

この方法で特徴付けされる原画像は、ＪＰＥＧ，ＧＩＦ，ＪＢＩＧ，ＢＭＰ，ＴＩＦＦ又は画像に用いられるその他の一般的なファイルフォーマットのようなどのようなファイルフォーマットの形でこの装置に受信されてもよく、そのフォーマットは場合によっては処理の前に他の適切なフォーマットに変換されてもよい。画像は単独の画像であってもヴィデオ画像であってもよく、またスキャンされた画像、写真、グラフィックス、テキスト画像、又はそれらの組み合わせなどであり得る。大まかに言えば、入力されるデジタル画像は，当該画像を形成する画素の配列（アレイ）についての画像データを含み、例えばビットマップの形式となっている。画像データは、単一の色分版について（例えば白黒画像について）、又はＲＧＢなどの一組の色分版について、グレーレベルなどの色値を含んでいてもよく、また、異なった色を表現できる他の色空間で表現してもよい。一般的には、色値は、（ＲＧＢ，Ｌ*ａ*ｂ*，ＹＣｂＣｒ等々のように）どのように表現したとしても、単一の色チャネルの光学的濃度値であり得る。

図１には、画像表現を生成するための装置の一例が例示されている。この装置は、図示したコンピュータ１０のような１以上の電子処理装置に実装することができる。このコンピュータは、表示又はその他の人間が知覚可能な出力を生成するためのディスプレイ１２その他の出力装置と、ユーザからの入力を受け取るキーボード１４その他の入力装置とを備える。電子処理装置１０は、画像表現生成器１６を実装するように構成されている。電子処理装置１０は、図示したコンピュータであってもよいし、ネットワークサーバ、インターネットベースのサーバ、ＰＤＡ（Personal Data Assistant）、携帯電話などのような他の電子処理装置であってもよい。コンピュータ１０は、画像データとしての一組の参照画像２０（Ｒ１，Ｒ２，Ｒ３，Ｒ４とラベル付けされている）、及び／又は参照モデル２２（ＧＭＭ１，ＧＭＭ２，ＧＭＭ３，ＧＭＭ４トラベル付けされている）などの参照画像から抽出された情報を格納するためのデータメモリ１８を備える。なお、「Ａ及び／又はＢ」という記載は、Ａのみの場合と、Ｂのみの場合と、Ａ及びＢの場合とのいずれであってもよいことを示す。コンピュータ１０は、表現を生成すべき原画像２４を受信してデータメモリ１８などのメモリにその画像を格納するとともに、画像表現生成器１６で生成されたその画像の表現２６の格納及び／又は出力を行うように構成されている。画像２４は、ワークステーション、データベース、スキャナ、ファックス装置、又はディスクやカメラメモリ、メモリスティック（登録商標）などのメモリストレージ装置、などのような適切な画像ソース２７であればどのようなものからでも入力され得る。画像ソース２７は、ケーブル、電話線、ローカルエリアネットワーク、又はインターネットなどのワイドエリアネットワークなどの有線又は無線のリンク２８により、モデム、ＵＳＢポートなどの適切な入出力（Ｉ／Ｏ）コネクション（接続部）２９を介して、コンピュータ１０に対し一時的又は永久的に通信可能に接続されていてもよい。

画像表現生成器１６は、ハードウエア又はソフトウエア又はそれらの組み合わせとして具現化することができる。図示の通り、表現生成器１６は、コンピュータの主メモリ３０内に記憶されたソフトウエア・コンポーネントの形となっており、そのコンピュータの中央演算装置（ＣＰＵ）等のような関連のプロセッサ３２により実行される。コンピュータ１０のコンポーネント１８，３０，３２は例えばデータ制御バス３４を介して通信する。メモリ１８，３０は別々のものであっても一体となったものであってもよく、ランダムアクセスメモリ（ＲＡＭ）、リードオンリーメモリ（ＲＯＭ）、磁気ディスク又は磁気テープ、光ディスク、フラッシュメモリ、ホログラフィックメモリ、又はそれらの適切な組み合わせなどのような，どのような種類のコンピュータ読み取り可能な媒体の形態をとってもよい。

例示する画像表現生成器１６は、画像２４の表現を生成するための命令群を有している。以下に詳細に示すように、これらの命令群には、目的関数(objective function)４０の混合重みω_iを推定し、原画像の表現２６として一組の混合重みを出力する命令群が含まれる。ここで、前述した一組の参照画像２０の各参照モデル２２がそれぞれ対応する重みω_iに対応づけられている。更に詳しくは、画像表現生成器１６は、「対数尤度関数」(log likelihood function)４０（これは例えば例えば後で示す式（１）に示される形のものでよい）を受け取り、Ｎ個の調整可能な重みパラメータω_i（各参照画像について１つずつ）を最適化して、最適化対数尤度関数を生成する。最適化対数尤度関数のそれら重みω_iは、原画像の表現２６として格納される。それら重みω_iは、各参照画像モデルの原画像に対する相対的な寄与度合いを表す。

ここで用いたように、「最適化」(optimize)や「最大化」(maximize)、その他の類似の述語は、完全な最適や完全な最大のみならず、大域的な最適や最大に近いものの正確には大域的な最適や最大ではない最大や最適も含み、また大域的な最適や最大ではない局所的な最適や最大に近い最大や最適をも含む、広い意味で用いている。例えば、繰り返し処理を用いて、パラメータω_iについての対数尤度を最適化してもよい。そのようにする場合に、繰り返しアルゴリズムは、対数尤度関数が完全な大域的最大値に達するに至らない点で当該アルゴリズムに最適化処理を停止させる停止判定基準に基づき、終了させられるようにしてもよい。このような最適化処理は、求められる対数尤度関数の最終的な値がパラメータω_iの調整により到達可能な絶対的な最大値ではない場合でも、パラメータにω_iについての対数尤度関数を「最適化する」処理ということにする。同様に、この明細書にて開示又は使用する最適化アルゴリズムのいくつかは、大域的な最適値よりも局所的な最適値に収束するものであってもよい。再びいえば、そのような最適化アルゴリズムは、最終的な値が完全な最適値でない場合でも、パラメータω_iを最適化するということにする。

画像表現２６を生成するための方法の例の概要が図２に示されている。この方法はＳ１００で開始される。

Ｓ１０２で、一組の参照画像２０が受け取られ、処理の間はデータメモリ１８に格納される。

Ｓ１０４では、参照画像２０の各々について、一組の低レベル特徴が抽出される。これらの特徴は、その画像の一組のパッチ（領域）から抽出してもよい。それらパッチは、キーポイントで、あるいはランダムに、あるいは例えば米国特許出願公開第２００７／０００５３５６号明細書、米国特許出願公開第２００７／０２５８６４８号明細書、及び米国特許出願公開第２００８／００６９４５６号明細書等に記載された多重スケールでのような規則的な格子上で、取得してもよい。抽出される低レベル特徴は、例えば勾配特徴、画素色、グレーレベルなどであり、パッチごとに特徴ベクトル又は特徴行列の形へと連結されていてもよい。画像から２以上の低レベル特徴を抽出し、２以上の特徴ベクトルを求めるようにしてもよい。特徴ベクトルの次元数は、主成分解析（ＰＣＡ）を用いて提言してもよい。

Ｓ１０６では、参照画像２０ごとに、抽出された特徴群（特徴ベクトル）に基づき、参照モデル２２の学習が行われる。この明細書に示す様々な実装例では、各参照モデル２２は、一組の連続的又は離散的な確率分布を記述する確率密度関数である。一例として、各参照モデルは、連続的な確率分布を用いるガウシアン混合モデル（ＧＭＭ）である。他の実装例では、参照モデルは、離散的な確率分布を用いる多項分布である。しかし、これらの代わりに、例えばいくつかのガウス分布成分といくつかのラプラス分布成分とを含んだ混合モデルのような、他の混合モデルを用いてもよい。

Ｓ１０８で、モデル化すべき原画像２４が受け取られ格納される。

Ｓ１１０で、原画像２４の低レベル特徴が、参照画像２０について説明したのと同様の方法（Ｓ１０４）により抽出される。

Ｓ１１２で、目的関数４０（この目的関数の中で、各参照画像が各々の確率密度関数（例えばＧＭＭ）で表現される）とこれに関連する重みとを最適化することにより、原画像２４がモデル化される。

Ｓ１１４で、最適化された目的関数の重みが、混合重みベクトル２６として、格納及び／又は出力される。そのベクトル２６は画像２４の表現として機能する。低レベル特徴として複数の種類の特徴を用いる場合は、混合重みベクトルは各特徴種類ごとに生成してもよい。

Ｓ１１６で、上述のようにして得られた混合重みベクトル２６を利用する、コンピュータに実装された処理を実行してもよい。例えば、１つの画像についての混合重みベクトルを、クラスタリング又は類似性判定のために、同じ方法で求めた１つ又は複数の他の画像の混合重みベクトルと比較することができる。他の実施例では、画像２４の混合重みベクトル２６を、手作業でラベル付けされた一組の学習用画像の各々の混合重みベクトルを用いて学習済みである分類器４２（図３）に入力することにより、画像２４を分類してもよい。分類器は、分類器自身が学習済みの複数の画像クラスの中の１つのクラスに対応するクラスラベル４４を画像に対して付与する。

この方法は、ステップ１１８で終了する。

図４は、画像表現生成器１６の一例と、その画像表現生成器１６がこの実施例の方法を実行するために備えていてもよいコンポーネントとの機能ブロック図である。理解されるように、それらコンポ-ネットは、ソフトウエア・コンポーネントであってもよく、適宜結合したり複数のサブコンポーネントに分割したりすることができるものであってもよい。画像表現生成器１６は、参照画像２０及び原画像２４などの画像から特徴を抽出する特徴抽出コンポーネントを備える（Ｓ１０４，Ｓ１１０）。参照画像モデル生成器５２は、各参照モデルと原画像とのそれぞれについて、抽出された特徴に基づき、例えば学習済みの普遍（ユニバーサル）を用いて処理を開始して、ＧＭＭ２２（又は他の確率モデル）を生成する。最適化コンポーネント５６は、各参照画像ＧＭＭ２２についての重みを最適化することにより、目的関数４０を最適化する。出力コンポーネント５８は、最適化された一組の重みを含んだ、原画像についてのベクトルを出力する。

この例示の方法（及び表現生成器）は、１台又は複数の汎用コンピュータ、特定用途コンピュータ、プログラムされたマイクロプロセッサ又はマイクロコントローラ及び周辺集積回路要素、ＡＳＩＣその他の集積回路、デジタルシグナルプロセッサ、ディスクリート要素回路のようなハードワイヤードの電子又は論理回路、ＰＬＤ、ＰＬＡ、ＦＰＧＡ又はＰＡＬなどのようなプログラマブルロジックデバイスに対して実装してもよい。一般的には、図２に示したフローチャートを実装することが可能な有限状態機械を実装可能な装置であれば、どのような装置であっても、画像表現を生成するための上記方法を実装するのに用いることができる。

図２に例示された方法は、コンピュータで実行されるようなコンピュータプログラム製品の形で実施してもよい。コンピュータプログラム製品は、制御プログラムを記録したディスク、ハードドライブなどのような有形のコンピュータ読み取り可能な記録媒体であってもよいし、その制御プログラムをデータ信号として表す伝送可能な搬送波であってもよい。コンピュータ読み取り可能な媒体の一般的な形態には、例えば、フロッピー（登録商標）ディスク、フレキシブルディスク、ハードディスク、磁気テープ、その他の磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤ、その他の光学的媒体、ＲＡＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＦＬＡＳＨ−ＥＰＲＯＭ、その他のメモリチップ又はカートリッジ、音響波又は光波など、無線及び赤外線データ通信の際に生成される波などの送信媒体、又はその他のコンピュータが読み取って使用することが可能な媒体が含まれる。

この方法及び装置のこのほかの側面を、以下に示す各節にて説明する。Ａ節では、表記体系を導入し、この方法の一実装例についての数学的な枠組みを説明する。Ｂ節及びＣ節では、画像表現、すなわち対数尤度関数の混合重みを計算するために用いることができる２つの最適化戦略を説明する。Ｄ節では、収束の問題について議論する。Ａ〜Ｄ節では、画像が連続分布（ＧＭＭ）としてモデル化される場合に焦点を当てていることに注意されたい。Ｅ節では、他の実装例として、画像が多項分布によりモデル化される場合についての例について議論する。Ｆ節では、画像表現の様々な応用について議論する。

Ａ．表記及び数学的な枠組み
一実装例では、画像（参照画像及び原画像）は、例えばガウシアン混合モデル（ＧＭＭ）などの混合モデルとしてモデル化される。この例のシステムでは、画像Ｉを記述するＧＭＭは、画像Ｉから抽出された一組の低レベル特徴ベクトルから推定される。その画像中の低レベル特徴の密度は、複数の分布関数（ガウシアン）の混合（組み合わせ）により推定され、表現される。したがって、ＧＭＭは、低レベル画像特徴のガウシアン標本（表現）の重み付き混合（組み合わせ）であり、各ガウシアンは平均ベクトルと共分散行列パラメータを有している。各画像は一組のガウシアンにより記述される。１つの実施例では、各画像２０，２４についてのＧＭＭは、例えば発明者Liu 及び Perronninによる「OBJECT COMPARISON, RETRIEVAL, AND CATEGORIZATION METHODS AND APPARATUSES」と題する米国特許出願番号第１１／９４７８５９号に記載されたような、汎用（ユニバーサル）ＧＭＭを適合させることにより生成される。
汎用ＧＭＭは、まず多数の画像（参照用の組に含まれる画像には限定されない）から抽出された多数のパッチを用いて学習する。そして、注目する画像から抽出されたパッチ群を用いてその汎用ＧＭＭを学習させることで、汎用ＧＭＭが適合される。

原画像のＧＭＭ内のガウシアンの数をＫとし、ｉ番目の参照画像内のガウシアンの数をＫ_iとする。Ｋ及びＫ_iは、例えば少なくとも１５又は少なくとも２０、例えば約４０又はそれ以上であってもよく、例えば約１０００又はそれ以上までの数で合ってもよく、例えば約５００未満であってもよい。また、参照画像２０の数をＮとする。Ｎは、例えば少なくとも１０又は少なくとも２０であってもよく、いくつかの実施例では例えば少なくとも５０であり、１０００又は５０００又はそれ以上にまで、例えば約１００万までに及んでもよい。

記述対象の画像２４の混合モデルをｑとする。したがって、

であり、ここでｑ_kはｋ番目のガウシアンを、π_kはｋ番目のガウシアンのＧＭＭ内での重みを示す。ｉ番目の参照画像の確率密度関数は、

と表され、ここでｐ_i,kはｉ番目の参照画像のｋ番目のガウシアンを、π_i,kはそのガウシアンのＧＭＭ内での重みを示す。

Ｎ個の参照画像の重み付け結合（組み合わせ）としての画像２４の表現は、以下のコスト関数を最大化する混合重みωｉを推定することにより、好適に得ることができる。

ここで、Ｅ_qはｑのもとでの期待値(expectation under q)を表す。Ωは原画像及び参照画像から抽出された低レベル特徴の空間である。

最適化は以下の２つの制約の下で実行してもよい。

第１の制約は、負の重みを避けるものである。第２の制約はすべての重みの総和が特定の値（この例では１）となるようにすることを要求している。

画像の表現２６の重みをベクトル｛ω₁,ω₂，ω₃，…ω_N｝として連結してもよい。

がｑに最も近くなるときに、式（１）の関数は最適化される。もちろん、式（１）の代わりに他の最適化関数を用いてもよい。ｑと

との類似度を表す関数であればどのような関数を用いてもよい。関数は、異なる様々な形を取り得る。例えば、目的関数は、

の形を取り得る。

式（１）が凸の目的関数である場合は、直接的に最適化することは難しい。したがって、重みω_iを推定するのに近似法を用いる。以下の議論では、例として、２つの近似法を説明するが、それらはともに期待値最大化(ＥＭ：Expectation Maximization)アルゴリズムに基づいている。第１に、Ｂ節で説明するように、システム１６は、ｑにしたがって分布した一組の特徴ベクトルＸへのアクセス権を持つと仮定する。第２に、Ｃ節にて説明するように、システムは、ｑへのアクセス権を持つのみであると仮定する。他の最適化方法には、勾配降下法又は最大事後確率(ＭＡＰ: Maximum a Posteoriori)法などがある（例えばＤ節を参照）。ここで用いることができる他の最適化法は、米国特許出願番号第１２／２４５９３９号に記載されている。

Ｂ．標本化近似
Ｘ＝｛ｘ_t，ｔ＝１，…Ｔ｝を、ｑにしたがって分布した一組の特徴ベクトルとする。これは典型的には、記述対象の画像２４から抽出された一組の特徴ベクトルであり、最尤法(ＭＬＥ)の枠組みの中でｑにより既に生成済みであるとする。標本の数Ｔが十分に大きければ、大数の法則が用いることができ、目的関数（１）は以下のように近似される。

ＭＬＥに適した処理手順が、期待値最大化（ＥＭ）アルゴリズムであり、例えばDempster らによる論文 "Maximum likelihood from incomplete data via the EM algorithm," Journal of the Royal Statistical Society (1977)に記載されている。ＥＭアルゴリズムは、（１）混合占有の事後確率（占有確率(occupancy probability)とも呼ばれる）をそれらパラメータの現在の推定値に基づいて計算する期待値（Ｅ：expactation）ステップと、（２）Ｅステップで計算された占有確率に依存する完全データ対数尤度の期待値に基づきそれらパラメータを更新する最大化（Ｍ）ステップという２つのステップを交互に繰り返す。この例では、ω_iの推定のためにＥＭアルゴリズムを用いる。

Ｅステップは、占有確率γ_i（ｘ_t）（観測ｘ_tがｉ番目の参照ＧＭＭにより生成された確率）を計算する処理を含んでいてもよい。

Ｍステップにより以下の推定が行われる。

ここで、

は、各重みの最適化された値を示す。これは凸最適化問題なので、初期値の問題はない。この実装例では、すべてのｉについて（∀ｉ）最初はω_i＝１／Ｎ（すなわちすべての参照画像モデルに対して同じ重みを割り当てる）と設定することが適切である。最適化の間にこれら重みは変化し、等しくなくなる。

他の例では、勾配降下法などの他のアルゴリズムをＥＭの代わりに用いてもよい。

Ｃ．仮想的な標本化近似
Ｂ節の方法の代わりとして、ここではｑを直接用いる場合を検討する。ｑを推定するために用いられる標本Ｘよりもｑを用いるのには少なくとも２つの理由がある。一つは、通常、Ｘを格納するのにはｑを格納するのよりも著しく大きなスペースを要するということである。他の利点は、システムがいくつかのアプリオリ（先験的）な情報をｑに組み込んでもよい（例えば、米国特許出願番号第１１／９４７８５９号参照。この出願では画像ＧＭＭが最大事後確率（ＭＡＰ）基準を用いて推定される）ということである。

例えば、Vasconcelos 及び A. Lippman,の"Learning mixture hierarchies," NIPS, 1998 に記載されたのと似た方法で、ＧＭＭｑはＫブロックの「仮想的な」標本を生成するものと仮定する。ここで、各ブロックは、固定数Ｍ個の標本をそれぞれ含んでいるものとする。また、各構成要素ｑ_kは１つのブロックを生成し、各ブロックに関連する一意的な隠れ変数があるものと仮定する。Ｘｋは、ｑｋにより生成されたブロックであるとする。ここで、Ｘ_k＝｛ｘ_k,t，ｔ＝１，・・・Ｍ｝である。

もし、各ブロック内の標本の数Ｍが十分に大きければ、目的関数（１）は以下のように近似できる（再び大数の法則を用いる）。

次にＥＭアルゴリズムを用いて重みω_iの値を推定することができる。Ｅステップの間、ブロックＸ_kがｐ_iにより生成された確率γ_i（Ｘ_k）は、以下のようにして計算してもよい。

Ｍステップの再推定の式は、例えば次のようなものでよい。

次のステップは、ｐ_i（Ｘ_k）を計算することである。ここで、

であり、Ｈ（ｑ_k，ｐ_i）はｑ_kとｐ_iの間のクロスエントロピーである。再び、この近似は大数の法則（Ｍが大きいと仮定）に基づいている。したがって、

である。

残りのステップは、クロスエントロピーＨ（ｑ_k，ｐ_i）をどのように計算するかを定めることである。ｑ_kは混合の構成要素（この例ではガウシアン）であり、ｐ_iは混合モデル（この例ではＧＭＭ）である。したがって、Ｈ（ｑ_k，ｐ_i）については閉形式の式はない。しかし、カルバック・ライブラー・ダイバージェンス（Goldbergerらの"An Efficient Image Similarity Measure based on Approximations of KL-Divergence Between Two Gaussian Mixtures," ICCV, 2003を参照）に対して用いられるのと似た近似を行ってもよい。これは、ｐ_iをｑ_kに近いモードにより近似する処理を含んでいてもよい。

この例では、ｑとｐ_iの値は共通のＧＭＭから求められたものなので、ｑのガウシアンとｐ_iのガウシアンとの間には直接の対応関係がある。したがって、すべてのｉについてＫ＝Ｋ_iである。よって、式は次のように書くことができる。

２つのガウシアンの間のクロスエントロピーＨ（ｑ_k，ｐ_i）についての閉形式が存在する。この直接の対応関係によりＨ（ｑ_k，ｐ_i）を計算するコストは１／Ｋに減少する（より詳細は、米国特許出願番号第１１／９４７８５９号を参照）。

パラメータＭは、例えば交差検定により、容易に最適化できる。前の導出では（大数の法則を適用するために）Ｍは大きいと仮定したが、実際にはＭの（誤り率の最小化の意味での）最適値は、例えば約１０未満のように小さくてもよく、１、すなわちＭ＝１まで小さく設定してもよいことが分かった。

Ｄ．収束問題
ｑによりモデル化する対象の画像は参照画像ｐ_jのうちの１つである場合がある。これは、（例えば、分類作業において）画像の集合Ｓの中の各々の画像の表現を計算するのに、Ｓを参照画像の集合として用いようとする場合に起こる。もしｑ＝ｐ_iならば、目的関数（１）は、ω_j＝１かつω_i＝０，∀ｉ≠ｊにより最小化される。すなわち、この場合、画像は当該画像自身のＧＭＭによって完全に特徴付けされる。これは、参照画像の集合のの頃について有益な情報をもたらさない。この問題を避けるために、以下に示す３つの戦略（ストラテジー）のうちの１つを用いてもよい。

もっとも単純な戦略は、少ない回数の繰り返し（例えば１，３又は５回）の後で、すなわちＥＭが完全に収束してしまわないうちに、ＥＭ繰り返しを停止することである。あまりにも単純だが、この方法は実用上はよく機能することがわかった。繰り返しを１回とした場合、混合重みの推定値は、（ω_iは均一に初期化されていると仮定すると）まさに事後確率である。

第２の戦略は、ω_iについての制約を修正し、ω_i≦θ＜１となるようにすること、すなわち参照画像がすべての重み値を取り得ないようにすることである。最適なθ値は交差検定により見出してもよい。

第３の戦略は、ω_iのいずれか１つでも０になることがないようにすることである。このようにするために、ベイズ型枠組(Bayesian framework)を採用し、パラメータω_iの分布についての事前確率が存在すると仮定する（ここでの事前情報は重みが０にはなり得ないということである）。これは、最大事後確率（ＭＡＰ）推定と呼ばれる。このような場合一般的には、パラメータ｛α_i，ｉ＝１，・・・Ｎ｝を用いたディリクレ事前分布(Dirichlet prior)が仮定される。したがって目的関数は以下のようになる。

Ｅステップの式（５）及び（８）は変わらない。Ｍステップは以下のように修正される。すなわち式（６）は以下のようになり、

式（９）は以下のようになる。

α_i＝αと設定し、交差検定により最適なパラメータαを求めることが好適である。

Ｅ．多項分布
以上の説明では、画像はそれぞれＧＭＭとしてモデル化された。他の実装例では、画像は多項分布としてモデル化される。例えば、G. Csurka, C. Dance, L. Fan, J. Willamowski 及びC. Brayによる "Visual Categorization with Bags of Keypoints," ECCV workshop on Statistical Learning in Computer Vision, 2004 や米国特許出願公開第２００８／００６９４５６号明細書に記載されたようなbag-of-visual-words (BOV)法に基づく画像表現を用いてもよい。この実施例では、画像は、視覚単語(visual word)の頻度のヒストグラムとしてコード化される。

ＧＭＭ実装の場合のようにＮ個の参照画像が存在すると仮定する。ただし、ここでは、参照画像はそれぞれＢＯＶ表現で記述される。各参照ＢＯＶは、確率的潜在意味論解析(ＰＬＳＡ: Probability Latent Semantic Analysis)モデル（T. Hofmann, "Unsupervised learning by probabilistic latent semantic analysis," Journal of Machine Learning, vol. 42, pp. 177-196, 2001参照。以下ではＨｏｆｍａｎｎ論文と呼ぶ）の一側面と見なしてもよい。参照画像ｉにおける視覚単語ｖ_jの頻度をｐ_i,jとする。記述対象の画像における視覚単語ｖｊの頻度をｑ_jとする。

このような場合、目的関数（１）は以下のようになる。

例えば、以下のＥＭアルゴリズムを繰り返して起用してもよい（Ｈｏｆｍａｎｎ論文参照）。
Ｅステップ：

Ｍステップ：

Ｆ．応用
上述のいずれの方法で生成された重み２６のベクトルであっても、以下に例示するような様々な応用における画像２４の表現として用いることができる。

１．画像検索：２つの画像同士の距離は、それら画像の混合重みベクトル同士の距離として定義することができる。ベクトル同士の類似度／距離についての適切な尺度としては、内積(dot product)、カイ二乗距離、カルバック-ライブラー情報量(Kullback-Leibler divergence)、ジェンセン-シャノン情報量(Jensen-Shannon divergence)等があり、これらは例えば類似度を計算するのに用いてよい。例えば、画像の大きな集合Ｓ、及びそれら画像に対応するベクトル２６の集まりが、メモリに格納される。ユーザは、新たな画像を入力するか、又は前述の集合（一組の画像）の中から１つを選び、それをターゲット画像として用いる。ターゲット画像のベクトルに対する各画像のベクトルの類似度に基づき、その集合の中から類似画像を自動的に検索される。例えば、この装置は、閾値以上の類似度を持つベクトルを持つ画像を検索する。また別の例では、類似度値が最も高い１０個（又は他の選ばれた数の）画像を集合から検索してもよい。検索された画像は、例えばディスプレイ１２上に、ユーザの閲覧のために提示される。
画像検索のためのコンポーネントは、画像表現生成器内に含まれていてもよいし、画像表現生成器の別のコンポーネントであってもよいし、別のコンピュータであってもよい。２．画像分類：画像のベクトル表現は、図３に模式的に示したように、ほとんどどのような判別分類器６０に供給してもよい。例示する分類器は、スパースロジスティック回帰(sparse logistic regression)、ニューラルネットワーク、線形判別分析(linear discriminant analysis)、サポートベクターマシン(support vector machines)、ナイーブベイズ(naive Bayes)などに基づくものであってよい。例えば、分類器は、自動車、ポートレイト、陸の風景、海の風景、都会のシーンなどのようなクラスの集合の中の１つに手作業で割り当てられた画像群を用いて学習させてもよい。分類器は、新たな画像のベクトル表現に基づき、その画像に分類（クラス）ラベル６２を割り当てる。分類器６０は、画像表現生成器１６に含まれていてもよいし、同じコンピュータ１０内の別のコンポーネントであってもよいし、通信可能に接続された別のコンピュータであってもよい。

割り当てられた分類（クラス）は、クラスに基づく自動画像強調（例えばMarco Bressanらによる" CLASS-BASED IMAGE ENHANCEMENT SYSTEM "と題された２００７年６月２５日出願の米国特許出願番号第１１／７６７７３９号を参照）やクラスに基づく画像クロッピング（切り取り）（Csurkaによる" CONTEXT DEPENDENT INTELLIGENT THUMBNAIL IMAGES "と題された米国特許出願番号第１２／０３３４３４号を参照）等のような、更なるコンピュータによる処理において用いてもよい。

３．画像クラスタリング：画像表現２６は非負なので、確率的潜在意味論解析(ＰＬＳＡ: Probability Latent Semantic Analysis)クラスタリングに適している。例えば、一組の画像（画像の集合）を、各々の画像表現の類似度に基づき、複数のクラスタへとクラスタリングしてもよい。コンピュータ１０、又は通信可能に接続されたコンピュータは、画像クラスタリングのためのコンポーネントを有していてもよい。

以上に説明した混合に基づく画像の表現は、頑強（ロバスト）であり、使用しやすく、従来のカーネルに基づく学習や類似性又は非類似性に基づく学習の技術に対する便利な代替技術となる。この実施形態の方法のそれら従来の方法に対する利点の一つは、従来の方法では各参照オブジェクトが画像表現に対してそれぞれ独立して寄与しているという点にある。この実施形態の方法では、複数の参照画像が一緒になって画像表現に寄与する。画像のデータセットに対するこの実施形態の方法の評価によれば、この方法は、分類作業においてより高い精度を示した。

この実施形態の方法は、画像が参照概念の集合に関して記述されることを必要とせず、むしろ参照画像の集合に関して記述されるようにすることができるという利点を持つ。意味的な概念の学習にはラベル付けされたデータを大量に必要とするが、例示的な参照画像はラベル付けされている必要はない。

例：
画像のデータセットを、分類アプリケーションにおけるこの実施形態の画像表現の精度をテストするのに用いた。そのデータセットとして、ＰＡＳＣＡＬＶＯＣ２００７データベースを用いた。これは２０のオブジェクトカテゴリから構成されている。すなわち、人、鳥、猫、牛、犬、馬、羊、飛行機、自転車、ボート、バス、車、バイク、列車、瓶、椅子、ダイニングテーブル、鉢植えの植物、ソファ、及びテレビモニターというカテゴリである。そのデータセットの中には、学習用の画像が５０１１と、テスト（性能評価）用の画像が４０９２ある。

性能の尺度としては平均精度（ＡＰ：Average Precision。平均適合率とも呼ばれる)を用いた。２０のカテゴリにわたるＡＰの平均値としての、平均精度の平均値(ｍＡＰ：mean AP)を、ここで報告する。各クラスについての精度は、システムにより当該クラスに割り当てられた画像の数に対するパーセンテージとしての、システムにより正しく分類された画像の数である。平均精度は、リストを正しく分類された画像の各々の後を順に切り捨てたあとに計算される精度の平均である（例えば、この定義については、http://en.wikipedia.org/wiki/Information_retrieval#Average_precision_of_precision_and_recallを参照のこと）。

この例では、２つのタイプの低レベル特徴を用いた。グレーレベル特徴とカラー特徴である。これら特徴ベクトルの次元数を、主成分解析（ＰＣＡ）を用いて低減した。

データセット中の学習用画像は参照画像として用いた。まず汎用モデル（ＧＭＭ）を、全学習用画像の部分集合を用いて、米国特許出願番号第１１／９４７８５９号明細書に記載された方法を用いて学習させた。次に、その汎用ＧＭＭを最大事後確率（ＭＡＰ）で改造することにより、個々の画像ＧＭＭが推定された。参照画像（これらはそれぞれクラスに応じてラベル付けされている）を用いて分類器を学習させた。学習用の集合の各画像が、各々のベクトルに基づいて、学習済みの分類器を用いて分類された。分類結果が正しいかどうかを人手で評価した。

仮想標本近似（Ｃ節）は、標本近似（Ｂ節）よりも常に優れていることが分かった。したがって、仮想標本化法についての結果のみを報告する。相違は、ｑが先験的（事前）情報を織り込んでいるという事実によるのかもしれない。分類のために、スパースロジスティック回帰（ＳＬＲ）を用いた。

分類結果を図５に示す（「実施形態の方法」と示した方）。比較のために、米国特許出願番号第１１／９４７８５９号の方法を同じデータセットに対して用いた（「比較対象の方法」）。比較対象の方法では、画像は、一組の参照画像に関する類似度／距離のベクトルによりモデル化された。この方法が提案する尺度はＫＬ（カルバック・ライブラー）ダイバージェンス又はprobability product kernel (PPK)である。ＫＬダイバージェンスについての結果のみを示す。

平均精度平均（ｍＡＰ）がより高いこと、特にガウシアン成分の数が小さい場合により高いことを見れば分かるように、実施形態の方法により分類精度の向上がもたらされた。

１０コンピュータ、１２ディスプレイ、１４キーボード、１６画像表現コンポーネント、１８データメモリ、２０参照画像、２２ＧＭＭ、２４原画像、２６画像表現、２７画像ソース、２８リンク、２９入出力コネクション、３０主メモリ、３２プロセッサ、３４データ制御バス、４０目的関数。

Claims

画像表現を生成する方法であって、
原画像を複数の参照画像の混合としてモデル化するステップであって、前記原画像を前記複数の参照画像のモデルの各々についての混合重みを含んだ一組の混合重みにより表現することを特徴とするステップ、
を含み、
前記混合重みは、各前記参照画像が重み付けされた確率分布により表現される目的関数を最適化することにより推定され、
前記原画像が前記参照画像のうちの１つである場合は、前記目的関数の最適化処理を、最適化が完全に達成する前に終了させる、
ことを特徴とする方法。
前記複数の参照画像は、一組の確率分布についての確率密度関数としてモデル化されている、請求項１記載の方法。
前記参照画像のモデルはガウシアン混合モデルである、請求項１記載の方法。
画像表現を生成するための、コンピュータに実装される装置であって、
複数の参照画像のモデルを記憶するメモリと、
メモリに記憶され、コンピュータのプロセッサにより実行される画像表現生成器であって、原画像の画像表現を、前記複数の参照画像のモデルの混合として出力し、前記混合においては、前記複数の参照画像のモデルの各々についての混合重みを含んだ一組の混合重みにより前記原画像が記述されることを特徴とする画像表現生成器と、
を備え、
前記混合重みは、各前記参照画像が重み付けされた確率分布により表現される目的関数を最適化することにより推定され、
前記原画像が前記参照画像のうちの１つである場合は、前記目的関数の最適化処理を、最適化が完全に達成する前に終了させる、
ことを特徴とする装置。