JP5373536B2 - 複数の画像モデルの混合としての画像のモデリング - Google Patents

複数の画像モデルの混合としての画像のモデリング Download PDF

Info

Publication number
JP5373536B2
JP5373536B2 JP2009235579A JP2009235579A JP5373536B2 JP 5373536 B2 JP5373536 B2 JP 5373536B2 JP 2009235579 A JP2009235579 A JP 2009235579A JP 2009235579 A JP2009235579 A JP 2009235579A JP 5373536 B2 JP5373536 B2 JP 5373536B2
Authority
JP
Japan
Prior art keywords
image
images
mixture
representation
reference images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009235579A
Other languages
English (en)
Other versions
JP2010097610A (ja
Inventor
ペロニン フローラン
リュウ ヤン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xerox Corp
Original Assignee
Xerox Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xerox Corp filed Critical Xerox Corp
Publication of JP2010097610A publication Critical patent/JP2010097610A/ja
Application granted granted Critical
Publication of JP5373536B2 publication Critical patent/JP5373536B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、画像の特徴付け(特徴解析)に関し、特に、一組の参照画像の組み合わせとしての画像表現の生成に関する。この装置及び方法の実装例には、例えば画像検索、画像カテゴリ分け、画像クラスタリングなどの応用がある。
デジタル画像の利用が広まったことにより、検索、カテゴリ分け、クラスタリング、画像強調などの様々な画像処理アプリケーションの重要性が高まってきている。画像のデータベースから、例えば自動車などといった特定の種類の物の画像を検索したり、ある画像が与えられた場合に画像データベースから類似の画像を識別し検索したり、大量の画像を内容の類似性に基づき一組のクラス(分類)へとクラスタリングしたりできることは、有益であろう。
そのような技術を自動又は半自動で実行できるようにするために、画像の内容に基づく自動化された画像特徴付け(特徴解析)のための何らかの機構が望まれる。デジタル画像は本質的に、一般的には何百万物画素のそれぞれについての、色値などの画素値の形であるので、画像特徴付け技術は典型的には、パッチと呼ばれる画像の複数の小さい部分に基づいて画像中から特徴を抽出することに依拠している。多数の学習用画像から抽出された情報を用いて分類器を学習させることに依拠する画像のカテゴリ分けのための方法がこれまで発展してきた。学習用画像は、人、有形、動物、建物などといったあらかじめ定められた一組の被写体カテゴリの1つ又は複数に手作業でラベル付けされる。分類器は、新たな画像を当該画像から抽出された特徴とラベル付けされた複数の画像から抽出された特徴とに基づきどのように特徴付けするかを学習する。しかし、このような技術は、学習フェーズにおいて多くの人手を要し、分類器が学習すべき各クラスに多数の画像を人手でラベル付けすることがしばしば必要となる。更に、新たなカテゴリを追加するには、分類器をかなり再学習させる必要がある。
類似する画像同士の識別に依拠する処理では、画像は抽出された低レベルの特徴から生成される高レベルの表現を用いて特徴付けしてもよい。パラメータ化したモデルを用いて画像をモデリングすることが知られている。例えば、ガウシアン・モデルは、低レベルの画像特徴を表し平均ベクトルと共分散行列パラメータを有するガウス分布を用いて画像を特徴付けする。画像を単一のガウシアン成分で特徴付けすることで、例えば2つの画像モデルの平均ベクトルと共分散行列とを比較する等の方法により、異なる画像同士の直接的な比較が可能になる。しかし、単一のガウシアン成分を持つ分布では内容(コンテンツ)の記述力が限られ、画像を適切に記述するのには不十分である。他の方法では、画像を特徴付けするのに混合(組み合わせ)モデルが用いられる。例えば、ガウシアン混合モデル(GMM)は、画像の低レベルの特徴の分布を、それぞれが平均ベクトルと共分散行列パラメータとを有する複数のガウシアン成分を重み付けして」組み合わせたものを用いて記述する。
GMMやその他の混合モデルは、画像を特徴付ける成分の数を多くすることができるという利点がある。その一方、画像同士の類似度を評価(推定)するのがより難しくなる。例えば、実際にはかなり類似している2つの画像同士が、画像から抽出される特徴ベクトルの集合の疎らさにより、互いに非常に異なる混合モデルパラメータ集合に適合することになるかもしれない。このような場合、それら2つの画像の混合モデル同士から計算される距離は大きくなり、それら画像は、誤ってかなり異なるものとみなされてしまうことになる。
このロバスト(頑強)性の問題に加えて、混合モデルを用いることにより、画像比較のために多くの計算が必要になる。例えば、いくつかの研究では、約128のガウシアン成分を持つGMMが画像を十分に特徴付けするのに望ましいと見積もられている。したがって、2つの画像の比較では、128個のガウシアン成分同士の組み合わせごとにペアごとの比較を行うことになり、これには約16000のガウス比較演算が必要であり、多くの応用において計算量的に高コスト過ぎるものとなる。
米国特許出願公開第2007/0005356号明細書 米国特許出願公開第2007/0258648号明細書 米国特許出願公開第2008/0069456号明細書 米国特許出願公開第2008/0144068号明細書 米国特許第7124149号明細書
Bosch, et al, "Scene Classification Via pLSA", ECCV, 2006. Goldberger et al., "An Efficient Image Similarity Measure based on Approximations of KL-Divergence Between Two Gaussian Mixtures," ICCV, 2003 G. Csurka, C. Dance, L. Fan, J. Willamowski , C. Bray, "Visual Categorization with Bags of Keypoints," ECCV workshop on Statistical Learning in Computer Vision, 2004 T. Hofmann, "Unsupervised learning by probabilistic latent semantic analysis," Journal of Machine Learning, vol. 42, pp. 177-196, 2001
頑強で使いやすく、大部分は自動的に生成することができる画像表現の生成装置及び方法を提供する。
1つの側面では、画像表現を生成する方法が提供される。この方法は、原画像を複数の参照画像の混合としてモデル化するステップであって、前記原画像を前記複数の参照画像の各々についての混合重みを含んだ一組の混合重みにより表現することを特徴とするステップ、を含む。
上述の方法では、前記複数の参照画像は、それぞれ、一組の確率分布についての確率密度関数としてモデル化されていてもよい。
この方法では、前記確率分布は連続確率分布であってもよい。
この方法では、前記参照画像のモデルはガウシアン混合モデル(GMM)であってもよい。
各GMMは一組のガウシアン関数の各々についての重みを含んでいてもよい。
前述のGMMは、ある共通のGMMから求めてもよい。
この方法では、前記参照画像は多項式分布として表現してもよい。
前記多項式分布は、bag-of-visual-words表現であってもよい。
当該方法では、モデル化の処理では、目的関数を最適化することにより前記混合重みを推定する。なお、目的関数の中では、各参照画像が重み付けされた確率分布により表現される。
目的関数の最適化では、次の一般形式を持つ目的関数を最大化してもよい。
Figure 0005373536
ここで、Eqはqの元での期待値を表し、Ωは原画像と複数の参照画像から抽出された低レベル特徴ベクトルの空間である。
目的関数の最適化は、期待値最大化法又は勾配降下法により実行してもよい。
原画像は前記複数の参照画像のうちの1つであってもよく、目的関数の最適化処理は、最適化が完全に達成される前に終了してもよい。
この方法は、更に、メモリ内で、前記一組の混合重みを含んだ画像表現を前記原画像と対応づけるステップを更に含む。
画像同士の間の類似度を計算する方法は、上述の方法を用いて少なくとも2つの原画像の画像表現を生成するステップを含んでいてもよい。また、この方法は、更に、複数の原画像のうちの第1の原画像と、それら複数の原画像のうちの少なくとも第2の原画像との間の類似度を、前記第1の原画像についての混合重みの第1の集合と、前記第2の原画像についての混合重みの第2の集合と,に基づいて計算するステップを含んでいてもよい。ここで、混合重みの第1の集合と第2の集合は、それぞれ、前記第1の原画像と前記第2の原画像と前記複数の参照画像のモデルの混合としてモデル化したものである。
画像を分類する方法は、複数の学習用画像についての画像表現を上述の方法により生成するステップと、前記各学習用画像の画像表現と前記各学習用画像に対応する分類ラベルとに基づいて分類器を学習させるステップと、学習済みの分類を用いて、新たな画像に対して、当該新たな画像の画像表現に基づいて分類(クラス)を割り当てる(すなわち分類する)ステップと,を含む。
この方法は、一組の画像を少なくとも2つのグループへとクラスタリングするステップを更に含む。ここで、各画像はそれぞれ一組の混合重みとしてモデル化されており、クラスタリングはその一組の混合重みに基づいている。
以上に記載した方法を実行するための命令群をコード化したコンピュータプログラムを提供してもよい。
コンピュータ装置は、上に記載した方法(上述したいくつかの例のうちのどれでも)を実行するための命令群を記憶するメモリと、それら命令群を実行する、前記メモリと通信可能なプロセッサと、を含んでいてもよい。
別の側面では、画像表現を生成するための、コンピュータに実装される装置が提供される。この装置は、参照画像の集合を記憶するメモリと、画像表現生成器とを備える。画像表現生成器は、原画像の画像表現を、前記複数の参照画像のモデルの混合として出力し、前記混合においては、前記複数の参照画像のモデルの各々についての混合重みを含んだ一組の混合重みにより前記原画像が記述される。
上述の装置において、前記画像表現生成器は、画像から特徴を抽出する特徴抽出コンポーネントと、抽出された特徴に基づいて各参照画像と原画像とについてのGMMをそれぞれ生成する画像モデル生成器と、前記各参照画像のGMMについての重みを最適化することにより目的関数を最適化する最適化コンポーネントと、前記原画像について一組の最適化された重みを含んだベクトルを出力する出力コンポーネントと、を備えていてもよい。
また別の側面では、画像表現を生成するための方法は、一組の参照画像のうちの各参照画像を、それぞれ、当該参照画像から抽出された特徴群に基づくGMMとしてモデル化するステップを含む。この方法は、目的関数(この目的関数の中では前記各GMMがそれぞれ重みに対応づけられている)を最適化することにより、原画像を前記各参照画像のGMMの混合としてモデル化するステップと、最適化された目的関数の各重みを前記画像表現として出力するステップとを更に含む。
デジタル画像の表現を生成するための装置の例を示す機能ブロック図である。 図1の装置で実行することができる、デジタル画像の表現を生成するための方法の例を示すフローチャートである。 図1の装置により生成された画像表現を入力として受け取る分類器の例を示すブロック図である。 図1の装置の画像表現生成器の例を示すブロック図である。 比較対象の方法と実施形態の方法とについて、平均精度の平均値(mAP)とガウシアン成分の数とをプロットした図である。
これから例示する実施形態は、原画像の画像表現を生成するための装置、方法及びコンピュータプログラムに関する。複数の参照画像が、最初にそれぞれモデル化される。次に原画像がそれら参照画像の混合(組み合わせ)、より正確にはそれら参照画像のモデルの混合、としてモデル化される。画像表現は、例えば、個々の参照画像のモデルについてそれぞれ1つの重みで、重み混合のベクトルである。この表現は、検索、カテゴリ分け、クラスタリングなどの様々な応用(アプリケーション)に利用可能である。
この方法で特徴付けされる原画像は、JPEG,GIF,JBIG,BMP,TIFF又は画像に用いられるその他の一般的なファイルフォーマットのようなどのようなファイルフォーマットの形でこの装置に受信されてもよく、そのフォーマットは場合によっては処理の前に他の適切なフォーマットに変換されてもよい。画像は単独の画像であってもヴィデオ画像であってもよく、またスキャンされた画像、写真、グラフィックス、テキスト画像、又はそれらの組み合わせなどであり得る。大まかに言えば、入力されるデジタル画像は,当該画像を形成する画素の配列(アレイ)についての画像データを含み、例えばビットマップの形式となっている。画像データは、単一の色分版について(例えば白黒画像について)、又はRGBなどの一組の色分版について、グレーレベルなどの色値を含んでいてもよく、また、異なった色を表現できる他の色空間で表現してもよい。一般的には、色値は、(RGB,L*a*b*,YCbCr等々のように)どのように表現したとしても、単一の色チャネルの光学的濃度値であり得る。
図1には、画像表現を生成するための装置の一例が例示されている。この装置は、図示したコンピュータ10のような1以上の電子処理装置に実装することができる。このコンピュータは、表示又はその他の人間が知覚可能な出力を生成するためのディスプレイ12その他の出力装置と、ユーザからの入力を受け取るキーボード14その他の入力装置とを備える。電子処理装置10は、画像表現生成器16を実装するように構成されている。電子処理装置10は、図示したコンピュータであってもよいし、ネットワークサーバ、インターネットベースのサーバ、PDA(Personal Data Assistant)、携帯電話などのような他の電子処理装置であってもよい。コンピュータ10は、画像データとしての一組の参照画像20(R1,R2,R3,R4とラベル付けされている)、及び/又は参照モデル22(GMM1,GMM2,GMM3,GMM4トラベル付けされている)などの参照画像から抽出された情報を格納するためのデータメモリ18を備える。なお、「A及び/又はB」という記載は、Aのみの場合と、Bのみの場合と、A及びBの場合とのいずれであってもよいことを示す。コンピュータ10は、表現を生成すべき原画像24を受信してデータメモリ18などのメモリにその画像を格納するとともに、画像表現生成器16で生成されたその画像の表現26の格納及び/又は出力を行うように構成されている。画像24は、ワークステーション、データベース、スキャナ、ファックス装置、又はディスクやカメラメモリ、メモリスティック(登録商標)などのメモリストレージ装置、などのような適切な画像ソース27であればどのようなものからでも入力され得る。画像ソース27は、ケーブル、電話線、ローカルエリアネットワーク、又はインターネットなどのワイドエリアネットワークなどの有線又は無線のリンク28により、モデム、USBポートなどの適切な入出力(I/O)コネクション(接続部)29を介して、コンピュータ10に対し一時的又は永久的に通信可能に接続されていてもよい。
画像表現生成器16は、ハードウエア又はソフトウエア又はそれらの組み合わせとして具現化することができる。図示の通り、表現生成器16は、コンピュータの主メモリ30内に記憶されたソフトウエア・コンポーネントの形となっており、そのコンピュータの中央演算装置(CPU)等のような関連のプロセッサ32により実行される。コンピュータ10のコンポーネント18,30,32は例えばデータ制御バス34を介して通信する。メモリ18,30は別々のものであっても一体となったものであってもよく、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、磁気ディスク又は磁気テープ、光ディスク、フラッシュメモリ、ホログラフィックメモリ、又はそれらの適切な組み合わせなどのような,どのような種類のコンピュータ読み取り可能な媒体の形態をとってもよい。
例示する画像表現生成器16は、画像24の表現を生成するための命令群を有している。以下に詳細に示すように、これらの命令群には、目的関数(objective function)40の混合重みωiを推定し、原画像の表現26として一組の混合重みを出力する命令群が含まれる。ここで、前述した一組の参照画像20の各参照モデル22がそれぞれ対応する重みωiに対応づけられている。更に詳しくは、画像表現生成器16は、「対数尤度関数」(log likelihood function)40(これは例えば例えば後で示す式(1)に示される形のものでよい)を受け取り、N個の調整可能な重みパラメータωi(各参照画像について1つずつ)を最適化して、最適化対数尤度関数を生成する。最適化対数尤度関数のそれら重みωiは、原画像の表現26として格納される。それら重みωiは、各参照画像モデルの原画像に対する相対的な寄与度合いを表す。
ここで用いたように、「最適化」(optimize)や「最大化」(maximize)、その他の類似の述語は、完全な最適や完全な最大のみならず、大域的な最適や最大に近いものの正確には大域的な最適や最大ではない最大や最適も含み、また大域的な最適や最大ではない局所的な最適や最大に近い最大や最適をも含む、広い意味で用いている。例えば、繰り返し処理を用いて、パラメータωiについての対数尤度を最適化してもよい。そのようにする場合に、繰り返しアルゴリズムは、対数尤度関数が完全な大域的最大値に達するに至らない点で当該アルゴリズムに最適化処理を停止させる停止判定基準に基づき、終了させられるようにしてもよい。このような最適化処理は、求められる対数尤度関数の最終的な値がパラメータωiの調整により到達可能な絶対的な最大値ではない場合でも、パラメータにωiについての対数尤度関数を「最適化する」処理ということにする。同様に、この明細書にて開示又は使用する最適化アルゴリズムのいくつかは、大域的な最適値よりも局所的な最適値に収束するものであってもよい。再びいえば、そのような最適化アルゴリズムは、最終的な値が完全な最適値でない場合でも、パラメータωiを最適化するということにする。
画像表現26を生成するための方法の例の概要が図2に示されている。この方法はS100で開始される。
S102で、一組の参照画像20が受け取られ、処理の間はデータメモリ18に格納される。
S104では、参照画像20の各々について、一組の低レベル特徴が抽出される。これらの特徴は、その画像の一組のパッチ(領域)から抽出してもよい。それらパッチは、キーポイントで、あるいはランダムに、あるいは例えば米国特許出願公開第2007/0005356号明細書、米国特許出願公開第2007/0258648号明細書、及び米国特許出願公開第2008/0069456号明細書等に記載された多重スケールでのような規則的な格子上で、取得してもよい。抽出される低レベル特徴は、例えば勾配特徴、画素色、グレーレベルなどであり、パッチごとに特徴ベクトル又は特徴行列の形へと連結されていてもよい。画像から2以上の低レベル特徴を抽出し、2以上の特徴ベクトルを求めるようにしてもよい。特徴ベクトルの次元数は、主成分解析(PCA)を用いて提言してもよい。
S106では、参照画像20ごとに、抽出された特徴群(特徴ベクトル)に基づき、参照モデル22の学習が行われる。この明細書に示す様々な実装例では、各参照モデル22は、一組の連続的又は離散的な確率分布を記述する確率密度関数である。一例として、各参照モデルは、連続的な確率分布を用いるガウシアン混合モデル(GMM)である。他の実装例では、参照モデルは、離散的な確率分布を用いる多項分布である。しかし、これらの代わりに、例えばいくつかのガウス分布成分といくつかのラプラス分布成分とを含んだ混合モデルのような、他の混合モデルを用いてもよい。
S108で、モデル化すべき原画像24が受け取られ格納される。
S110で、原画像24の低レベル特徴が、参照画像20について説明したのと同様の方法(S104)により抽出される。
S112で、目的関数40(この目的関数の中で、各参照画像が各々の確率密度関数(例えばGMM)で表現される)とこれに関連する重みとを最適化することにより、原画像24がモデル化される。
S114で、最適化された目的関数の重みが、混合重みベクトル26として、格納及び/又は出力される。そのベクトル26は画像24の表現として機能する。低レベル特徴として複数の種類の特徴を用いる場合は、混合重みベクトルは各特徴種類ごとに生成してもよい。
S116で、上述のようにして得られた混合重みベクトル26を利用する、コンピュータに実装された処理を実行してもよい。例えば、1つの画像についての混合重みベクトルを、クラスタリング又は類似性判定のために、同じ方法で求めた1つ又は複数の他の画像の混合重みベクトルと比較することができる。他の実施例では、画像24の混合重みベクトル26を、手作業でラベル付けされた一組の学習用画像の各々の混合重みベクトルを用いて学習済みである分類器42(図3)に入力することにより、画像24を分類してもよい。分類器は、分類器自身が学習済みの複数の画像クラスの中の1つのクラスに対応するクラスラベル44を画像に対して付与する。
この方法は、ステップ118で終了する。
図4は、画像表現生成器16の一例と、その画像表現生成器16がこの実施例の方法を実行するために備えていてもよいコンポーネントとの機能ブロック図である。理解されるように、それらコンポ-ネットは、ソフトウエア・コンポーネントであってもよく、適宜結合したり複数のサブコンポーネントに分割したりすることができるものであってもよい。画像表現生成器16は、参照画像20及び原画像24などの画像から特徴を抽出する特徴抽出コンポーネントを備える(S104,S110)。参照画像モデル生成器52は、各参照モデルと原画像とのそれぞれについて、抽出された特徴に基づき、例えば学習済みの普遍(ユニバーサル)を用いて処理を開始して、GMM22(又は他の確率モデル)を生成する。最適化コンポーネント56は、各参照画像GMM22についての重みを最適化することにより、目的関数40を最適化する。出力コンポーネント58は、最適化された一組の重みを含んだ、原画像についてのベクトルを出力する。
この例示の方法(及び表現生成器)は、1台又は複数の汎用コンピュータ、特定用途コンピュータ、プログラムされたマイクロプロセッサ又はマイクロコントローラ及び周辺集積回路要素、ASICその他の集積回路、デジタルシグナルプロセッサ、ディスクリート要素回路のようなハードワイヤードの電子又は論理回路、PLD、PLA、FPGA又はPALなどのようなプログラマブルロジックデバイスに対して実装してもよい。一般的には、図2に示したフローチャートを実装することが可能な有限状態機械を実装可能な装置であれば、どのような装置であっても、画像表現を生成するための上記方法を実装するのに用いることができる。
図2に例示された方法は、コンピュータで実行されるようなコンピュータプログラム製品の形で実施してもよい。コンピュータプログラム製品は、制御プログラムを記録したディスク、ハードドライブなどのような有形のコンピュータ読み取り可能な記録媒体であってもよいし、その制御プログラムをデータ信号として表す伝送可能な搬送波であってもよい。コンピュータ読み取り可能な媒体の一般的な形態には、例えば、フロッピー(登録商標)ディスク、フレキシブルディスク、ハードディスク、磁気テープ、その他の磁気媒体、CD−ROM、DVD、その他の光学的媒体、RAM、PROM、EPROM、FLASH−EPROM、その他のメモリチップ又はカートリッジ、音響波又は光波など、無線及び赤外線データ通信の際に生成される波などの送信媒体、又はその他のコンピュータが読み取って使用することが可能な媒体が含まれる。
この方法及び装置のこのほかの側面を、以下に示す各節にて説明する。A節では、表記体系を導入し、この方法の一実装例についての数学的な枠組みを説明する。B節及びC節では、画像表現、すなわち対数尤度関数の混合重みを計算するために用いることができる2つの最適化戦略を説明する。D節では、収束の問題について議論する。A〜D節では、画像が連続分布(GMM)としてモデル化される場合に焦点を当てていることに注意されたい。E節では、他の実装例として、画像が多項分布によりモデル化される場合についての例について議論する。F節では、画像表現の様々な応用について議論する。
A.表記及び数学的な枠組み
一実装例では、画像(参照画像及び原画像)は、例えばガウシアン混合モデル(GMM)などの混合モデルとしてモデル化される。この例のシステムでは、画像Iを記述するGMMは、画像Iから抽出された一組の低レベル特徴ベクトルから推定される。その画像中の低レベル特徴の密度は、複数の分布関数(ガウシアン)の混合(組み合わせ)により推定され、表現される。したがって、GMMは、低レベル画像特徴のガウシアン標本(表現)の重み付き混合(組み合わせ)であり、各ガウシアンは平均ベクトルと共分散行列パラメータを有している。各画像は一組のガウシアンにより記述される。1つの実施例では、各画像20,24についてのGMMは、例えば発明者Liu 及び Perronninによる「OBJECT COMPARISON, RETRIEVAL, AND CATEGORIZATION METHODS AND APPARATUSES」と題する米国特許出願番号第11/947859号に記載されたような、汎用(ユニバーサル)GMMを適合させることにより生成される。
汎用GMMは、まず多数の画像(参照用の組に含まれる画像には限定されない)から抽出された多数のパッチを用いて学習する。そして、注目する画像から抽出されたパッチ群を用いてその汎用GMMを学習させることで、汎用GMMが適合される。
原画像のGMM内のガウシアンの数をKとし、i番目の参照画像内のガウシアンの数をKiとする。K及びKiは、例えば少なくとも15又は少なくとも20、例えば約40又はそれ以上であってもよく、例えば約1000又はそれ以上までの数で合ってもよく、例えば約500未満であってもよい。また、参照画像20の数をNとする。Nは、例えば少なくとも10又は少なくとも20であってもよく、いくつかの実施例では例えば少なくとも50であり、1000又は5000又はそれ以上にまで、例えば約100万までに及んでもよい。
記述対象の画像24の混合モデルをqとする。したがって、
Figure 0005373536
であり、ここでqkはk番目のガウシアンを、πkはk番目のガウシアンのGMM内での重みを示す。i番目の参照画像の確率密度関数は、
Figure 0005373536
と表され、ここでpi,kはi番目の参照画像のk番目のガウシアンを、πi,kはそのガウシアンのGMM内での重みを示す。
N個の参照画像の重み付け結合(組み合わせ)としての画像24の表現は、以下のコスト関数を最大化する混合重みωiを推定することにより、好適に得ることができる。
Figure 0005373536
ここで、Eqはqのもとでの期待値(expectation under q)を表す。Ωは原画像及び参照画像から抽出された低レベル特徴の空間である。
最適化は以下の2つの制約の下で実行してもよい。
Figure 0005373536
Figure 0005373536
第1の制約は、負の重みを避けるものである。第2の制約はすべての重みの総和が特定の値(この例では1)となるようにすることを要求している。
画像の表現26の重みをベクトル{ω12,ω3,…ωN}として連結してもよい。
Figure 0005373536
がqに最も近くなるときに、式(1)の関数は最適化される。もちろん、式(1)の代わりに他の最適化関数を用いてもよい。qと
Figure 0005373536
との類似度を表す関数であればどのような関数を用いてもよい。関数は、異なる様々な形を取り得る。例えば、目的関数は、
Figure 0005373536
の形を取り得る。
式(1)が凸の目的関数である場合は、直接的に最適化することは難しい。したがって、重みωiを推定するのに近似法を用いる。以下の議論では、例として、2つの近似法を説明するが、それらはともに期待値最大化(EM:Expectation Maximization)アルゴリズムに基づいている。第1に、B節で説明するように、システム16は、qにしたがって分布した一組の特徴ベクトルXへのアクセス権を持つと仮定する。第2に、C節にて説明するように、システムは、qへのアクセス権を持つのみであると仮定する。他の最適化方法には、勾配降下法又は最大事後確率(MAP: Maximum a Posteoriori)法などがある(例えばD節を参照)。ここで用いることができる他の最適化法は、米国特許出願番号第12/245939号に記載されている。
B.標本化近似
X={xt,t=1,…T}を、qにしたがって分布した一組の特徴ベクトルとする。これは典型的には、記述対象の画像24から抽出された一組の特徴ベクトルであり、最尤法(MLE)の枠組みの中でqにより既に生成済みであるとする。標本の数Tが十分に大きければ、大数の法則が用いることができ、目的関数(1)は以下のように近似される。
Figure 0005373536
MLEに適した処理手順が、期待値最大化(EM)アルゴリズムであり、例えばDempster らによる論文 "Maximum likelihood from incomplete data via the EM algorithm," Journal of the Royal Statistical Society (1977)に記載されている。EMアルゴリズムは、(1)混合占有の事後確率(占有確率(occupancy probability)とも呼ばれる)をそれらパラメータの現在の推定値に基づいて計算する期待値(E:expactation)ステップと、(2)Eステップで計算された占有確率に依存する完全データ対数尤度の期待値に基づきそれらパラメータを更新する最大化(M)ステップという2つのステップを交互に繰り返す。この例では、ωiの推定のためにEMアルゴリズムを用いる。
Eステップは、占有確率γi(xt)(観測xtがi番目の参照GMMにより生成された確率)を計算する処理を含んでいてもよい。
Figure 0005373536
Mステップにより以下の推定が行われる。
Figure 0005373536
ここで、
Figure 0005373536
は、各重みの最適化された値を示す。これは凸最適化問題なので、初期値の問題はない。この実装例では、すべてのiについて(∀i)最初はωi=1/N(すなわちすべての参照画像モデルに対して同じ重みを割り当てる)と設定することが適切である。最適化の間にこれら重みは変化し、等しくなくなる。
他の例では、勾配降下法などの他のアルゴリズムをEMの代わりに用いてもよい。
C.仮想的な標本化近似
B節の方法の代わりとして、ここではqを直接用いる場合を検討する。qを推定するために用いられる標本Xよりもqを用いるのには少なくとも2つの理由がある。一つは、通常、Xを格納するのにはqを格納するのよりも著しく大きなスペースを要するということである。他の利点は、システムがいくつかのアプリオリ(先験的)な情報をqに組み込んでもよい(例えば、米国特許出願番号第11/947859号参照。この出願では画像GMMが最大事後確率(MAP)基準を用いて推定される)ということである。
例えば、Vasconcelos 及び A. Lippman,の"Learning mixture hierarchies," NIPS, 1998 に記載されたのと似た方法で、GMMqはKブロックの「仮想的な」標本を生成するものと仮定する。ここで、各ブロックは、固定数M個の標本をそれぞれ含んでいるものとする。また、各構成要素qkは1つのブロックを生成し、各ブロックに関連する一意的な隠れ変数があるものと仮定する。Xkは、qkにより生成されたブロックであるとする。ここで、Xk={xk,t,t=1,・・・M}である。
もし、各ブロック内の標本の数Mが十分に大きければ、目的関数(1)は以下のように近似できる(再び大数の法則を用いる)。
Figure 0005373536
次にEMアルゴリズムを用いて重みωiの値を推定することができる。Eステップの間、ブロックXkがpiにより生成された確率γi(Xk)は、以下のようにして計算してもよい。
Figure 0005373536
Mステップの再推定の式は、例えば次のようなものでよい。
Figure 0005373536
次のステップは、pi(Xk)を計算することである。ここで、
Figure 0005373536
であり、H(qk,pi)はqkとpiの間のクロスエントロピーである。再び、この近似は大数の法則(Mが大きいと仮定)に基づいている。したがって、
Figure 0005373536
である。
残りのステップは、クロスエントロピーH(qk,pi)をどのように計算するかを定めることである。qkは混合の構成要素(この例ではガウシアン)であり、piは混合モデル(この例ではGMM)である。したがって、H(qk,pi)については閉形式の式はない。しかし、カルバック・ライブラー・ダイバージェンス(Goldbergerらの"An Efficient Image Similarity Measure based on Approximations of KL-Divergence Between Two Gaussian Mixtures," ICCV, 2003を参照)に対して用いられるのと似た近似を行ってもよい。これは、piをqkに近いモードにより近似する処理を含んでいてもよい。
Figure 0005373536
この例では、qとpiの値は共通のGMMから求められたものなので、qのガウシアンとpiのガウシアンとの間には直接の対応関係がある。したがって、すべてのiについてK=Kiである。よって、式は次のように書くことができる。
Figure 0005373536
2つのガウシアンの間のクロスエントロピーH(qk,pi)についての閉形式が存在する。この直接の対応関係によりH(qk,pi)を計算するコストは1/Kに減少する(より詳細は、米国特許出願番号第11/947859号を参照)。
パラメータMは、例えば交差検定により、容易に最適化できる。前の導出では(大数の法則を適用するために)Mは大きいと仮定したが、実際にはMの(誤り率の最小化の意味での)最適値は、例えば約10未満のように小さくてもよく、1、すなわちM=1まで小さく設定してもよいことが分かった。
D.収束問題
qによりモデル化する対象の画像は参照画像pjのうちの1つである場合がある。これは、(例えば、分類作業において)画像の集合Sの中の各々の画像の表現を計算するのに、Sを参照画像の集合として用いようとする場合に起こる。もしq=piならば、目的関数(1)は、ωj=1かつωi=0,∀i≠jにより最小化される。すなわち、この場合、画像は当該画像自身のGMMによって完全に特徴付けされる。これは、参照画像の集合のの頃について有益な情報をもたらさない。この問題を避けるために、以下に示す3つの戦略(ストラテジー)のうちの1つを用いてもよい。
もっとも単純な戦略は、少ない回数の繰り返し(例えば1,3又は5回)の後で、すなわちEMが完全に収束してしまわないうちに、EM繰り返しを停止することである。あまりにも単純だが、この方法は実用上はよく機能することがわかった。繰り返しを1回とした場合、混合重みの推定値は、(ωiは均一に初期化されていると仮定すると)まさに事後確率である。
第2の戦略は、ωiについての制約を修正し、ωi≦θ<1となるようにすること、すなわち参照画像がすべての重み値を取り得ないようにすることである。最適なθ値は交差検定により見出してもよい。
第3の戦略は、ωiのいずれか1つでも0になることがないようにすることである。このようにするために、ベイズ型枠組(Bayesian framework)を採用し、パラメータωiの分布についての事前確率が存在すると仮定する(ここでの事前情報は重みが0にはなり得ないということである)。これは、最大事後確率(MAP)推定と呼ばれる。このような場合一般的には、パラメータ{αi,i=1,・・・N}を用いたディリクレ事前分布(Dirichlet prior)が仮定される。したがって目的関数は以下のようになる。
Figure 0005373536
Eステップの式(5)及び(8)は変わらない。Mステップは以下のように修正される。すなわち式(6)は以下のようになり、
Figure 0005373536
式(9)は以下のようになる。
Figure 0005373536
αi=αと設定し、交差検定により最適なパラメータαを求めることが好適である。
E.多項分布
以上の説明では、画像はそれぞれGMMとしてモデル化された。他の実装例では、画像は多項分布としてモデル化される。例えば、G. Csurka, C. Dance, L. Fan, J. Willamowski 及びC. Brayによる "Visual Categorization with Bags of Keypoints," ECCV workshop on Statistical Learning in Computer Vision, 2004 や米国特許出願公開第2008/0069456号明細書に記載されたようなbag-of-visual-words (BOV)法に基づく画像表現を用いてもよい。この実施例では、画像は、視覚単語(visual word)の頻度のヒストグラムとしてコード化される。
GMM実装の場合のようにN個の参照画像が存在すると仮定する。ただし、ここでは、参照画像はそれぞれBOV表現で記述される。各参照BOVは、確率的潜在意味論解析(PLSA: Probability Latent Semantic Analysis)モデル(T. Hofmann, "Unsupervised learning by probabilistic latent semantic analysis," Journal of Machine Learning, vol. 42, pp. 177-196, 2001参照。以下ではHofmann論文と呼ぶ)の一側面と見なしてもよい。参照画像iにおける視覚単語vjの頻度をpi,jとする。記述対象の画像における視覚単語vjの頻度をqjとする。
このような場合、目的関数(1)は以下のようになる。
Figure 0005373536
例えば、以下のEMアルゴリズムを繰り返して起用してもよい(Hofmann論文参照)。
Eステップ:
Figure 0005373536
Mステップ:
Figure 0005373536
F.応用
上述のいずれの方法で生成された重み26のベクトルであっても、以下に例示するような様々な応用における画像24の表現として用いることができる。
1.画像検索:2つの画像同士の距離は、それら画像の混合重みベクトル同士の距離として定義することができる。ベクトル同士の類似度/距離についての適切な尺度としては、内積(dot product)、カイ二乗距離、カルバック-ライブラー情報量(Kullback-Leibler divergence)、ジェンセン-シャノン情報量(Jensen-Shannon divergence)等があり、これらは例えば類似度を計算するのに用いてよい。例えば、画像の大きな集合S、及びそれら画像に対応するベクトル26の集まりが、メモリに格納される。ユーザは、新たな画像を入力するか、又は前述の集合(一組の画像)の中から1つを選び、それをターゲット画像として用いる。ターゲット画像のベクトルに対する各画像のベクトルの類似度に基づき、その集合の中から類似画像を自動的に検索される。例えば、この装置は、閾値以上の類似度を持つベクトルを持つ画像を検索する。また別の例では、類似度値が最も高い10個(又は他の選ばれた数の)画像を集合から検索してもよい。検索された画像は、例えばディスプレイ12上に、ユーザの閲覧のために提示される。
画像検索のためのコンポーネントは、画像表現生成器内に含まれていてもよいし、画像表現生成器の別のコンポーネントであってもよいし、別のコンピュータであってもよい。 2.画像分類:画像のベクトル表現は、図3に模式的に示したように、ほとんどどのような判別分類器60に供給してもよい。例示する分類器は、スパースロジスティック回帰(sparse logistic regression)、ニューラルネットワーク、線形判別分析(linear discriminant analysis)、サポートベクターマシン(support vector machines)、ナイーブベイズ(naive Bayes)などに基づくものであってよい。例えば、分類器は、自動車、ポートレイト、陸の風景、海の風景、都会のシーンなどのようなクラスの集合の中の1つに手作業で割り当てられた画像群を用いて学習させてもよい。分類器は、新たな画像のベクトル表現に基づき、その画像に分類(クラス)ラベル62を割り当てる。分類器60は、画像表現生成器16に含まれていてもよいし、同じコンピュータ10内の別のコンポーネントであってもよいし、通信可能に接続された別のコンピュータであってもよい。
割り当てられた分類(クラス)は、クラスに基づく自動画像強調(例えばMarco Bressanらによる" CLASS-BASED IMAGE ENHANCEMENT SYSTEM "と題された2007年6月25日出願の米国特許出願番号第11/767739号を参照)やクラスに基づく画像クロッピング(切り取り)(Csurkaによる" CONTEXT DEPENDENT INTELLIGENT THUMBNAIL IMAGES "と題された米国特許出願番号第12/033434号を参照)等のような、更なるコンピュータによる処理において用いてもよい。
3.画像クラスタリング:画像表現26は非負なので、確率的潜在意味論解析(PLSA: Probability Latent Semantic Analysis)クラスタリングに適している。例えば、一組の画像(画像の集合)を、各々の画像表現の類似度に基づき、複数のクラスタへとクラスタリングしてもよい。コンピュータ10、又は通信可能に接続されたコンピュータは、画像クラスタリングのためのコンポーネントを有していてもよい。
以上に説明した混合に基づく画像の表現は、頑強(ロバスト)であり、使用しやすく、従来のカーネルに基づく学習や類似性又は非類似性に基づく学習の技術に対する便利な代替技術となる。この実施形態の方法のそれら従来の方法に対する利点の一つは、従来の方法では各参照オブジェクトが画像表現に対してそれぞれ独立して寄与しているという点にある。この実施形態の方法では、複数の参照画像が一緒になって画像表現に寄与する。画像のデータセットに対するこの実施形態の方法の評価によれば、この方法は、分類作業においてより高い精度を示した。
この実施形態の方法は、画像が参照概念の集合に関して記述されることを必要とせず、むしろ参照画像の集合に関して記述されるようにすることができるという利点を持つ。意味的な概念の学習にはラベル付けされたデータを大量に必要とするが、例示的な参照画像はラベル付けされている必要はない。
例:
画像のデータセットを、分類アプリケーションにおけるこの実施形態の画像表現の精度をテストするのに用いた。そのデータセットとして、PASCAL VOC 2007データベースを用いた。これは20のオブジェクトカテゴリから構成されている。すなわち、人、鳥、猫、牛、犬、馬、羊、飛行機、自転車、ボート、バス、車、バイク、列車、瓶、椅子、ダイニングテーブル、鉢植えの植物、ソファ、及びテレビモニターというカテゴリである。そのデータセットの中には、学習用の画像が5011と、テスト(性能評価)用の画像が4092ある。
性能の尺度としては平均精度(AP:Average Precision。平均適合率とも呼ばれる)を用いた。20のカテゴリにわたるAPの平均値としての、平均精度の平均値(mAP:mean AP)を、ここで報告する。各クラスについての精度は、システムにより当該クラスに割り当てられた画像の数に対するパーセンテージとしての、システムにより正しく分類された画像の数である。平均精度は、リストを正しく分類された画像の各々の後を順に切り捨てたあとに計算される精度の平均である(例えば、この定義については、http://en.wikipedia.org/wiki/Information_retrieval#Average_precision_of_precision_and_recallを参照のこと)。
この例では、2つのタイプの低レベル特徴を用いた。グレーレベル特徴とカラー特徴である。これら特徴ベクトルの次元数を、主成分解析(PCA)を用いて低減した。
データセット中の学習用画像は参照画像として用いた。まず汎用モデル(GMM)を、全学習用画像の部分集合を用いて、米国特許出願番号第11/947859号明細書に記載された方法を用いて学習させた。次に、その汎用GMMを最大事後確率(MAP)で改造することにより、個々の画像GMMが推定された。参照画像(これらはそれぞれクラスに応じてラベル付けされている)を用いて分類器を学習させた。学習用の集合の各画像が、各々のベクトルに基づいて、学習済みの分類器を用いて分類された。分類結果が正しいかどうかを人手で評価した。
仮想標本近似(C節)は、標本近似(B節)よりも常に優れていることが分かった。したがって、仮想標本化法についての結果のみを報告する。相違は、qが先験的(事前)情報を織り込んでいるという事実によるのかもしれない。分類のために、スパースロジスティック回帰(SLR)を用いた。
分類結果を図5に示す(「実施形態の方法」と示した方)。比較のために、米国特許出願番号第11/947859号の方法を同じデータセットに対して用いた(「比較対象の方法」)。比較対象の方法では、画像は、一組の参照画像に関する類似度/距離のベクトルによりモデル化された。この方法が提案する尺度はKL(カルバック・ライブラー)ダイバージェンス又はprobability product kernel (PPK)である。KLダイバージェンスについての結果のみを示す。
平均精度平均(mAP)がより高いこと、特にガウシアン成分の数が小さい場合により高いことを見れば分かるように、実施形態の方法により分類精度の向上がもたらされた。
10 コンピュータ、12 ディスプレイ、14 キーボード、16 画像表現コンポーネント、18 データメモリ、20 参照画像、22 GMM、24 原画像、26 画像表現、27 画像ソース、28 リンク、29 入出力コネクション、30 主メモリ、32 プロセッサ、34 データ制御バス、40 目的関数。

Claims (4)

  1. 画像表現を生成する方法であって、
    原画像を複数の参照画像の混合としてモデル化するステップであって、前記原画像を前記複数の参照画像のモデルの各々についての混合重みを含んだ一組の混合重みにより表現することを特徴とするステップ、
    を含み、
    前記混合重みは、各前記参照画像が重み付けされた確率分布により表現される目的関数を最適化することにより推定され、
    前記原画像が前記参照画像のうちの1つである場合は、前記目的関数の最適化処理を、最適化が完全に達成する前に終了させる、
    ことを特徴とする方法。
  2. 前記複数の参照画像は、一組の確率分布についての確率密度関数としてモデル化されている、請求項1記載の方法。
  3. 前記参照画像のモデルはガウシアン混合モデルである、請求項1記載の方法。
  4. 画像表現を生成するための、コンピュータに実装される装置であって、
    複数の参照画像のモデルを記憶するメモリと、
    メモリに記憶され、コンピュータのプロセッサにより実行される画像表現生成器であって、原画像の画像表現を、前記複数の参照画像のモデルの混合として出力し、前記混合においては、前記複数の参照画像のモデルの各々についての混合重みを含んだ一組の混合重みにより前記原画像が記述されることを特徴とする画像表現生成器と、
    を備え、
    前記混合重みは、各前記参照画像が重み付けされた確率分布により表現される目的関数を最適化することにより推定され、
    前記原画像が前記参照画像のうちの1つである場合は、前記目的関数の最適化処理を、最適化が完全に達成する前に終了させる、
    ことを特徴とする装置。
JP2009235579A 2008-10-16 2009-10-09 複数の画像モデルの混合としての画像のモデリング Expired - Fee Related JP5373536B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/252,531 US8463051B2 (en) 2008-10-16 2008-10-16 Modeling images as mixtures of image models
US12/252,531 2008-10-16

Publications (2)

Publication Number Publication Date
JP2010097610A JP2010097610A (ja) 2010-04-30
JP5373536B2 true JP5373536B2 (ja) 2013-12-18

Family

ID=42108730

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009235579A Expired - Fee Related JP5373536B2 (ja) 2008-10-16 2009-10-09 複数の画像モデルの混合としての画像のモデリング

Country Status (2)

Country Link
US (1) US8463051B2 (ja)
JP (1) JP5373536B2 (ja)

Families Citing this family (66)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008110013A1 (en) * 2007-03-15 2008-09-18 Centre Hospitalier De L'universite De Montreal Image segmentation
US9233399B2 (en) 2010-02-09 2016-01-12 Xerox Corporation Document separation by document sequence reconstruction based on information capture
US8655069B2 (en) * 2010-03-05 2014-02-18 Microsoft Corporation Updating image segmentation following user input
CN102893294A (zh) 2010-04-30 2013-01-23 沃康普公司 概率密度函数估计器
US8675933B2 (en) 2010-04-30 2014-03-18 Vucomp, Inc. Breast segmentation in radiographic images
US8332429B2 (en) 2010-06-22 2012-12-11 Xerox Corporation Photography assistant and method for assisting a user in photographing landmarks and scenes
US9256799B2 (en) 2010-07-07 2016-02-09 Vucomp, Inc. Marking system for computer-aided detection of breast abnormalities
US9043296B2 (en) 2010-07-30 2015-05-26 Microsoft Technology Licensing, Llc System of providing suggestions based on accessible and contextual information
US8532399B2 (en) 2010-08-20 2013-09-10 Xerox Corporation Large scale image classification
US8566746B2 (en) 2010-08-30 2013-10-22 Xerox Corporation Parameterization of a categorizer for adjusting image categorization and retrieval
US8553045B2 (en) 2010-09-24 2013-10-08 Xerox Corporation System and method for image color transfer based on target concepts
US8731317B2 (en) 2010-09-27 2014-05-20 Xerox Corporation Image classification employing image vectors compressed using vector quantization
US8369616B2 (en) 2010-10-20 2013-02-05 Xerox Corporation Chromatic matching game
US8370338B2 (en) 2010-12-03 2013-02-05 Xerox Corporation Large-scale asymmetric comparison computation for binary embeddings
US8447767B2 (en) 2010-12-15 2013-05-21 Xerox Corporation System and method for multimedia information retrieval
US8379974B2 (en) 2010-12-22 2013-02-19 Xerox Corporation Convex clustering for chromatic content modeling
US9613258B2 (en) 2011-02-18 2017-04-04 Iomniscient Pty Ltd Image quality assessment
US9058611B2 (en) 2011-03-17 2015-06-16 Xerox Corporation System and method for advertising using image search and classification
US8594385B2 (en) 2011-04-19 2013-11-26 Xerox Corporation Predicting the aesthetic value of an image
US8712157B2 (en) 2011-04-19 2014-04-29 Xerox Corporation Image quality assessment
US8774515B2 (en) 2011-04-20 2014-07-08 Xerox Corporation Learning structured prediction models for interactive image labeling
US9298982B2 (en) 2011-07-26 2016-03-29 Xerox Corporation System and method for computing the visual profile of a place
US8813111B2 (en) 2011-08-22 2014-08-19 Xerox Corporation Photograph-based game
US8533204B2 (en) 2011-09-02 2013-09-10 Xerox Corporation Text-based searching of image data
JP2013061732A (ja) * 2011-09-12 2013-04-04 Fuji Xerox Co Ltd 画像識別情報付与プログラム及び画像識別情報付与装置
US8699789B2 (en) 2011-09-12 2014-04-15 Xerox Corporation Document classification using multiple views
US8824797B2 (en) 2011-10-03 2014-09-02 Xerox Corporation Graph-based segmentation integrating visible and NIR information
JP5821590B2 (ja) * 2011-12-06 2015-11-24 富士ゼロックス株式会社 画像識別情報付与プログラム及び画像識別情報付与装置
US8489585B2 (en) 2011-12-20 2013-07-16 Xerox Corporation Efficient document processing system and method
US9665643B2 (en) 2011-12-30 2017-05-30 Microsoft Technology Licensing, Llc Knowledge-based entity detection and disambiguation
US9864817B2 (en) * 2012-01-28 2018-01-09 Microsoft Technology Licensing, Llc Determination of relationships between collections of disparate media types
US9430563B2 (en) 2012-02-02 2016-08-30 Xerox Corporation Document processing employing probabilistic topic modeling of documents represented as text words transformed to a continuous space
US9075824B2 (en) 2012-04-27 2015-07-07 Xerox Corporation Retrieval system and method leveraging category-level labels
US8666992B2 (en) 2012-06-15 2014-03-04 Xerox Corporation Privacy preserving method for querying a remote public service
US8892562B2 (en) 2012-07-26 2014-11-18 Xerox Corporation Categorization of multi-page documents by anisotropic diffusion
US8873812B2 (en) 2012-08-06 2014-10-28 Xerox Corporation Image segmentation using hierarchical unsupervised segmentation and hierarchical classifiers
US8879796B2 (en) 2012-08-23 2014-11-04 Xerox Corporation Region refocusing for data-driven object localization
JP5880454B2 (ja) 2013-01-11 2016-03-09 富士ゼロックス株式会社 画像識別装置及びプログラム
US9008429B2 (en) 2013-02-01 2015-04-14 Xerox Corporation Label-embedding for text recognition
US8879103B2 (en) 2013-03-04 2014-11-04 Xerox Corporation System and method for highlighting barriers to reducing paper usage
US8923608B2 (en) 2013-03-04 2014-12-30 Xerox Corporation Pre-screening training data for classifiers
US9384423B2 (en) 2013-05-28 2016-07-05 Xerox Corporation System and method for OCR output verification
US9082047B2 (en) 2013-08-20 2015-07-14 Xerox Corporation Learning beautiful and ugly visual attributes
US9412031B2 (en) 2013-10-16 2016-08-09 Xerox Corporation Delayed vehicle identification for privacy enforcement
US9779284B2 (en) 2013-12-17 2017-10-03 Conduent Business Services, Llc Privacy-preserving evidence in ALPR applications
US9424492B2 (en) 2013-12-27 2016-08-23 Xerox Corporation Weighting scheme for pooling image descriptors
US9158971B2 (en) 2014-03-03 2015-10-13 Xerox Corporation Self-learning object detectors for unlabeled videos using multi-task learning
US9639806B2 (en) 2014-04-15 2017-05-02 Xerox Corporation System and method for predicting iconicity of an image
US9589231B2 (en) 2014-04-28 2017-03-07 Xerox Corporation Social medical network for diagnosis assistance
US9697439B2 (en) 2014-10-02 2017-07-04 Xerox Corporation Efficient object detection with patch-level window processing
US9298981B1 (en) 2014-10-08 2016-03-29 Xerox Corporation Categorizer assisted capture of customer documents using a mobile device
US9575952B2 (en) 2014-10-21 2017-02-21 At&T Intellectual Property I, L.P. Unsupervised topic modeling for short texts
US9443164B2 (en) 2014-12-02 2016-09-13 Xerox Corporation System and method for product identification
US9436876B1 (en) * 2014-12-19 2016-09-06 Amazon Technologies, Inc. Video segmentation techniques
US9216591B1 (en) 2014-12-23 2015-12-22 Xerox Corporation Method and system for mutual augmentation of a motivational printing awareness platform and recommendation-enabled printing drivers
US9367763B1 (en) * 2015-01-12 2016-06-14 Xerox Corporation Privacy-preserving text to image matching
US9626594B2 (en) 2015-01-21 2017-04-18 Xerox Corporation Method and system to perform text-to-image queries with wildcards
US9600738B2 (en) 2015-04-07 2017-03-21 Xerox Corporation Discriminative embedding of local color names for object retrieval and classification
US9514391B2 (en) * 2015-04-20 2016-12-06 Xerox Corporation Fisher vectors meet neural networks: a hybrid visual classification architecture
US9443320B1 (en) 2015-05-18 2016-09-13 Xerox Corporation Multi-object tracking with generic object proposals
US11281993B2 (en) * 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10140553B1 (en) * 2018-03-08 2018-11-27 Capital One Services, Llc Machine learning artificial intelligence system for identifying vehicles
US10902608B2 (en) * 2019-05-23 2021-01-26 Microsoft Technology Licensing, Llc Segmentation for holographic images
CN111325162A (zh) * 2020-02-25 2020-06-23 湖南大学 基于虚拟样本和残差融合的权重稀疏表示的人脸识别方法
CN111709344B (zh) * 2020-06-09 2023-10-17 上海海事大学 一种基于高斯混合模型的epll图像去光照识别处理方法
CN113989553B (zh) * 2021-10-25 2024-04-05 西安交通大学 一种面向图像模式分类的基于含混样本密度估计的证据建模方法及系统

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2844943B2 (ja) 1991-02-26 1999-01-13 トヨタ自動車株式会社 車両用自動操向装置
US7039239B2 (en) * 2002-02-07 2006-05-02 Eastman Kodak Company Method for image region classification using unsupervised and supervised learning
JP4271964B2 (ja) 2002-03-04 2009-06-03 三星電子株式会社 構成成分基盤pca/icaを利用した顔認識方法及びその装置
JP2004054947A (ja) * 2002-07-16 2004-02-19 Nec Corp 物体照合システム、物体照合方法および物体照合プログラム
US7124149B2 (en) 2002-12-13 2006-10-17 International Business Machines Corporation Method and apparatus for content representation and retrieval in concept model space
US7756341B2 (en) 2005-06-30 2010-07-13 Xerox Corporation Generic visual categorization method and system
US7680341B2 (en) 2006-05-05 2010-03-16 Xerox Corporation Generic visual classification with gradient components-based dimensionality enhancement
US20070299667A1 (en) * 2006-06-22 2007-12-27 Texas Instruments, Incorporated System and method for reducing storage requirements for a model containing mixed weighted distributions and automatic speech recognition model incorporating the same
US7885466B2 (en) 2006-09-19 2011-02-08 Xerox Corporation Bags of visual context-dependent words for generic visual categorization
US20080144068A1 (en) 2006-12-13 2008-06-19 Xerox Corporation. Printer with image categorization capability
KR101460059B1 (ko) * 2007-12-17 2014-11-12 삼성전자주식회사 잡음 검출 방법 및 장치

Also Published As

Publication number Publication date
JP2010097610A (ja) 2010-04-30
US20100098343A1 (en) 2010-04-22
US8463051B2 (en) 2013-06-11

Similar Documents

Publication Publication Date Title
JP5373536B2 (ja) 複数の画像モデルの混合としての画像のモデリング
Perronnin Universal and adapted vocabularies for generic visual categorization
US10102443B1 (en) Hierarchical conditional random field model for labeling and segmenting images
US7885794B2 (en) Object comparison, retrieval, and categorization methods and apparatuses
US8374442B2 (en) Linear spatial pyramid matching using sparse coding
Perronnin et al. Adapted vocabularies for generic visual categorization
US7680341B2 (en) Generic visual classification with gradient components-based dimensionality enhancement
US7885466B2 (en) Bags of visual context-dependent words for generic visual categorization
US9400918B2 (en) Compact face representation
US8699789B2 (en) Document classification using multiple views
US20140219563A1 (en) Label-embedding for text recognition
US8666992B2 (en) Privacy preserving method for querying a remote public service
CN114549894A (zh) 基于嵌入增强和自适应的小样本图像增量分类方法及装置
Chen et al. Discriminative BoW framework for mobile landmark recognition
CN114998602B (zh) 基于低置信度样本对比损失的域适应学习方法及系统
Wang et al. Aspect-ratio-preserving multi-patch image aesthetics score prediction
WO2023088174A1 (zh) 目标检测方法及装置
CN111340057B (zh) 一种分类模型训练的方法及装置
JP5214679B2 (ja) 学習装置、方法及びプログラム
EP3166022A1 (en) Method and apparatus for image search using sparsifying analysis operators
EP2172874B1 (en) Modeling images as mixtures of image models
Lu et al. Image categorization via robust pLSA
EP3166021A1 (en) Method and apparatus for image search using sparsifying analysis and synthesis operators
Viitaniemi et al. Evaluating the performance in automatic image annotation: Example case by adaptive fusion of global image features
JP5652250B2 (ja) 画像処理プログラム及び画像処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121005

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130426

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130514

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130809

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130903

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130919

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees