JP2007531136A - 画像を有するデータベースからビジュアルオブジェクトカテゴリを抽出する方法及び装置 - Google Patents

画像を有するデータベースからビジュアルオブジェクトカテゴリを抽出する方法及び装置 Download PDF

Info

Publication number
JP2007531136A
JP2007531136A JP2007505620A JP2007505620A JP2007531136A JP 2007531136 A JP2007531136 A JP 2007531136A JP 2007505620 A JP2007505620 A JP 2007505620A JP 2007505620 A JP2007505620 A JP 2007505620A JP 2007531136 A JP2007531136 A JP 2007531136A
Authority
JP
Japan
Prior art keywords
model
image
images
visual object
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2007505620A
Other languages
English (en)
Inventor
ジサーマン,アンドリュー
ファーガス,ロバート
ペロナ,ピエトロ
Original Assignee
アイシス イノヴェイション リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アイシス イノヴェイション リミテッド filed Critical アイシス イノヴェイション リミテッド
Publication of JP2007531136A publication Critical patent/JP2007531136A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Abstract

クエリキーワードにより表される指定されるビジュアルオブジェクトカテゴリに対するデータベースから抽出される画像の関連性を決定する方法であって、ビジュアルオブジェクトカテゴリの特徴とそれらの間の空間的関係を規定するモデルを学習し、データベースから抽出される画像セットと格納されているモデルとを比較し、モデルとの対応関係に基づき各画像に関する尤度値を計算することから構成される方法。

Description

発明の詳細な説明
本発明は、画像を有するデータベースからビジュアルオブジェクトカテゴリを抽出する方法及び装置に関し、より詳細には、インターネットサーチエンジンなどを利用して、ユーザによって指定されるビジュアルオブジェクトカテゴリに対応する関連する画像を検索及び抽出する改良された方法及び装置に関する。
単に1以上のキーワードをサーチエンジンに入力し、それに応答いて、数百及びときには数千の関連する画像がユーザによる選択のための検索結果により返される画像用のワールド・ワイド・ウェブの検索を行うことは、比較的簡単である。しかしながら、これらの結果により返される画像のすべてが必ずしも検索に特に関連しているとは限らない。実際、返される画像の多くは全く無関係である可能性もある。
テキストベースインターネット検索では、最も関連のある返されたアイテム(すなわち、入力されたキーワードを正確に含むもの)が特定され、他のウェブページの各ウェブページとの既存のリンク数に基づく数値に従ってランク付けされる。この結果、ユーザに最も関連する可能性のある結果が、検索結果の最初の数ページにリストされる。
しかしながら、画像ベース検索の場合、最も関連性のある可能性の高い結果は、検索結果の最初の数ページで返される可能性は低く、代わりに関連性のない画像と均等に混合されている可能性が高い。これは、現在のインターネット検索技術が、画像コンテンツでなく単語に基づくものであり、結果において返される画像が画像のファイル名又はウェブページ上の当該画像の近傍に出現するテキストにおいて入力されたキーワードを含み、その結果がその後にテキストベース検索を参照して上述のようにランク付けされるためである。この方法は、ワールド・ワイド・ウェブ上で利用可能な数百万のものから関連する画像を迅速に収集するのに大変効果的であるが、最終的な結果は、ユーザがその後に興味のある画像を見つけるため数十、数百又は数千もの結果エントリを検索する必要があるという意味で完全とはほど遠いものである。
ここで、我々は改良された構成を考案した。
本発明によると、指定されたビジュアルオブジェクトカテゴリに関してデータベースから抽出された画像の関連性を決定する装置であって、ビジュアルオブジェクトカテゴリを当該ビジュアルオブジェクトカテゴリの特徴とそれらの間の空間的関係を規定するモデルに変換する手段を有する装置が提供される。
当該モデルを格納する手段が設けられてもよい。本発明の一実施例では、データベースから抽出される画像セットを格納されているモデルと比較し、当該モデルとそれの対応関係に基づき各画像に関する尤度値を計算する手段が設けられる。さらに、各尤度値の順序により画像をランク付けし、及び/又は指定されたビジュアルオブジェクトカテゴリに対応するさらなる画像を抽出する手段が設けられてもよい。
また本発明によると、指定されたビジュアルオブジェクトに関してデータベースから抽出される画像の関連性を決定する方法であって、ビジュアルオブジェクトカテゴリを当該ビジュアルオブジェクトカテゴリの特徴とそれらの間の空間的関係を規定するモデルに変換するステップを有する方法が提供される。本方法はさらに、当該モデルを格納するステップを有するようにしてもよい。本発明の一実施例では、本方法はさらに、データベースから抽出される画像セットと格納されているモデルとを比較するステップと、当該モデルとのそれの対応関係に基づき各画像に関する尤度値を計算するステップとを有するかもしれない。好ましくは、本方法は、各自の尤度値の順序により画像をランク付けするステップ、及び/又は指定されたビジュアルオブジェクトカテゴリに対応するさらなる画像を検出するステップを有する。
何れかのイベントにおいて、この画像セットはサーチエンジンなどを利用してデータベースの検索中にデータベースから抽出されてもよいということが理解されるであろう。
これらの特徴は、効果的には少なくとも2つのタイプを有し、これらのカテゴリは、ピクセルパッチ(pixel patch)、カーブセグメント(curve segment)、コーナー(corner)及びテクスチャ(texture)を含むかもしれない。好適な実施例では、各部分は、それの様相及び/又はジオメトリ、モデルに対するそれのスケール及びそれのオクルージョン確率(occlusion probability)の1以上により表され、これらのパラメータは、ガウス確率関数などの確率密度関数によりモデル化されるかもしれない。
画像をモデルと比較するステップは、好ましくは、画像の特徴を識別し、上述した確率密度を用いて当該特徴を評価するステップを有する。
本方法は、データベース検索中に抽出される画像のサブセットを選択し、当該画像サブセットからモデルを生成するステップを有するかもしれない。あるいは、データベース検索中に抽出される画像の実質的にすべてが、モデルを生成するのに利用されてもよい。何れのケースでも、少なくとも2つのモデルが、他の特徴も考えられるが、データベース検索中などに抽出される画像セット、すなわち、パッチ及びカーブなどに関して生成されるかもしれない。あるいは、より好ましくは、特徴の組み合わせから構成される異質なモデルが生成されてもよい。何れのイベントでも、本方法は、好ましくは、比較のために利用されるモデルの性質又はタイプを選択するステップと、特定の画像セットに関してランク付けするステップとを有する。
一実施例では、選択するステップは、各モデルに関して差分的なランク付け指標を計算し、最大となる差分ランク付け指標を有するモデルを選択することにより実行されるかもしれない。
本発明の上記及び他の特徴は、ここで説明された実施例を参照して明らかにされる。
本発明は、サーチエンジンのパフォーマンスを向上させることがないとしても、画像ベースインターネット検索に関する上述の問題点が、検索により返される画像間の「ビジュアルコンシスタンシ(visual consistency)」を測定し、当該コンシスタンシに基づきそれらを再ランク付けし、これにより、検索結果の最初の数エントリ内におけるユーザに返された関連する画像の比率を増大させることにより軽減されるかもしれない。このコンセプトは、検索要求に関する画像が典型的には視覚的に類似する一方、検索要求に関係しない画像が典型的には互いに異なっているように見えるという仮定に基づくものである。
「ビジュアルコンシスタンシ」の測定方法の問題は、確率的モデリング及びロウバストな統計量の1つとして本発明の以下の実施例においてアプローチされている。ここで使用されるアルゴリズムは、所望されない(非カテゴリ)画像が拒絶可能であり、又は少なくとも返された画像が当該共通性との類似性に従ってランク付け可能であるように、返された画像セットにおける共通のビジュアル要素をロウバストに学習する。より正確には、要求されたカテゴリにクラス内の変形を収容可能なビジュアルオブジェクトモデルが学習される。これは極めて困難なビジュアルタスクであるということは当業者に理解されるであろう。ライティング及び視点の変更(スケール、短縮)及び部分的オクルージョンなど、画像からの学習には視覚的困難さがあるだけでなく、オブジェクトは返された画像のサブセットに実際に存在するかもしれず、このサブセット(及びそれのサイズさえ)は知られていない。
図1及び図2を参照するに、本発明のこれら一例となる実施例の装置及び方法は、コンステレーションモデル(constellation model)の拡張を利用し、クラッタ(clutter)を含む画像からオブジェクトカテゴリを学習するよう構成され、これにより、少なくとも人間による介入に対する要求を最小限にする。
オブジェクト又はコンステレーションモデルは、各部分がある様相を有し、オクルード可能又は不可であるオブジェクト上に空間的に構成されるいくつかの部分から構成される。このケースにおける部分とは、例えば、画像要素(ピクセル)のパッチ又はカーブセグメントであるかもしれない。何れの場合でも、部分は、それの固有の記述(様相又はジオメトリ)、モデルに対するそれのスケール及びそれのオクルージョン確率によって表される。オブジェクトの形状(又はモデル全体の形状)は、部分相互の位置により表される。モデル全体は、部分記述、スケールモデル形状及びオクルージョンが、これのケースではガウスである確率密度関数によってすべてモデル化されるという意味で、生成的及び確率的なものである。
オブジェクトカテゴリを学習するプロセスは、まず特徴スケールにより特徴を検出し、その後にモデルがトレーニングデータの最大尤度記述を与えるように、これらの特徴から上記密度のパラメータを推定することである。
この実施例では、モデルは、P個の部分から構成され、パラメータυにより特定される。位置X、スケールS及び記述DによりN個の検出された特徴が与えられると、画像がオブジェクトを有する尤度は、以下の式を有すると仮定される。
Figure 2007531136
ただし、この和は部分の特徴への割当てh上で行われる。典型的には、モデルは5〜7の部分を有し、画像内には40個までの特徴が存在するであろう。
同様に、非オブジェクトバックグラウンド画像がパラメータυbgによる同一形式の尤度によりモデル化することができることが仮定される。ある画像がオブジェクトを有するか否かに関する決定は、
Figure 2007531136
の尤度レシオによって決定される。
適合及び認識段階の両方において、当該モデルはスケール不変である。当該モデルの完全な詳細及びEMアルゴリズムを利用したトレーニングデータへのそれの適合は、R.Fergus,P.Perona及びA.Zissermanによる“Object Class Recognition by Unsupervised Scale−Invariant Learning”(Proc.CVPR,2003)により与えられ、実質的に同一の表現及び推定方法が、本発明の以下の実施例において使用される。
既存の認識アプローチは、それらからモデルが学習する画像パッチ、テクスチャ領域又はHarrウェーブレットなどの1つのタイプの特徴に基づきモデルを学習する。しかしながら、オブジェクトの異なる視覚的性質は、当該アプローチが限定的なものであることを意味する。ワインボトルなどのいくつかのオブジェクトについては、オブジェクトのエッセンスが、ピクセルのパッチではなくジオメトリック情報(すなわち、輪郭)によりはるかに良好にキャプチャされ、もちろん、人間の顔など多くのオブジェクトについてその反対も真である。この結果、フレキシブルな視覚認識システムについて、複数の特徴タイプを有する必要がある。上述したコンステレーションモデルのフレキシブルな性質は、各部分の記述密度が独立であるため、それぞれが異なるタイプの特徴を利用可能であるという事実の観点でこれを可能にする。
以下の説明では、図3を参照して、より多くのもの(コーナー、テクスチャなど)が容易に追加可能であるが、2つのタイプの特徴のみが考慮される。これらのタイプの第1のものはピクセルの領域から構成され、第2のものはカーブセグメントから構成される。これらのタイプの特徴は、第1のものがオブジェクトの様相を表し、他方がオブジェクトジオメトリを表すという意味で補完的であることが理解される。
T.Kadir及びM.Bradyによる“Scale,Saliency and Image Description”(IJCV,45(2):83−105,2001)により記述されるような関心オペレータが、位置とスケールの両方に対して顕著な領域を検出するのに利用されるかもしれない。それは、グレイレベルヒストグラム及び領域全体のエントロピーの指標に基づく。オペレータは、位置(円の中心)とスケール(円の半径)の両方が決定されるように、円の領域セットを検出する。オペレータは、主として画像の回転及びスケール変更に対して不変である。従って例えば、画像が2倍のサイズにされる場合、対応する領域セットが検出されるであろう(2倍のスケールにより)。
カーブセグメントを決定するため、エッジポイントの大変ローカルな空間構成を考慮するだけでなく、例えば、J.F.Cannyによる“A Computational Approach to Edge Detection”(IEEE PAMI,8(6):679−698,1986)により記載されるエッジオペレータなどによって、拡張されたエッジチェーンが利用可能である。その後、このチェーンはバイタンジェントポイント(bitangent point)、すなわち、ある直線が曲線と2つの接点を有する点の間のセグメントにセグメント化される。この分解は、ここでは2つの輪ようにより利用される。第1には、バイタンジェンシ(bitangency)はプロジェクティブ(projective)な変換と共変(covariant)である。これは、近傍の平面曲線について、セグメント化が視点について不変であり、同一又は類似するオブジェクトが異なるスケール及び向きによりイメージングされる場合に重要な要件となることを意味する。第2には、バイローカル(bi−local)性質を利用して曲線をセグメント化することによって、不完全なエッジデータではあるが、興味深いセグメントがコンシスタントに検出可能となる。C.Rothwell、A.Zisserman、D.Forsyth及びJ.Mundyによる“Planar Object Recognition Using Projective Shape Representation”(IJCV,16(2),1995)により記載される方法を利用して、バイタンジェントポイントが各チェーン上に検出される。バイタンジェントポイントの各ペアは、チェーンのサブセクションである曲線を規定しているため、チェーンの曲線セクションへの分解には複数のものがあるかもしれない。実際、多数のカーブセグメントが直線(ノイズに対する閾値の範囲内で)であり、これらは曲線よりもはるかに有用性が低いという点から破棄される。さらに、チェーン全体がまた利用され、これにより、凸な曲線部分が維持される。
従って、上述した特徴検出装置は、各画像内の関心のあるパッチ及びカーブを提供する。それらを本発明のモデルに利用するため、D=[A,G]についてそれらの性質をパラメータ化する必要がある。ただし、Aは画像内の領域の様相であり、Gは画像内のカーブの形状である。
領域が特定されると、それらは画像からクロップ処理(crop)され、より小さなピクセルパッチに再スケーリングされる。各パッチは、所定次元のスペースに存在する。モデルの様相密度が当該スペースに存在する必要があるため、その識別力を維持しながら、各パッチの次元をどうにかして低減することが実用的な観点から必要である。これは、主成分解析(PCA)を利用した本発明の当該実施例により達成される。学習段階では、すべての画像からのパッチが収集され、それらに対してPCAが実行される。そのとき、各パッチの様相は、第1の所定の数kの主成分の範囲内の座標ベクトルであり、Aを与える。これは、部分毎に適度な個数のパラメータを使用しながら、元のパッチの良好な再構成をもたらす。
各カーブは、それが原点からスタートし、点(1,0)でエンドとなるように、類似性変換を利用した基準位置に変換される。カーブの中心がx軸の下方にある場合、それはx軸と直線y=0.5の双方において反転し、これにより、エッジオーダリングとは独立に同一のカーブが取得される。この基準位置のカーブのyの値は、(0,0)と(1,0)との間で等しい間隔のいくつかのxインターバルにおいてサンプリングされる。モデルは向き不変でないため、カーブの元の向きは、各カーブのベクトルに連結され、他のベクトルが与えられる。画像内のすべてのカーブからのベクトルを合成することにより、Gが与えられる。
以下において、画像収集の一例となる実現形態と、上述のアルゴリズムを適用する際の主要なステップ(すなわち、特徴検出、モデル学習及びランク付け)が、より詳細に説明される。
与えられたキーワードについて、Google(登録商標)などのサーチエンジンを使用した画像検索が、画像セットをダウンロードするのに利用さ可能であり、ダウンロードした画像のインテグリティがチェックされる。さらに、主軸上の100〜600のピクセルの適度なサイズの領域外のものは破棄される。典型的な画像検索は、450〜700の利用可能な画像の領域により返される可能性があり、当該処理を自動化するためのスクリプトが利用可能である。アルゴリズムを評価するため、返された画像は3つのタイプに分割することができる。
・良好な画像、すなわち、様々な視点、スケーリング及び向きが可能であるが、主要なオクルージョンを欠いたキーワードカテゴリの良好な例
・中間的な画像、すなわち、ある方法ではキーワードカテゴリに関連するが、良好な画像より品質の低い画像 それらは、拡張的なオクルージョン、実質的な画像ノイズを有するか、カテゴリの風刺又は漫画であるか、あるいは他のいくつかの欠点があるかもしれない。
・ジャンク画像、すなわち、キーワードカテゴリに全く関係しない画像
この特定のケースでは、各画像がグレイスケールに変換され(カラー情報は本発明の実施例に適用される他のモデルにおいて利用されるかもしれないが、カラー情報は上述したモデルでは使用されず、本発明はこれに関して限定されないため)、関心領域及びカーブはが画像内に識別される。これは、学習又は認識に利用されるX、D及びSを生成する。各画像からの最も高い顕著性を有する所定数の領域が使用される。
学習プロセスは、2つの形式、すなわち、教師なし学習(図6)と限定的監視の1つをとる。供しない学習では、モデルは、データセットのすべての画像を利用して学習される。当該処理には、人間による介入は必要でない。限定的監視による学習では、関連性フィードバックを利用した他のアプローチが利用され、これにより、ユーザは求められる画像に近接したデータセットからの10又はその程度の画像を選択し、モデルはこれら選択された画像を利用して学習される。
何れのアプローチでも、学習タスクは、上述したモデルのパラメータθを推定する形式をとる。その目的は、選択されたトレーニング画像(10又はデータセット全体)からデータX、D及びSを最も良く説明する、すなわち、尤度
Figure 2007531136
を最大化するパラメータθMLを求めることである。このモデルは、上述したR.Fergusらによる参考文献によって説明されるようなEMアルゴリズムを利用して学習される。
学習モデルが与えられると、ある画像内のすべての仮説が評価され、これは当該画像の尤度レシオを決定する。その後、この尤度レシオが、データセットのすべての画像をランク付けするのに利用される。
各画像セットについて、様々なモデルが学習可能であり、各モデルは様々な特徴タイプ(パッチ、カーブなど)から構成され、どれがユーザに提供される最終的なランク付けを与えるべきか決定されねばならない。本発明の実施例により、これは、「ジャンク」画像(指定された視覚的オブジェクトカテゴリに全く関係のない画像)から全体的に構成される第2の画像セットを利用することにより行われる。これらは、例えば、「事物」をサーチエンジンの画像検索機能にタイプすることにより収集されるかもしれない。従って、ここではa)ランク付けされる画像セット(ジャンク画像と良好な画像の組み合わせから構成される)と、b)ジャンクデータセットの2つの画像セット又はデータセットが存在する。本発明の当該実施例によると、各モデルは、双方のデータセットから画像の尤度を評価し、差分的ランク付け指標が、例えば、2つのデータセット間のROCカーブ下のエリアを観察することによってそれらの間で計算される。最も大きな差分的ランク付け指標を与えるモデルが、ユーザに提供される最終的なランク付けを与えるのに選択される。
この一例となるアプローチの背後にある論拠は、以下の通りである。差分的ランク付け指標を観察することによって、双方のデータセットのジャンク画像の寄与が相殺され、良好な画像のみの指標が与えられるように、ジャンクデータセットb)のジャンク画像の統計量が、ランク付けされるデータセットa)のジャンク画像のものと同一であることが仮定することが可能である。それらのランク付けが高いほど、モデルはより良好になるべきである。
ここで処理される状況に適合したモデルは、有効なデータ(良好な画像)だけでなく、モデルによって適合不可能な異常値(中間的な画像及びジャンク画像)を含むデータセットからモデルを学習しようとする意味で、ロウバストな統計量のエリアに直面したモデルと等価である。この結果、ロウバストな適合アルゴリズムであるRANSACが、本発明の要求に適応化されるかもしれない。モデルをトレーニングするのに十分な画像セット(このケースでは、10)が、データベース検索中に抽出される画像からランダムにサンプリングされる。その後、このモデルは、上述した差分的ランク付け指標により残りの画像に対してスコアリングされる。このサンプリング処理は、正常値(良好な画像)から全体的に構成されるサンプルセットの良好な可能性を保証するのに十分な回数だけ繰り返される。
多数の関連のない画像を含む(50%まで、そしてそれ以上)トレーニングセットからの学習が可能なあるカテゴリのモデルが示され、本発明が従来のインターネットサーチエンジンによって返されるデータセットのタイプを処理することを可能にするのはこの能力である。さらに本発明では、2つの実施例に関して上述されるように、そのアルゴリズムのみがそれの入力として画像を要求し、従って、本発明の方法及び装置は、既存の何れのサーチエンジンに関して利用可能である。さらに、本発明が関連する画像を抽出/ランク付けするためのそれの能力においてスケール不変であるということを重要な効果として有することは、当業者により理解されるであろう。
本発明の2つの特定の実施例が説明された。第1には、ユーザは、図1に示されるように、具体例(すなわち、関連性フィードバック又は教師付き学習のシンプルな形式)を要求する小さな割合の画像を選択するのに限られた時間(20〜30秒)しか費やさないよう求められ、第2には、図2に示されるように、学習におけるユーザの介入が要求されない。
そのアルゴリズムのスピードは、実際的に大きな重要性を有する、すなわち、ウェブ利用研究は、ユーザがウェブページがロードされるのに数秒しか待つことが許容されないことを示している。以下で与えられるタイミングは、3GHzマシーンに対するものである。
インターネットサーチエンジンアプリケーションの場合には、カテゴリキーワードの大きなセットが、最も共通して検索された画像カテゴリ(既存のサーチエンジンが容易に編集可能な情報)を選択することにより自動的に取得することが可能である。
教師なしの学習のケースでは、このカテゴリキーワードセットに対するユーザ入力が要求されないため、すべてがオフラインに予め計算可能である。従って、そのアルゴリズムに対する時間ペナルティはない。オフライン計算にはある時間がかかるかもしれないが(おそらく、RANSACアプローチにより学習されるモデル数に応じて数日間でさえ)、それは一度実行されればよい。
教師付き学習のケースでは、状況はより困難である。ユーザがいくつかの画像を選択すると、複数のモデル(特徴タイプの異なる組み合わせに対応する)が学習される必要があり、その後、これらのモデルは数秒間のうちにデータセット全体(〜1000画像)について実行される必要がある。これを可能にするため、以下の手段が行われる。
(i)データセットのすべての画像から特徴をオフラインに抽出し、それらを格納する。これは、1回だけ行われればよい。
(ii)異なるモデルをパラレルに学習する。
(iii)データセット全体について異なるモデルをパラレルに実行する。
これらの手段は、スピードのボトルネックが、モデルがどの程度迅速に学習可能であるか、そしてそれが画像を評価するのにどの程度迅速に利用可能であるかに依存することを意味する。現在の最適化されていない展開形態では、処理全体に約1分を要するが、専門的なグレード符号化及び最適化により、これは数秒まで低減することが可能である。
再び、カテゴリキーワードの選択(上記(i)について必要とされる)は、最も共通して検索されるカテゴリを選択することにより自動選択可能である。
上述した実施例は本発明を限定するものでなく、説明するものであり、当業者は添付した請求項により規定されるような本発明の範囲から逸脱することなく、他の多数の実施例を構成可能であるということに留意すべきである。請求項では、括弧内に置かれる参照符号は、請求項を限定するものとして解釈されるものではない。「有する」という用語は、請求項又は明細書全体に列挙された以外の要素又はステップの存在を排除するものではない。要素の単数形による表現は、そのような要素が複数存在することを排除するものでなく、その逆も然りである。本発明は、複数の要素を有するハードウェアと、適切にプログラムされたコンピュータにより実現可能である。複数の手段を列挙した装置クレームでは、これらの手段のいくつかは、1つの同一のハードウェアアイテムにより実現可能である。ある手段が互いに異なる従属クレームにより記載されているという事実は、これらの手段の組み合わせが効果的に利用可能でないことを示すものではない。
図1は、本発明の第1実施例による方法の主要なステップを示す概略的なブロック図である。 図2は、本発明の第2実施例による方法の主要なコンポーネントを示す概略的なブロック図である。 図3は、図1又は図2の方法に利用されるパッチ特徴抽出方法の主要なステップを示す概略的なブロック図である。 図4は、図1又は図2の方法に利用されるカーブ特徴抽出方法の主要なステップを示す概略的なブロック図である。 図5は、図1の方法に使用される教師付きのケースにおけるモデル学習方法の主要なステップを示す概略的なブロック図である。 図6は、図2の方法に利用される教師なしのケースによるモデル学習方法の主要なステップを示す概略的なブロック図である(注意:矩形はプロセスを示し、平行四辺形はデータを示す)。

Claims (15)

  1. 指定されたビジュアルオブジェクトカテゴリに対するデータベースから抽出された画像セットの関連性を決定する装置であって、
    ビジュアルオブジェクトカテゴリを該ビジュアルオブジェクトカテゴリの特徴と該特徴間の空間的関係とを規定するモデルに変換する手段と、
    前記モデルを格納する手段と、
    前記データベースの検索中に特定される画像セットと前記格納されているモデルとを比較し、前記モデルとの対応関係に基づき各画像に関する尤度値を計算する手段と、
    を有することを特徴とする装置。
  2. 請求項1記載の装置であって、
    前記画像とモデルとを比較する手段は、前記画像の特徴を特定し、前記画像の最大尤度記述を決定するため、前記特徴のパラメータの確率密度を推定する手段を有することを特徴とする装置。
  3. 請求項1又は2記載の装置であって、さらに、前記画像を各自の尤度値の順序によりランク付けする手段、及び/又は前記指定されたビジュアルオブジェクトカテゴリに対応するさらなる画像を抽出する手段を有することを特徴とする装置。
  4. 請求項1乃至3何れか一項記載の装置であって、
    前記特徴は、オブジェクトの少なくとも2つのタイプの部分を有することを特徴とする装置。
  5. 請求項4記載の装置であって、
    前記タイプは、ピクセルパッチ、カーブセグメント、コーナー及びテクスチャを含むことを特徴とする装置。
  6. 請求項1乃至5何れか一項記載の装置であって、
    各特徴は1以上のパラメータにより表され、
    前記パラメータは、前記特徴の様相及び/又はジオメトリ、前記特徴の前記モデルに対するスケール、及び前記特徴のオクルージョン確率を含む、
    ことを特徴とする装置。
  7. 請求項6記載の装置であって、
    前記パラメータは、確率密度関数によりモデル化されることを特徴とする装置。
  8. 請求項1乃至7何れか一項記載の装置であって、
    前記画像セットは、データベース検索中に取得されることを特徴とする装置。
  9. 請求項1乃至8何れか一項記載の装置であって、さらに、
    前記画像セットのサブセットを選択し、前記画像サブセットから前記モデルを生成する手段を有することを特徴とする装置。
  10. 請求項9記載の装置であって、
    前記画像サブセットは、ユーザにより選択可能であることを特徴とする装置。
  11. 請求項1乃至8何れか一項記載の装置であって、
    前記画像セットの画像の実質的にすべてが、前記モデルを生成するのに利用されることを特徴とする装置。
  12. 請求項1乃至11何れか一項記載の装置であって、
    各々が特徴タイプの1つ又は組み合わせを有する少なくとも2つのモデルが、前記画像セットに関して生成されることを特徴とする装置。
  13. 請求項12記載の装置であって、さらに、
    前記比較する手段により利用するため、前記少なくとも2つのモデルの1つを選択する手段を有することを特徴とする装置。
  14. 請求項13記載の装置であって、
    前記選択する手段は、各モデルに関する差分的ランク付け指標を計算し、最大のランク付け指標を有するモデルを選択するよう構成されることを特徴とする装置。
  15. 指定されたビジュアルオブジェクトカテゴリに対するデータベースから抽出された画像セットの関連性を決定する方法であって、
    ビジュアルオブジェクトカテゴリを該ビジュアルオブジェクトカテゴリの特徴と該特徴間の空間的関係とを規定するモデルに変換するステップと、
    前記モデルを格納するステップと、
    前記データベースから抽出される画像セットと前記格納されているモデルとを比較し、前記モデルとの対応関係に基づき各画像に関する尤度値を計算するステップと、
    を有することを特徴とする方法。
JP2007505620A 2004-03-31 2005-03-11 画像を有するデータベースからビジュアルオブジェクトカテゴリを抽出する方法及び装置 Withdrawn JP2007531136A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
GB0407252A GB2412756A (en) 2004-03-31 2004-03-31 Method and apparatus for retrieving visual object categories from a database containing images
PCT/GB2005/001124 WO2005096178A1 (en) 2004-03-31 2005-03-11 Method and apparatus for retrieving visual object categories from a database containing images

Publications (1)

Publication Number Publication Date
JP2007531136A true JP2007531136A (ja) 2007-11-01

Family

ID=32247573

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007505620A Withdrawn JP2007531136A (ja) 2004-03-31 2005-03-11 画像を有するデータベースからビジュアルオブジェクトカテゴリを抽出する方法及び装置

Country Status (4)

Country Link
EP (1) EP1730658A1 (ja)
JP (1) JP2007531136A (ja)
GB (1) GB2412756A (ja)
WO (1) WO2005096178A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8000538B2 (en) * 2006-12-22 2011-08-16 Palo Alto Research Center Incorporated System and method for performing classification through generative models of features occurring in an image
US20090313239A1 (en) * 2008-06-16 2009-12-17 Microsoft Corporation Adaptive Visual Similarity for Text-Based Image Search Results Re-ranking
US8364462B2 (en) 2008-06-25 2013-01-29 Microsoft Corporation Cross lingual location search
US8457441B2 (en) 2008-06-25 2013-06-04 Microsoft Corporation Fast approximate spatial representations for informal retrieval
US7962500B2 (en) * 2008-10-24 2011-06-14 Yahoo! Inc. Digital image retrieval by aggregating search results based on visual annotations
US8527564B2 (en) 2010-12-16 2013-09-03 Yahoo! Inc. Image object retrieval based on aggregation of visual annotations
US9111348B2 (en) * 2013-03-15 2015-08-18 Toyota Motor Engineering & Manufacturing North America, Inc. Computer-based method and system of dynamic category object recognition
GB2529427B (en) * 2014-08-19 2021-12-08 Zebra Tech Corp Processing query image data

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6240424B1 (en) * 1998-04-22 2001-05-29 Nbc Usa, Inc. Method and system for similarity-based image classification
FR2779848B1 (fr) * 1998-06-15 2001-09-14 Commissariat Energie Atomique Procede invariant d'indexation d'une image utilisant des caracterisations fractales et par moments
US7200270B2 (en) * 2001-12-13 2007-04-03 Kabushiki Kaisha Toshiba Pattern recognition apparatus and method using distributed model representation of partial images
US20030123737A1 (en) * 2001-12-27 2003-07-03 Aleksandra Mojsilovic Perceptual method for browsing, searching, querying and visualizing collections of digital images

Also Published As

Publication number Publication date
GB2412756A (en) 2005-10-05
EP1730658A1 (en) 2006-12-13
GB0407252D0 (en) 2004-05-05
WO2005096178A8 (en) 2006-02-09
WO2005096178A1 (en) 2005-10-13

Similar Documents

Publication Publication Date Title
US8254699B1 (en) Automatic large scale video object recognition
US20050223031A1 (en) Method and apparatus for retrieving visual object categories from a database containing images
US20090282025A1 (en) Method for generating a representation of image content using image search and retrieval criteria
JP2007531136A (ja) 画像を有するデータベースからビジュアルオブジェクトカテゴリを抽出する方法及び装置
US8582872B1 (en) Place holder image detection via image clustering
US8254678B2 (en) Image segmentation
Trappey et al. An intelligent content-based image retrieval methodology using transfer learning for digital IP protection
Zhang et al. Improved adaptive image retrieval with the use of shadowed sets
Singh et al. A Machine Learning Model for Content-Based Image Retrieval
CN110659374A (zh) 一种基于神经网络提取车辆特征值及属性的以图搜图方法
Naveena et al. Image retrieval using combination of color, texture and shape descriptor
Devareddi et al. Review on content-based image retrieval models for efficient feature extraction for data analysis
Jayanthiladevi et al. Text, images, and video analytics for fog computing
Yousaf et al. Patch-CNN: Deep learning for logo detection and brand recognition
Guerrero-Peña et al. Object recognition under severe occlusions with a hidden Markov model approach
WO2024027347A1 (zh) 内容识别方法、装置、设备、存储介质及计算机程序产品
Turtinen et al. Contextual analysis of textured scene images.
Amelio Approximate matching in ACSM dissimilarity measure
Wu et al. Similar image retrieval in large-scale trademark databases based on regional and boundary fusion feature
Brahmaiah Naik et al. Local vector pattern with global index angles for a content‐based image retrieval system
Valveny et al. Performance characterization of shape descriptors for symbol representation
Nagthane Image mining techniques and applications
Ligade et al. Content Based Image Retrieval Using Interactive Genetic Algorithm with Relevance Feedback Technique—Survey
Somnathe et al. A novel content-based facial image retrieval approach using different similarity measurements
Joseph et al. Contextual feature discovery and image ranking for image object retrieval and tag refinement

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20080513