JP2005535952A - 画像内容検索法 - Google Patents

画像内容検索法 Download PDF

Info

Publication number
JP2005535952A
JP2005535952A JP2004526556A JP2004526556A JP2005535952A JP 2005535952 A JP2005535952 A JP 2005535952A JP 2004526556 A JP2004526556 A JP 2004526556A JP 2004526556 A JP2004526556 A JP 2004526556A JP 2005535952 A JP2005535952 A JP 2005535952A
Authority
JP
Japan
Prior art keywords
image
positive
images
negative
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004526556A
Other languages
English (en)
Inventor
ジェメル・ジョウ
モハメド・ラミン・ケルフィ
アラン・ベルナルディ
Original Assignee
ユニヴェルシテ・ドゥ・シャーブルック
ベル・カナダ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ユニヴェルシテ・ドゥ・シャーブルック, ベル・カナダ filed Critical ユニヴェルシテ・ドゥ・シャーブルック
Publication of JP2005535952A publication Critical patent/JP2005535952A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/54Browsing; Visualisation therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Processing Or Creating Images (AREA)

Abstract

負例は画像内容検索におけるユーザのニーズをよく理解するために非常に有用な場合があるが、これは、何名かの著者により考察されている。本発明による画像内容検索法では、より効率的な画像検索を実行するために正例と負例との組合せに関係するいくつかの課題に取り組んでいる。明細書では、正例を使用して一般化を実行し、負例を使用して特殊化を実行する関連フィードバック方式について説明している。この方式では、正例と負例の両方を含むクエリが2つの一般的なステップで処理される。第1の一般的なステップでは、正例のみを考慮して、検索に関与する画像の集合をより均質な部分集合に還元する。次に、第2の一般的なステップでは、正例と負例の両方を考慮し、第1のステップで保持されている画像に働きかける。数学的には、関連フィードバックは正例および負例の内分散および間分散の最適化として定式化される。

Description

本発明は、デジタルデータ検索に関する。より具体的には、本発明は、画像内容検索に関する。
コンピュータ技術の進歩およびワールドワイドウェブの出現に伴い、デジタルデータが生成され、格納され、伝送され、分析され、アクセスされる量およびそれらのデータの複雑さが爆発的に増した。これらのデータは、テキスト、音声、画像、およびビデオなど様々な形態をとる。
例えば、利用可能なデジタル画像が増えてきたため、効率よく画像検索を行い、ユーザが妥当な時間内に必要な画像を見つけ出すのを手助けできるシステムの開発が必要になっている。これらの検索システムの一部では、色の特定の組合せの存在または特定の種類のイベントの描写などの画像の属性を使用している。このような属性は、画像の内容または周囲のテキストおよびデータから引き出すことができる。これにより、内容検索手法およびテキスト検索手法などの画像検索の様々な方式が導かれる。
いずれの場合も、画像検索システムが与えられたクエリの結果を返した場合に、ノイズとミスという2つの問題が発生することがよくある。ノイズは、ユーザが欲している画像に対応しない画像がシステムによって検索された場合に生じる。ミスとは、ユーザが欲している画像に対応する、検索されなかった画像の集まりのことである。これら2つの問題は、異なるレベルの欠陥に由来する。実際、それらの画像のいずれもがユーザの欲する画像に対応していないため、またはユーザが画像の特徴を明確に指示する際の画像内容に関する十分な知識を欠いているため、ユーザが利用可能な画像を使用して適切なクエリを定式化することは容易でない場合がある。また、ユーザのニーズおよび特異性を画像の特徴および類似性尺度に関して翻訳することが困難であることがわかっている。
より具体的には、画像内容検索の場合、クエリを定式化する数多くの方法を区別することができる。非特許文献1で説明されている、QBICなどの初期の頃のシステムは、ユーザ側で色、形、またはテクスチャなどの画像特徴を選択するよう求める。非特許文献2で説明されているBLOBWORLDなどの他のシステムでは、ユーザ側で特徴の組合せに対し重み付けを行う必要がある。
しかし、このような画像内容検索手法の欠点として、いくつかの理由から、特定のクエリに必要な特徴を直接指定することが一般的には困難であるという点が挙げられる。このような理由のうち第1のものは、すべてのユーザが与えられたクエリを定式化するために必要な画像に関する用語(例えば、コントラスト、テクスチャ、色)を理解しているわけではないことである。第2の理由は、ユーザがたとえ画像のスペシャリストであるとしても、自分が考えている画像を特徴の組合せに翻訳するのは容易なことではないということである。
他の方法として、「例示照会」として当業で知られているビジュアルインターフェースを暗黙のうちに介してユーザに特徴およびその対応する重みを指定させる方法がある。このプロセスを介して、ユーザは、クエリに関与する画像を選択し、探している画像との類似度に応じて重み付けすることができる。その後、より関連性のある画像を指定することによりクエリの結果を繰り返し精密化してゆくことができる。このプロセスは、当業では「関連フィードバック」(RF)と呼ばれ、非特許文献3において、すでに検索されているドキュメントの関連性に関するユーザによってフィードバックされた情報を使用して既存のクエリを自動調整するプロセスとして定義されている。
関連フィードバックは、複数の段階にわけてユーザ主観をモデル化するために使用される。まず、これは、ユーザの主観的な心の中にある理想的画像を識別するために適用できる。検索の各ステップで、ユーザは、クエリに関与する画像の集合を選択し、それぞれに関連度を割り当てるよう求められる。この情報は、ユーザが意図するクエリを表す分析方法を定義するために様々な方法で使用することができる。その後、理想的クエリを、非特許文献4で開示されているように、前回クエリとは無関係に定義することができる。これは、さらに、理想的クエリポイントが正例(positive example)に向かって進み、負例(negative example)から遠ざかる「クエリポイント移動法」の場合のように、前回クエリにも依存することがある。この最後の方法は、非特許文献5で説明されている。
また、関連フィードバックを使用すると、重要度(例えば、重み)をそれぞれの特徴に割り当てるか、または元の特徴空間をユーザのニーズおよび特異性に最もよく対応する新しい特徴空間に変換することにより、ユーザのニーズをうまくすくい取ることができる。そうするために、関連性のある画像の検索に役立つ特徴の重要度を強め、役立たない特徴の重要度を低くする。それぞれの特徴の重要度が決定された後、それらの結果を適用し、特定の現在クエリでユーザ意図する類似性にうまく対応する類似性尺度を定義する。
さらに、重みを特徴に属性として割り当てる操作を適用し、冗長な特徴または予測情報を殆どまたは全くもたらさない特徴を排除することにより特徴の部分集合を選択するプロセスとして、非特許文献6で定義されている特徴選択を実行することができる。実際、それぞれの特徴の重要度が決定された後に、十分重要である特徴のみを残すことにより特徴選択を実行することができ、その残りは排除される。いくつかの特徴を排除することにより、検索効率を高めることができるが、それは、低次元の特徴空間では、適切な類似性尺度を定義し、妥当な時間内に検索を実行し、効果的なインデキシング手法を適用することが比較的容易だからである(詳細については、非特許文献7を参照のこと)。
正例を使用する関連フィードバックは、当業では非常によく知られている。例えば、Ishikawaらは、画像同士を比較する二次形式の距離関数を定義している。Tは行列の転置を表すものとする、それぞれの画像がI次元特徴ベクトル
Figure 2005535952
で表される、N個の画像からなるクエリを考え、さらにユーザがクエリに関与するそれぞれの画像に、探索される画像の類似度を表す関連度πnを関連付けるものと考えて、Ishikawaらは、2つパラメータ、つまり、クエリ画像と理想的クエリ式との間の大域的距離を表す、式(1)で与えられる量Dを最小にする、理想的クエリ
Figure 2005535952
および楕円距離行列Wを計算している。
Figure 2005535952
Ishikawaらによって提案されている方法の欠点は、負例をサポートしないという点である。
非特許文献8では、各画像は、実数ベクトルによりそれぞれ表される/特徴の集合に分解される方法を開示している。
Figure 2005535952
は、n番目のクエリ画像のi番目の特徴ベクトルを表し、πnは、ユーザによってn番目の画像に割り当てられている関連度を表す。また、クエリはN個の画像からなると仮定されている。それぞれの特徴iについて、理想的クエリベクトル
Figure 2005535952
、行列Wi、および式(2)で与えられるクエリ画像の大域的分散を最小にするスカラー重みuiが計算される。クエリ画像の分散を最小にするのは、集中している特徴、つまり、画像例同士が近い関係にある特徴を強めることが目的である。
Figure 2005535952
非特許文献9で、Ruiら(3)は、負例画像に割り当てられている負の関連度を用いること以外は同様のモデルを使用することを提案している。このモデルの欠点は、負例の関連特徴を無視することになり、負例は正例と混同されるという点である。
多くの研究が関連フィードバックでのユーザインタラクションから学習する方法に重点的に取り組んでいた一方で、負例の関連性を喚起した研究はわずかしかなかったことに留意されたい。しかし、負例は、これを利用することでユーザは欲しない画像を決定し捨てることができるため、クエリの精密化に有用な場合がある。実際、Mullerらは、非特許文献10で、正フィードバックのみを使用することにより、最初のフィードバックステップでのみ主要な改善を果たし、しかも、結果が連続的に改善されて行く正と負のフィードバックによる4つの最初のステップについて改善は顕著であることを示している。
負例を使用する関連フィードバックも、ノイズ(検索された望まれていない画像)を減らし、ミス(検索されなかった望まれている画像)を減らすためにも有用と考えられる。実際、与えられてクエリの結果が得られた後、ユーザは、正例画像を保持し、いくつかの望まれていない画像を負例として取り込むことによりクエリを充実させることができる。これは、負例の画像に似た画像は捨てられ、したがってノイズが減ることを意味する。それと同時に、捨てられた画像は、ユーザが欲しているものとさらによく似ているはずの他の画像で置き換えられる。したがって、ミスも減少する。さらに、ユーザは、最近検索した画像の中から、ユーザが必要とする画像に似た画像をさらに見つけ出して、新規クエリを定式化するためにそれらの画像を使用することができる。したがって、負例の使用は、ページゼロ問題と呼ばれる問題、つまり、検索を開始するためのよいクエリ画像を見つけるという問題を解決するのに役立つことであろう。ページゼロ問題を緩和すると、検索時間が短縮され、結果の精度も改善されることがわかっている(非特許文献7を参照)。また、負例を伴う関連フィードバックは、ユーザフィードバッククエリに対する応答として、システムが前回反復の場合とまったく同じ画像を返すときに有用であることにも留意されたい。ユーザがすでにシステムに対し可能なすべての正フィードバックを送っていると仮定すると、この状況から逃れる唯一の方法は、いくつかの画像を負フィードバックとして選択することである。
負例を伴う画像内容検索法の結果の解釈を考察すると、モデルの2つのカテゴリを区別できる。第1のカテゴリでは、正例画像はユーザによって選択されるが、負例画像は、ユーザによって選択されなかった画像の中から検索システムにより自動的に選択される。第2のカテゴリでは、正例画像と負例画像の両方がユーザによって選択される。
Mullerらは、この第1のカテゴリから画像内容検索法を説明している。初期クエリに関しては、非選択画像を負例として自動的に供給することにより充実させることを提案している。精密化のため、前回クエリの結果正例として得られた上位20の画像が選択される。負例としては、返却されない画像のうち4つが選択される。Muller法では、数回のフィードバックステップで精密化を行い、それぞれのステップでは、理想的クエリを正例へと進め、負例からは遠ざけることを目指す。より具体的には、これは、非特許文献11で提案されている以下の公式を使って得られる。
Figure 2005535952
ただし、Qは理想的クエリであり、n1およびn2は、それぞれクエリ内の正と負の画像の個数であり、RiおよびSiは、それぞれ正と負の画像の特徴であり、αおよびβは、正例と負例の相対的重み付けを決定する。一部のテキスト検索システムで使用される値α=0.65およびβ=0.35が使用される(Mullerらを参照のこと)。
システムでは自動的に負例画像を選択するので、第1のカテゴリからのシステムの欠点は、不適切な画像を使用した場合にクエリが破壊される可能性があるという点である。実際、システムが、正例としてむしろみなすべきいくつかの画像を負例として選択した場合、それらの画像の関連特徴は捨てられ、検索プロセスを誤らせることになる。
非特許文献12では、第2のカテゴリからの負例を伴う画像内容検索法を開示している。より具体的には、画像検索にベイズモデルを提案しているということであり、これはデータベースが多数の画像クラスで構成されているという仮定に基づいて動作する。検索を実行すると、高いメンバーシップ確率を正例画像に割り当てる画像クラスはサポートされ、高いメンバーシップ確率を負例に割り当てる画像クラスはペナルティが課される。著者らは、正例および負例が同じ相対的重要度を持つと考えていることに留意されたい。Vasconcelosにより提案されている方法およびシステムの欠点は、選択のどのような種類の特徴重み付けをも実行しないという点である。実際、特徴の重要度は、ユーザ毎に、さらには同じユーザであってもその瞬間毎に異なるということはよく知られている。しかし、このシステムでは、すべての特徴が同じ重要度を持つとみなしている。
Picardらは非特許文献13および非特許文献14で、正例に類似した画像の集合を検索してから、負例に類似した画像の集合を検索し、最後にそれら2つの集合を操作してユーザに返すべき画像の集合を取得することを伴う方法を提案している。
より具体的には、Picardらは、データベース画像を色およびテクスチャなどの個別の特徴に応じて多数の階層木に編成する方法を教示している。ユーザがクエリをサブミットすると、各木を使用した比較が実行され、その結果として得られた集合が組み合わされるのであるが、そのために、最も効率よく正例を記述する画像集合を、それらの画像集合が負例もうまく記述しているというようなことはないという条件の下で、選択する。
Belkinらは、非特許文献15で、負例に関係があろうとなかろうと正例の関連特徴は適切であると仮定するベイズ確率モデルを使用している。負例に対する解釈は、正例が出現する文脈は検索者の問題には不適切であるというものである。正例の関連特徴の(正の)重みを(負例内での出現に関係なく)高くし、正例内に出現しない負例の関連特徴を(負の重みで)強めることを提案している。
Belkinらは、負例を特徴レベルで考察している。同時に正例に似ているが、負例には似ていない画像を検索するのに役立つ特徴を識別し、強めようと試みている。しかし、負例にも出現する正例の重要な特徴を強めることで、後述のように、検索プロセスは誤った方向に進むことになる。
最終的に、Nastarらは、非特許文献16および非特許文献17で、ユーザが正例を選択する関連画像とユーザが負例を選択する非関連画像とで構成される画像データベースを考察している。確率モデルは、関連画像の分布を推定し、同時に、非関連画像の検索確率を最小にするために使用される。このようなモデルの欠点は、負例に対するその解釈、および負例画像と非関連画像との混同にある。現実のデータベースでは、ほとんどの画像は、一般に、与えられたクエリに無関係であるが、そのうちいくつかが、このクエリを破壊することなく負例として使用できる。
Flickerら「Query by image and video content.The QBIC system」、IEEE Computer Magazine、28:23〜32、1995年 Carsonら「A system for region-based image indexing and retrieval」、International Conference on Visual Information Systems、Amsterdam、1999年、509〜516頁 Ruiら「Content-based image retrieval with relevance feedback in MARS」IEEE International Conference on Image Processing、Santa Barbara、California、1997年、815〜818頁 Ishikawaら「Mindreader:Query databases through multiple examples」24th International Conference on Very Large Data Bases、New York、1998年、433〜438頁 Zhangら「Relevance Feedback in Content-Based Image Search」12th International Conference on New Information Technology (NIT) in Beijing、2001年5月 Kimら「Feature Selection in Unsupervised Learning via Evolutionary Search」6th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining(KDD-00)、San Diego、2000年、365〜369頁 Kherfiら「Web Image Search Engines:A Survey.Technical Report N°276」Universite de Sherbrooke、Canada、2001年12月 Ruiら(2)「Optimizing Learning in Image Retrieval」IEEE International Conference On Computer Vision and Pattern Recognition、Hilton Head、Sc、USA、2000年 Ruiら(3)「Efficient Indexing,Browsing and Retrieval of Image/Video Content」PhD thesis、Department of Computer Science、University of Illinois at Urbana-Champaign、1999年 Mullerら「Strategies for Positive and Negative Relevance Feedback in Image Retrieval」Technical Report N° 00.01、Computer Vision Group、Computing Center、University of Geneva、2000年 Rocchio「Relevance Feedback in Information Retrieval」SMART Retrieval System、Experiments in Automatic Document Processing、New Jersey、1971年、323〜323頁 Vasconcelosら「Learning from User Feedback in Image Retrieval Systems」Neural Information Processing Systems 12、Denver、Colorado、1999年 Picardら「Interactive Learning Using a Society of Models」IEEE Conference on Computer Vision and Pattern Recognition、San Francisco、1996年、447〜452頁 Picardら「Modeling user subjectivity in image libraries」Technical Report No.382、MIT Media Lab Perceptual Computing、1996年 Belkinら「Rutgers' TREC-6 interactive track experience」、6th Text Retrieval Conference、Gaitherburg、USA、1998年、597〜610頁 Nastarら「Relevance Feedback and Category Search in Image Databases」IEEE International Conference on Multimedia Computing and Systems、Florence、Italy、1999年、512〜517頁 Nastarら「Efficient Query Refinement for Image Retrieval」IEEE Conference on Computer Vision and Pattern Recognition、Santa Barbara、1998年、547〜552頁 J.Li、J.Z.WangならびにG.Wiederhold「IRM:Integrated region matching for image retrieval」2000 ACM Multimedia Conference、San Jose、USA、2000年、147〜156頁 J.Li、J.Z.WangならびにG.Wiederhold「SIMPLIcity:Semantics-sensitive Integrated Matching for Picture Libraries」IEEE Transactions on Pattern Analysis and Machine Intelligence、23 (9):947--963、2001年 John R.Smith「Image Retrieval Evaluation」IEEE Workshop on Content-based Access of Image and Video Libraries、1998年 Huangら「Image Indexing using Color Correlogram」IEEE Conference on Computer Vision and Pattern Recognition、1997年
そこで、本発明の目的は、正例と負例とを使用して画像内容検索機能を改善することである。
本発明によりデータベースファイルの集合からデータファイルを検索する内容検索法は、一般的に、ユーザが正例画像、負例画像、およびそれぞれの関連度を選択できる検索シナリオを定義することを目指している。これにより、まず、正例に基づいてデータセットの異種混合の不均一を低減し、その後、負例に基づいて結果を精密化することができる。
より具体的には、本発明の第1の態様により実現される、データファイルの集合からデータファイルを検索する内容検索法は、データファイルの正例および負例を用意することと、正例は少なくとも1つの関連特徴を含むことと、正例および負例のうちの少なくとも1つの例の中の少なくとも1つの弁別特徴を与え、正例と負例とを区別できるようにすることと、データベースファイルの集合の中のデータベースファイル毎に、各データベースファイルと少なくとも1つの関連特徴を考慮した正例との類似性に基づき関連性スコアを計算することと、データベースファイルの集合の中で類似性スコアが最高であるNb1個のファイルを含む関連ファイルのリストを作成することと、Nb1は所定の数であることと、関連ファイルのリスト内の関連ファイル毎に、各関連ファイルと少なくとも1つの弁別特徴を考慮した正例との類似性および各関連ファイルと少なくとも1つの識別特徴を考慮した負例との非類似性に基づき弁別スコアを計算することと、関連ファイルのリストの中の弁別スコアが最高であるNb2個のファイルを選択することと、Nb2は所定の数であることとを含む。
本発明の第2の態様により実現される、データベース画像の集合から画像を検索する内容検索法は、正例および負例の画像を用意することと、正例画像は少なくとも1つの関連特徴を含むことと、正例および負例のうちの少なくとも1つの例の中の少なくとも1つの弁別特徴を与え、正例画像と負例画像とを区別できるようにすることと、データベース画像の集合の中のデータベース画像毎に、各データベース画像と少なくとも1つの関連特徴を考慮した正例画像との類似性に基づき関連性スコアを計算することと、データベース画像の集合の中で関連性スコアが最高であるNb1個のファイルを含む関連画像のリストを作成することと、Nb1は所定の数であることと、関連画像のリスト内の関連画像毎に、各関連画像と少なくとも1つの弁別特徴を考慮した正例画像との類似性および各関連画像と少なくとも1つの識別特徴を考慮した負例画像との非類似性に基づき弁別スコアを計算することと、関連画像のリストの中の弁別スコアが最高であるNb2個の画像を選択することと、Nb2は所定の数であることとを含む。
本発明の第3の態様により実現される、データベース画像の集合から画像を検索する内容検索法は、正例および負例の画像を用意することと、正例画像は少なくとも1つの関連特徴を含むことと、データベース画像の集合を複数のデータベース画像の中から選択された画像の部分集合に制約することと、画像の部分集合内の画像は、少なくとも1つの関連特徴に基づく正例との類似性に応じて選択されることと、少なくとも1つの関連特徴に基づく正例との類似性に応じて、また正例と負例との間の少なくとも1つの弁別特徴に基づく負例との非類似性に応じて、画像の部分集合内の画像を検索することと、それによって、データベース画像の中から検索された画像は、正例とは類似性を持つが、負例とは非類似性を持つ画像に対応することとを含む。
本発明による画像内容検索法を採用すれば、理想的ポイントを識別しなくてもユーザが探している内容を類似性尺度に自動的にまとめられるため、理想的クエリの計算が不要になる。
本発明の第4の態様により実現される、データベース画像の集合から画像を検索する内容検索システムは、正例および負例の画像を用意する手段であって、正例画像は少なくとも1つの関連特徴を含む手段と、正例および負例のうちの少なくとも1つの例の中の少なくとも1つの弁別特徴を与え、正例画像と負例画像とを区別できるようにする手段と、データベース画像の集合の中のデータベース画像毎に、各データベース画像と少なくとも1つの関連特徴を考慮した正例画像との類似性に基づき関連性スコアを計算する手段と、データベース画像の集合の中で類似性スコアが最高であるNb1個の画像を含む関連画像のリストを作成する手段であって、Nb1は所定の数である手段と、関連画像のリスト内の関連画像毎に、各関連画像と少なくとも1つの弁別特徴を考慮した正例画像との類似性および各関連画像と少なくとも1つの識別特徴を考慮した負例画像との非類似性に基づき弁別スコアを計算する手段と、関連画像のリストの中の弁別スコアが最高であるNb2個の画像を選択する手段であって、Nb2は所定の数である手段とを備える。
本発明の第5の態様により実現される、データベース画像の集合から画像を検索する装置は、正例画像および負例画像を受け取るように適合されているインターフェースであって、正例画像は少なくとも1つの関連特徴を含むインターフェースと、データベース画像の集合を複数のデータベース画像の中から選択された画像の部分集合に制約する動作が可能な制約コンポーネントであって、画像の部分集合内の画像は、少なくとも1つの関連特徴に基づく正例との類似性に応じて選択されるコンポーネントと、少なくとも1つの関連特徴に基づく正例との類似性に応じて、また正例と負例との間の少なくとも1つの弁別特徴に基づく負例との非類似性に応じて、画像の部分集合内の画像を検索する動作が可能な検索コンポーネントとを備え、それによって、データベース画像の中から検索された画像は、正例とは類似性を持つが、負例とは非類似性を持つ画像に対応する。
最後に、本発明の第6の態様により実現される、データベース画像の集合から画像を検索する画像内容検索ロジックを格納するコンピュータ可読メモリにおいて、前記画像内容検索ロジックは、正例画像および負例画像を受け取る動作が可能な画像受け入れロジックであって、正例画像は少なくとも1つの関連特徴を含む画像受け入れロジックと、データベース画像の集合を複数のデータベース画像の中から選択された画像の部分集合に制約する動作が可能な制約ロジックであって、画像の部分集合内の画像は、少なくとも1つの関連特徴に基づく正例との類似性に応じて選択される制約ロジックと、少なくとも1つの関連特徴に基づく正例との類似性に応じて、また正例と負例との間の少なくとも1つの弁別特徴に基づく負例との非類似性に応じて、画像の部分集合内の画像を検索する動作が可能な検索ロジックとを格納し、それによって、データベース画像の中から検索された画像は、正例とは類似性を持つが、負例とは非類似性を持つ画像に対応する。
本発明の他の目的、利点、および特徴は、付属の図面のみを参照しつつ例を挙げて取りあげた好ましい実施形態の以下の非制約的説明を読むとさらに明らかになるであろう。
本発明による画像内容検索法は、負例を使用する関連フィードバックを伴う。この負例は、特徴の観点から考慮され、ユーザによって与えられるクエリに応じてほとんどの弁別特徴を識別するために使用される。
本発明による画像内容検索法では、特性規則および弁別規則を含む決定規則を使用しており、これらについて簡単に説明することにする。集合の特性規則は、この集合の元のすべてまたはほとんどにより満たされる概念を特徴付ける主張である。例えば、特定の疾病の症状は、特徴規則により要約できる。弁別規則は、目標集合の概念をデータベースのそれ以外の部分から弁別する主張である。例えば、疾病を区別するには、弁別規則により、この疾病をそれ以外の疾病から弁別する症状を要約しなければならない。
本発明による画像内容検索法を適用する際に、正例および負例は、弁別できる、つまり、正例または負例またはその両方に関連するが、その値は正例と負例とでは同じでない、いくつかの関連特徴を持つと仮定する。言い換えると、正例の関連特徴は、類似の値を除外した負例の関連特徴と同じであるということである。そのような場合、曖昧なクエリができる。本発明による画像内容検索法を実装するシステムは、そのような場合を棄却し、新しい関連特徴を指定するようユーザに求め、ユーザが新しい関連特徴を指定できるようにプログラムされる。
上述の原理を実現するために、第1に関連特徴の識別により特性規則を正例画像から抽出することができる。検索プロセスでそのような特徴に対しより大きな重要度を与え、それらを強める画像を検索しなければならない。第2に、判別規則を正例と負例との差から抽出することができる。値が正例および負例に共通ではない関連特徴は、よい弁別要因であり、したがって、より大きな重要度を与え、逆に、共通の特徴はよい弁別要因ではないため、ペナルティを課さなければならない。しかし、このようにしてこの原理を適用すると、後述のように、正例および負例のいくつかの関連特徴を無視することにより、検索プロセスを誤らせる可能性がある。
上述で取り上げられている問題を解消する、本発明による画像内容検索法について詳しく説明する前に、関連特徴の概念を詳細に定義にしておく。与えられた特徴は、探索対象の画像の検索に役立つ場合に関連すると考えられる。これは、2つの要因に依存する。
第1に、関連性はクエリに関して考えることができる。クエリに関連する特徴は、クエリ画像の大半において顕著な特徴である。考察対象の特徴は、値がクエリ画像の中に集中している特徴であり、それにより、クエリとの関連性に従って、正例と負例とを正しく弁別する。
第2に、特徴の関連性は、データベースに関して考えることができる。与えられた特徴の値がデータベース画像の大半についてほとんど同じである場合、この特徴は、探索される画像とそれ以外の画像とを区別できないため関連性がないと考えられ、またその逆もいえる。このことを分かりやすくするために、それぞれの画像が円形のオブジェクトを含むが、オブジェクトの色は画像毎に異なるデータベースを考える。このようなデータベースでは、形状特徴は、望まれている画像と望まれていない画像とを区別できないため、検索には引っかからないが、色特徴は検索に引っかかる。つまり、データベースが均質であることの基準となる特徴は、検索に関連しないと考えられ、データベースが異種混成であることの基準となる特徴は、関連があると考えられる。
以下では、値が正例と負例の両方に共通である特徴を無視した結果を分析する。実際には、これはデータベースの性質に依存する。データベースがそのような特徴に関して均質である場合、データベースには関連しないためそれらを無視しても弊害をもたらさない。他方、データベースがそれらの特徴に関して異種混成である場合、それらを無視すると、システムは多くの望まれていない画像を検索し、多くの望まれている画像をミスすることになる。
上述のことから、共通の特徴は、任意のクエリに対して働く解を展開するものと考えなければならない。しかし、場合によっては、与えられた時点に、単独であると考えるべき十分な共通の特徴がなく、むしろ、他の特徴と合わせて考えなければならないこともある。
そこで、付属の図面の図1を参照すると、本発明の第1の実施例による画像内容検索法100が例示されている。
一般的にいって、方法100は、
102-データベース画像の集合を用意するステップと、
104-正例および負例の画像を用意するステップと、
106-データベース画像毎に、データベース画像と関連する特徴を考慮した正例との類似性に基づき関連性スコアを計算するステップと、
108-データベース画像の集合の中で関連性スコアが最高であるNb1個の画像を含む関連画像のリストを作成するステップと、
110-正例画像と負例画像とを区別できるようにする弁別特徴を用意するステップと、
112-関連画像のリスト内の関連画像毎に、各関連画像と弁別特徴を考慮した正例画像との類似性および関連画像と弁別特徴を考慮した負例画像との非類似性に基づき弁別スコアを計算するステップと、
114-関連画像のリストの中の弁別スコアが最高であるNb2個の画像を選択するステップとを実行する。
本発明による画像内容検索法を2つの一般的なステップを含むものとして説明することは有益であろう。以下では、参照番号を使用して方法100のステップを参照し、式を使用してさらに一般的なステップ、つまり第1の一般的ステップと第2の一般的ステップを参照することにする。
第1の一般的ステップでは、正例関連特徴に従って(およびそのため、共通特徴にも従って)より均質な部分集合に制約することにより検索に関与する画像の集合の異種混成を減らすことができる。この第1の一般的なステップでは、正例の関連特徴すべてを強める。正例との類似度に応じてデータベース画像をランク付けし、その後、Nb1を所定の数として、Nb1個の最上位ランクの画像のみを保持する。
第1の一般的なステップで保持されている画像のみが第2の一般的なステップで実行される精密化に関与し、そこで、弁別特徴、つまり、値が正例および負例に共通でない特徴を強める。この第2の一般的なステップでは、正例との類似性および負例との非類似性に応じて候補画像をランク付けし、ユーザにNb2(Nb2<Nb1)個の最上位ランクの画像のみを返す。したがって、共通特徴が第2の一般的なステップで無視されたとしても、第1の一般的なステップで考慮されているため検索が誤ることはない。以下で詳しく提示するように、本発明の方法を実装した検索システムを使用することにより、2つのステップで負例とともにクエリを処理することが重要であることを実験的に確認した。
図2は、2つの手法に対する精度-範囲の曲線を比較したもので、本発明による画像内容検索に基づく2つの一般的なステップで処理される負例クエリと従来技術からの方法により独自のステップ(正例および負例の両方が考慮され、データベース内のすべての画像が検索に関与する)で処理される負例クエリとを対比している。縦座標「Precision」は、検索された画像の関連度の平均値を表し、「scope」は、検索された画像の個数である。図1から、負例を含むクエリが1ステップで考慮されている場合、検索の精度は検索画像の個数とともにたちまち減少する。
方法100のステップ102〜114のそれぞれについて説明する前に、いくつかの特別な場合は、重要であり、言及しておく価値があるので、提案されている画像検索法も同様に機能することを示す。これらの場合は、すべての弁別特徴が正例のみ、または負例のみから得られる場合に出現する。実際、正例の関連特徴が負例の関連特徴に、共通の値とともに厳格に含まれる場合、一般的な第1のステップで、提案されている原理を適用することにより、正例の関連特徴(共通特徴と同じである)を強め、それに似た画像を保持する。その後、第2の一般的なステップで、負例関連特徴の残りを強め、それに近い画像を捨てる。他方、負例の関連特徴が正例の関連特徴に、共通の値とともに厳格に含まれる場合、一般的な第1のステップで、提案されている原理を適用することにより、正例の関連特徴(負例の特徴を含む)を強め、正例に似た画像を保持する。その後、第2の一般的なステップで、正例に関連するが、負例には関連しない特徴のみを強め、本質的にそれらの特徴に応じて画像のランク付けをやり直す。
以下では、画像内容検索法100により、ユーザが負例のみを使用してクエリを構成する方法について説明する。
第1に、与えられたクエリについて、非関連画像の個数は、通常、関連画像の個数よりもかなり多いことに注意されたい。つまり、だれかが欲していないものがわかっても、これは、ユーザが欲しないものについての十分な情報にならないということである。例えば、ユーザが正例を与えることなく自家用車の画像を負例として与えても、いったいユーザが探している画像がビルなのか、動物なのか、人なのか、またはその他の物なのかを知ることはできない。しかしながら、負例は場合によっては単独で使用することもでき、例えば、データベースにユーザが同意している画像のほかにユーザの文化では許容できない画像、例えば、誰かの裸体画像が含まれる場合に、例えば、データベースから部分集合を排除することができる。このような場合、ユーザは、まず、それらのうち一部を負例として使用して望まれていない画像を排除し、その後、データベースの残り部分に入るか、または検索することができる。検索方法に関しては、負例のみクエリは正例クエリとして考えられる、つまり、システムは最初に、負例に似ている画像を探索する。その結果得られた画像(ユーザが捨てたいと思っている画像)が検索された場合、システムはユーザに対し、それらの画像ではなくデータベースの残り部分を返す。
次に方法100のステップ102〜114のそれぞれについて詳しく説明する。
ステップ102において、ユーザが検索したい画像を含む可能性のある画像の集合のうち、データベース画像の集合がユーザに与えられるか、またはユーザによって与えられる。
その後、ステップ104において、正例画像および負例画像は、ユーザと方法100を実装するシステムとの間のインタラクションを通じてやり取りされる。もちろん、特定の特徴を備える画像を探している人は、そうする代わりに、手作業で例画像を選択することもできる。その場合、選択された画像は後でデジタル化される。
ユーザインタラクションでは、2つの主要な目的を達成することを目指している。第1に、クエリ画像とそれぞれの関連度とを組み合わせて、ユーザが探しているものを識別し、この情報を類似性尺度で統合できるようにすることである。第2に、クエリとの関連度と提供できる弁別能力に応じてそれぞれの所定の特徴およびその構成要素に重み付けをすることである。
図3は、異なる主題に関係する9つのサンプル画像を表示し、異なる特徴を強調するグラフィカルインターフェースを例示している。グラフィカルインターフェースは、クエリを定式化する前にユーザがデータベースから追加画像を選択できるようにプログラムされる。画像を例画像(またはクエリ画像)として選択するには、ユーザは「Select」ボタンをクリックする。システムは、ユーザが関連度を指定するためのダイアログボックスを表示する(図4を参照のこと)。図4に例示されているユーザインターフェースにより、人は選択された例画像を特徴付けることができる。
選択されたそれぞれの画像について、可能な関連度は以下のとおりである。
・Very similar:正例画像に対する関連度2に対応する。
・Similar:正例画像に対する関連度1に対応する。
・Doesn't matter:画像はクエリに関与しない。
・Different:負例画像に対する関連度1に対応する。
・Very different:負例画像に対する関連度2に対応する。
もちろん、それぞれの画像の関連性は、おおよその適合性により特徴付けることができる。
関連フィードバックの定式化について詳細に説明する前に、画像モデルおよび類似性尺度の一実施例について説明する。もちろん、他の画像モデルはその代わりに使用することもできる。
画像を表すために、Ruiらにより提案されている階層モデルを使用する。このモデルによれば、それぞれのイメージは、クエリ内にあるものもデータベース内にあるものも、I個の特徴の集合により表され、それぞれは多数の構成要素からなる実ベクトルである。この画像モデルでは、画像と画像特徴の両方を適切にモデル化し、計算時間を短縮できることがわかっている。この階層型2レベル画像モデルに応じて、各レベルの距離計量が選択される。特徴レベルでは、Ishikawaらのように、一般化されたユークリッド距離関数が選択される、
Figure 2005535952
および
Figure 2005535952
がそれぞれ画像x1およびx2のi番目の特徴ベクトルである場合、この特徴レベルでの距離は以下の式で表され、
Figure 2005535952
Wiは、一般化された楕円距離計量Diを定義するために使用できる対称行列である。
この距離計量を選択すると、各特徴の構成要素に重み付けするだけでなく、初期特徴空間をユーザのニーズおよび特異性をうまくモデル化する空間に変換することができる。2つの画像x1およびx2の間の大域的距離は、線形であり、以下の式により与えられる。
Figure 2005535952
ただし、uiは、i番目の特徴に割り当てられた大域的重みである。
データベースまたはクエリに含まれるそれぞれの画像は、以下のようにして、27個の特徴ベクトルからなる集合により表される。まず、画像内のすべてのピクセルを三次元(3D)HSI空間内の一点にマッピングする(図5を参照のこと)。この操作は、すべての三つ組み[H,S,I]について、値Hue=H、Saturation=S、およびIntensity=Iを持つピクセルの個数を計算することからなる。これにより、多くの空間を占有し、その値の大半について0となっている、3Dカラーヒストグラムが得られる。例えば、HSI値が0から255の範囲である画像だと、大半がどのピクセルにも対応しない2563個のセルを含むヒストグラムが得られる。
ヒストグラムのサイズを低減するため、3Dヒストグラムの点の空間再配分などの多数の解決策が考えられ、その際に、それぞれの出現頻度、つまり、ヒストグラム内の各点に対応するピクセルの個数を考慮する。しかし、方法100では最良の視覚的特徴を見つけることを目的としていないので、軸H、S、およびIをそれぞれ3つの等しい間隔に再分割することにより空間を分割する際に妥協を図る。これにより、図5に示されているように、33=27の部分空間が得られる。それぞれの部分空間は1つの特徴を含み、その対応するベクトルは以下のように計算される。部分空間は、23=8個の部分空間に細分される。それぞれの部分部分空間の要素の総和を計算し、その結果を特徴ベクトルの対応するセル内に格納する。
それとは別に、他のモデルを使用して画像を表すこともできる。
ステップ106で、データベース画像毎に、画像と関連特徴を考慮した正例画像との類似性に基づき関連性スコアを計算する。
ユーザがN1個の正例画像およびn=1,...,N1に対するそれぞれの関連度πn 1からなるクエリのほかに、N2個の負例画像およびn=1,...,N2に対するそれぞれの関連度πn 2を構成することを考える。(πn 2はπnの二乗ではなく、2は負例を指示するインデックスであることに留意されたい。)
正例のみが、ステップ106で考慮されている。それぞれの関連特徴およびその構成要素は、正例との関連性に応じて強められる。これは、式(6)で与えられている、正例の大域的分散であるJpositiveを最小にする最適なパラメータuiおよびWiを代入することにより実行することができる。
Figure 2005535952
ただし、
Figure 2005535952
は、以下の式により与えられる、正例の重み付き平均である(図6を参照のこと)。
Figure 2005535952
本発明による画像検索法では、特徴空間内で正例画像同士が近いような特徴および特徴構成要素により大きな重みを付けることができる。形式張らずにいうと、クエリ画像の分散が与えられた軸に沿って高い場合、この軸上の値はユーザに受け入れられそうであり、したがってこの軸に低い重みを付けるべきであり、またその逆もいえる、というのが理由である。
ステップ108で、データベース画像は、各データベース画像と関連特徴を考慮した正例画像との類似性に基づく関連性スコアに応じて昇順でランク付けされる。
より具体的には、正例平均およびNb1個の最上位ランクの画像からの距離を計算し、次のステップのために保持する。この距離は、式(8)により与えられる。
Figure 2005535952
クエリに負例画像のみが含まれている場合、システムは最初に類似の手順で作業を進めるが、正例ではなく負例を考慮する。これは、システムでは負例画像の分散を最小にする理想的パラメータを計算し、負例平均からの距離に応じて昇順で画像をランク付けし、その後、ユーザに最後にランク付けされた画像を返すことを意味している。クエリが正例と負例の両方を含む場合、システムは、検索の2つのステップを実行する。第1のステップで使用されるパラメータ計算および距離関数は、正例のみのクエリの場合と同じである。
第2の一般的なステップでは、正例画像と負例画像の両方が考慮され、精密化は第1の一般的なステップ、より具体的にはステップ108で、保持される画像に関係する。
まず、クエリの大域的分散Jglobalは、正例画像および負例画像を含み、以下の式で定義される。
Figure 2005535952
ただし、正例に対してはk=1、負例に対してはk=2であり、式(10)で与えられる
Figure 2005535952
は、i番目の特徴に対するすべてのクエリ画像の重み付き平均である(図7を参照のこと)。
Figure 2005535952
非特許文献8では、負の関連度を負例画像に割り当て、式(9)の同じ式を最小にするパラメータを計算することを提案している。このような方式の結果は、本発明による画像内容検索法では採用されていないが、そのような方式と方法100で使用されている方式との違いを強調するために考慮される。式(9)において正例が負例と別に考慮される場合、以下の式になる。
Figure 2005535952
Ruiら(2)は、n=1,...,N1についてπn 1>0と選択し、n=1,...,N2についてπn 2<0と選択して、以下の式を得ている。
Figure 2005535952
ただし、
Figure 2005535952
は、πn 2の絶対値を表す。式(12)は、大域的分散Jglobalは正例の分散を負例の分散から引いたものであることを示している。したがって、大域的分散を最小にすることにより、Ruiら(2)の文献で大域的クエリ平均q(これを画像と比較する)を正例に向かって移動し、負例から遠ざける場合でも、2つの問題が表面化する。
まず、大域的分散を最小にすると、正例の分散が最小になるが、それは正例平均
Figure 2005535952
よりはむしろ大域的クエリ平均qに関係している。これでは、正例分散の最適な最小化は行われず、したがって、正例の関連特徴には、十分な重要度が与えられない。
第2に、大域的分散を最小にすると、負例の分散が最大になる。これは、負例の関連特徴を無視することを意味している。したがって、その検索システムは、望まれていない画像を捨てることができない。これは、図8に例示されている。
重みuiおよびWiは、うまく区別できるようにする正例または負例の関連特徴により大きな重要度を与えるため代入される。つまり、uiおよびWiを介して、重みが特徴に属性として与えられ、特徴空間は正例画像同士ができる限り近く、負例画像同士はできる限り近く、そして正例と負例とはできる限り隔たる新しい空間に変換される(図7を参照のこと)。これらの目標は、まず、式(9)の大域的分散公式で正例画像を負例画像から区別することにより数式に翻訳される。特徴i毎に、正例画像の重み付き平均
Figure 2005535952
はリコールされ、式(13)および(14)で負例画像の重み付き平均
Figure 2005535952
はそれぞれ定義される。
Figure 2005535952
Figure 2005535952
および
Figure 2005535952
を式(9)に代入することにより、以下のように書き換えることができる。
Figure 2005535952
式(15)を展開すると以下の式が得られる。
Figure 2005535952
式(16)の第2および第3の部分が0であることは容易に示すことができる。例えば、第2の部分は以下のようになる。
Figure 2005535952
式(13)および(14)により、以下のようになるからである。
Figure 2005535952
したがって、式(17)は、以下のように書くことができる。
Figure 2005535952
第1項「A」は、正例の内部分散、つまり、正例画像同士がどれだけ近いかということに、負例の内部分散、つまり、負例画像同士がどれだけ近いかということを加えたものを表す。第2項「R」は、2つの集合からの距離、つまり、正例が負例からどれだけ隔たっているかを表す。
これで、分散間「R」から分散内「A」を区別することにより、上記の目標を数学的問題にどのように定式化できるかが明らかになる。実際、分散内「A」を最小にし、分散間「R」を最大にするモデルパラメータ、つまり、uiおよびWiを計算したい。AとRのいくつかの組合せが可能である。
R≠0と仮定して、比A/Rを最小にするパラメータを計算する。R=0の場合は、正例および負例は区別できず、クエリはあいまいである。そのような場合、クエリは棄却され、ユーザは新しいクエリの定式化を求められる。さらに、数値安定性問題を回避するために、2つの制約条件、
Figure 2005535952
およびすべてのi=1,...,Iについてdet(Wi)=1が導入される。ラグランジュ乗数法を使用することにより、最適なパラメータuiおよびWiで、式(18)により与えられる量Lを最小にしなければならない。
Figure 2005535952
ただし、
Figure 2005535952
および
Figure 2005535952
であり、
Figure 2005535952
は、正例関連度の総和を表す、つまり
Figure 2005535952
であり、
Figure 2005535952
は、負例関連度の総和を表す、つまり
Figure 2005535952
である。
そこで最適なパラメータuiおよびWiを得るための最適化問題を解決することにする。
まず、正例および負例の相対的重要度を決定する、つまり
Figure 2005535952
に関して
Figure 2005535952
であることに留意されたい。Mullerらによって説明されているようないくつかの画像検索システムでは、正例については0.65、負例については0.35である、特定のテキスト検索システムにより使用されている値を採用している。Vasconcelosらによって説明されているような他のシステムでは、正例および負例は同じ重要度を持つと仮定する。方法100では、後者の選択が採用されているが、それは、問題の導出をいくつか簡素化できるからである。さらに、ユーザによって与えられるすべての関連度は、
Figure 2005535952
となるように正規化される。
Wiに対する最適解を得るために、Hiをi番目の特徴の次元、wirsをWiのrs番目の要素、つまりWi=[wirs]としてr,s=1,...,Hiについてwirsに関するLの偏微分をとると、以下の式が得られる。
Figure 2005535952
ただし、
Figure 2005535952
および
Figure 2005535952
Figure 2005535952
を計算する前に、
Figure 2005535952
であることに留意すべきであるが、ただし、det(Wirs)は、det(Wi)の第r行と第s列を取り除いて得られたWiの第rs番目の小行列式である。したがって、以下の式が得られる。
Figure 2005535952
式(19)、(20)、および(21)を(18)に代入して、以下の式が得られる。
Figure 2005535952
次に、Wiの逆行列である行列Wi -1=[wirs -1]を考える(Wiは逆行列が存在すると仮定する)。各成分wirs -1の値を求めるために、行列逆演算の行列式法を使用して以下の式を得る。
Figure 2005535952
det(Wi)=1であることから、以下の式が得られる。
Figure 2005535952
式(26)で、det(Wirs)を式(25)からの値に置き換えて以下の式を得る。
Figure 2005535952
ただし、
Figure 2005535952
式(27)は、さらに、以下のように行列形式で書くこともできる。
Figure 2005535952
ただし、Ciは、以下のように表される行列[cirs]である。
Figure 2005535952
そこで、γの値は、未知のパラメータであるλと独立に計算される。式(28)は、以下のように書くことができる。
Figure 2005535952
ただし、det(Wi -1)=1なので、
Figure 2005535952
である。最後に、Wiに対する最適解が式(30)により与えられる。
Figure 2005535952
ただし、Ciの成分は、式(29)により与えられる。
以下では、Wiの成分に対する正例および負例の分散の影響を考察する。まず、式(29)は、以下のように行列形式に書き直すことができる。
Figure 2005535952
ただし、Covaiは、以下のような、i番目の特徴に対する内共分散行列の総和、つまり、
Figure 2005535952
であり、
Figure 2005535952
Covriは、以下のような、i番目の特徴に対する間共分散行列、つまり、
Figure 2005535952
であり、
Figure 2005535952
次に、式(31)を考察するが、ただし、「A」および「R」の値は、すべての特徴に関係しているので設定されている。内分散が間分散に相対的に高く、したがって、Covaiの要素がCovriの要素に相対的に重要である場合、式(31)により、Ciの成分の値は重要である。しかし、Wi=γCi -1(式(30))なので、wirsの値は小さく、したがって、i番目の特徴の成分は低い重みが与えられることになる。他方、内分散がi番目の特徴の間分散に相対的に低い場合、同様の論法により、この特徴の成分は高い重みが与えられることがわかる。Wiのこの挙動により、弁別特徴を他の特徴に対して強める目的が達成される。
uiに関してLの偏微分をとると、uiの最適解が求められる。
Figure 2005535952
ただし、
Figure 2005535952
および
Figure 2005535952
式(33)および(34)を(32)に代入して、以下の式が得られる。
Figure 2005535952
式(35)の両辺にuiを掛けると、以下の式が得られる。
Figure 2005535952
ただし、
Figure 2005535952
次に、未知のパラメータλを取り除くために、uiと任意のujとの間のλとは無関係の関係を探す。まずλを、以下のように式(36)から直接計算することができる。
Figure 2005535952
次に、式(36)の総和をiについてとると、
Figure 2005535952
が得られるが、
Figure 2005535952
なので、
Figure 2005535952
となる。その結果、以下のようになる。
Figure 2005535952
式(32)および(33)は、すべての特徴iについて、以下の式が成り立つことを意味している。
Figure 2005535952
式(40)からf1u1 2=f2u2 2=...=fiui 2=fIuI 2となる。
したがって、以下の式が得られる。
Figure 2005535952
最後に、uiの最適解を求めるために、式(40)の中のujを式(41)からの値で置き換えて、以下の式を求める。
Figure 2005535952
uiの最適解は、式(42)により与えられるが、ただし、fiは、式(37)により定義される。
次に、正例および負例が各uiの値に及ぼす影響について考察する。まず、式(37)でfiを以下のように書くことができる。
fi=RFai-AFri (43)
ただし、
Figure 2005535952
および
Figure 2005535952
AおよびRは、すべての特徴に依存するため定数と仮定する。i番目の特徴について、内分散が間分散に相対的に高い場合、量Faiは量Friに関して重要度が高くなる。式(43)により、これにより、fiの値が大きくなる。さらに、式(42)は、fiが増大すると、uiが減少し、したがって、i番目の特徴は低い重みが与えられることを示している。逆に、i番目の特徴について、内分散が間分散に相対的に低い場合、同様の論法により、i番目の特徴は高い重みを与えられることがわかる。したがって、uiについて見つかった最適値は、他の特徴に対して関連する弁別特徴を強めるという目的を達成する。
簡単にいうと、ステップ112への入力は、正例画像、負例画像、およびそれぞれの関連度からなる。ステップ112の部分的結果は、最適なパラメータWiおよびuiを含む。これらのパラメータは、それぞれ、式(30)および(42)に従って計算される。これらのパラメータを計算するには、それぞれ式(13)、(14)、(10)、(37)、(19)、および(20)に従って
Figure 2005535952
、A、およびRを計算する必要がある。このアルゴリズムは、Wiおよびuiの計算がAおよびRに依存し、AおよびRの計算がWiおよびuiに依存しているため反復的である。固定小数点法を使用して、Wiとuiの計算を実行する。初期化ステップが必要であり、そこで、以下の値を採用することにする。
- Wiは対角行列で初期化される。
Figure 2005535952
ただし、以下の式
Figure 2005535952
は、クエリ画像の全集合について計算されたi番目の特徴のr番目の成分の標準偏差である。
- パラメータuiは以下の式によって与えられるある種の分散により初期化される。
Figure 2005535952
ただし、
Figure 2005535952
Wiの計算では、行列Ciの逆行列を求める必要がある。しかし、(N1+N2)<Hiの場合、Ciは逆行列を持たない。Ishikawaらは、特異値分解(SVD)による手順で擬似逆行列を求めることを提案している。しかし、この解は、満足な結果を与えず、特に、Ruiらが指摘しているように(N1+N2)がHiよりかなり小さい場合にはそうであり、Ruiらは、特異行列の場合には、Wiを要素が標準偏差の逆数になっている対角行列で置き換えること、つまりr=sならば
Figure 2005535952
、そうでなければwirs=0とすることを提案している。
ステップ112で、Wiは、要素が行列Ciの対角要素の逆数である対角行列、つまり
Figure 2005535952
で置き換えられるが、ただし、
Figure 2005535952
およびcissは、式(26)の中でr=sと置いて得られる。
ステップ114で、ステップ108により得られる関連画像は、正例への近さと負例からの遠さに基づく弁別スコアによりランク付けされる。比較関数は、式(44)により与えられる。最後に、システムは、Nb2個の最上位ランクの画像をユーザに返す。
Figure 2005535952
[実験結果とパフォーマンス評価]
テストは、ペンシルベニア州立大学画像データベースの10000件の画像について実施されており、これについては、J.Li、J.Z.WangならびにG.Wiederholdにより、非特許文献18および非特許文献19で説明されている。このデータベースは、異なる特徴を強調し、異なる照明条件の下で撮影された、異なる主題に関係する画像を含む。画像毎に、特徴の集合が上述のように計算される。検索および精密化に関してテストが何回も実施された。正例および負例が容易には区別できない場合であっても、本発明による方法は、弁別特徴を識別し、その結果得られた画像をそれらの特徴に基づいてソートすることに成功した。
図9は、正例のみによる検索例を示している。図10は、正例と負例とによる検索例を示している。
第1の実施例では、2つの画像が正例としてクエリに関与している。これらの画像は両方とも、青色の空の下で緑色の木が映っている(5095.ppmおよび5118.ppm)。図9は、上位9個の返される画像を示している。この2つのクエリ画像は最上位位置に返されることに留意されたい。また、空の下の木を含む画像はほかにもいくつかあるが、青色の空の下の緑色の木に止まっている茶色の鳥の3つの画像からなるノイズを含む(5523.ppm、5522.ppm、5521.ppm)。それと同時に、データベースには検索されていない空の下の木の他の画像(図には示されていない)が生まれているためミスはなかった。
第2の実施例により、精密化が第1の実施例の結果に対し適用されている。したがって、正例と同じ画像(5095.ppmおよび5118.ppm)を使用しているが、空の下の木に止まっている鳥の画像は、負例として選択されている(図8の画像5521.ppm)。図9は、鳥の画像が捨てられ(ノイズ低減)、空の下の木の画像がさらに大きく検索される(ミス低減)ことを示している。
[パフォーマンス評価]
提案されている関連フィードバック手法を評価するために、本発明による方法を実装する検索システムのパフォーマンス評価が実施された。評価は、正例のみの使用と正例および負例の両方の使用の比較に基づいている。画像検索に関して評価を実行する上で、グランドトルースの取得とパフォーマンス基準の定義という2つの主要な課題が現れている。グランドトルースについては、人間の被験者が用いられた、つまり後述のすべての経験に3人が参加した。John R.Smith が非特許文献20で説明しているPrecision Pr and Recall Reが使用された。
その最も単純な定義では、Precisionは、関連する検索済み画像の割合、つまり、すべての検索された画像の数に対する関連する検索された画像の個数であり、Recallは、検索される関連画像の割合、つまり、データベース内のすべての関連画像の数に対する検索された関連画像の個数である。Smithは、精度-リコール(precision-recall)曲線Pr=f(Re)を作成したが、この尺度は、Recallが一貫して低いため、画像検索の文脈ではあまり意味がないことが観察された。さらに、多くの場合、Recallを計算することは、特に画像データベースのサイズが大きい場合には困難であると考えられるが、それは、クエリ毎に、データベース全体の中の関連画像の個数がわかっている必要があるからである。Recallに関する問題としてはほかに、ユーザに返す画像の数の選択に大きく依存するという点があげられる。データベース内の関連画像の個数がユーザに返される画像の個数よりも多い場合、リコールはペナルティを課される。非特許文献21で説明されているように、精度-範囲曲線Pr=f(Sc)である表現により富んだ曲線が使用されている。範囲Scは、ユーザに返される画像の個数であり、したがって、曲線Pr=f(Sc)は、ユーザに返される画像の個数の異なる値に対する精度を表す。これらのパフォーマンス基準は、当業でよく知られていると考えられるため、ここではさらに詳しく説明しない。
2つの経験があり、それぞれ、われわれのモデルの与えられた態様を測定することを目指している。第1の経験では、検索された画像の関連度の、負例を使った改善を測定することを目指す。第2の経験では、画像の与えられたカテゴリを特定するために必要な反復回数の、負例を使った改善を測定することを目指す。
[第1の経験]
上述のように、第1の経験の目標は、検索された画像の関連度の改善に負例がどの程度寄与しているかを測定することである。経験に参加している各被験者は、正例のみを使用してクエリを定式化し、検索されたそれぞれの画像に良さのスコアを与え、その後、負例を使用してそれらの結果を精密化し、検索されたそれぞれの画像に良さのスコアを与えるよう求められた。可能なスコアは、画像が良好である場合には2、許容できる場合は1、不良である場合は0である。それぞれの被験者は、毎回新規クエリを指定することにより経験を5回繰り返した。Precisionは、Pr=検索された画像の関連度の総和/検索された画像の個数として計算された。図11は、正例による検索と負例による精密化の2つの場合の曲線Pr=f(Sc)の比較を例示している。
経験の結果、平均して、負例が導入されたときには、精度の改善は約20%であることがわかる。実際には、改善はクエリ毎に異なり、それは、意味のある負例の選択およびデータベースの構成などの他の要因に左右されるからである。与えられたクエリについて、データベースに、大半が第1のステップで検索された関連画像が少し含まれている場合、負例またはその他の手法の導入によって、顕著な改善をもたらすことはできないであろう。
[第2の経験]
第2の経験では、画像の与えられたカテゴリを特定するために必要な精密化反復回数の改善だけでなく、ページゼロ問題(検索を開始する際の良好な画像を見つけること)を解消する際の負例の役割を測定することを目指す。各被験者は、色に関して互いに比較的類似している画像の集合を見せられた。示されている画像はいずれも、被験者が初期クエリを定式化するために使用できる画像の集合内に現れていない。それぞれの被験者は、示されている画像のうちの少なくとも1つを正例のみを使って特定し、反復回数を数え、その後経験を、ただし正例と負例の両方を使用してやり直し、反復回数を数えるよう求められる。この経験は、4回繰り返され、その結果は図12に示されている。S1、S2、およびS3は、それぞれ、実験に参加した3名の被験者を表している。PEは正例を意味し、NEは負例を意味する。表内の各エントリは、探索された画像を特定するために必要な反復回数を示す。
正例と負例の両方を使用した場合、被験者はすべての経験で成功しているが、正例のみを使用した場合には、被験者の一部はいくつかの経験において探索された画像の特定に失敗していることがわかった。経験2.2および経験2.4では、少なくとも一人の被験者が、正例のみを使用して探索された画像を特定することができなかった。これは、与えられた反復で、検索されたすべての画像が望まれていないカテゴリに分類され、それらの画像を使用する次の反復のクエリの定式化により、同じカテゴリに属している画像が検索されるからである。ユーザは無限ループに陥る可能性があるが、正例のみを使ってこの状況を逃れることはできない。第2の観察結果から、負例を使用すると、反復回数が目立って減ることがわかる。成功した経験(2.1および2.3)の中の平均反復回数を計算すると、正例のみが使用された場合には5.83、正例と負例の両方が使用された場合には2.33となった。この経験から、ページゼロ問題を緩和する際の負例の役割が明らかになる。実際、探索された画像の少なくとも1つを取得した後、ユーザはそれを使用して、新しいクエリを定式化することができ、そのため、さらに多くの探している画像を検索することができる。
本発明による画像内容検索法では、関連フィードバックを介して識別されることができるユーザのニーズおよび特異性を考慮することができる。正例のみの使用はユーザが探しているものを突き止めるのには必ずしも十分ではないことが示された。これは、特に、クエリに関与するすべての候補画像が不適切な文脈内に現れるか、またはユーザが探している特徴に加えて、ユーザが検索したくない特徴またはオブジェクトを含む場合に見られる。
本発明のモデルは、画像検索に限られず、関連フィードバックによる任意の検索プロセスに適合させ、適用することができることに留意されたい。例えば、本発明による方法は、テキスト、音声、およびマルチメディアの検索などの検索のプロセスで使用することができる。
本発明は、好ましい実施形態を使用してこれまでに説明したとおりであるが、本発明の精神および性質から逸脱することなく、修正することができる。
本発明の例示されている一実施形態による画像内容検索法を説明する流れ図である。 図1の方法による2つのステップにおける負例および従来技術による1ステップにおける負例の2つの場合についての精度-範囲曲線を示すグラフである。 異なる主題に関係するサンプル画像を表示し、異なる特徴を強調するグラフィカルインターフェースのコンピュータのスクリーンショットである。 図1の方法による人が例画像を特徴付けることができるユーザインターフェースからのクエリ画面のコンピュータのスクリーンショットである。 HIS色空間の部分空間の集合への分解およびそれぞれの部分空間のヒストグラムの計算を例示する概略図である。 正の平均、負の平均、およびその結果のクエリ平均総計を例示するグラフである。 負例の関連特徴を無視することになる大域的分散を最小にすることを例示しているグラフである。 「従来技術」と書かれている、正例の分散、負例の最小化、および従来技術の方法による区別の低減を例示するグラフである。 図2の方法からの結果として得られる続くステップ106を例示するスクリーンショットである。 図2の方法からの結果として得られる続くステップ112を例示するスクリーンショットである。 正例による検索および負例による精密化に関する精度-範囲曲線を例示するグラフである。 図2の方法による正例のみの使用および正例と負例の両方の使用の2つの場合における画像の与えられたカテゴリを特定するために必要な反復回数を示す表である。

Claims (26)

  1. データベースファイルの集合からデータファイルを検索する内容検索法であって、
    データファイルの正例および負例を用意し、前記正例は少なくとも1つの関連特徴を含むことと、
    前記正例および負例のうちの少なくとも1つの例の中の少なくとも1つの弁別特徴を与え、前記正例と負例とを区別できるようにすることと、
    データベースファイルの前記集合の中のデータベースファイル毎に、前記各データベースファイルと前記少なくとも1つの関連特徴を考慮した前記正例との類似性に基づき関連性スコアを計算することと、
    データベースファイルの前記集合の中で類似性スコアが最高であるNb1個のファイルを含む関連ファイルのリストを作成し、前記Nb1は所定の数であることと、
    関連ファイルの前記リスト内の関連ファイル毎に、前記各関連ファイルと前記少なくとも1つの弁別特徴を考慮した前記正例との類似性、および前記各関連ファイルと前記少なくとも1つの弁別特徴を考慮した前記負例との非類似性に基づき弁別スコアを計算することと、
    関連ファイルの前記リストの中の弁別スコアが最高であるNb2個のファイルを選択し、前記Nb2は所定の数であることと
    を含むことを特徴とする内容検索法。
  2. データベース画像の集合の中から画像を検索する内容検索法であって、
    正例および負例の画像を用意し、前記正例画像は少なくとも1つの関連特徴を含むことと、
    前記正例および負例のうちの少なくとも1つの例の中の少なくとも1つの弁別特徴を与え、前記正例画像と負例画像とを区別できるようにすることと、
    データベース画像の前記集合の中のデータベース画像毎に、前記各データベース画像と前記少なくとも1つの関連特徴を考慮した前記正例画像との類似性に基づき関連性スコアを計算することと、
    データベース画像の前記集合の中で関連性スコアが最高であるNb1個の画像を含む関連画像のリストを作成し、前記Nb1は所定の数であることと、
    関連画像の前記リスト内の関連画像毎に、前記各関連画像と前記少なくとも1つの弁別特徴を考慮した前記正例画像との類似性、および前記各関連画像と前記少なくとも1つの弁別特徴を考慮した前記負例画像との非類似性に基づき弁別スコアを計算することと、
    関連画像の前記リストの中の弁別スコアが最高であるNb2個の画像を選択し、前記Nb2は所定の数であることと
    を含むことを特徴とする内容検索法。
  3. 前記正例および負例のうち前記少なくとも1つは、複数の画像の重み付き平均であることを特徴とする請求項2に記載の方法。
  4. 前記少なくとも1つの関連特徴は、数Iの関連特徴を含むことを特徴とする請求項2に記載の方法。
  5. 前記正例画像は、各関連特徴Iに対するN1個の正例の重み付き平均
    Figure 2005535952
    であることを特徴とする請求項4に記載の方法。
  6. Figure 2005535952
    は、以下の式により定義され、
    Figure 2005535952
    πn 1は前記正例nに対する関連度であることを特徴とする請求項5に記載の方法。
  7. 前記少なくとも1つの弁別特徴は、数Iの弁別特徴を含み、前記負例画像は各関連特徴iに対するN2個の負例の重み付き平均
    Figure 2005535952
    であり、
    Figure 2005535952
    は、
    Figure 2005535952
    により定義され、πn 2は前記負例nに対する関連度であることを特徴とする請求項6に記載の方法。
  8. Figure 2005535952
    であり、ただし、
    Figure 2005535952
    であることを特徴とする請求項7に記載の方法。
  9. Figure 2005535952
    および
    Figure 2005535952
    であることを特徴とする請求項8に記載の方法。
  10. データベース画像、正例画像、負例画像の前記集合のそれぞれは、画像特徴の集合により表されることを特徴とする請求項2に記載の方法。
  11. 画像特徴の前記集合のそれぞれは、特徴ベクトルにより表されることを特徴とする請求項3に記載の方法。
  12. 関連性スコアを計算することは、前記正例画像と前記それぞれのデータベース画像との間の距離を計算することを含み、前記最高関連性スコアは、前記正例画像と前記それぞれのデータベース画像との間の前記距離のうちの最小の距離に対応することを特徴とする請求項11に記載の方法。
  13. 前記少なくとも1つの関連特徴は、数Iの関連特徴を含み、前記正例画像は各関連特徴iに対するN1個の正例の重み付き平均
    Figure 2005535952
    であり、
    Figure 2005535952
    は、以下の式により定義され、
    Figure 2005535952
    πn 1は前記正例nに対する関連度であり、
    前記正例画像と特徴ベクトル
    Figure 2005535952
    により表される前記それぞれのデータベース画像との間の前記距離は、以下の式により定義され、
    Figure 2005535952
    uiは、前記i番目の特徴に割り当てられた前記大域的重みであり、Wiは、前記少なくとも1つの関連特徴のそれぞれの一般化された楕円距離Dおよび重み付き成分を定義することができる対称行列であり、uiおよびWiは、正例画像の分散Jpositive
    Figure 2005535952
    を最小にすることを特徴とする請求項12に記載の方法。
  14. 弁別スコアを計算することは、前記負例画像と前記それぞれのデータベース画像との間の距離を計算することを含み、前記最高弁別スコアは、前記負例画像と前記それぞれのデータベース画像との間の前記距離のうちの最小の距離に対応することを特徴とする請求項12に記載の方法。
  15. 前記少なくとも1つの関連特徴は、数Iの関連特徴を含み、前記正例画像は各関連特徴iに対するN1個の正例の重み付き平均
    Figure 2005535952
    であり、
    Figure 2005535952
    は、以下の式で定義され、
    Figure 2005535952
    πn 1は前記正例nに対する関連度であり、
    前記負例画像は各関連特徴iに対するN2個の負例の重み付き平均
    Figure 2005535952
    であり、
    Figure 2005535952
    は、以下の式により定義され、
    Figure 2005535952
    πn 2は前記負例nに対する関連度であり、
    前記正例画像と特徴ベクトル
    Figure 2005535952
    により表される前記それぞれのデータベース画像との間の前記距離から、前記負例画像と以下の式により定義される特徴ベクトル
    Figure 2005535952
    により表される前記それぞれのデータベース画像との前記距離を引く計算をし、
    Figure 2005535952
    uiは、前記i番目の関連特徴に割り当てられた前記大域的重みであり、Wiは、前記一般化された楕円距離Dを定義するために使用できる対称行列であり、uiおよびWiは、正例画像の内分散を最小にし、負例画像の内分散を最小にし、正例と負例との弁別を最大にすることを特徴とする請求項14に記載の方法。
  16. 正例画像の前記内分散を最小にし、前記負例画像の前記内分散を最小にし、前記正例と前記負例との前記弁別を最大にすることは、
    Figure 2005535952
    としてA/Rを最小にすることにより実現され、
    ただし、正例に対してはk=1、負例に対してはk=2であり、
    Figure 2005535952
    は、i番目の特徴に対するすべての正例および負例画像の重み付き平均であり、
    Figure 2005535952
    により定義されることを特徴とする請求項15に記載の方法。
  17. 前記正例および負例画像は、サンプル画像のリストの中から人手により選択されることを特徴とする請求項2に記載の方法。
  18. データベースファイルの集合からデータファイルを検索する内容検索法であって、
    データファイルの正例および負例を用意し、前記正例画像は少なくとも1つの関連特徴を含むことと、
    データベースファイルの前記集合を前記複数のデータベースファイルの中から選択されたファイルの部分集合に制約し、ファイルの前記部分集合内の各ファイルは、前記少なくとも1つの関連特徴に基づく前記正例との類似性に応じて選択されることと、
    前記少なくとも1つの関連特徴に基づく前記正例との類似性に応じて、また前記正例と負例との間の少なくとも1つの弁別特徴に基づく前記負例との非類似性に応じて、ファイルの前記部分集合内のファイルを検索し、それによって、前記データベースファイルの中から検索された前記ファイルは、前記正例とは類似性を持つが、前記負例とは非類似性を持つファイルに対応することと
    を含むことを特徴とする内容検索法。
  19. データベース画像の集合の中から画像を検索する内容検索法であって、
    正例および負例の画像を用意し、前記正例画像は少なくとも1つの関連特徴を含むことと、
    データベース画像の前記集合を前記複数のデータベース画像の中から選択された画像の部分集合に制約し、画像の前記部分集合内の各画像は、前記少なくとも1つの関連特徴に基づく前記正例との類似性に応じて選択されることと、
    前記少なくとも1つの関連特徴に基づく前記正例との類似性に応じて、また前記正例と負例との間の少なくとも1つの弁別特徴に基づく前記負例との非類似性に応じて、画像の前記部分集合内の画像を検索し、それによって、前記データベース画像の中から検索された前記画像は、前記正例とは類似性を持つが、前記負例とは非類似性を持つ画像に対応することと
    を含むことを特徴とする内容検索法。
  20. データベース画像の集合の中から画像を検索する内容検索システムであって、
    正例および負例の画像を用意する手段であって、前記正例画像は少なくとも1つの関連特徴を含む手段と、
    前記正例および負例のうちの少なくとも1つの例の中の少なくとも1つの弁別特徴を与え、前記正例画像と負例画像とを区別できるようにする手段と、
    データベース画像の前記集合の中のデータベース画像毎に、前記各データベース画像と前記少なくとも1つの関連特徴を考慮した前記正例画像との類似性に基づき関連性スコアを計算する手段と、
    データベース画像の前記集合の中で類似性スコアが最高であるNb1個の画像を含む関連画像のリストを作成する手段であって、前記Nb1は所定の数である手段と、
    関連画像の前記リスト内の関連画像毎に、前記各関連画像と前記少なくとも1つの弁別特徴を考慮した前記正例画像との類似性、および前記各関連画像と前記少なくとも1つの弁別特徴を考慮した前記負例画像との非類似性に基づき弁別スコアを計算する手段と、
    関連画像の前記リストの中の弁別スコアが最高である前記Nb2個の画像を選択する手段であって、前記Nb2は所定の数である手段と
    を備えることを特徴とする内容検索システム。
  21. 正例画像および負例画像を用意する前記手段は、サンプル画像を表示するグラフィカルユーザインターフェースを含むことを特徴とする請求項20に記載のシステム。
  22. 前記グラフィカルユーザインターフェースは、それぞれの前記サンプル画像の関連度を指定するための手段を備えることを特徴とする請求項20に記載のシステム。
  23. 前記グラフィカルユーザインターフェースは、前記検索された画像を表示するための手段を備えることを特徴とする請求項22に記載のシステム。
  24. データベース画像の集合の中から画像を検索する装置であって、
    正例画像および負例画像を受け取るように適合されているインターフェースであって、前記正例画像は少なくとも1つの関連特徴を含むインターフェースと、
    データベース画像の前記集合を前記複数のデータベース画像の中から選択された画像の部分集合に制約する動作が可能な制約コンポーネントであって、画像の前記部分集合内の前記画像は、前記少なくとも1つの関連特徴に基づく前記正例との類似性に応じて選択される制約コンポーネントと、
    前記少なくとも1つの関連特徴に基づく前記正例との類似性に応じて、また前記正例と負例との間の少なくとも1つの弁別特徴に基づく前記負例との非類似性に応じて、画像の前記部分集合内の画像を検索する動作が可能な検索コンポーネントとを備え、
    それによって、前記データベース画像の中から検索された前記画像は、前記正例とは類似性を持つが、前記負例とは非類似性を持つ画像に対応することを特徴とする装置。
  25. 前記制約コンポーネントおよび検索コンポーネントは、同じロジックデバイス内に実装されることを特徴とする請求項24に記載の装置。
  26. データベース画像の集合の中から画像を検索する画像内容検索ロジックを含むコンピュータ可読メモリであって、前記画像内容検索ロジックは、
    正例画像および負例画像を受け取る動作が可能な画像受け入れロジックであって、前記正例画像は少なくとも1つの関連特徴を含むロジックと、
    データベース画像の前記集合を前記複数のデータベース画像の中から選択された画像の部分集合に制約する動作が可能な制約ロジックであって、画像の前記部分集合内の前記画像は、前記少なくとも1つの関連特徴に基づく前記正例との類似性に応じて選択される制約ロジックと、
    前記少なくとも1つの関連特徴に基づく前記正例との類似性に応じて、また前記正例と負例との間の少なくとも1つの弁別特徴に基づく前記負例との非類似性に応じて、画像の前記部分集合内の画像を検索する動作が可能な検索ロジックとを含み、
    それによって、前記データベース画像の中から検索された前記画像は、前記正例とは類似性を持つが、前記負例とは非類似性を持つ画像に対応することを特徴とするコンピュータ可読メモリ。
JP2004526556A 2002-08-09 2003-08-11 画像内容検索法 Pending JP2005535952A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CA002397424A CA2397424A1 (en) 2002-08-09 2002-08-09 Content-based image retrieval using positive and negative examples
PCT/CA2003/001215 WO2004015589A1 (en) 2002-08-09 2003-08-11 Content-based image retrieval method

Publications (1)

Publication Number Publication Date
JP2005535952A true JP2005535952A (ja) 2005-11-24

Family

ID=31501601

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004526556A Pending JP2005535952A (ja) 2002-08-09 2003-08-11 画像内容検索法

Country Status (6)

Country Link
US (1) US20060112092A1 (ja)
EP (1) EP1532551A1 (ja)
JP (1) JP2005535952A (ja)
AU (1) AU2003258401A1 (ja)
CA (1) CA2397424A1 (ja)
WO (1) WO2004015589A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007316830A (ja) * 2006-05-24 2007-12-06 Toshiba Corp 情報処理装置及びコンテンツ検索プログラム
EP4300374A1 (en) 2022-06-27 2024-01-03 Fujitsu Limited Training program, method for training, and information processing apparatus

Families Citing this family (93)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110076663A1 (en) * 2003-08-18 2011-03-31 Retail Optimization International Systems and methods for selecting survey questions and available responses
US9152624B1 (en) 2003-12-04 2015-10-06 Retail Optimization International, Inc. Systems and methods for visual presentation and navigation of content using data-based image analysis
US8868555B2 (en) * 2006-07-31 2014-10-21 Ricoh Co., Ltd. Computation of a recongnizability score (quality predictor) for image retrieval
US10192279B1 (en) 2007-07-11 2019-01-29 Ricoh Co., Ltd. Indexed document modification sharing with mixed media reality
US8600989B2 (en) 2004-10-01 2013-12-03 Ricoh Co., Ltd. Method and system for image matching in a mixed media environment
US8176054B2 (en) 2007-07-12 2012-05-08 Ricoh Co. Ltd Retrieving electronic documents by converting them to synthetic text
US9171202B2 (en) 2005-08-23 2015-10-27 Ricoh Co., Ltd. Data organization and access for mixed media document system
US9530050B1 (en) 2007-07-11 2016-12-27 Ricoh Co., Ltd. Document annotation sharing
US8335789B2 (en) 2004-10-01 2012-12-18 Ricoh Co., Ltd. Method and system for document fingerprint matching in a mixed media environment
US8369655B2 (en) * 2006-07-31 2013-02-05 Ricoh Co., Ltd. Mixed media reality recognition using multiple specialized indexes
US8510283B2 (en) 2006-07-31 2013-08-13 Ricoh Co., Ltd. Automatic adaption of an image recognition system to image capture devices
US9384619B2 (en) 2006-07-31 2016-07-05 Ricoh Co., Ltd. Searching media content for objects specified using identifiers
US8156116B2 (en) 2006-07-31 2012-04-10 Ricoh Co., Ltd Dynamic presentation of targeted information in a mixed media reality recognition system
US8005831B2 (en) 2005-08-23 2011-08-23 Ricoh Co., Ltd. System and methods for creation and use of a mixed media environment with geographic location information
US9405751B2 (en) 2005-08-23 2016-08-02 Ricoh Co., Ltd. Database for mixed media document system
US8385589B2 (en) 2008-05-15 2013-02-26 Berna Erol Web-based content detection in images, extraction and recognition
US8086038B2 (en) 2007-07-11 2011-12-27 Ricoh Co., Ltd. Invisible junction features for patch recognition
US7991778B2 (en) 2005-08-23 2011-08-02 Ricoh Co., Ltd. Triggering actions with captured input in a mixed media environment
US8856108B2 (en) * 2006-07-31 2014-10-07 Ricoh Co., Ltd. Combining results of image retrieval processes
US8838591B2 (en) 2005-08-23 2014-09-16 Ricoh Co., Ltd. Embedding hot spots in electronic documents
US8144921B2 (en) * 2007-07-11 2012-03-27 Ricoh Co., Ltd. Information retrieval using invisible junctions and geometric constraints
US8276088B2 (en) * 2007-07-11 2012-09-25 Ricoh Co., Ltd. User interface for three-dimensional navigation
US8949287B2 (en) 2005-08-23 2015-02-03 Ricoh Co., Ltd. Embedding hot spots in imaged documents
US7812986B2 (en) * 2005-08-23 2010-10-12 Ricoh Co. Ltd. System and methods for use of voice mail and email in a mixed media environment
US8195659B2 (en) 2005-08-23 2012-06-05 Ricoh Co. Ltd. Integration and use of mixed media documents
US8825682B2 (en) 2006-07-31 2014-09-02 Ricoh Co., Ltd. Architecture for mixed media reality retrieval of locations and registration of images
US7970171B2 (en) * 2007-01-18 2011-06-28 Ricoh Co., Ltd. Synthetic image and video generation from ground truth data
US8521737B2 (en) 2004-10-01 2013-08-27 Ricoh Co., Ltd. Method and system for multi-tier image matching in a mixed media environment
US9373029B2 (en) * 2007-07-11 2016-06-21 Ricoh Co., Ltd. Invisible junction feature recognition for document security or annotation
US8156427B2 (en) 2005-08-23 2012-04-10 Ricoh Co. Ltd. User interface for mixed media reality
US8332401B2 (en) 2004-10-01 2012-12-11 Ricoh Co., Ltd Method and system for position-based image matching in a mixed media environment
US8184155B2 (en) * 2007-07-11 2012-05-22 Ricoh Co. Ltd. Recognition and tracking using invisible junctions
US7702673B2 (en) 2004-10-01 2010-04-20 Ricoh Co., Ltd. System and methods for creation and use of a mixed media environment
EP1755067A1 (en) * 2005-08-15 2007-02-21 Mitsubishi Electric Information Technology Centre Europe B.V. Mutual-rank similarity-space for navigating, visualising and clustering in image databases
EP1826695A1 (en) * 2006-02-28 2007-08-29 Microsoft Corporation Secure content descriptions
EP1801720A1 (en) * 2005-12-22 2007-06-27 Microsoft Corporation Authorisation and authentication
JP4977452B2 (ja) * 2006-01-24 2012-07-18 株式会社リコー 情報管理装置、情報管理方法、情報管理プログラム、記録媒体及び情報管理システム
US20070208730A1 (en) * 2006-03-02 2007-09-06 Microsoft Corporation Mining web search user behavior to enhance web search relevance
US8243999B2 (en) 2006-05-03 2012-08-14 Ut-Battelle, Llc Method and system for the diagnosis of disease using retinal image content and an archive of diagnosed human patient data
KR100785928B1 (ko) * 2006-07-04 2007-12-17 삼성전자주식회사 멀티모달 정보를 이용한 사진 검색 방법 및 사진 검색시스템
US8073263B2 (en) 2006-07-31 2011-12-06 Ricoh Co., Ltd. Multi-classifier selection and monitoring for MMR-based image recognition
US8676810B2 (en) * 2006-07-31 2014-03-18 Ricoh Co., Ltd. Multiple index mixed media reality recognition using unequal priority indexes
US9020966B2 (en) 2006-07-31 2015-04-28 Ricoh Co., Ltd. Client device for interacting with a mixed media reality recognition system
US9063952B2 (en) 2006-07-31 2015-06-23 Ricoh Co., Ltd. Mixed media reality recognition with image tracking
US8201076B2 (en) * 2006-07-31 2012-06-12 Ricoh Co., Ltd. Capturing symbolic information from documents upon printing
US9176984B2 (en) * 2006-07-31 2015-11-03 Ricoh Co., Ltd Mixed media reality retrieval of differentially-weighted links
US8489987B2 (en) * 2006-07-31 2013-07-16 Ricoh Co., Ltd. Monitoring and analyzing creation and usage of visual content using image and hotspot interaction
US7813561B2 (en) * 2006-08-14 2010-10-12 Microsoft Corporation Automatic classification of objects within images
EP2089816A1 (en) * 2006-11-29 2009-08-19 Koninklijke Philips Electronics N.V. Filter by example
US8484580B2 (en) * 2006-12-12 2013-07-09 Sony Corporation Content presentation device, content presentation method, and information storage medium
JP2008157974A (ja) * 2006-12-20 2008-07-10 Canon Inc 表示制御装置及び表示制御装置の制御方法
US20080270378A1 (en) * 2007-04-24 2008-10-30 Nokia Corporation Method, Apparatus and Computer Program Product for Determining Relevance and/or Ambiguity in a Search System
CN101295305B (zh) * 2007-04-25 2012-10-31 富士通株式会社 图像检索装置
US20100277772A1 (en) * 2007-08-15 2010-11-04 I. R. I. S. Method for managing sets of digitally acquired images and method for separation and identification of digitally acquired documents
US8165406B2 (en) * 2007-12-12 2012-04-24 Microsoft Corp. Interactive concept learning in image search
US8206222B2 (en) 2008-01-29 2012-06-26 Gary Stephen Shuster Entertainment system for performing human intelligence tasks
JP4989516B2 (ja) * 2008-02-27 2012-08-01 キヤノン株式会社 表示制御装置、撮像装置及び表示制御方法、プログラム並びに記憶媒体
US8190604B2 (en) * 2008-04-03 2012-05-29 Microsoft Corporation User intention modeling for interactive image retrieval
US8218838B2 (en) * 2008-11-03 2012-07-10 Ut-Battelle, Llc Method and system for assigning a confidence metric for automated determination of optic disc location
US10210179B2 (en) * 2008-11-18 2019-02-19 Excalibur Ip, Llc Dynamic feature weighting
US8385660B2 (en) 2009-06-24 2013-02-26 Ricoh Co., Ltd. Mixed media reality indexing and retrieval for repeated content
US8370282B1 (en) * 2009-07-22 2013-02-05 Google Inc. Image quality measures
JP2011054075A (ja) * 2009-09-04 2011-03-17 Olympus Imaging Corp 画像制御装置およびプログラム
US20120066201A1 (en) * 2010-09-15 2012-03-15 Research In Motion Limited Systems and methods for generating a search
US9317533B2 (en) 2010-11-02 2016-04-19 Microsoft Technology Licensing, Inc. Adaptive image retrieval database
US8463045B2 (en) 2010-11-10 2013-06-11 Microsoft Corporation Hierarchical sparse representation for image retrieval
US9058331B2 (en) 2011-07-27 2015-06-16 Ricoh Co., Ltd. Generating a conversation in a social network based on visual search results
US9785655B2 (en) * 2013-04-04 2017-10-10 Ramot At Tel-Aviv University Ltd. Dynamic maps for exploring and browsing of images
US9773023B2 (en) * 2013-04-25 2017-09-26 Autodesk, Inc. Image selection using automatically generated semantic metadata
WO2015017868A1 (en) * 2013-08-02 2015-02-05 Emotient Filter and shutter based on image emotion content
US9477463B2 (en) * 2013-08-12 2016-10-25 Khan Academy, Inc. Systems and methods for creating a program spin-off
US10515110B2 (en) 2013-11-12 2019-12-24 Pinterest, Inc. Image based search
US10296531B2 (en) * 2013-11-30 2019-05-21 Beijing Sensetime Technology Development Co., Ltd. Visual semantic complex network and method for forming network
US9832284B2 (en) 2013-12-27 2017-11-28 Facebook, Inc. Maintaining cached data extracted from a linked resource
US9442903B2 (en) 2014-02-06 2016-09-13 Facebook, Inc. Generating preview data for online content
US10133710B2 (en) * 2014-02-06 2018-11-20 Facebook, Inc. Generating preview data for online content
US20150331752A1 (en) * 2014-05-16 2015-11-19 Syed Ali Haider Method of data storage on cloud data center for reducing processing and storage requirements by engaging user equipment
US10567327B2 (en) 2014-05-30 2020-02-18 Facebook, Inc. Automatic creator identification of content to be shared in a social networking system
CN105989128B (zh) * 2015-02-13 2019-05-07 深圳先进技术研究院 一种图像检索的方法及装置
US10269055B2 (en) 2015-05-12 2019-04-23 Pinterest, Inc. Matching user provided representations of items with sellers of those items
US10679269B2 (en) 2015-05-12 2020-06-09 Pinterest, Inc. Item selling on multiple web sites
US11055343B2 (en) 2015-10-05 2021-07-06 Pinterest, Inc. Dynamic search control invocation and visual search
US11609946B2 (en) 2015-10-05 2023-03-21 Pinterest, Inc. Dynamic search input selection
US11704692B2 (en) 2016-05-12 2023-07-18 Pinterest, Inc. Promoting representations of items to users on behalf of sellers of those items
US10387427B2 (en) * 2016-07-28 2019-08-20 Amadeus S.A.S. Electronic dataset searching
US10373312B2 (en) 2016-11-06 2019-08-06 International Business Machines Corporation Automated skin lesion segmentation using deep side layers
US11669220B2 (en) * 2017-03-20 2023-06-06 Autodesk, Inc. Example-based ranking techniques for exploring design spaces
US10824942B1 (en) * 2017-04-10 2020-11-03 A9.Com, Inc. Visual similarity and attribute manipulation using deep neural networks
US11126653B2 (en) 2017-09-22 2021-09-21 Pinterest, Inc. Mixed type image based search results
US10942966B2 (en) 2017-09-22 2021-03-09 Pinterest, Inc. Textual and image based search
US11841735B2 (en) 2017-09-22 2023-12-12 Pinterest, Inc. Object based image search
CN111325712B (zh) * 2020-01-20 2024-01-23 北京百度网讯科技有限公司 用于检测图像有效性的方法及装置
CN116049660B (zh) * 2021-10-28 2024-07-12 腾讯科技(深圳)有限公司 数据处理方法、装置、设备、存储介质及程序产品

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6606623B1 (en) * 1999-04-09 2003-08-12 Industrial Technology Research Institute Method and apparatus for content-based image retrieval with learning function

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007316830A (ja) * 2006-05-24 2007-12-06 Toshiba Corp 情報処理装置及びコンテンツ検索プログラム
EP4300374A1 (en) 2022-06-27 2024-01-03 Fujitsu Limited Training program, method for training, and information processing apparatus

Also Published As

Publication number Publication date
US20060112092A1 (en) 2006-05-25
EP1532551A1 (en) 2005-05-25
AU2003258401A8 (en) 2004-02-25
CA2397424A1 (en) 2004-02-09
WO2004015589A1 (en) 2004-02-19
AU2003258401A1 (en) 2004-02-25

Similar Documents

Publication Publication Date Title
JP2005535952A (ja) 画像内容検索法
USRE47340E1 (en) Image retrieval apparatus
Kovashka et al. Whittlesearch: Interactive image search with relative attribute feedback
Kherfi et al. Relevance feedback for CBIR: a new approach based on probabilistic feature weighting with positive and negative examples
WO2019015246A1 (zh) 图像特征获取
WO2017168125A1 (en) Sketch based search methods
US7065521B2 (en) Method for fuzzy logic rule based multimedia information retrival with text and perceptual features
US20090282025A1 (en) Method for generating a representation of image content using image search and retrieval criteria
CN108132927B (zh) 一种融合图结构与节点关联的关键词提取方法
Kovashka et al. Attribute pivots for guiding relevance feedback in image search
Kherfi et al. Combining positive and negative examples in relevance feedback for content-based image retrieval
JP2013200885A (ja) 画像の注釈付け
KR20020075600A (ko) 이미지 검색방법과 장치
CN112328891B (zh) 训练搜索模型的方法、搜索目标对象的方法及其装置
US20070244870A1 (en) Automatic Search for Similarities Between Images, Including a Human Intervention
Panda et al. Active learning in very large databases
CN110909785A (zh) 基于语义层级的多任务Triplet损失函数学习方法
CA2495046A1 (en) Content-based image retrieval method
CN110472088A (zh) 一种基于草图的图像检索方法
Kherfi et al. Combining visual features with semantics for a more effective image retrieval
Böttcher et al. BTU DBIS'Plant Identification Runs at ImageCLEF 2012.
Zhang et al. Data-enabled sketch search and retrieval for visual design stimuli generation
CN114091108B (zh) 一种智能系统隐私性评估方法及系统
Somnathe et al. Image retrieval based on colour, texture and shape feature similarity score fusion using genetic algorithm
Karamti et al. Vectorization of content-based image retrieval process using neural network