JP2011507099A - イメージ検索における対話型概念学習 - Google Patents

イメージ検索における対話型概念学習 Download PDF

Info

Publication number
JP2011507099A
JP2011507099A JP2010538016A JP2010538016A JP2011507099A JP 2011507099 A JP2011507099 A JP 2011507099A JP 2010538016 A JP2010538016 A JP 2010538016A JP 2010538016 A JP2010538016 A JP 2010538016A JP 2011507099 A JP2011507099 A JP 2011507099A
Authority
JP
Japan
Prior art keywords
image
images
series
computer
criteria
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010538016A
Other languages
English (en)
Other versions
JP5309155B2 (ja
Inventor
エス.タン ディズニー
カプール アシシュ
エー.ジェイ.ウィンダー サイモン
エー.フォガティ ジェイムズ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2011507099A publication Critical patent/JP2011507099A/ja
Application granted granted Critical
Publication of JP5309155B2 publication Critical patent/JP5309155B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Abstract

エンドユーザーが、イメージのイメージ特徴に基づいたイメージの再順位付けのための、エンドユーザー自身の基準を迅速に生成できるようにするためのイメージ検索における対話型概念学習手法。イメージ特徴は視覚的特徴および意味的特性または特徴、または両方の組み合わせを含むことができる。よってエンドユーザーは、いかなる現在のまたは未来のイメージ検索結果をエンドユーザーの基準に従って順位付けまたは再順位付けできる。エンドユーザーはそれぞれの基準が一致すべきイメージの事例および基準が却下すべきイメージの事例を提供する。手法は事例の共通のイメージ特徴を学習し、いかなる現在のまたは未来のイメージ検索結果も学習された基準に従って順位付けまたは再順位付けされることができる。

Description

本発明は、イメージ検索における対話型概念学習に関する。
メタデータベースのシステム固有の限界によって、たとえばワールドワイドウェブ上のイメージ検索で見つけるようなイメージ探索への関心が高まっている。現在、最も多くのイメージ検索は、キーワードを使用して検索することによって行われている。これは、イメージが、検索クエリーにおいてキーワードとイメージに関するメタデータを適合する位置にあることを要求する。この型の検索は、非常に大きなデータベース、または、たとえば監視カメラからなどの自動的に生成されるイメージに対しては非現実的な、全てのイメージをメタデータによって記述できる(人の分類などの)仕組みを要求する。
ワールドワイドウェブ上でのイメージ検索などの、イメージ検索が困難であるほかの理由は、1つには、一握りのキーワードでは、通常、イメージ、たとえば、検索されるイメージに垂直線が描かれているイメージなどの視覚的情報の特徴を明らかにするには不十分であることである。一般の検索エンジンはイメージの簡単な特徴に基づいた、自動生成される1連のメタタグ(白および黒のイメージまたは顔を含むイメージのタグなど)を提供し始めたが、このアプローチは、エンドユーザーが、ウェブイメージ検索結果を調べるにおいて、何のタグを使用できることを望むのかが明らかでないという事実によって制限される。
本概要は、以下の発明を実施するための形態にさらに記述されている概念を抽出し、簡単な形式で紹介するために提供される。本概要は、請求項の内容の重要な特性または本質的な特性を特定することを意図するものでもなく、請求項の内容の範囲を限定することを意図するものでもない。
ここで記述される対話型概念学習イメージ検索手法により、エンドユーザーは、迅速に、イメージの特徴に基づいた、検索クエリーに応答した順位付け、または再順位付けの、エンドユーザー自身の基準を生成することができる。これらイメージの特徴は、視覚的なだけでなく、セマンティックな特性または特徴、またはたとえば両方の組み合わせを含むことができる。一度、1つまたは複数の基準が生成されると、エンドユーザーは、これらの基準またはこれらの基準のあらゆる組み合わせに従って、いかなる未来のイメージ検索の結果をも順位付け、または再順位付けできる。手法の一実施形態において、エンドユーザーは、それぞれの基準が一致しなければならない事例イメージおよび基準が却下しなければならない事例イメージを提供する。手法は、事例イメージの共通イメージ特徴を、基準としてまたは概念として学習し、学習した概念に従って、現在のまたは未来のイメージ検索、イメージリストまたはイメージデータベースを順位付け、または再順位付けできる。
本開示の以下に記述する実施形態において、本明細書の一部を形成する添付の図に言及し、図を説明することによって、手法を実践できる詳細な実施形態が示される。本開示の範囲から逸脱することなく、ほかの実施形態を利用することができ、構造の変更を行うことができる。
以下の記述、添えられた特許請求の範囲、および添付の図に関する本開示の特有の特性、特徴、利点がより良く理解されるであろう。
イメージ検索が典型的に実行される1つの可能な実施形態の概略図である。 イメージ検索における対話型概念学習手法の一実施形態を採用することができる1つの典型的なアーキテクチャを表現している略図である。 イメージ検索における対話型概念学習手法の一実施形態を採用しているプロセスの一般化された典型的な実施形態を表現しているフロー図である。 イメージ検索における対話型概念学習手法の一実施形態を採用しているプロセスのほかの典型的な実施形態を表現しているフロー図である。 現在のイメージ検索における対話型概念学習手法を実行することができる典型的なコンピューターデバイスの概略図である。
イメージ検索における対話型概念学習手法の以下の記述において、本明細書の一部を形成する添付の図に言及し、図を説明することによって、イメージ検索における対話型概念学習手法を実践できる詳細な実施形態が示される。特許請求の範囲の内容から逸脱することなく、ほかの実施形態を利用することができ、構造の変更を行うことができる。
対話型概念学習イメージ検索手法は、エンドユーザーが迅速にイメージの特徴に基づいた検索クエリーに応答した順位付けまたは再順位付けのエンドユーザー自身の基準を生成することができる、イメージ検索アプリケーションを提供する。これらのイメージの特徴は、視覚的な特徴またはセマンティックな特性または特徴、または両方の組み合わせを含むことができる。いかなる現在のまたは未来のイメージ検索結果は、作成された基準に従って順位付けまたは再順位付けされることができる。エンドユーザーは、それぞれの基準が一致しなければならないイメージの事例および基準が却下しなければならないイメージの事例を提供する。手法は、事例の共通イメージ特徴を学習する。いかなる現在のまたは未来のイメージ検索の検索結果は、1つまたは複数の学習した基準に従って順位付けまたは再順位付けされることができる。
イメージ検索における対話型概念学習手法を、パーソナルコンピューター上または同様のコンピューターデバイス上で、ウェブページ内部またはウェブブラウザーと一体化させてスタンドアローンアプリケーションという観点で配備することができる。
イメージ検索における対話型概念学習手法の様々な実施形態は多くの予期しない結果と利益を提供する。たとえば、ユーザーは、ユーザーが探しているイメージのイメージ特徴に基づいてユーザー自身のイメージ検索基準を生成することができる。このイメージ検索は、ウェブ上、データベース内、またはユーザーのコンピューターデバイスまたは関連したサーバー上で、関連したいかなる検索語またはメタデータに全く依存しないことが可能である。交互に検索語を学習した規則と結合して、手法の混合の実施形態を生成することができる。
イメージ検索における対話型概念学習手法は、ワールドワイドウェブまたはユーザーのコンピューターデバイス上に常駐するイメージデータベースなどのいかなるイメージ保存場所をも検索するために使用できる。
図1は、たとえばウェブまたはほかのネットワーク上でのイメージ検索などのイメージ検索を実行することができる典型的な実施形態の概略を提供する。通常、ユーザーは、インターネット上またはローカルエリアネットワーク(LAN)上(たとえば、会社内部で)の情報を検索する。
インターネットは、互いにリンクされ、コンピューターネットワーク上で通信している非常に多数のコンピューターの一群である。パーソナルホームコンピューター102は、インターネットサービスプロバイダ(ISP)106と通信する、電話回線およびモデム、デジタル加入者回線(DSL)、無線通信、またはケーブルモデム104を使用してインターネットまたはウェブにリンクされることができる。会社などのより大きな団体の中のコンピューターは、通常、会社内部のローカルエリアネットワーク(LAN)110に直接コンピューターを接続するネットワークインターフェースカード(NIC)をおそらく有している。よって会社は、T1回線112などの高速電話回線を使用して、LAN110をISP106に接続することができる。ISPはさらに大きいISP114に接続し、最も大きいISP116は光ファイバーの「基幹回線」を全ての国または地域に対して保持する。このようにして、インターネット上の全てのコンピューターは、インターネット上のほかの全てのコンピューターと接続されることができる。
ワールドワイドウェブ(ここでは、時々ウェブと呼ばれる)は、インターネットを通じてアクセスされる連結されたハイパーテキスト文書システムである。ワールドワイドウェブ上では、非常に多数の情報およびイメージのページが利用できる。検索を行う人が、ある形式の、特定の内容またはイメージに関する情報を見つけようとする場合、通常インターネットサーチエンジンにアクセスして、ブラウザーを通じてほかのウェブサイト上の情報を見つける。異なるサーチエンジンが動作する手段には違いがあるが、通常、サーチエンジンはウェブ(またはほかのネットワークまたはデータベース)を巡回し、見つけた内容を調べ、見つけた単語の索引および単語を見つけた場所を保持し、ユーザーが索引の中の単語または単語の組み合わせを問い合わせ、または検索できるようにする。情報を見つけるために索引の中を検索することによって、ユーザーは検索クエリーを構築し、ブラウザー、またはクライアント側のアプリケーションによって、検索エンジンを通じて検索クエリーを送るようにさせられる。クエリーに応答する、ウェブページ上のテキストおよびイメージは、同じまたは異なるウェブサイトに、ほかのウェブページとのハイパーリンクを含むことができる。
上記のように、LAN110を通じてまたはインターネット上でイメージを検索するためにイメージ検索における対話型概念学習手法を使用できる一方で、図5について以下に議論するように、ユーザーのコンピューター上のイメージを検索するために手法を同様に上手く使用することができる。
[典型的なアーキテクチャ]
イメージ検索における対話型概念学習手法を使用できる1つの典型的なアーキテクチャ200(図5について後に議論するようにコンピューターデバイス500上に存在している)を図2に示す。一連のイメージ204を取得するために、イメージ検索202を使用することができ、このプロセスは、通常ブラウザーによってサーチエンジンに入力されるクエリーを検索する。ウェブブラウザーは、通常ワールドワイドウェブ上またはほかのネットワーク上のウェブサイトのウェブページ上にあるテキスト、イメージ、およびほかの情報をユーザーが表示および交信できるようにするためのソフトウェアアプリケーションである。検索クエリーは通常、ユーザーに表示されている一連の検索結果を戻し、ユーザーインターフェース210を用いてユーザーによって操作される。
イメージ検索における対話型概念学習手法モジュール206はユーザーインターフェース(UI)210と連動し、ユーザーインターフェースはブラウザーおよびサーチエンジンと連動してユーザーに検索またはほかのイメージデータベースから戻された一連のイメージ204を表示し、ユーザーが、見つけようとするイメージ特徴を持つイメージの事例208(または見つけようとするイメージ特徴を持たないイメージの事例)を提供できるようにもする。イメージ検索における対話型概念学習手法モジュール206は、事例イメージのイメージ特徴に基づいてユーザーが見つけようと試みるイメージの種類に関する基準または概念を学習し、学習した基準に従って検索で戻されたイメージ(現在の検索に応答して戻されたイメージか、または未来の検索の新しい一連のイメージ220のどちらか)を再配置する。基準または概念の学習は、特性抽出モジュール212において、イメージセットのうちのイメージおよび事例イメージのイメージ特徴の抽出された特性を取り込む。基準学習モジュール214は、事例イメージのイメージ特徴の特性に基づいて一連のイメージのうちのイメージを順位付けすることによって基準を学習することを試みる。これは、特性重み付けモジュール216においてイメージセットのそれぞれのイメージの特性に重み付けすることを含む。イメージセットのうちのイメージは、順位付けモジュール218において、学習した基準に基づいて順位付けまたは再順位付けされる。順位付けされたイメージは、再順位付けされたイメージデータベース222に保存されることができる。
イメージ検索における対話型概念学習手法を使用する一般的な典型的プロセスを図3に示す。非常に一般的な意味では、手法のこの実施形態は以下のように実行される。一連のイメージが得られる(囲み302)。この一連のイメージは、たとえば、ネットワーク上をキーワードによって検索する、またはユーザーのコンピューターデバイス上を検索することによって得られる。見つけようとするイメージ特徴を持つイメージの事例が提供される(囲み304)。たとえば、これら事例イメージはユーザーによる上記の検索に応答した一連のイメージから選ばれることができる。どの種類のイメージを見つけようとしているか(一連のイメージの中で、どのイメージをより上に順位付けするか)を特定する基準または概念は提供された事例イメージに基づいた機械的な学習手法によって学習される(囲み306)。たとえば、サポートベクターマシーン(SVMs)、回帰、ベイジアンネットワーク、または近傍分類法などの様々な機械的な学習手法を使用することができる。学習した基準または概念を、たとえばイメージ検索において見つけられたイメージについて、イメージ特徴に基づいて、イメージの順位付けまたは再順位付けに利用することができる(囲み308)。見つけようとするイメージ特徴を持つイメージは、見つけようとするイメージ特徴を持っていないイメージより高く順位付けされる。学習された基準または概念は、検索されるイメージ特徴に基づいて、ほかの一連のイメージ(たとえば、新たな検索に対して返された、または異なるイメージデータベース内のイメージ)にも適用できる(囲み310)。
対話型概念学習イメージ検索手法を使用するほかのより詳しい典型的なプロセスを図4に示す。一連のイメージが得られる(囲み402)。複数の特性、たとえば、視覚的特性などが一連のイメージのそれぞれに対して算出される(囲み404)。次にユーザーは、探しているイメージの特性を有している肯定的な事例か、または探しているイメージの特性を有していない否定的な事例のいずれかのイメージの事例を選択する(囲み406)。(注目すべき点は、ユーザーは、たとえ基準をほかの検索クエリーに適用する場合であっても、肯定的、または否定的な事例を基準に提供することを続けることができることである。)概念または基準は、イメージセットのイメージの最も高い関連性を見積もるために提供される事例イメージに基づいて一連のイメージのそれぞれのイメージの特性の重みを算出することによって学習される(囲み408)。イメージセットのイメージは、算出された重みにしたがって再順位付けされ、ユーザーに示される(囲み410)。ユーザーは再順位付けされたイメージを評価し(囲み412)、再順位付けされたイメージでは要求が満たされなかった場合(囲み414)、追加の事例イメージが提供される(囲み416)(たとえば、後に詳細に議論する、アクティブ学習)。加えて、必要に応じて、学習した基準を完全に異なる一連のイメージに適用することもできる(囲み418)。
イメージ検索における対話型概念学習手法の様々な代替の実施形態を実施することができる。
手法はデスクトップコンピューターまたはほかのコンピューターデバイス上に保存されているイメージのイメージ検索を実行することにも適用できるが、イメージ検索における対話型概念学習手法の1つの典型的な実施形態を、キーワードベースのウェブイメージサーチエンジンからイメージを検索するアプリケーションとして実施することができる。イメージ検索における対話型概念学習手法は、イメージのイメージ特徴に基づいてユーザーが作成した基準に従ってイメージ検索結果またはイメージデータベース内のイメージを順位付けまたは再順位付けすることを可能にする。
イメージ検索における対話型概念学習手法の1つの典型的な実施形態において、それぞれの基準は近傍分類法と定義され、基準を整えるために使用された事例にイメージが類似している程度を示すスコアを計算する。このような基準の整備は、エンドユーザーによって提供された事例からの距離関数を知ることを要求する。イメージ検索における対話型概念学習手法が、ユーザーが生成している基準が定まることを促す情報を、エンドユーザーが与える事例を提供することを促すために、1実施形態において、イメージ検索における対話型概念学習手法は、アクティブ学習基準を実施し、ユーザーが基準を学習するためのよい事例を提供するように促す。イメージ検索における対話型概念学習手法のこれらのおよびほかの実施形態の詳細は、以下で議論される。
議論された実施形態に替わる複数の実施形態が可能であり、ここで議論されるステップおよび要素は、特定の実施形態に応じて変更、追加、または除去することができる。これらの代替の実施形態は、本開示の範囲を逸脱することなく、使用されうる代替のステップおよび代替の要素、実行されうる構造の変化を含む。
図2に示すように、1つの典型的な実施形態において、イメージ検索における対話型概念学習手法は、複数のサーチエンジンを使用してイメージ検索202を行うために、クエリーを使用してプログラムでイメージを検索する。手法の1つの典型的な実施形態において、クエリーのフォーマットパラメーターは、エンジンは結果のリストをXMLフォーマットで返さなければならないことを示し、イメージ検索における対話型概念学習手法はそれぞれのイメージのサムネイルイメージをダウンロードする(手法ではフルサイズのイメージを使用してもよい)。検索クエリーに応答して返されたそれぞれのイメージのイメージ特徴は、ダウンロードされて解析され212、結果のイメージはいかなるアクティブな学習された基準214、216にもしたがって順位付けされるようにすることができる。代わりに、ウェブクローラがイメージを最初に見つけて索引をつけたとき、イメージのイメージ特徴は解析されることができ、検索結果がダウンロードされたとき、これらの特徴は、評価される必要はなく、ダウンロードのみされる必要がある。
これまで議論したように、イメージはエンドユーザーが生成した一連の基準を適用することによって順位付けまたは再順位付けされる。手法の1つの典型的な実施形態において、ユーザーは学習した基準または概念を(たとえば、ユーザーインターフェース210のディスプレイ上のアクティブな基準および有効な基準のウィンドウ枠の間を動かすことによる1つの典型的なユーザーインターフェースにおいて)有効、および無効にすることができる。1実施形態において、ユーザー208は、一連の基準のうちの1つの基準の相対的な重みも変えることができる。たとえば1つの典型的なユーザーインターフェース210において、それぞれのアクティブな基準上のスライダー制御によって、ユーザーは多様な基準の相対的な重みを制御することができる。この実施形態において、全てのアクティブな基準はそれぞれのイメージに対してスコアを計算し、スコアに、たとえば−1から1といった重みを掛け合わせる。こうしてイメージは重み付けされたスコアの合計によって順位付けされる。数学的にイメージiのイメージスコアは以下のように表される。
Figure 2011507099
ここで、weightrは基準の重み、scorer(i)は基準rに対するイメージiのスコアである。
イメージ検索における対話型概念学習手法の1実施形態において、それぞれの基準は近傍分類法によって学習される。それぞれの基準は一連の肯定的な事例(基準が一致すべき字柄を説明しているイメージ)、否定的な事例(基準が却下すべき字柄を説明しているイメージ)および距離メトリックとして定義される。これらのパラメーターが与えられると、規準は、イメージセットの新しいイメージを、この新しいイメージとそれぞれの肯定的または否定的な事例イメージとの間の距離を計算し、最近接の肯定的な事例との距離を最近接の肯定的な事例および最近接の否定的な事例との距離の和で割ることによってスコア付けする。数学的に与えられた基準に対するイメージのスコアは以下のように表される。
Figure 2011507099
ここで、mindistpはイメージと肯定的な事例イメージとの間の最小距離、mindistNはイメージと否定的な事例イメージとの間の最小距離である。scorer(i)は0から1の間の値であり、iが肯定的な事例に近く否定的な事例から遠い場合1に近づき、iが肯定的な事例および否定的な事例から同じ距離離れている場合0.5の値を有し、iが否定的な事例に近く肯定的な事例から遠い場合0に近づく。この距離メトリックに対し、イメージ検索における対話型概念学習手法は、重み付けされた一連の複数の要素の距離メトリックの合計を使用する:
Figure 2011507099
ここで、全てにわたる2つのイメージの間の距離は、相対的な重要性によって重み付けされたそれぞれのメトリックの距離の合計によって記述される。重みは(以下に記述されるように)学習された因子であり、一連のこれらは一意的にそれぞれの基準を定義する。
この方法によると、手法の、イメージ特徴に従うイメージの再順位付け能力の本実施形態の核心部分は、一連の要素距離メトリック、およびイメージ検索における対話型概念学習手法の異なるメトリックを重み付けする方法を学習する能力にある。
1実施形態において、イメージ検索における対話型概念学習手法は、たとえば、ピクセルの色彩、彩度、および輝度のヒストグラム、エッジヒストグラム、グローバルシェイプヒストグラム、およびテクスチャヒストグラムに基づくイメージ距離メトリックを実行する。手法は、イメージ同士間の距離を効率的に算出するためにこれらヒストグラムを使用して、それぞれのイメージに対してこれらのヒストグラムを算出し保存する。
本実施形態において、変化させたサイズのサムネイル色彩、彩度、輝度、およびエッジヒストグラムがそれぞれのサムネイルイメージのピクセル全てについて算出され、サイズを変えたサムネイル(または、フルサイズイメージが使用される場合、フルサイズイメージ)を説明するために標準化される。本実施形態では、2つの距離メトリックがそれぞれのヒストグラムについて定義される。第1の距離メトリックは2つのヒストグラムの間の2次距離であり、ヒストグラムの内の異なるビン数の間の類似点を説明するヒストグラム距離の評価尺度である。輝度ヒストグラムの場合では、たとえば、輝度1.0のイメージは、輝度0.4のイメージよりも輝度0.8のイメージにより似ているとみなされる(より簡単なユークリッドの比較では、2つのイメージを第1のものとは同等に異なるとして扱い、3つの輝度値は異なるヒストグラムビン数において提供される)。それぞれのイメージのヒストグラムの第2のメトリックはヒストグラムエントロピーの差異である。
本実施形態において、ヒストグラムは、全てのイメージに形状記述子を適応することによってそれぞれのイメージの構造全てにわたる表現を算出される。この記述子はビン数への一部のイメージの勾配を、全てのイメージを変換するログポーラーの対象形状領域にわたって合計し、結果として得られるヒストグラムを標準化する。(ユークリッド距離を使用した)同様のヒストグラムは構造全てにわたって似通ったイメージに対応し、記述子は、照度、移動、規模、および回転のある程度の不変性を提供する。たとえば、この距離メトリックは、通常、2つの顔の正面の拡大は似ており、2つの車の運転手側の景色は似ていることを意味している。顔の拡大と車の景色は互いに異なることも意味している。記述子は色を考慮しておらず、よって記述子は色ヒストグラムメトリックを補完する。
最終的に、テクスチャヒストグラムは、グローバルシェイプヒストグラムが保持しているより少ない量の幾何学的な情報を保持しているが、イメージ内に存在する構造の分布を、これらの配置を考慮することなく区別することができると算出された。1実施形態において、イメージから複数のパッチをサンプリングするバグオブワーズ手法が適用される。効率化するために、部分的に重なり合っているブロックの規則的なグリッド上をサンプリングし、それぞれのブロックに対して記述子を算出する。大きいイメージデータベースのオフライン再帰クラスタリング解析を使用して一連の区別テクスチャを学習し、認識された区別テクスチャに基づいてそれぞれのサンプリングされたブロックをビン数に分解することによってランタイムにおいてヒストグラムが算出される。より非形式的には、このメトリックは、似通ったパッチを含む場合、似通ったイメージとみなされる。2つの異なる都市のスカイラインのイメージは似通っているとみなされるかもしれないが、これまで議論したグローバルシェイプ記述子は、2つのスカイラインを異なるとみなすであろう。
手法のほかの実施形態において、キーワードなどの非視覚的距離メトリックも距離メトリックに含まれることができる。複数のサーチエンジンは多様なキーワードにそれぞれのコンテンツの要素を索引として付けて返す。よって、たとえば「車」が一連のイメージを検索するために使用されたキーワードであった場合、一連のイメージのそれぞれは、あるイメージでは「青色、四輪駆動、ポルシェ」またはほかのイメージでは「黄色、オープンカー、速い」など、それぞれのイメージに関するほかのキーワードも有しているであろう。実際は、本開示においては焦点がイメージ特徴にほぼ絞られているが、イメージまたはコンテンツに関するいかなる特徴も使用することができる。
これまで議論したように、イメージ検索における対話型概念学習手法は、基準が一致すべき、または却下すべきイメージの肯定的および否定的な事例から基準を学習する。一連の肯定的な事例が与えられた場合、特定しようと試みられる概念が多くある。最近傍アルゴリズムの多くのアプリケーションにおいて、システムの開発者は、解決しようとする問題に関する知識に基づいて慎重に距離関数を調整する。しかし、現在の手法では、何の類似の概念がエンドユーザーの基準に適しているかを事前に知ることはない。全ての距離メトリックを等しく扱う試みがなされた場合、非常に多数のイメージを確保する次元は、最も簡潔な基準でさえも明確化するために要求されるであろう。よって、図2に関してこれまで議論したように、イメージ検索における対話型概念学習手法は、1実施形態において、提供された事例に最も合致する距離メトリックに基づいて一連の重み216を学習する上での問題を知る概念または基準を定義する。イメージ検索における対話型概念学習手法は、たとえば、一連のイメージが色ヒストグラム、グローバルシェイプ記述子、またはこの2つの組み合わせが理由で互いに似通っているのかを知ることができる。これらの重みを学ぶ1つの方法は次に述べる。
一連の肯定的および否定的事例が与えられると、同じラベル(肯定的または否定的)を持つ2つのイメージの間の距離が最小化され、異なるラベルを持つ2つのイメージの間の距離が最大化されるように、イメージ検索における対話型概念学習手法の1実施形態は一連の距離メトリック重みを学習する。特に、2つのクラスを最大限分離させる目的関数は最小化されるが、同じクラスの事例を互いに近づけたままにする。数学的には、これは以下のように記述される。
Figure 2011507099
上式の最初の2項は、クラス内部の距離に対応し、よって関数を最小化することは同じクラスのデータ間の距離を最小化する重みを好む。3項目は全ての事例に対応し最大の分離を好む。こうして3つの項の組み合わせは、異なるラベルを持つデータ間の距離を最大化する一方、クラスのそれぞれを崩壊する重みを好む。関数は凸状であり、標準的な非線形最適化手法を用いて固有のグローバル最小値は効率的に見つけられる。
より非形式的には、イメージ検索における対話型概念学習手法は、ユーザーに提供された事例に基づいて、距離の何の概念が関連があるかを学習する。たとえば、提供された肯定的事例の全てが主に黄色であり、ほかの共通の特徴を有しておらず、否定的事例が主に黄色でない場合、イメージ検索における対話型概念学習手法は、色彩ヒストグラムの類似点は関連のある距離であることを学習する。結果として生じる基準は、基準を定めるために使用された肯定的な事例に似た色彩ヒストグラムを有するイメージに高いスコアを与える。肯定的な事例が共通して多様な特徴を有している状況においては、これらの特徴はそれぞれある程度の重みを受けるだろう。
これまで議論したように、たとえば図4を参照すると、イメージ検索における対話型概念学習手法が的確な概念または基準を学習することを促すために、エンドユーザーは何のイメージを事例として提供すべきかを見つけ出すのがときに難しいであろうという理由で、イメージ検索における対話型概念学習手法はアクティブ学習手法416を使用して、生成している基準に関する多くの情報を提供する現在のクエリーから返される一連のイメージからイメージを特定する。通常、1実施形態において、手法のこの面において、手法が最も混乱させられる2つ以上のイメージがユーザーに提供されることによって、ユーザーが規定しようと試みている基準または概念を最も容易に表現するイメージが選択される。
1実施形態において、イメージ検索における対話型概念学習手法の第1のアクティブ学習プロシージャは、現在の一連の学習された距離の重みを与えられて、イメージセットの、肯定および否定の間の境界に最も近いイメージを見つけ出す。これらは手法が最も不確かなイメージであるため、これらのラベリングは現在の距離の重みによって特定される空間内部の最も多くの情報を提供する。1実施形態において、数学的には、イメージ検索における対話型概念学習手法は最小値を持つイメージを選択する:
Figure 2011507099
イメージ検索における対話型概念学習手法の第2のアクティブ学習プロシージャは、距離メトリックの新しい重み付けの探索をもたらすであろう、イメージセットのイメージを見つけ出す。イメージ検索における対話型概念学習手法の1実施形態に対して、activedistance(i)、最小値を持つイメージを選択する、データ密度および不確定性に基づく経験則が適用され:
Figure 2011507099
この経験則の背後を直感的に捉えると、(ほかのラベリングされた事例に近接した)空間の密度の高い部分内にあるにもかかわらず非常に不確定であるイメージを見つけ出すということである。第1の項は、空間の密度の高い部分内で肯定的および否定的な事例までの距離がより短くなるような密度を表している。第2の項は、これまでのパラグラフにおいて議論したように、不確定性を表している。低いスコアのイメージが選択され、これらイメージをラベリングすることは、肯定的および否定的事例を互いに離す距離メトリックの重み付けを見出すにおいて使用するための新しい情報を、イメージ検索における対話型概念学習手法に与える。
手法がユーザーにデータを送る方法について様々な判断がある。ユーザーが新しい事例イメージを提供されることによって概念または基準を変更する場合、ユーザーインターフェースが現在のイメージセットに対して基準の影響を与える方法が判断される。細心の注意を受けるべきユーザーインターフェースを変更する基準の1実施形態には2つの側面がある。ここでは変更プレゼンテーションと呼ばれる、第1の側面は、インターフェースが、基準が変更されるのと同時に、現在のイメージセットに対して基準の影響を与える方法である。ここではアクティブ学習プレゼンテーションと呼ばれる、第2の側面は、インターフェースが、アクティブ学習プロシージャによって特定される事例を与える方法である。これら2つの側面を掛け合わせると、イメージ検索における対話型概念学習手法の6つの可能なユーザーインターフェース実施形態が得られる。
基準または概念が変更されると同時に、手法は学習された基準を与える必要がある。基準の基礎を形成する肯定的および否定的事例を与えることは容易なことである。
これまで議論した学習された距離メトリックの重みは、現在のクエリー結果内のイメージまたは変更された基準に従って順位付けされたイメージセットを示すことによって説明される。変更プレゼンテーションは、手法が、変更された基準によって順位付けされた一連のイメージ全て(シングル)を示すべきか、または最上位に順位付けされたイメージおよび再開に順位付けされたイメージ(スプリット)の小さなサブセットのみを示すべきか、を検討する。
順付けされたイメージを表示するシングル手段は、現在のクエリーからの一連のイメージ全てへのアクセスをエンドユーザーに提供するため、エンドユーザーは、形成しつつある基準から選ぶ、より多くのイメージを有する。しかし基準は完全に非の打ち所のないものであることは決してなく、よって肯定的および否定的イメージの間のノイズの多い境界上に過度に注目するようになる可能性がある。
順位付けされたイメージを表示するスプリット手段は、エンドユーザーが、順位の最上位に表示されたイメージの小さなサブセットが所望の概念に一致し、順位の最下位に表示されたイメージの小さなサブセットが正しく却下されてきたイメージの事例であるまでのみ、形成するための事例を提供できるように、もはや基準を著しく向上させることはない、形成するための事例を提供し続ける可能性を無効にする。このことにより、形成するための事例を提供したとき、選択可能なイメージがより少なくなるという犠牲が生まれる。
[1.4.4.1.2 アクティブ学習プレゼンテーション:アクティブ学習事例の表示]
手法のアクティブ学習プロシージャによって選択されたイメージを与える方法を考慮する同様のトレードオフが検討される。
定義により、これらイメージはイメージクエリー空間の最も不確定な領域内に存在するだろう。よって効率的な事例を迅速に見つけることを促すことがあってもよく、またはもはや基準を著しく向上させることはなくなった後でも事例を提供し続けるように導くことがあってもよい。アクティブ学習プレゼンテーションは、イメージ検索における対話型概念学習手法がアクティブ学習イメージを分離されたウィンドウ枠に配置するべきか(顕在的)、近傍のイメージと視覚的に明確に異なることが、アクティブ学習イメージが肯定的または否定的事例として使用されるために選択されるように導くかもしれないことを期待してアクティブ学習イメージを一連の結果の最上位および最下位の近傍にランダムに分散させるべきか(潜在的)、または順位付けされたクエリー結果にのみ依存するべきか(なし)を検討する。
[1.4.4.1.3 最適基準変更およびアクティブ学習イメージプレゼンテーションのためのユーザーインターフェース条件]
イメージ検索における対話型概念学習手法の1実施形態において、以上で議論したアクティブ学習プレゼンテーションおよび変更プレゼンテーションのこれら2つの側面の掛け合わせによって、以下に議論するように、手法の様々な実施形態に対してユーザーインターフェースを設計するにおいて考慮すべき6つのユーザーインターフェース条件が得られる。
<スプリット−顕在的>
最上位および最下位に順位付けされたイメージのみが表示され、アクティブ学習イメージが明確に表示されている場合、手法の1実施形態においてスプリット−顕在的条件は3つのスクロールウィンドウ枠を使用してユーザーにこのデータを表示する。1つの典型的な実施形態において、これらの3つのウィンドウ枠は、1)上位50番内のイメージ、2)手法のアクティブ学習プロシージャによって選択された10個のイメージ、および3)下位50番内のイメージの結果を示す。
<スプリット−潜在的>
イメージセットの最上位および最下位に順位付けされたイメージのみが表示され、アクティブ学習イメージが潜在的に表示されている場合、1実施形態においてスプリット−潜在的条件ユーザーインターフェースは2つのスクロールウィンドウ枠を使用してデータを表示する。1実施形態において、第1のウィンドウ枠は上位50番内の結果、および5つの乱数種アクティブ学習イメージを与える。第2のウィンドウ枠は下位50番内の結果、および5つの乱数種アクティブ学習イメージを与える。
<スプリット−なし>
1実施形態において、最上位および最下位に順位付けされたイメージのみが表示され、アクティブ学習イメージが表示されない場合、スプリット−なし手法は2つのスクロールウィンドウ枠を使用する。1実施形態において、これらのスクロールウィンドウ枠は上位50番内の結果および下位50番内の結果を与える。
<シングル−顕在的>
1実施形態において、形成しつつある基準から選ぶためのより多くのイメージを有するために手法がエンドユーザーに一連のイメージ全てへのアクセスを提供し、アクティブ学習イメージが顕在的である場合、シングル−顕在的条件は2つのスクロールウィンドウ枠を使用する。10個のアクティブ学習結果が1つのスクロールウィンドウ枠に表示される。ほかのウィンドウ枠はイメージセットの順位付けされたイメージの残りを表示する。
<シングル−潜在的>
1実施形態において、形成しつつある基準から選ぶためのより多くのイメージを有するために手法がエンドユーザーに一連のイメージ全てへのアクセスを提供し、アクティブ学習イメージが潜在的である場合、シングル−潜在的条件は1つのスクロールウィンドウ枠を使用する。この条件はスプリット−潜在的条件と同じプロシージャを使用したアクティブ学習結果の順位の最上位および最下位を取り除き、1つのスクロールウィンドウ枠に修正された全ての順位を表示する。
<シングル−なし>
1実施形態において、形成しつつある基準から選ぶためのより多くのイメージを有するために手法がエンドユーザーに一連のイメージ全てへのアクセスを提供し、アクティブ学習イメージが示されない場合、シングル−なし条件は1つのスクロールウィンドウ枠を使用する。1つのスクロールウィンドウ枠は全ての順位付けされたクエリーイメージを表示する。
加えて、1実施形態において、ユーザーには実在の距離メトリックおよびこれらと関連している重み(すなわち、システムが重要であるとして選択したもの)を示される。ユーザーは、たとえば、「色」でなくむしろ「形」を重要なメトリックと意図していたことを示しているこれらを手動で変更することができる。
[コンピューター環境]
イメージ検索における対話型概念学習手法はコンピューター環境において動作するように設計される。次の説明は、イメージ検索における対話型概念学習手法を実施できるのに適したコンピューター環境の簡単で一般的な説明を提供することを意図している。手法は多くの一般的な用途または特定の用途のコンピューターシステム環境または設定において操作可能である。適しているであろう、よく知られたコンピューターシステム、環境、および/または設定の実例としては、パーソナルコンピューター、サーバーコンピューター、携帯用またはノート型デバイス(たとえば、メディアプレーヤー、ノート型コンピューター、携帯電話、携帯情報端末、ボイスレコーダー)、マルチプロセッサシステム、マイクロプロセッサベースシステム、セットトップボックス、プログラムで制御可能な家庭用電化製品、ネットワークPC、ミニコンピューター、メインフレームコンピューター、上記のシステムまたはデバイスのどれでも含む分散コンピューティング環境、および同様のものが挙げられる。
図5は適切なコンピューターシステム環境の例を示している。コンピューターシステム環境は適切なコンピューター環境の一例に過ぎず、本手法の使用または機能性の範囲の限定を意味することを意図されていない。コンピューター環境は、典型的な動作環境において説明される1つの要素または要素の組み合わせに関係するいかなる従属関係も要求も有すると解釈されるべきではない。図5を参照すると、イメージ検索における対話型概念学習手法を実施するための典型的なシステムはコンピューターデバイス500のようなコンピューターデバイスを含む。この最も基本的な設定において、コンピューターデバイス500は通常少なくとも1つの処理装置502およびメモリー504を含む。正確な設定およびコンピューターデバイスの形式に依存して、メモリー504は(RAMといった)揮発性、(ROM、フラッシュメモリーといった)不揮発性またはこれら2つのいくつかの組み合わせであってよい。最も基本的な設定は図5中の破線506によって示されている。加えて、デバイス500は付加的な特徴/機能を有してもよい。たとえば、デバイス500は、磁気または光ディスクまたはテープを含むがこれらに限定されない、(取り外し可能なおよび/または取り外し不可能な)付加的な記憶装置も含んでもよい。このような付加的な記憶装置は図5中に取り外し可能な記憶装置508および取り外し不可能な記憶装置510として示されている。コンピューター記憶媒体は、コンピューター可読な命令、データ構造、プログラムモジュールまたはほかのデータなどの情報を記憶するための、いかなる方法または技術においても実装される揮発性および不揮発性、取り外し可能および取り外し不可能な媒体を含む。メモリー504、取り外し可能な記憶装置508、および取り外し不可能な記憶装置510は全てコンピューター記憶媒体の例である。コンピューター記憶媒体は、RAM、ROM、EEPROM、フラッシュメモリーまたはほかのメモリー技術、CD−ROM、デジタル多用途ディスク(DVD)またはほかの光記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置またはほかの磁気記憶装置デバイス、または所望の情報を記憶でき、デバイス500によってアクセスできるいかなるほかの媒体を含むがこれらに限定されない。いかなるこれらのコンピューター記憶媒体はデバイス500の一部であってよい。
デバイス500はディスプレイ518を有しており、デバイスがほかのデバイスと通信できるようになる通信接続512も含んでもよい。通信接続512は通信媒体の1例である。通信媒体は通常、コンピューター可読命令、データ構造、プログラムモジュールまたはほかのデータを、搬送波またはほかの搬送機構などの変調されたデータ信号に具体化し、いかなる情報配信媒体も含む。用語「変調されたデータ信号」は1つまたは複数の特徴のセットを有する信号または情報をコード化するというやり方で変化させられた信号、よって信号を受け取るデバイスの設定または状態を変更する信号を意味する。限定ではなく、例として、通信媒体は有線ネットワークまたは直接配線された接続などの有線媒体、および音波、RF、赤外およびほかの無線媒体などの無線媒体を含む。ここで使用される用語コンピューター可読媒体は記憶媒体と通信媒体の両方を含む。
デバイス500は、キーボード、マウス、ペン、カメラ、タッチ入力デバイスなどの様々な入力デバイス514を有してもよい。スピーカー、プリンターなどの出力デバイス516も含まれてよい。これらデバイスの全ては当業者によく知られており、ここで詳細に議論する必要はない。
イメージ検索における対話型概念学習手法は、コンピューターデバイスによって実行されるプログラムモジュールなどのコンピューター実行可能命令の通常のコンテクストに記述されることができる。通常、プログラムモジュールは、特定のタスクを実行または特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。イメージ検索における対話型概念学習手法は、通信ネットワークを通じてリンクしている遠隔処理デバイスによってタスクが実行される分散コンピューティング環境において実践されてもよい。分散コンピューティング環境において、プログラムモジュールは、ローカル接続およびメモリー記憶装置デバイスを含む遠隔のいずれのコンピューター記憶媒体におかれていてもよい。
ここで記述された上記の代替のいずれのまたは全ての実施形態は、所望されるいかなる組み合わせにおいても使用され、追加の掛け合わせの実施形態を形成しても良い。主題は、構造の特性および/または方法論的な方法に固有な言語で記述されてきたが、添付の特許請求の範囲で定義された主題は上記の特定の特性または方法に必ずしも限定される必要はない。たとえば、たとえ、記述された実施形態のいくつかが視覚的な特徴を使用して基準を学習し検索によって見つけられたイメージを順位付けするとしても、視覚的な特徴を検索のキーワードと結合し、基準を学習してイメージセットのイメージを順位付けし、掛け合わせの実施形態を生成して検索で見つけたイメージを順位付けすることもできるであろう。上記の特定の特性および方法は特許請求の範囲を実施する例として開示される。

Claims (20)

  1. 所望のイメージ特徴を持つ1つまたは複数のイメージを見つけるためのコンピューターに実装されたプロセスであって、
    一連のイメージを得るステップ(302)と、
    見つけようとするイメージ特徴を持つ事例イメージを提供するステップ(304)と、
    機械的に学習する手法によって前記事例イメージの前記イメージ特徴に基づくイメージの順位付けのための1つまたは複数の基準を学習するステップ(306)と、
    前記1つまたは複数の基準に基づいて前記一連のイメージを順位付けするステップ(308)と
    を含むことを特徴とするコンピューターに実装されたプロセス。
  2. 第2の一連のイメージに前記1つまたは複数の基準を適用するステップをさらに含むことを特徴とする請求項1に記載のコンピューターに実装されたプロセス。
  3. 前記一連のイメージを順位付けする前に2つ以上の基準を結合するステップをさらに含むことを特徴とする請求項1に記載のコンピューターに実装されたプロセス。
  4. コンピューターネットワークを通じて送信された検索クエリーに応答して前記一連のイメージを得るステップをさらに含むことを特徴とする請求項1に記載のコンピューターに実装されたプロセス。
  5. コンピューターデバイス上のイメージをローカルに検索することによって前記一連のイメージを得るステップをさらに含むことを特徴とする請求項1に記載のコンピューターに実装されたプロセス。
  6. 見つけようとするイメージ特徴を持つイメージの事例を提供するステップと、
    機械的に学習する手法によって前記イメージの事例の前記イメージ特徴に基づくイメージの順位付けのための1つまたは複数の基準を学習するステップと、
    前記1つまたは複数の基準に基づいて前記一連のイメージを順位付けするステップと
    の動作を、最上位に順位付けされた、見つけようとするイメージ特徴を持つイメージを含む前記一連のイメージのイメージが順位付けされるまで繰り返すステップをさらに含むことを特徴とする請求項1に記載のコンピューターに実装されたプロセス。
  7. それぞれの基準は、前記一連のイメージから返されたそれぞれのイメージが見つけようとするイメージ特徴を持つイメージの事例に似ている程度を示すスコアを、前記一連のイメージから返されたそれぞれのイメージに対して算出する距離メトリックを学習することに基づくことを特徴とする請求項1に記載のコンピューターに実装されたプロセス。
  8. 前記一連のイメージのそれぞれのイメージ内のピクセルに対して算出された一連のイメージヒストグラムを算出するステップと、
    前記一連のイメージヒストグラムのそれぞれのヒストグラムに対する2つの距離メトリックを算出するステップと、
    全てのイメージに対してシェイプ記述子を適用することによって前記一連のイメージのそれぞれのイメージの全ての構造を表す構造ヒストグラムを算出するステップと、
    前記一連のイメージのそれぞれのイメージのテクスチャヒストグラムを算出するステップと、
    前記一連のイメージのそれぞれのイメージがそれぞれのイメージに対して見つけようとするイメージ特徴を持つ事例イメージおよび見つけようとするイメージ特徴を持っていない事例イメージに似ている程度を示すスコアを、前記一連のイメージのそれぞれのイメージに対して算出するために、算出されたイメージヒストグラム、前記算出されたイメージヒストグラムのそれぞれに対する前記距離メトリック、前記構造ヒストグラムおよび前記テクスチャヒストグラムを使用するステップと
    をさらに含むことを特徴とする請求項7に記載のコンピューターに実装されたプロセス。
  9. 与えられたいかなるイメージと与えられたいかなるほかのイメージとの間の距離を表すために使用される一連の距離メトリックに基づいてイメージを順位付けするための1つまたは複数の基準を学習するステップをさらに含むことを特徴とする請求項1に記載のコンピューターに実装されたプロセス。
  10. 2つの前記距離メトリックは、
    2つのイメージのイメージヒストグラムの間の2次の距離と、
    2つのイメージの間のヒストグラムエントロピーにおける距離と
    を含むことを特徴とする請求項8に記載のコンピューターに実装されたプロセス。
  11. 前記一連の距離メトリックは視覚的特徴または意味的特徴に基づくことを特徴とする請求項9に記載のコンピューターに実装されたプロセス。
  12. 所望のイメージ特徴を持つイメージを検索するためのコンピューターに実装されたプロセスであって、
    一連のイメージを得るステップ(402)と、
    前記一連のイメージのそれぞれの視覚的な特性を算出するステップ(404)と、
    探しているイメージの種類の特性を有する肯定的事例イメージか、探しているイメージの種類の特性を有していない否定的事例イメージのどちらかの事例イメージを選択するステップと(406)、
    イメージセットのイメージに最も関連があると決定するために提供された1つまたは複数の事例イメージに基づいて前記一連のイメージのそれぞれの特性の重みを算出することによって基準を学習するステップ(408)と、
    前記算出された重みに従って前記イメージセットの前記イメージを順位付けするステップ(410)と
    を含むことを特徴とするコンピューターに実装されたプロセス。
  13. 順位付けされたイメージをユーザーに示すステップと、
    前記順位付けされたイメージをユーザーが評価し、前記順位付けされたイメージに満足しなかった場合、前記順位付けされたイメージの前記最も関連のあるイメージがユーザーが探している1つまたは複数のイメージを含むとユーザーが満足するまで1つまたは複数の事例イメージが提供されるステップと
    をさらに含むことを特徴とする請求項11に記載のコンピューターに実装されたプロセス。
  14. ユーザーが新しい事例イメージを提供するより前に、ユーザーが、少なくとも1つのイメージがユーザーが探しているイメージにさらに似ていると決定するために、ユーザーに事例イメージを提供するステップをさらに含むことを特徴とする請求項12に記載のコンピューターに実装されたプロセス。
  15. 学習した基準の1つまたは複数を新しい一連のイメージに適用して前記新しい一連のイメージを順位付けするステップをさらに含むことを特徴とする請求項12に記載のコンピューターに実装されたプロセス。
  16. イメージ検索に応答して読み出されるイメージを順位付けするためのシステムであって、
    汎用コンピューターデバイス(500)と、
    前記汎用コンピューターデバイスによって実行できるプログラムモジュールを含むコンピュータープログラムであって、コンピューターデバイスは前記コンピュータープログラムのプログラムモジュールによって、
    イメージ検索に応答した一連のイメージを受け取り(204)、
    探そうとしているイメージ特徴を持つイメージの事例を決定し(210)、
    前記イメージ検索に応答して受け取った前記一連のイメージおよび前記決定された事例イメージのそれぞれのイメージ特徴に基づいた特性を抽出し(212)、
    前記事例イメージのイメージ特徴の特性に基づいた基準を学習し(214)、
    前記一連のイメージの前記イメージのそれぞれの特性を重み付けし(216)、
    1つまたは複数の学習された基準に基づいてイメージセットのイメージを順位付けし(218)、
    前記イメージセットの順位付けされたイメージをユーザー(208)に表示する(222)
    ように指示される、コンピュータープログラムと
    を含むことを特徴とするシステム。
  17. 1つまたは複数の学習した基準を適用して新しい一連のイメージを順位付けするためのモジュールをさらに含むことを特徴とする請求項16に記載のシステム。
  18. 前記イメージ検索において、前記一連のイメージを読み出すキーワードを使用するためのモジュールをさらに含むことを特徴とする請求項16に記載のシステム。
  19. 1つまたは複数の基準を学習して前記一連のイメージを順位付けするために、見つけようとするイメージ特徴の特性と結び付けられたキーワードの使用をさらに含むことを特徴とする請求項18に記載のシステム。
  20. イメージセットの順位付けされたイメージを表示し、前記基準の学習を促すためにユーザーが選ぶ肯定的、および否定的事例イメージを提供するユーザーインターフェースをさらに含むことを特徴とする請求項16に記載のシステム。
JP2010538016A 2007-12-12 2008-11-10 イメージ検索における対話型概念学習 Active JP5309155B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/954,246 2007-12-12
US11/954,246 US8165406B2 (en) 2007-12-12 2007-12-12 Interactive concept learning in image search
PCT/US2008/082942 WO2009075976A2 (en) 2007-12-12 2008-11-10 Interactive concept learning in image search

Publications (2)

Publication Number Publication Date
JP2011507099A true JP2011507099A (ja) 2011-03-03
JP5309155B2 JP5309155B2 (ja) 2013-10-09

Family

ID=40753356

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010538016A Active JP5309155B2 (ja) 2007-12-12 2008-11-10 イメージ検索における対話型概念学習

Country Status (5)

Country Link
US (2) US8165406B2 (ja)
EP (1) EP2232381B1 (ja)
JP (1) JP5309155B2 (ja)
CN (1) CN101896901B (ja)
WO (1) WO2009075976A2 (ja)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015149078A (ja) * 2012-03-06 2015-08-20 アップル インコーポレイテッド 画像を閲覧するためのアプリケーション
JP2015528604A (ja) * 2012-08-30 2015-09-28 マイクロソフト テクノロジー ライセンシング,エルエルシー 特徴に基づく候補選択
US9921665B2 (en) 2012-06-25 2018-03-20 Microsoft Technology Licensing, Llc Input method editor application platform
US10108726B2 (en) 2011-12-20 2018-10-23 Microsoft Technology Licensing, Llc Scenario-adaptive input method editor
US10282055B2 (en) 2012-03-06 2019-05-07 Apple Inc. Ordered processing of edits for a media editing application
US10552016B2 (en) 2012-03-06 2020-02-04 Apple Inc. User interface tools for cropping and straightening image
JP2020042684A (ja) * 2018-09-13 2020-03-19 株式会社東芝 検索装置、検索方法及びプログラム
US10656957B2 (en) 2013-08-09 2020-05-19 Microsoft Technology Licensing, Llc Input method editor providing language assistance
US10936173B2 (en) 2012-03-06 2021-03-02 Apple Inc. Unified slider control for modifying multiple image properties

Families Citing this family (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9348912B2 (en) 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
JP5041229B2 (ja) * 2007-12-07 2012-10-03 ソニー株式会社 学習装置および方法、認識装置および方法、並びにプログラム
CN101465961B (zh) * 2007-12-19 2013-10-30 神基科技股份有限公司 以特征影像辨识控制快门的摄像装置及方法
US8126858B1 (en) 2008-01-23 2012-02-28 A9.Com, Inc. System and method for delivering content to a communication device in a content delivery system
US8358856B2 (en) * 2008-06-02 2013-01-22 Eastman Kodak Company Semantic event detection for digital content records
US7890512B2 (en) * 2008-06-11 2011-02-15 Microsoft Corporation Automatic image annotation using semantic distance learning
IL199762A0 (en) * 2008-07-08 2010-04-15 Dan Atsmon Object search navigation method and system
US9953459B2 (en) * 2008-11-05 2018-04-24 Hover Inc. Computer vision database platform for a three-dimensional mapping system
US8682065B2 (en) * 2008-12-24 2014-03-25 Microsoft Corporation Distance metric learning with feature decomposition
US8213725B2 (en) * 2009-03-20 2012-07-03 Eastman Kodak Company Semantic event detection using cross-domain knowledge
US8306940B2 (en) * 2009-03-20 2012-11-06 Microsoft Corporation Interactive visualization for generating ensemble classifiers
CN102103457B (zh) * 2009-12-18 2013-11-20 深圳富泰宏精密工业有限公司 简报操作系统及方法
US9619469B2 (en) * 2009-12-22 2017-04-11 Apple Inc. Adaptive image browsing
US8442967B2 (en) * 2010-02-04 2013-05-14 Identix Incorporated Operator-assisted iterative biometric search
US8990199B1 (en) 2010-09-30 2015-03-24 Amazon Technologies, Inc. Content search with category-aware visual similarity
US8422782B1 (en) 2010-09-30 2013-04-16 A9.Com, Inc. Contour detection and image classification
US8463036B1 (en) 2010-09-30 2013-06-11 A9.Com, Inc. Shape-based search of a collection of content
EP2635981A4 (en) 2010-11-01 2016-10-26 Microsoft Technology Licensing Llc IMAGE SEARCH
EP2659452A4 (en) * 2010-12-31 2017-11-15 Nokia Technologies Oy Method and apparatus for providing a mechanism for gesture recognition
US9785835B2 (en) * 2011-03-22 2017-10-10 Rochester Institute Of Technology Methods for assisting with object recognition in image sequences and devices thereof
US8543521B2 (en) 2011-03-30 2013-09-24 Microsoft Corporation Supervised re-ranking for visual search
US9870376B2 (en) * 2011-04-01 2018-01-16 Excalibur Ip, Llc Method and system for concept summarization
CN102740107A (zh) * 2011-04-11 2012-10-17 鸿富锦精密工业(深圳)有限公司 影像监控设备的破坏侦测系统及方法
US20150170203A1 (en) * 2011-05-24 2015-06-18 David Kogan Presenting search results
US9704042B2 (en) * 2011-06-22 2017-07-11 Google Inc. Predicting tree species from aerial imagery
US8606780B2 (en) 2011-07-08 2013-12-10 Microsoft Corporation Image re-rank based on image annotations
US9075825B2 (en) 2011-09-26 2015-07-07 The University Of Kansas System and methods of integrating visual features with textual features for image searching
EP2783303A4 (en) * 2011-11-21 2015-09-30 Microsoft Technology Licensing Llc PROTOTYPE-BASED RESORT RESORT SORT
US9384241B2 (en) * 2011-11-24 2016-07-05 Microsoft Technology Licensing, Llc Reranking using confident image samples
US9348479B2 (en) 2011-12-08 2016-05-24 Microsoft Technology Licensing, Llc Sentiment aware user interface customization
US9042640B2 (en) * 2012-01-13 2015-05-26 Xerox Corporation Methods and system for analyzing and rating images for personalization
US9495462B2 (en) * 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results
CN103309864B (zh) * 2012-03-07 2018-10-19 深圳市世纪光速信息技术有限公司 一种搜索结果显示方法、装置及系统
DE102012208999A1 (de) * 2012-05-29 2013-12-05 Siemens Aktiengesellschaft Bearbeitung einer Datenmenge
US9336302B1 (en) 2012-07-20 2016-05-10 Zuci Realty Llc Insight and algorithmic clustering for automated synthesis
US20140032583A1 (en) * 2012-07-27 2014-01-30 Sergey Ioffe Multi-Resolution Exploration of Large Image Datasets
US9645981B1 (en) * 2012-10-17 2017-05-09 Google Inc. Extraction of business-relevant image content from the web
US20140184803A1 (en) * 2012-12-31 2014-07-03 Microsoft Corporation Secure and Private Tracking Across Multiple Cameras
US9298830B2 (en) * 2013-05-01 2016-03-29 Timothy Alan Barrett Method, system and apparatus for facilitating discovery of items sharing common attributes
TWI550419B (zh) * 2013-12-30 2016-09-21 宏達國際電子股份有限公司 用於經由主動學習來搜索相關影像的方法、電子裝置及用戶介面
US10394882B2 (en) * 2014-02-19 2019-08-27 International Business Machines Corporation Multi-image input and sequenced output based image search
US10402446B2 (en) 2015-04-29 2019-09-03 Microsoft Licensing Technology, LLC Image entity recognition and response
CN104881798A (zh) * 2015-06-05 2015-09-02 北京京东尚科信息技术有限公司 基于商品图像特征的个性化搜索装置及方法
US10042866B2 (en) * 2015-06-30 2018-08-07 Adobe Systems Incorporated Searching untagged images with text-based queries
US11210595B2 (en) * 2015-11-30 2021-12-28 Allegro Artificial Intelligence Ltd System and method for selective use of examples
US10007867B2 (en) * 2016-04-04 2018-06-26 Google Llc Systems and methods for identifying entities directly from imagery
US10409824B2 (en) * 2016-06-29 2019-09-10 International Business Machines Corporation System, method and recording medium for cognitive proximates
KR102648770B1 (ko) 2016-07-14 2024-03-15 매직 립, 인코포레이티드 홍채 식별을 위한 딥 뉴럴 네트워크
KR101911604B1 (ko) * 2016-10-21 2018-10-25 한국과학기술원 이벤트 검출을 위한 학습형 시스템 트레이닝장치 및 그 방법
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US10515289B2 (en) 2017-01-09 2019-12-24 Qualcomm Incorporated System and method of generating a semantic representation of a target image for an image processing operation
US11669220B2 (en) * 2017-03-20 2023-06-06 Autodesk, Inc. Example-based ranking techniques for exploring design spaces
WO2019212407A1 (en) * 2018-05-02 2019-11-07 Agency For Science, Technology And Research A system and method for image retrieval
TWI693524B (zh) * 2018-05-22 2020-05-11 正修學校財團法人正修科技大學 專屬個性化圖片搜尋優化方法
KR101941924B1 (ko) * 2018-10-29 2019-01-25 주식회사 인라이플 자율 인지 신경망 기반 연관 모델 학습을 이용한 나노 의도 분석 서비스 제공 방법
KR101976841B1 (ko) * 2018-10-29 2019-05-15 한경훈 자율 인지 신경망 기반 연관 모델 학습을 이용한 의사 결정 서비스 제공 방법
JP7335186B2 (ja) * 2020-02-28 2023-08-29 富士フイルム株式会社 画像処理装置、画像処理方法及びプログラム
US20230326225A1 (en) * 2022-04-08 2023-10-12 Thomson Reuters Enterprise Centre Gmbh System and method for machine learning document partitioning

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09101970A (ja) * 1995-10-06 1997-04-15 Omron Corp 画像検索方法および画像検索装置
JPH1139325A (ja) * 1997-07-22 1999-02-12 Matsushita Electric Ind Co Ltd 類似検索方法及び類似検索システム
JP2000048041A (ja) * 1998-07-29 2000-02-18 Matsushita Electric Ind Co Ltd データ検索システム及びこれに用いる装置
JP2002197117A (ja) * 2000-10-30 2002-07-12 Microsoft Corp イメージ検索システムおよびその方法
JP2006039658A (ja) * 2004-07-22 2006-02-09 Hitachi Software Eng Co Ltd 画像分類学習処理システム及び画像識別処理システム

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5893095A (en) 1996-03-29 1999-04-06 Virage, Inc. Similarity engine for content-based retrieval of images
US5899999A (en) 1996-10-16 1999-05-04 Microsoft Corporation Iterative convolution filter particularly suited for use in an image classification and retrieval system
US6285995B1 (en) 1998-06-22 2001-09-04 U.S. Philips Corporation Image retrieval system using a query image
US6477269B1 (en) 1999-04-20 2002-11-05 Microsoft Corporation Method and system for searching for images based on color and shape of a selected image
JP2001282846A (ja) 2000-03-29 2001-10-12 Canon Inc 画像検索方法及び装置
KR100516289B1 (ko) 2000-11-02 2005-09-21 주식회사 케이티 퍼지 적분을 이용하여 사용자 의견을 반영한 내용기반영상 검색 장치 및 그 방법
KR100788643B1 (ko) 2001-01-09 2007-12-26 삼성전자주식회사 색과 질감의 조합을 기반으로 하는 영상 검색 방법
US6748398B2 (en) * 2001-03-30 2004-06-08 Microsoft Corporation Relevance maximizing, iteration minimizing, relevance-feedback, content-based image retrieval (CBIR)
CA2397424A1 (en) * 2002-08-09 2004-02-09 Mohammed Lamine Kherfi Content-based image retrieval using positive and negative examples
US7298931B2 (en) * 2002-10-14 2007-11-20 Samsung Electronics Co., Ltd. Image retrieval method and apparatus using iterative matching
CN100346339C (zh) * 2002-11-20 2007-10-31 富士通株式会社 图像检索方法及图像检索装置
US7274834B2 (en) 2003-05-21 2007-09-25 Konica Minolta Holdings, Inc. Searching device, searching method and program
CN1973299B (zh) * 2004-08-19 2010-08-11 三菱电机株式会社 图像检索方法和图像检索装置
GB2424091A (en) 2005-03-11 2006-09-13 Alamy Ltd Ranking of images in the results of a search
US7949186B2 (en) * 2006-03-15 2011-05-24 Massachusetts Institute Of Technology Pyramid match kernel and related techniques
CN100392657C (zh) 2006-05-10 2008-06-04 南京大学 数字图像检索中的主动半监督相关反馈方法
US20080046424A1 (en) * 2006-06-23 2008-02-21 Horton Richard B System and method of selecting images according to color content
CN101034415A (zh) * 2007-04-11 2007-09-12 财团法人交大思源基金会 物件模式的影像检索系统及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09101970A (ja) * 1995-10-06 1997-04-15 Omron Corp 画像検索方法および画像検索装置
JPH1139325A (ja) * 1997-07-22 1999-02-12 Matsushita Electric Ind Co Ltd 類似検索方法及び類似検索システム
JP2000048041A (ja) * 1998-07-29 2000-02-18 Matsushita Electric Ind Co Ltd データ検索システム及びこれに用いる装置
JP2002197117A (ja) * 2000-10-30 2002-07-12 Microsoft Corp イメージ検索システムおよびその方法
JP2007242065A (ja) * 2000-10-30 2007-09-20 Microsoft Corp イメージ検索システムおよびその方法
JP2006039658A (ja) * 2004-07-22 2006-02-09 Hitachi Software Eng Co Ltd 画像分類学習処理システム及び画像識別処理システム

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10108726B2 (en) 2011-12-20 2018-10-23 Microsoft Technology Licensing, Llc Scenario-adaptive input method editor
US10942634B2 (en) 2012-03-06 2021-03-09 Apple Inc. User interface tools for cropping and straightening image
US10936173B2 (en) 2012-03-06 2021-03-02 Apple Inc. Unified slider control for modifying multiple image properties
US11481097B2 (en) 2012-03-06 2022-10-25 Apple Inc. User interface tools for cropping and straightening image
US11119635B2 (en) 2012-03-06 2021-09-14 Apple Inc. Fanning user interface controls for a media editing application
US10282055B2 (en) 2012-03-06 2019-05-07 Apple Inc. Ordered processing of edits for a media editing application
US10545631B2 (en) 2012-03-06 2020-01-28 Apple Inc. Fanning user interface controls for a media editing application
JP2015149078A (ja) * 2012-03-06 2015-08-20 アップル インコーポレイテッド 画像を閲覧するためのアプリケーション
US10552016B2 (en) 2012-03-06 2020-02-04 Apple Inc. User interface tools for cropping and straightening image
US10867131B2 (en) 2012-06-25 2020-12-15 Microsoft Technology Licensing Llc Input method editor application platform
US9921665B2 (en) 2012-06-25 2018-03-20 Microsoft Technology Licensing, Llc Input method editor application platform
US9767156B2 (en) 2012-08-30 2017-09-19 Microsoft Technology Licensing, Llc Feature-based candidate selection
JP2015528604A (ja) * 2012-08-30 2015-09-28 マイクロソフト テクノロジー ライセンシング,エルエルシー 特徴に基づく候補選択
US10656957B2 (en) 2013-08-09 2020-05-19 Microsoft Technology Licensing, Llc Input method editor providing language assistance
JP2020042684A (ja) * 2018-09-13 2020-03-19 株式会社東芝 検索装置、検索方法及びプログラム
JP7132046B2 (ja) 2018-09-13 2022-09-06 株式会社東芝 検索装置、検索方法及びプログラム

Also Published As

Publication number Publication date
CN101896901A (zh) 2010-11-24
EP2232381B1 (en) 2023-06-28
EP2232381A4 (en) 2017-12-27
US8165406B2 (en) 2012-04-24
US20120183206A1 (en) 2012-07-19
JP5309155B2 (ja) 2013-10-09
US9008446B2 (en) 2015-04-14
WO2009075976A2 (en) 2009-06-18
WO2009075976A3 (en) 2009-08-27
EP2232381A2 (en) 2010-09-29
US20090154795A1 (en) 2009-06-18
CN101896901B (zh) 2013-06-19

Similar Documents

Publication Publication Date Title
JP5309155B2 (ja) イメージ検索における対話型概念学習
US7502780B2 (en) Information storage and retrieval
US6564202B1 (en) System and method for visually representing the contents of a multiple data object cluster
US9652462B2 (en) Identifying responsive resources across still images and videos
US6728752B1 (en) System and method for information browsing using multi-modal features
US6922699B2 (en) System and method for quantitatively representing data objects in vector space
US7698332B2 (en) Projecting queries and images into a similarity space
EP1024437A2 (en) Multi-modal information access
EP2060982A1 (en) Information storage and retrieval
US20070098266A1 (en) Cascading cluster collages: visualization of image search results on small displays
EP1426882A2 (en) Information storage and retrieval
US20100125568A1 (en) Dynamic feature weighting
US8527564B2 (en) Image object retrieval based on aggregation of visual annotations
GB2403558A (en) Document searching and method for presenting the results
KR20110094179A (ko) 시각적 주석에 기초하여 검색 결과를 모으는 것에 의한 디지털 이미지 검색
US7668853B2 (en) Information storage and retrieval
JP2006127484A (ja) 情報処理方法
Tekli An overview of cluster-based image search result organization: background, techniques, and ongoing challenges
Ducrou et al. Searchsleuth: The conceptual neighbourhood of an web query
Koskela Content-based image retrieval with self-organizing maps
Saboorian et al. User adaptive clustering for large image databases
KR100831055B1 (ko) 온톨로지 기반의 정보 검색 방법
Wang et al. Beyond concept detection: The potential of user intent for image retrieval
Sari et al. A neural re-ranking method for searching ancient Arabic documents on the Web
Li et al. Word2Image: A System for Visual Interpretation of Concepts

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110929

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130501

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130531

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130701

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5309155

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250