JP2011507099A

JP2011507099A - イメージ検索における対話型概念学習

Info

Publication number: JP2011507099A
Application number: JP2010538016A
Authority: JP
Inventors: エス．タンディズニー; カプールアシシュ; エー．ジェイ．ウィンダーサイモン; エー．フォガティジェイムズ
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2007-12-12
Filing date: 2008-11-10
Publication date: 2011-03-03
Anticipated expiration: 2028-11-10
Also published as: CN101896901A; EP2232381B1; EP2232381A4; US8165406B2; US20120183206A1; JP5309155B2; US9008446B2; WO2009075976A2; WO2009075976A3; EP2232381A2; US20090154795A1; CN101896901B

Abstract

エンドユーザーが、イメージのイメージ特徴に基づいたイメージの再順位付けのための、エンドユーザー自身の基準を迅速に生成できるようにするためのイメージ検索における対話型概念学習手法。イメージ特徴は視覚的特徴および意味的特性または特徴、または両方の組み合わせを含むことができる。よってエンドユーザーは、いかなる現在のまたは未来のイメージ検索結果をエンドユーザーの基準に従って順位付けまたは再順位付けできる。エンドユーザーはそれぞれの基準が一致すべきイメージの事例および基準が却下すべきイメージの事例を提供する。手法は事例の共通のイメージ特徴を学習し、いかなる現在のまたは未来のイメージ検索結果も学習された基準に従って順位付けまたは再順位付けされることができる。

Description

本発明は、イメージ検索における対話型概念学習に関する。

メタデータベースのシステム固有の限界によって、たとえばワールドワイドウェブ上のイメージ検索で見つけるようなイメージ探索への関心が高まっている。現在、最も多くのイメージ検索は、キーワードを使用して検索することによって行われている。これは、イメージが、検索クエリーにおいてキーワードとイメージに関するメタデータを適合する位置にあることを要求する。この型の検索は、非常に大きなデータベース、または、たとえば監視カメラからなどの自動的に生成されるイメージに対しては非現実的な、全てのイメージをメタデータによって記述できる（人の分類などの）仕組みを要求する。

ワールドワイドウェブ上でのイメージ検索などの、イメージ検索が困難であるほかの理由は、１つには、一握りのキーワードでは、通常、イメージ、たとえば、検索されるイメージに垂直線が描かれているイメージなどの視覚的情報の特徴を明らかにするには不十分であることである。一般の検索エンジンはイメージの簡単な特徴に基づいた、自動生成される１連のメタタグ（白および黒のイメージまたは顔を含むイメージのタグなど）を提供し始めたが、このアプローチは、エンドユーザーが、ウェブイメージ検索結果を調べるにおいて、何のタグを使用できることを望むのかが明らかでないという事実によって制限される。

本概要は、以下の発明を実施するための形態にさらに記述されている概念を抽出し、簡単な形式で紹介するために提供される。本概要は、請求項の内容の重要な特性または本質的な特性を特定することを意図するものでもなく、請求項の内容の範囲を限定することを意図するものでもない。

ここで記述される対話型概念学習イメージ検索手法により、エンドユーザーは、迅速に、イメージの特徴に基づいた、検索クエリーに応答した順位付け、または再順位付けの、エンドユーザー自身の基準を生成することができる。これらイメージの特徴は、視覚的なだけでなく、セマンティックな特性または特徴、またはたとえば両方の組み合わせを含むことができる。一度、１つまたは複数の基準が生成されると、エンドユーザーは、これらの基準またはこれらの基準のあらゆる組み合わせに従って、いかなる未来のイメージ検索の結果をも順位付け、または再順位付けできる。手法の一実施形態において、エンドユーザーは、それぞれの基準が一致しなければならない事例イメージおよび基準が却下しなければならない事例イメージを提供する。手法は、事例イメージの共通イメージ特徴を、基準としてまたは概念として学習し、学習した概念に従って、現在のまたは未来のイメージ検索、イメージリストまたはイメージデータベースを順位付け、または再順位付けできる。

本開示の以下に記述する実施形態において、本明細書の一部を形成する添付の図に言及し、図を説明することによって、手法を実践できる詳細な実施形態が示される。本開示の範囲から逸脱することなく、ほかの実施形態を利用することができ、構造の変更を行うことができる。

以下の記述、添えられた特許請求の範囲、および添付の図に関する本開示の特有の特性、特徴、利点がより良く理解されるであろう。

イメージ検索が典型的に実行される１つの可能な実施形態の概略図である。イメージ検索における対話型概念学習手法の一実施形態を採用することができる１つの典型的なアーキテクチャを表現している略図である。イメージ検索における対話型概念学習手法の一実施形態を採用しているプロセスの一般化された典型的な実施形態を表現しているフロー図である。イメージ検索における対話型概念学習手法の一実施形態を採用しているプロセスのほかの典型的な実施形態を表現しているフロー図である。現在のイメージ検索における対話型概念学習手法を実行することができる典型的なコンピューターデバイスの概略図である。

イメージ検索における対話型概念学習手法の以下の記述において、本明細書の一部を形成する添付の図に言及し、図を説明することによって、イメージ検索における対話型概念学習手法を実践できる詳細な実施形態が示される。特許請求の範囲の内容から逸脱することなく、ほかの実施形態を利用することができ、構造の変更を行うことができる。

対話型概念学習イメージ検索手法は、エンドユーザーが迅速にイメージの特徴に基づいた検索クエリーに応答した順位付けまたは再順位付けのエンドユーザー自身の基準を生成することができる、イメージ検索アプリケーションを提供する。これらのイメージの特徴は、視覚的な特徴またはセマンティックな特性または特徴、または両方の組み合わせを含むことができる。いかなる現在のまたは未来のイメージ検索結果は、作成された基準に従って順位付けまたは再順位付けされることができる。エンドユーザーは、それぞれの基準が一致しなければならないイメージの事例および基準が却下しなければならないイメージの事例を提供する。手法は、事例の共通イメージ特徴を学習する。いかなる現在のまたは未来のイメージ検索の検索結果は、１つまたは複数の学習した基準に従って順位付けまたは再順位付けされることができる。

イメージ検索における対話型概念学習手法を、パーソナルコンピューター上または同様のコンピューターデバイス上で、ウェブページ内部またはウェブブラウザーと一体化させてスタンドアローンアプリケーションという観点で配備することができる。

イメージ検索における対話型概念学習手法の様々な実施形態は多くの予期しない結果と利益を提供する。たとえば、ユーザーは、ユーザーが探しているイメージのイメージ特徴に基づいてユーザー自身のイメージ検索基準を生成することができる。このイメージ検索は、ウェブ上、データベース内、またはユーザーのコンピューターデバイスまたは関連したサーバー上で、関連したいかなる検索語またはメタデータに全く依存しないことが可能である。交互に検索語を学習した規則と結合して、手法の混合の実施形態を生成することができる。

イメージ検索における対話型概念学習手法は、ワールドワイドウェブまたはユーザーのコンピューターデバイス上に常駐するイメージデータベースなどのいかなるイメージ保存場所をも検索するために使用できる。

図１は、たとえばウェブまたはほかのネットワーク上でのイメージ検索などのイメージ検索を実行することができる典型的な実施形態の概略を提供する。通常、ユーザーは、インターネット上またはローカルエリアネットワーク（ＬＡＮ）上（たとえば、会社内部で）の情報を検索する。

インターネットは、互いにリンクされ、コンピューターネットワーク上で通信している非常に多数のコンピューターの一群である。パーソナルホームコンピューター１０２は、インターネットサービスプロバイダ（ＩＳＰ）１０６と通信する、電話回線およびモデム、デジタル加入者回線（ＤＳＬ）、無線通信、またはケーブルモデム１０４を使用してインターネットまたはウェブにリンクされることができる。会社などのより大きな団体の中のコンピューターは、通常、会社内部のローカルエリアネットワーク（ＬＡＮ）１１０に直接コンピューターを接続するネットワークインターフェースカード（ＮＩＣ）をおそらく有している。よって会社は、Ｔ１回線１１２などの高速電話回線を使用して、ＬＡＮ１１０をＩＳＰ１０６に接続することができる。ＩＳＰはさらに大きいＩＳＰ１１４に接続し、最も大きいＩＳＰ１１６は光ファイバーの「基幹回線」を全ての国または地域に対して保持する。このようにして、インターネット上の全てのコンピューターは、インターネット上のほかの全てのコンピューターと接続されることができる。

ワールドワイドウェブ（ここでは、時々ウェブと呼ばれる）は、インターネットを通じてアクセスされる連結されたハイパーテキスト文書システムである。ワールドワイドウェブ上では、非常に多数の情報およびイメージのページが利用できる。検索を行う人が、ある形式の、特定の内容またはイメージに関する情報を見つけようとする場合、通常インターネットサーチエンジンにアクセスして、ブラウザーを通じてほかのウェブサイト上の情報を見つける。異なるサーチエンジンが動作する手段には違いがあるが、通常、サーチエンジンはウェブ（またはほかのネットワークまたはデータベース）を巡回し、見つけた内容を調べ、見つけた単語の索引および単語を見つけた場所を保持し、ユーザーが索引の中の単語または単語の組み合わせを問い合わせ、または検索できるようにする。情報を見つけるために索引の中を検索することによって、ユーザーは検索クエリーを構築し、ブラウザー、またはクライアント側のアプリケーションによって、検索エンジンを通じて検索クエリーを送るようにさせられる。クエリーに応答する、ウェブページ上のテキストおよびイメージは、同じまたは異なるウェブサイトに、ほかのウェブページとのハイパーリンクを含むことができる。

上記のように、ＬＡＮ１１０を通じてまたはインターネット上でイメージを検索するためにイメージ検索における対話型概念学習手法を使用できる一方で、図５について以下に議論するように、ユーザーのコンピューター上のイメージを検索するために手法を同様に上手く使用することができる。

［典型的なアーキテクチャ］
イメージ検索における対話型概念学習手法を使用できる１つの典型的なアーキテクチャ２００（図５について後に議論するようにコンピューターデバイス５００上に存在している）を図２に示す。一連のイメージ２０４を取得するために、イメージ検索２０２を使用することができ、このプロセスは、通常ブラウザーによってサーチエンジンに入力されるクエリーを検索する。ウェブブラウザーは、通常ワールドワイドウェブ上またはほかのネットワーク上のウェブサイトのウェブページ上にあるテキスト、イメージ、およびほかの情報をユーザーが表示および交信できるようにするためのソフトウェアアプリケーションである。検索クエリーは通常、ユーザーに表示されている一連の検索結果を戻し、ユーザーインターフェース２１０を用いてユーザーによって操作される。

イメージ検索における対話型概念学習手法モジュール２０６はユーザーインターフェース（ＵＩ）２１０と連動し、ユーザーインターフェースはブラウザーおよびサーチエンジンと連動してユーザーに検索またはほかのイメージデータベースから戻された一連のイメージ２０４を表示し、ユーザーが、見つけようとするイメージ特徴を持つイメージの事例２０８（または見つけようとするイメージ特徴を持たないイメージの事例）を提供できるようにもする。イメージ検索における対話型概念学習手法モジュール２０６は、事例イメージのイメージ特徴に基づいてユーザーが見つけようと試みるイメージの種類に関する基準または概念を学習し、学習した基準に従って検索で戻されたイメージ（現在の検索に応答して戻されたイメージか、または未来の検索の新しい一連のイメージ２２０のどちらか）を再配置する。基準または概念の学習は、特性抽出モジュール２１２において、イメージセットのうちのイメージおよび事例イメージのイメージ特徴の抽出された特性を取り込む。基準学習モジュール２１４は、事例イメージのイメージ特徴の特性に基づいて一連のイメージのうちのイメージを順位付けすることによって基準を学習することを試みる。これは、特性重み付けモジュール２１６においてイメージセットのそれぞれのイメージの特性に重み付けすることを含む。イメージセットのうちのイメージは、順位付けモジュール２１８において、学習した基準に基づいて順位付けまたは再順位付けされる。順位付けされたイメージは、再順位付けされたイメージデータベース２２２に保存されることができる。

イメージ検索における対話型概念学習手法を使用する一般的な典型的プロセスを図３に示す。非常に一般的な意味では、手法のこの実施形態は以下のように実行される。一連のイメージが得られる（囲み３０２）。この一連のイメージは、たとえば、ネットワーク上をキーワードによって検索する、またはユーザーのコンピューターデバイス上を検索することによって得られる。見つけようとするイメージ特徴を持つイメージの事例が提供される（囲み３０４）。たとえば、これら事例イメージはユーザーによる上記の検索に応答した一連のイメージから選ばれることができる。どの種類のイメージを見つけようとしているか（一連のイメージの中で、どのイメージをより上に順位付けするか）を特定する基準または概念は提供された事例イメージに基づいた機械的な学習手法によって学習される（囲み３０６）。たとえば、サポートベクターマシーン（ＳＶＭｓ）、回帰、ベイジアンネットワーク、または近傍分類法などの様々な機械的な学習手法を使用することができる。学習した基準または概念を、たとえばイメージ検索において見つけられたイメージについて、イメージ特徴に基づいて、イメージの順位付けまたは再順位付けに利用することができる（囲み３０８）。見つけようとするイメージ特徴を持つイメージは、見つけようとするイメージ特徴を持っていないイメージより高く順位付けされる。学習された基準または概念は、検索されるイメージ特徴に基づいて、ほかの一連のイメージ（たとえば、新たな検索に対して返された、または異なるイメージデータベース内のイメージ）にも適用できる（囲み３１０）。

対話型概念学習イメージ検索手法を使用するほかのより詳しい典型的なプロセスを図４に示す。一連のイメージが得られる（囲み４０２）。複数の特性、たとえば、視覚的特性などが一連のイメージのそれぞれに対して算出される（囲み４０４）。次にユーザーは、探しているイメージの特性を有している肯定的な事例か、または探しているイメージの特性を有していない否定的な事例のいずれかのイメージの事例を選択する（囲み４０６）。（注目すべき点は、ユーザーは、たとえ基準をほかの検索クエリーに適用する場合であっても、肯定的、または否定的な事例を基準に提供することを続けることができることである。）概念または基準は、イメージセットのイメージの最も高い関連性を見積もるために提供される事例イメージに基づいて一連のイメージのそれぞれのイメージの特性の重みを算出することによって学習される（囲み４０８）。イメージセットのイメージは、算出された重みにしたがって再順位付けされ、ユーザーに示される（囲み４１０）。ユーザーは再順位付けされたイメージを評価し（囲み４１２）、再順位付けされたイメージでは要求が満たされなかった場合（囲み４１４）、追加の事例イメージが提供される（囲み４１６）（たとえば、後に詳細に議論する、アクティブ学習）。加えて、必要に応じて、学習した基準を完全に異なる一連のイメージに適用することもできる（囲み４１８）。

イメージ検索における対話型概念学習手法の様々な代替の実施形態を実施することができる。

手法はデスクトップコンピューターまたはほかのコンピューターデバイス上に保存されているイメージのイメージ検索を実行することにも適用できるが、イメージ検索における対話型概念学習手法の１つの典型的な実施形態を、キーワードベースのウェブイメージサーチエンジンからイメージを検索するアプリケーションとして実施することができる。イメージ検索における対話型概念学習手法は、イメージのイメージ特徴に基づいてユーザーが作成した基準に従ってイメージ検索結果またはイメージデータベース内のイメージを順位付けまたは再順位付けすることを可能にする。

イメージ検索における対話型概念学習手法の１つの典型的な実施形態において、それぞれの基準は近傍分類法と定義され、基準を整えるために使用された事例にイメージが類似している程度を示すスコアを計算する。このような基準の整備は、エンドユーザーによって提供された事例からの距離関数を知ることを要求する。イメージ検索における対話型概念学習手法が、ユーザーが生成している基準が定まることを促す情報を、エンドユーザーが与える事例を提供することを促すために、１実施形態において、イメージ検索における対話型概念学習手法は、アクティブ学習基準を実施し、ユーザーが基準を学習するためのよい事例を提供するように促す。イメージ検索における対話型概念学習手法のこれらのおよびほかの実施形態の詳細は、以下で議論される。

議論された実施形態に替わる複数の実施形態が可能であり、ここで議論されるステップおよび要素は、特定の実施形態に応じて変更、追加、または除去することができる。これらの代替の実施形態は、本開示の範囲を逸脱することなく、使用されうる代替のステップおよび代替の要素、実行されうる構造の変化を含む。

図２に示すように、１つの典型的な実施形態において、イメージ検索における対話型概念学習手法は、複数のサーチエンジンを使用してイメージ検索２０２を行うために、クエリーを使用してプログラムでイメージを検索する。手法の１つの典型的な実施形態において、クエリーのフォーマットパラメーターは、エンジンは結果のリストをＸＭＬフォーマットで返さなければならないことを示し、イメージ検索における対話型概念学習手法はそれぞれのイメージのサムネイルイメージをダウンロードする（手法ではフルサイズのイメージを使用してもよい）。検索クエリーに応答して返されたそれぞれのイメージのイメージ特徴は、ダウンロードされて解析され２１２、結果のイメージはいかなるアクティブな学習された基準２１４、２１６にもしたがって順位付けされるようにすることができる。代わりに、ウェブクローラがイメージを最初に見つけて索引をつけたとき、イメージのイメージ特徴は解析されることができ、検索結果がダウンロードされたとき、これらの特徴は、評価される必要はなく、ダウンロードのみされる必要がある。

これまで議論したように、イメージはエンドユーザーが生成した一連の基準を適用することによって順位付けまたは再順位付けされる。手法の１つの典型的な実施形態において、ユーザーは学習した基準または概念を（たとえば、ユーザーインターフェース２１０のディスプレイ上のアクティブな基準および有効な基準のウィンドウ枠の間を動かすことによる１つの典型的なユーザーインターフェースにおいて）有効、および無効にすることができる。１実施形態において、ユーザー２０８は、一連の基準のうちの１つの基準の相対的な重みも変えることができる。たとえば１つの典型的なユーザーインターフェース２１０において、それぞれのアクティブな基準上のスライダー制御によって、ユーザーは多様な基準の相対的な重みを制御することができる。この実施形態において、全てのアクティブな基準はそれぞれのイメージに対してスコアを計算し、スコアに、たとえば−１から１といった重みを掛け合わせる。こうしてイメージは重み付けされたスコアの合計によって順位付けされる。数学的にイメージｉのイメージスコアは以下のように表される。

ここで、ｗｅｉｇｈｔ_rは基準の重み、ｓｃｏｒｅ_r（ｉ）は基準ｒに対するイメージｉのスコアである。

イメージ検索における対話型概念学習手法の１実施形態において、それぞれの基準は近傍分類法によって学習される。それぞれの基準は一連の肯定的な事例（基準が一致すべき字柄を説明しているイメージ）、否定的な事例（基準が却下すべき字柄を説明しているイメージ）および距離メトリックとして定義される。これらのパラメーターが与えられると、規準は、イメージセットの新しいイメージを、この新しいイメージとそれぞれの肯定的または否定的な事例イメージとの間の距離を計算し、最近接の肯定的な事例との距離を最近接の肯定的な事例および最近接の否定的な事例との距離の和で割ることによってスコア付けする。数学的に与えられた基準に対するイメージのスコアは以下のように表される。

ここで、ｍｉｎｄｉｓｔ_pはイメージと肯定的な事例イメージとの間の最小距離、ｍｉｎｄｉｓｔ_Nはイメージと否定的な事例イメージとの間の最小距離である。ｓｃｏｒｅ_r（ｉ）は０から１の間の値であり、ｉが肯定的な事例に近く否定的な事例から遠い場合１に近づき、ｉが肯定的な事例および否定的な事例から同じ距離離れている場合０．５の値を有し、ｉが否定的な事例に近く肯定的な事例から遠い場合０に近づく。この距離メトリックに対し、イメージ検索における対話型概念学習手法は、重み付けされた一連の複数の要素の距離メトリックの合計を使用する：

ここで、全てにわたる２つのイメージの間の距離は、相対的な重要性によって重み付けされたそれぞれのメトリックの距離の合計によって記述される。重みは（以下に記述されるように）学習された因子であり、一連のこれらは一意的にそれぞれの基準を定義する。

この方法によると、手法の、イメージ特徴に従うイメージの再順位付け能力の本実施形態の核心部分は、一連の要素距離メトリック、およびイメージ検索における対話型概念学習手法の異なるメトリックを重み付けする方法を学習する能力にある。

１実施形態において、イメージ検索における対話型概念学習手法は、たとえば、ピクセルの色彩、彩度、および輝度のヒストグラム、エッジヒストグラム、グローバルシェイプヒストグラム、およびテクスチャヒストグラムに基づくイメージ距離メトリックを実行する。手法は、イメージ同士間の距離を効率的に算出するためにこれらヒストグラムを使用して、それぞれのイメージに対してこれらのヒストグラムを算出し保存する。

本実施形態において、変化させたサイズのサムネイル色彩、彩度、輝度、およびエッジヒストグラムがそれぞれのサムネイルイメージのピクセル全てについて算出され、サイズを変えたサムネイル（または、フルサイズイメージが使用される場合、フルサイズイメージ）を説明するために標準化される。本実施形態では、２つの距離メトリックがそれぞれのヒストグラムについて定義される。第１の距離メトリックは２つのヒストグラムの間の２次距離であり、ヒストグラムの内の異なるビン数の間の類似点を説明するヒストグラム距離の評価尺度である。輝度ヒストグラムの場合では、たとえば、輝度１．０のイメージは、輝度０．４のイメージよりも輝度０．８のイメージにより似ているとみなされる（より簡単なユークリッドの比較では、２つのイメージを第１のものとは同等に異なるとして扱い、３つの輝度値は異なるヒストグラムビン数において提供される）。それぞれのイメージのヒストグラムの第２のメトリックはヒストグラムエントロピーの差異である。

本実施形態において、ヒストグラムは、全てのイメージに形状記述子を適応することによってそれぞれのイメージの構造全てにわたる表現を算出される。この記述子はビン数への一部のイメージの勾配を、全てのイメージを変換するログポーラーの対象形状領域にわたって合計し、結果として得られるヒストグラムを標準化する。（ユークリッド距離を使用した）同様のヒストグラムは構造全てにわたって似通ったイメージに対応し、記述子は、照度、移動、規模、および回転のある程度の不変性を提供する。たとえば、この距離メトリックは、通常、２つの顔の正面の拡大は似ており、２つの車の運転手側の景色は似ていることを意味している。顔の拡大と車の景色は互いに異なることも意味している。記述子は色を考慮しておらず、よって記述子は色ヒストグラムメトリックを補完する。

最終的に、テクスチャヒストグラムは、グローバルシェイプヒストグラムが保持しているより少ない量の幾何学的な情報を保持しているが、イメージ内に存在する構造の分布を、これらの配置を考慮することなく区別することができると算出された。１実施形態において、イメージから複数のパッチをサンプリングするバグオブワーズ手法が適用される。効率化するために、部分的に重なり合っているブロックの規則的なグリッド上をサンプリングし、それぞれのブロックに対して記述子を算出する。大きいイメージデータベースのオフライン再帰クラスタリング解析を使用して一連の区別テクスチャを学習し、認識された区別テクスチャに基づいてそれぞれのサンプリングされたブロックをビン数に分解することによってランタイムにおいてヒストグラムが算出される。より非形式的には、このメトリックは、似通ったパッチを含む場合、似通ったイメージとみなされる。２つの異なる都市のスカイラインのイメージは似通っているとみなされるかもしれないが、これまで議論したグローバルシェイプ記述子は、２つのスカイラインを異なるとみなすであろう。

手法のほかの実施形態において、キーワードなどの非視覚的距離メトリックも距離メトリックに含まれることができる。複数のサーチエンジンは多様なキーワードにそれぞれのコンテンツの要素を索引として付けて返す。よって、たとえば「車」が一連のイメージを検索するために使用されたキーワードであった場合、一連のイメージのそれぞれは、あるイメージでは「青色、四輪駆動、ポルシェ」またはほかのイメージでは「黄色、オープンカー、速い」など、それぞれのイメージに関するほかのキーワードも有しているであろう。実際は、本開示においては焦点がイメージ特徴にほぼ絞られているが、イメージまたはコンテンツに関するいかなる特徴も使用することができる。

これまで議論したように、イメージ検索における対話型概念学習手法は、基準が一致すべき、または却下すべきイメージの肯定的および否定的な事例から基準を学習する。一連の肯定的な事例が与えられた場合、特定しようと試みられる概念が多くある。最近傍アルゴリズムの多くのアプリケーションにおいて、システムの開発者は、解決しようとする問題に関する知識に基づいて慎重に距離関数を調整する。しかし、現在の手法では、何の類似の概念がエンドユーザーの基準に適しているかを事前に知ることはない。全ての距離メトリックを等しく扱う試みがなされた場合、非常に多数のイメージを確保する次元は、最も簡潔な基準でさえも明確化するために要求されるであろう。よって、図２に関してこれまで議論したように、イメージ検索における対話型概念学習手法は、１実施形態において、提供された事例に最も合致する距離メトリックに基づいて一連の重み２１６を学習する上での問題を知る概念または基準を定義する。イメージ検索における対話型概念学習手法は、たとえば、一連のイメージが色ヒストグラム、グローバルシェイプ記述子、またはこの２つの組み合わせが理由で互いに似通っているのかを知ることができる。これらの重みを学ぶ１つの方法は次に述べる。

一連の肯定的および否定的事例が与えられると、同じラベル（肯定的または否定的）を持つ２つのイメージの間の距離が最小化され、異なるラベルを持つ２つのイメージの間の距離が最大化されるように、イメージ検索における対話型概念学習手法の１実施形態は一連の距離メトリック重みを学習する。特に、２つのクラスを最大限分離させる目的関数は最小化されるが、同じクラスの事例を互いに近づけたままにする。数学的には、これは以下のように記述される。

上式の最初の２項は、クラス内部の距離に対応し、よって関数を最小化することは同じクラスのデータ間の距離を最小化する重みを好む。３項目は全ての事例に対応し最大の分離を好む。こうして３つの項の組み合わせは、異なるラベルを持つデータ間の距離を最大化する一方、クラスのそれぞれを崩壊する重みを好む。関数は凸状であり、標準的な非線形最適化手法を用いて固有のグローバル最小値は効率的に見つけられる。

より非形式的には、イメージ検索における対話型概念学習手法は、ユーザーに提供された事例に基づいて、距離の何の概念が関連があるかを学習する。たとえば、提供された肯定的事例の全てが主に黄色であり、ほかの共通の特徴を有しておらず、否定的事例が主に黄色でない場合、イメージ検索における対話型概念学習手法は、色彩ヒストグラムの類似点は関連のある距離であることを学習する。結果として生じる基準は、基準を定めるために使用された肯定的な事例に似た色彩ヒストグラムを有するイメージに高いスコアを与える。肯定的な事例が共通して多様な特徴を有している状況においては、これらの特徴はそれぞれある程度の重みを受けるだろう。

これまで議論したように、たとえば図４を参照すると、イメージ検索における対話型概念学習手法が的確な概念または基準を学習することを促すために、エンドユーザーは何のイメージを事例として提供すべきかを見つけ出すのがときに難しいであろうという理由で、イメージ検索における対話型概念学習手法はアクティブ学習手法４１６を使用して、生成している基準に関する多くの情報を提供する現在のクエリーから返される一連のイメージからイメージを特定する。通常、１実施形態において、手法のこの面において、手法が最も混乱させられる２つ以上のイメージがユーザーに提供されることによって、ユーザーが規定しようと試みている基準または概念を最も容易に表現するイメージが選択される。

１実施形態において、イメージ検索における対話型概念学習手法の第１のアクティブ学習プロシージャは、現在の一連の学習された距離の重みを与えられて、イメージセットの、肯定および否定の間の境界に最も近いイメージを見つけ出す。これらは手法が最も不確かなイメージであるため、これらのラベリングは現在の距離の重みによって特定される空間内部の最も多くの情報を提供する。１実施形態において、数学的には、イメージ検索における対話型概念学習手法は最小値を持つイメージを選択する：

イメージ検索における対話型概念学習手法の第２のアクティブ学習プロシージャは、距離メトリックの新しい重み付けの探索をもたらすであろう、イメージセットのイメージを見つけ出す。イメージ検索における対話型概念学習手法の１実施形態に対して、ａｃｔｉｖｅｄｉｓｔａｎｃｅ（ｉ）、最小値を持つイメージを選択する、データ密度および不確定性に基づく経験則が適用され：

この経験則の背後を直感的に捉えると、（ほかのラベリングされた事例に近接した）空間の密度の高い部分内にあるにもかかわらず非常に不確定であるイメージを見つけ出すということである。第１の項は、空間の密度の高い部分内で肯定的および否定的な事例までの距離がより短くなるような密度を表している。第２の項は、これまでのパラグラフにおいて議論したように、不確定性を表している。低いスコアのイメージが選択され、これらイメージをラベリングすることは、肯定的および否定的事例を互いに離す距離メトリックの重み付けを見出すにおいて使用するための新しい情報を、イメージ検索における対話型概念学習手法に与える。

手法がユーザーにデータを送る方法について様々な判断がある。ユーザーが新しい事例イメージを提供されることによって概念または基準を変更する場合、ユーザーインターフェースが現在のイメージセットに対して基準の影響を与える方法が判断される。細心の注意を受けるべきユーザーインターフェースを変更する基準の１実施形態には２つの側面がある。ここでは変更プレゼンテーションと呼ばれる、第１の側面は、インターフェースが、基準が変更されるのと同時に、現在のイメージセットに対して基準の影響を与える方法である。ここではアクティブ学習プレゼンテーションと呼ばれる、第２の側面は、インターフェースが、アクティブ学習プロシージャによって特定される事例を与える方法である。これら２つの側面を掛け合わせると、イメージ検索における対話型概念学習手法の６つの可能なユーザーインターフェース実施形態が得られる。

基準または概念が変更されると同時に、手法は学習された基準を与える必要がある。基準の基礎を形成する肯定的および否定的事例を与えることは容易なことである。

これまで議論した学習された距離メトリックの重みは、現在のクエリー結果内のイメージまたは変更された基準に従って順位付けされたイメージセットを示すことによって説明される。変更プレゼンテーションは、手法が、変更された基準によって順位付けされた一連のイメージ全て（シングル）を示すべきか、または最上位に順位付けされたイメージおよび再開に順位付けされたイメージ（スプリット）の小さなサブセットのみを示すべきか、を検討する。

順付けされたイメージを表示するシングル手段は、現在のクエリーからの一連のイメージ全てへのアクセスをエンドユーザーに提供するため、エンドユーザーは、形成しつつある基準から選ぶ、より多くのイメージを有する。しかし基準は完全に非の打ち所のないものであることは決してなく、よって肯定的および否定的イメージの間のノイズの多い境界上に過度に注目するようになる可能性がある。

順位付けされたイメージを表示するスプリット手段は、エンドユーザーが、順位の最上位に表示されたイメージの小さなサブセットが所望の概念に一致し、順位の最下位に表示されたイメージの小さなサブセットが正しく却下されてきたイメージの事例であるまでのみ、形成するための事例を提供できるように、もはや基準を著しく向上させることはない、形成するための事例を提供し続ける可能性を無効にする。このことにより、形成するための事例を提供したとき、選択可能なイメージがより少なくなるという犠牲が生まれる。

［１.４.４.１.２アクティブ学習プレゼンテーション：アクティブ学習事例の表示］
手法のアクティブ学習プロシージャによって選択されたイメージを与える方法を考慮する同様のトレードオフが検討される。

定義により、これらイメージはイメージクエリー空間の最も不確定な領域内に存在するだろう。よって効率的な事例を迅速に見つけることを促すことがあってもよく、またはもはや基準を著しく向上させることはなくなった後でも事例を提供し続けるように導くことがあってもよい。アクティブ学習プレゼンテーションは、イメージ検索における対話型概念学習手法がアクティブ学習イメージを分離されたウィンドウ枠に配置するべきか（顕在的）、近傍のイメージと視覚的に明確に異なることが、アクティブ学習イメージが肯定的または否定的事例として使用されるために選択されるように導くかもしれないことを期待してアクティブ学習イメージを一連の結果の最上位および最下位の近傍にランダムに分散させるべきか（潜在的）、または順位付けされたクエリー結果にのみ依存するべきか（なし）を検討する。

［１.４.４.１.３最適基準変更およびアクティブ学習イメージプレゼンテーションのためのユーザーインターフェース条件］
イメージ検索における対話型概念学習手法の１実施形態において、以上で議論したアクティブ学習プレゼンテーションおよび変更プレゼンテーションのこれら２つの側面の掛け合わせによって、以下に議論するように、手法の様々な実施形態に対してユーザーインターフェースを設計するにおいて考慮すべき６つのユーザーインターフェース条件が得られる。

＜スプリット−顕在的＞
最上位および最下位に順位付けされたイメージのみが表示され、アクティブ学習イメージが明確に表示されている場合、手法の１実施形態においてスプリット−顕在的条件は３つのスクロールウィンドウ枠を使用してユーザーにこのデータを表示する。１つの典型的な実施形態において、これらの３つのウィンドウ枠は、１）上位５０番内のイメージ、２）手法のアクティブ学習プロシージャによって選択された１０個のイメージ、および３）下位５０番内のイメージの結果を示す。

＜スプリット−潜在的＞
イメージセットの最上位および最下位に順位付けされたイメージのみが表示され、アクティブ学習イメージが潜在的に表示されている場合、１実施形態においてスプリット−潜在的条件ユーザーインターフェースは２つのスクロールウィンドウ枠を使用してデータを表示する。１実施形態において、第１のウィンドウ枠は上位５０番内の結果、および５つの乱数種アクティブ学習イメージを与える。第２のウィンドウ枠は下位５０番内の結果、および５つの乱数種アクティブ学習イメージを与える。

＜スプリット−なし＞
１実施形態において、最上位および最下位に順位付けされたイメージのみが表示され、アクティブ学習イメージが表示されない場合、スプリット−なし手法は２つのスクロールウィンドウ枠を使用する。１実施形態において、これらのスクロールウィンドウ枠は上位５０番内の結果および下位５０番内の結果を与える。

＜シングル−顕在的＞
１実施形態において、形成しつつある基準から選ぶためのより多くのイメージを有するために手法がエンドユーザーに一連のイメージ全てへのアクセスを提供し、アクティブ学習イメージが顕在的である場合、シングル−顕在的条件は２つのスクロールウィンドウ枠を使用する。１０個のアクティブ学習結果が１つのスクロールウィンドウ枠に表示される。ほかのウィンドウ枠はイメージセットの順位付けされたイメージの残りを表示する。

＜シングル−潜在的＞
１実施形態において、形成しつつある基準から選ぶためのより多くのイメージを有するために手法がエンドユーザーに一連のイメージ全てへのアクセスを提供し、アクティブ学習イメージが潜在的である場合、シングル−潜在的条件は１つのスクロールウィンドウ枠を使用する。この条件はスプリット−潜在的条件と同じプロシージャを使用したアクティブ学習結果の順位の最上位および最下位を取り除き、１つのスクロールウィンドウ枠に修正された全ての順位を表示する。

＜シングル−なし＞
１実施形態において、形成しつつある基準から選ぶためのより多くのイメージを有するために手法がエンドユーザーに一連のイメージ全てへのアクセスを提供し、アクティブ学習イメージが示されない場合、シングル−なし条件は１つのスクロールウィンドウ枠を使用する。１つのスクロールウィンドウ枠は全ての順位付けされたクエリーイメージを表示する。

加えて、１実施形態において、ユーザーには実在の距離メトリックおよびこれらと関連している重み（すなわち、システムが重要であるとして選択したもの）を示される。ユーザーは、たとえば、「色」でなくむしろ「形」を重要なメトリックと意図していたことを示しているこれらを手動で変更することができる。

［コンピューター環境］
イメージ検索における対話型概念学習手法はコンピューター環境において動作するように設計される。次の説明は、イメージ検索における対話型概念学習手法を実施できるのに適したコンピューター環境の簡単で一般的な説明を提供することを意図している。手法は多くの一般的な用途または特定の用途のコンピューターシステム環境または設定において操作可能である。適しているであろう、よく知られたコンピューターシステム、環境、および／または設定の実例としては、パーソナルコンピューター、サーバーコンピューター、携帯用またはノート型デバイス（たとえば、メディアプレーヤー、ノート型コンピューター、携帯電話、携帯情報端末、ボイスレコーダー）、マルチプロセッサシステム、マイクロプロセッサベースシステム、セットトップボックス、プログラムで制御可能な家庭用電化製品、ネットワークＰＣ、ミニコンピューター、メインフレームコンピューター、上記のシステムまたはデバイスのどれでも含む分散コンピューティング環境、および同様のものが挙げられる。

図５は適切なコンピューターシステム環境の例を示している。コンピューターシステム環境は適切なコンピューター環境の一例に過ぎず、本手法の使用または機能性の範囲の限定を意味することを意図されていない。コンピューター環境は、典型的な動作環境において説明される１つの要素または要素の組み合わせに関係するいかなる従属関係も要求も有すると解釈されるべきではない。図５を参照すると、イメージ検索における対話型概念学習手法を実施するための典型的なシステムはコンピューターデバイス５００のようなコンピューターデバイスを含む。この最も基本的な設定において、コンピューターデバイス５００は通常少なくとも１つの処理装置５０２およびメモリー５０４を含む。正確な設定およびコンピューターデバイスの形式に依存して、メモリー５０４は（ＲＡＭといった）揮発性、（ＲＯＭ、フラッシュメモリーといった）不揮発性またはこれら２つのいくつかの組み合わせであってよい。最も基本的な設定は図５中の破線５０６によって示されている。加えて、デバイス５００は付加的な特徴／機能を有してもよい。たとえば、デバイス５００は、磁気または光ディスクまたはテープを含むがこれらに限定されない、（取り外し可能なおよび／または取り外し不可能な）付加的な記憶装置も含んでもよい。このような付加的な記憶装置は図５中に取り外し可能な記憶装置５０８および取り外し不可能な記憶装置５１０として示されている。コンピューター記憶媒体は、コンピューター可読な命令、データ構造、プログラムモジュールまたはほかのデータなどの情報を記憶するための、いかなる方法または技術においても実装される揮発性および不揮発性、取り外し可能および取り外し不可能な媒体を含む。メモリー５０４、取り外し可能な記憶装置５０８、および取り外し不可能な記憶装置５１０は全てコンピューター記憶媒体の例である。コンピューター記憶媒体は、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリーまたはほかのメモリー技術、ＣＤ−ＲＯＭ、デジタル多用途ディスク（ＤＶＤ）またはほかの光記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置またはほかの磁気記憶装置デバイス、または所望の情報を記憶でき、デバイス５００によってアクセスできるいかなるほかの媒体を含むがこれらに限定されない。いかなるこれらのコンピューター記憶媒体はデバイス５００の一部であってよい。

デバイス５００はディスプレイ５１８を有しており、デバイスがほかのデバイスと通信できるようになる通信接続５１２も含んでもよい。通信接続５１２は通信媒体の１例である。通信媒体は通常、コンピューター可読命令、データ構造、プログラムモジュールまたはほかのデータを、搬送波またはほかの搬送機構などの変調されたデータ信号に具体化し、いかなる情報配信媒体も含む。用語「変調されたデータ信号」は１つまたは複数の特徴のセットを有する信号または情報をコード化するというやり方で変化させられた信号、よって信号を受け取るデバイスの設定または状態を変更する信号を意味する。限定ではなく、例として、通信媒体は有線ネットワークまたは直接配線された接続などの有線媒体、および音波、ＲＦ、赤外およびほかの無線媒体などの無線媒体を含む。ここで使用される用語コンピューター可読媒体は記憶媒体と通信媒体の両方を含む。

デバイス５００は、キーボード、マウス、ペン、カメラ、タッチ入力デバイスなどの様々な入力デバイス５１４を有してもよい。スピーカー、プリンターなどの出力デバイス５１６も含まれてよい。これらデバイスの全ては当業者によく知られており、ここで詳細に議論する必要はない。

イメージ検索における対話型概念学習手法は、コンピューターデバイスによって実行されるプログラムモジュールなどのコンピューター実行可能命令の通常のコンテクストに記述されることができる。通常、プログラムモジュールは、特定のタスクを実行または特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。イメージ検索における対話型概念学習手法は、通信ネットワークを通じてリンクしている遠隔処理デバイスによってタスクが実行される分散コンピューティング環境において実践されてもよい。分散コンピューティング環境において、プログラムモジュールは、ローカル接続およびメモリー記憶装置デバイスを含む遠隔のいずれのコンピューター記憶媒体におかれていてもよい。

ここで記述された上記の代替のいずれのまたは全ての実施形態は、所望されるいかなる組み合わせにおいても使用され、追加の掛け合わせの実施形態を形成しても良い。主題は、構造の特性および／または方法論的な方法に固有な言語で記述されてきたが、添付の特許請求の範囲で定義された主題は上記の特定の特性または方法に必ずしも限定される必要はない。たとえば、たとえ、記述された実施形態のいくつかが視覚的な特徴を使用して基準を学習し検索によって見つけられたイメージを順位付けするとしても、視覚的な特徴を検索のキーワードと結合し、基準を学習してイメージセットのイメージを順位付けし、掛け合わせの実施形態を生成して検索で見つけたイメージを順位付けすることもできるであろう。上記の特定の特性および方法は特許請求の範囲を実施する例として開示される。

Claims

所望のイメージ特徴を持つ１つまたは複数のイメージを見つけるためのコンピューターに実装されたプロセスであって、
一連のイメージを得るステップ（３０２）と、
見つけようとするイメージ特徴を持つ事例イメージを提供するステップ（３０４）と、
機械的に学習する手法によって前記事例イメージの前記イメージ特徴に基づくイメージの順位付けのための１つまたは複数の基準を学習するステップ（３０６）と、
前記１つまたは複数の基準に基づいて前記一連のイメージを順位付けするステップ（３０８）と
を含むことを特徴とするコンピューターに実装されたプロセス。
第２の一連のイメージに前記１つまたは複数の基準を適用するステップをさらに含むことを特徴とする請求項１に記載のコンピューターに実装されたプロセス。
前記一連のイメージを順位付けする前に２つ以上の基準を結合するステップをさらに含むことを特徴とする請求項１に記載のコンピューターに実装されたプロセス。
コンピューターネットワークを通じて送信された検索クエリーに応答して前記一連のイメージを得るステップをさらに含むことを特徴とする請求項１に記載のコンピューターに実装されたプロセス。
コンピューターデバイス上のイメージをローカルに検索することによって前記一連のイメージを得るステップをさらに含むことを特徴とする請求項１に記載のコンピューターに実装されたプロセス。
見つけようとするイメージ特徴を持つイメージの事例を提供するステップと、
機械的に学習する手法によって前記イメージの事例の前記イメージ特徴に基づくイメージの順位付けのための１つまたは複数の基準を学習するステップと、
前記１つまたは複数の基準に基づいて前記一連のイメージを順位付けするステップと
の動作を、最上位に順位付けされた、見つけようとするイメージ特徴を持つイメージを含む前記一連のイメージのイメージが順位付けされるまで繰り返すステップをさらに含むことを特徴とする請求項１に記載のコンピューターに実装されたプロセス。
それぞれの基準は、前記一連のイメージから返されたそれぞれのイメージが見つけようとするイメージ特徴を持つイメージの事例に似ている程度を示すスコアを、前記一連のイメージから返されたそれぞれのイメージに対して算出する距離メトリックを学習することに基づくことを特徴とする請求項１に記載のコンピューターに実装されたプロセス。
前記一連のイメージのそれぞれのイメージ内のピクセルに対して算出された一連のイメージヒストグラムを算出するステップと、
前記一連のイメージヒストグラムのそれぞれのヒストグラムに対する２つの距離メトリックを算出するステップと、
全てのイメージに対してシェイプ記述子を適用することによって前記一連のイメージのそれぞれのイメージの全ての構造を表す構造ヒストグラムを算出するステップと、
前記一連のイメージのそれぞれのイメージのテクスチャヒストグラムを算出するステップと、
前記一連のイメージのそれぞれのイメージがそれぞれのイメージに対して見つけようとするイメージ特徴を持つ事例イメージおよび見つけようとするイメージ特徴を持っていない事例イメージに似ている程度を示すスコアを、前記一連のイメージのそれぞれのイメージに対して算出するために、算出されたイメージヒストグラム、前記算出されたイメージヒストグラムのそれぞれに対する前記距離メトリック、前記構造ヒストグラムおよび前記テクスチャヒストグラムを使用するステップと
をさらに含むことを特徴とする請求項７に記載のコンピューターに実装されたプロセス。
与えられたいかなるイメージと与えられたいかなるほかのイメージとの間の距離を表すために使用される一連の距離メトリックに基づいてイメージを順位付けするための１つまたは複数の基準を学習するステップをさらに含むことを特徴とする請求項１に記載のコンピューターに実装されたプロセス。
２つの前記距離メトリックは、
２つのイメージのイメージヒストグラムの間の２次の距離と、
２つのイメージの間のヒストグラムエントロピーにおける距離と
を含むことを特徴とする請求項８に記載のコンピューターに実装されたプロセス。
前記一連の距離メトリックは視覚的特徴または意味的特徴に基づくことを特徴とする請求項９に記載のコンピューターに実装されたプロセス。
所望のイメージ特徴を持つイメージを検索するためのコンピューターに実装されたプロセスであって、
一連のイメージを得るステップ（４０２）と、
前記一連のイメージのそれぞれの視覚的な特性を算出するステップ（４０４）と、
探しているイメージの種類の特性を有する肯定的事例イメージか、探しているイメージの種類の特性を有していない否定的事例イメージのどちらかの事例イメージを選択するステップと（４０６）、
イメージセットのイメージに最も関連があると決定するために提供された１つまたは複数の事例イメージに基づいて前記一連のイメージのそれぞれの特性の重みを算出することによって基準を学習するステップ（４０８）と、
前記算出された重みに従って前記イメージセットの前記イメージを順位付けするステップ（４１０）と
を含むことを特徴とするコンピューターに実装されたプロセス。
順位付けされたイメージをユーザーに示すステップと、
前記順位付けされたイメージをユーザーが評価し、前記順位付けされたイメージに満足しなかった場合、前記順位付けされたイメージの前記最も関連のあるイメージがユーザーが探している１つまたは複数のイメージを含むとユーザーが満足するまで１つまたは複数の事例イメージが提供されるステップと
をさらに含むことを特徴とする請求項１１に記載のコンピューターに実装されたプロセス。
ユーザーが新しい事例イメージを提供するより前に、ユーザーが、少なくとも１つのイメージがユーザーが探しているイメージにさらに似ていると決定するために、ユーザーに事例イメージを提供するステップをさらに含むことを特徴とする請求項１２に記載のコンピューターに実装されたプロセス。
学習した基準の１つまたは複数を新しい一連のイメージに適用して前記新しい一連のイメージを順位付けするステップをさらに含むことを特徴とする請求項１２に記載のコンピューターに実装されたプロセス。
イメージ検索に応答して読み出されるイメージを順位付けするためのシステムであって、
汎用コンピューターデバイス（５００）と、
前記汎用コンピューターデバイスによって実行できるプログラムモジュールを含むコンピュータープログラムであって、コンピューターデバイスは前記コンピュータープログラムのプログラムモジュールによって、
イメージ検索に応答した一連のイメージを受け取り（２０４）、
探そうとしているイメージ特徴を持つイメージの事例を決定し（２１０）、
前記イメージ検索に応答して受け取った前記一連のイメージおよび前記決定された事例イメージのそれぞれのイメージ特徴に基づいた特性を抽出し（２１２）、
前記事例イメージのイメージ特徴の特性に基づいた基準を学習し（２１４）、
前記一連のイメージの前記イメージのそれぞれの特性を重み付けし（２１６）、
１つまたは複数の学習された基準に基づいてイメージセットのイメージを順位付けし（２１８）、
前記イメージセットの順位付けされたイメージをユーザー（２０８）に表示する（２２２）
ように指示される、コンピュータープログラムと
を含むことを特徴とするシステム。
１つまたは複数の学習した基準を適用して新しい一連のイメージを順位付けするためのモジュールをさらに含むことを特徴とする請求項１６に記載のシステム。
前記イメージ検索において、前記一連のイメージを読み出すキーワードを使用するためのモジュールをさらに含むことを特徴とする請求項１６に記載のシステム。
１つまたは複数の基準を学習して前記一連のイメージを順位付けするために、見つけようとするイメージ特徴の特性と結び付けられたキーワードの使用をさらに含むことを特徴とする請求項１８に記載のシステム。
イメージセットの順位付けされたイメージを表示し、前記基準の学習を促すためにユーザーが選ぶ肯定的、および否定的事例イメージを提供するユーザーインターフェースをさらに含むことを特徴とする請求項１６に記載のシステム。