次に、全体を通して同じ要素を指すために同じ参照符号を使用する図面を参照して本発明について詳細に説明する。次の記載では、本発明を十分に理解できるように、説明の目的で数多くの特定の詳細を示す。しかしながら、本発明はこのような特定の詳細がなくとも実行可能であることは明らかであろう。他の場合では、本発明の説明を容易にするために、周知の構造および装置をブロック図の形で示す。
本出願で使用する、「コンポーネント」および「システム」という用語は、コンピュータ関連のエンティティ、すなわちハードウェア、ハードウェアとソフトウェアの組合せ、ソフトウェア、または実行中のソフトウェアを指すものとする。たとえば、コンポーネントは、1つのプロセッサで実行中のプロセス、プロセッサ、オブジェクト、実行ファイル、実行のスレッド、プログラム、および/またはコンピュータである可能性があるが、これらに限定されない。実例としては、サーバで実行中のアプリケーションも、そのサーバも、コンポーネントである可能性がある。1つまたは複数のコンポーネントは、プロセスおよび/または実行のスレッドの中にある可能性があり、またコンポーネントは、1つのコンピュータに局在化される、および/または2つ以上のコンピュータ間で分散される可能性がある。
本明細書で使用する、「推論する」または「推論」という用語は、一般に、事象および/またはデータによって取り込まれる一連の観察から、システム、環境、および/またはユーザの状態を推測するまたは推論するプロセスを指す。推論は、特定のコンテキストまたは動作を識別するために用いられることが可能であり、あるいは推論により、たとえば状態に関する確率分布を生成することができる。推論は、確率的とする、すなわちデータおよび事象の検討に基づいた興味のある状態に関する確率分布の計算とすることができる。また推論は、一連の事象および/またはデータから上位レベルの事象を構成するために使用される技術を指すこともできる。このような推論は、事象が時間的に近接した相関関係にあるかどうか、また事象およびデータが1つまたはいくつかの事象およびデータのソースから発生しているかどうかにかかわらず、一連の観察された事象および/または格納された事象データから新しい事象または動作を構成する結果となる。
情報をユーザに表示するいくつかの方法について、スクリーンショットとしていくつかの図に関して示し、説明しているが、他のさまざまな代替物を使用することができるということを当業者は理解するであろう。「画面」、「ウェブページ」、および「ページ」という用語は、本明細書では一般に同義で使用される。ページすなわち画面は、表示記述として、グラフィカルユーザインターフェースとして、または画面上に情報を表す他の方法(たとえばパーソナルコンピュータ、PDA、携帯電話、または他の好適な装置のいずれか)によって格納および/または転送され、ページに表示されるレイアウトおよび情報もしくは内容は、メモリ、データベース、または別の保存場所に格納される。
まず図面を参照すると、図1は、少なくとも2つの全体的な態様を有する多次元検索システム100を示している。第一に、このシステム100は、多次元を有する入力(たとえばテキスト、音声、映像、マルチメディア)から、特徴およびデータを抽出することができる。抽出されるとこの特徴を使用して、検索クエリを生成する(または変更する)ことができる。次に、検索クエリを使用して、入力に関する検索結果を返すことができる。システム100の別の態様は、検索可能なデータ項目の特徴に基づいて検索結果を探す能力である。言い換えれば、システム100は、特徴を抽出するために検索可能データ項目(ウェブページ、画像ファイル、音声ファイル、マルチメディアファイル)を解析しやすくすることができる。特徴があるデータ項目から抽出されると、システム100は、この項目を返しておよび/またはインデックス付けして、検索に利用可能にすることを容易にすることができる。これらのシナリオのそれぞれについて、以下により詳細に説明する。
一般に、多次元検索システム100は、入力解析器コンポーネント102と、検索エンジンコンポーネント104とを含むことができる。図のように、入力(たとえばテキスト、音声、画像)は、入力解析器コンポーネント102に伝送され、ここでこの入力から特徴(たとえば属性、特性)を抽出することができる。以下に説明するように、1つの態様ではパターン認識を使用して、入力画像から属性および/または特性を判断することができる。より詳細な例では、この入力がランドマークの前に立っている人物の画像であるとすると、入力解析器は、ユーザの正体を判断するために、パターン認識の特殊形態(たとえば顔認識)を利用することができる。同様に、パターン認識を利用してランドマークを解析することにより、この人物の位置を判断することができる。
これらのおよび他の特徴ならびに属性が判断されると、検索クエリが構築されて、検索エンジン104へ転送可能になる。検索エンジン104を用いて、クエリによる検索結果を引き出すことができる。他の例では、検索エンジン104は、インターネット、イントラネット、ローカルまたはリモートのサーバ/記憶装置などから結果を検索することができる。事実上本発明の実施形態は、さまざまな非従来型の入力から検索クエリを構築することを容易にする。
伝統的なシステムは、さまざまなデータタイプ(たとえばテキスト、ウェブページのリンク、画像ファイル)で結果を伝えることができるが、こうした従来のシステムは、検索クエリを可能性のある結果にマッピングするために、手作業で生成されたメタデータおよびタグに依存しているため、依然としてテキスト中心である。視覚化が取り入れられる範囲では、このような視覚化は一般に、ユーザ定義のメタデータを使用することによって行われ、検索可能な項目は、項目の属性に対応したメタデータをあらかじめ手作業でタグ付けされている。
従来の検索メカニズムとは対照的に、本システム100の1つの特徴は、入力から特徴および属性を抽出することである。たとえば、このシステムは、入力として画像ファイルを受信し、色、パターン、位置などの、ただしこれらに限定されない特徴を抽出することができる。この態様では、パターン認識システムを利用して画像を解析し、その後検索クエリを構築することができ、これを使用して関連する検索結果を引き出すことができる。
検索で考慮されるプロパティは、文書のサイズおよび構造を含むことができ、学術文献に含まれているような一連の参考文献が文書の最後に付いているかどうかにかかわらず、文書の長さと、文書の中に含まれる図(たとえば線図、漫画、画像、数字表、図表、文書の中に含まれる1つまたは複数の画像のヒストグラムのパラメータの指定など)の数、分布、および全体的な性質という面を含むことができる。
諸態様において、文書に含まれる図に関する詳細を見分けてインデックス付けすることができ、たとえば地図または地心から測定されたコンテンツ(geocentric content)のグラフィカルもしくは画像ベースの表示が、文書内に表示されているかどうかに関する情報を認識し、エンコードする。他の例には、文書内に図表があることの認識、グラフの軸上に特定のプロパティ(たとえばテキストまたは他のトークンで表示される)を有するデカルトグラフまたは3次元プロットを格納するものとしてこのようなプロパティを認識することがある。
インデックス付けおよび検索に使用されるプロパティは、たとえば1つまたは複数の測定の経済値が時間とともに増えることを示す「財務グラフ」など、含まれるグラフィックデータが、「時間とともに量が増えること」を示す傾向を見せているかどうかなど、グラフ中心に視覚化して自動的に認識される構造を含むこともできる。
このように認識される図のプロパティおよびさまざまなグラフなどの視覚的コンポーネントのこのようなクラスを使用することは、視覚的オブジェクトの多くの他の可能性のあるクラスの1つの例である。
ページの中で、またはテキストもしくはグラフィックコンテンツの中で、グラフィックコンテンツとテキストコンテンツとの、およびポインタもしくはURL(Uniform Resource Locator)など他のプロパティとの関係は、テキストコンテンツをインデックス付けおよび検索する際にポインタが使用された方法と類似した方法で、インデックス付けおよび検索する際に考慮されることが可能である。
テキスト中心のクエリ以外に、グラフィックプロパティの低レベル仕様または高レベル仕様の形態で、テキスト情報を付けてまたは付けずにグラフィックコンテンツを使用し、クエリを作成することができる。たとえば、クエリを作る際に、サンプル図または他のグラフィックコンポーネントなど、グラフィックコンテンツの例を使用することができる。
インデックス付けおよび検索において使用する以外に、グラフィックコンテンツのプロパティは、テキストコンテンツに追加し、入力されたクエリへの応答で項目の表示を構築することに使用可能である。
本発明に全体的な見通しを追加するために次のシナリオを提供するが、これは本発明を決して限定するものではない。このため、本発明の特徴を用いる他のシナリオが存在する可能性があることは理解されるであろう。これらのさらなるシナリオは、本発明および添付の特許請求の範囲の範囲内に含まれるものとする。
上述したように、本発明による検索は、さまざまな次元で実行されることが可能である。たとえば、検索クエリの一部は、特定のコンテキストの中で個人の写真を含むことができる。したがって、たとえば「青いスーツを着て、ディナーでプリンスチャールズの隣に座っているビル・クリントン」のようなテキストの検索クエリを入力するのではなく、このような事象の画像をシステム100への入力として使用することができる。図1のシステム100によれば、入力解析器コンポーネント102は、入力された画像から関連情報(たとえばビル・クリントンおよびチャールズ皇太子の認識、青いスーツ、ならびにディナーのコンテキスト)を抽出し、クエリ(テキストベースおよび/または画像ベース)を作成し、上記の事象に関連するすべてのウェブサイトを探しやすくすることができる。
図2は、本発明の一態様により入力から検索クエリを生成する方法を示している。説明を簡潔にするために、本明細書ではたとえば流れ図の形で示す1つまたは複数の方法は、一連の動作として示して説明しているが、本発明は動作の順序によって限定されず、一部の動作は、本発明により異なる順序でおよび/または本明細書に示して説明した他の動作と同時に起こる可能性があることを理解され、認識されたい。たとえば、方法は代替的に、状態図など、一連の相互に関係のある状態または事象として表されることが可能であることを、当業者は理解し、認識するであろう。さらに、例示したすべての動作が、本発明による方法を実行するために必要とされるわけではない。
202において、特定のデータ型を表す入力を受信することができる。たとえば入力は、テキスト、画像、音声などの形態の、ただしこれらに限定されない形態のデータを含むことができる。その上入力は、複数のデータ型を含む多次元データの形態をとることができる。たとえば、映像ストリームは、画像データおよび音声データを含むことができる。入力は、入力と関連する特徴、属性、および/または特性を識別するために、204において解析されることが可能である。たとえば、上述のようにパターン認識メカニズムを画像文書に適用して、特定の画像の対象およびコンテキストを識別することができる。特定の例では、あるスポーツの試合の航空画像を解析して、どのチームが試合をしているか、スタジアムの名前、試合時間(昼間または夜間)などの基準を判断することができる。これらの特徴を使用して、検索クエリを生成することができる。
特定の例を参照すると、パターン認識を使用して、この画像が「スリーリバーススタジアム」で行われている「ピッツバーグパイレーツ」と「ボルチモアオリオールズ」との「野球の試合」を示していることを判断することができる。したがって、「スリーリバースタジアムでのピッツバーグパイレーツとボルチモアオリオールズの野球の試合」という抽出された特徴を使用して、206において検索クエリを作成することができる。
画像入力から構築された検索クエリにより、208において結果を引き出すことができる。この例を続けると、1971年および1979年のワールドシリーズと関連する結果を引き出すことができる。さらに詳細には、スリーリバースタジアムでの1971年および1970年のワールドシリーズのパイレーツとボルチモアオリオールズに関連して、ウェブページのリンク、画像、映像、ならびに音声ファイルが返されることが可能である。こうした結果を210において伝える(たとえば表示する)ことができる。
図3は、本発明の一態様により入力を解析する方法を示している。302において、上述のように本質的にいかなるメディア型とすることもできる入力を受信することができる。たとえば入力は、テキスト、画像、ストリーミング音声、ストリーミング映像、またはその組合せとすることができる。次の方法の概略で理解されるように、本発明を使用して、ほぼいかなる多次元(ならびに一次元)入力をも解析することができる。
304において、この入力はテキストデータを含んでいるかどうかを判断するために、判定を行う。含んでいる場合、306において入力をパースして解析し、キーワードを決定することができる。同様に、308において、この入力が可聴データを含んでいるかどうかを判断するために、判定を行う。この入力が可聴データを含んでいる場合、310において言語認識メカニズムを使用し、この可聴データと関連するキーワードを構築することができる。例として、可聴データが歌である場合、この歌に対して言語認識メカニズムを使用して可聴言語をテキストの歌詞に変換することができる。
さらにまた312において、入力が可視データ(たとえば画像データ)を含んでいるかどうかを判断する。上述のテキストおよび音声と同様に、可視データが存在する場合は、314においてパターン認識メカニズムにより鍵となる特徴(たとえば属性および/または特性)を構築することができる。1つの特定の態様では、顔認識メカニズムを使用して、画像の中の人物の正体を判定することができる。さらに、パターン認識を使用して、たとえば場所、建物、ランドマーク、色、会場など、画像の中に含まれる他の特性を判定することができる。
入力を解析する(たとえば304〜314)と、316において集めた情報を利用して検索クエリを構築することができる。その後、318において、この検索クエリに対する結果を引き出すことができる。続く図を参照してさらに詳細に説明するように、結果は、ユーザに伝える(たとえば表示する)際に所望するように構成される(たとえばフィルタをかけられる、ランク付けされる、順序付けされる)ことが可能である。
次に図4を参照し、多次元検索システム100の代替的なブロック図を示す。より詳細には、システム100の代替的態様は、検索エンジン104が結果検索コンポーネント402と、多次元インデックス生成コンポーネント404と、検索インデックス406とを含むことができることを示している。動作では、これら3つのサブコンポーネント(402、404、406)は、検索クエリに対して多次元項目を動的にインデックス付けおよび/または検索することを容易にすることができる。
上述のように、1つの態様ではシステム100は、人間が視覚に基づく手がかりに関連して知的検索(mental searches)を行う方法に対する方法で検索を行う動的な視覚的検索を提供することができる。たとえば、本発明の一実施形態によれば、「青い」という用語を入力として使用する場合、または「青い」色が入力画像に表示される場合、このシステムはこの特徴を認識し、項目が「青い」というメタデータを手作業であらかじめタグ付けされているかどうかにかかわらず、「青い」という物理的特性を持つ項目を検索することができる。そうする際に、検索エンジン104は、結果検索コンポーネント402を使用して、この属性を持つ結果を動的に探すことができる。より詳細には検索エンジン104は、たとえば(結果検索コンポーネント402を介して)パターン認識システムを使用して、検索可能項目から視覚情報を抽出することができる。別の態様では、図4に示すようにインデックス付けするシステムの一部として、視覚情報のこのような抽出を行うことができる。図4に示す態様によれば、多次元インデックス生成コンポーネント404は、データ項目(たとえばウェブページ、ファイル、画像データ、ストリーミング音声、または映像データ)と関連する特徴に基づいて、インデックス406を構築することができる。
次に図5を参照すると、多次元検索システム100の代替的なブロック図が示してある。詳細には、図5のシステム100は、入力解析器コンポーネント102および多次元インデックス生成器コンポーネント402が、それぞれテキスト分析器(502、504)と、音声分析器(506、508)と、画像分析器(510、512)とを含むことができることを示している。各コンポーネント(102、402)は、コンテンツ解析器コンポーネント(502〜512)を含むように示してあるが、ただ1組のコンテンツ解析器コンポーネントを設けて、入力解析器コンポーネント102ならびに多次元インデックス生成器402がこれを使用し、それぞれ入力された検索可能な項目の中に含まれる特徴を発見することができるということを理解されたい。
上述のように、サブコンポーネント(502〜512)のそれぞれにより、システムは入力ならびに検索可能項目から特徴を抽出することができる。1つの態様では、こうした特徴の抽出によってユーザの入力が解析可能になり、その後抽出された特徴から検索クエリを構築する。別の態様では、こうした特徴の抽出によって、検索可能な項目を自動的かつ動的にインデックス付けしやすくする。言い換えれば、こうしたインデックス付けのメカニズムにより、このシステムは、検索可能な項目から特徴を自動的および/または動的に抽出することができ、その後特定のクエリまたはクエリのセットに基づいてこの特徴を検索に利用可能にする。
入力解析器コンポーネント102を参照すると、図6は、特定の解析を実行することができる、入力解析器コンポーネント102の例示的なサブコンポーネントを示している。さらに詳細には、1つの態様においてテキスト解析器502は、入力をパースして適切な検索クエリを構築することができる言語パーサ602を含むことができる。明らかなように、入力をパースすることにより、入力の語を、検索クエリに変換可能である機能単位に解体することができる。別の例では、構文解析メカニズムは、「ビル・クリントンがチャールズ皇太子と最後に会ったのはどこか?」のような入力を、「場所、ビル・クリントン、会う、チャールズ皇太子」というキーワードに解釈することができる。こうしたキーワードを検索クエリとして使用し、関連する結果を返すことができる。
他の態様では、音声解析器504は、言語認識(speech recognition)コンポーネント604を含むことができ、画像解析器コンポーネント506は、パターン認識コンポーネント606を含むことができる。たとえば、入力が画像であると仮定する。したがって、画像処理メカニズムを使用して、陰、色と関係、図柄、形状などを識別することができる技術を用いて画像を解析することができる。パターン認識コンポーネント606の画像処理機能は、たとえばデジタルカメラによってスキャンされたまたは取り込まれたビットマップのグラフィック形式の画像を処理することができる。
パターン認識606は、システムが事前知識に基づいておよび/または画像内の識別されたパターンから抽出される統計的情報に基づいてデータのパターンを分類することができる機械学習および推論(MLR)の領域内のフィールドを参照することができるほとんどの場合、分類されるパターンは、適切な多次元空間においてポイントを定義する測定群または観察群である。パターン認識システム606は、分類される、すなわち前述の観察を集めるセンサまたはセンサ群を含むことができる。特徴抽出メカニズムを使用して、観察から情報(たとえば数値または記号)を算出することができる。その上パターン認識システムは、抽出された特徴に基づいて観察を実際に分類するまたは記述する分類または記述メカニズムを含むことができる。画像解析は、パターン認識システムへの入力としてデジタル画像に向けられるパターン認識の形式である。
本質的に画像解析は、画像からの重要な情報の抽出を参照する。画像解析技術は、バーコードリーダーのような簡単なタスクから、顔の特徴の解析に基づいて個人を識別することができる顔認識システムのような複雑かつ高度な解析まで、多岐にわたる場合があることを理解されるであろう。
次に図7を参照すると、システム100の代替的態様が示してあり、この多次元検索システムは結果構成コンポーネント702を含む。動作において、結果構成コンポーネント702は、所望の方法で結果をフィルタにかける、ソートする、インデックス付けする、ランキングを付ける、およびその後に表示することを容易にすることができる。1つの特定の例では、検索結果がむしろ視覚中心の形態をとれるようにすることが、本発明の特徴である。たとえば、検索結果としてテキストに基づく統一資源位置指定子(URL)またはストリングを提供するのではなく、結果は、画像(または画像群)の形態で提示されて、高い一瞥性(glanceability)を促すことができる。さらに結果は、テキストデータ、視覚データ、および可聴データの組合せを含むことができ、それによって本発明のメカニズムの提示を向上させる。
その上、図7に示すように、検索入力は、多次元で行うことが可能であり、付帯的次元のデータ(たとえば時間、音声、視覚、コンテキスト、雰囲気、事象など)を検索クエリおよび結果にマップし、多次元にわたって大量のデータをインデックス付けおよび視聴できるようにすることができる。
図8は、本発明の一態様による例示的な結果構成コンポーネント702を示している。図のように、結果構成コンポーネント702は、フィルタコンポーネント802と、ランク付けコンポーネント804と、順序付けコンポーネント806とを含むことができる。こうしたコンポーネントのそれぞれは、所望の基本設定および/または多次元コンテキストにより検索結果の提示に作用するように使用されることが可能である。
たとえば、フィルタコンポーネント802を使用して、時刻、位置、デバイスコンテキストなどに少なくとも部分的に基づいて検索結果のサブセットを自動的にフィルタにかけることができる。各シナリオにおいて、フィルタコンポーネント802は、付帯的多次元要素に基づいて適切なソーティングおよび/またはフィルタリングの基準を推論することができる。同様に、ランク付けコンポーネント804および順序付けコンポーネント806を使用して、判断および/または推論したコンテキストまたは外部の多次元データに基づき結果を整然とまとめることができる。
本発明に全体的な見通しを付加するために次のシナリオを提供するが、これは本発明を決して限定するものではない。言い換えれば、本開示および/またはこれに添付する特許請求の範囲の範囲を限定するつもりはなく、次のシナリオを提供して、本発明の特徴のいくつかを説明する。
ここで図9を参照すると、本発明の一態様による検索入力のスクリーンショットが示してある。さらに詳細には、図のように検索操作への入力は、街のスカイラインの画像とすることができる。上述のように、本発明の特徴により、この画像に画像解析を行って、この画像の特徴を判断および抽出することができる。抽出されると、抽出された特徴に基づいて、システムは検索クエリを構築することができる。
図10は、検索結果の例示的セットを示している。図のように結果は、構築した検索クエリへの適合性に従う順序で伝えることができる。この例では、システムは、画像解析によりこの画像がニューヨーク市のものであることを確定することができる。このために、検索を行い、図10に示すように結果を伝えることができる。図10の結果はテキスト形式で示されているが、本発明の趣旨および/または範囲を逸脱することなく、結果を伝える他の手段(たとえば映像、音声)を使用することができるということを理解され、認識されたい。たとえば、別の態様では、テキストの結果に加えてまたはこれに代えて画像を提示し、それによってレビュー時間(たとえば一瞥性)を向上させることができる。
図11は、選択メカニズム1102を使用して、入力として使用する画像の一部を識別することができることを示している。この例では、選択メカニズム1102は、世界貿易センターを囲む範囲を定める正方形である。したがって図12は、この選択から自動的に作成された検索クエリに基づいて提示されることが可能である検索結果1202、1204の例示的なセットを示している。
図のように、結果は、任意の方法で順序付けされた、ランク付けされた、および/またはフィルタにかけられたテキストの結果1202を含むことができる。たとえば、結果は、ユーザのコンテキスト(たとえば時間、場所、装置の型、ユーザの状態、雰囲気…)に基づいて構成されることが可能である。その上、一瞥性を向上させるために、図示したテキストの結果に代えて、画像を追加するまたは挿入することができる。同様に、結果を伝える効果を高めるために、結果にアノテーション(たとえば強調表示、アンダーライン付け、フォント整形)技術を追加することができる。こうしたアノテーション技術は、本発明および添付の特許請求の範囲の範囲内に含まれるものとする。
さらに、本発明の機能によれば、このシステムは、検索クエリに対応した画像1204を返すことができる。上述のように、これらの画像は、上述の可能性のある検索結果から特徴を抽出することによって提供されることが可能である。抽出した特徴により、本質的に異なる態様において、検索可能項目をインデックス付けすることができる。このようにシステムは、インデックスを検索し、その後結果を伝えることができる。同様にシステムは、あらかじめインデックス付けする代わりに検索クエリにより、オンザフライで特徴を抽出して画像ベースの結果を伝えることができる。
本発明の態様によれば、システム100は、本発明による1つまたは複数の特徴を自動化することを促すMLRコンポーネント(図示せず)を使用することができる。この特定の実施では、MLRコンポーネントは、入力解析器コンポーネント102、検索エンジン104、および結果構成コンポーネント702のそれぞれと接続されるように配置することができる。このためにMLRコンポーネントを使用して、ここに記載した各コンポーネントの機能による動作を自動化および/または推論することができる。
本発明は(たとえば、クエリの生成/変更、結果の選択/構成、検索可能項目のインデックス付けと関連して)、そのさまざまな態様を実行するために、さまざまなMLRに基づく方法を使用することができる。たとえば、どの結果が所望されているか、またコンテキスト要素を考慮して入力に基づいて結果をどのように提示すべきかを予測することに関する学習および推論のプロセスは、自動分類子システムおよびプロセスにより容易にされることが可能である。
分類子は、入力属性ベクトル、x=(x1,x2,x3,x4,xn)をクラスラベルclass(x)にマップする関数である。また分類子は、入力があるクラス、すなわちf(x)=confidence(class(x))に属するという信頼度を出力することができる。このような分類は、確率論的なおよび/または他の統計的解析を使用して、ユーザが自動的に実行されることを望む動作を予知するまたは推論することができる。
サポートベクターマシーン(SVM)は、使用することができる分類子の一例である。SVMは、考えられる入力の空間に、最適な方法でトリガ入力事象を非トリガ事象から分ける超曲面を見つけることによって動作する。直感的にこれは、学習用データと近いがまったく同じではない検証用データについて分類を正しくする。その他の有向および無向モデル分類手法には、さまざまな独立性のパターンを使用することができる場合、たとえばナイーブベイズ(naive Bayes)、ベイジアン(Bayesian)ネットワーク、決定木、ニューラルネットワーク、ファジー論理モデル、および確率論的分類モデルが含まれる。またここで使用する分類は、ランク付けまたは優先度のモデルを開発するために利用される統計的回帰を含んでいる。
本明細書から容易にわかるように、本発明は、明示的に(たとえば一般的な学習用データによって)教え込まれると同時に、暗黙に(たとえばユーザの行動を観察すること、付帯的情報を受信することによって)教え込まれる分類子を使用することができる。たとえば、SVMは、分類子組立ておよび特徴選択モジュールの中で学習または訓練段階を経て構成される。したがって、分類子を使用して自動的に学習し、あらかじめ定められた基準に従っていくつかの機能を実行することができる。
1つのさらに特定の例では、MLRコンポーネントは、コンテキスト情報(たとえば時刻、週、位置、ユーザの役割)に基づいて、判断および/または推論されたクエリを考慮してどのようなタイプの結果が所望であるか、ならびに結果はどのように提示されるべきかを学習することができる。たとえば、ユーザが日常的に特定の情報を求めてクエリを行い、その後提示された結果から同じまたは同様の結果のセットを選択する場合、時間の経過とともに、MLRコンポーネントはこの使用パターンを学習することができる。したがってシステムは、このユーザが同じまたは同様の検索クエリを実行する際に再び同じ結果を選択する可能性が高いと考える(または予測する)ことができる。結果的に、この情報を用いて、またクエリの実行時に所望の方法で特定の結果のセットを提示する目的で、統計モデルを生成することができる。
個人化されたモデル(personalized models)は、ユーザの好みと関わる履歴データ、ならびに以前の検索に関するユーザのフィードバックに基づいて特徴を引き出すように教え込まれることが可能である。装置が本明細書に記載する実施形態を組み込むようにして、シード分類子を配置することができ、このような分類子は、消費者によって使用される間に調整されることが可能である。さらに、入力の一定の特徴には、他の特徴よりも大きく重み付けを行うことができる。たとえば、写真の中央にある像は、このような像が一般に周辺のイメージと比べて直接的に関連する可能性が大きいため、より高い重み付けを行うことができる。同様に、人間の話し言葉と関連する周波数領域内の音声の特徴には、このような周波数帯以外の音声よりも高い重み付けを行うことができる。ピクセルマッピング技術を使用して、ピクセル群を同様の色および近接性に応じて関連付けることができる。本明細書に記載する実施形態により、特徴を抽出することを容易にするいかなる好適な方法を使用することもできる。
次に図13を参照すると、視覚および多次元検索の開示したアーキテクチャを実行するように動作可能なコンピュータのブロック図が示してある。本発明のさまざまな態様に追加のコンテキストを提供するために、図13および次の記述は、本発明のさまざまな態様を実施することができる好適なコンピューティング環境1300について簡潔で、概括的な説明を行うものとする。1つまたは複数のコンピュータ上で実行することができるコンピュータ実行命令の一般的なコンテキストで本発明を上述したが、本発明はまた、他のプログラムモジュールと組み合わせて、および/またはハードウェアおよびソフトウェアの組合せとして、実行可能であることを当業者には理解されるであろう。
一般に、プログラムモジュールは、特定のタスクを実行するまたは特定の抽象データ型を実装するルーチン、プログラム、コンポーネント、データ構造などを含む。さらに、本発明の方法が、シングルプロセッサもしくはマルチプロセッサのコンピュータシステム、ミニコンピュータ、大型コンピュータ、ならびにパーソナルコンピュータ、ハンドヘルドのコンピューティング装置、マイクロプロセッサベースのもしくはプログラム可能な家庭用電化製品などを含む、他のコンピュータシステムの構成で実行可能であり、これらのそれぞれが1つまたは複数の関連する装置と適切に結合可能であることを、当業者は理解するであろう。
また本発明の例示した態様は、通信ネットワークを介してリンクされたリモート処理装置により一定のタスクが実行される分散型コンピューティング環境でも実施されることが可能である。分散型コンピューティング環境では、プログラムモジュールは、ローカルとリモートの両方の記憶装置に置かれることが可能である。
コンピュータは、通常さまざまなコンピュータ可読媒体を含んでいる。コンピュータ可読媒体は、コンピュータによってアクセスされることが可能であるいかなる利用可能な媒体とすることもでき、揮発性媒体および不揮発性媒体、取り外し可能な媒体および取り外しで不可能な媒体を含む。一例として、コンピュータ可読媒体は、コンピュータ記憶媒体および通信媒体を含むことができるが、これらに限定されない。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータなどの情報を格納するためのあらゆる方法または技術で実現される揮発性および不揮発性、取り外し可能および取り外し不可能な媒体を含む。コンピュータ記憶媒体には、RAM、ROM、EEPROM、フラッシュメモリもしくは他のメモリ技術、CD−ROM、デジタル多用途ディスク(DVD)もしくは他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置もしくは他の磁気記憶装置、または所望の情報を保存するために使用することができ、コンピュータによってアクセスされることが可能な他の媒体があるが、これらに限定されない。
通信媒体は通常、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータを、搬送波または他の搬送機構などの変調されたデータ信号に組み入れるものであり、あらゆる情報配信媒体を含む。「変調されたデータ信号」という用語は、信号の中の情報を符号化するような方法で特性の1つまたは複数が設定されたまたは変更された信号を意味する。一例として、通信媒体は、有線ネットワークもしくは直接接続などの有線媒体、ならびに音響、RF、赤外線、その他の無線媒体を含むが、これらに限定されない。上述したいずれかの組合せもまた、コンピュータ可読媒体の範囲内に含まれなければならない。
再び図13を参照すると、本発明のさまざまな態様を実施する例示的環境1300は、処理ユニット1304と、システムメモリ1306と、システムバス1308とを備えているコンピュータ1302を含んでいる。このシステムバス1308は、限定ではないがシステムメモリ1306を備えているシステムコンポーネントを、処理ユニット1304に結合する。処理ユニット1304は、市販されているさまざまなプロセッサのいずれかとすることができる。また、処理ユニット1304として、デュアルマイクロプロセッサのアーキテクチャおよび他のマルチプロセッサのアーキテクチャを使用することもできる。
システムバス1308は、さまざまな市販のバスのアーキテクチャを用いてメモリバス(メモリコントローラのあるものもしくはないもの)、周辺バス、およびローカルバスとさらに相互に接続することができるいくつかのタイプのバス構造のいずれかとすることができる。システムメモリ1306は、リードオンリーメモリ(ROM)1310およびランダムアクセスメモリ(RAM)1312を含む。ベーシックインプット/アウトプットシステム(BIOS)は、ROM、EPROM、EEPROMなど非揮発性メモリ1310に格納されており、このBIOSは、スタートアップ中など、コンピュータ1302内の要素間で情報を転送する助けとなる基本ルーチンを含んでいる。またRAM1312は、データをキャッシュするためのスタティックRAMなど高速RAMを含むことができる。
コンピュータ1302は、内蔵ハードディスクドライブ(HDD)1314(たとえばEIDE、SATA)と、磁気フロッピー(登録商標)ディスクドライブ(FDD)1316(たとえばリムーバブルディスケット1318から読み取るまたはこれに書き込む)と、光ディスクドライブ1320(たとえばCD−ROMディスク1322を読み取る、またはDVDなど他の高容量光メディアから読み取るまたはこれに書き込む)とをさらに含み、内蔵ハードディスクドライブ1314は、好適なシャシ(図示せず)で外付けに使用するように構成することもできる。ハードディスクドライブ1314、磁気ディスクドライブ1316、および光ディスクドライブ1320は、それぞれハードディスクドライブのインターフェース1324、磁気ディスクドライブのインターフェース1326、および光ディスクドライブのインターフェース1328によってシステムバス1308に接続することができる。外付けドライブ実装用のインターフェース1324は、ユニバーサルシリアルバス(USB)およびIEEE 1394のインターフェース技術のうち少なくとも一方または両方を含む。他の外付けドライブ接続技術についても、本発明が意図するものである。
ドライブおよびそれに関連するコンピュータ可読媒体は、データ、データ構造、コンピュータ実行可能命令などの不揮発性の記憶装置となる。コンピュータ1302については、ドライブおよびメディアは、好適なデジタル形式でいかなるデータも格納する。上記のコンピュータ可読媒体という記述は、HDD、取り外し可能な磁気ディスケット、およびCDもしくはDVDのような取り外し可能な光メディアを指すが、zipドライブ、磁気カセット、フラッシュメモリカード、カートリッジなどコンピュータで読み取り可能である他のタイプのメディアも例示の動作環境で使用可能であること、さらにこのようないかなるメディアも本発明の方法を実行するためにコンピュータで実行可能な命令を含むことができることを、当業者には理解されたい。
ドライブおよびRAM1312には、オペレーティングシステム1330、1つまたは複数のアプリケーションプログラム1332、その他のプログラムモジュール1334、およびプログラムデータ1336を含む、いくつかのプログラムモジュールを格納することができる。オペレーティングシステム、アプリケーション、モジュール、および/またはデータの全部または一部を、RAM1312にキャッシュすることもできる。本発明は、さまざまな市販のオペレーティングシステムまたはオペレーティングシステムの組合せを用いて実行されることが可能であることがわかる。
ユーザは、たとえばキーボード1338およびマウス1340のようなポインティングデバイスなど、1つまたは複数の有線/無線の入力装置を介してコマンドおよび情報をコンピュータ1302に入力することができる。その他の入力装置(図示せず)には、マイクロフォン、IRリモートコントロール、ジョイスティック、ゲームパッド、スタイラスペン、タッチスクリーンなどが含まれる。これらのおよび他の入力装置は、システムバス1308に結合された入力装置のインターフェース1342を介して処理ユニット1304に接続されることが多いが、パラレルポート、IEEE 1394シリアルポート、ゲームポート、USBポート、IRインターフェースなど、他のインターフェースによって接続されることも可能である。
モニタ1344または他のタイプのディスプレイ装置もまた、映像アダプタ1346などのインターフェースを介してシステムバス1308に接続される。モニタ1344に加えてコンピュータは、通常、スピーカ、プリンタなど他の周辺出力装置(図示せず)を含む。
コンピュータ1302は、リモートコンピュータ1348のような1つまたは複数のリモートコンピュータと、有線通信および/または無線通信による論理接続を用いてネットワーク化された環境で動作することができる。リモートコンピュータ1348は、ワークステーション、サーバコンピュータ、ルータ、パーソナルコンピュータ、ポータブルコンピュータ、マイクロプロセッサベースのエンターテイメントアプライアンス、ピア装置、または他の一般的なネットワークノードとすることができ、簡潔にするためにメモリ/格納装置1350のみを示しているが、通常、コンピュータ1302に関して説明した要素の多くまたはすべてを含む。図示した論理接続は、ローカルエリアネットワーク(LAN)1352および/またはたとえばワイドエリアネットワーク(WAN)1354などより大きなネットワークとの有線/無線の接続を含む。このようなLANおよびWANのネットワーク環境は、オフィスおよび会社では一般的であり、イントラネットなど企業規模のコンピュータネットワークを円滑にし、そのすべてがたとえばインターネットなどのグローバル通信ネットワークと接続することができる。
LANネットワーク環境で使用されるとき、コンピュータ1302は、有線および/または無線通信ネットワークのインターフェースまたはアダプタ1356を介してローカルネットワーク1352と接続される。アダプタ1356は、LAN1352との有線または無線接続を容易にすることができ、LAN1352は、無線アダプタ1356と通信するために配置された無線アクセスポイントを含む場合もある。
WANネットワーク環境で使用されるとき、コンピュータ1302は、モデム1358を含むことができる、またはWAN1354上の通信サーバと接続される、またはインターネット経由などのWAN1354を通って通信を確立するための他の手段を有する。モデム1358は、内蔵もしくは外付け、および有線もしくは無線とすることができ、シリアルポートインターフェース1342によってシステムバス1308と接続される。ネットワーク化された環境では、コンピュータ1302またはその一部と関連して図示したプログラムモジュールは、リモートのメモリ/格納装置1350に格納することができる。図のネットワーク接続は例示であり、コンピュータ間の通信リンクを確立する他の手段を使用することが可能であることは、理解されるであろう。
コンピュータ1302は、たとえばプリンタ、スキャナ、デスクトップおよび/またはポータブルコンピュータ、携帯情報端末、通信衛星、無線で検出可能なタグと関連付けられた装置または場所の一部(たとえばキオスク、新聞の売店、化粧室)、ならびに電話など、無線通信で動作可能に配置されたいかなる無線装置またはエンティティとも通信するように動作する。これは、少なくともWi−FiおよびBluetooth(商標)の無線技術を含む。したがって、通信は、従来のネットワークと同様の所定の構造とするか、または単に少なくとも2つの装置間のアドホック通信とすることができる。
Wi−Fi、すなわちWireless Fidelityにより、自宅の長いす、ホテルの部屋のベッド、または職場の会議室から、無線でインターネットへ接続することが可能になる。Wi−Fiは、携帯電話で使用されるものと同様の無線技術であり、これによりたとえばコンピュータなどの装置は、基地局の範囲内のどこでも、屋内および屋外でデータを送受信することができるようになる。Wi−Fiネットワークは、IEEE 802.11(a、b、gなど)と呼ばれる無線技術を使用して、安全で、信頼性のある、高速の無線接続を提供する。Wi−Fiネットワークを使用して、コンピュータを互いに、インターネットに、および有線ネットワーク(IEEE 802.3またはイーサネット(登録商標)を使用する)に接続することができる。Wi−Fiネットワークは、免許不要の2.4および5GHz無線帯域で、たとえば11Mbps(802.11a)または54Mbps(802.11b)のデータレートで、または両帯域を含む(デュアルバンド)製品で動作するため、このネットワークは、多くのオフィスで使用される基本的な10BaseTの有線イーサネット(登録商標)ネットワークと同様の実環境性能を提供することができる。
次に図14を参照すると、本発明による例示的コンピューティング環境1400の概略ブロック図が示してある。このシステム1400は、1つまたは複数のクライアント1402を含む。クライアント1402は、ハードウェアおよび/またはソフトウェア(たとえばスレッド、プロセス、コンピューティング装置)とすることができる。クライアント1402は、たとえば本発明を使用することによってクッキーおよび/または関連するコンテキスト情報を収容することができる。
このシステム1400はまた、1つまたは複数のサーバ1404を含む。サーバ1404もまた、ハードウェアおよび/またはソフトウェア(たとえばスレッド、プロセス、コンピューティング装置)とすることができる。サーバ1404は、たとえば本発明を使用することによって変換を行うスレッドを収容することができる。クライアント1402とサーバ1404との間の1つの可能な通信は、2つ以上のコンピュータプロセスの間で転送されるように適合されたデータパケットの形とすることができる。データパケットは、たとえばクッキーおよび/または関連するコンテキスト情報を含むことができる。このシステム1400は、クライアント1402とサーバ1404との間の通信を容易にするために使用可能である通信フレームワーク1406(たとえばインターネットのようなグローバル通信ネットワーク)を含む。
通信は、有線(光ファイバを含む)および/または無線技術により容易にすることができる。クライアント1402は、クライアント1402にローカルな情報(たとえばクッキーおよび/または関連するコンテキスト情報)を格納するために使用することができる1つまたは複数のクライアントデータ格納装置1408と動作可能に接続されている。同様にサーバ1404は、サーバ1404にローカルな情報を格納するために使用することができる1つまたは複数のサーバデータ格納装置1410と動作可能に接続されている。
上述したものは、本発明の実例を含んでいる。当然ながら、本発明を述べる目的で構成要素または方法の考えられるあらゆる組合せを記載することは不可能であるが、当業者には本発明のさらなる組合せおよび変形が多く考えられることを理解されるであろう。したがって、本発明は、添付の特許請求の範囲の趣旨および範囲内にあるこのような代替形態、変更形態、および変形形態を包含するものとする。さらに、「含む(includes)」という用語が詳細な説明または特許請求の範囲のいずれかで使用される限りでは、このような用語は、「備える(comprising)」という用語が請求項の移行語として使用されるときに解釈される「備える」と同様の意味で包含的であるとする。