JP2006107467A - 複数の検索セッションを分析してその中の意図ベースのクラスタを識別する方法及び記録媒体 - Google Patents

複数の検索セッションを分析してその中の意図ベースのクラスタを識別する方法及び記録媒体 Download PDF

Info

Publication number
JP2006107467A
JP2006107467A JP2005257894A JP2005257894A JP2006107467A JP 2006107467 A JP2006107467 A JP 2006107467A JP 2005257894 A JP2005257894 A JP 2005257894A JP 2005257894 A JP2005257894 A JP 2005257894A JP 2006107467 A JP2006107467 A JP 2006107467A
Authority
JP
Japan
Prior art keywords
sessions
search
session
cluster
commonality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005257894A
Other languages
English (en)
Other versions
JP4806238B2 (ja
Inventor
Blake E Anderson
イー.アンダーソン ブレイク
James C Finger
シー.フィンガー ジェームス
Jennifer J Marsman
ジェー.マースマン ジェニファー
Kuldeep Karnawat
カーナワット クルディープ
Mark B Mydland
ビー.マイドランド マーク
Paul M Malolepsy
エム マロレプシー ポール
Thomas D White
ディー.ホワイト トーマス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2006107467A publication Critical patent/JP2006107467A/ja
Application granted granted Critical
Publication of JP4806238B2 publication Critical patent/JP4806238B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 意図ベースのクラスタを形成し、検索エンジンによってそれを使用して検索要求に応答する。
【解決手段】 各セッションは、ユーザから受信された少なくとも1つのクエリ、および対応する1組の戻された検索結果を含み、検索結果の各組は、少なくとも1つの内容を含むか、それを参照する。各クラスタは、共通の目的を表すものとして認識され、共通の1組の検索結果にマッピングすることができる1群の類似の検索セッションを表す。この方法では、検索セッションごとに、その受信された各クエリ、対応する1組の検索結果、および検索結果の任意の特定個の内容が対応する検索セッションに応答するものとしてユーザに許容可能であったかどうかが識別される。その後、検索セッションはクラスタに分けられる。
【選択図】 図2

Description

本発明は、検索エンジンに送信されるときのユーザからの検索要求に基づいて意図ベース(intent-based)のクラスタを識別し、形成するシステムおよび方法、および形成された意図ベースのクラスタを使用してユーザからの検索要求に応答する検索エンジンに関連するもので、複数の検索セッションを分析してその中の意図ベースのクラスタを識別する方法及び記録媒体に関する。より詳細には、本発明は、識別された意図によるユーザからの検索がより迅速かつ効率的に、よりユーザの検索に向いていると思われる検索結果で応答されるように、意図ベースのクラスタを識別し使用する、複数の検索セッションを分析してその中の意図ベースのクラスタを識別する方法及び記録媒体並びにクラスタの内容へのマッピングに基づいて受信されたクエリに応答する方法に関する。
一般の検索エンジンとの関連で、一般の検索エンジンにアクセスするユーザは、おそらくブール演算子とともに1つまたは複数の検索項目を含む検索文字列などを入力することによって検索を要求する。それに応答して、検索エンジンは、検索文字列に基づいて1つまたは複数のデータベースを検索し、それに基づいて1組の検索結果を生成し、おそらくユーザが調べることができる情報のページまたは情報へのリンクの形でこうした検索結果を要求側ユーザに戻す。特に後者の場合、ユーザは、特定の検索結果に関して内容を調べるために1つまたは複数のリンクにアクセスすることができ、検索結果の1つまたは複数のリンクに関連する内容がユーザにとって許容できる場合、こうしたユーザは一般に、適切であると考えられるあらゆる方法でこうした許容可能な内容を使用し始める。
しかし、代わりに、少なくともこうしたユーザの観点から、その内容が要求された検索を満たさないという点で検索結果がユーザにとって許容できない場合もあり得る。こうした場合、ユーザは、新しい検索文字列または前に入力した検索文字列の変更を入力して、こうした新しいまたは変更された検索文字列に基づく検索エンジンからの検索結果を再度調べることを決定する場合がある。こうしたプロセスは、ユーザが許容できる検索結果を見つけ出すまで、検索セッションの形で何度か反復され得ることを理解されたい。
一般に高品質の検索エンジンでは、検索文字列に記載されたユ―ザからの各クエリは、クエリに回答する内容を表す検索結果に正確にマッピングされるべきである。こうした目標は、良質の検索体験を提供するのに欠かせないものであり、実際に、こうした目標を満たすことは、新しい検索セッションで検索エンジンに戻る、幸せで満足したユーザと、代わりに別の検索エンジンにアクセスする、憤慨した満足しないユーザとの間の差を表し得る。
しかし、検索文字列の検索結果へのこうしたマッピングは現在、大ざっぱに言えば、極めて文字通りの意味で各検索用語を使用するマッピングプロトコルに基づいて、大きいインデックスデータベース以外のものに関係なく行われている。したがって、検索文字列のマッピングは、外的な要因を考慮に入れない。
特に、こうしたマッピングは、他のユーザが、別の全検索セッションとの関連で同じまたは類似の検索文字列を以前入力しており、こうした別の全検索セッションとの関連で許容可能な検索結果の一部の組を選んだ可能性があることを考慮に入れない。こうした知識によって、問題のユーザからの検索文字列が別の全検索セッションからの許容可能な検索結果に少なくとも一部分基づいて応答される可能性があることは理解できよう。特に、別の全検索セッションからのこうした許容可能な検索結果は、問題の検索文字列に直接マッピングされない場合はあるが、少なくとも個々の事例で、別の全検索セッションからのこうした許容可能な検索結果は、実際には、こうした結果が同じまたは類似の検索文字列を入力した別のユーザをすでに満足させていることに基づいて問題のユーザからの検索文字列により適しているという証拠がある。
したがって、同じまたは類似の検索文字列を含んでいる別の全検索セッションからの許容可能な検索結果に少なくとも一部分基づいて検索文字列を検索結果にマッピングする検索エンジンおよびシステムが必要である。より詳細には、別の全検索セッションからのこうした許容可能な検索結果を識別し、同じまたは類似の検索文字列に基づいてこうした許容可能な検索結果を他の許容可能な検索結果とクラスタ化するシステムおよび方法が必要である。最後に、こうしたクラスタ化された検索結果を調べ、現在の検索文字列をクラスタ化された検索結果にマッピングするシステムおよび方法が必要である。
本発明は、このような状況に鑑みてなされたもので、その目的とするところは、意図ベースのクラスタを形成し、検索エンジンによってそれを使用して検索要求に応答する、複数の検索セッションを分析してその中の意図ベースのクラスタを識別する方法及び記録媒体を提供することにある。
上記の必要性は、複数の検索セッションを分析してその中の意図ベースのクラスタを識別する方法が提供される本発明によって少なくとも一部分満たされる。各セッションは、ユーザから受信した少なくとも1つのクエリおよび対応するゼロ個、1つ、またはそれ以上の戻された検索結果の組を含み、検索結果の各組は、少なくとも1つの内容を含むか、それを参照する。各クラスタは、共通の目的を表すものとして認識され、共通の1組の検索結果にマッピングすることができる1群の類似の検索セッションを表す。この方法では、検索セッションごとに、その受信された各クエリ、対応する1組の検索結果、および検索結果の任意の特定個の内容が対応する検索セッションに応答するものとしてユーザに許容可能であったかどうかが識別される。その後、検索セッションはクラスタに分けられる。
こうした分類を行う際に、複数のエントリを含む表が構築され、各エントリは、各セッションが表内の他のすべてのセッションと単一回で対となるように一意の対のセッションを表す。表のエントリごとに、そのセッションの対の共通性の強度が判断され、次いで表内のエントリは強度の高い順に再配列される。表内の各エントリは、再配列のときに調べられて、判断されたその強度に基づいて、その各セッションを意図ベースのクラスタに割り当てるかどうか、またそうである場合はどのようにして割り当てるかを決定する。
上記の概要、および本発明の実施形態の以下の詳細な説明は、添付の図面を併せ読めばより良く理解できる。本発明の例示のため、図面には現在好ましい実施形態を示している。しかし、本発明は、示した正確な構成または手段に限定されないことを理解されたい。
本発明によれば、意図ベースのクラスタを形成し、検索エンジンによってそれを使用して検索要求に応答することができる。
以下、図面を参照して本発明を適用できる実施形態を詳細に説明する。
コンピュータ環境
図1および以下の説明は、本発明および/またはその一部を実施できる適したコンピューティング環境の簡単な概説を提供するためのものである。必須ではないが、本発明は、クライアントワークステーションやサーバなど、コンピュータによって実行されるプログラムモジュールなどのコンピュータ実行可能命令の一般的な状況で説明する。一般にプログラムモジュールは、特定のタスクを実行する、または特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、構成要素、データ構造などを含む。さらに、本発明および/またはその一部は、ハンドヘルド装置、マルチプロセッサシステム、マイクロプロセッサベースまたはプログラム可能家庭用電化製品、ネットワークPC(personal computer)、ミニコンピュータ、メインフレームコンピュータなどを含む他のコンピュータシステム構成で実施できることを理解されたい。また、本発明は、タスクが通信ネットワークによってリンクされているリモート処理装置によって実行される分散コンピューティング環境でも実施することができる。分散コンピューティング環境では、プログラムモジュールを、ローカルおよびリモートのメモリ記憶装置に置くことができる。
図1に示すように、汎用コンピューティングシステム例は、プロセッサ121、システムメモリ122、およびシステムメモリを含む様々なシステム構成要素をプロセッサ121に結合するシステムバス123を含む従来のパーソナルコンピュータ120などを含む。システムバス123は、様々なバスアーキテクチャのうちの任意のものを使用するメモリバスまたはメモリコントローラ、周辺バス、およびローカルバスを含むいくつかのタイプのバス構造のうちどんなものでもよい。システムメモリは、読み取り専用メモリ(ROM)124およびランダムアクセスメモリ(RAM)125を含む。BIOS(Basic Input/Output System)126は、例えば起動中など、パーソナルコンピュータ120内の要素間での情報の転送を助ける基本ルーチンを含み、ROM124に格納されている。
パーソナルコンピュータ120は、ハードディスク(図示せず)から読み取り、あるいはそこに書き込むハードディスクドライブ127、取外式磁気ディスク129から読み取り、あるいはそこに書き込む磁気ディスクドライブ128、およびCD(compact disc)−ROMや他の光媒体など、取外式光ディスク131から読み取り、あるいはそこに書き込む光ディスクドライブ130をさらに含み得る。ハードディスクドライブ127、磁気ディスクドライブ128、および光ディスクドライブ130は、それぞれハードディスクドライブインタフェース132、磁気ディスクドライブインタフェース133、および光ディスクドライブインタフェース134によってシステムバス123に接続される。ドライブおよびその関連のコンピュータ可読媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、およびパーソナルコンピュータ120の他のデータの不揮発性記憶域を提供する。
本明細書に記載した環境例はハードディスク、取外式磁気ディスク129、取外式光ディスク131およびを使用するが、コンピュータによってアクセス可能なデータを格納することができる他のタイプのコンピュータ可読媒体を動作環境例で使用することもできることを理解されたい。こうした他のタイプの媒体は、磁気カセット、フラッシュメモリカード、デジタルビデオディスク、ベルヌーイカートリッジ、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)などを含む。
オペレーティングシステム135、1つまたは複数のアプリケーションプログラム136、他のプログラムモジュール137、およびプログラムデータ138を含めて、いくつかのプログラムモジュールをハードディスク、磁気ディスク129、光ディスク131、ROM124、またはRAM125に格納することができる。ユーザは、コマンドおよび情報をキーボード140およびポインティング装置142などの入力装置を介してパーソナルコンピュータ120に入力することができる。他の入力装置(図示せず)には、マイクロフォン、ジョイスティック、ゲームパッド、衛星パラボラアンテナ、スキャナなどがある。これらおよび他の入力装置は、しばしばシステムバスに結合されているシリアルポートインタフェース146を介してプロセッサ121に接続されるが、パラレルポート、ゲームポート、ユニバーサルシリアルバス(USB)など他のインタフェースで接続してもよい。モニタ147または他のタイプの表示装置もまた、ビデオアダプタ148などのインタフェースを介してシステムバス123に接続される。パーソナルコンピュータは一般に、モニタ147に加えて、スピーカやプリンタなどの他の周辺出力装置(図示せず)を含んでいる。図1のシステム例は、ホストアダプタ155、SCSI(small computer system interface)バス156、およびSCSIバス156に接続されている外部記憶装置162も含む。
パーソナルコンピュータ120は、リモートコンピュータ149など1つまたは複数のリモートコンピュータへの論理接続を使用してネットワーク式環境で動作することができる。リモートコンピュータ149は、別のパーソナルコンピュータ、サーバ、ルータ、ネットワークPC、ピア装置、または他の一般のネットワークノードでよく、一般にパーソナルコンピュータ120に関連して上述した多くまたはすべての要素を含むが、図1にはメモリ記憶装置150のみを示している。図1に示した論理接続は、ローカルエリアネットワーク(LAN)151および広域ネットワーク(WAN)152を含む。こうしたネットワーキング環境は、オフィス、全社規模のコンピュータネットワーク、イントラネット、およびインターネットではごく一般的である。
LANネットワーキング環境で使用する場合、パーソナルコンピュータ120は、ネットワークインタフェースまたはアダプタ153を介してLAN151に接続される。WANネットワーキング環境で使用する場合、パーソナルコンピュータ120は一般に、モデム154、またはインターネットなど広域ネットワーク152を介して通信を確立する他の手段を含む。モデム154は、内蔵のものでも外付けのものでもよく、シリアルポートインタフェース146を介してシステムバス123に接続される。ネットワーク式環境では、パーソナルコンピュータ120に関連して示したプログラムモジュール、またはその一部をリモートメモリ記憶装置に格納することができる。図示したネットワーク接続は例であり、コンピュータ間の通信リンクを確立する他の手段を使用してもよいことは理解されよう。
検索結果の意図ベースのクラスタ化
予備的に、また用語の問題として、本発明との関連で使用されるものなどの検索エンジンとの関連で、検索エンジンにアクセスする各ユーザは、おそらくブール演算子とともに1つまたは複数の検索用語を含む検索文字列を含むクエリを入力することによって検索を要求することを理解されたい。それに応答して、検索エンジンは、それに基づいて1組の検索結果を生成し、こうした検索結果を要求側ユーザに戻す。戻された検索結果が検索要求に関連していると思われる内容の特定の項目を含んでいる場合もあるが、代わりに内容の特定の各項目は、検索結果内の対応するリンクによってアクセスされる可能性が高い。
特に、戻された検索結果が許容されない場合、ユーザは、新しい検索文字列または前に入力した検索文字列の変更のいずれかで別のクエリを入力し、それによって別のクエリに基づいて検索エンジンから別の組の検索結果を生成することができる。次いで関連の一連のクエリは全検索セッションを含み、できればこうした全検索セッションは、ユーザが許容可能な検索結果を見つけ出したときに終了する。
ユーザが検索文字列を入力し、検索結果を調べる過程の間、図2を参照すると、検索エンジンまたは関連のエンティティは、こうした全検索セッションに関連するデータを識別し、格納することができ、しばしばそれらを行う。特に、全検索セッション12を識別することに加えて、検索エンジンまたは関連のエンティティ(以下「検索アナライザ10」と呼ぶ)は、中でも、全検索セッション12の各検索文字列14、検索文字列14ごとに戻された検索結果16を識別し、格納することができる。さらに、検索アナライザ10は、中でも、戻された各検索結果16の各リンク18ごとに、ユーザが関連の内容20にアクセスしたかどうか、またそれによってユーザがこうしたアクセスされた内容20を調べるのにどのぐらいの時間を費やしたかを識別し、格納することができる。したがって、検索アナライザ10、またはこうした情報を含む別のエンティティは、全検索セッション12から戻された検索結果16の各組に対してユーザがどれほど満足しているか、または「喜んでいるか」の、定量的でなければ定性的な測度を開発することができることを理解されたい。
上記の機能を実行する検索アナライザ10は、当業者に知られており、または当業者には明らかであるはずであり、したがって詳しく説明する必要はないことに留意されたい。したがって、任意の適切な検索アナライザ10を本発明とともに使用することができる。
クエリ14をセッション12に分類する検索アナライザ10の一例として、次のクエリ14、「車」、「フォード」、「フォードエドセル」、「安い休暇」、および「ロンドンの旅行価格」を検討する。各クエリ14は、ユーザが検索時に入力した実際のテキストであることを理解されたい。さらに、各クエリは、内容20へのリンク18を含む1組の検索結果16を生成し、検索アナライザ10によって、各リンク18が選択されたかどうか、関連の内容20を調べるのに費やした滞留時間、内容20に対してとられたスクロールや他のアクション、および他の類似のユーザの挙動など関連のデータが関連付けられている可能性がある。
上記のすべての情報に基づいて、ユーザが2つの個別の意図を有するように思われたという理由で、検索アナライザ10は、最初の3つのクエリ14(すなわち「車」、「フォード」、「フォードエドセル」)が第1の全検索セッション12の一部であり、最後の2つのクエリ14(すなわち「安い休暇」、「ロンドンの旅行価格」)が第2の全検索セッション12の一部であると認識するはずである。とはいえ、そのとき、セッション12は単一のユーザによって連続的に作られた同じ意図または目的を有するクエリ14のグループであると理解すべきである。
以下でより詳細に説明するように、検索アナライザ10によって行われる全検索セッションの分析に基づいて、本発明は、将来の検索要求により正確に対応するのに検索エンジンによって使用することができる意図ベースのクラスタ22を識別することができる。特に、本発明では、検索要求の検索結果へのマッピングは、すでに識別された意図ベースのクラスタ22に基づいて行われる。各クラスタ22は、単一の意図を表す。単一の意図は、この状況では、各クラスタ22は共通の目標または目的(すなわち意図)を有するものとして識別された関連の検索クエリ/文字列14の集まりであり、したがってほとんどのユーザがその意図に応答するのに許容可能であることが判明した内容20を含む1組の検索結果16で応答することができることを意味することを理解されたい。
こうした意図ベースのクラスタ22を使用して、検索エンジンは、特定のユーザからの特定の検索要求に応答して、インデックスデータベースを参照するだけではなく、実質的に、類似の検索クエリ14を使用する他のユーザが特定の組またはタイプの検索結果16で満足したため、特定の検索クエリ14を使用する特定のユーザが特定の組またはタイプの検索結果16でも満足するはずであると推定することによって、特定の検索要求に応答することができる。次いで、実質的に、意図ベースのクラスタ22は、検索クエリ14の意図を分割し、同じ意図を含む他の全検索セッション12の検索クエリ14に応答して以前許容されていた検索結果16を見つけることによって、検索クエリ14に応答するために検索エンジンによって使用される。
本発明の一実施形態において、図3を参照すると、検索アナライザ10は、中でも、複数の全検索セッション12、全検索セッション12ごとのその各検索文字列14、その検索文字列14について戻された検索結果16、戻された各検索結果16の各リンク18ごとに、ユーザが関連の内容20にアクセスしたかどうか、およびそれによってユーザがこうしたアクセスされた内容20を調べるのにどのぐらいの時間を費やしたかを識別する(ステップ301)。以下から理解できるように、全検索セッション12の数が増えるにつれてより良いクラスタ22が識別され、したがって全検索セッション12の数は、少なくともこうしたより良いクラスタ22を提供するのに十分なものとすべきである。
いずれにせよ、検索アナライザ10からのこうした情報で、こうした検索アナライザ10または他のエンティティは、各クラスタ22がユーザの挙動情報を得るために調べることができる意味上似ている1群の全検索セッション10を表すように、識別された全セッション12のそれぞれをクラスタ22に分類する(ステップ303)。したがって、こうした意図がすべて同じ目的または目標を表すものとして認識された場合、複数のユーザのそれぞれからの類似の意図は、単一のクラスタ22に分類することができる。
本発明の一実施形態で、セッション12をクラスタ22に分類することは、クエリ14内のテキストの共通性、および/または結果16についての判断の共通性に基づいて行われる。したがって、2つのクエリ14が類似している場合(前者の場合)、そのユーザは、同じ意図/目的/目標を有していた可能性があり、2つのクエリ14はかなり異なるが、それにも関わらずユーザが類似の結果16で満足する場合(後者の場合)でさえも、そのユーザは、同じ意図/目的/目標を有していた可能性がある。後者の場合に関して、ユーザは必ずしも同じ結果16で満足しなければならないわけではなく、代わりに同じ見解を有するだけでもよいことにも留意されたい。
次の例を検討する。
セッション1(S1)
クエリ1(Q1):「コンピュータの保護」
リンク1(L1):内容1(C1)で満足
セッション2(S)
クエリ2(Q2):「Basicでの印刷」
リンク2(L2):内容2(C2)では不満足
リンク3(L3):内容3(C3)では不満足
クエリ3(Q3):「Basicでの複数の文書の印刷」
リンク4(L4):内容4(C4)で満足
セッション3(S3)
クエリ4(Q4):「ファイアウォール」
リンク5(L5):内容5(C5)では不満足
リンク6(L6):内容6(C6)では不満足
クエリ5(Q5):「ファイアウォールを使用可能にする」
リンク7(L7):内容7(C7)では不満足
リンク8(L8):内容1(C1)で満足
セッション4(S4)
クエリ6(Q6):「Basicの印刷」
リンク9(L9):内容8(C8)では不満足
リンク10(R10):内容9(C9)で満足
本発明の一実施形態で、ステップ303のように、識別された全セッション12のそれぞれをクラスタ22に分類するために、まずその各エントリが1対のセッション12を表し、各セッション12が表内の他のすべてのセッション12と一度対になるように表が構築される(ステップ303a)。上記に基づいたこうした表の例は、次の通りである。
Figure 2006107467
その後、セッション12の各対の共通性の強度に基づいて定量/定性判断が行われる(ステップ303b)。特に、共通性の強度は、リンク先の内容(linked−to content)22によって表されるように、クエリ14内のテキストの上記の共通性、および/または結果16についての判断の共通性に基づいて判断される。こうした判断およびその基本原理の一例は次の通りである。
Figure 2006107467
ここでは、簡潔にするために、任意の共通性は、2の強度の判断をもたらすことに留意されたい。しかし、本発明の意図および範囲から逸脱することなく、他の強度判断値を使用することができ、またより広範な強度値を使用することができる。特に、一構成において、各強度は、内容値の重み付きの類似度および判断値の重み付きの類似度の合計として計算される。
また、セッションS1とS3との組合せには、いずれもが同じまたは類似の内容C1をもたらし、こうした内容C1は、両方のセッションS1およびS3で満足であることが判明したという事実に基づいて正の強度値が割り当てられていることに留意されたい。つまり、セッションS1およびS3は、リンク先の内容22によって表される結果16についての判断の共通性に基づいて共通性の正の強度を有すると判断された。さらに、セッションS2とS4との組合せには、両方が同じまたは類似のクエリ(Q2−「Basicでの印刷」およびQ6−「Basicの印刷」)を有するという事実に基づいて正の強度値が割り当てられていることに留意されたい。つまり、セッションS2およびS4は、クエリ14内のテキストの共通性に基づいて共通性の正の強度を有すると判断された。これは、Q2が満足と思われる内容22をもたらさなかった場合でさえ当てはまる。
表の各エントリに強度が割り当てられると、表内のエントリは、次のように、強度の高い順に再配列される(ステップ303c)。
Figure 2006107467
その後、表内のエントリは、再配列のときに調べられて、セッション12の各対を意図ベースのクラスタ22に割り当てるかどうか、そうである場合はどのように割り当てるかを決定する(ステップ303d)。一般に、表内のエントリごとに、そのセッション12が、定義されたある閾値を上回る判断済みの強度を有することによって最低限の共通性を有していることが判明した場合、エントリのこうしたセッション12の両方は、次のルールに従ってクラスタ22に割り当てられる。
− セッション12のうちの一方がすでにクラスタ22に割り当てられている場合、他方のセッション12は同じクラスタ22に割り当てられる。
− いずれのセッション12もすでにクラスタ22内にない場合、こうしたセッションは新しいクラスタ22に割り当てられる。
− 最後に、両方のセッション12がすでに個別のクラスタ22にある場合、何もしない。
最後の場合では、表がステップ303cで強度の高い順に再配列されたため、セッション12の個別のクラスタ22への以前の割り当てはより強い共通性に関係していたということに基づいて、何もしないことが好ましいことに留意されたい。
したがって、この例で、最低限の強度より大きいと仮定して、セッションS1およびS3および強度2という表の第1のエントリを最初に取り上げる。クラスタ22はまだ作成されていないため、S1もS3もクラスタ22に割り当てられていない。したがって、別の表で適切に確認することができる(下記参照)ように、S1およびS3は新しいクラスタCL1に割り当てられる。次に、セッションS2およびS4および強度2という表の第2のエントリを次に取り上げる。ここでは、クラスタCL1は作成されているが、S2もS4もCL1に割り当てられない。したがって、S2およびS4は、新しいクラスタCL2に割り当てられる。第3のエントリで最低限の強度に遭遇するまで、上記の表のエントリに対して、プロセスは続行することを理解されたい。こうした第3のエントリおよび残りのすべてのエントリは、最低限の共通性より小さいものを有するものとして無視することができ、結果として、セッション12が特定のクラスタ22にそれぞれ割り当てられた以下の表が得られる。
Figure 2006107467
第2のエントリと、セッションS1およびセッションS5およびゼロより大きい強度の第3のエントリとの間に追加のエントリが存在しており、したがってS1はすでにCL1に割り当てられており、S5はどのクラスタ22にも割り当てられていないため、S5はクラスタCL1に割り当てられていることに留意されたい。同様に、第2のエントリと、セッションS1およびセッションS2および強度1の第3のエントリとの間に追加のエントリが存在しており、したがって、2より大きい強度に基づいてS1はすでにS3とともにCL1に割り当てられており、2より大きい強度に基づいてS2はすでにS4とともにCL2に割り当てられているため、何も行われないことに留意されたい。
最後に、各クラスタ22は、クラスタ22の意図を満たすと思われる1組のリンク18および/または内容にマッピングされ、したがって同じ認識された意図を含むすべてのクエリ14がこうしたクラスタ22に基づいて正しくマッピングされる(ステップ303e)。本発明の意図および範囲から逸脱することなく、実際のマッピングを適切に行うことができる。例えば、こうしたマッピングは、任意の適した基準に基づいて手動および/または自動で生成することができる。例えば、直前に記載したクラスタ表、およびそのクエリ14およびクエリ16に基づいて、クラスタCL1にマッピングされるクエリ14は、CL1のS1のQ1およびCL1のS3のQ5を満たした内容C1で応答され得る。同様に、クラスタCL2にマッピングされるクエリ14は、CL2のS2のQ3を満たした内容C4、およびCL2のS4のQ9を満たした内容C9で応答され得る。
Figure 2006107467
各クラスタ22は、リンク18/内容20にマッピングされており、こうしたマッピングに基づくクエリ14への応答は、次の方法で行われることに留意されたい。ここでは、クエリ14の分析にクエリアナライザ(図2)が使用される。特に、受信されたクエリ14ごとに、クエリアナライザ24は、受信されたクエリを、すべてのクラスタ22のすべてのセッション12の以前のすべてのクエリ14と比較して、受信されたクエリ14が以前の任意のクエリ14と一致するかどうかを判定する(ステップ305)。こうした一致は、本発明の意図および範囲から逸脱することなく、適切に行うことができる。例えば、こうした一致は、各比較を得点し、次いで最高得点を有する比較済みの以前のクエリを一致として選択するステップを伴い得る。ただし、検索結果16に迅速に応答するために、クエリアナライザ24は、ほぼリアルタイムで動作すべきであることに留意されたい。こうした一致は、当業者に知られており、または当業者には明らかであるはずであり、したがって本明細書でさらに詳しく説明する必要はないことは理解されよう。
いずれにせよ、一致した以前のクエリ14について、その検索セッション12が識別され(ステップ307)、こうした識別された検索セッション12の割り当て先クラスタ22が識別され(ステップ309)、こうした識別されたクラスタ22のマッピング先リンク18および/または内容が識別され(ステップ311)、こうした識別されたリンク18および/または内容は受信されたクエリに応答を戻すのに使用される(ステップ313)。あるシナリオでは、クラスタ22内の検索文字列14のすべてが各クラスタ22の対応する内容20にマッピングされていることがある。次いで実行時、ユーザがクエリ14を実行すると、そのクエリ14のためのクエリ−内容マッピングが存在し、マッピングは、応答して戻すことができる関連の内容20をもたらす。こうしたシナリオでは、ステップ307〜311が回避される。
したがって、上記の例の続きとして、受信されたクエリ14が「ファイアウォールのセットアップ」であり、こうした受信されたクエリ14が上記S3のQ4(「ファイアウォール」)に一致することが判明した場合、S3はCL1に割り当てられ、CL1はC1にマッピングされているため、C1が戻され得る。このことは、単にQ4の一致によって受信されたクエリ14がそのセッションS3と同じ意図を有することが推定されるため、Q4がS3を満たすことが判明しなかった場合でさえ当てはまることに留意されたい。
本発明とともに使用されているクエリアナライザ24は、以前のクエリ14に受信されたクエリ14を一致させるのに、受信されたクエリ14のテキストのみではなくそれ以上を考慮に入れることができることに留意されたい。特に、クエリアナライザ24は、ユーザのタイプ、受信されたクエリが発信されたソースのタイプ、ユーザのマシンのタイプなどを含めて、他のタイプのデータおよびメタデータを考慮に入れることができる。当然、こうした追加の情報を考慮に入れることは、対応する情報の少なくとも一部が以前の各クエリ14との関連で使用可能であると推定する。
本発明は、大規模な汎用検索エンジンとの関連で適用することができるが、特にセッション12の数が増えるにつれて、クラスタ22のコンパイルおよび維持は抑制される可能性があることを理解されたい。したがって、おそらく無作為または意図的な選択、または特定の情報分野ごとに複数の組のセッション12を定義することによって、セッション12の数を限定することが望ましい。
結論
本発明は、任意のタイプまたはサイズの検索エンジンとの関連で、意図ベースのクラスタ22を構築し、使用することに関して実施することができる。本発明では、本明細書に記載したように、検索文字列14は、インデックスデータベース内の検索だけではなく、意図ベースのクラスタ22およびそれにマッピングされるリンク18および/または内容20によって表される検索文字列14の意図の判断に基づいて応答されることを理解されたい。
本発明とともに実行されるプロセスの実行に必要なプログラミングは、比較的簡単であり、関連のプログラミングの当業者には明らかであるはずである。したがって、こうしたプログラミングはここには添付されていない。したがって任意の特定のプログラミングを使用して本発明の意図および範囲から逸脱することなく、それを実行することができる。
上記の説明で、本発明は、同じまたは類似の検索文字列14を含んだ他の全検索セッション12からの許容可能な検索結果16に少なくとも一部分基づいて検索文字列14を検索結果16にマッピングする新しく有用なシステムを含むことがわかる。システムは、別の全検索セッション12からのこうした許容可能な検索結果16を識別し、同じまたは類似の検索文字列14に基づいてこうした許容可能な検索結果16を他の許容可能な検索結果16とクラスタ化し、こうしたクラスタ化された検索結果16を調べ、現在の検索文字列14を検索結果にマッピングする。
その発明の概念から逸脱することなく上述した実施形態に変更を加えることができることを理解されたい。したがって一般に、本発明は、開示した特定の実施形態に限定されるものではなく、添付の特許請求の範囲によって定義された本発明の意図および範囲内の変更をカバーするものとすることを理解されたい。
本発明の態様および/またはその一部分を組み込むことができる汎用コンピュータシステムを表すブロック図である。 本発明の一実施形態による、検索セッション、検索文字列、およびその検索結果を検出する検索アナライザ、および検索結果およびその識別されたクラスタを使用するクエリアナライザを示すブロック図である。 本発明の一実施形態による、図2の要素によって、またそれと関連して実行される主なステップを示すフローチャートである。
符号の説明
10 検索アナライザ
12 全検索セッション
14 検索文字列
16 検索結果
18 リンク
20 内容
22 クラスタ
24 クエリアナライザ

Claims (19)

  1. 複数の検索セッションを分析してその中の意図ベースのクラスタを識別する方法であって、各セッションはユーザから受信された少なくとも1つのクエリおよび対応する1組の戻された検索結果を含み、検索結果の各組は少なくとも1つの内容を含むか、それを参照し、各クラスタは、共通の目的を表すものとして認識され、共通の1組の検索結果にマッピングすることができる1群の類似の検索セッションを表し、前記方法は、
    検索セッションごとに、その受信された各クエリ、前記対応する1組の検索結果、および前記検索結果の任意の特定個の内容が前記対応する検索結果に応答するものとして前記ユーザに許容可能であったかどうかを識別するステップと、
    クエリ内のテキストの共通性、および検索結果についての判断の共通性のうちの少なくとも一方に基づいて検索セッションをクラスタに分類するステップであって、
    各セッションが前記表内の他のすべてのセッションと単一回対となるように一意の対のセッションをそれぞれ表す複数のエントリを含む表を構築するステップと、
    前記表のエントリごとに、そのセッションの前記1対の共通性の強度を判断するステップと、
    強度の高い順に前記表内の前記エントリを再配列するステップと、
    再配列のときに前記表内の各エントリを調べて、前記判断されたその強度に基づいて、その各セッションを意図ベースのクラスタに割り当てるかどうか、またそうである場合はどのようにして割り当てるかを決定するステップと
    を含むステップと
    を備えることを特徴とする方法。
  2. 前記ユーザが前記1つの内容にアクセスしたかどうか、および前記ユーザがこうした1つの内容を調べるのにどのぐらいの時間を費やしたかを含む要因に基づいて前記ユーザに許容可能な前記検索結果の任意の特定個の内容を識別するステップを備えることを特徴とする請求項1に記載の方法。
  3. 前記表のエントリごとに、その前記1対のセッションの共通性の強度を判断するステップであって、より大きい強度はより高い値として表されるステップを備えることを特徴とする請求項1に記載の方法。
  4. 前記デーブルのエントリごとに、その前記1対のセッションの共通性の強度を判断するステップであって、各強度はテキスト値の重み付きの共通性と判断値の重み付きの共通性との合計として計算されるステップを備えることを特徴とする請求項1に記載の方法。
  5. 前記表のエントリごとに、その前記1対のセッションの共通性の強度を判断するステップであって、各強度は、前記1対のセッションが両方のセッションで類似の判断を呼び出すことが判明した同じまたは類似の内容をもたらしたかどうかに少なくとも一部分基づくステップを備えることを特徴とする請求項1に記載の方法。
  6. 前記表のエントリごとに、その前記1対のセッションの共通性の強度を判断するステップであって、各強度は、前記1対のセッションが同じまたは類似のクエリを有していたかどうかに少なくとも一部分基づくステップを備えることを特徴とする請求項1に記載の方法。
  7. 再配列のときに前記表内の各エントリを調べて、定義された閾値を上回る判断済みの強度を有することによって、その前記セッションが最低限の共通性を有することが判明しているかどうかを前記表内のエントリごとに決定し、そうである場合は、
    前記セッションのうちの一方がすでにクラスタに割り当てられている場合、他方のセッションは同じクラスタに割り当てられる
    セッションがすでにクラスタにない場合、こうしたセッションは新しいクラスタに割り当てられる
    両方のセッションがすでに個別のクラスタにある場合、何もしない
    というルールに従ってクラスタに前記エントリのこうしたセッションの両方を割り当てることによって、各セッションを意図ベースのクラスタに割り当てるかどうかを決定するステップを備えることを特徴とする請求項1に記載の方法。
  8. 各クラスタを、そのようなクラスタの前記共通の目的を満たすと思われる共通の1組の検索結果にマッピングし、それにより同じ共通の目的を持つすべてのクエリがそのようなクラスタに基づいて正しくマッピングされるようにするステップをさらに備えることを特徴とする請求項1に記載の方法。
  9. クエリ内のテキストの共通性、および検索結果についての判断の共通性のうちの少なくとも一方に基づいて検索セッションをクラスタに分類するステップを備えることを特徴とする請求項1に記載の方法。
  10. 複数の検索セッションを分析して、その中の意図ベースのクラスタを識別する方法を実行するコンピュータ実行可能命令を格納するコンピュータ読み取り可能な記録媒体であって、各セッションはユーザから受信された少なくとも1つのクエリおよび対応する1組の戻された検索結果を含み、検索結果の各組は少なくとも1つの内容を含むか、それを参照し、各クラスタは、共通の目的を表すものとして認識され、共通の1組の検索結果にマッピングすることができる1群の類似の検索セッションを表し、前記方法は、
    検索セッションごとに、その受信された各クエリ、前記対応する1組の検索結果、および前記検索結果の任意の特定個の内容が前記対応する検索結果に応答するものとして前記ユーザに許容可能であったかどうかを識別するステップと、
    クエリ内のテキストの共通性、および検索結果についての判断の共通性のうちの少なくとも一方に基づいて検索セッションをクラスタに分類するステップであって、
    各セッションが前記表内の他のすべてのセッションと単一回で対となるように一意の1対のセッションをそれぞれ表す複数のエントリを含む表を構築するステップと、
    前記表のエントリごとに、前記1対のセッションの共通性の強度を判断するステップと、
    強度の高い順に前記表内の前記エントリを再配列するステップと、
    再配列のときに前記表内の各エントリを調べて、前記判断されたその強度に基づいて、その各セッションを意図ベースのクラスタに割り当てるかどうか、またそうである場合はどのようにして割り当てるかを決定するステップと
    を含むステップと
    を含むことを特徴とするコンピュータ読み取り可能なコンピュータ読み取り可能な記録媒体。
  11. 前記方法は、前記ユーザが前記1つの内容にアクセスしたかどうか、および前記ユーザがこうした1つの内容を調べるのにどのぐらいの時間を費やしたかを含む要因に基づいて前記ユーザに許容可能な前記検索結果の任意の特定個の内容を識別するステップを含むことを特徴とする請求項10に記載のコンピュータ読み取り可能な記録媒体。
  12. 前記方法は、前記表のエントリごとに、その前記1対のセッションの共通性の強度を判断するステップであって、より大きい強度はより高い値として表されるステップを含むことを特徴とする請求項10に記載のコンピュータ読み取り可能な記録媒体。
  13. 前記方法は、前記デーブルのエントリごとに、その前記1対のセッションの共通性の強度を判断するステップであって、各強度はテキスト値の重み付きの共通性と判断値の重み付きの共通性との合計として計算されるステップを備えることを特徴とする請求項10に記載のコンピュータ読み取り可能な記録媒体。
  14. 前記方法は、前記表のエントリごとに、その前記1対のセッションの共通性の強度を判断するステップであって、各強度は、前記1対のセッションが両方のセッションで類似の判断を呼び出すことが判明した同じまたは類似の内容をもたらしたかどうかに少なくとも一部分基づくステップを備えることを特徴とする請求項10に記載のコンピュータ読み取り可能な記録媒体。
  15. 前記方法は、前記表のエントリごとに、その前記1対のセッションの共通性の強度を判断するステップであって、各強度は、前記1対のセッションが同じまたは類似のクエリを有していたかどうかに少なくとも一部分基づくステップを備えることを特徴とする請求項10に記載のコンピュータ読み取り可能な記録媒体。
  16. 前記方法は、再配列のときに前記表内の各エントリを調べて、定義された閾値を上回る判断済みの強度を有することによって、その前記セッションが最低限の共通性を有することが判明しているかどうかを前記表内のエントリごとに決定し、そうである場合は、
    前記セッションのうちの一方がすでにクラスタに割り当てられている場合、他方のセッションは同じクラスタに割り当てられる
    セッションがすでにクラスタにない場合、こうしたセッションは新しいクラスタに割り当てられる
    両方のセッションがすでに個別のクラスタにある場合、何もしない
    というルールに従ってクラスタに前記エントリのこうしたセッションの両方を割り当てることによって、各セッションを意図ベースのクラスタに割り当てるかどうかを決定するステップを備えることを特徴とする請求項10に記載のコンピュータ読み取り可能な記録媒体。
  17. 前記方法は、各クラスタを、こうしたクラスタの前記共通の目的を満たすと思われる共通の1組の検索結果にマッピングし、したがって同じ共通の目的を持つすべてのクエリがこうしたクラスタに基づいて正しくマッピングされるようにするステップをさらに備えることを特徴とする請求項10に記載のコンピュータ読み取り可能な記録媒体。
  18. 前記方法は、クエリ内のテキストの共通性、および検索結果についての判断の共通性のうちの少なくとも一方に基づいて検索セッションをクラスタに分類するステップを備えることを特徴とする請求項10に記載のコンピュータ読み取り可能な記録媒体。
  19. クラスタの内容へのマッピングに基づいて受信されたクエリに応答する方法であって、各クラスタは、共通の目的を表すものとして認識され、共通の1組の検索結果にマッピングすることができる1群の類似の検索セッションを表し、各セッションはユーザから受信された少なくとも1つのクエリおよび対応する1組の戻された検索結果を含み、検索結果の各組は少なくとも1つの内容を含むか、それを参照し、前記方法は、
    前記受信されたクエリをクラスタのセッションの以前のクエリと比較することによって前記受信されたクエリを分析して前記受信されたクエリが一致する以前のクエリを判定するステップと、
    前記一致した以前のクエリの前記セッションを識別するステップと、
    前記識別されたセッションの前記クラスタを識別するステップと、
    前記識別されたクラスタの前記マッピング先内容を識別するステップと、
    前記受信されたクエリに応答を戻すのに前記マッピング先内容を使用するステップと
    を備えることを特徴とする方法。
JP2005257894A 2004-09-30 2005-09-06 複数の検索セッションを分析してその中の意図ベースのクラスタを識別する方法及び記録媒体 Expired - Fee Related JP4806238B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/955,593 US7657519B2 (en) 2004-09-30 2004-09-30 Forming intent-based clusters and employing same by search
US10/955,593 2004-09-30

Publications (2)

Publication Number Publication Date
JP2006107467A true JP2006107467A (ja) 2006-04-20
JP4806238B2 JP4806238B2 (ja) 2011-11-02

Family

ID=35517494

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005257894A Expired - Fee Related JP4806238B2 (ja) 2004-09-30 2005-09-06 複数の検索セッションを分析してその中の意図ベースのクラスタを識別する方法及び記録媒体

Country Status (5)

Country Link
US (1) US7657519B2 (ja)
EP (1) EP1643390A1 (ja)
JP (1) JP4806238B2 (ja)
KR (1) KR101213897B1 (ja)
CN (1) CN1755687A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011085992A (ja) * 2009-10-13 2011-04-28 Nippon Telegr & Teleph Corp <Ntt> 文書検索装置、文書検索方法、文書検索プログラム
WO2016147401A1 (ja) * 2015-03-19 2016-09-22 株式会社 東芝 分類装置、方法及びプログラム
JP2020102035A (ja) * 2018-12-21 2020-07-02 富士ゼロックス株式会社 情報処理装置及びプログラム

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7325159B2 (en) * 2004-02-04 2008-01-29 Network Appliance, Inc. Method and system for data recovery in a continuous data protection system
US20080066107A1 (en) 2006-09-12 2008-03-13 Google Inc. Using Viewing Signals in Targeted Video Advertising
US8667532B2 (en) 2007-04-18 2014-03-04 Google Inc. Content recognition for targeting video advertisements
CN100495408C (zh) * 2007-06-22 2009-06-03 中国科学院研究生院 一种文本聚类元学习方法及装置
US20080319975A1 (en) * 2007-06-22 2008-12-25 Microsoft Corporation Exploratory Search Technique
US20090006358A1 (en) * 2007-06-27 2009-01-01 Microsoft Corporation Search results
US8433611B2 (en) * 2007-06-27 2013-04-30 Google Inc. Selection of advertisements for placement with content
US8037046B2 (en) * 2007-06-29 2011-10-11 Microsoft Corporation Collecting and presenting temporal-based action information
US9064024B2 (en) 2007-08-21 2015-06-23 Google Inc. Bundle generation
US9824372B1 (en) 2008-02-11 2017-11-21 Google Llc Associating advertisements with videos
US9330165B2 (en) * 2009-02-13 2016-05-03 Microsoft Technology Licensing, Llc Context-aware query suggestion by mining log data
US8190601B2 (en) * 2009-05-22 2012-05-29 Microsoft Corporation Identifying task groups for organizing search results
US8745039B2 (en) 2009-09-25 2014-06-03 International Business Machines Corporation Method and system for user guided search navigation
US9152708B1 (en) 2009-12-14 2015-10-06 Google Inc. Target-video specific co-watched video clusters
US20110208730A1 (en) * 2010-02-23 2011-08-25 Microsoft Corporation Context-aware searching
US8868548B2 (en) * 2010-07-22 2014-10-21 Google Inc. Determining user intent from query patterns
CN102479223B (zh) * 2010-11-25 2014-06-04 中国移动通信集团浙江有限公司 数据查询方法及系统
US9460419B2 (en) 2010-12-17 2016-10-04 Microsoft Technology Licensing, Llc Structuring unstructured web data using crowdsourcing
US9043350B2 (en) 2011-09-22 2015-05-26 Microsoft Technology Licensing, Llc Providing topic based search guidance
CN103136223B (zh) * 2011-11-24 2016-11-16 北京百度网讯科技有限公司 一种挖掘具有相似需求的查询的方法及装置
US9659093B1 (en) * 2012-04-02 2017-05-23 Google Inc. Adaptive recommendations of user-generated mediasets
US9183310B2 (en) * 2012-06-12 2015-11-10 Microsoft Technology Licensing, Llc Disambiguating intents within search engine result pages
US9104905B2 (en) * 2013-05-02 2015-08-11 Emotient, Inc. Automatic analysis of individual preferences for attractiveness
US10346753B2 (en) 2013-10-28 2019-07-09 Nant Holdings Ip, Llc Intent engines, systems and method
US9286410B2 (en) 2013-11-07 2016-03-15 Ricoh Company, Ltd. Electronic document retrieval and reporting using pre-specified word/operator combinations
US9600479B2 (en) * 2014-01-31 2017-03-21 Ricoh Company, Ltd. Electronic document retrieval and reporting with review cost and/or time estimation
WO2015106287A1 (en) 2014-01-13 2015-07-16 Nant Holdings Ip, Llc Sentiments based transaction systems and methods
US9449000B2 (en) 2014-01-31 2016-09-20 Ricoh Company, Ltd. Electronic document retrieval and reporting using tagging analysis and/or logical custodians
US9348917B2 (en) 2014-01-31 2016-05-24 Ricoh Company, Ltd. Electronic document retrieval and reporting using intelligent advanced searching
US9934306B2 (en) * 2014-05-12 2018-04-03 Microsoft Technology Licensing, Llc Identifying query intent
US10242088B2 (en) * 2014-09-18 2019-03-26 Microsoft Technology Licensing, Llc Multi-source search
US20170293625A1 (en) * 2014-10-02 2017-10-12 Hewlett-Packard Development Company, L.P. Intent based clustering
US10289961B2 (en) 2014-11-24 2019-05-14 International Business Machines Corporation Presenting anticipated user search query results prompted by a trigger
US9892167B2 (en) * 2015-03-31 2018-02-13 Rovi Guides, Inc. Methods and systems for generating cluster-based search results
CN107315731A (zh) * 2016-04-27 2017-11-03 北京京东尚科信息技术有限公司 文本相似度计算方法
US10503739B2 (en) * 2017-04-20 2019-12-10 Breville USA, Inc. Crowdsourcing responses in a query processing system
CN108024142B (zh) * 2017-12-05 2020-10-30 深圳市茁壮网络股份有限公司 一种视频流检测方法及系统
US11481558B2 (en) 2018-09-12 2022-10-25 Samsung Electroncis Co., Ltd. System and method for a scene builder
CN112035626A (zh) * 2020-07-06 2020-12-04 北海淇诚信息科技有限公司 一种大规模意图的快速识别方法、装置和电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1055369A (ja) * 1996-08-09 1998-02-24 Fuji Xerox Co Ltd 情報検索システム及び情報検索方法
JP2001344276A (ja) * 2000-06-02 2001-12-14 Hitachi Ltd 文書検索方法および装置並びにその処理プログラムを記録した記録媒体
JP2002140361A (ja) * 2000-10-31 2002-05-17 Hitachi Ltd 文書検索方法、文書検索装置及び文書検索プログラムの記憶媒体
JP2002236699A (ja) * 2001-02-09 2002-08-23 Asahi Kasei Corp 情報検索システム及び管理用サーバ並びに制御用プログラム
JP2004078618A (ja) * 2002-08-19 2004-03-11 Nippon Telegr & Teleph Corp <Ntt> 入力単語候補を推薦する情報検索システム
JP2004252911A (ja) * 2002-08-23 2004-09-09 Toshiba Corp 検索キーワード分析プログラム及びシステム並びに方法

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6076051A (en) * 1997-03-07 2000-06-13 Microsoft Corporation Information retrieval utilizing semantic representation of text
US6012053A (en) * 1997-06-23 2000-01-04 Lycos, Inc. Computer system with user-controlled relevance ranking of search results
ATE263988T1 (de) * 1998-06-08 2004-04-15 Kcsl Inc Methode und verfahren um relevante dokumente in einer datenbank zu finden
IL126373A (en) * 1998-09-27 2003-06-24 Haim Zvi Melman Apparatus and method for search and retrieval of documents
US6347313B1 (en) * 1999-03-01 2002-02-12 Hewlett-Packard Company Information embedding based on user relevance feedback for object retrieval
US6636853B1 (en) * 1999-08-30 2003-10-21 Morphism, Llc Method and apparatus for representing and navigating search results
US6324534B1 (en) * 1999-09-10 2001-11-27 Requisite Technology, Inc. Sequential subset catalog search engine
US6681247B1 (en) * 1999-10-18 2004-01-20 Hrl Laboratories, Llc Collaborator discovery method and system
US6487553B1 (en) * 2000-01-05 2002-11-26 International Business Machines Corporation Method for reducing search results by manually or automatically excluding previously presented search results
US6556983B1 (en) * 2000-01-12 2003-04-29 Microsoft Corporation Methods and apparatus for finding semantic information, such as usage logs, similar to a query using a pattern lattice data space
US6546388B1 (en) * 2000-01-14 2003-04-08 International Business Machines Corporation Metadata search results ranking system
US6311194B1 (en) * 2000-03-15 2001-10-30 Taalee, Inc. System and method for creating a semantic web and its applications in browsing, searching, profiling, personalization and advertising
US6728932B1 (en) * 2000-03-22 2004-04-27 Hewlett-Packard Development Company, L.P. Document clustering method and system
US6499029B1 (en) * 2000-03-29 2002-12-24 Koninklijke Philips Electronics N.V. User interface providing automatic organization and filtering of search criteria
US6671681B1 (en) * 2000-05-31 2003-12-30 International Business Machines Corporation System and technique for suggesting alternate query expressions based on prior user selections and their query strings
US6640218B1 (en) * 2000-06-02 2003-10-28 Lycos, Inc. Estimating the usefulness of an item in a collection of information
US6687696B2 (en) * 2000-07-26 2004-02-03 Recommind Inc. System and method for personalized search, information filtering, and for generating recommendations utilizing statistical latent class models
US6832218B1 (en) * 2000-09-22 2004-12-14 International Business Machines Corporation System and method for associating search results
US7194454B2 (en) 2001-03-12 2007-03-20 Lucent Technologies Method for organizing records of database search activity by topical relevance
US20020169770A1 (en) * 2001-04-27 2002-11-14 Kim Brian Seong-Gon Apparatus and method that categorize a collection of documents into a hierarchy of categories that are defined by the collection of documents
US6741990B2 (en) * 2001-05-23 2004-05-25 Intel Corporation System and method for efficient and adaptive web accesses filtering
US6901411B2 (en) * 2002-02-11 2005-05-31 Microsoft Corporation Statistical bigram correlation model for image retrieval
US6944612B2 (en) * 2002-11-13 2005-09-13 Xerox Corporation Structured contextual clustering method and system in a federated search engine
US20050060287A1 (en) * 2003-05-16 2005-03-17 Hellman Ziv Z. System and method for automatic clustering, sub-clustering and cluster hierarchization of search results in cross-referenced databases using articulation nodes
US7617202B2 (en) * 2003-06-16 2009-11-10 Microsoft Corporation Systems and methods that employ a distributional analysis on a query log to improve search results
US7225184B2 (en) * 2003-07-18 2007-05-29 Overture Services, Inc. Disambiguation of search phrases using interpretation clusters
US8346770B2 (en) * 2003-09-22 2013-01-01 Google Inc. Systems and methods for clustering search results
GB0322877D0 (en) * 2003-09-30 2003-10-29 British Telecomm Search system and method
US7451131B2 (en) * 2003-12-08 2008-11-11 Iac Search & Media, Inc. Methods and systems for providing a response to a query
US7181447B2 (en) * 2003-12-08 2007-02-20 Iac Search And Media, Inc. Methods and systems for conceptually organizing and presenting information
US7617176B2 (en) * 2004-07-13 2009-11-10 Microsoft Corporation Query-based snippet clustering for search result grouping
US8572233B2 (en) * 2004-07-15 2013-10-29 Hewlett-Packard Development Company, L.P. Method and system for site path evaluation using web session clustering

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1055369A (ja) * 1996-08-09 1998-02-24 Fuji Xerox Co Ltd 情報検索システム及び情報検索方法
JP2001344276A (ja) * 2000-06-02 2001-12-14 Hitachi Ltd 文書検索方法および装置並びにその処理プログラムを記録した記録媒体
JP2002140361A (ja) * 2000-10-31 2002-05-17 Hitachi Ltd 文書検索方法、文書検索装置及び文書検索プログラムの記憶媒体
JP2002236699A (ja) * 2001-02-09 2002-08-23 Asahi Kasei Corp 情報検索システム及び管理用サーバ並びに制御用プログラム
JP2004078618A (ja) * 2002-08-19 2004-03-11 Nippon Telegr & Teleph Corp <Ntt> 入力単語候補を推薦する情報検索システム
JP2004252911A (ja) * 2002-08-23 2004-09-09 Toshiba Corp 検索キーワード分析プログラム及びシステム並びに方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
大塚 真吾、外2名: "ウェブコミュニティを用いたパネルログ解析システムの構築", 電子情報通信学会技術研究報告, vol. 第103巻,192号, JPN6010074472, 18 July 2003 (2003-07-18), JP, pages 79 - 84, ISSN: 0001983983 *
川前 徳章、外2名: "ユーザ履歴を活用した検索システム", 情報処理学会研究報告, vol. 第2000巻,第69号, JPN6010074470, 26 July 2000 (2000-07-26), JP, pages 113 - 120, ISSN: 0001983981 *
戸田 誠二、外1名: "LCSを用いたWebログ解析におけるスケーラビリティの向上", 情報処理学会研究報告, vol. 第2003巻,第72号, JPN6010074473, 18 July 2003 (2003-07-18), JP, pages 93 - 100, ISSN: 0001983984 *
神嶌 敏弘: "データマイニング分野のクラスタリング手法(1)", 人工知能学会誌, vol. 第18巻,第1号, JPN6010074471, 1 January 2003 (2003-01-01), JP, pages 59 - 65, ISSN: 0001983982 *
高橋 克巳、外2名: "位置指向のWebログマイニング", 情報処理学会研究報告, vol. 第2004巻,第71号, JPN6010074475, 13 July 2004 (2004-07-13), JP, pages 9 - 15, ISSN: 0001983985 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011085992A (ja) * 2009-10-13 2011-04-28 Nippon Telegr & Teleph Corp <Ntt> 文書検索装置、文書検索方法、文書検索プログラム
WO2016147401A1 (ja) * 2015-03-19 2016-09-22 株式会社 東芝 分類装置、方法及びプログラム
JPWO2016147401A1 (ja) * 2015-03-19 2017-06-08 株式会社東芝 分類装置、方法及びプログラム
US11163812B2 (en) 2015-03-19 2021-11-02 Kabushiki Kaisha Toshiba Classification apparatus and classification method
JP2020102035A (ja) * 2018-12-21 2020-07-02 富士ゼロックス株式会社 情報処理装置及びプログラム
JP7346818B2 (ja) 2018-12-21 2023-09-20 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム

Also Published As

Publication number Publication date
EP1643390A1 (en) 2006-04-05
CN1755687A (zh) 2006-04-05
US20060074902A1 (en) 2006-04-06
US7657519B2 (en) 2010-02-02
JP4806238B2 (ja) 2011-11-02
KR101213897B1 (ko) 2012-12-18
KR20060050440A (ko) 2006-05-19

Similar Documents

Publication Publication Date Title
JP4806238B2 (ja) 複数の検索セッションを分析してその中の意図ベースのクラスタを識別する方法及び記録媒体
US8868559B2 (en) Representative document selection for a set of duplicate documents
US6560588B1 (en) Method and apparatus for identifying items of information from a multi-user information system
US6424973B1 (en) Search system and method based on multiple ontologies
US8661034B2 (en) Bimodal recommendation engine for recommending items and peers
US7496567B1 (en) System and method for document categorization
JP4627656B2 (ja) 動的コンテンツクラスタリング
US8949256B2 (en) System and method for identifying an owner of a web page on the World-Wide Web
EP1600861A2 (en) Query to task mapping
US7895210B2 (en) Methods and apparatuses for information analysis on shared and distributed computing systems
US20040078359A1 (en) System and method for presenting a query expressed in terms of an object model
JPH11338881A (ja) 求人求職仲介システム
JP2006120129A (ja) 検索システムまたはその類似物からの動作データおよびその他のデータの分析
US8392422B2 (en) Automated boolean expression generation for computerized search and indexing
US9424340B1 (en) Detection of proxy pad sites
JP2010514026A (ja) ウェブページの分類とそのコンテンツの整理をするための方法
JPH11338882A (ja) 求職者が求人データベースを検索する際の入力案内プロセスに特徴を有する求人求職仲介システム
Oyama et al. Keyword spices: A new method for building domain-specific web search engines
Glover et al. Recommending web documents based on user preferences
JPH11338880A (ja) 求人求職仲介システム
CN111222032A (zh) 舆情分析方法及相关设备
Vasilyeva et al. Leveraging flexible data management with graph databases
US20040117357A1 (en) Method, system and program product for identifying similar user profiles in a collection
US20050071333A1 (en) Method for determining synthetic term senses using reference text
US7657417B2 (en) Method, system and machine readable medium for publishing documents using an ontological modeling system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080905

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110328

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20110411

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110412

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110411

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110711

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110805

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110812

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4806238

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140819

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees