JP4994243B2 - クエリの自動的カテゴリ化による検索処理 - Google Patents

クエリの自動的カテゴリ化による検索処理 Download PDF

Info

Publication number
JP4994243B2
JP4994243B2 JP2007544444A JP2007544444A JP4994243B2 JP 4994243 B2 JP4994243 B2 JP 4994243B2 JP 2007544444 A JP2007544444 A JP 2007544444A JP 2007544444 A JP2007544444 A JP 2007544444A JP 4994243 B2 JP4994243 B2 JP 4994243B2
Authority
JP
Japan
Prior art keywords
query
category
queries
search
units
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007544444A
Other languages
English (en)
Other versions
JP2008523469A (ja
Inventor
カプール,シャム
パリーク,ジグナシュ
ディーパ,ジョシ
Original Assignee
ヤフー! インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヤフー! インコーポレイテッド filed Critical ヤフー! インコーポレイテッド
Publication of JP2008523469A publication Critical patent/JP2008523469A/ja
Application granted granted Critical
Publication of JP4994243B2 publication Critical patent/JP4994243B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • G06F16/3326Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

発明の背景
この発明は一般的にネットワークおよびインターネット検索ならびにインターフェイスシステムに関し、より特定的には、検索クエリが1つ以上の分類法に従って自動的にカテゴリ化され、分類法が過去のクエリおよび/またはクエリに関するユーザの行為から自動的に生成され得る機能を含む、増強された検索機能を提供する検索システムに関する。
インターネットならびにワールドワイドウェブ(ウェブ)上でユーザに利用可能である多数のウェブページおよび媒体コンテンツの到来によって、ウェブをフィルタして所望の情報を得るための能率化されたアプローチをユーザに与える必要が出てきた。所望の情報を得るというユーザの必要を満たすため、検索システムおよびプロセスが開発されている。そのような技術の例は、ヤフー(Yahoo!)、グーグル(Google)および他のサイトを通してアクセスすることができる。典型的には、ユーザが1つのクエリを入力すると、検索プロセスが(ウェブ探索の場合)1つ以上のリンク、文書、および/または(異なる検索コーパスの場合)クエリと関連する参照を返す。返されたリンクはユーザが実際に捜していたものと密接に関連しているかもしれず、または全く無関係かもしれない。クエリ結果の「関連性」は、ある部分において、入力された実際のクエリの関数(function)であり得るのと同様に、用いられる検索システム(基礎となる収集システム)のロバスト性の関数(function)でもあり得る。関連性は、ユーザによって主観的に判断されても、またはユーザが捜していたであろうものにより客観的に判断されてもよい。
ユーザが入力するクエリは、典型的には1つ以上の単語でできている。例えば、「ハワイ(hawaii)」はクエリであり、「ニューヨーク市(new york city)」も、「ニューヨーク市の法執行(new york city law enforcement)」もクエリである。このように、クエリは全体として人間の脳に欠かせないものではない。換言すれば、人間は当然にはクエリでは考えない。クエリは、ある部分において、検索エンジンに問合せたりライブラリカタログを調べたりする必要に迫られて押付けられた、人為的な構成体である。人間はまた、当然には1つのみの単語でも考えない。人間の考え方は自然な概念である。例えば、「ハワイ」および「ニューヨーク市」は、単語の数によって測定された長さにおいて大いに異なるクエリであるが、それらは1つの重要な特性を共有する。それらは各々1つの概念から構成される。しかしながら「ニューヨーク市の法執行」は違う。なぜならそれは2つの別個の概念「ニューヨーク市」および「法執行」から構成されるからである。
人間はまた、概念間の論理関係によっても考える。例えば、警察が法執行の重要な機関であるので、「法執行」と「警察」とは関連のある概念である。これらの概念のうち一方を入力するユーザは、他方の概念に関連するサイトがたとえユーザがたまたま入力した特定の単語または句を含まないサイトであったとしても、そのサイトに興味を持つかもしれない。このような思考パターンの結果、人間は生来、単にさまざまな長さの単一の単語の連続ではなく、1つ以上の自然な概念を入力することによってクエリを構築する。そして一般にクエリは、ユーザが認識しているであろう関連概念のすべてを含んでいるわけではない。また、ユーザの意図はクエリの個々の単語に必ずしも反映されていない。例えば、「法執行」は1つの概念である一方で、別個の単語「法」および「執行」は、それらの単語が組み合わされた場合と同じユーザの意図を、個々に伝えるわけではない。
検索プロバイダによって用いられる現在の技術は、人間がクエリを作成するのと同じやり方でクエリを理解するわけではない。例えば、既存の検索エンジンは一般にユーザが入力した単語または句そのままを検索するのであって、ユーザが実際に思い描いていた、根底にある自然な概念または関連概念を検索するのではない。これは恐らく、検索プロバイダがユーザの意図を識別し、最適な検索結果およびコンテンツを与えるのを妨げる、最も重要な理由である。
これからわかるように、ユーザが興味を持っているであろう実際の概念により合致した結果とユーザのよりよい経験とをもたらすことを支援する、改良された検索およびインターフェイス技術が必要とされている。
発明の概要
本発明の実施例は検索要求を処理するためのシステムおよび方法を提供し、処理には、探される情報のより洗練された理解を得るために、受取ったクエリを分析することを含む。クエリをユニットに構文解析し、たとえばクエリに一緒に現れるユニットのパターンに基づいて、ユニット間のさまざまな関係を定義することにより、概念ネットワークがクエリの組から生成される。(たとえば異なった期間または異なった地理的領域を表わす)異なった組のクエリに対応する、いくつかの異なった概念ネットワークが生成され得る。これらの概念ネットワークから、クエリは自動的にカテゴリ化され得るか、またはより一般的には、分類法の1つ以上のノードに関連付けられ得る。カテゴリ化は、検索結果または結果のユーザに対する提示を変更するために用いられ得る。
検索結果または提示を変更することの例として、提示は関連する検索クエリ項目に対する「提案」のリストを含み得る。他の例として、検索されたコーパスはカテゴリに依存して変化するか、または、ユーザに提示するための結果の順序付けもしくは選択は、カテゴリに依存して変化し得る。
ある実施例においては、カテゴリ化は学習されたクエリ−ノード対の組を用いて行なわれ、対が特定のクエリを分類法における特定のノードにマッピングする。学習された組は、どのクエリがどのノードに行くかという手動の表示から初期化され、さらに検索が行なわれるにつれて増強され得る。増強する1つの方法は、クエリ後のクリック活動を追跡してクエリのカテゴリ推定が、クエリ後クリック活動、たとえばクエリの後にユーザが選択した検索結果の特定のヒット、のカテゴリによって証明される、そのクエリの実際のカテゴリからどのようにばらついたかを識別することを含む。
ある実施例においては、いくつかのユニットまたは概念についてカテゴリが既知であって、クエリは既知もしくは未知である、またはそのクエリの異なった部分に対する異なったカテゴリは既知であるユニットまたは概念を含む。これらの場合には、クエリ全体に対するカテゴリは、クエリの部分の1つのまたは複数のカテゴリから推論され得る。
以下の詳細な説明は、添付の図面と併せて、本発明の性質および利点についてのよりよい理解をもたらすであろう。
発明の詳細な説明
I.概観
A.ネットワーク実現例
図1は、本発明の実施例に従ったクライアントシステム20を含む、情報検索および通信ネットワーク10の総括的概観を示す。コンピュータネットワーク10では、クライア
ントシステム20は、インターネット40または他の通信ネットワークを介して、例えば任意のローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)接続をわたって、任意の数のサーバシステム50−50に結合される。本願明細書に記載されるように、クライアントシステム20は、サーバシステム50−50のいずれかと通信するように、例えば媒体コンテンツおよびウェブページなどの他の情報にアクセスし、受け取り、検索し、表示するように、本発明に従って構成される。
図1に示されるシステムのいくつかの要素は、本願明細書に詳細に説明される必要のない従来の周知の要素を含む。例えば、クライアントシステム20は、デスクトップパーソナルコンピュータ、ワークステーション、ラップトップ、携帯情報端末(PDA)、携帯電話もしくは任意のWAP対応装置、またはインターネットに直接もしくは間接にインターフェイスすることができる他の計算装置を含み得る。典型的にはクライアントシステム20が、ブラウジングプログラム、例えばマイクロソフトのインターネットエクスプローラ(登録商標)ブラウザ、ネットスケープナビゲータ(登録商標)ブラウザ、モジラ(登録商標)ブラウザ、オペラ(登録商標)ブラウザ、または携帯電話の場合はWAP対応ブラウザ、PDAまたは他の無線装置などを実行することにより、クライアントシステム20のユーザは、インターネット40を介してサーバシステム50−50から利用可能な情報およびページのアクセス、処理および閲覧ができる。クライアントシステム20はまた、典型的にはキーボード、マウス、タッチスクリーン、ペンなどの1つ以上のユーザインターフェイス装置22を含み、サーバシステム50−50または他のサーバによって与えられるページ、フォームおよび他の情報に関連してブラウザによって表示(例えばモニタ画面、LCD表示など)上に与えられるグラフィカルユーザインターフェイス(GUI)と対話する。本発明は、ネットワークのうち特定のグローバルインターネットワークを指すインターネットでの使用に適する。しかしながら、例えばイントラネット、エクストラネット、仮想プライベートネットワーク(VPN)、非TCP/IPベースのネットワーク、任意のLANまたはWANなどの他のネットワークを、インターネットの代わりに、またはインターネットに加えて用い得ることが理解されよう。
一実施例に従うと、クライアントシステム20およびそのすべての構成要素は、インテルペンティアム(登録商標)(Intel Pentium(登録商標))プロセッサ、AMDアスロン(Athlon)(登録商標)プロセッサなどの中央処理装置または複数のプロセッサを用いて実行されるコンピュータコードを含むアプリケーションを用いてオペレータ構成可能である。本願明細書に記載されるように、データおよび媒体コンテンツを通信し、処理し、表示するようにクライアントシステム20を動作し構成するためのコンピュータコードは、好ましくはダウンロードされ、ハードディスクに記憶されるが、そのプログラムコード全体または部分はROMまたはRAMなどとして周知である任意の他の揮発性もしくは不揮発性メモリ媒体または装置に記憶されてもよく、または、コンパクトディスク(CD)媒体、デジタル多機能ディスク(DVD)媒体、フロッピー(登録商標)ディスクなどのプログラムコードを記憶することができる任意の媒体で与えられてもよい。さらに、プログラムコード全体または部分は、ソフトウェアソース、例えばサーバシステム50−50の1つからクライアントシステム20にインターネットを通じて送信されダウンロードされてもよく、またはいずれの通信媒体およびプロトコル(例えばTCP/IP、HTTP、HTTPS、イーサネット(登録商標)または他の従来の媒体およびプロトコル)を用いて他のネットワーク接続(例えばエクストラネット、VPN、LANまたは他の従来のネットワーク)を通じて送信されてもよい。
本発明の局面を実現するためのコンピュータコードは、C、C++、HTML、XML、Java(登録商標)、Java(登録商標)Scriptなどのコード、または他の適切なスクリプト言語(例えば、VBScript)、または他の適切なプログラミング言語であってクライアントシステム20上で実行することができるか、クライアントシス
テム20上で実行するためにコンパイルすることができるコードであり得ることが認識されるべきである。いくつかの実施例では、コードはクライアントシステム20にダウンロードされず、必要なコードはサーバによって実行されるか、またはクライアントシステム20に既にあるコードが実行される。
B.検索システム
図2は、本発明の実施例に従った、媒体コンテンツを通信するための別の情報検索および通信ネットワーク110を示す。示されるように、ネットワーク110は、クライアントシステム120、1つ以上のコンテンツサーバシステム150、および検索サーバシステム160を含む。ネットワーク110では、クライアントシステム120は、インターネット140または他の通信ネットワークを通じてサーバシステム150および160に通信可能に結合される。上述のように、クライアントシステム120およびその構成要素は、インターネット140または他の通信ネットワークを通じてサーバシステム150および160、ならびに他のサーバシステムと通信するよう構成される。
一実施例に従うと、クライアントシステム120上で実行するクライアントアプリケーション(モジュール125として表わされる)は、サーバシステム150および160と通信し、かつそこから受け取ったデータコンテンツを処理し表示するように、クライアントシステム120およびその構成要素を制御する命令を含む。クライアントアプリケーションモジュール125は、上述のようにフロッピー(登録商標)ディスク、CD、DVDなどの任意のソフトウェア記憶媒体に与えられてもよいが、クライアントアプリケーション125は、リモートサーバシステム(例えばサーバシステム150、サーバシステム160または他のリモートサーバシステム)などのソフトウェアソースからクライアントシステム120に送信され、ダウンロードされてもよい。例えば、1つの局面では、クライアントアプリケーションモジュール125は、以下に説明するような、データを操作し、かつデータをさまざまなオブジェクト、フレームおよびウインドウに図示するための、例えば埋込型Java(登録商標)ScriptまたはアクティブX制御などの様々な制御を含むHTMLラッパ(wrapper)で、インターネット140を通じてクライアントシステム120に与えられてもよい。
さらに、クライアントアプリケーションモジュール125は、検索リクエストおよび検索結果データを処理するための専門化された検索モジュール126などのデータおよび媒体コンテンツの処理のための様々なソフトウェアモジュールと、データおよび媒体コンテンツをテキスト、データフレーム、ならびにブラウザウィンドウおよびダイアログボックスなどのアクティブウィンドウに図示するためのユーザインターフェイスモジュール127と、クライアント120上で実行する様々なアプリケーションとインターフェイスし通信するためのアプリケーションインターフェイスモジュール128とを含む。アプリケーションインターフェイスモジュール128が本発明の1つの局面によってインターフェイスするよう好ましくは構成される、クライアントシステム120上で実行する様々なアプリケーションの例としては、様々な電子メールアプリケーション、インスタントメッセージング(IM)アプリケーション、ブラウザアプリケーション、文書管理アプリケーションなどを含む。さらに、インターフェイスモジュール127は、クライアントシステム120または異なるブラウザ上に構成されるデフォルトブラウザなどのブラウザを含んでもよい。いくつかの実施例では、クライアントアプリケーションモジュール125は、Kapur IVに記載の汎用検索インターフェイスの特徴を提供する。
一実施例に従うと、サーバシステム160は、クライアントシステム120に検索結果データおよび媒体コンテンツを与えるよう構成され、サーバシステム150は、ウェブページなどのデータおよび媒体コンテンツを、例えばサーバシステム160によって与えられる検索結果ページにおいて選択されたリンクに応答して、クライアントシステム120
に与えるよう構成される。以下により詳細に説明するように、一実施例におけるサーバシステム160は、1つ以上のインデックスに、たとえばページおよびページへのリンクなどを投入(populating)するためのさまざまな収集技術を参照する。そのような収集技術は、自動ウェブクローラおよびスパイダなど、ならびに、ウェブページをカテゴリ化または分類し、かつウェブページを分類法のような階層構造内で格付けするための手動または半自動のカテゴリ化プロセスおよびインターフェイスを含む。ある局面では、検索サーバシステム160はまた、ウェブページを処理し格付けするための検索関連アルゴリズムでも構成される。検索サーバシステム160はまた好ましくは、送信されたクエリ、それらがいつ送信されたか、誰がそれらを送信したか、および送信者が検索結果を受取った後に何を行なったかのような、クエリログファイルの形式でユーザクエリ活動を記録するようにも構成される。
一実施例における検索サーバシステム160は、たとえばページ、ページへのリンク、インデックスを付けられたページのコンテンツを表わすデータを投入されるさまざまなページインデックス170を参照する。ページインデックスは、自動ウェブクローラおよびスパイダなど、ならびに、ウェブページをカテゴリ化または分類し、ウェブページを階層構造内で格付けするための手動または半自動のカテゴリ化プロセスおよびインターフェイスを含むさまざまな収集技術によって生成され得る。これらの技術は検索サーバシステム160において実現されても、またはページインデックス170を生成しそれを検索サーバシステム160にとって利用可能にする別個のシステム(図示せず)において実現されてもよい。
ページインデックス170におけるエントリ162は、検索用語と、その用語が現れるページへのリンク(または他の符号化識別子)と、そのページに対するコンテキスト識別子とを含む。検索結果を得るための検索サーバシステムのさらなる詳細は、Kapur IVに提供される。
ここに説明する検索システムは例示的なものであって、変形および修正が可能であることが認識されるであろう。コンテンツサーバおよび検索サーバシステムは、ヤフー社(Yahoo! Inc.)によりユーザに提供されるような分散サーバシステムなどの単一組織の一部であるか、または異種の組織の一部であってもよい。各サーバシステムは、一般的に少なくとも1つのサーバおよび関連付けられたデータベースシステムを含むが、複数のサーバおよび関連付けられたデータベースシステムを含んでもよく、かつ、単一のブロックとして示されるが地理的に分散されていてもよい。例えば、検索サーバシステムのサーバのすべてが互いの近傍に(例えば単一の建物またはキャンパスに設置されるサーバファーム内)に設置されてもよく、互いから遠い場所(例えば、A市にある1つ以上のサーバおよびB市にある1つ以上のサーバ)に分散されていてもよい。こうして、ここで用いられる場合、「サーバシステム」は典型的には、局所的にまたは1つ以上の地理的場所にわたって分散される、論理的および/または物理的に接続された1つ以上のサーバを含む。用語「サーバ」と用語「サーバシステム」とは、入替え可能に用いられる。
検索サーバシステムは、1つ以上のページインデックスと、クライアントシステムから受取った検索クエリに応答して、そのページインデックスにアクセスして検索結果をユーザに提供するためのアルゴリズムとで構成されてもよい。検索サーバシステムは、ページインデックスを自分で生成するか、ページインデックスを別のソース(たとえば別個のサーバシステム)から受取るか、またはページインデックスを別のソースから受取ってそのさらなる処理を行なってもよい(たとえば、コンテキスト識別子の追加または更新)。
この発明の好ましい局面においては、クエリを処理してクエリを構成ユニットに分解するようクエリ処理エンジンが設けられる。この発明のクエリ処理エンジンによって、概念
発見および分析処理、コンテキスト分析、曖昧性の除去、および検索クエリに応答してユーザに返される結果の品質を向上させるであろう他の多くの処理を、システムが実現することが可能になる。この発明に従ったクエリ処理エンジンは、スタンドアローンの装置で実現されても、またはネットワークに接続したシステムで、たとえばここで説明するさまざまなクエリ処理および分析アルゴリズムならびに処理を実行するコンピュータシステムで実現されてもよく、またはサーバシステム160ような検索サーバ、もしくは他のサーバシステムの一部として含まれてもよい。
C.概念ネットワーク
いくつかの実施例においては、クエリ内の概念は既知の概念(または「ユニット」)のリストを含むユニット辞書172を参照することにより有利に検出される。ユニット辞書172は、いくつかの数(好ましくは大きな数、たとえば、少なくとも数十万)の以前のクエリに基づく概念発見処理によって有利に生成される。概念発見は、クエリを分析して概念ネットワークを生成することを含み、検索サーバ160によって行なわれても別のサーバ(図示せず)によって行なわれてもよい。
図3は、クエリ処理エンジンを含むシステムを示す。図示されたエンジン300は、インターネットをわたって、またはさまざまなネットワーク接続、たとえばLAN、WAN、直接リンク、配布媒体(たとえばCD、DVD、フロッピー(登録商標))などを介して、さまざまなソースからクエリログファイル(または実際のクエリ)を受取る。クエリログファイル(クエリログ)は情報理論または相互情報量のような概念において用いられるような統計学的方法を用いてクエリエンジン300によって処理される。好ましい局面においては、日別のクエリログが用いられるが、たとえば時間、週などのような異なった期間に対するログをも希望に応じて用い得る。クエリログは典型的にはユーザによって送信された実際のクエリを含み、ある場合には、クエリを送信するユーザの地理的場所、タイムスタンプ、クライアントシステムのIPアドレス、クッキー、クライアントのタイプ(たとえばブラウザタイプ)などのようなさらなる有用な情報を含む。クエリ処理エンジン300はさまざまなクエリログを処理し、そこからユニットを生成する。ユニットと、発生頻度のような関連付けられた統計とは、メモリまたはデータベースファイル310に記憶される。
クエリおよびクエリログを処理してユニットを生成し、ユニットに基づき提案を生成するための方法論を含むクエリ処理エンジンの局面の例は、Kapur IIに記載される。サーバ160はシステム180から受取ったユニットおよび何らかの統計を処理して、ユーザのクエリに応答する結果を、提案および他の情報とともにユーザに返す。ある局面においては、提案は、ユーザを検索システムとの連続的なダイアログにかかわらせるための方法である。提案は、ユニットならびにそれらの敷衍および関連付けに捉えられたユーザの必要性についての高度に洗練された理解に基づく、ユーザが次に探索したいかもしれないものについてのヒントおよび助言である。
一局面においては、ユニット辞書310は、実際の検索結果に加えてまたはそれに代えてユーザに提示する提案を生成するために、有利に用いられる。たとえば、検索サーバ160または他の検索知能は、ユニット辞書を制御する専門化されたサーバ、たとえば図4のサーバ180、にクエリを送ってもよく、またはユニット辞書のインスタンスが検索サーバ160に記憶されてもよい。たとえば、ユニットを生成するための上述の擬似コードに定義される敷衍および関連付けを用いた、一実施例に従った提案を生成するための方法論の例は、Kapur IIに見出すことができる。
好ましい局面においては、契約している会社のサーバ、たとえばサーバ150で実行するよう構成される処理が、サーバ160と通信するために、(たとえば、コンピュータ読
取可能媒体におけるコードとして、またはネットワーク接続をわたって送信されて)契約している企業に与えられる。そのような処理は、好ましくはバックグラウンドで常に実行しており、インデックスによって参照されるページおよびまたは製品を識別するサーバ160からのクエリに応答して、または個々の検索の結果として、所望の情報を提供する。手動の情報更新もまた実現されてもよく、この場合企業のオペレータが特定の時間に、またはサーバ160からの要求に応じて、所望の情報を提供する。
ユニットおよびクラスタ化
図5は、ユニットジェネレータの簡略化されたブロック図である。図示されるように、ユニットパーサ500は、入力としてクエリストリング(またはクエリストリングとクエリに付属の他のデータもしくはメタデータとを含むクエリ記録)を受取り、概念ネットワーク502を調べ、クエリストリングが向けられる概念を表わす1つ以上のユニットを出力する。ユニットジェネレータの動作のさらなる詳細は、Kapur IIに記載される。ユニットは、検索を行なうため、関連する検索に対する提案を生成するため、ログを取るため、および他のさまざまな目的のために用いることができる。
ユニットの1つの用途は、クエリをわたって用いられる用語のグループを定義するようにユーザクエリをクラスタ化することである。たとえば、ユニットはそれらが「類似の」関連付けられる単語を有する場合にクラスタ化されることができる。たとえば、単語「歌詞」「mp3」、「ギタータブ」、「ディスコグラフィー」などは、特定のギタリストの名前での大きなクエリ組の中に同時に発生し得る。ユーザが別の歌手についてクエリを送信する場合に類似の単語が用いられるであろう。これにより、検索システムが関連付けられる単語に基づき高い精度でクラスタを形成することが可能になる。
類似性はいくつかのやり方で定義され得る。1つの方策においては、2つのユニット間の類似性は、そのユニットにおける単語の重複の程度に基づく。これに対し、重複の程度を測定するためにさまざまなアルゴリズムを用い得る。
たとえば、各々がそれに関連付けられる単語を有し、かつクエリの収集から決定される2つのユニット間の重複は、以下の要因のうちの1つ以上を参酌することにより測定することができる。
a) 両方のユニットに見出される関連付けられる単語の数。
b) 関連付けられる単語の発生頻度および関連付けられる単語の数。
c) ユニットに関連付けられる提案のリスト内の、関連付けられる単語の格付け(頻度により分類される)における差に従っていくらかの一致度が割引かれた、関連付けられる単語の数。
d) 関連付けられる単語の相対頻度における差に従っていくらかの一致度が割引かれた、関連付けられる単語の数。
e) 関連付けられる単語がユニットのいずれかにおいて発生する回数と、これらの単語が他のユニットにおいて同時発生する回数の合計数とを比較して測定される、関連付けられる単語の妥当性。
いくつかの経験的テストにおいて、要因a)および要因e)は良好な結果を生じさせる。さらなるクラスタ処理は、コンテキストに基づくクラスタ化を含み得る。たとえば、表1に示される値を有するユニット「sony」に対するクラスタを取り上げる。
Figure 0004994243
クエリにおける「sony」は多くの種類の電子製品のうちの1つに頻繁に関連するので、クエリがコンピュータ/デスクトップ/ラップトップに実際に関連する場合には、システムは、他のいずれかの企業が書くコンテキストにおいて「sony」を用いて結果を絞込む/並べ替えることができる。たとえば、「compaq」のコンテキストにおいて、表1の結果は表2の結果に変化する。
Figure 0004994243
そのようなコンテキストに基づくクラスタ化に対し、1つの方策は所与のユニットの関連付けられる単語のインターセクションを用いて、上に列挙した要因a−eのうちの1つ以上に与えられる擬似ユニットを作成することである。クラスタ化のさらなる例および説明はKapur IIIに記載される。
ユニット−クラスタを用いたキーワードカテゴリ化
キーワードカテゴリ化は手動で行なわれ得る。そのような方策においては、ユーザクエリは、人間のエディタによって手動でカテゴリツリーにカテゴリ化または分類される。エディタは、クエリを適切にカテゴリ化するためには、そのクエリの安定した知識を有する必要がある。手動の分類は常に一貫しているわけではなく、非常に主観的になり得る。これらの問題を回避するために、検索サポートシステムは、エディタが容易にかつ一貫して正しいカテゴリを選択する支援を行なってもよい。検索サポートシステムはまた、手動ではカテゴリ化されないクエリを扱うために、自動化されたカテゴリ化をも必要とする可能性がある。
ここで説明される方策においては、システムが、カテゴリ化されたクエリの組にはまだ存在しないクエリを受取ると、そのカテゴリ化されていないクエリはユニットに分割され
る。これらのユニットがカテゴリ化されると、それらのカテゴリを、そのカテゴリ化されていないクエリを分類するために用いることができる。
そのカテゴリ化されていないクエリがそれ自体ユニットであって分割できない場合には、類似のユニットおよびそれらのカテゴリを見出すために、ここに説明されるようなクラスタ化プロセスが適用され得る。たとえば、所与の分類されていない単語が分類されていないテレビのブランド名であるが、クラスタ化によってそれが他のテレビのブランドと類似していると識別されれば、ユニットを分類することができる。そのような分類は、要因の1つであり得る、一意の類似性尺度で行なわれるK−最近傍分類であってもよい。
この方策は、ミススペルおよび変形体を分類する助けにもなり得る。なぜならばそのような変形体のすべてに対する関連付けられる単語は類似し得るので、それらは正しいスペルと同じクラスタに入るからである。
自動的クエリカテゴライザ
図6は、ユニットジェネレータによって決定されたユニットを用いて、クエリが関連付けられるべき分類法における1つ以上のノードを決定し得る、自動的クエリカテゴライザの実施例のブロック図である。図示されるように、カテゴライザ600は、クエリを入力として、おそらくはクエリ記録として受取り、クエリ−ノード対の組を調べる。ある場合には、カテゴライザ600は、手動で生成されるか、または他の何らかのソースから検索システムに提供される初期の組602を調べる。たとえば、初期の組602は、数百検索クエリおよびその検索クエリが関連付けられる分類法ノード(カテゴリを表わす)を含み得る。こうして、ユーザが初期の組の中の1つに一致するクエリを送信すると、そのクエリは直接的な態様で、その対に対して列挙されたノードにカテゴリ化されることができる。しかしながら、膨大な数の異なったクエリであり得る、システムにおけるほとんどのクエリであるかもしれない、初期の組の中の1つに一致しないクエリに対しては、他の方策が必要になる。
学習された組604は、クエリ−ノード対の記録を含み、また、おそらくは重みのような対に対するメタデータをも含み、学習された組604には、初期の組が投入され、次いで、クエリが検索システムに送信され、カテゴリがクエリ後クリック活動のような外部イベントによって示されると、調整される。一実施例においては、図示されるように、クエリ後アナライザ610が入力としてクエリ(またはクエリ記録)と、クエリに関連付けられるクエリ後活動(ユーザがそのクエリに対して提示された検索結果から選択した1つまたは複数のページの表示など)と、カテゴライザ600によって決定されたクエリのカテゴリの推定とを受取る。これらの入力から、クエリ後アナライザ610は、学習された組604に対する更新を計算する。
ある実施例においては、クエリ後アナライザ610はニューラルネットワークに対するフィードバックループとして動作する。この態様で、カテゴライザ600がクエリが関連付けられるべき1つまたは複数のカテゴリの推定を改良できるように、学習された組は改良される。他の実施例においては、クエリ後アナライザ610は他の学習システムを用いてカテゴリの推定を改良する。
一旦分類法における1つ以上のノードに対する、クエリのカテゴリ化がわかると、その情報を検索処理を変更するために用いることができる。
カテゴリ化されたクエリを用いた検索エンジン
図7は、クエリ記録とそのクエリに対するカテゴリの表示とに従って検索する検索エンジンを含む、情報検索および通信システムのブロック図である。図示されるように、検索
エンジン700は、入力としてクエリ(またはクエリ記録)とそのクエリが関連付けられるべきカテゴリ(おそらくは推定)とを受取り、検索エンジン700はそれに従って検索結果を出力する。
クエリ(またはクエリ記録)およびカテゴリは、提案エンジン702にも入力され、提案エンジン702は、クエリの1つまたは複数のカテゴリに従って用いられるべき関連する検索クエリのような提案を生成する。たとえば、クエリが「ニューヨークのホテルを見つける」である場合、関連するカテゴリは「場所/USA/ニューヨーク州/ニューヨーク市」および「旅行/宿泊施設/ホテル」であり得る。これらのカテゴリから、提案エンジンは「ニューヨーク宿所」、「ニューヨーク旅行」、「ニューヨークの天気」のような関連の検索を提案し得るが、なぜならばそれらはオリジナルの検索クエリと同じノード、またはその近傍のノードに関連付けられる検索であるからである。
図8は、クエリのカテゴリ化に従って1つ以上の検索エンジンにクエリを向けることにより別の態様に検索処理を変更するクエリディレクタを含む、情報検索および通信システムのブロック図である。図示されるように、クエリ記録がデマルチプレクサ800に与えられ、デマルチプレクサ800はクエリ記録を、デマルチプレクサ800に入力されたカテゴリに基づき1つ以上の可能な検索エンジン802に向ける。たとえば、クエリに対するカテゴリが「健康/薬情報」である場合、クエリは薬検索エンジンに向けられ得る。2つの検索エンジンしか示されないが、2つより多くの検索エンジンが含まれ得ることがこの開示から明らかであろう。クエリが1つよりも多い検索エンジンに与えられる場合、ミクサ804が各検索エンジンからの結果を組合せて包括的な結果を形成し得る。ある例においては、ミクサ804は結果の位置付けにおいて各検索エンジンに対する重みを参酌し得る。
図9は、プリプロセッサがクエリ記録において参照されたクエリのカテゴリ化に従ってクエリ記録を修正して、修正されたクエリ記録を形成し、その修正されたクエリ記録が検索エンジンに送信される、さらなる変形例を含む情報検索および通信システムのブロック図である。特に、プリプロセッサ900はクエリ記録に示されるクエリに対して推定されたカテゴリにおけるクエリ記録をその入力として有する。プリプロセッサ900は修正されたクエリ記録を出力し、この出力は次いで検索エンジン902に送信され、結果がその検索エンジンから取得される。好ましくは、クエリに対して行なわれた修正は、クエリストリングにおいて単語を追加、修正または削除するか、または検索エンジン902の動作を導くためにメタデータを組入れるかのいずれかにより、カテゴリの情報コンテンツを組入れる。
図10は、自動カテゴリ化システムへのユーザインターフェイス1000の一実施例の図である。このユーザインターフェイスを用いて、(クエリとして用いられ得る)キーワードまたはキーワードの組がフォームフィールド1002に入力され、自動カテゴリ化システムは、1つまたは複数のキーワードに対するオリジナルのカテゴリと、新規のあり得るカテゴリと、新規のあり得るカテゴリの各々に対する信頼値とを示すテーブル1004を返す。
図11は、検索を入力し結果を提供するためのユーザインターフェイス1100の一実施例の図である。この例において、検索が「quotes」であって、検索エンジンは、検索に対するカテゴリの示唆と、関連する検索とを提供し、関連する検索のリストは、入力された検索についてのカテゴリ化情報を用いて導出され得る。カテゴリリストと関連する検索リストとに加えて、結果は、やはりカテゴリ化情報を用いて導出され得る検索結果をも含む。
さらなる例
自動カテゴリ化のためのシステムの1つの例において、別の目的のための別のシステムからの手動のカテゴリ化が「シード組」として用いられ得る。たとえば、膨大な数のクエリのクエリログはしばしば、比較的少量の非常に共通するクエリと、長く連なるあまり共通しないクエリとを含む。評価基準が発生頻度である場合、しきい値回数以上全く同様に出現するクエリは(たとえば1日当たり100回、1日当たり200回など)手動カテゴリ化がシード組を提供することを正当化するかもしれない。この態様で、「最多検索」単語は容易にカテゴリ化され、(少ないヒット数の)長い単語の連なりは自動カテゴリ化される。検索単語のカテゴリ化を自動化することにより、相当により多くのキーワードがカテゴリ化されることができ、より優れた検索と他の目的のための有用なデータ組とを提供する。
キーワードのカテゴリ化はさまざまな研究および分析プログラムによって用いられ得るので、カテゴリ化の精度は非常に重用である。シード組に依拠する自動カテゴリ化処理は非常に良好に機能し得るが、それでも不良な入力により失敗するので、シード組を生成するために用いられる手動のカテゴリ化の品質もまた重要である。
単一の単語からなるクエリは、多数の単語からなるクエリには単語の組合せがより多いというだけの理由で、多数の単語からなるクエリよりも多く出現することが予測される。「ロック・コンサート」のような多数の単語からなる単一の概念のクエリがいくつか存在するが、多くの実世界システムにおけるほとんどのクエリは1つ以上の概念からなる。たとえば「ニューヨークにおけるホテル」は2つの概念を有する。「ホテル」(または「におけるホテル」)および「ニューヨーク」である(「新しい(new)」または「ヨーク」という単語が存在していても、クエリはこれらの単語とは無関係であることに留意されたい)。多数概念の組合せが単一の単語よりも多いので、所与の多数概念クエリよりも所与の単一単語クエリがより多く生じることが予測される。したがって、最多頻度のクエリに対して手動のカテゴリ化が行なわれると、カテゴリ化されていないクエリの合計数および一意のカテゴリ化されていないクエリの数が、多数概念クエリに有利になる可能性が高い。たとえば、「スポーツ」は、「ニューヨークにおけるホテル」、「ボストンにおけるホテル」などよりも頻繁に検索システムにおけるクエリとして出現し得る。その結果、自動カテゴリ化システムは頑健なデータ組を提供するのであれば多数概念クエリを正確にカテゴリ化することに対処しなければならない。
カテゴリ化に対する1つの方策は、(用いられる単語の数の意味で)最も長い概念か、または同じ長さの場合には最も長いもののうちの1つを識別して、それを全クエリに対する「優勢な」概念として標識付けすることである。上述の例においては、「ホテル」は優勢な概念であろう。優勢な概念は、全クエリをカテゴリ化するために用いられ得る。一実施例においては、全クエリのカテゴリは、優勢な概念のカテゴリに設定される。
最も優勢な概念を決定するために、最多検索概念および他の何らかの法則のようなさまざまなヒューリスティックを用い得る。もちろん、概念がカテゴリ化されていない全く新しいクエリを異なった態様で行なってもよいが、上述の方策が自動的にすべてのクエリのうちの大部分を確保するであろう。
さらに優れたカテゴリ化率が必要な場合、基本的な自動カテゴリ化にいくつかの方策を加えてもよい。たとえば、シード組に1組の法則が適用されてもよい。
法則の例として、「ロンドンにおけるホテル」というクエリは、クエリにおける優勢な単語(この場合「ホテル」)に基づいて、「旅行および交通機関/ホテルおよび宿所」の下に自動カテゴリ化され得る。調整的な法則としては、一方の概念が「旅行および交通機
関/ホテルおよび宿所」に属し、他方の概念が「国際・世界カテゴリ」に属する場合、クエリの両部分のカテゴリを選択することであろう。この法則を適用した後で、クエリ「ロンドンにおけるホテル」は、たとえば「旅行および交通機関/ホテルおよび宿所」、「国際・世界/国際・ヨーロッパ/国際・UKIE/ロンドン、旅行および交通機関/US以外」の下にカテゴリ化されるであろう。この場合、カテゴリ化はすべての概念が参酌されたという点で完全になろう。
1組の法則の例を説明する。これらの「追加の」法則に加えて、不適切なカテゴリ割当の削除を支援するために「削除の法則」をも用い得る。これらの法則のいくつかが、法則によって用いられるカテゴリ対のリストに従って実行する。
1.連合の法則
連合の法則では、関係のテーブルが考慮される。所与のクエリにおける優勢な単語/単語の群が関係対における2つのカテゴリのうちの一方に属し、クエリにおける他方の単語が関係対の他方のカテゴリに属するのであれば、クエリをカテゴリ化するときに両方のカテゴリが含まれる。関係対の例は以下のとおりである。
(エンターテイメント/音楽、インターネット/MP3)
(祝日および行事、オンライングリーティング)
たとえば「バレンタインデー(valentines day) eカード」というクエリは、その優勢概念として「eカード」を有し得るので、優勢クエリカテゴリ化はそのクエリをカテゴリ「オンライングリーティング」に入れる。しかしながら、連合の法則においては、カテゴリ「祝日および行事/バレンタインデー(Valentine's day)」もが含まれる(概念ネットワークを用いてスペルの誤りに対処し得ることに留意されたい)。これらの2つのカテゴリで、そのクエリに対する自動カテゴリ化が完全になる。
2.カテゴリカップル法則
優勢な単語または優勢な単語の群がカテゴリカップル対のうちの第1のカテゴリに属するのであれば、カテゴリカップル対のうちの第2のカテゴリが、クエリを自動カテゴリ化する間に含まれる。この法則は、シード組における手動のカテゴリ化が、優勢な単語または優勢な単語の群が第2のカテゴリを含むクエリの例を含まない場合に助けとなる。カテゴリカップル対の例は以下のとおりである。
(高級品/衣料/紳士用、衣料/紳士用)
(高級品/衣料/婦人用、衣料/婦人用)
たとえば、クエリが「BrandX.com」であって、「BrandX」がカテゴリ「オンラインコミュニティ/eメール」に手動でカテゴリ化されていた、なぜならば手動カテゴリ化が行なわれたときにカテゴリ「サービス/eメール/BrandX」が存在しなかったからである、と仮定する。カテゴリ化カップル法則によって、「BrandX.com」のカテゴリ化が完全になる。
3.優勢カテゴリ
クエリが、別個のカテゴリに属する2つの単語または単語の群を含み、両方のカテゴリが優勢なカテゴリ対に出現し、その対の第2のカテゴリが他の態様では優勢なカテゴリであれば、クエリの自動カテゴリ化を行なうときに、その対の第1のカテゴリを第2のカテゴリよりも優勢なカテゴリにし、第2のカテゴリを除外する。優勢カテゴリ対の例は以下のとおりである。
(玩具/ゲーム、旅行および交通機関/地図)
(オンラインコミュニティ/ゲーム、旅行および交通機関/地図)
(スポーツ、教育/カレッジおよびユニバーシティ)
この例において、通常、クエリ「カレッジフットボール」は優勢概念である「カレッジ」によって構文解析されるので、カテゴリ「教育/カレッジおよびユニバーシティ」に割当てられる。概念「フットボール」が「スポーツ」の下にカテゴリ化され得る一方、これは優勢概念ではない。しかしながら、追加された優勢カテゴリの法則では、優勢カテゴリ対(スポーツ、教育/カレッジおよびユニバーシティ)が存在するので、クエリは「スポーツ」に関連するクエリとしてカテゴリ化される。優勢カテゴリの法則は、2つの概念が存在して、一方が優勢であるが、特定のカテゴリ対に入るある概念対に対しては、優勢であるべきカテゴリは非優勢概念に関連するほうのカテゴリである場合に、有用である。
4.単語置き換えの法則
特定の目的のために用いられるあるカテゴリが存在する。単語置き換えの法則もまた、対のテーブル上で機能する。優勢概念が、対のうちの第1のカテゴリで識別される特定のカテゴリに属するのであれば、優勢概念に対応する単語をその対における第2の項目の単語で置き換える。
5.単一カテゴリ置き換えの法則
単一カテゴリ置き換えの法則は、対のテーブルに従ってカテゴリを置き換えるよう機能する。優勢概念が対のうちの第1のカテゴリで識別される特定のカテゴリに属するのであれば、第1のカテゴリを対のうちの第2のカテゴリで置き換える。たとえば、クエリ「テネシー 対戦相手 オンライン」に対して、概念「テネシー 対戦相手」は「カスタム・フュージョン/カレッジフットボール」のカテゴリを有するであろう。そのカテゴリを、その新しいクエリを自動カテゴリ化する間に「スポーツ/フットボール」カテゴリで置き換える。この法則に対する対のテーブルにおけるエントリの例は以下のとおりである。
(カスタム・フュージョン/カレッジフットボール、スポーツ/フットボール)
(カスタム・フュージョン/ボブディラン、エンターテイメント/音楽/ロック)
(カスタム・フュージョン/口コミ/出会い、セックスおよび恋愛/出会い)
6.絞込みの法則
絞込みの法則では、第1のレベルの自動カテゴリ化の後で、絞込み法則テーブルにおいて列挙される三つ組みのうちの1つの中の、最初の2つのカテゴリである2つのカテゴリをクエリが有する場合、その三つ組みの中の第2のカテゴリを第3のカテゴリで置き換える。たとえば、次の絞込み法則のテーブルエントリを考察する。
(エンターテイメント/映画、エンターテイメント/音楽、エンターテイメント/音楽/ショーおよび映画)
クエリ「フィルム 音楽」によって、概念「フィルム」は「エンターテイメント/映画」にカテゴリ化され、概念「音楽」は「エンターテイメント/音楽」にカテゴリ化される。絞込みの法則を適用して、最初の2つのカテゴリは絞込み法則テーブルエントリにおいて対にされているのが見出され(上に示す)、よってカテゴリ「エンターテイメント/音楽」(三つ組みのうちの第2の項目)は「エンターテイメント/音楽/ショーおよび映画」によって置き換えられ、それにより、法則を適用した後で、クエリ「フィルム 音楽」は「エンターテイメント/映画」および「エンターテイメント/音楽/ショーおよび映画」にカテゴリ化される。
結果を変化させるために、必要に応じてこれらの法則ファイルにさらに法則を追加することができる。1つよりも多い分類法が用いられる場合、法則および法則テーブルは用いられるすべての分類法に対して包括的であってもよく、または異なった分類法に対して別々の法則および法則テーブルが提示されてもよい。ある実施例においては、法則および/または法則テーブルは、カテゴリ化処理または精度を向上させるために、クエリログにお
けるクエリを処理することなどによって、半自動的に生成され得る。
優勢概念
クエリから抽出される多数の概念のうちから優勢概念を識別するために、さまざまな方法を用い得る。概念はユニットであってもよく、ある場合には、ユニットの収集であり得る。ここで、収集は既知のカテゴリのものであるが、個々のユニットのカテゴリは未知である。たとえば、クエリ「マイアミの高級家具」を考察する。ユニット「家具」に対するカテゴリが既知であって、ユニット「マイアミ」に対するカテゴリも既知であると仮定する。さらに、「高級家具」がユニットであるがそのカテゴリは未知であると仮定する。この場合、ユニット「高級家具」は既知の概念ではないと見なすことができ、カテゴリ化は他方の単語を概念として進行する。ユニットをカテゴリ化するのにシード組が用いられる場合、カテゴライザに対するシード組としてユニット対カテゴリマッピングを用い得る。
優勢ユニットを自動的に判断するためのいくつかの法則は、ストップワードを除去すること、ユニット頻度およびクエリ頻度を考慮すること、曖昧性測定法を考慮すること、ならびに優勢概念を判断するためのカテゴリに基づく法則を適用することを含み得る。
ストップワードは、それらが通常クエリにおいて優勢概念であってはならないので、優勢概念を判断する前にクエリから除去されてもよい。
ユニット頻度は、単独のユニットとしてまたは他のユニットとの組合せとして、ユニットがクエリに生じる頻度である。所与のユニットに対するクエリ頻度は、クエリの唯一のユニットとして生じる所与のユニットの頻度である。これらの比を評価することにより、優勢概念が発見され得る。
直感的に、1つの単語が過度に頻繁に他の単語とともに用いられる場合、その単語はおそらくは独立の概念ではなく、典型的にはその意味を明確にするために絞込みが必要である。この例は、クエリ「安価な家具」である。単語「安価な」および「家具」は概念であり得るが、「安価な」のユニット頻度に対するクエリ頻度の比は低い、なぜならば、それは単独ではクエリにそれほど頻繁には現れないからである。「安価」についての比よりも高いことが予測される「家具」のクエリ/ユニット頻度と比較すると、「家具」は優勢概念と見なされるであろう。
ユニットと概念とが同義ではない場合など、クエリ/ユニット比が利用可能でない場合、システムは単に、2つまたはそれ以上のユニットのクエリ頻度を比較して、より頻度の高い(ユニットではない)概念に対して優勢概念ステータスを割当てる。
曖昧性測定法もまた参酌され得る。概念の曖昧性は、シード組から判断され得る。たとえば、カテゴリ化された200,000キーワードおよびクエリのシード組を考察する。クエリは、その中のユニットを識別するために処理され得る。ユニットごとに、システムは、いくつの異なったカテゴリにそのユニットが割当てられたかを調べることができる。すると曖昧性は、異なったカテゴリの数の測定値となり得るが、なぜならばシード組におけるより多くのカテゴリにより多くの曖昧なユニットが現れるであろうからである。たとえば、シード組において「ジャガー 車」および「ジャガー 動物」が2つのカテゴリ化されたクエリであれば、それらのカテゴリは異なっている。すなわち、それぞれ「自動車」および「動物」である。これら2つのクエリにおけるユニットが「ジャガー」、「車」および「動物」である場合、「ジャガー」は2つの異なったカテゴリに現れ、各々1つのカテゴリを有する「車」および「動物」と比較してより曖昧であると考えられる。より曖昧なユニットは優勢度がより低いであろう。
カテゴリに基づく法則もまた用い得る。たとえば、あるカテゴリからの概念は、他にカテゴリ化された概念がない場合以外は、優勢とは見なされない法則を用い得る。たとえば、場所は典型的には検索を狭めるために用いられ、たとえば2つのクエリ「マイアミの家具」および「マイアミのアトラクション」の場合、「マイアミ」は単語を限定するドメインとして用いられ、クエリ全体の実際のカテゴリは他方の概念に依存する(クエリにおける「アトラクション」および「家具」)。こうして、場所としてカテゴリ化される概念または他のドメインを限定する概念は、唯一の概念でない限り、優勢概念とはならない法則が用いられ得る。
絞込み
クエリのどのユニットもカテゴリ化されていない場合、上述の曖昧性測定法の使用に類似した手法を用いて、未知のユニット/クエリを動的にカテゴリ化し得る。たとえば、ユニットAは独立してカテゴリ化されていないが、カテゴリCに属するカテゴリ化されたクエリにおいてほぼ生じている場合、AをカテゴリCに割当てることができる。ある変形例においては、ある特定のカテゴリにおいてユニットが生じた回数に依存する信頼度要因が参酌され得る。
ある変形例においては、シード組の全体またはその一部が手動ではなく自動的に生成され得る。以下に2つの例を説明するが、シード組を自動的に生成する他の方法をも用い得ることを理解されたい。
第1の例においては、複数のエントリポイントにわたってクエリログが調べられる。ポータルは、そのポータルが複数のプロパティに組織化されていて、そのプロパティの各々に関連付けられるページが検索インターフェイスを有する場合、複数のエントリポイントを有し得る。たとえば、これに限定されるものではないが、ヤフーポータルは、ヤフーマップ、ヤフースポーツ、ヤフートラベル、ヤフーショッピングなどの複数のプロパティに対するアクセスを提供する。これらのプロパティの各々は、プロパティページにおける検索ボックスによって提供されるような検索能力を有し得る。
シード組の生成において、ある長さの期間または他のグループ化についてクエリが収集されて、そのクエリが入力されたエントリポイントが記録される。たとえば、もし「ニューヨーク」がヤフートラベルページにおける検索ボックスにクエリとして入力された場合、それが記録されて、「ニューヨーク」に対する検索が旅行に関連付けられ、「ニューヨーク」がヤフースポーツページにおける検索ボックスに入力された場合、その検索はスポーツに関連付けられるであろう。いくつかのプロパティは検索を入力し得る多数のページを有する可能性があり、各エントリポイントは別々に扱われても、あるプロパティに対するすべてのエントリポイントが区別なしにともにグループ化されても、またはそれらの2つの間に何らかの変化が設けられてもよい。いずれにせよ、エントリポイントのすべて(または少なくともほとんど)について、カテゴリが既知である。たとえば、エントリポイントがユーザが選択した株券およびそれらの現在の相場を示すページにあれば、そのエントリポイントに対するカテゴリは明確に決定され得る。いずれにせよ、エントリポイントに対するカテゴリがまだ未知である場合、それは手動で割当てることができる。なぜならば、大きなポータルであっても精々数百のエントリポイントしか存在しないことが予測されるからであり、これは数百万のクエリを手動でカテゴリ化することよりも管理しやすいからである。
概念ネットワークは、ここに、または関連の特許出願に、またはさらに他の技術に記載される技術を用いて、さまざまなエントリポイントについて生成される。概念ネットワークによって、すべてのエントリポイントをわたって生成されるユニットの連合を、ユニットによって分析することができる。i番目のユニットがu[i]によって表わされ、エン
トリポイントがe1、e2、e3、…、によって表わされる場合、f(u[i],e[j])が、分析されるクエリの組に対するエントリポイントe[j]でのu[i]の頻度である。たとえば、1日分のクエリが分析されるか、またはある時点から最初の2千万クエリが分析され得る。j番目のエントリポイントに関連付けられる、分析されるクエリの組におけるクエリの合計数がQ(e[j])であると仮定する。
ユニットとエントリポイントとの組合せごとに、式1に示すように正規化された重みが計算されてもよい。重みのスケールおよび精度は、数の操作、閲覧および記憶を容易にするために、1,000,000、または、典型的には分析されるクエリの組におけるクエリの数に対応するスケール係数を乗算することなどで、調整可能である。
Figure 0004994243
クエリの組における所与のエントリポイントにユニットが何ら見出されなかった場合、その重みは0に設定され得る。各エントリポイントにおける所与のユニットに対する重みを用いて、エントリポイントは、ユニットに対する重みの降順に格付けされ得る。この、すべてのエントリポイントをわたるユニットの連合およびそれらの計算された重みを含む並べられた組は、シード組として機能し得る。
別の方策においては、クエリはエントリポイント情報を伴ってまたはそれなしでログを取られるが、ログは、ユーザが次に取る行動の表示を含む。考えられる次の行動が判断され、それらのカテゴリ化が既知であるかまたは自動的に判断できるのであれば、これらをシード組として用い得る。たとえば、ポータルが検索結果とともにディレクトリ一致を示せば、ディレクトリ一致のうちの1つをクリックするというユーザの行動は、そのディレクトリエントリをクエリに関連付けさせる。
たとえば、ユーザが検索クエリQを入力し、検索結果およびディレクトリカテゴリ一致の組が表示されたと仮定する。各ディレクトリカテゴリがカテゴリスペース識別子cs1、cs2、cs3などで識別される。ディレクトリにおいて存在するウェブサイトはサイトスペース識別子ss1、ss2、ss3などで識別される。ユーザがカテゴリスペース識別子またはサイトスペース識別子をクリックすると、その行動のログが取られる。すると、これらの「クリックログ」はクエリをディレクトリカテゴリにマッピングするのに用いられ得る。これらの識別子の組の両方とも、必ずしも非空ではない。たとえば、サイトスペース識別子が用いられないか、またはカテゴリスペース識別子が用いられなくてもよい。
クエリQに対して、そのクエリをクエリするユーザがカテゴリスペース識別子cs1をクリックし、かつそのカテゴリスペース識別子がカテゴリc1に属することが既知であれば、クエリQはカテゴリc1にマッピングされ得る。やはりクエリQを用いる他のユーザがサイトスペース識別子ss2をクリックし得る。そのスペース識別子がカテゴリc2のディレクトリの子であれば(すなわちそこにファイルされていれば)、クエリQはカテゴリc2にマッピングされ得る。カテゴリへのクエリのマッピングの各々は、それに対して関連付けられる重みを有し得る。このクエリQおよびカテゴリCに対する重みは、Qのクエリの後で、カテゴリCまたはカテゴリCに関連付けられた子エントリのうちの1つに関連付けられた、カテゴリスペース識別子をクリックするユーザの数に比例し得る。この態様で、クエリQは、重みによって示される信頼性で自動的にカテゴリ化され得る。このマッピングの組は、シード組として用いられ得る。
信頼性測定値は、カテゴリ化に対する信頼性測定値がシード組に依存する場合に参酌され得る。シード組がカテゴリに関連付けられた信頼性測定値を有するのであれば、信頼性はカテゴリ化されたクエリの各々に割当てられることができる。手動で生成されたシード組については、信頼性は自動的に生成されたシード組に対するものよりも高いかもしれないが、必ずしもそうとは限らない。精度を高めるために、システムは低い信頼性レベルを有する何らかの自動的にカテゴリ化されたクエリを無視することを決定し得る。
本発明は具体的な実施例に関して記載されているが、当業者は多くの変形が可能であることを認識するだろう。ある実施例においては、1つ以上の概念ネットワークに対する概念ネットワークデータが実質的にリアルタイムに更新されるように、クエリが受け取られるとすぐにクエリが処理されてもよい。本願明細書に記載された自動化されたシステムおよび方法は、ユニット、関係、分類法などを含む、結果として生じるユニット辞書のすべてまたは部分について人間が検討することで増大され、補足されてもよい。
本願明細書に記載された実施例は、ウェブサイト、リンク、および、ワールドワイドウェブ(またはそのサブセット)が検索コーパスとして機能する場合に特有の他の専門用語を参照することができる。本願明細書に記載されたシステムおよびプロセスは、異なる検索コーパス(電子データベースまたはドキュメントリポジトリなど)とともに使用するために適合されることができ、結果はコンテンツおよびコンテンツが見つかるかもしれない場所へのリンクまたは参照をも含み得ることを理解されたい。
このように、本発明は具体的な実施例に関して記載されているが、本発明が添付の請求項の範囲内のすべての修正および等価物を包含するよう意図されることが認識される。
この発明の実施例に従った、情報検索および通信システムの簡略化された高レベルのブロック図である。 この発明の実施例に従った、媒体コンテンツを通信するための情報検索および通信ネットワークの簡略化されたブロック図である。 この発明の実施例に従った概念ネットワークの図式表現である。 この発明の実施例に従ったクエリ処理エンジンの簡略化されたブロック図である。 ユニットジェネレータの簡略化されたブロック図である。 自動的クエリカテゴライザの実施例のブロック図である。 クエリ記録およびそのクエリに対するカテゴリの示唆に従って検索を行なう検索エンジンを含む情報検索および通信システムのブロック図である。 クエリのカテゴリ化に従ってクエリを1つ以上の検索エンジンに向けるクエリディレクタを含む情報検索および通信システムのブロック図である。 クエリ記録において参照されたクエリのカテゴリ化に従ってクエリ記録を修正し、修正されたクエリ記録を生成するプリプロセッサを含む、情報検索および通信システムのブロック図である。 自動カテゴリ化システムに対するユーザインターフェイスの一実施例を示す図である。 検索を入力し結果を提示するためのユーザインターフェイスの一実施例を示す図である。

Claims (5)

  1. 現在のクエリを分類する方法であって、
    2つ以上の用語を含む現在のクエリを受信するステップと、
    前記現在のクエリの中の前記2つ以上の用語のいずれもが1つの前に送信されたクエリの用語に一致しないことを決定することによって、前記現在のクエリが、前に送信されたクエリの組の中の、前に送信されたクエリのいかなる1つにも一致しないかどうかを判断するステップと、
    もし、前記現在のクエリが、前に送信されたクエリの前記組の中の前に送信されたクエリのいかなる1つにも一致しない場合に、
    前記現在のクエリを2つ以上のユニットに分割すること、
    前記2つ以上のユニットと複数のカテゴリ化されたユニットとの比較を実行すること、
    前記比較に基づいて前記現在のクエリのための2つ以上のカテゴリを決定すること、
    前記比較に基づいて前記現在のクエリのための前記2つ以上のカテゴリを決定したことに応答して、前記2つ以上のカテゴリの結びとして新しいカテゴリを生成し、前記現在のクエリのために決定された前記新しいカテゴリを示すデータを揮発性メモリー及び不揮発性メモリーの内の1つに記憶すること、
    を実行するステップと、を含み、
    1つ以上の計算装置によって実行されることを特徴とする方法。
  2. 前記1つ以上のカテゴリ及び前記新しいカテゴリに少なくとも部分的に基づいて前記現在のクエリのための検索結果を決定するステップをさらに含む請求項1に記載の方法。
  3. 前記1つ以上のユニットは、前記現在のクエリと関連する分類法であって、前記分類法からのいずれのノードも1つのカテゴリを表わすような分類法からのノードを前記1つ以上のユニットと関連付けるユニットジェネレータによって決定されることを特徴とする請求項1に記載の方法。
  4. 前記1つ以上のユニットの前記関連は、ユニットのノードへのマッピングを含み、前記ユニットは前記1つ以上のユニットからのものであり、前記ノードは前記分類法からのものであることを特徴とする請求項3に記載の方法。
  5. 実行されたときに、1つ以上のプロセッサに請求項1から4のいずれかに記載の方法を実行させる命令を記憶したコンピュータ読取可能記録媒体。
JP2007544444A 2004-12-06 2005-11-29 クエリの自動的カテゴリ化による検索処理 Active JP4994243B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/006,466 US7620628B2 (en) 2004-12-06 2004-12-06 Search processing with automatic categorization of queries
US11/006,466 2004-12-06
PCT/US2005/043196 WO2006062772A1 (en) 2004-12-06 2005-11-29 Search processing with automatic categorization of queries

Publications (2)

Publication Number Publication Date
JP2008523469A JP2008523469A (ja) 2008-07-03
JP4994243B2 true JP4994243B2 (ja) 2012-08-08

Family

ID=36575589

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007544444A Active JP4994243B2 (ja) 2004-12-06 2005-11-29 クエリの自動的カテゴリ化による検索処理

Country Status (7)

Country Link
US (1) US7620628B2 (ja)
EP (1) EP1828937A1 (ja)
JP (1) JP4994243B2 (ja)
KR (1) KR101211800B1 (ja)
CN (1) CN101111837B (ja)
HK (1) HK1117243A1 (ja)
WO (1) WO2006062772A1 (ja)

Families Citing this family (262)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7472113B1 (en) * 2004-01-26 2008-12-30 Microsoft Corporation Query preprocessing and pipelining
US8082264B2 (en) 2004-04-07 2011-12-20 Inquira, Inc. Automated scheme for identifying user intent in real-time
US7747601B2 (en) * 2006-08-14 2010-06-29 Inquira, Inc. Method and apparatus for identifying and classifying query intent
US8612208B2 (en) 2004-04-07 2013-12-17 Oracle Otc Subsidiary Llc Ontology for use with a system, method, and computer readable medium for retrieving information and response to a query
US7523099B1 (en) 2004-12-30 2009-04-21 Google Inc. Category suggestions relating to a search
US7574436B2 (en) 2005-03-10 2009-08-11 Yahoo! Inc. Reranking and increasing the relevance of the results of Internet searches
US7685191B1 (en) 2005-06-16 2010-03-23 Enquisite, Inc. Selection of advertisements to present on a web page or other destination based on search activities of users who selected the destination
US20060294071A1 (en) * 2005-06-28 2006-12-28 Microsoft Corporation Facet extraction and user feedback for ranking improvement and personalization
US9009046B1 (en) * 2005-09-27 2015-04-14 At&T Intellectual Property Ii, L.P. System and method for disambiguating multiple intents in a natural language dialog system
KR100809415B1 (ko) * 2005-12-08 2008-03-05 한국전자통신연구원 온톨로지를 활용한 정보질의 확장 시스템 및 그 방법
US7680775B2 (en) * 2005-12-13 2010-03-16 Iac Search & Media, Inc. Methods and systems for generating query and result-based relevance indexes
US20080016441A1 (en) * 2006-01-06 2008-01-17 Tabin Joshua Z Method and Apparatus to Facilitate Altering a Presentation Order for Search Results
US7725417B2 (en) * 2006-02-09 2010-05-25 Ebay Inc. Method and system to analyze rules based on popular query coverage
US7739225B2 (en) 2006-02-09 2010-06-15 Ebay Inc. Method and system to analyze aspect rules based on domain coverage of an aspect-value pair
US7640234B2 (en) 2006-02-09 2009-12-29 Ebay Inc. Methods and systems to communicate information
US9443333B2 (en) * 2006-02-09 2016-09-13 Ebay Inc. Methods and systems to communicate information
US7849047B2 (en) 2006-02-09 2010-12-07 Ebay Inc. Method and system to analyze domain rules based on domain coverage of the domain rules
US7739226B2 (en) * 2006-02-09 2010-06-15 Ebay Inc. Method and system to analyze aspect rules based on domain coverage of the aspect rules
US8380698B2 (en) * 2006-02-09 2013-02-19 Ebay Inc. Methods and systems to generate rules to identify data items
US8386469B2 (en) * 2006-02-16 2013-02-26 Mobile Content Networks, Inc. Method and system for determining relevant sources, querying and merging results from multiple content sources
US7689554B2 (en) * 2006-02-28 2010-03-30 Yahoo! Inc. System and method for identifying related queries for languages with multiple writing systems
US7747083B2 (en) * 2006-03-27 2010-06-29 Yahoo! Inc. System and method for good nearest neighbor clustering of text
US8438170B2 (en) * 2006-03-29 2013-05-07 Yahoo! Inc. Behavioral targeting system that generates user profiles for target objectives
US7921099B2 (en) * 2006-05-10 2011-04-05 Inquira, Inc. Guided navigation system
US7792967B2 (en) 2006-07-14 2010-09-07 Chacha Search, Inc. Method and system for sharing and accessing resources
US8781813B2 (en) 2006-08-14 2014-07-15 Oracle Otc Subsidiary Llc Intent management tool for identifying concepts associated with a plurality of users' queries
EP2084619A4 (en) * 2006-08-14 2014-07-23 Oracle Otc Subsidiary Llc METHOD AND DEVICE FOR DETERMINING AND CLASSIFYING A QUESTIONNAIRE
US8095476B2 (en) * 2006-11-27 2012-01-10 Inquira, Inc. Automated support scheme for electronic forms
US8671114B2 (en) * 2006-11-30 2014-03-11 Red Hat, Inc. Search results weighted by real-time sharing activity
US7822734B2 (en) * 2006-12-12 2010-10-26 Yahoo! Inc. Selecting and presenting user search results based on an environment taxonomy
ITMI20062436A1 (it) * 2006-12-19 2008-06-20 Revamping S R L Metodo di classificazione di pagine web e di organizzazione dei corrispondenti contenuti
US20080189163A1 (en) * 2007-02-05 2008-08-07 Inquira, Inc. Information management system
US20080189265A1 (en) * 2007-02-06 2008-08-07 Microsoft Corporation Techniques to manage vocabulary terms for a taxonomy system
US8930331B2 (en) 2007-02-21 2015-01-06 Palantir Technologies Providing unique views of data based on changes or rules
US9912766B2 (en) * 2007-03-23 2018-03-06 Yahoo Holdings, Inc. System and method for identifying a link and generating a link identifier for the link on a webpage
US7672937B2 (en) * 2007-04-11 2010-03-02 Yahoo, Inc. Temporal targeting of advertisements
US7809714B1 (en) 2007-04-30 2010-10-05 Lawrence Richard Smith Process for enhancing queries for information retrieval
US8909528B2 (en) * 2007-05-09 2014-12-09 Nuance Communications, Inc. Method and system for prompt construction for selection from a list of acoustically confusable items in spoken dialog systems
US8051056B2 (en) * 2007-05-29 2011-11-01 Microsoft Corporation Acquiring ontological knowledge from query logs
US20080301815A1 (en) * 2007-05-31 2008-12-04 Microsoft Corporation Detecting Unauthorized Changes to Printed Documents
US20080313142A1 (en) * 2007-06-14 2008-12-18 Microsoft Corporation Categorization of queries
US9183305B2 (en) * 2007-06-19 2015-11-10 Red Hat, Inc. Delegated search of content in accounts linked to social overlay system
US20090006311A1 (en) * 2007-06-28 2009-01-01 Yahoo! Inc. Automated system to improve search engine optimization on web pages
US8694511B1 (en) * 2007-08-20 2014-04-08 Google Inc. Modifying search result ranking based on populations
US20090094223A1 (en) * 2007-10-05 2009-04-09 Matthew Berk System and method for classifying search queries
US20090100015A1 (en) * 2007-10-11 2009-04-16 Alon Golan Web-based workspace for enhancing internet search experience
US8380731B2 (en) * 2007-12-13 2013-02-19 The Boeing Company Methods and apparatus using sets of semantically similar words for text classification
US20090171929A1 (en) * 2007-12-26 2009-07-02 Microsoft Corporation Toward optimized query suggeston: user interfaces and algorithms
US8311996B2 (en) * 2008-01-18 2012-11-13 Microsoft Corporation Generating content to satisfy underserved search queries
US8577894B2 (en) 2008-01-25 2013-11-05 Chacha Search, Inc Method and system for access to restricted resources
US8312095B2 (en) 2008-01-30 2012-11-13 International Business Machines Corporation Tracking interactive text-message communications
US9122743B2 (en) * 2008-01-30 2015-09-01 International Business Machines Corporation Enhanced search query modification
US8244752B2 (en) * 2008-04-21 2012-08-14 Microsoft Corporation Classifying search query traffic
US20090313228A1 (en) * 2008-06-13 2009-12-17 Roopnath Grandhi Method and system for clustering
US20090327268A1 (en) * 2008-06-27 2009-12-31 Microsoft Corporation Providing targeted information for entertainment-oriented searches
JP4981765B2 (ja) * 2008-08-05 2012-07-25 ヤフー株式会社 クリック履歴を用いたWeb検索における検索処理をパーソナライズする検索処理システム、端末装置及び検索処理方法
US8010537B2 (en) * 2008-08-27 2011-08-30 Yahoo! Inc. System and method for assisting search requests with vertical suggestions
US8984390B2 (en) 2008-09-15 2015-03-17 Palantir Technologies, Inc. One-click sharing for screenshots and related documents
US8843829B2 (en) * 2008-11-25 2014-09-23 Samsung Electronics Co., Ltd. Method and system for web browsing
US8346738B2 (en) * 2008-12-30 2013-01-01 International Business Machines Corporation Verification of data categorization
US20100257171A1 (en) * 2009-04-03 2010-10-07 Yahoo! Inc. Techniques for categorizing search queries
CN101876981B (zh) * 2009-04-29 2015-09-23 阿里巴巴集团控股有限公司 一种构建知识库的方法及装置
US9443209B2 (en) * 2009-04-30 2016-09-13 Paypal, Inc. Recommendations based on branding
US8719249B2 (en) * 2009-05-12 2014-05-06 Microsoft Corporation Query classification
US8478779B2 (en) * 2009-05-19 2013-07-02 Microsoft Corporation Disambiguating a search query based on a difference between composite domain-confidence factors
US8606786B2 (en) * 2009-06-22 2013-12-10 Microsoft Corporation Determining a similarity measure between queries
US20100332493A1 (en) * 2009-06-25 2010-12-30 Yahoo! Inc. Semantic search extensions for web search engines
US9104695B1 (en) 2009-07-27 2015-08-11 Palantir Technologies, Inc. Geotagging structured data
CN102033877A (zh) * 2009-09-27 2011-04-27 阿里巴巴集团控股有限公司 检索方法和装置
US9405841B2 (en) * 2009-10-15 2016-08-02 A9.Com, Inc. Dynamic search suggestion and category specific completion
KR101594577B1 (ko) * 2009-11-19 2016-02-16 삼성전자주식회사 클러스터 질의를 이용한 데이터 스트림 처리 장치 및 방법
US20110131247A1 (en) * 2009-11-30 2011-06-02 International Business Machines Corporation Semantic Management Of Enterprise Resourses
US20120259829A1 (en) * 2009-12-30 2012-10-11 Xin Zhou Generating related input suggestions
US9183288B2 (en) * 2010-01-27 2015-11-10 Kinetx, Inc. System and method of structuring data for search using latent semantic analysis techniques
US8732171B2 (en) * 2010-01-28 2014-05-20 Microsoft Corporation Providing query suggestions
US8983989B2 (en) * 2010-02-05 2015-03-17 Microsoft Technology Licensing, Llc Contextual queries
US8903794B2 (en) * 2010-02-05 2014-12-02 Microsoft Corporation Generating and presenting lateral concepts
US20110231395A1 (en) * 2010-03-19 2011-09-22 Microsoft Corporation Presenting answers
US8782046B2 (en) 2010-03-24 2014-07-15 Taykey Ltd. System and methods for predicting future trends of term taxonomies usage
US9946775B2 (en) 2010-03-24 2018-04-17 Taykey Ltd. System and methods thereof for detection of user demographic information
US8965835B2 (en) 2010-03-24 2015-02-24 Taykey Ltd. Method for analyzing sentiment trends based on term taxonomies of user generated content
US10600073B2 (en) 2010-03-24 2020-03-24 Innovid Inc. System and method for tracking the performance of advertisements and predicting future behavior of the advertisement
US8930377B2 (en) * 2010-03-24 2015-01-06 Taykey Ltd. System and methods thereof for mining web based user generated content for creation of term taxonomies
US9613139B2 (en) 2010-03-24 2017-04-04 Taykey Ltd. System and methods thereof for real-time monitoring of a sentiment trend with respect of a desired phrase
US9183292B2 (en) 2010-03-24 2015-11-10 Taykey Ltd. System and methods thereof for real-time detection of an hidden connection between phrases
US8370337B2 (en) * 2010-04-19 2013-02-05 Microsoft Corporation Ranking search results using click-based data
US20110270819A1 (en) * 2010-04-30 2011-11-03 Microsoft Corporation Context-aware query classification
US8666980B1 (en) * 2010-05-19 2014-03-04 Amazon Technologies, Inc. Virtual clickstream recommendations
US20110302149A1 (en) * 2010-06-07 2011-12-08 Microsoft Corporation Identifying dominant concepts across multiple sources
US8484201B2 (en) 2010-06-08 2013-07-09 Microsoft Corporation Comparative entity mining
CN102279856B (zh) 2010-06-09 2013-10-02 阿里巴巴集团控股有限公司 一种网站导航实现方法及系统
CN102279851B (zh) 2010-06-12 2017-05-03 阿里巴巴集团控股有限公司 一种智能导航方法、装置和系统
US8612432B2 (en) 2010-06-16 2013-12-17 Microsoft Corporation Determining query intent
US20120030164A1 (en) * 2010-07-27 2012-02-02 Oracle International Corporation Method and system for gathering and usage of live search trends
US20120117102A1 (en) * 2010-11-04 2012-05-10 Microsoft Corporation Query suggestions using replacement substitutions and an advanced query syntax
CN102063468B (zh) * 2010-12-03 2014-04-16 百度在线网络技术(北京)有限公司 一种用于确定查询序列的查询类别的设备及其方法
US8631002B2 (en) * 2010-12-09 2014-01-14 Microsoft Corporation Web-relevance based query classification
JP5426526B2 (ja) * 2010-12-21 2014-02-26 日本電信電話株式会社 確率的情報検索処理装置、確率的情報検索処理方法および確率的情報検索処理プログラム
CN102073707A (zh) * 2010-12-22 2011-05-25 百度在线网络技术(北京)有限公司 用于实时识别短文本类别信息的方法、装置及计算机设备
US8626681B1 (en) * 2011-01-04 2014-01-07 Google Inc. Training a probabilistic spelling checker from structured data
US20120179705A1 (en) * 2011-01-11 2012-07-12 Microsoft Corporation Query reformulation in association with a search box
US8484098B2 (en) 2011-03-03 2013-07-09 Michael Bilotta System for information delivery facilitating partner rating of users and user ratings of partners
WO2012119246A1 (en) * 2011-03-07 2012-09-13 Azzimov Inc. Method and system for refining a semantic search on a mobile device
CN102799591B (zh) * 2011-05-26 2015-03-04 阿里巴巴集团控股有限公司 一种提供推荐词的方法及装置
US10068022B2 (en) * 2011-06-03 2018-09-04 Google Llc Identifying topical entities
US9092482B2 (en) 2013-03-14 2015-07-28 Palantir Technologies, Inc. Fair scheduling for mixed-query loads
US9547693B1 (en) 2011-06-23 2017-01-17 Palantir Technologies Inc. Periodic database search manager for multiple data sources
US8799240B2 (en) 2011-06-23 2014-08-05 Palantir Technologies, Inc. System and method for investigating large amounts of data
US8965882B1 (en) 2011-07-13 2015-02-24 Google Inc. Click or skip evaluation of synonym rules
US8688688B1 (en) 2011-07-14 2014-04-01 Google Inc. Automatic derivation of synonym entity names
US8732574B2 (en) 2011-08-25 2014-05-20 Palantir Technologies, Inc. System and method for parameterizing documents for automatic workflow generation
US9576573B2 (en) 2011-08-29 2017-02-21 Microsoft Technology Licensing, Llc Using multiple modality input to feedback context for natural language understanding
US8504542B2 (en) 2011-09-02 2013-08-06 Palantir Technologies, Inc. Multi-row transactions
CN103034665B (zh) 2011-10-10 2016-01-06 阿里巴巴集团控股有限公司 信息查询方法和装置
CN103092856B (zh) * 2011-10-31 2015-09-23 阿里巴巴集团控股有限公司 搜索结果排序方法及设备、搜索方法及设备
CN105956137B (zh) * 2011-11-15 2019-10-01 阿里巴巴集团控股有限公司 一种搜索方法、搜索装置及一种搜索引擎系统
US8909627B1 (en) 2011-11-30 2014-12-09 Google Inc. Fake skip evaluation of synonym rules
US9152698B1 (en) 2012-01-03 2015-10-06 Google Inc. Substitute term identification based on over-represented terms identification
US8965875B1 (en) 2012-01-03 2015-02-24 Google Inc. Removing substitution rules based on user interactions
CN103218719B (zh) 2012-01-19 2016-12-07 阿里巴巴集团控股有限公司 一种电子商务网站导航方法及系统
US9141672B1 (en) 2012-01-25 2015-09-22 Google Inc. Click or skip evaluation of query term optionalization rule
CN104428767B (zh) * 2012-02-22 2018-02-06 谷歌公司 用于识别相关实体的方法、系统和装置
CN103310343A (zh) 2012-03-15 2013-09-18 阿里巴巴集团控股有限公司 商品信息发布方法和装置
JP5843235B2 (ja) * 2012-05-21 2016-01-13 株式会社プロフィールド Web情報処理装置、web情報処理方法、およびプログラム
US8959103B1 (en) * 2012-05-25 2015-02-17 Google Inc. Click or skip evaluation of reordering rules
US9146966B1 (en) 2012-10-04 2015-09-29 Google Inc. Click or skip evaluation of proximity rules
US9348677B2 (en) 2012-10-22 2016-05-24 Palantir Technologies Inc. System and method for batch evaluation programs
US9152705B2 (en) 2012-10-24 2015-10-06 Wal-Mart Stores, Inc. Automatic taxonomy merge
US9092509B2 (en) 2012-11-19 2015-07-28 Microsoft Technology Licensing, Llc Search query user interface
US9501507B1 (en) 2012-12-27 2016-11-22 Palantir Technologies Inc. Geo-temporal indexing and searching
US9380431B1 (en) 2013-01-31 2016-06-28 Palantir Technologies, Inc. Use of teams in a mobile application
US10037314B2 (en) 2013-03-14 2018-07-31 Palantir Technologies, Inc. Mobile reports
US10275778B1 (en) 2013-03-15 2019-04-30 Palantir Technologies Inc. Systems and user interfaces for dynamic and interactive investigation based on automatic malfeasance clustering of related data in various data structures
US8937619B2 (en) 2013-03-15 2015-01-20 Palantir Technologies Inc. Generating an object time series from data objects
US8909656B2 (en) 2013-03-15 2014-12-09 Palantir Technologies Inc. Filter chains with associated multipath views for exploring large data sets
US9965937B2 (en) 2013-03-15 2018-05-08 Palantir Technologies Inc. External malware data item clustering and analysis
US8917274B2 (en) 2013-03-15 2014-12-23 Palantir Technologies Inc. Event matrix based on integrated data
US8788405B1 (en) 2013-03-15 2014-07-22 Palantir Technologies, Inc. Generating data clusters with customizable analysis strategies
US8868486B2 (en) 2013-03-15 2014-10-21 Palantir Technologies Inc. Time-sensitive cube
CN103235786B (zh) * 2013-03-28 2018-12-18 北京百度网讯科技有限公司 一种用于提供长尾搜索结果的方法与设备
US9524520B2 (en) 2013-04-30 2016-12-20 Wal-Mart Stores, Inc. Training a classification model to predict categories
US9524319B2 (en) 2013-04-30 2016-12-20 Wal-Mart Stores, Inc. Search relevance
US8799799B1 (en) * 2013-05-07 2014-08-05 Palantir Technologies Inc. Interactive geospatial map
US9223773B2 (en) 2013-08-08 2015-12-29 Palatir Technologies Inc. Template system for custom document generation
US9335897B2 (en) 2013-08-08 2016-05-10 Palantir Technologies Inc. Long click display of a context menu
US8713467B1 (en) 2013-08-09 2014-04-29 Palantir Technologies, Inc. Context-sensitive views
US9785317B2 (en) 2013-09-24 2017-10-10 Palantir Technologies Inc. Presentation and analysis of user interaction data
US8938686B1 (en) 2013-10-03 2015-01-20 Palantir Technologies Inc. Systems and methods for analyzing performance of an entity
US8812960B1 (en) 2013-10-07 2014-08-19 Palantir Technologies Inc. Cohort-based presentation of user interaction data
US9116975B2 (en) 2013-10-18 2015-08-25 Palantir Technologies Inc. Systems and user interfaces for dynamic and interactive simultaneous querying of multiple data stores
US8924872B1 (en) 2013-10-18 2014-12-30 Palantir Technologies Inc. Overview user interface of emergency call data of a law enforcement agency
US9021384B1 (en) 2013-11-04 2015-04-28 Palantir Technologies Inc. Interactive vehicle information map
US8868537B1 (en) 2013-11-11 2014-10-21 Palantir Technologies, Inc. Simple web search
CN103559326A (zh) * 2013-11-25 2014-02-05 方正国际软件有限公司 患者信息提示方法和患者信息提示系统
US9996588B2 (en) 2013-12-09 2018-06-12 International Business Machines Corporation Managing a search
US9105000B1 (en) 2013-12-10 2015-08-11 Palantir Technologies Inc. Aggregating data from a plurality of data sources
US9734217B2 (en) 2013-12-16 2017-08-15 Palantir Technologies Inc. Methods and systems for analyzing entity performance
US9552615B2 (en) 2013-12-20 2017-01-24 Palantir Technologies Inc. Automated database analysis to detect malfeasance
US10356032B2 (en) 2013-12-26 2019-07-16 Palantir Technologies Inc. System and method for detecting confidential information emails
US8832832B1 (en) 2014-01-03 2014-09-09 Palantir Technologies Inc. IP reputation
US9043696B1 (en) 2014-01-03 2015-05-26 Palantir Technologies Inc. Systems and methods for visual definition of data associations
US9483162B2 (en) 2014-02-20 2016-11-01 Palantir Technologies Inc. Relationship visualizations
US9009827B1 (en) 2014-02-20 2015-04-14 Palantir Technologies Inc. Security sharing system
US9727376B1 (en) 2014-03-04 2017-08-08 Palantir Technologies, Inc. Mobile tasks
US8924429B1 (en) 2014-03-18 2014-12-30 Palantir Technologies Inc. Determining and extracting changed data from a data source
US9857958B2 (en) 2014-04-28 2018-01-02 Palantir Technologies Inc. Systems and user interfaces for dynamic and interactive access of, investigation of, and analysis of data objects stored in one or more databases
US9009171B1 (en) 2014-05-02 2015-04-14 Palantir Technologies Inc. Systems and methods for active column filtering
US9619557B2 (en) 2014-06-30 2017-04-11 Palantir Technologies, Inc. Systems and methods for key phrase characterization of documents
US9129219B1 (en) 2014-06-30 2015-09-08 Palantir Technologies, Inc. Crime risk forecasting
US9535974B1 (en) 2014-06-30 2017-01-03 Palantir Technologies Inc. Systems and methods for identifying key phrase clusters within documents
US9202249B1 (en) 2014-07-03 2015-12-01 Palantir Technologies Inc. Data item clustering and analysis
US9256664B2 (en) 2014-07-03 2016-02-09 Palantir Technologies Inc. System and method for news events detection and visualization
US9785773B2 (en) 2014-07-03 2017-10-10 Palantir Technologies Inc. Malware data item analysis
US10572496B1 (en) 2014-07-03 2020-02-25 Palantir Technologies Inc. Distributed workflow system and database with access controls for city resiliency
US9021260B1 (en) 2014-07-03 2015-04-28 Palantir Technologies Inc. Malware data item analysis
US9454281B2 (en) 2014-09-03 2016-09-27 Palantir Technologies Inc. System for providing dynamic linked panels in user interface
US9767172B2 (en) 2014-10-03 2017-09-19 Palantir Technologies Inc. Data aggregation and analysis system
US9501851B2 (en) 2014-10-03 2016-11-22 Palantir Technologies Inc. Time-series analysis system
US9785328B2 (en) 2014-10-06 2017-10-10 Palantir Technologies Inc. Presentation of multivariate data on a graphical user interface of a computing system
US9984133B2 (en) 2014-10-16 2018-05-29 Palantir Technologies Inc. Schematic and database linking system
US9229952B1 (en) 2014-11-05 2016-01-05 Palantir Technologies, Inc. History preserving data pipeline system and method
US9043894B1 (en) 2014-11-06 2015-05-26 Palantir Technologies Inc. Malicious software detection in a computing system
CN104462918A (zh) * 2014-12-02 2015-03-25 黑龙江大学 基于自适应非均匀量化的人脸生物密钥生成方法
US10346438B2 (en) * 2014-12-09 2019-07-09 International Business Machines Corporation Model navigation constrained by classification
US10552994B2 (en) 2014-12-22 2020-02-04 Palantir Technologies Inc. Systems and interactive user interfaces for dynamic retrieval, analysis, and triage of data items
US9348920B1 (en) 2014-12-22 2016-05-24 Palantir Technologies Inc. Concept indexing among database of documents using machine learning techniques
US9367872B1 (en) 2014-12-22 2016-06-14 Palantir Technologies Inc. Systems and user interfaces for dynamic and interactive investigation of bad actor behavior based on automatic clustering of related data in various data structures
US10362133B1 (en) 2014-12-22 2019-07-23 Palantir Technologies Inc. Communication data processing architecture
US9335911B1 (en) 2014-12-29 2016-05-10 Palantir Technologies Inc. Interactive user interface for dynamic data analysis exploration and query processing
US9870205B1 (en) 2014-12-29 2018-01-16 Palantir Technologies Inc. Storing logical units of program code generated using a dynamic programming notebook user interface
US9817563B1 (en) 2014-12-29 2017-11-14 Palantir Technologies Inc. System and method of generating data points from one or more data stores of data items for chart creation and manipulation
US10372879B2 (en) 2014-12-31 2019-08-06 Palantir Technologies Inc. Medical claims lead summary report generation
US10387834B2 (en) 2015-01-21 2019-08-20 Palantir Technologies Inc. Systems and methods for accessing and storing snapshots of a remote application in a document
US9727560B2 (en) 2015-02-25 2017-08-08 Palantir Technologies Inc. Systems and methods for organizing and identifying documents via hierarchies and dimensions of tags
EP3070622A1 (en) 2015-03-16 2016-09-21 Palantir Technologies, Inc. Interactive user interfaces for location-based data analysis
US9886467B2 (en) 2015-03-19 2018-02-06 Plantir Technologies Inc. System and method for comparing and visualizing data entities and data entity series
CN104750822B (zh) * 2015-03-31 2017-04-26 北京奇付通科技有限公司 提供搜索建议的方法和装置
US10592541B2 (en) * 2015-05-29 2020-03-17 Intel Corporation Technologies for dynamic automated content discovery
US9460175B1 (en) 2015-06-03 2016-10-04 Palantir Technologies Inc. Server implemented geographic information system with graphical interface
US9454785B1 (en) 2015-07-30 2016-09-27 Palantir Technologies Inc. Systems and user interfaces for holistic, data-driven investigation of bad actor behavior based on clustering and scoring of related data
US9996595B2 (en) 2015-08-03 2018-06-12 Palantir Technologies, Inc. Providing full data provenance visualization for versioned datasets
US9456000B1 (en) 2015-08-06 2016-09-27 Palantir Technologies Inc. Systems, methods, user interfaces, and computer-readable media for investigating potential malicious communications
US10489391B1 (en) 2015-08-17 2019-11-26 Palantir Technologies Inc. Systems and methods for grouping and enriching data items accessed from one or more databases for presentation in a user interface
US9600146B2 (en) 2015-08-17 2017-03-21 Palantir Technologies Inc. Interactive geospatial map
US10102369B2 (en) 2015-08-19 2018-10-16 Palantir Technologies Inc. Checkout system executable code monitoring, and user account compromise determination system
US10853378B1 (en) 2015-08-25 2020-12-01 Palantir Technologies Inc. Electronic note management via a connected entity graph
US11150917B2 (en) 2015-08-26 2021-10-19 Palantir Technologies Inc. System for data aggregation and analysis of data from a plurality of data sources
US9485265B1 (en) 2015-08-28 2016-11-01 Palantir Technologies Inc. Malicious activity detection system capable of efficiently processing data accessed from databases and generating alerts for display in interactive user interfaces
US10706434B1 (en) 2015-09-01 2020-07-07 Palantir Technologies Inc. Methods and systems for determining location information
US9639580B1 (en) 2015-09-04 2017-05-02 Palantir Technologies, Inc. Computer-implemented systems and methods for data management and visualization
US9576015B1 (en) 2015-09-09 2017-02-21 Palantir Technologies, Inc. Domain-specific language for dataset transformations
US10296617B1 (en) 2015-10-05 2019-05-21 Palantir Technologies Inc. Searches of highly structured data
US10380192B2 (en) * 2015-12-08 2019-08-13 Oath Inc. Method and system for providing context based query suggestions
US9542446B1 (en) 2015-12-17 2017-01-10 Palantir Technologies, Inc. Automatic generation of composite datasets based on hierarchical fields
US10109094B2 (en) 2015-12-21 2018-10-23 Palantir Technologies Inc. Interface to index and display geospatial data
US10089289B2 (en) 2015-12-29 2018-10-02 Palantir Technologies Inc. Real-time document annotation
US9823818B1 (en) 2015-12-29 2017-11-21 Palantir Technologies Inc. Systems and interactive user interfaces for automatic generation of temporal representation of data objects
US9612723B1 (en) 2015-12-30 2017-04-04 Palantir Technologies Inc. Composite graphical interface with shareable data-objects
JP6203304B2 (ja) * 2016-02-19 2017-09-27 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム
US10698938B2 (en) 2016-03-18 2020-06-30 Palantir Technologies Inc. Systems and methods for organizing and identifying documents via hierarchies and dimensions of tags
US10068199B1 (en) 2016-05-13 2018-09-04 Palantir Technologies Inc. System to catalogue tracking data
CN105871549B (zh) * 2016-06-13 2018-12-25 四川特伦特科技股份有限公司 一种数字信号加密处理方法
US10719188B2 (en) 2016-07-21 2020-07-21 Palantir Technologies Inc. Cached database and synchronization system for providing dynamic linked panels in user interface
US10324609B2 (en) 2016-07-21 2019-06-18 Palantir Technologies Inc. System for providing dynamic linked panels in user interface
US9686357B1 (en) 2016-08-02 2017-06-20 Palantir Technologies Inc. Mapping content delivery
US10437840B1 (en) 2016-08-19 2019-10-08 Palantir Technologies Inc. Focused probabilistic entity resolution from multiple data sources
US20180137178A1 (en) * 2016-11-11 2018-05-17 International Business Machines Corporation Accessing data and performing a data processing command on the data with a single user input
US10318630B1 (en) 2016-11-21 2019-06-11 Palantir Technologies Inc. Analysis of large bodies of textual data
JP6867579B2 (ja) * 2016-11-25 2021-04-28 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理システム、その制御方法及びプログラム
JP2018085021A (ja) * 2016-11-25 2018-05-31 キヤノンマーケティングジャパン株式会社 情報処理装置、情報処理システム、その制御方法及びプログラム
US10515433B1 (en) 2016-12-13 2019-12-24 Palantir Technologies Inc. Zoom-adaptive data granularity to achieve a flexible high-performance interface for a geospatial mapping system
US10270727B2 (en) 2016-12-20 2019-04-23 Palantir Technologies, Inc. Short message communication within a mobile graphical map
US10460602B1 (en) 2016-12-28 2019-10-29 Palantir Technologies Inc. Interactive vehicle information mapping system
US10579239B1 (en) 2017-03-23 2020-03-03 Palantir Technologies Inc. Systems and methods for production and display of dynamically linked slide presentations
WO2018209086A1 (en) * 2017-05-10 2018-11-15 Agora Intelligence, Inc. d/b/a Crowdz Method, apparatus, and computer-readable medium for generating categorical and criterion-based search results from a search query
US11334216B2 (en) 2017-05-30 2022-05-17 Palantir Technologies Inc. Systems and methods for visually presenting geospatial information
US10895946B2 (en) 2017-05-30 2021-01-19 Palantir Technologies Inc. Systems and methods for using tiled data
US10956406B2 (en) 2017-06-12 2021-03-23 Palantir Technologies Inc. Propagated deletion of database records and derived data
US11580115B2 (en) * 2017-06-29 2023-02-14 Ebay Inc. Identification of intent and non-intent query portions
US10403011B1 (en) 2017-07-18 2019-09-03 Palantir Technologies Inc. Passing system with an interactive user interface
CN107943943B (zh) * 2017-11-23 2020-11-03 北京小度信息科技有限公司 用户相似度的确定方法、装置、电子设备及存储介质
US10371537B1 (en) 2017-11-29 2019-08-06 Palantir Technologies Inc. Systems and methods for flexible route planning
US11599706B1 (en) 2017-12-06 2023-03-07 Palantir Technologies Inc. Systems and methods for providing a view of geospatial information
US10698756B1 (en) 2017-12-15 2020-06-30 Palantir Technologies Inc. Linking related events for various devices and services in computer log files on a centralized server
US11599369B1 (en) 2018-03-08 2023-03-07 Palantir Technologies Inc. Graphical user interface configuration system
US10866976B1 (en) * 2018-03-20 2020-12-15 Amazon Technologies, Inc. Categorical exploration facilitation responsive to broad search queries
US10831797B2 (en) * 2018-03-23 2020-11-10 International Business Machines Corporation Query recognition resiliency determination in virtual agent systems
US10896234B2 (en) 2018-03-29 2021-01-19 Palantir Technologies Inc. Interactive geographical map
US10830599B2 (en) 2018-04-03 2020-11-10 Palantir Technologies Inc. Systems and methods for alternative projections of geographical information
US11585672B1 (en) 2018-04-11 2023-02-21 Palantir Technologies Inc. Three-dimensional representations of routes
US10754822B1 (en) 2018-04-18 2020-08-25 Palantir Technologies Inc. Systems and methods for ontology migration
US10885021B1 (en) 2018-05-02 2021-01-05 Palantir Technologies Inc. Interactive interpreter and graphical user interface
US10429197B1 (en) 2018-05-29 2019-10-01 Palantir Technologies Inc. Terrain analysis for automatic route determination
US11119630B1 (en) 2018-06-19 2021-09-14 Palantir Technologies Inc. Artificial intelligence assisted evaluations and user interface for same
US10467435B1 (en) 2018-10-24 2019-11-05 Palantir Technologies Inc. Approaches for managing restrictions for middleware applications
US11025672B2 (en) 2018-10-25 2021-06-01 Palantir Technologies Inc. Approaches for securing middleware data access
RU2721159C1 (ru) 2018-12-13 2020-05-18 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер генерирования мета-признака для ранжирования документов
US11170035B2 (en) * 2019-03-29 2021-11-09 Snap Inc. Context based media curation
KR102215263B1 (ko) * 2019-04-09 2021-02-15 카페24 주식회사 Sql 쿼리의 유형을 분류하는 방법, 이상 상황 발생 여부 결정 방법 및 컴퓨팅 디바이스
KR102425770B1 (ko) * 2020-04-13 2022-07-28 네이버 주식회사 급상승 검색어 제공 방법 및 시스템
CN112597180A (zh) * 2020-11-20 2021-04-02 深圳市世强元件网络有限公司 电子元件售卖平台服务项目搜索方法、装置及计算机设备
KR102342314B1 (ko) * 2021-07-23 2021-12-22 주식회사 델버 의약품의 품질데이터에 기반하여 질의데이터에 대한 응답을 제공하는 방법, 서버 및 컴퓨터프로그램

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5619709A (en) * 1993-09-20 1997-04-08 Hnc, Inc. System and method of context vector generation and retrieval
US6460034B1 (en) * 1997-05-21 2002-10-01 Oracle Corporation Document knowledge base research and retrieval system
EP1062602B8 (en) 1998-02-13 2018-06-13 Oath Inc. Search engine using sales and revenue to weight search results
AU5233099A (en) 1998-07-24 2000-02-14 Jarg Corporation Search system and method based on multiple ontologies
US6317722B1 (en) 1998-09-18 2001-11-13 Amazon.Com, Inc. Use of electronic shopping carts to generate personal recommendations
US6480843B2 (en) 1998-11-03 2002-11-12 Nec Usa, Inc. Supporting web-query expansion efficiently using multi-granularity indexing and query processing
US6189002B1 (en) * 1998-12-14 2001-02-13 Dolphin Search Process and system for retrieval of documents using context-relevant semantic profiles
US6327590B1 (en) * 1999-05-05 2001-12-04 Xerox Corporation System and method for collaborative ranking of search results employing user and group profiles derived from document collection content analysis
US20030217052A1 (en) 2000-08-24 2003-11-20 Celebros Ltd. Search engine method and apparatus
WO2002019147A1 (en) 2000-08-28 2002-03-07 Emotion, Inc. Method and apparatus for digital media management, retrieval, and collaboration
US20020087346A1 (en) * 2000-11-28 2002-07-04 Harkey Scott T. Utilization of competencies as drivers in a learning network
US6766316B2 (en) 2001-01-18 2004-07-20 Science Applications International Corporation Method and system of ranking and clustering for document indexing and retrieval
US6584470B2 (en) 2001-03-01 2003-06-24 Intelliseek, Inc. Multi-layered semiotic mechanism for answering natural language questions using document retrieval combined with information extraction
US7194454B2 (en) * 2001-03-12 2007-03-20 Lucent Technologies Method for organizing records of database search activity by topical relevance
US20030115191A1 (en) 2001-12-17 2003-06-19 Max Copperman Efficient and cost-effective content provider for customer relationship management (CRM) or other applications
US7243092B2 (en) 2001-12-28 2007-07-10 Sap Ag Taxonomy generation for electronic documents
US20030220913A1 (en) * 2002-05-24 2003-11-27 International Business Machines Corporation Techniques for personalized and adaptive search services
US7406459B2 (en) * 2003-05-01 2008-07-29 Microsoft Corporation Concept network
US20040225555A1 (en) 2003-05-09 2004-11-11 Andreas Persidis System and method for generating targeted marketing resources and market performance data
US20040260677A1 (en) * 2003-06-17 2004-12-23 Radhika Malpani Search query categorization for business listings search
US7395256B2 (en) * 2003-06-20 2008-07-01 Agency For Science, Technology And Research Method and platform for term extraction from large collection of documents
US7428529B2 (en) 2004-04-15 2008-09-23 Microsoft Corporation Term suggestion for multi-sense query
US7260568B2 (en) 2004-04-15 2007-08-21 Microsoft Corporation Verifying relevance between keywords and web site contents

Also Published As

Publication number Publication date
US20060122979A1 (en) 2006-06-08
KR20070092718A (ko) 2007-09-13
WO2006062772A1 (en) 2006-06-15
JP2008523469A (ja) 2008-07-03
CN101111837A (zh) 2008-01-23
CN101111837B (zh) 2014-01-15
KR101211800B1 (ko) 2012-12-12
HK1117243A1 (en) 2009-01-09
EP1828937A1 (en) 2007-09-05
US7620628B2 (en) 2009-11-17

Similar Documents

Publication Publication Date Title
JP4994243B2 (ja) クエリの自動的カテゴリ化による検索処理
US11036814B2 (en) Search engine that applies feedback from users to improve search results
US7240049B2 (en) Systems and methods for search query processing using trend analysis
US7428533B2 (en) Automatic generation of taxonomies for categorizing queries and search query processing using taxonomies
US7346629B2 (en) Systems and methods for search processing using superunits
US7707201B2 (en) Systems and methods for managing and using multiple concept networks for assisted search processing
KR101157349B1 (ko) 탐색 결과들의 관련성을 재순위화 및 증가시키기
US8224857B2 (en) Techniques for personalized and adaptive search services
US6493702B1 (en) System and method for searching and recommending documents in a collection using share bookmarks
US7340460B1 (en) Vector analysis of histograms for units of a concept network in search query processing
US20100131563A1 (en) System and methods for automatic clustering of ranked and categorized search objects
WO2009086233A1 (en) Context-based document search
Balabanovic Learning to Surf: Multiagent systems for adaptive Web page recommendation
JP2000508450A (ja) インターネットから検索される情報を知識ベース表現を使用して編成する方法
KR20240015280A (ko) 트렌드 분석을 이용한 검색 쿼리 처리 시스템 및 방법
Zemede SPEAR: Search Personalization with Editable Profiles
Patel et al. A Survey on Web Personalization and Recommendation Techniques
JP2002230007A (ja) 検索用情報の生成方法、並びに、情報検索装置及び方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080718

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20090916

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20090916

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20090929

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20090929

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110704

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111004

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120416

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120508

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150518

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4994243

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350