JP2006285982A - 検索エンジンの関連性を改良するデータマイニング技術 - Google Patents
検索エンジンの関連性を改良するデータマイニング技術 Download PDFInfo
- Publication number
- JP2006285982A JP2006285982A JP2006073363A JP2006073363A JP2006285982A JP 2006285982 A JP2006285982 A JP 2006285982A JP 2006073363 A JP2006073363 A JP 2006073363A JP 2006073363 A JP2006073363 A JP 2006073363A JP 2006285982 A JP2006285982 A JP 2006285982A
- Authority
- JP
- Japan
- Prior art keywords
- search
- data
- classifier
- information
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005516 engineering process Methods 0.000 title description 6
- 238000007418 data mining Methods 0.000 title description 4
- 238000000034 method Methods 0.000 claims abstract description 49
- 238000012549 training Methods 0.000 claims description 35
- 230000008569 process Effects 0.000 claims description 22
- 230000006399 behavior Effects 0.000 claims description 8
- 238000003066 decision tree Methods 0.000 claims description 5
- 238000012882 sequential analysis Methods 0.000 claims description 4
- 230000002093 peripheral effect Effects 0.000 claims description 3
- 238000007670 refining Methods 0.000 claims description 2
- 230000009471 action Effects 0.000 abstract description 14
- 238000012360 testing method Methods 0.000 description 25
- 238000010586 diagram Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000003993 interaction Effects 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000002405 diagnostic procedure Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000001932 seasonal effect Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B09—DISPOSAL OF SOLID WASTE; RECLAMATION OF CONTAMINATED SOIL
- B09B—DISPOSAL OF SOLID WASTE NOT OTHERWISE PROVIDED FOR
- B09B3/00—Destroying solid waste or transforming solid waste into something useful or harmless
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B09—DISPOSAL OF SOLID WASTE; RECLAMATION OF CONTAMINATED SOIL
- B09B—DISPOSAL OF SOLID WASTE NOT OTHERWISE PROVIDED FOR
- B09B2101/00—Type of solid waste
- B09B2101/02—Gases or liquids enclosed in discarded articles, e.g. aerosol cans or cooling systems of refrigerators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B02—CRUSHING, PULVERISING, OR DISINTEGRATING; PREPARATORY TREATMENT OF GRAIN FOR MILLING
- B02C—CRUSHING, PULVERISING, OR DISINTEGRATING IN GENERAL; MILLING GRAIN
- B02C18/00—Disintegrating by knives or other cutting or tearing members which chop material into fragments
- B02C18/06—Disintegrating by knives or other cutting or tearing members which chop material into fragments with rotating knives
- B02C18/16—Details
- B02C18/18—Knives; Mountings thereof
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B30—PRESSES
- B30B—PRESSES IN GENERAL
- B30B9/00—Presses specially adapted for particular purposes
- B30B9/02—Presses specially adapted for particular purposes for squeezing-out liquid from liquid-containing material, e.g. juice from fruits, oil from oil-containing material
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B65—CONVEYING; PACKING; STORING; HANDLING THIN OR FILAMENTARY MATERIAL
- B65D—CONTAINERS FOR STORAGE OR TRANSPORT OF ARTICLES OR MATERIALS, e.g. BAGS, BARRELS, BOTTLES, BOXES, CANS, CARTONS, CRATES, DRUMS, JARS, TANKS, HOPPERS, FORWARDING CONTAINERS; ACCESSORIES, CLOSURES, OR FITTINGS THEREFOR; PACKAGING ELEMENTS; PACKAGES
- B65D88/00—Large containers
- B65D88/26—Hoppers, i.e. containers having funnel-shaped discharge sections
-
- C—CHEMISTRY; METALLURGY
- C05—FERTILISERS; MANUFACTURE THEREOF
- C05F—ORGANIC FERTILISERS NOT COVERED BY SUBCLASSES C05B, C05C, e.g. FERTILISERS FROM WASTE OR REFUSE
- C05F9/00—Fertilisers from household or town refuse
- C05F9/02—Apparatus for the manufacture
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Environmental & Geological Engineering (AREA)
- Mechanical Engineering (AREA)
- Chemical & Material Sciences (AREA)
- Organic Chemistry (AREA)
- Manufacturing & Machinery (AREA)
- Food Science & Technology (AREA)
- Dispersion Chemistry (AREA)
- Thermal Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【課題】過去の検索行動からデータの関連性を自動的に学習し、その学習を利用して将来の検索行動を助けるシステムおよび方法を提供する。
【解決手段】自動化された情報検索システムは、記憶された情報検索データを分析して、過去のユーザの情報検索行動から関連性のパターンを特定する学習コンポーネント110を含む。検索コンポーネントが学習コンポーネント110を用い、関連性パターンに少なくとも部分的に基づいて現在の検索結果のサブセットを特定する。学習コンポーネント110に従って多数の変数が処理されて、絞り込まれ、優先順位がつけられ、関連性のある検索結果を効率的に生成することができる。
【選択図】図1
【解決手段】自動化された情報検索システムは、記憶された情報検索データを分析して、過去のユーザの情報検索行動から関連性のパターンを特定する学習コンポーネント110を含む。検索コンポーネントが学習コンポーネント110を用い、関連性パターンに少なくとも部分的に基づいて現在の検索結果のサブセットを特定する。学習コンポーネント110に従って多数の変数が処理されて、絞り込まれ、優先順位がつけられ、関連性のある検索結果を効率的に生成することができる。
【選択図】図1
Description
本発明は、一般にはコンピュータシステムに関し、より詳細には、以前の検索結果のデータログに関連性分類技術を用いて、現在の検索エンジンの結果の品質を向上させるシステムおよび方法に関する。
World Wide Webとインターネットの普及を受けて、ユーザは、大量の情報源からほぼどのような事柄に関連する情報でも入手することができる。情報を見つけるために、ユーザは一般に、情報検索の作業に各種の検索エンジンを利用する。検索エンジンは、ユーザが、特定の単語またはフレーズを含むウェブページ情報あるいはインターネット上の他の題材を見つけることを可能にする。例えば、合衆国初代大統領のジョージ・ワシントンについての情報を見つけたい場合、ユーザは、「初代大統領ジョージ・ワシントン」と入力し、検索ボタンをクリックする。すると、検索エンジンが、その著名な大統領に関する情報を含んでいるウェブページの一覧を返す。しかし、単に「ワシントン」という語を入力するなどのより一般化された検索が行われた場合は、同じ名前に関する地理的な地域や機関に関連する結果のようなより多くの結果が返される。
ウェブ上には多くの検索エンジンがある。例えば、AllTheWeb(登録商標)、Askjeeves(登録商標)、Google(登録商標)、HotBot(登録商標)、Lycos(登録商標)、MSN Search(登録商標)、Teoma(登録商標)、Yahoo(登録商標)は、多くの例のいくつかに過ぎない。これらのエンジンの大半は、ユーザがブラウズするようにトピック別に編成された独自のサイトの一覧を介するか、または、ブラウザのユーザインタフェースポータルを介して入力されるキーワード検索を行うかの少なくとも2つの情報検索方式を提供する。一般に、キーワード検索は、コンピュータの能力の及ぶ限り、指定されたどの単語およびフレーズにも関連する情報を含んでいるすべてのウェブサイトを見つける。検索エンジンサイトは、ユーザがキーワードを入力する欄と、検索を開始するために押すボタンを備える。多くの検索エンジンは、検索するキーワードを効果的に使用する方法についての参考情報を提供する。そうした参考情報は通例、無関係の情報あるいは関連のない情報が返されて情報検索プロセスをごちゃごちゃにしないようにするために、ユーザが検索語をより狭く定義することを助けるように提供される。したがって、語を手作業で絞ると、特定の情報を探す際に選別すべき何千ものサイトを受け取ることを軽減する助けとなるため、ユーザの手間を多いに省く。
現在の検索技術に伴う問題の1つは、求められる結果を短い時間で生成するために、検索語を手作業で絞り込む必要があることである。別の問題は、検索エンジンが、様々なユーザのニーズと状況に関係なく、すべてのユーザに対して同じように動作することである。そのため、2人のユーザが同じ検索クエリを入力した場合は、各ユーザの興味関心、以前の検索履歴、コンピューティングの状況、あるいは環境的な状況(所在地、使用マシン、時刻、曜日など)に関係なく同じ結果が得られる。不都合なことに、現在の検索プロセスは、ユーザの実際の情報検索の目的、あるいは求められる目的についての洞察を提供しうる上記のような他の個人別の要素を考慮せずに、検索に関して明示的な指令を受け取るように設計されている。
ウェブ上の検索エンジンからデスクトップアプリケーションのユーティリティ(ヘルプシステムなど)まで、ユーザは、関心のある事柄についての未知の情報を見つけるために絶えず情報検索システムを利用する。場合によっては、そうしたトピックは、トピックの部と下位トピックの部にあらかじめ構成されている。例えば、「Yahoo(登録商標)」は、考えられるトピック(ビジネス、政府、科学等)を階層的に構成した、あらかじめ設定されたリストを提供し、ユーザは、トピックを選択し、次いでそのリスト内でさらに下位トピックを選択する。あらかじめ設定されたトピックのリストの別の例は、ヘルプトピックのリストとそれに関連する下位トピックがユーザに提供される、デスクトップパーソナルコンピュータのヘルプユーティリティで一般に見られる。このようなあらかじめ設定された階層は、状況によっては利便であるが、ユーザはしばしば、トピック構造を追うことでは見つけにくい情報、あるいはそのような規定されたリストの外側にある、かつ/またはリストに含まれない情報を検索する、あるいはそのような情報について尋ねる必要がある。そのため、ユーザが所望の情報を見つけるためにユーザが作成したクエリを指示できるように、しばしば、検索エンジンあるいは他の検索システムが用いられる。不都合な点として、ユーザは特定のクエリをどのように書く、あるいは作成すればよいか分からない場合があるので、関連のない多数のファイルが取得された時には、これはしばしばストレスとなる。その結果、多くの場合は、取得された検索結果を妥当な数のファイルに絞るために、ユーザに何度もクエリを修正させることになる。コンピュータ技術に精通していない者にとっては、これは非常に難しい可能性がある。その結果、そうした者は、必要とするものを得られない場合がある。
このジレンマの一例として、検索システムの入力クエリフィールドに単語またはフレーズを入力し、その結果、可能な候補として数千個のファイルあるいはインターネットの場合は、何百万個のウェブサイトが取得されることは珍しくない。取得された結果の多くは、共通の要素、語、あるいはフレーズを共有しているものの、対象とする事柄についてのコンテクスト上の類似性はほとんど、あるいは全くない場合があるため、取得された大量の候補を意味のあるものにするために、ユーザはしばしば、他の単語の組み合わせを試してリストをさらに絞り込む。この手法は、ユーザと、検索を行うシステムの両方にとって、不正確であり、時間がかかる。不正確であることは、ユーザが関心を持たない関連性のないファイル/サイトが何百万でなくとも何千個も取得されることに示される。大量のデータベースから可能であるが関連性のないファイルを探す際には、時間とシステムの処理速度も犠牲になる。
以下に、本発明の一部の態様の基本的な理解を提供するために本発明の要約を簡潔に述べる。この要約は、本発明の広範囲にわたる概要ではない。本発明の主要/不可欠な要素を明らかにするものでも、本発明の範囲を詳述するものでもない。その唯一の目的は、その後に述べるより詳細な説明の前置きとして、簡略化した形で本発明のいくつかの態様を示すことである。
本発明は、データマイニング技術と学習技術を用いて、情報の効率的な検索、取得、および分析を助けるシステムと方法に関する。一態様では、例えばベイズクラシファイアなどの学習コンポーネントが、複数の過去のユーザ検索行動からの情報を記憶したログからトレーニングされる。例えば、学習コンポーネントは、ログ中の黙示的または明示的なデータを分析することにより、ログ中の返された特定の結果が、ユーザにとってより関連性があるかないかを特定することができ、そのようなデータは、検索結果または結果のサブセットの関連性あるいは品質を示す。特定の一例では、返された検索結果のセットを考慮して、ユーザが特定のタイプの結果に滞在した(より多くの時間を費やしたなど)ことは、最初の検索クエリの性質を考慮して他のタイプの結果よりも高い関連性を示すものと判断することができ。継時的に過去の検索行動から学習コンポーネントがトレーニングされ、検索エンジンとともにランタイムクラシファイアとして用いられて、ユーザからエンジンに提出されたクエリから、最も関連性の高い結果をフィルタリングまたは特定することができる。このようにして、ユーザにとってより関連性が高いと思われる結果を自動的に分類することにより、ユーザが所望の情報を見つけるための時間を短縮することによって情報検索プロセスを向上させることができる。
各種の分析技術を用いて学習コンポーネントをトレーニングし、将来の情報検索プロセスを容易にすることができる。これは、ユーザが実際にある結果を選択した回数を分析して、所与のクエリに照らしたその結果の関連性を特定することを含むことができる。関連性に関して明示的なフィードバックを提供することをユーザに要求するよりもむしろ、特定の結果が開かれた回数や、ある結果にリンクされたファイルに費やされた時間、ユーザが特定のファイルをどれだけ掘り下げたか等の黙示的な要素を要求する。このようにして、どの結果が関連性があり、どの結果が関連性がないかに関してユーザから明示的にシステムに通知させることなく、関連性が自動的に特定される。以前にうまく行かなかったクエリに逐次分析技術を利用して、将来のクエリを自動的に向上させることができる。将来のクエリをリファインし、あいまいさを解消するための他の関連性ファクタには、オペレーティングシステムのバージョン、使用アプリケーションのタイプ、ハードウェア設定などの外的なデータあるいは状況データを分析することが含まれる。これは、季節や時間の影響を受ける情報などの変数の考慮をクエリに含めて、より関連性のある結果が返されることを促進することができる。
前述の目的および関連する目的を達成するために、以下の説明と添付図面との関係で本発明の幾つかの例示的態様を説明する。これら態様は、本発明が実施されることが可能な各種方式を示し、すべて本発明に包含されるものとする。本発明の他の利点および新規の特徴は、図面と併せて以下の本発明の詳細な説明を検討することで明らかになろう。
本発明は、過去に行われた検索行動から自動的にデータの関連性を学習し、その学習を利用して将来の検索行動を助けるシステムおよび方法に関する。一態様では、自動化された情報検索システムが提供される。このシステムは、記憶された情報検索データを分析して、過去のユーザの情報検索行動から関連性のパターンを特定する学習コンポーネントを含む。検索コンポーネント(例えば検索エンジン)が、学習コンポーネントを用いて、関連性パターンに少なくとも部分的に基づいて現在の検索結果のサブセットを特定する。絞り込まれ、優先順位がつけられ、関連性のある検索結果を効率的に生成するために、検索失敗データ、関連性データ、黙示的なデータ、システムデータ、アプリケーションデータ、ハードウェアデータ、時間に固有の情報などの状況データ等を含む多数の変数が、学習コンポーネントに従って処理される。
本願で使用される用語「コンポーネント」「システム」「エンジン」「クエリ」等は、ハードウェア、ハードウェアとソフトウェアの組み合わせ、ソフトウェア、実行中のソフトウェアを問わず、コンピュータに関連するエンティティを指すものとする。例えば、コンポーネントは、これらに限定しないが、プロセッサで実行されるプロセス、プロセッサ、オブジェクト、実行ファイル、実行のスレッド、プログラム、および/またはコンピュータである。例示として、サーバで実行されるアプリケーションとサーバの両方がコンポーネントとなることができる。プロセスおよび/または実行のスレッドに1つまたは複数のコンポーネントが存在することができ、コンポーネントは、1台のコンピュータに局所化しても、かつ/または2台以上のコンピュータに分散してもよい。また、こうしたコンポーネントは、各種のデータ構造が記憶された各種のコンピュータ可読媒体から実行することができる。コンポーネントは、1つまたは複数のデータパケットを有する信号に従うなどして、ローカルおよび/またはリモートのプロセスを介して通信することができる(例えば1つのコンポーネントのデータがローカルシステム、分散システムで別のコンポーネントと対話する、かつ/またはインターネットなどのネットワークを通じて信号を介して他のシステムと対話する)。
初めに図1を参照すると、本発明の一態様による自動化された情報検索システム100が示される。システム100は、データログ120からトレーニングされる学習コンポーネント110を含む。ログ120のデータは、ローカルおよびリモートのデータソースから集められることができ、複数のユーザによる以前の検索データあるいは行動130に関連する情報を含む。トレーニングの後、学習コンポーネント110は検索エンジン140とともに用いられて、関連性結果150として示す将来の検索結果を容易にする、あるいは向上させる。検索エンジン140の初期のバージョンをデータログ120の供給源とすることができる。例えば、1つまたは複数の新しい検索クエリ160が検索エンジン140によって処理される。クエリ160は、学習コンポーネント110に従って修正を加えることができ、または、以前の検索データ130からのトレーニングに部分的に基づいて、クエリによる結果がフィルタリングされる、あるいはサブセットとして特定される。一般に、システム100は、検索エンジンの関連性を向上させるために各種のデータマイニング技術を用いる。そうした技術には、例えば、関連性結果150を生成するために検索エンジン140とともに用いられるランタイムクラシファイア用の高品質のトレーニングデータを生成するために、学習コンポーネント110で関連性クラシファイアを用いることが含まれる。逐次分析を利用して、クエリ160と、同じセッションにおける異なるクエリの要求される結果を対応付けることができ、これには、下記でより詳細に説明するように、季節/時間に左右されるコンテンツを扱うために、ランタイムクラシファイアとクエリの対応付けでシステム100の状況機能を用いることが含まれる。
ナイーブベイズ(Naive Bayesian)モデルなどの機械学習技術をエンドユーザの検索データログ120に使用して生成されるクラシファイア(例えばランタイムクラシファイア)を、情報検索(IR)コンポーネントとともに用いて、高度に関連性の高い検索エンジンを形成することができる。一態様では、関連性データは、ユーザが満足した検索結果を識別してランタイムクラシファイアをトレーニングすることにより、ログ120から求められる。現在、一部のシステムは、検索結果に対するすべてのクリックまたは選択をユーザに満足された検索結果として処理している。実験の結果、ユーザが実際に選択に満足しているのは、ユーザが結果を選択した時の約3分の1であることが分かっている。したがって、「満足した」クリックまたは選択についてのトレーニングが、最適化されたクラシファイアにつながる。クリックが満足されているかどうかを知るために、明示的なフィードバックをユーザに要求することができる。しかし、多くの状況では、明示的なフィードバックを提供するのはわずかな割合のユーザに過ぎない。すべてのクリックについてのフィードバックを得るために、システム100は、明示的なフィードバックと併せてクリックを使用して、ユーザの振る舞いのデータ(例えばユーザがある結果に費やした時間、その結果からユーザがどこに移動するか、結果自体についての何らかのメタデータ等)を明示的なフィードバックに対応付ける別のクラシファイアを構築することができる。このクラシファイアは、関連性クラシファイアと呼ばれる。そして、ユーザが明示的なフィードバックを提供しなかったクリック/結果にこの関連性クラシファイアを適用してユーザの満足度を推量する。この技術は、ランタイムクラシファイアをトレーニングするための高品質のデータを提供する。
検索の際にあるクエリ160で満足の行く結果が得られない場合、ユーザは、そのクエリを修正し、再提出することができる。ユーザは、満足する1つの結果が返されるまで、このプロセスを繰り返すことができる。逐次分析などの各種のデータマイニング技術を用いて、ユーザの検索ログデータ120を分析し、うまく行かなかったクエリ(満足される結果が出なかったクエリ)を、ユーザが修正したクエリによる満足の行く結果にリンクし、それらリンクされたデータを、学習コンポーネント110のランタイムクラシファイアのためのトレーニングデータに含めることができる。検索サーバに新しいランタイムクラシファイアが配置されると、例えば、ユーザは、そのクラシファイアを用いていなかった従来の検索エンジン、または以前のバージョンの検索サーバ(新しいランタイムクラシファイアを配置する前)で満足できなかったクエリで満足の行く結果150を受け取る。
他の検討事項(considerations)には、クエリ文字列中の語だけを使用してランタイムクラシファイアをトレーニングすることが含まれる。しかし、例えば、オペレーティングシステムのバージョン、使用されたアプリケーション、プリンタがつながれているか、あるいはデジタルカメラがつながれているか等のハードウェア設定などの追加的な入力変数を含めると、クラシファイアを強化することができる。この追加情報は、ランタイムクラシファイアが潜在的なあいまいさを解決し、それにより向上した結果予測を提供することを助ける。さらに他の予測には、例えば季節/時間に影響される状況などの状況データを扱うためにクエリの対応付けを提供することが含まれる。一例では、クエリの処理段階で、語彙サービスを使用して、季節/時間に影響されるクエリを時間情報とともにバージョンに対応付ける。例えば、時期が2005年に近い時には、「カレンダー」を「カレンダー 2005年カレンダー」に対応付ける。これは、関連性結果150で2005年のカレンダーが結果一覧の一番上に現れる確率を高める。
各種の機械学習技術またはモデルを学習コンポーネント110によって適用して、継時的にデータログ120を処理できることに留意されたい。学習モデルには、ベイズネットワークやナイーブベイズクラシファイアなどのベイズ依存関係モデルを生成できるベイズ学習の使用を含む、ユーザをモデル化し、結果を判定する統計/数学的モデルとプロセス、および/または、SVM(サポートベクトルマシン)を含む他の統計的分類の方法論など、実質的にどのようなタイプのシステムも含まれることができる。他のタイプのモデルまたはシステムには、例えばニューラルネットワークや隠れマルコフモデルがある。本発明により精緻な推論モデルを用いることができるが、他の手法も利用できることは理解されたい。例えば、より徹底的な確率的手法ではなく、決定性の仮定を用いることもできる(特定のウェブサイトにX量の時間にわたって滞在しないことは、規則に従ってその結果は関連性がないことを示唆する等)。このように、不確実性のもとでの推論に加えて、ステータス、所在地、状況、関心、注目などに関して論理的な決定も行うことができる。
学習モデルは、複数の異なるデータソースから状況データを収集あるいは集約するユーザイベントデータストア(図示せず)からトレーニングされる。そのようなデータソースには、ユーザのイベントデータ(例えば携帯電話、マイクロフォンで録音された音行動、GPS(全地球測位システム)、電子カレンダー、視覚監視機器、デスクトップアクティビティ、ウェブサイトとの対話など)を記録する各種のデータ取得コンポーネントが含まれることができる。システム100は、個人別のクエリと結果の処理に対応する方式であれば、実質的にどのような方式で実施されてもよいことに留意されたい。例えば、システムは、サーバ、サーバファームとして、またはクライアントアプリケーション内に実施することができ、あるいは、検索エンジン140のユーザインタフェース(図示せず)などの検索機能と対話するウェブサービスや他の自動化されたアプリケーションを含むように、より一般化することができる。
図2に、本発明の一態様による例示的な情報検索最適化プロセス200を示す。説明を簡潔にするために、この方法論は、行為の連続あるいはいくつかの行為として図示および説明するが、本発明は行為の順序によって限定されず、一部の行為は、本発明により、ここで図示し、説明する順序と異なる順序で行っても、他の行為と同時に行ってもよいことを理解されたい。例えば、当業者は、方法論は、これに代えて、状態図などのように、相互に関連する状態あるいはイベントの連続として表してもよいことを理解されよう。さらに、本発明による方法論を実施するために図示されるすべての行為が必要とは限らない。
図2の210に進むと、1つまたは複数のデータログから過去の情報検索行動データが分析される。このデータは、ローカルのデータソース、インターネットサイトなどのリモートのデータソース、またはデータソースの組み合わせから分析される。220で、データログから1つまたは複数のクラシファイアがトレーニングされる。このクラシファイアは、ユーザ(またはシステム)の応答を観察しながら時間をかけてトレーニングされるか、または、いくらか前の時点に蓄積または集約されているデータに適用される。230で、トレーニングされたクラシファイアが、1つまたは複数の検索エンジンまたはツールに関連付けられるか、または組み込まれる。この検索エンジンまたはツールには、ローカルのデスクトップ検索機能(ヘルプツールなど)や従来のウェブサイトエンジンなどのリモートの検索エンジンが含まれることができ、また、所与のアプリケーション内で検索機能を提供するなど、アプリケーションに固有に用いられることもできる。
240で、ユーザまたはシステムによって提出された新しいクエリが、検索ツールとともに動作するトレーニングされたクラシファイアを有する検索ツールによって分析される。この分析は、アプリケーションデータ、ハードウェアデータ、時間データ、季節データ、カレンダーデータ、システムデータ、ファイルメタデータなどの各種の状況ソースを分析して個々のクエリをさらにリファインして、関連性検索結果を生成することを含むことができる。250で、トレーニングされたクラシファイアおよび/または状況データの検討から特定された検索結果のサブセットが生成され、ユーザに提供される。これは、要求される場合はユーザインタフェースを介して出力表示を生成することを含むことができる。理解できるように、本発明により生成された関連性結果は、さらに分析されることができ(クラシファイアにさらなるトレーニングを提供するなど)、したがって、トレーニングあるいは関連性をリファインするための入れ子構造の機会として働くことができる。
図3〜8は、本発明によるクラシファイアの構築とトレーニングの詳細な例に関連する。図3および4はランタイムクラシファイアの構築とスキーマの検討事項に関連し、図5〜8はクラシファイアのモデル化ツールと検討事項に関連する。但し、本発明は、図示し、説明されるこれら特定の例に限定されず、他の実施も可能であることは理解されたい。
図3を参照すると、本発明の一態様による関連性クラシファイアの検討事項(relevance classifier considerations)300が示される。関連性クラシファイア300を使用して、システムとのユーザ対話(滞在時間(dwell times)や終了のタイプなど)や状況設定情報(エントリポイント、アプリケーション、ソフトウェア設定、ハードウェア設定など)を含むユーザの黙示的なフィードバックを利用することにより、検索資産に対するユーザの満足度(明示的なフィードバックなど)を予測することができる。何らかの黙示的なフィードバック情報がファクタに変換されて、関連性クラシファイア300の生成を助ける。例えば、関連性クラシファイアへの入力は、ユーザの黙示的なフィードバックであり、出力は、ユーザが対話した結果(資産)に対するユーザの満足度である。
関連性クラシファイア300をトレーニングするために、結果レベルで、黙示的なフィードバックと明示的なフィードバックの両方とともにデータのセットが用いられる(データセットの各項目が検索の結果に相当する)(1回の検索セッションにおけるユーザからの結果との複数回の対話、またはユーザのブラウジングからある資産への移動にリンクできる)。そして、例えば結果に対する明示的なフィードバックが得られない時に、クラシファイアを使用して、黙示的なフィードバックを使用した結果に対するユーザの明示的なフィードバックを推量する。一事例では関連性クラシファイア300に決定木学習(desicion tree learning)を用いることができるが、他のタイプの学習も可能である。
310で、関連性クラシファイア300を構築し、使用するコンポーネントが次のように説明される。
1.アプリケーションを用いて、関連性クラシファイアをトレーニングおよびテストするための結果署名データのファイルを作成する。
2.トレーニングセットとテストセットに決定木学習ツールを使用して、関連性クラシファイアをトレーニングおよびテストする。
3.テスト結果が満足の行くものである場合、システムに決定木クラシファイアをロードし、そのクラシファイアを使用して検索結果に対するユーザの満足度を推量する。決定木クラシファイアは、ファイルまたはデータベースに保存することができる。
4.テスト結果が満足の行かないものである場合、それを引き起こした問題(以下に限定しないがトレーニングセット/テストセットのサイズが小さすぎる、目標分布に偏りがある、新しい関連性ファクタを定義する必要がある等の理由)を調べ、必要な場合は、問題を調べた後にプロセスを繰り返す。
2.トレーニングセットとテストセットに決定木学習ツールを使用して、関連性クラシファイアをトレーニングおよびテストする。
3.テスト結果が満足の行くものである場合、システムに決定木クラシファイアをロードし、そのクラシファイアを使用して検索結果に対するユーザの満足度を推量する。決定木クラシファイアは、ファイルまたはデータベースに保存することができる。
4.テスト結果が満足の行かないものである場合、それを引き起こした問題(以下に限定しないがトレーニングセット/テストセットのサイズが小さすぎる、目標分布に偏りがある、新しい関連性ファクタを定義する必要がある等の理由)を調べ、必要な場合は、問題を調べた後にプロセスを繰り返す。
320に、関連性クラシファイアをデータベースに保存する場合には、関連性クラシファイアを処理するためのスキーマの検討事項が示される。例えば、生成された関連性クラシファイア300は、データベース中のテーブルにロードされ、クラシファイアID(一意のID)、GUID、クラシファイア名、説明、ステータス(アクティブまたは非アクティブ)、範囲(ソフトウェアバージョンなど)、他のバージョン情報、トレーニングセットのサイズ、クラシファイア(XMLストリング)などのスキーマ属性をとることができる。別のテーブルが、UsedRelevanceFactorID(一意のID)、クラシファイアID、FactorTypeIDを含む、クラシファイアによって使用されるファクタを記憶するユーザ関連性ファクタを保持することができる。
図4に、本発明の一態様による関連性トレーニングセットの検討事項400を示す。関連性クラシファイアの生成を助けるために、上記のデータログからトレーニングセットまたはテストセットを作成するツールが提供される。410で、2つのデータファイルと1つのメタデータファイルとして出力データが生成される。例えば、各データファイルは、各結果(または資産との対話)についての1つの行と、各ファクタと明示的なフィードバックについての1つの列を含む。ファクタ値は、「,」または他の記号で区切ることができる。メタデータファイルは、一般に、各行につき、各ファクタと、ある者との明示的なフィードバックについての情報を含む。420で、トレーニングセットとテストセットのデータソースは、上記のデータログである。システムは、どのデータ項目がトレーニング用で、どの項目がテスト用であるかを判定する内蔵ロジックを有することができる。430で、クラシファイアを構築するパラメータが指定される。このパラメータには、トレーニング/テストセットとメタデータファイルを生成するために文字列で指定されたファイル名;データの開始点を定義する開始日;データの終了点を定義する終了日;サーバ名;データセットが作成されることが可能なエントリポイントが含まれうる。
図5に、本発明の一態様によるランタイムクラシファイアの作成処理500を示す。一般には、以下の行為が、500でランタイムクラシファイアを作成する際に作者によってとられることができる。510に進んで、カタログ名、日付の範囲、ランタイムクラシファイア名、説明(オプション)、対象バージョン、ユーザが注釈をつけたデータ、または作者が注釈をつけたデータ、またはそれら2つの組み合わせを含んでいるデータソースなどの情報を提供することにより、ランタイムクラシファイアをトレーニングする。システムは、工程の最後にランタイムクラシファイアのIDを返すか、エラーの場合はエラーメッセージを返す。520で、ランタイムクラシファイアID、および日付の範囲(デフォルト値はクラシファイアをトレーニングする時に使用した値にすべき)を提供することにより、モデルの評価(回帰テスト)を実行する。530で、評価レポートを読み、分析して、クラシファイアが評価に合格したかどうかを判断する。
540で、ランタイムクラシファイアが530の評価に合格しなかった場合は、それを示し、診断のために550に進む。合格した場合は、ランタイムクラシファイアへの満足を示す(システムが、トレーニングセット、回帰セット、内部の診断セットを組み合わせることにより、この時に公開する最終的なクラシファイアを作成する)。540で評価に合格しなかった場合は、550に進み、以下の情報を提供することによってクラシファイアを診断し、診断の報告が作成される。この情報には、ランタイムクラシファイアのIDが含まれる(トレーニングと同じ日付範囲をここで使用することができる)。560で、診断の報告を読み、トレーニングデータを変更する処置をとる。そして、510に戻って新しいランタイムクラシファイアを再作成する。この時にトレーニングデータを変更すべきことに留意されたい。570で、ランタイムクラシファイアが、配置するために検索エンジンに公開できる状態になる。500では一部の行為を自動化できることに留意されたい。500で、ランタイムクラシファイアとそのメタデータを、すべてのプロセスに共有されるデータベースに保存することができる。
図6に、本発明の一態様によるクラシファイアデータを混合する際の検討事項を示す。この態様では、検索エンジンのデータログから得られるユーザによって注釈がつけられたデータ610と、検索の作者から得られるユーザと作者によって注釈がつけられたデータ620を含む少なくとも2つの供給源から、クラシファイアをトレーニングするためのデータの注釈を得ることができる。一般には、これらのタイプのデータを次のように異なる組み合わせで混合することができる。
Wuser * User_annotated_data ∪ Wauthor * Author_ annotated_data。
Wuserは、ユーザによって注釈がつけられたデータ610の各対に与えられる重みであり、Wauthorは、作者によって注釈がつけられたデータ620の各対に与えられる重みである。
図7に、本発明の一態様によるクラシファイアのテストツール700を示す。一態様では、ツール700は、提供されたランタイムクラシファイアIDに基づいてデータベースからランタイムクラシファイアを抽出する。ツールは次いで、710で回帰データセットにテストを実行し、テスト結果の要約を生成する。要約は、上位1〜10位の精度、上位10位の平均ランク、テストセットの別個の未処理クエリの数、テストセットの処理された別個のクエリの数、テストセットの別個の資産の数、テストセットの処理されたクエリ/資産の別個の対の数、テストセットの合計頻度などを含むことができる。720で、1つまたは複数の診断テストをクラシファイアに行うことができる。ツール700は、指定されたランタイムクラシファイアIDに基づいて、ランタイムクラシファイアとそれに関連するメタデータを抽出する。そして、内部の診断セットでランタイムクラシファイアが評価され、いくつかの診断結果を生成する。例えば、この診断事項には、合計イベント頻度、別個のイベントの数、別個の特徴ベクトルの数、資産の数、合計特徴数、イベントについての平均特徴数、認識された特徴の平均数、合計クエリ頻度、1つの特徴ベクトル当たりの最大、最少、および平均の資産数などが含まれる。他の診断事項720には、精度の予測、ランク付けの統計、資産レベルの基準、うまく行かなかったクエリの基準、クラシファイアの比較基準、予測の混乱の基準、およびトレーニングセットとテストセットの比較基準が含まれる。理解できるように、他の基準または診断の指示が提供される。
図8に、本発明の一態様による例示的なクラシファイアモデル化システム800を示す。一般に、作者は、ツールあるいはシステム800を用いて、810の関連性マートと称されるデータベースにあるクエリと資産データからランタイムクラシファイアを構築する。生成されたランタイムクラシファイアは、モデルストア820と称される別のデータベースに保存される。トレーニング/テストデータ分割のロジックは、関連性マート810に記憶される。モデルストア820に記憶されたランタイムクラシファイアは、回帰テストコンポーネント(図示せず)を通じて評価されることができ、評価に合格するとその後公開される。
システム800は、ユーザインタフェース(UI)コンポーネント840とコマンドツール850が、指定されたトレーニングセットを使用してランタイムクラシファイアを構築し、生成されたモデルをモデルストア820に保存するためのAPI(アプリケーションプログラミングインタフェース)830を提供する。システム800は、モデルビルダコンポーネント860内部の制御の流れおよびデータの流れと、コンポーネント860と他のコンポーネントの対話を示している。モデルビルダ860は、トレーニングデータの供給源を定義するパラメータのセットを処理し、トレーニングデータをどこからどのように抽出するかを決定する。関連性マート810のユーザによる注釈がつけられたクエリについては、マート810のデータリーダが未処理データを抽出し、イベントコンストラクタがその未処理データを、次のように、ナイーブベイズトレーナによって要求されるフォーマットのイベントに変換する:資産ID;頻度;特徴。
通例、特徴はクエリ文字列の語を含むが、他のタイプの特徴が追加される。イベントリスト864がナイーブベイズクラシファイアトレーナ870(SparseNB)に渡されてランタイムクラシファイアを生成する。データライタ874が、生成されたクラシファイアモデルをメタデータ情報とともにモデルストア820に記憶する。API830は、データソース、可能な3つの値、ユーザが注釈をつけたクエリ、作者が注釈をつけたクエリ、またはその両方、カタログ、クラシファイアをトレーニングするためのカタログ、日付の範囲、トレーニングデータを選択するための開始日時間と終了日時間、最小限の予測の信頼性のパラメータを含む。イベントジェネレータ880は、データリーダ890からの未処理データを変換する。これには、例えば、クライアントサイドでの小文字への変換(一部の文化(cultures)のみ)とフレーズ一致、並びに、サーバサイドでの単語の区切り、ステミング(stemming)、クエリの拡大、統計的なスペルチェック、ノイズ語が含まれる。
図9を参照すると、本発明の各種態様を実施する例示的環境910は、コンピュータ912を含む。コンピュータ912は、処理装置914、システムメモリ916、システムバス918を含む。システムバス918は、これに限定しないがシステムメモリ916を含むシステム構成要素を処理装置914に結合する。処理装置914は、各種の利用可能プロセッサでよい。デュアルマイクロプロセッサおよび他のマルチプロセッサアーキテクチャも処理装置914として用いることができる。
システムバス918は、これらに限定しないが11ビットバス、ISA(Industrial Standard Architecture)、MSA(Micro-Channel Architecture)、EISA(Extended ISA)、IDE(Intelligent Drive Electronics)、VLB(VESA Local Bus)、PCI(Peripheral Component Interconnect)、USB(Universal Serial Bus)、AGP(Advanced Graphics Port)、PCMCIA(Personal Computer Memory Card International Associationバス)、およびSCSI(Small Computer Systems Interface)を含む各種の利用可能バスアーキテクチャを使用した、メモリバスあるいはメモリコントローラ、ペリフェラルバスあるいは外部バス、および/またはローカルバスを含む数種のバス構造のいずれでもよい。
システムメモリ916は、揮発性メモリ920と不揮発性メモリ922を含む。起動時などにコンピュータ912内の要素間の情報転送を助ける基本的ルーチンを含む基本入出力システム(BIOS)は、不揮発性メモリ922に記憶される。限定ではなく例示として、不揮発性メモリ922は、ROM(読み取り専用メモリ)、PROM(プログラマブルROM)、EPROM(電気的にプログラム可能なROM)、EEPROM(電気的に消去可能なROM)、またはフラッシュメモリを含むことができる。揮発性メモリ920は、外部キャッシュメモリとして機能するRAM(ランダムアクセスメモリ)を含む。制限ではなく例として、RAMは、SRAM(シンクロナスRAM)、DRAM(ダイナミックRAM)、SDRAM(シンクロナスDRAM)、DDR SDRAM(ダブルデータレートSDRAM)、ESDRAM(エンハンスドSDRAM)、SLDRAM(Synchlink DRAM)、DRRAM(ダイレクトRambus RAM)などの多数の形態のものを利用することができる。
コンピュータ912は、取り外し可能/取り外し不能な揮発性/不揮発性のコンピュータ記憶媒体も含む。図9には例えばディスク記憶装置924を示す。ディスク記憶装置924には、これらに限定しないが、磁気ディスクドライブ、フロッピー(登録商標)ディスクドライブ、テープドライブ、Jazドライブ、Zipドライブ、LS−100ドライブ、フラッシュメモリカード、メモリスティックのようなデバイスが含まれる。また、ディスク記憶装置924は、記憶媒体を独立して含んでも、これらに限定しないが、CD−ROM(コンパクトディスクROMドライブ)、CD−Rドライブ(記録可能CDドライブ)、CD−RWドライブ(上書き可能CDドライブ)、DVD−ROM(デジタル多用途ディスクROMドライブ)などの光ディスクドライブを含む他の記憶媒体と組み合わせて記憶媒体を含んでもよい。ディスク記憶装置924をシステムバス918に接続するのを助けるために、通例は、インタフェース926などの取り外し可能インタフェースまたは取り外し不能インタフェースが使用される。
図9は、ユーザと、適切な動作環境910に示す基本的なコンピュータリソースとの間の仲介役として機能するソフトウェアを示すことは理解されよう。そのようなソフトウェアには、オペレーティングシステム928が含まれる。オペレーティングシステム928は、ディスク記憶装置924に記憶することができ、コンピュータシステム912を制御し、システム912のリソースを割り当てる働きをする。システムアプリケーション930は、システムメモリ916またはディスク記憶装置924に記憶されたプログラムモジュール932とプログラムデータ934を通じて、オペレーティングシステム928によるリソース管理を利用する。本発明は、各種のオペレーティングシステムまたはオペレーティングシステムの組み合わせとともに実施できることは理解されたい。
ユーザは、入力装置936を通じてコンピュータ912にコマンドまたは情報を入力する。入力装置936には、これらに限定しないが、マウス、トラックボール、スタイラス、タッチパッドなどのポインティングデバイス、キーボード、マイクロフォン、ジョイスティック、ゲームパッド、衛星受信アンテナ、スキャナ、TVチューナカード、デジタルカメラ、デジタルビデオカメラ、ウェブカメラなどがある。上記および他の入力装置は、インタフェースポート938を介してシステムバス918を通じて処理装置914に接続する。インタフェースポート938には、例えばシリアルポート、パラレルポート、ゲームポート、USB(ユニバーサルシリアルバス)がある。出力装置940が使用するポートの一部は、入力装置936と同じである。したがって、例えば、USBポートを使用してコンピュータ912に入力を提供し、出力装置940にコンピュータ912からの情報を出力することができる。モニタやスピーカ、プリンタなど、出力装置940の中には特殊なアダプタを必要とするものがあることを示すために、出力アダプタ942が提供される。出力アダプタ942には、制限ではなく例示として、出力装置940とシステムバス918間の接続手段を提供するビデオカードおよびサウンドカードが含まれる。リモートコンピュータ944などの他のデバイスおよび/またはデバイスのシステムが、入力機能と出力機能の両方を備えることに留意されたい。
コンピュータ912は、リモートコンピュータ944などの1つまたは複数のリモートコンピュータとの論理接続を使用するネットワーク環境で動作することができる。リモートコンピュータ944は、パーソナルコンピュータ、サーバ、ルータ、ネットワークPC、ワークステーション、マイクロプロセッサを利用した機器、ピアデバイス、あるいは他の一般的なネットワークノード等であり、通例は、コンピュータ912に関して上述した要素の多くまたはすべてを含む。図を簡潔にするため、リモートコンピュータ944にはメモリ記憶装置946のみを示す。リモートコンピュータ944はネットワークインタフェース948を通じて論理的にコンピュータ912に接続され、そして通信接続950を介して物理的に接続される。ネットワークインタフェース948は、LAN(ローカルエリアネットワーク)とWAN(ワイドエリアネットワーク)等の通信ネットワークを包含する。LAN技術には、FDDI(ファイバー分散データインタフェース)、CDDI(銅線分散データインタフェース)、Ethernet(登録商標)/IEEE802.3、Token Ring/IEEE802.5などがある。WAN技術には、これらに限らないが、2地点間リンク、ISDN(総合サービスデジタルネットワーク)やその変種のような回線交換ネットワーク、パケット交換ネットワーク、DSL(デジタル加入者回線)がある。
通信接続950は、ネットワークインタフェース948をバス918に接続するために用いられるハードウェア/ソフトウェアを指す。図を簡潔にするために、通信接続950はコンピュータ912の中に示すが、コンピュータ912の外部にあってもよい。ネットワークインタフェース948に接続するために必要なハードウェア/ソフトウェアには、説明の目的のみで、標準的な電話グレードモデム、ケーブルモデム、DSLモデムを含むモデム、ISDNアダプタ、イーサネット(登録商標)カードなどの内部技術および外部技術が含まれる。
図10は、本発明が対話することが可能なコンピューティング環境1000の例の概略ブロック図である。システム1000は、1つまたは複数のクライアント1010を含む。クライアント1010は、ハードウェアおよび/またはソフトウェア(スレッド、プロセス、コンピューティングデバイスなど)である。システム1000は、1つまたは複数のサーバ1030も含む。サーバ1030もハードウェアおよび/またはソフトウェア(スレッド、プロセス、コンピューティングデバイスなど)である。サーバ1030は、例えば本発明を用いることにより変換を行うスレッドを保持することができる。クライアント1010とサーバ1030間で可能な通信の1つは、2つ以上のコンピュータプロセス間で送信されるように適合されたデータパケットの形態である。システム1000は、クライアント1010とサーバ1030間の通信を助けるために用いることができる通信フレームワーク1050を含む。クライアント1010は、クライアント1010にとってローカルな情報を記憶するために用いることができる1つまたは複数のクライアントデータストア1060に動作的に接続される。同様に、サーバ1030も、サーバ1030にとってローカルな情報を記憶するために用いることができる1つまたは複数のサーバデータストア1040に動作的に接続される。
上記の説明は本発明の例を含む。無論、本発明を説明する目的で構成要素あるいは方法論のあらゆる着想可能な組み合わせを記載することは可能でなく、当業者は、本発明のさらなる多数の組み合わせおよび置き換えが可能であることを認識されよう。したがって、本発明は、頭記の特許請求の範囲の主旨および範囲に該当するそのような変更、修正、変形をすべて包含するものとする。さらに、用語「〜を含む」が詳細な説明または特許請求の範囲で用いられる限りでは、この語は、用語「〜を備える」が請求項で接続語として用いられる際の解釈と同様に包含的な意味とする。
110 学習コンポーネント
120 データログ
130 以前の検索データ
140 検索エンジン
150 関連性結果
160 新しい検索クエリ
600 注釈がつけられたデータの混合の検討事項
610 ユーザが注釈をつけたデータ
620 作成が注釈をつけたデータ
700 テストツール
720 回帰テスト
730 クラシファイア診断テスト
120 データログ
130 以前の検索データ
140 検索エンジン
150 関連性結果
160 新しい検索クエリ
600 注釈がつけられたデータの混合の検討事項
610 ユーザが注釈をつけたデータ
620 作成が注釈をつけたデータ
700 テストツール
720 回帰テスト
730 クラシファイア診断テスト
Claims (20)
- 自動化された情報検索システムであって、
記憶された情報検索データを分析して、過去の情報検索行動から関連性のパターンを特定する学習コンポーネントと、
該コンポーネントを用いて、前記関連性のパターンに少なくとも部分的に基づいて現在の検索結果のサブセットを特定する検索コンポーネントと
を備えることを特徴とする情報検索システム。 - 前記学習コンポーネントは、前記検索コンポーネントの内部で使用されるランタイムクラシファイアを生成するために少なくとも1つの学習技術を用いることを特徴とする請求項1の情報検索システム。
- 前記学習技術はナイーブベイズ学習に関連することを特徴とする請求項2の情報検索システム。
- 前記検索コンポーネントは、少なくとも1つのローカルまたはリモートのデータソースに関連付けられた検索エンジンであることを特徴とする請求項1の情報検索システム。
- 前記記憶された情報検索データは、明示的または黙示的なフィードバックに関連付けられることを特徴とする請求項1の情報検索システム。
- 前記黙示的なフィードバックは、ユーザの選択、ユーザの滞在時間、ファイル取り扱い動作、コンピュータシステム情報、または状況データに関連することを特徴とする請求項5の情報検索システム。
- 前記コンピュータシステム情報は、システムバージョン情報、アプリケーション情報、ハードウェア設定情報、またはシステム周辺機器情報を含むことを特徴とする請求項6の情報検索システム。
- 前記状況データは、時間、カレンダー、または季節の情報を含むことを特徴とする請求項6の情報検索システム。
- 前記学習コンポーネントはさらに、適切なランタイムクラシファイアを作成するための品質データを識別する関連性クラシファイアを生成するための学習技術を用いることを特徴とする請求項1の情報検索システム。
- 前記関連性クラシファイアを生成するための学習技術は決定木学習に関連することを特徴とする請求項9の情報検索システム。
- 前記学習コンポーネントは、適切なランタイムクラシファイアを作成するために用いられる要求される結果に、以前にうまく行かなかったクエリを対応付けるための逐次分析技術を用いることを特徴とする請求項1の情報検索システム。
- 前記学習コンポーネントを構築するために用いられるスキーマをさらに備えることを特徴とする請求項1の情報検索システム。
- 前記スキーマは、クラシファイアID、GUID(グローバル一意識別子)、クラシファイア名、記述、ステータス、範囲、バージョン、トレーニングセットのサイズ、クラシファイア文字列、または関連性ファクタを含むことを特徴とする請求項12の情報検索システム。
- 少なくとも2つのソースからクラシファイアのためのデータを分析する混合コンポーネントをさらに備えることを特徴とする請求項1の情報検索システム。
- 前記混合コンポーネントは、ユーザが注釈をつけたデータと作者が注釈をつけたデータを処理することを特徴とする請求項14の情報検索システム。
- 前記学習コンポーネントまたは前記検索コンポーネントと対話するためのユーザインタフェースとアプリケーションプログラミングインタフェースの少なくとも1つをさらに備えることを特徴とする請求項1の情報検索システム。
- 自動化された情報検索方法であって、
黙示的および明示的なユーザフィードバックを含む過去のクエリデータログを自動的に分析するステップと、
該データログから、検索結果に対するユーザの満足度を推量するための少なくとも第1のクラシファイアを構築するステップと、
該データログおよび前記第1のクラシファイアから生成された情報から、検索エンジンの内部で使用する少なくとも第2のクラシファイアを構築するステップと、
うまく行かなかったクエリを、要求される検索結果に自動的に対応付けるステップと、
前記クラシファイアに従って前記検索結果のサブセットを自動的に特定するステップと
を備えることを特徴とする方法。 - システムデータまたは状況データを自動的に用いて、自動化された情報検索をリファインするステップをさらに備えることを特徴とする請求項17の方法。
- 前記第1のクラシファイアによって生成されたデータから前記第2のクラシファイアを自動的にトレーニングするステップをさらに備えることを特徴とする請求項17の方法。
- コンピュータの検索動作を助けるシステムであって、
黙示的なユーザ行為のパターンを含むユーザ検索データを記録する手段と、
該検索データからクラシファイアを構築する手段と、
検索結果に対するユーザの満足度を推量する手段と、
以前にうまく行かなかったクエリを、要求される検索結果に対応付ける手段と、
前記クラシファイアをトレーニングする手段と、
現在の検索要求から検索結果のサブセットを自動的に特定する手段と
を備えることを特徴とするシステム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/096,153 US20060224579A1 (en) | 2005-03-31 | 2005-03-31 | Data mining techniques for improving search engine relevance |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006285982A true JP2006285982A (ja) | 2006-10-19 |
Family
ID=36683730
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006073363A Pending JP2006285982A (ja) | 2005-03-31 | 2006-03-16 | 検索エンジンの関連性を改良するデータマイニング技術 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20060224579A1 (ja) |
EP (1) | EP1708105A1 (ja) |
JP (1) | JP2006285982A (ja) |
KR (1) | KR20060106642A (ja) |
CN (1) | CN1841380B (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011123564A (ja) * | 2009-12-08 | 2011-06-23 | Ntt Docomo Inc | 情報処理装置、情報処理システムおよび情報処理方法 |
JP2011530108A (ja) * | 2008-07-29 | 2011-12-15 | ヤフー! インコーポレイテッド | リサーチセッションの検出に基づくリサーチツールへのアクセス |
JP2012014660A (ja) * | 2010-07-05 | 2012-01-19 | Ntt Communications Corp | ノイズ除去条件決定装置、ノイズ除去条件決定方法、及びプログラム |
JP2012527701A (ja) * | 2009-05-22 | 2012-11-08 | マイクロソフト コーポレーション | 構造化されていないリソースからの句対のマイニング |
JP2018514840A (ja) * | 2015-03-02 | 2018-06-07 | ブルヴェクター, インコーポレーテッドBluvector, Inc. | 機械学習アプリケーション用のデジタルオブジェクトライブラリ管理システム |
WO2018142694A1 (ja) * | 2017-02-02 | 2018-08-09 | 日本電信電話株式会社 | 特徴量生成装置、特徴量生成方法及びプログラム |
JP2022078951A (ja) * | 2020-11-13 | 2022-05-25 | グーグル エルエルシー | オンデバイスキャッシュを使用したハイブリッドフェッチング |
Families Citing this family (93)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7146409B1 (en) | 2001-07-24 | 2006-12-05 | Brightplanet Corporation | System and method for efficient control and capture of dynamic database content |
US7571161B2 (en) * | 2005-05-13 | 2009-08-04 | Microsoft Corporation | System and method for auto-sensed search help |
US7424472B2 (en) * | 2005-05-27 | 2008-09-09 | Microsoft Corporation | Search query dominant location detection |
US7627564B2 (en) * | 2005-06-21 | 2009-12-01 | Microsoft Corporation | High scale adaptive search systems and methods |
US7577665B2 (en) * | 2005-09-14 | 2009-08-18 | Jumptap, Inc. | User characteristic influenced search results |
US20070255755A1 (en) * | 2006-05-01 | 2007-11-01 | Yahoo! Inc. | Video search engine using joint categorization of video clips and queries based on multiple modalities |
EP2049970A4 (en) * | 2006-07-24 | 2014-12-31 | Chacha Search Inc | METHOD, SYSTEM AND COMPUTER-READABLE MEMORY FOR BALADODIFFUSION AND VIDEO FORMATION IN AN INFORMATION SEARCH SYSTEM |
US20080033918A1 (en) * | 2006-08-02 | 2008-02-07 | Wilson Jeffrey L | Systems, methods and computer program products for supplemental data communication and utilization |
US8024308B2 (en) * | 2006-08-07 | 2011-09-20 | Chacha Search, Inc | Electronic previous search results log |
US8515912B2 (en) | 2010-07-15 | 2013-08-20 | Palantir Technologies, Inc. | Sharing and deconflicting data changes in a multimaster database system |
US8688749B1 (en) | 2011-03-31 | 2014-04-01 | Palantir Technologies, Inc. | Cross-ontology multi-master replication |
CA2571172C (en) | 2006-12-14 | 2012-02-14 | University Of Regina | Interactive web information retrieval using graphical word indicators |
US7908260B1 (en) * | 2006-12-29 | 2011-03-15 | BrightPlanet Corporation II, Inc. | Source editing, internationalization, advanced configuration wizard, and summary page selection for information automation systems |
US7693833B2 (en) * | 2007-02-01 | 2010-04-06 | John Nagle | System and method for improving integrity of internet search |
US7809714B1 (en) | 2007-04-30 | 2010-10-05 | Lawrence Richard Smith | Process for enhancing queries for information retrieval |
US7752201B2 (en) * | 2007-05-10 | 2010-07-06 | Microsoft Corporation | Recommendation of related electronic assets based on user search behavior |
US8037042B2 (en) | 2007-05-10 | 2011-10-11 | Microsoft Corporation | Automated analysis of user search behavior |
US7644075B2 (en) * | 2007-06-01 | 2010-01-05 | Microsoft Corporation | Keyword usage score based on frequency impulse and frequency weight |
US20080319975A1 (en) * | 2007-06-22 | 2008-12-25 | Microsoft Corporation | Exploratory Search Technique |
US20090006324A1 (en) * | 2007-06-27 | 2009-01-01 | Microsoft Corporation | Multiple monitor/multiple party searches |
US20090006358A1 (en) * | 2007-06-27 | 2009-01-01 | Microsoft Corporation | Search results |
US20090100015A1 (en) * | 2007-10-11 | 2009-04-16 | Alon Golan | Web-based workspace for enhancing internet search experience |
US7984000B2 (en) | 2007-10-31 | 2011-07-19 | Microsoft Corporation | Predicting and using search engine switching behavior |
US8073861B2 (en) * | 2007-11-15 | 2011-12-06 | Target Brands, Inc. | Identifying opportunities for effective expansion of the content of a collaboration application |
US8281166B2 (en) * | 2008-03-10 | 2012-10-02 | Virdiem Corporation | System and method for computer power control |
US8126908B2 (en) * | 2008-05-07 | 2012-02-28 | Yahoo! Inc. | Creation and enrichment of search based taxonomy for finding information from semistructured data |
US7890516B2 (en) * | 2008-05-30 | 2011-02-15 | Microsoft Corporation | Recommending queries when searching against keywords |
US8126891B2 (en) * | 2008-10-21 | 2012-02-28 | Microsoft Corporation | Future data event prediction using a generative model |
CN101727454A (zh) * | 2008-10-30 | 2010-06-09 | 日电(中国)有限公司 | 用于对象自动分类的方法和系统 |
US8041710B2 (en) * | 2008-11-13 | 2011-10-18 | Microsoft Corporation | Automatic diagnosis of search relevance failures |
GB2465773A (en) | 2008-11-27 | 2010-06-02 | Symbian Software Ltd | Data Storage and Access |
US8849790B2 (en) * | 2008-12-24 | 2014-09-30 | Yahoo! Inc. | Rapid iterative development of classifiers |
US8799279B2 (en) | 2008-12-31 | 2014-08-05 | At&T Intellectual Property I, L.P. | Method and apparatus for using a discriminative classifier for processing a query |
US9639609B2 (en) * | 2009-02-24 | 2017-05-02 | Microsoft Technology Licensing, Llc | Enterprise search method and system |
US8190647B1 (en) * | 2009-09-15 | 2012-05-29 | Symantec Corporation | Decision tree induction that is sensitive to attribute computational complexity |
CN102081625B (zh) * | 2009-11-30 | 2012-12-26 | 中国移动通信集团北京有限公司 | 一种数据查询的方法及查询服务器 |
US9785987B2 (en) | 2010-04-22 | 2017-10-10 | Microsoft Technology Licensing, Llc | User interface for information presentation system |
US20110282861A1 (en) * | 2010-05-11 | 2011-11-17 | Microsoft Corporation | Extracting higher-order knowledge from structured data |
US8631030B1 (en) | 2010-06-23 | 2014-01-14 | Google Inc. | Query suggestions with high diversity |
US9043296B2 (en) | 2010-07-30 | 2015-05-26 | Microsoft Technology Licensing, Llc | System of providing suggestions based on accessible and contextual information |
US9069843B2 (en) | 2010-09-30 | 2015-06-30 | International Business Machines Corporation | Iterative refinement of search results based on user feedback |
CN102456019A (zh) * | 2010-10-18 | 2012-05-16 | 腾讯科技(深圳)有限公司 | 检索方法及装置 |
US20120233140A1 (en) * | 2011-03-09 | 2012-09-13 | Microsoft Corporation | Context-aware query alteration |
US8918389B2 (en) * | 2011-07-13 | 2014-12-23 | Yahoo! Inc. | Dynamically altered search assistance |
CA2860322C (en) * | 2011-12-23 | 2017-06-27 | Amiato, Inc. | Scalable analysis platform for semi-structured data |
US8782004B2 (en) | 2012-01-23 | 2014-07-15 | Palantir Technologies, Inc. | Cross-ACL multi-master replication |
CN102622296B (zh) * | 2012-02-21 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 搜索引擎模块的测试方法、系统及其装置 |
US9043248B2 (en) | 2012-03-29 | 2015-05-26 | International Business Machines Corporation | Learning rewrite rules for search database systems using query logs |
US10108704B2 (en) * | 2012-09-06 | 2018-10-23 | Microsoft Technology Licensing, Llc | Identifying dissatisfaction segments in connection with improving search engine performance |
US9081975B2 (en) * | 2012-10-22 | 2015-07-14 | Palantir Technologies, Inc. | Sharing information between nexuses that use different classification schemes for information access control |
US9501761B2 (en) | 2012-11-05 | 2016-11-22 | Palantir Technologies, Inc. | System and method for sharing investigation results |
US20140250116A1 (en) * | 2013-03-01 | 2014-09-04 | Yahoo! Inc. | Identifying time sensitive ambiguous queries |
US9715576B2 (en) | 2013-03-15 | 2017-07-25 | II Robert G. Hayter | Method for searching a text (or alphanumeric string) database, restructuring and parsing text data (or alphanumeric string), creation/application of a natural language processing engine, and the creation/application of an automated analyzer for the creation of medical reports |
CN103294800B (zh) | 2013-05-27 | 2016-12-28 | 华为技术有限公司 | 一种信息推送方法及装置 |
US8886601B1 (en) | 2013-06-20 | 2014-11-11 | Palantir Technologies, Inc. | System and method for incrementally replicating investigative analysis data |
US9524510B2 (en) * | 2013-10-02 | 2016-12-20 | Turn Inc. | Adaptive fuzzy fallback stratified sampling for fast reporting and forecasting |
US9569070B1 (en) | 2013-11-11 | 2017-02-14 | Palantir Technologies, Inc. | Assisting in deconflicting concurrency conflicts |
US9009827B1 (en) | 2014-02-20 | 2015-04-14 | Palantir Technologies Inc. | Security sharing system |
US10642845B2 (en) * | 2014-05-30 | 2020-05-05 | Apple Inc. | Multi-domain search on a computing device |
US9703862B2 (en) | 2014-06-12 | 2017-07-11 | International Business Machines Corporation | Engagement summary generation |
US9547471B2 (en) * | 2014-07-03 | 2017-01-17 | Microsoft Technology Licensing, Llc | Generating computer responses to social conversational inputs |
US10572496B1 (en) | 2014-07-03 | 2020-02-25 | Palantir Technologies Inc. | Distributed workflow system and database with access controls for city resiliency |
US10460720B2 (en) | 2015-01-03 | 2019-10-29 | Microsoft Technology Licensing, Llc. | Generation of language understanding systems and methods |
US9658938B2 (en) * | 2015-03-30 | 2017-05-23 | Fujtsu Limited | Iterative test generation based on data source analysis |
US10402469B2 (en) | 2015-10-16 | 2019-09-03 | Google Llc | Systems and methods of distributed optimization |
US10621198B1 (en) | 2015-12-30 | 2020-04-14 | Palantir Technologies Inc. | System and method for secure database replication |
CN105939323A (zh) * | 2015-12-31 | 2016-09-14 | 杭州迪普科技有限公司 | 数据包过滤方法及装置 |
CN107103003B (zh) * | 2016-02-23 | 2021-03-26 | 创新先进技术有限公司 | 获取链路中数据的方法、获取设备、处理设备和系统 |
US20180089587A1 (en) | 2016-09-26 | 2018-03-29 | Google Inc. | Systems and Methods for Communication Efficient Distributed Mean Estimation |
US11196800B2 (en) | 2016-09-26 | 2021-12-07 | Google Llc | Systems and methods for communication efficient distributed mean estimation |
US10769549B2 (en) * | 2016-11-21 | 2020-09-08 | Google Llc | Management and evaluation of machine-learned models based on locally logged data |
US10262053B2 (en) | 2016-12-22 | 2019-04-16 | Palantir Technologies Inc. | Systems and methods for data replication synchronization |
US10691751B2 (en) * | 2017-01-23 | 2020-06-23 | The Trade Desk, Inc. | Data processing system and method of associating internet devices based upon device usage |
WO2018176215A1 (en) * | 2017-03-28 | 2018-10-04 | Oracle International Corporation | Systems and methods for intelligently providing supporting information using machine-learning |
US10540683B2 (en) * | 2017-04-24 | 2020-01-21 | Microsoft Technology Licensing, Llc | Machine-learned recommender system for performance optimization of network-transferred electronic content items |
US10068002B1 (en) | 2017-04-25 | 2018-09-04 | Palantir Technologies Inc. | Systems and methods for adaptive data replication |
US10430062B2 (en) | 2017-05-30 | 2019-10-01 | Palantir Technologies Inc. | Systems and methods for geo-fenced dynamic dissemination |
US11030494B1 (en) | 2017-06-15 | 2021-06-08 | Palantir Technologies Inc. | Systems and methods for managing data spills |
CN107633051A (zh) * | 2017-09-15 | 2018-01-26 | 努比亚技术有限公司 | 桌面搜索方法、移动终端及计算机可读存储介质 |
CN107808004B (zh) * | 2017-11-15 | 2021-02-26 | 北京百度网讯科技有限公司 | 模型训练方法和系统、服务器、存储介质 |
US10380196B2 (en) | 2017-12-08 | 2019-08-13 | Palantir Technologies Inc. | Systems and methods for using linked documents |
US10915542B1 (en) | 2017-12-19 | 2021-02-09 | Palantir Technologies Inc. | Contextual modification of data sharing constraints in a distributed database system that uses a multi-master replication scheme |
US11042505B2 (en) | 2018-04-16 | 2021-06-22 | Microsoft Technology Licensing, Llc | Identification, extraction and transformation of contextually relevant content |
US11853713B2 (en) * | 2018-04-17 | 2023-12-26 | International Business Machines Corporation | Graph similarity analytics |
CN110427398A (zh) * | 2018-04-28 | 2019-11-08 | 北京资采信息技术有限公司 | 一种基于数据挖掘与分析的模型管理工具 |
US10839164B1 (en) * | 2018-10-01 | 2020-11-17 | Iqvia Inc. | Automated translation of clinical trial documents |
US11253060B2 (en) | 2018-10-31 | 2022-02-22 | American Woodmark Corporation | Modular enclosure system |
US10579372B1 (en) * | 2018-12-08 | 2020-03-03 | Fujitsu Limited | Metadata-based API attribute extraction |
US11126666B2 (en) * | 2019-03-20 | 2021-09-21 | Verizon Media Inc. | Temporal clustering of non-stationary data |
US11170007B2 (en) | 2019-04-11 | 2021-11-09 | International Business Machines Corporation | Headstart for data scientists |
US20210334709A1 (en) * | 2020-04-27 | 2021-10-28 | International Business Machines Corporation | Breadth-first, depth-next training of cognitive models based on decision trees |
RU2760108C1 (ru) * | 2021-03-22 | 2021-11-22 | Роман Владимирович Постников | Способ поиска данных для задач машинного обучения |
US20240143482A1 (en) * | 2022-10-31 | 2024-05-02 | Bitdrift, Inc | Systems and methods for providing a timeline view of log information for a client application |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002019167A2 (en) * | 2000-08-30 | 2002-03-07 | Richard Reisman | Task/domain segmentation in applying feedback to command control |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6389436B1 (en) * | 1997-12-15 | 2002-05-14 | International Business Machines Corporation | Enhanced hypertext categorization using hyperlinks |
WO2002095534A2 (en) * | 2001-05-18 | 2002-11-28 | Biowulf Technologies, Llc | Methods for feature selection in a learning machine |
CA2281287C (en) * | 1999-09-01 | 2003-03-11 | Ibm Canada Limited-Ibm Canada Limitee | Method and system for efficiently searching for free space in a table of a relational database having a clustering index |
US6611881B1 (en) * | 2000-03-15 | 2003-08-26 | Personal Data Network Corporation | Method and system of providing credit card user with barcode purchase data and recommendation automatically on their personal computer |
US6687696B2 (en) * | 2000-07-26 | 2004-02-03 | Recommind Inc. | System and method for personalized search, information filtering, and for generating recommendations utilizing statistical latent class models |
US7089237B2 (en) * | 2001-01-26 | 2006-08-08 | Google, Inc. | Interface and system for providing persistent contextual relevance for commerce activities in a networked environment |
US6584470B2 (en) * | 2001-03-01 | 2003-06-24 | Intelliseek, Inc. | Multi-layered semiotic mechanism for answering natural language questions using document retrieval combined with information extraction |
US7398209B2 (en) * | 2002-06-03 | 2008-07-08 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7051023B2 (en) * | 2003-04-04 | 2006-05-23 | Yahoo! Inc. | Systems and methods for generating concept units from search queries |
US7240049B2 (en) * | 2003-11-12 | 2007-07-03 | Yahoo! Inc. | Systems and methods for search query processing using trend analysis |
US7233931B2 (en) * | 2003-12-26 | 2007-06-19 | Lee Shih-Jong J | Feature regulation for hierarchical decision learning |
US7277884B2 (en) * | 2004-02-17 | 2007-10-02 | Microsoft Corporation | Method and system for generating help files based on user queries |
US20060069678A1 (en) * | 2004-09-30 | 2006-03-30 | Wu Chou | Method and apparatus for text classification using minimum classification error to train generalized linear classifier |
-
2005
- 2005-03-31 US US11/096,153 patent/US20060224579A1/en not_active Abandoned
-
2006
- 2006-02-09 KR KR1020060012471A patent/KR20060106642A/ko not_active Application Discontinuation
- 2006-02-28 CN CN2006100515696A patent/CN1841380B/zh not_active Expired - Fee Related
- 2006-03-16 JP JP2006073363A patent/JP2006285982A/ja active Pending
- 2006-03-23 EP EP06111598A patent/EP1708105A1/en not_active Withdrawn
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002019167A2 (en) * | 2000-08-30 | 2002-03-07 | Richard Reisman | Task/domain segmentation in applying feedback to command control |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011530108A (ja) * | 2008-07-29 | 2011-12-15 | ヤフー! インコーポレイテッド | リサーチセッションの検出に基づくリサーチツールへのアクセス |
US8832098B2 (en) | 2008-07-29 | 2014-09-09 | Yahoo! Inc. | Research tool access based on research session detection |
JP2012527701A (ja) * | 2009-05-22 | 2012-11-08 | マイクロソフト コーポレーション | 構造化されていないリソースからの句対のマイニング |
JP2011123564A (ja) * | 2009-12-08 | 2011-06-23 | Ntt Docomo Inc | 情報処理装置、情報処理システムおよび情報処理方法 |
JP2012014660A (ja) * | 2010-07-05 | 2012-01-19 | Ntt Communications Corp | ノイズ除去条件決定装置、ノイズ除去条件決定方法、及びプログラム |
JP2018514840A (ja) * | 2015-03-02 | 2018-06-07 | ブルヴェクター, インコーポレーテッドBluvector, Inc. | 機械学習アプリケーション用のデジタルオブジェクトライブラリ管理システム |
US10977571B2 (en) | 2015-03-02 | 2021-04-13 | Bluvector, Inc. | System and method for training machine learning applications |
WO2018142694A1 (ja) * | 2017-02-02 | 2018-08-09 | 日本電信電話株式会社 | 特徴量生成装置、特徴量生成方法及びプログラム |
JPWO2018142694A1 (ja) * | 2017-02-02 | 2019-12-12 | 日本電信電話株式会社 | 特徴量生成装置、特徴量生成方法及びプログラム |
US11829868B2 (en) | 2017-02-02 | 2023-11-28 | Nippon Telegraph And Telephone Corporation | Feature value generation device, feature value generation method, and program |
JP2022078951A (ja) * | 2020-11-13 | 2022-05-25 | グーグル エルエルシー | オンデバイスキャッシュを使用したハイブリッドフェッチング |
US11853381B2 (en) | 2020-11-13 | 2023-12-26 | Google Llc | Hybrid fetching using a on-device cache |
Also Published As
Publication number | Publication date |
---|---|
CN1841380A (zh) | 2006-10-04 |
CN1841380B (zh) | 2010-11-03 |
US20060224579A1 (en) | 2006-10-05 |
EP1708105A1 (en) | 2006-10-04 |
KR20060106642A (ko) | 2006-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2006285982A (ja) | 検索エンジンの関連性を改良するデータマイニング技術 | |
JP5247475B2 (ja) | ウェブ検索の適合性を高めるためにウェブ検索のユーザの振舞いをマイニングすること | |
US10942905B2 (en) | Systems and methods for cleansing automated robotic traffic | |
US6304864B1 (en) | System for retrieving multimedia information from the internet using multiple evolving intelligent agents | |
JP4731479B2 (ja) | 検索システム及び検索方法 | |
US7424488B2 (en) | Context-aware, adaptive approach to information selection for interactive information analysis | |
Middleton et al. | Ontological user profiling in recommender systems | |
CN1811685B (zh) | 以文档为中心的软件应用程序的面向任务的用户界面模型 | |
US7529736B2 (en) | Performant relevance improvements in search query results | |
AU2005209586B2 (en) | Systems, methods, and interfaces for providing personalized search and information access | |
US8799280B2 (en) | Personalized navigation using a search engine | |
US8239380B2 (en) | Systems and methods to tune a general-purpose search engine for a search entry point | |
US8005832B2 (en) | Search document generation and use to provide recommendations | |
US20060287980A1 (en) | Intelligent search results blending | |
US20070203869A1 (en) | Adaptive semantic platform architecture | |
US20090006343A1 (en) | Machine assisted query formulation | |
JP2013510343A (ja) | 検索結果のランク付けのための静的な関連性の特性としてのドキュメント長 | |
US8645352B2 (en) | Focused search using network addresses | |
Vijaya et al. | Metasearch engine: a technology for information extraction in knowledge computing | |
Srinivasan et al. | Defining evaluation methodologies for topical crawlers | |
Htay et al. | International Journal of Engineering Technology Research & Management |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090219 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110902 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120410 |