JP2005316999A - エンハンストドキュメント取り出しのためのコンテンツ伝播 - Google Patents
エンハンストドキュメント取り出しのためのコンテンツ伝播 Download PDFInfo
- Publication number
- JP2005316999A JP2005316999A JP2005118172A JP2005118172A JP2005316999A JP 2005316999 A JP2005316999 A JP 2005316999A JP 2005118172 A JP2005118172 A JP 2005118172A JP 2005118172 A JP2005118172 A JP 2005118172A JP 2005316999 A JP2005316999 A JP 2005316999A
- Authority
- JP
- Japan
- Prior art keywords
- documents
- metadata
- document
- relevance
- computing device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/328—Management therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99942—Manipulating data structure, e.g. compression, compaction, compilation
Abstract
【解決手段】 1つまたは複数のドキュメントを対象とする参照情報を識別する。参照情報は、1つまたは複数のドキュメントを含むデータソースとは無関係のデータの1つまたは複数のソースから識別する。データの1つまたは複数のソースから、参照情報に近い位置にあるメタデータを抽出する。1つまたは複数のドキュメントのうちの関連する複数のドキュメントのコンテンツに対するメタデータのそれぞれの特徴間の関連性が計算される。1つまたは複数のドキュメントのうちのそれぞれのドキュメントについて、メタデータの関連する部分に対し、それぞれの部分からドキュメントのオリジナルコンテンツの中への特徴の関連性を使用してインデックスが作成される。このインデックス作成機能により、1つまたは複数のエンハンストドキュメントを生成する。
【選択図】 図1
Description
KBアーティクルは、「how−to」(ヘルプ)アーティクルを見つける顧客を手助けし、製品問題を解決し(トラブルシューティング)、および/または他の何らかの手段により製品を調査することを目的として作成される。調べたところ、エンドユーザが顧客の質問に直接関係する的確なKBアーティクルを検索し、取得するのが容易であるほど、製品および関連するサポートインフラに対する顧客の満足度は高いことが判明した。したがって、以下の説明されているシステムおよび方法は、さまざまなデータソースにまたがって格納されている情報を分析してKBアーティクル関連情報(KBARI:KB article related information)を見つけることにより、コンテンツ伝播およびエンハンストドキュメント取り出しを実現する。このようなデータソースは、例えば、サービス要求ストレージリポジトリ、オンライン製品および開発者サポートグループニュースグループポスティング、検索クエリクリックスルーログ、および/またはそれらに類似のものを含む。
図面を参照すると、類似の参照番号は類似の要素を参照しているが、システムおよび方法については、好適なコンピューティング環境内で実施されているものとして説明し、図に示してある。必要とされていないが、パーソナルコンピュータによって実行される、プログラムモジュールなどのコンピュータ実行可能命令の一般的文脈においてこれらのシステムおよび方法も説明している。一般に、プログラムモジュールは、特定のタスクを実行する、または特定の抽象データ型を実施形態するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。これらのシステムおよび方法は前記の文脈において説明しているが、これ以降説明される活動およびオペレーションは、ハードウェアで実施することもできる。
より具体的には、(複数の)KBホスティングサーバ102のメタデータ抽出124では、データソース108〜114に分散して格納されている情報をマイニングして、複数のKBアーティクル106のうちのそれぞれのアーティクルに関係する情報を識別する。説明および例示するために、この識別された情報は、KB関係情報(KBARI)126と呼ばれる。KBARI 126は、例えば、実質的に一意のKBアーティクルID(例えば、GUID)、特定の(複数の)KBアーティクルへのハイパーテキストリンク、特定の(複数の)KBアーティクルへの(複数の)URI(Universal Resource Identifier)などを含む。メタデータ抽出124で製品開発者サポートニュースグループからのPSSおよび/またはニュースグループポスティング110から(複数の)サービス要求108内にKBARI 126を見つけた場合、KBARI 126に近いテキストは、KBARI 126により参照される(複数の)オリジナルKBアーティクル118に意味上および/または文脈上価値ある情報を含む可能性が非常に高い。例えば、そのようなテキストは、アーティクルタイトル、アーティクルキーワード、製品問題説明、および解決データなどを含むことができる。さらに、そのようなテキストは、現実の問題解決シナリオにおいて(複数の)エンドユーザおよび/またはPSSエンジニアにより−もっぱら製品のドキュメントを作成する仕事を請け負った専門ライタまたはベンダによってではなく−生成される可能性が高かった。
(複数の)データソース108〜114からの意味上および/または文脈上関係するKBアーティクル情報を利用するために、メタデータ抽出124が、特定されたKBARI 126の近くにある(例えば、その周囲の)テキストを抽出する。説明のため、このような抽出されたテキストは、メタデータ128として示されている。検索クエリ122のタームに実質的に最も関連する(複数の)KBアーティクル106をエンドユーザに提供するため、メタデータ抽出124ではメタデータ128を分析して、(複数の)KBアーティクル106のうちの関連するアーティクルに関して(複数の)特徴重要度(関連性)重み付け値を生成する。(抽出されたメタデータ128は、対応するKBARI 126により示されているように(複数の)KBアーティクル106に関連付けられる)。
検索プロバイダ132は、クライアントコンピューティングデバイス116のエンドユーザからKB関係検索クエリ122を受け取る。検索クエリ122の(複数の)タームが、製品調査またはトラブルシューティングの質問に関連している。一実施形態では、検索クエリ122は、拡張マークアップ言語(XML)で指定された情報を含む。エンドユーザは、多数の考えられるさまざまなアプリケーション134のどれかを使用して、ネットワーク104を介して検索クエリ122を(複数の)KBホスティングサーバ102に送信する。例えば、(複数の)アプリケーション134としては、Webブラウザ、ワードプロセッサ、電子メール、および/またはその他の種類の(複数の)コンピュータプログラムアプリケーションなどがある。
その後、取り出されたドキュメントの関連性が、クエリタームの近接度および人気度基準に照らして判定される。タームの近接度に関して、KBアーティクル106を検索する検索クエリ122の長さは、他の種類のクエリ(例えば、一般的なWeb検索についてモデル化されているクエリ)より長くてもよい。これは、製品トラブルシューティングおよび/または調査質問事項を説明するためにより多くの単語/タームが一般的に使用されるからである。この点に照らして、より多くのタームを含む可能性のあるクエリ内でできる限り多くのクエリ条件断片をカバーするKBアーティクル106を見つけるために、検索プロバイダ132では、タームの近接度を使用して、検索クエリ122内のタームに重みを付ける。近接度の値は、以下のように、曲線により重み付け係数に変換され、全文取り出しモジュールにより類似度の値が出力される。
一実施形態では、エンドユーザに提示されるクエリ関係情報を実質的に最大化するために、検索プロバイダ132は、最上位の取り出されたドキュメントのうちの1つまたは複数に対するスニペット記述を生成し、エンドユーザに対して取り出されたドキュメントの関連性をはっきりと示す(つまり、識別された資料((複数の)アーティクル)が検索クエリ122の(複数の)タームにどのように関係しているかをエンドユーザに対し明確に示す)。例示のため、(複数の)スニペット記述は、「他のデータ」130のそれぞれの(複数の)部分とともに表される。スニペット記述を生成するために、検索プロバイダ132は、そのスニペット記述について検索クエリ122に関連すると判定された取り出されたKBアーティクル106から1つまたは複数のブロックを特定し、その後、その1つまたは複数のブロック内の検索クエリ122のタームを強調する。検索プロバイダ132は、取り出されたドキュメントの一部に適用される構成可能サイズのスライディングウィンドウを持つ1つまたは複数のブロックを識別する。一実施形態では、スライディングウィンドウのサイズは、クライアントコンピューティングデバイス116上のスニペット記述表示に利用可能なUI空間に応じて決まる。
図2は、ドキュメント取り出しを機能強化するためのコンテンツ伝播を行う手順例200を示す。説明を目的とするため、この手順のオペレーションは図1のコンポーネントに関して説明する。(すべての参照番号は、そのコンポーネントが最初に導入される図面の番号から始まる)。ブロック202で、メタデータ抽出124(図1)は、データソース108〜114のうちの複数のそれぞれのデータソースからの特定のKBアーティクル106に関連する情報−知識ベースアーティクル関連情報(KBARI 126)−を識別する。ブロック204において、メタデータ抽出124は、ブロック202の識別された情報に近い特徴を抽出する。ブロック206において、メタデータ抽出124は、抽出された特徴(メタデータ128)を分析し、関連する知識ベースアーティクル106うちの対応するアーティクルに関して関連性重要尺度を生成する。ブロック208において、メタデータ抽出124は、複数の知識ベースアーティクル106のうちの関連する個々のアーティクルの中へ、対応する関連性スコアとともに抽出された特徴のインデックスを作成する。これで、新しいまたはエンハンスト知識ベースアーティクル120を生成する。
図3は、エンハンストドキュメント取り出しのデータソースのコンテンツ伝播を実現する図1のシステム100および図2の方法を完全にまたは部分的に実施することができる好適なコンピューティング環境300の一実施例を示している。図3は、エンハンストドキュメント取り出しのデータソースのコンテンツ伝播を実現する説明されているシステム、装置、および方法を(完全にまたは部分的に)実施することができる好適なコンピューティング環境300の実施例を示している。コンピューティング環境300の実施例は、好適なコンピューティング環境の一例にすぎず、本明細書で説明されているシステムおよび方法の使用または機能の範囲に関する制限を示唆する意図はない。コンピューティング環境300は、コンピューティング環境300に例示されている複数のコンポーネントの1つまたはその組合せに関係する何らかの依存関係または要件を持つものと解釈すべきでない。
エンハンストドキュメント取り出しのためのコンテンツ伝播(content propagation)を実現するシステムおよび方法は、構造上の特徴および/または方法論上の動作または活動に特有の言語で説明してあるが、請求項は、説明した特定の特徴または活動に必ずしも限定されないことは理解されるであろう。例えば、図1のシステム100は、エンハンストKBアーティクル106取り出しのデータソースのコンテンツ伝播に関して説明してあるが、説明されているシステムおよび方法は、1つまたは複数の独立のデータソースから、KBまたは製品サポートアーティクルだけでなく、参照されている任意の種類のドキュメントへマイニングされたメタデータを伝播するために使用され得る。例えば、システム100は、他の種類のドキュメントに関して、リンク、参照、タイトル、ドキュメントIDなどを含む複数のデータソースにまたがってエンハンストドキュメント取り出しのコンテンツ伝播を実現するために使用され得る。したがって、本明細書に記載の特定の特徴および活動は、請求されている主題を実施する実施例として開示されている。
異種オブジェクトのクラスタリング
例示的クラスタリングシステムおよび方法の背景
クラスタリングは、複数のオブジェクトのグループ化を伴い、検索エンジンおよび情報マイニングなどのアプリケーションで使用される。クラスタリングアルゴリズムでは、複数のオブジェクトの類似性に基づいてオブジェクトをグループ化する。例えば、Webページオブジェクトは、コンテンツ、リンク構造、またはユーザアクセスログに基づいてクラスタリングされる。ユーザのクラスタリングは、ユーザが選択したアイテムに基づく。ユーザオブジェクトは、それらのアクセス履歴に基づいてクラスタリングされる。ユーザに関連付けられたアイテムのクラスタリングは、従来、それらのアイテムを選択したユーザに基づく。さまざまなクラスタリングアルゴリズムが知られている。従来技術のクラスタリングアルゴリズムは、パーティション分割ベースのクラスタリング、階層型クラスタリング、および密度ベースのクラスタリングを含む。
クラスタリングを使用することによりメリットを持ちうるコンピュータ環境400(汎用コンピュータである)の一実施形態が図4に示されている。コンピュータ環境400は、メモリ402、プロセッサ404、クラスタリング部分408、およびサポート回路406を備える。サポート回路は、コンピュータ環境400の異なるコンポーネントが情報(つまり、データオブジェクト)を転送することができるようにする表示装置および入出力回路部分などのデバイスを備える。
sl2(x,y)=cos(hx,hy) (4)
これらの計算を使用することで、複数のノードのコンテンツ、および複数のノードの類似度が決定される。アプリケーションによっては、クラスタリングアルゴリズムに対し異なる情報値を与えるために3つの変数が変更される可能性がある。複数のノードのこれらのコンテンツおよび類似度は、それに基づき、取り出しのための基礎として使用され得る。
共分散に対し
Claims (52)
- エンハンストドキュメント取り出しのために、コンピュータによって実施されるコンテンツ伝播を実現するシステムおよび方法であって、
1つまたは複数のドキュメントを対象とする参照情報を識別するステップであって、前記参照情報が、前記1つまたは複数のドキュメントを含むデータソースと無関係のデータの1つまたは複数のソースから識別されるステップと、
前記参照情報の近くに配置されているメタデータを抽出するステップと、
前記1つまたは複数のドキュメントのうちの関連する複数のドキュメントのコンテンツに対する前記メタデータのそれぞれの特徴間の関連性を計算するステップと、
前記1つまたは複数のドキュメントのうちのそれぞれのドキュメントについて、前記メタデータの関連する部分に対し、前記それぞれの部分から前記ドキュメントのオリジナルコンテンツの中への特徴の関連性を使用してインデックスを作成するステップとを含み、
前記インデックス作成ステップにより、1つまたは複数のエンハンストドキュメントが生成されることを特徴とする方法。 - 前記参照情報は、前記1つまたは複数のドキュメントのうちの1つのドキュメントに関連付けられているリンクおよび/または実質的に一意のドキュメントIDを含むことを特徴とする請求項1に記載の方法。
- 前記1つまたは複数のドキュメントは、知識ベースアーティクル、製品ヘルプ、タスク、および/または開発者データであることを特徴とする請求項1に記載の方法。
- データの前記1つまたは複数のソースは、サービス要求、ニュースグループポスティング、および/または検索クエリログを含むことを特徴とする請求項1に記載の方法。
- 前記メタデータは、前記1つまたは複数のドキュメントのうちの複数の関連付けられているドキュメントに意味上および/または文脈上関係することを特徴とする請求項1に記載の方法。
- 前記メタデータは、ドキュメントのタイトル、製品問題の状況、および/または製品問題解決情報を含むことを特徴とする請求項1に記載の方法。
- 前記1つまたは複数のエンハンストドキュメントのうちのそれぞれのエンハンストドキュメントについて、前記エンハンストドキュメントが生成された対応するオリジナルドキュメントがあることを特徴とする請求項1に記載の方法。
- 前記関連性を計算するステップは、前記1つまたは複数のドキュメントのうちの特定の1つのドキュメントが前記メタデータ内の文脈の範囲内で何回識別されるかに基づくことを特徴とする請求項1に記載の方法。
- 前記メタデータは、アーティクルタイトル、製品問題の状況、および/または製品問題解決情報を含み、関連性を計算するステップは、さらに、前記アーティクルタイトルおよび/または製品問題の状況に重みを付けて、製品問題解決情報より高い関連性を示すステップを含むことを特徴とする請求項1に記載の方法。
- 関連性を計算するステップは、さらに、前記データソースのコンテンツ内で、前記コンテンツ内の他のメタデータ特徴の出現の頻度と比較してより大きな頻度で出現する前記メタデータの特徴に対し、より大きな関連性を割り当てるステップを含むことを特徴とする請求項1に記載の方法。
- 関連性を計算するステップは、さらに、前記1つまたは複数のドキュメントのうちの1つのドキュメント内で見つかった前記メタデータの特徴に対し、前記ドキュメントの経過期間に応じて、より大きな重みを割り当てるステップを含むことを特徴とする請求項1に記載の方法。
- データの前記1つまたは複数のソースは、検索クエリログを含み、関連性を計算するステップは、さらに、
前記検索クエリログから、前記データソースを検索するために比較的大きな出現頻度(FOO)を持つ検索クエリを識別するステップと、
検索クエリ結果からエンドユーザにより選択された、前記データソースからのアーティクルを決定するステップと、
選択されなかった前記検索クエリ内のアーティクルである欠損エンドユーザ選択を決定するステップとを含むことを特徴とする請求項1に記載の方法。 - 欠損エンドユーザ選択を決定するステップは、さらに、層間リンクを使用して異種オブジェクトをクラスタリングし、前記異種オブジェクトの複数の特徴に対する重要性尺度を決定するステップを含み、前記異種オブジェクトは、類似のクエリの第1のクラスタと、関係するドキュメントの第2のクラスタとを含み、前記類似のクエリは前記検索クエリログで識別されており、前記類似のクエリは前記1つまたは複数のドキュメントを含む関連付けられた検索結果であり、前記関係するドキュメントは、前記関係する複数のドキュメントの個々の複数のドキュメントが前記複数の検索結果からエンドユーザにより選択されたか否かに関係なく前記検索結果で識別されることを特徴とする請求項12に記載の方法。
- 前記複数の特徴は、前記第1および第2のクラスタ内のそれぞれの複数のノードにより表され、前記複数のノードのそれぞれに対する前記重要性尺度は、前記第1および第2のクラスタ内のオブジェクト間の距離を測定する類似度関数に基づくことを特徴とする請求項13に記載の方法。
- エンハンストドキュメント取り出しのためのコンテンツ伝播を実現するコンピュータ実行可能命令を格納したコンピュータ可読媒体であって、前記コンピュータ実行可能命令は、
1つまたは複数のドキュメントを対象とする参照情報を識別するための命令であって、前記参照情報が、前記1つまたは複数のドキュメントを含むデータソースと無関係のデータの1つまたは複数のソースから識別されるステップと、
前記参照情報の近くに配置されているメタデータを抽出するステップと、
前記1つまたは複数のドキュメントのうちの関連する複数のドキュメントのコンテンツに対する前記メタデータのそれぞれの特徴間の関連性を計算するステップと、
前記1つまたは複数のドキュメントのうちのそれぞれのドキュメントについて、前記メタデータの関連する部分に対し、前記それぞれの部分から前記ドキュメントのオリジナルコンテンツの中への特徴の関連性を使用してインデックスを作成するステップとを含み、
前記インデックス作成ステップにより、1つまたは複数のエンハンストドキュメントが生成されることを特徴とするコンピュータ可読媒体。 - 前記参照情報は、前記1つまたは複数のドキュメントのうちの1つのドキュメントに関連付けられているリンクおよび/または実質的に一意のドキュメントIDを含むことを特徴とする請求項15に記載のコンピュータ可読媒体。
- 前記1つまたは複数のドキュメントは、知識ベースアーティクル、製品ヘルプ、タスク、および/または開発者データであることを特徴とする請求項15に記載のコンピュータ可読媒体。
- データの前記1つまたは複数のソースは、サービス要求、ニュースグループポスティング、および/または検索クエリログを含むことを特徴とする請求項15に記載のコンピュータ可読媒体。
- 前記メタデータは、前記1つまたは複数のドキュメントのうちの複数の関連付けられているドキュメントに意味上および/または文脈上関係することを特徴とする請求項15に記載のコンピュータ可読媒体。
- 前記メタデータは、ドキュメントのタイトル、製品問題の状況、および/または製品問題解決情報を含むことを特徴とする請求項15に記載のコンピュータ可読媒体。
- 前記1つまたは複数のエンハンストドキュメントのうちのそれぞれのエンハンストドキュメントについて、前記エンハンストドキュメントが生成された対応するオリジナルドキュメントがあることを特徴とする請求項15に記載のコンピュータ可読媒体。
- 前記関連性を計算するステップは、前記1つまたは複数のドキュメントのうちの特定の1つのドキュメントが前記メタデータ内の文脈の範囲内で何回識別されるかに基づくことを特徴とする請求項15に記載のコンピュータ可読媒体。
- 前記メタデータは、アーティクルタイトル、製品問題の状況、および/または製品問題解決情報を含み、関連性を計算する前記命令は、さらに、前記アーティクルタイトルおよび/または製品問題の状況に重みを付けて、製品問題解決情報より高い関連性を示す命令を含むことを特徴とする請求項15に記載のコンピュータ可読媒体。
- 関連性を計算する前記ステップは、さらに、前記データソースのコンテンツ内で、前記コンテンツ内の他のメタデータ特徴の出現の頻度と比較してより大きな頻度で出現する前記メタデータの特徴に対し、より大きな関連性を割り当てる命令を含むことを特徴とする請求項15に記載のコンピュータ可読媒体。
- 関連性を計算する前記ステップは、さらに、前記1つまたは複数のドキュメントのうちの1つのドキュメント内で見つかった前記メタデータの特徴に対し、前記ドキュメントの経過期間に応じて、より大きな重みを割り当てるステップを含むことを特徴とする請求項15に記載のコンピュータ可読媒体。
- データの前記1つまたは複数のソースは、検索クエリログを含み、関連性を計算する前記ステップは、さらに、
前記検索クエリログから、前記データソースを検索するために比較的大きな出現頻度(FOO)を持つ検索クエリを識別するステップと、
検索クエリ結果からエンドユーザにより選択された、前記データソースからのアーティクルを決定するステップと、
選択されなかった前記検索クエリ内のアーティクルである欠損エンドユーザ選択を決定するステップとを含むことを特徴とする請求項15に記載のコンピュータ可読媒体。 - 欠損エンドユーザ選択を決定する前記ステップは、さらに、層間リンクを使用して異種オブジェクトをクラスタリングし、前記異種オブジェクトの複数の特徴に対する重要性尺度を決定するステップを含み、前記異種オブジェクトは、類似のクエリの第1のクラスタと、関係するドキュメントの第2のクラスタとを含み、前記類似のクエリは前記検索クエリログで識別されており、前記類似のクエリは前記1つまたは複数のドキュメントを含む関連付けられた検索結果であり、前記関係するドキュメントは、前記関係する複数のドキュメントの個々の複数のドキュメントが前記複数の検索結果からエンドユーザにより選択されたか否かに関係なく前記検索結果で識別されることを特徴とする請求項26に記載のコンピュータ可読媒体。
- 前記複数の特徴は、前記第1および第2のクラスタ内のそれぞれの複数のノードにより表され、前記複数のノードのそれぞれに対する前記重要性尺度は、前記第1および第2のクラスタ内のオブジェクト間の距離を測定する類似度関数に基づくことを特徴とする請求項27に記載のコンピュータ可読媒体。
- エンハンストドキュメント取り出しのためのコンテンツ伝播を実現するコンピューティングデバイスであって、
プロセッサと、
前記プロセッサに結合されたメモリであって、
1つまたは複数のドキュメントを対象とする参照情報を識別するステップであって、前記参照情報が、前記1つまたは複数のドキュメントを含むデータソースと無関係のデータの1つまたは複数のソースから識別されるステップと、
前記参照情報の近くに配置されているメタデータを抽出するステップと、
前記1つまたは複数のドキュメントのうちの関連する複数のドキュメントのコンテンツに対する前記メタデータのそれぞれの特徴間の関連性を計算するステップと、
前記1つまたは複数のドキュメントのうちのそれぞれのドキュメントについて、前記メタデータの関連する部分に対し、前記それぞれの部分から前記ドキュメントのオリジナルコンテンツの中への特徴の関連性を使用してインデックスを作成するステップとのために前記プロセッサにより実行可能なコンピュータプログラム命令を格納するメモリとを備え、
前記インデックス作成ステップにより、1つまたは複数のエンハンストドキュメントが生成されることを特徴とするコンピューティングデバイス。 - 前記参照情報は、前記1つまたは複数のドキュメントのうちの1つのドキュメントに関連付けられているリンクおよび/または実質的に一意のドキュメントIDを含むことを特徴とする請求項29に記載のコンピューティングデバイス。
- 前記1つまたは複数のドキュメントは、知識ベースアーティクル、製品ヘルプ、タスク、および/または開発者データであることを特徴とする請求項29に記載のコンピューティングデバイス。
- データの前記1つまたは複数のソースは、サービス要求、ニュースグループポスティング、および/または検索クエリログを含むことを特徴とする請求項29に記載のコンピューティングデバイス。
- 前記メタデータは、前記1つまたは複数のドキュメントのうちの複数の関連付けられているドキュメントに意味上および/または文脈上関係することを特徴とする請求項29に記載のコンピューティングデバイス。
- 前記メタデータは、ドキュメントのタイトル、製品問題の状況、および/または製品問題解決情報を含むことを特徴とする請求項29に記載のコンピューティングデバイス。
- 前記1つまたは複数のエンハンストドキュメントのうちのそれぞれのエンハンストドキュメントについて、前記エンハンストドキュメントが生成された対応するオリジナルドキュメントがあることを特徴とする請求項29に記載のコンピューティングデバイス。
- 前記関連性を計算するステップは、前記1つまたは複数のドキュメントのうちの特定の1つのドキュメントが前記メタデータ内の文脈の範囲内で何回識別されるかに基づくことを特徴とする請求項29に記載のコンピューティングデバイス。
- 前記メタデータは、アーティクルタイトル、製品問題の状況、および/または製品問題解決情報を含み、関連性を計算する前記ステップは、さらに、前記アーティクルタイトルおよび/または製品問題の状況に重みを付けて、製品問題解決情報より高い関連性を示すステップを含むことを特徴とする請求項29に記載のコンピューティングデバイス。
- 関連性を計算する前記ステップは、さらに、前記データソースのコンテンツ内で、前記コンテンツ内の他のメタデータ特徴の出現の頻度と比較してより大きな頻度で出現する前記メタデータの特徴に対し、より大きな関連性を割り当てるステップを含むことを特徴とする請求項29に記載のコンピューティングデバイス。
- 関連性を計算する前記ステップは、さらに、前記1つまたは複数のドキュメントのうちの1つのドキュメント内で見つかった前記メタデータの特徴に対し、前記ドキュメントの経過期間に応じて、より大きな重みを割り当てるステップを含むことを特徴とする請求項29に記載のコンピューティングデバイス。
- データの前記1つまたは複数のソースは、検索クエリログを含み、関連性を計算する前記ステップは、さらに、
前記検索クエリログから、前記データソースを検索するために比較的大きな出現頻度(FOO)を持つ検索クエリを識別するステップと、
検索クエリ結果からエンドユーザにより選択された、前記データソースからのアーティクルを決定するステップと、
選択されなかった前記検索クエリ内のアーティクルである欠損エンドユーザ選択を決定するステップとを含むことを特徴とする請求項29に記載のコンピューティングデバイス。 - 欠損エンドユーザ選択を決定する前記ステップは、さらに、層間リンクを使用して異種オブジェクトをクラスタリングし、前記異種オブジェクトの複数の特徴に対する重要性尺度を決定するステップを含み、前記異種オブジェクトは、類似のクエリの第1のクラスタと、関係するドキュメントの第2のクラスタとを含み、前記類似のクエリは前記検索クエリログで識別されており、前記類似のクエリは前記1つまたは複数のドキュメントを含む関連付けられた検索結果であり、前記関係するドキュメントは、前記関係する複数のドキュメントの個々の複数のドキュメントが前記複数の検索結果からエンドユーザにより選択されたか否かに関係なく前記検索結果で識別されることを特徴とする請求項40に記載のコンピューティングデバイス。
- 前記複数の特徴は、前記第1および第2のクラスタ内のそれぞれの複数のノードにより表され、前記複数のノードのそれぞれに対する前記重要性尺度は、前記第1および第2のクラスタ内のオブジェクト間の距離を測定する類似度関数に基づくことを特徴とする請求項41に記載のコンピューティングデバイス。
- エンハンストドキュメント取り出しのためのコンテンツ伝播を実現するコンピューティングデバイスであって、
1つまたは複数のドキュメントを対象とする参照情報を識別する識別手段であって、前記参照情報が、前記1つまたは複数のドキュメントを含むデータソースと無関係のデータの1つまたは複数のソースから識別される識別手段と、
前記参照情報の近くに配置されているメタデータを抽出する抽出手段と、
前記1つまたは複数のドキュメントのうちの関連する複数のドキュメントのコンテンツに対する前記メタデータのそれぞれの特徴間の関連性を計算する計算手段と、
前記1つまたは複数のドキュメントのうちのそれぞれのドキュメントについて、前記メタデータの関連する部分に対し、前記それぞれの部分から前記ドキュメントのオリジナルコンテンツの中への特徴の関連性を使用してインデックスを作成するインデックス作成手段とを備え、
前記インデックス作成ステップにより、1つまたは複数のエンハンストドキュメントを生成することを特徴とするコンピューティングデバイス。 - 前記参照情報は、前記1つまたは複数のドキュメントのうちの1つのドキュメントに関連付けられているリンクおよび/または実質的に一意のドキュメントIDを含むことを特徴とする請求項43に記載のコンピューティングデバイス。
- 前記1つまたは複数のドキュメントは、知識ベースアーティクル、製品ヘルプ、タスク、および/または開発者データであることを特徴とする請求項43に記載のコンピューティングデバイス。
- データの前記1つまたは複数のソースは、サービス要求、ニュースグループポスティング、および/または検索クエリログを含むことを特徴とする請求項43に記載のコンピューティングデバイス。
- 前記メタデータは、前記1つまたは複数のドキュメントのうちの複数の関連付けられているドキュメントに意味上および/または文脈上関係することを特徴とする請求項43に記載のコンピューティングデバイス。
- 前記メタデータは、アーティクルタイトル、製品問題の状況、および/または製品問題解決情報を含み、関連性を計算する前記計算手段は、さらに、前記アーティクルタイトルおよび/または製品問題の状況に重みを付けて、製品問題解決情報より高い関連性を示す重み付け手段を含むことを特徴とする請求項43に記載のコンピューティングデバイス。
- 関連性を計算する前記計算手段は、さらに、前記データソースのコンテンツ内で、前記コンテンツ内の他のメタデータ特徴の出現の頻度と比較してより大きな頻度で出現する前記メタデータの特徴に対し、より大きな関連性を割り当てる割り当て手段を含むことを特徴とする請求項43に記載のコンピューティングデバイス。
- 関連性を計算する前記計算手段は、さらに、前記1つまたは複数のドキュメントのうちの1つのドキュメント内で見つかった前記メタデータの特徴に対し、前記ドキュメントの経過期間に応じて、より大きな重みを割り当てる割り当て手段を含むことを特徴とする請求項43に記載のコンピューティングデバイス。
- データの前記1つまたは複数のソースは、検索クエリログを含み、関連性を計算する前記計算手段は、さらに、
前記検索クエリログから、前記データソースを検索するために比較的大きな出現頻度(FOO)を持つ検索クエリを識別する識別手段と、
検索クエリ結果からエンドユーザにより選択された、前記データソースからのアーティクルを決定する決定手段と、
選択されなかった前記検索クエリ内のアーティクルである欠損エンドユーザ選択を計算する計算手段とを含むことを特徴とする請求項43に記載のコンピューティングデバイス。 - 前記計算手段は、層間リンクを使用して異種オブジェクトをクラスタリングし、前記異種オブジェクトの複数の特徴に対する重要性尺度を決定するクラスタリング手段を含み、前記異種オブジェクトは、類似のクエリの第1のクラスタと、関係するドキュメントの第2のクラスタとを含み、前記類似のクエリは前記検索クエリログで識別されており、前記類似のクエリは前記1つまたは複数のドキュメントを含む関連付けられた検索結果であり、前記関係するドキュメントは、前記関係する複数のドキュメントの個々の複数のドキュメントが前記複数の検索結果からエンドユーザにより選択されたか否かに関係なく前記検索結果で識別されることを特徴とする請求項52に記載のコンピューティングデバイス。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/826,161 | 2004-04-15 | ||
US10/826,161 US7305389B2 (en) | 2004-04-15 | 2004-04-15 | Content propagation for enhanced document retrieval |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2005316999A true JP2005316999A (ja) | 2005-11-10 |
JP2005316999A5 JP2005316999A5 (ja) | 2008-05-29 |
JP4750456B2 JP4750456B2 (ja) | 2011-08-17 |
Family
ID=34939223
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005118172A Expired - Fee Related JP4750456B2 (ja) | 2004-04-15 | 2005-04-15 | エンハンストドキュメント取り出しのためのコンテンツ伝播 |
Country Status (5)
Country | Link |
---|---|
US (1) | US7305389B2 (ja) |
EP (1) | EP1587009A3 (ja) |
JP (1) | JP4750456B2 (ja) |
KR (1) | KR101114023B1 (ja) |
CN (1) | CN100511224C (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009110231A (ja) * | 2007-10-30 | 2009-05-21 | Nippon Telegr & Teleph Corp <Ntt> | 文章検索サーバコンピュータ,文章検索方法,文章検索プログラム,そのプログラムを記録した記録媒体 |
Families Citing this family (80)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6831663B2 (en) * | 2001-05-24 | 2004-12-14 | Microsoft Corporation | System and process for automatically explaining probabilistic predictions |
JPWO2004034282A1 (ja) * | 2002-10-10 | 2006-02-09 | 富士通株式会社 | コンテンツ再利用管理装置およびコンテンツ再利用支援装置 |
US20050114382A1 (en) * | 2003-11-26 | 2005-05-26 | Lakshminarayan Choudur K. | Method and system for data segmentation |
US7827279B2 (en) * | 2004-01-30 | 2010-11-02 | Hewlett-Packard Development Company, L.P. | Selecting nodes close to another node in a network using location information for the nodes |
US20050278314A1 (en) * | 2004-06-09 | 2005-12-15 | Paul Buchheit | Variable length snippet generation |
US7716225B1 (en) * | 2004-06-17 | 2010-05-11 | Google Inc. | Ranking documents based on user behavior and/or feature data |
US8825639B2 (en) * | 2004-06-30 | 2014-09-02 | Google Inc. | Endorsing search results |
US7827176B2 (en) | 2004-06-30 | 2010-11-02 | Google Inc. | Methods and systems for endorsing local search results |
US7593924B2 (en) | 2004-09-20 | 2009-09-22 | Microsoft Corporation | Method, system, and apparatus for receiving and responding to knowledge interchange queries |
US7707167B2 (en) | 2004-09-20 | 2010-04-27 | Microsoft Corporation | Method, system, and apparatus for creating a knowledge interchange profile |
US7730010B2 (en) | 2004-09-20 | 2010-06-01 | Microsoft Corporation | Method, system, and apparatus for maintaining user privacy in a knowledge interchange system |
US20080077570A1 (en) * | 2004-10-25 | 2008-03-27 | Infovell, Inc. | Full Text Query and Search Systems and Method of Use |
US20060212441A1 (en) * | 2004-10-25 | 2006-09-21 | Yuanhua Tang | Full text query and search systems and methods of use |
US20070283036A1 (en) * | 2004-11-17 | 2007-12-06 | Sujit Dey | System And Method For Providing A Web Page |
US7765214B2 (en) * | 2005-05-10 | 2010-07-27 | International Business Machines Corporation | Enhancing query performance of search engines using lexical affinities |
JP4626483B2 (ja) * | 2005-10-27 | 2011-02-09 | ソニー株式会社 | サーバ装置、データ処理方法、プログラムおよび通信方法 |
US7584159B1 (en) * | 2005-10-31 | 2009-09-01 | Amazon Technologies, Inc. | Strategies for providing novel recommendations |
US7668821B1 (en) | 2005-11-17 | 2010-02-23 | Amazon Technologies, Inc. | Recommendations based on item tagging activities of users |
US9495349B2 (en) * | 2005-11-17 | 2016-11-15 | International Business Machines Corporation | System and method for using text analytics to identify a set of related documents from a source document |
US20070112833A1 (en) * | 2005-11-17 | 2007-05-17 | International Business Machines Corporation | System and method for annotating patents with MeSH data |
US20070136400A1 (en) * | 2005-12-13 | 2007-06-14 | International Business Machines Corporation | Method and apparatus for integrating user communities with documentation |
US7664760B2 (en) * | 2005-12-22 | 2010-02-16 | Microsoft Corporation | Inferred relationships from user tagged content |
US8001121B2 (en) * | 2006-02-27 | 2011-08-16 | Microsoft Corporation | Training a ranking function using propagated document relevance |
US8019763B2 (en) * | 2006-02-27 | 2011-09-13 | Microsoft Corporation | Propagating relevance from labeled documents to unlabeled documents |
JP4783181B2 (ja) * | 2006-03-13 | 2011-09-28 | 株式会社東芝 | 行動予測装置 |
US7933890B2 (en) * | 2006-03-31 | 2011-04-26 | Google Inc. | Propagating useful information among related web pages, such as web pages of a website |
US8699806B2 (en) * | 2006-04-12 | 2014-04-15 | Google Inc. | Method and apparatus for automatically summarizing video |
US8442973B2 (en) * | 2006-05-02 | 2013-05-14 | Surf Canyon, Inc. | Real time implicit user modeling for personalized search |
US8229156B1 (en) | 2006-08-08 | 2012-07-24 | Google Inc. | Using curve invariants to automatically characterize videos |
US8117197B1 (en) | 2008-06-10 | 2012-02-14 | Surf Canyon, Inc. | Adaptive user interface for real-time search relevance feedback |
US8195734B1 (en) | 2006-11-27 | 2012-06-05 | The Research Foundation Of State University Of New York | Combining multiple clusterings by soft correspondence |
US20080155305A1 (en) * | 2006-12-22 | 2008-06-26 | International Business Machines Corporation | Collaborative problem determination based on graph visualization |
US7822750B2 (en) * | 2007-01-17 | 2010-10-26 | Aptima, Inc | Method and system to compare data entities |
US8280877B2 (en) * | 2007-02-22 | 2012-10-02 | Microsoft Corporation | Diverse topic phrase extraction |
US9507858B1 (en) | 2007-02-28 | 2016-11-29 | Google Inc. | Selectively merging clusters of conceptually related words in a generative model for text |
US7849104B2 (en) * | 2007-03-01 | 2010-12-07 | Microsoft Corporation | Searching heterogeneous interrelated entities |
US8161040B2 (en) * | 2007-04-30 | 2012-04-17 | Piffany, Inc. | Criteria-specific authority ranking |
WO2009038822A2 (en) * | 2007-05-25 | 2009-03-26 | The Research Foundation Of State University Of New York | Spectral clustering for multi-type relational data |
US8751507B2 (en) * | 2007-06-29 | 2014-06-10 | Amazon Technologies, Inc. | Recommendation system with multiple integrated recommenders |
US8260787B2 (en) * | 2007-06-29 | 2012-09-04 | Amazon Technologies, Inc. | Recommendation system with multiple integrated recommenders |
US7949659B2 (en) * | 2007-06-29 | 2011-05-24 | Amazon Technologies, Inc. | Recommendation system with multiple integrated recommenders |
US8566338B2 (en) * | 2007-09-21 | 2013-10-22 | International Business Machines Corporation | Automatically making changes in a document in a content management system based on a change by a user to other content in the document |
US20090132462A1 (en) * | 2007-11-19 | 2009-05-21 | Sony Corporation | Distributed metadata extraction |
US8145630B1 (en) * | 2007-12-28 | 2012-03-27 | Google Inc. | Session-based dynamic search snippets |
JP4524702B2 (ja) * | 2008-02-08 | 2010-08-18 | コニカミノルタビジネステクノロジーズ株式会社 | データ管理装置、検索条件情報管理方法、およびコンピュータプログラム |
US7991650B2 (en) * | 2008-08-12 | 2011-08-02 | Amazon Technologies, Inc. | System for obtaining recommendations from multiple recommenders |
US7991757B2 (en) * | 2008-08-12 | 2011-08-02 | Amazon Technologies, Inc. | System for obtaining recommendations from multiple recommenders |
US20100042610A1 (en) * | 2008-08-15 | 2010-02-18 | Microsoft Corporation | Rank documents based on popularity of key metadata |
US8140550B2 (en) * | 2008-08-20 | 2012-03-20 | Satyam Computer Services Limited Of Mayfair Centre | System and method for bounded analysis of multimedia using multiple correlations |
US9298722B2 (en) | 2009-07-16 | 2016-03-29 | Novell, Inc. | Optimal sequential (de)compression of digital data |
US10089391B2 (en) * | 2009-07-29 | 2018-10-02 | Herbminers Informatics Limited | Ontological information retrieval system |
JP5514486B2 (ja) * | 2009-08-03 | 2014-06-04 | 株式会社日立製作所 | Webページの関連性抽出方法、装置、及びプログラム |
US20110119269A1 (en) * | 2009-11-18 | 2011-05-19 | Rakesh Agrawal | Concept Discovery in Search Logs |
KR101306667B1 (ko) * | 2009-12-09 | 2013-09-10 | 한국전자통신연구원 | 지식 그래프 정제 장치 및 방법 |
US8782734B2 (en) * | 2010-03-10 | 2014-07-15 | Novell, Inc. | Semantic controls on data storage and access |
US20110238670A1 (en) * | 2010-03-23 | 2011-09-29 | Microsoft Corporation | Crowd-sourcing and contextual reclassification of rated content |
US8832103B2 (en) | 2010-04-13 | 2014-09-09 | Novell, Inc. | Relevancy filter for new data based on underlying files |
US9703895B2 (en) * | 2010-06-11 | 2017-07-11 | Microsoft Technology Licensing, Llc | Organizing search results based upon clustered content |
US8478740B2 (en) * | 2010-12-16 | 2013-07-02 | Microsoft Corporation | Deriving document similarity indices |
US9798732B2 (en) | 2011-01-06 | 2017-10-24 | Micro Focus Software Inc. | Semantic associations in data |
US8880517B2 (en) | 2011-02-18 | 2014-11-04 | Microsoft Corporation | Propagating signals across a web graph |
US8423547B2 (en) | 2011-04-08 | 2013-04-16 | Microsoft Corporation | Efficient query clustering using multi-partite graphs |
US9721039B2 (en) * | 2011-12-16 | 2017-08-01 | Palo Alto Research Center Incorporated | Generating a relationship visualization for nonhomogeneous entities |
US9864817B2 (en) * | 2012-01-28 | 2018-01-09 | Microsoft Technology Licensing, Llc | Determination of relationships between collections of disparate media types |
JP5324677B2 (ja) * | 2012-02-24 | 2013-10-23 | 株式会社日立製作所 | 類似文書検索支援装置及び類似文書検索支援プログラム |
US8805848B2 (en) | 2012-05-24 | 2014-08-12 | International Business Machines Corporation | Systems, methods and computer program products for fast and scalable proximal search for search queries |
US10445415B1 (en) * | 2013-03-14 | 2019-10-15 | Ca, Inc. | Graphical system for creating text classifier to match text in a document by combining existing classifiers |
US9760620B2 (en) * | 2013-07-23 | 2017-09-12 | Salesforce.Com, Inc. | Confidently adding snippets of search results to clusters of objects |
US10223401B2 (en) * | 2013-08-15 | 2019-03-05 | International Business Machines Corporation | Incrementally retrieving data for objects to provide a desired level of detail |
US20180203932A1 (en) * | 2017-01-18 | 2018-07-19 | International Business Machines Corporation | Enhanced information retrieval |
CN107220094B (zh) * | 2017-06-27 | 2019-06-28 | 北京金山安全软件有限公司 | 页面加载方法、装置和电子设备 |
CN107357919A (zh) * | 2017-07-21 | 2017-11-17 | 携程旅游网络技术(上海)有限公司 | 行为日志查询系统及方法 |
US10726198B2 (en) | 2017-10-17 | 2020-07-28 | Handycontract, LLC | Method, device, and system, for identifying data elements in data structures |
US11475209B2 (en) | 2017-10-17 | 2022-10-18 | Handycontract Llc | Device, system, and method for extracting named entities from sectioned documents |
WO2019232645A1 (en) * | 2018-06-07 | 2019-12-12 | Element Ai Inc. | Unsupervised classification of documents using a labeled data set of other documents |
CN109033280A (zh) * | 2018-07-11 | 2018-12-18 | 平安科技(深圳)有限公司 | 日志搜索方法、系统、计算机设备和存储介质 |
US11423056B2 (en) | 2018-12-21 | 2022-08-23 | Atlassian Pty Ltd. | Content discovery systems and methods |
WO2020243532A1 (en) * | 2019-05-29 | 2020-12-03 | Iron Mountain Incorporated | Systems and methods for cloud content-based document clustering and classification integration |
US11042666B2 (en) * | 2019-08-20 | 2021-06-22 | Metricstream, Inc. | Efficient traversal of hierarchical datasets |
US20230281257A1 (en) * | 2022-01-31 | 2023-09-07 | Walmart Apollo, Llc | Systems and methods for determining and utilizing search token importance using machine learning architectures |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09311870A (ja) * | 1996-05-22 | 1997-12-02 | Matsushita Electric Ind Co Ltd | ハイパーテキスト検索装置 |
JP2003067419A (ja) * | 2001-08-24 | 2003-03-07 | Toshiba Corp | 情報検索方法および情報検索システム |
JP2004054588A (ja) * | 2002-07-19 | 2004-02-19 | Just Syst Corp | 文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラム |
Family Cites Families (46)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03122770A (ja) | 1989-10-05 | 1991-05-24 | Ricoh Co Ltd | キーワード連想文書検索方法 |
US5488725A (en) | 1991-10-08 | 1996-01-30 | West Publishing Company | System of document representation retrieval by successive iterated probability sampling |
US5265065A (en) | 1991-10-08 | 1993-11-23 | West Publishing Company | Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query |
US5442778A (en) | 1991-11-12 | 1995-08-15 | Xerox Corporation | Scatter-gather: a cluster-based method and apparatus for browsing large document collections |
US7251637B1 (en) | 1993-09-20 | 2007-07-31 | Fair Isaac Corporation | Context vector generation and retrieval |
US5576954A (en) | 1993-11-05 | 1996-11-19 | University Of Central Florida | Process for determination of text relevancy |
US5812134A (en) | 1996-03-28 | 1998-09-22 | Critical Thought, Inc. | User interface navigational system & method for interactive representation of information contained within a database |
US6188776B1 (en) | 1996-05-21 | 2001-02-13 | Interval Research Corporation | Principle component analysis of images for the automatic location of control points |
WO1997049048A1 (en) | 1996-06-17 | 1997-12-24 | Idd Enterprises, L.P. | Hypertext document retrieval system and method |
US5987460A (en) | 1996-07-05 | 1999-11-16 | Hitachi, Ltd. | Document retrieval-assisting method and system for the same and document retrieval service using the same with document frequency and term frequency |
US6457004B1 (en) | 1997-07-03 | 2002-09-24 | Hitachi, Ltd. | Document retrieval assisting method, system and service using closely displayed areas for titles and topics |
GB9701866D0 (en) | 1997-01-30 | 1997-03-19 | British Telecomm | Information retrieval |
US5819258A (en) | 1997-03-07 | 1998-10-06 | Digital Equipment Corporation | Method and apparatus for automatically generating hierarchical categories from large document collections |
US6112202A (en) | 1997-03-07 | 2000-08-29 | International Business Machines Corporation | Method and system for identifying authoritative information resources in an environment with content-based links between information resources |
US6298351B1 (en) | 1997-04-11 | 2001-10-02 | International Business Machines Corporation | Modifying an unreliable training set for supervised classification |
US6470307B1 (en) | 1997-06-23 | 2002-10-22 | National Research Council Of Canada | Method and apparatus for automatically identifying keywords within a document |
US5845278A (en) * | 1997-09-12 | 1998-12-01 | Inioseek Corporation | Method for automatically selecting collections to search in full text searches |
US6003027A (en) | 1997-11-21 | 1999-12-14 | International Business Machines Corporation | System and method for determining confidence levels for the results of a categorization system |
US6421675B1 (en) | 1998-03-16 | 2002-07-16 | S. L. I. Systems, Inc. | Search engine |
JPH11328724A (ja) | 1998-05-18 | 1999-11-30 | Fuji Photo Film Co Ltd | 3次元光メモリ |
US6006225A (en) | 1998-06-15 | 1999-12-21 | Amazon.Com | Refining search queries by the suggestion of correlated terms from prior searches |
US6742003B2 (en) | 2001-04-30 | 2004-05-25 | Microsoft Corporation | Apparatus and accompanying methods for visualizing clusters of data and hierarchical cluster classifications |
US6598054B2 (en) | 1999-01-26 | 2003-07-22 | Xerox Corporation | System and method for clustering data objects in a collection |
US6226408B1 (en) | 1999-01-29 | 2001-05-01 | Hnc Software, Inc. | Unsupervised identification of nonlinear data cluster in multidimensional data |
US7225182B2 (en) | 1999-05-28 | 2007-05-29 | Overture Services, Inc. | Recommending search terms using collaborative filtering and web spidering |
US6711585B1 (en) | 1999-06-15 | 2004-03-23 | Kanisa Inc. | System and method for implementing a knowledge management system |
US7725307B2 (en) | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US6556983B1 (en) | 2000-01-12 | 2003-04-29 | Microsoft Corporation | Methods and apparatus for finding semantic information, such as usage logs, similar to a query using a pattern lattice data space |
US6615209B1 (en) | 2000-02-22 | 2003-09-02 | Google, Inc. | Detecting query-specific duplicate documents |
DE10029644B4 (de) | 2000-06-16 | 2008-02-07 | Deutsche Telekom Ag | Verfahren zur Relevanzbewertung bei der Indexierung von Hypertext-Dokumenten mittels Suchmaschine |
US6578032B1 (en) | 2000-06-28 | 2003-06-10 | Microsoft Corporation | Method and system for performing phrase/word clustering and cluster merging |
US7490092B2 (en) * | 2000-07-06 | 2009-02-10 | Streamsage, Inc. | Method and system for indexing and searching timed media information based upon relevance intervals |
US7587428B2 (en) | 2000-10-13 | 2009-09-08 | Microsoft Corporation | Maintaining a relationship between two different items of data |
US6560600B1 (en) | 2000-10-25 | 2003-05-06 | Alta Vista Company | Method and apparatus for ranking Web page search results |
US6772120B1 (en) | 2000-11-21 | 2004-08-03 | Hewlett-Packard Development Company, L.P. | Computer method and apparatus for segmenting text streams |
US7356530B2 (en) | 2001-01-10 | 2008-04-08 | Looksmart, Ltd. | Systems and methods of retrieving relevant information |
EP1384155A4 (en) | 2001-03-01 | 2007-02-28 | Health Discovery Corp | SPECTRAL KNIVES FOR LEARNING MACHINES |
US6892193B2 (en) | 2001-05-10 | 2005-05-10 | International Business Machines Corporation | Method and apparatus for inducing classifiers for multimedia based on unified representation of features reflecting disparate modalities |
US20030065632A1 (en) | 2001-05-30 | 2003-04-03 | Haci-Murat Hubey | Scalable, parallelizable, fuzzy logic, boolean algebra, and multiplicative neural network based classifier, datamining, association rule finder and visualization software tool |
US20030046389A1 (en) | 2001-09-04 | 2003-03-06 | Thieme Laura M. | Method for monitoring a web site's keyword visibility in search engines and directories and resulting traffic from such keyword visibility |
US7167871B2 (en) | 2002-05-17 | 2007-01-23 | Xerox Corporation | Systems and methods for authoritativeness grading, estimation and sorting of documents in large heterogeneous document collections |
JP3918664B2 (ja) | 2002-07-10 | 2007-05-23 | ヤマハ株式会社 | 音響信号処理装置 |
US7136876B1 (en) | 2003-03-03 | 2006-11-14 | Hewlett-Packard Development Company, L.P. | Method and system for building an abbreviation dictionary |
US20040249808A1 (en) | 2003-06-06 | 2004-12-09 | Microsoft Corporation | Query expansion using query logs |
US7225184B2 (en) | 2003-07-18 | 2007-05-29 | Overture Services, Inc. | Disambiguation of search phrases using interpretation clusters |
US7165119B2 (en) | 2003-10-14 | 2007-01-16 | America Online, Inc. | Search enhancement system and method having rankings, explicitly specified by the user, based upon applicability and validity of search parameters in regard to a subject matter |
-
2004
- 2004-04-15 US US10/826,161 patent/US7305389B2/en not_active Expired - Fee Related
-
2005
- 2005-04-11 EP EP05102838A patent/EP1587009A3/en not_active Withdrawn
- 2005-04-13 CN CNB2005100716900A patent/CN100511224C/zh not_active Expired - Fee Related
- 2005-04-15 KR KR1020050031308A patent/KR101114023B1/ko not_active IP Right Cessation
- 2005-04-15 JP JP2005118172A patent/JP4750456B2/ja not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09311870A (ja) * | 1996-05-22 | 1997-12-02 | Matsushita Electric Ind Co Ltd | ハイパーテキスト検索装置 |
JP2003067419A (ja) * | 2001-08-24 | 2003-03-07 | Toshiba Corp | 情報検索方法および情報検索システム |
JP2004054588A (ja) * | 2002-07-19 | 2004-02-19 | Just Syst Corp | 文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラム |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009110231A (ja) * | 2007-10-30 | 2009-05-21 | Nippon Telegr & Teleph Corp <Ntt> | 文章検索サーバコンピュータ,文章検索方法,文章検索プログラム,そのプログラムを記録した記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
US7305389B2 (en) | 2007-12-04 |
KR101114023B1 (ko) | 2014-02-26 |
US20050234952A1 (en) | 2005-10-20 |
CN100511224C (zh) | 2009-07-08 |
EP1587009A3 (en) | 2006-08-16 |
KR20060045743A (ko) | 2006-05-17 |
EP1587009A2 (en) | 2005-10-19 |
JP4750456B2 (ja) | 2011-08-17 |
CN1694100A (zh) | 2005-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4750456B2 (ja) | エンハンストドキュメント取り出しのためのコンテンツ伝播 | |
US7289985B2 (en) | Enhanced document retrieval | |
US11347963B2 (en) | Systems and methods for identifying semantically and visually related content | |
US20230289137A1 (en) | Methods and Systems for Identifying a Level of Similarity Between a Plurality of Data Representations | |
Chen et al. | A survey on the use of topic models when mining software repositories | |
Marinho et al. | Social tagging recommender systems | |
US8285702B2 (en) | Content analysis simulator for improving site findability in information retrieval systems | |
Jiang et al. | Mining search and browse logs for web search: A survey | |
US20200073953A1 (en) | Ranking Entity Based Search Results Using User Clusters | |
US8103682B2 (en) | Method and system for fast, generic, online and offline, multi-source text analysis and visualization | |
US20050234973A1 (en) | Mining service requests for product support | |
Serrano | Neural networks in big data and Web search | |
Jiang et al. | Cloud service recommendation based on unstructured textual information | |
US11734332B2 (en) | Methods and systems for reuse of data item fingerprints in generation of semantic maps | |
CN114238573B (zh) | 基于文本对抗样例的信息推送方法及装置 | |
Assi et al. | FeatCompare: Feature comparison for competing mobile apps leveraging user reviews | |
Sharma et al. | Web page ranking using web mining techniques: a comprehensive survey | |
Agarwal et al. | A systematic literature review on web service clustering approaches to enhance service discovery, selection and recommendation | |
Liu et al. | Detecting web spam based on novel features from web page source code | |
Farina et al. | Interest identification from browser tab titles: A systematic literature review | |
Fang et al. | Facfinder: Search for expertise in academic institutions | |
Zhang et al. | Identification of factors predicting clickthrough in Web searching using neural network analysis | |
Bragilovski et al. | Searching for class models | |
Wang et al. | A time and sentiment unification model for personalized recommendation | |
Rai et al. | Mining E-commerce Websites to Provide Efficient Methodology for Sentiment Analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080411 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080411 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100827 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101126 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110513 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110519 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140527 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |