JP2005316999A5 - - Google Patents

Download PDF

Info

Publication number
JP2005316999A5
JP2005316999A5 JP2005118172A JP2005118172A JP2005316999A5 JP 2005316999 A5 JP2005316999 A5 JP 2005316999A5 JP 2005118172 A JP2005118172 A JP 2005118172A JP 2005118172 A JP2005118172 A JP 2005118172A JP 2005316999 A5 JP2005316999 A5 JP 2005316999A5
Authority
JP
Japan
Prior art keywords
documents
relevance
metadata
search query
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005118172A
Other languages
English (en)
Other versions
JP4750456B2 (ja
JP2005316999A (ja
Filing date
Publication date
Priority claimed from US10/826,161 external-priority patent/US7305389B2/en
Application filed filed Critical
Publication of JP2005316999A publication Critical patent/JP2005316999A/ja
Publication of JP2005316999A5 publication Critical patent/JP2005316999A5/ja
Application granted granted Critical
Publication of JP4750456B2 publication Critical patent/JP4750456B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Claims (45)

  1. エンハンストドキュメント取り出しのために、コンピュータによって実施されるコンテンツ伝播を実現するシステムおよび方法であって、
    1つまたは複数のドキュメントを対象とする参照情報を識別するステップであって、前記参照情報が、前記1つまたは複数のドキュメントを含むデータソースと無関係のデータの1つまたは複数のソースから識別されるステップと、
    前記参照情報の近くに配置されていて、前記参照情報を取り囲み前記参照情報に意味論的に又は文脈的に関係するメタデータを抽出するステップと、
    前記1つまたは複数のドキュメントのうちの関連する複数のドキュメントのコンテンツに対する前記メタデータのそれぞれの特徴間の関連性を計算するステップと、
    前記1つまたは複数のドキュメントのうちのそれぞれのドキュメントについて、前記メタデータの関連する部分に対し、前記それぞれの部分からの特徴の関連性と関連性スコアとを使用して、前記ドキュメントのオリジナルコンテンツの中にインデックスを作成するステップとを含み、
    前記インデックス作成ステップにより、1つまたは複数のエンハンストドキュメントが生成され、
    検索クエリに基づいて関連情報を見付けるために1つまたは複数のエンハンストドキュメントを解析するステップと、
    関連性スコアに基づいて1つまたは複数のエンハンストドキュメントをランク付けするステップと、
    検索クエリに基づいて1つまたは複数のエンハンストドキュメントについての断片的記述とランク付けされた結果を通信するステップと、
    データの前記1つまたは複数のソースは、検索クエリログを含み、関連性を計算するステップは、さらに、
    前記検索クエリログから、前記データソースを検索するために比較的大きな出現頻度(FOO)を持つ検索クエリを識別するステップと、
    検索クエリ結果からエンドユーザにより選択された、前記データソースからのアーティクルを決定するステップと、
    選択されなかった前記検索クエリ内のアーティクルである欠損エンドユーザ選択を決定するステップとを含み、
    前記欠損エンドユーザ選択を決定するステップは、さらに、層間リンクを使用して異種オブジェクトをクラスタリングし、前記異種オブジェクトの複数の特徴に対する重要性尺度を決定するステップを含み、前記異種オブジェクトは、類似のクエリの第1のクラスタと、関係するドキュメントの第2のクラスタとを含み、前記類似のクエリは前記検索クエリログで識別されており、前記類似のクエリは前記1つまたは複数のドキュメントを含む関連付けられた検索結果であり、前記関係するドキュメントは、前記関係する複数のドキュメントの個々の複数のドキュメントが前記複数の検索結果からエンドユーザにより選択されたか否かに関係なく前記検索結果で識別されることを特徴とする方法。
  2. 前記参照情報は、前記1つまたは複数のドキュメントのうちの1つのドキュメントに関連付けられているリンクまたは実質的に一意のドキュメントIDの少なくとも1つを含むことを特徴とする請求項1に記載の方法。
  3. 前記1つまたは複数のドキュメントは、知識ベースアーティクル、製品ヘルプ、タスク、または開発者データの1つを含むことを特徴とする請求項1に記載の方法。
  4. データの前記1つまたは複数のソースは、サービス要求、ニュースグループポスティング、または検索クエリログの少なくとも1つを含むことを特徴とする請求項1に記載の方法。
  5. 前記メタデータは、前記1つまたは複数のドキュメントのうちの複数の関連付けられているドキュメントの意味上または文脈上の少なくとも1つに関係したものを有することを特徴とする請求項1に記載の方法。
  6. 前記メタデータは、ドキュメントのタイトル、製品問題の状況、または製品問題解決情報の少なくとも1つを含むことを特徴とする請求項1に記載の方法。
  7. 前記1つまたは複数のエンハンストドキュメントのうちのそれぞれのエンハンストドキュメントについて、前記エンハンストドキュメントが生成された対応するオリジナルドキュメントがあることを特徴とする請求項1に記載の方法。
  8. 前記関連性を計算するステップは、前記1つまたは複数のドキュメントのうちの特定の1つのドキュメントが前記メタデータ内の文脈の範囲内で何回識別されるかに基づくことを特徴とする請求項1に記載の方法。
  9. 前記メタデータは、アーティクルタイトル、製品問題の状況、または製品問題解決情報の少なくとも1つを含み、関連性を計算するステップは、さらに、前記アーティクルタイトルまたは製品問題の状況に重みを付けて、製品問題解決情報より高い関連性を示すステップを含むことを特徴とする請求項1に記載の方法。
  10. 関連性を計算するステップは、さらに、前記データソースのコンテンツ内で、前記コンテンツ内の他のメタデータ特徴の出現の頻度と比較してより大きな頻度で出現する前記メタデータの特徴に対し、より大きな関連性を割り当てるステップを含むことを特徴とする請求項1に記載の方法。
  11. 関連性を計算するステップは、さらに、前記1つまたは複数のドキュメントのうちの1つのドキュメント内で見つかった前記メタデータの特徴に対し、前記ドキュメントの経過期間に応じて、より大きな重みを割り当てるステップを含むことを特徴とする請求項1に記載の方法。
  12. 前記複数の特徴は、前記第1および第2のクラスタ内のそれぞれの複数のノードにより表され、前記複数のノードのそれぞれに対する前記重要性尺度は、前記第1および第2のクラスタ内のオブジェクト間の距離を測定する類似度関数に基づくことを特徴とする請求項1に記載の方法。
  13. エンハンストドキュメント取り出しのためのコンテンツ伝播を実現するコンピュータ実行可能命令を格納したコンピュータ可読記録媒体であって、前記コンピュータ実行可能命令は、
    1つまたは複数のドキュメントを対象とする参照情報を識別する命令であって、前記参照情報が、前記1つまたは複数のドキュメントを含むデータソースと無関係のデータの1つまたは複数のソースから識別される命令と、
    前記参照情報の近くに配置されていて、前記参照情報を取り囲み前記参照情報に意味論的に又は文脈的に関係するメタデータを抽出する命令と、
    前記1つまたは複数のドキュメントのうちの関連する複数のドキュメントのコンテンツに対する前記メタデータのそれぞれの特徴間の関連性を計算する命令と、
    前記1つまたは複数のドキュメントのうちのそれぞれのドキュメントについて、前記メタデータの関連する部分に対し、前記それぞれの部分からの特徴の関連性と関連性スコアとを使用して、前記ドキュメントのオリジナルコンテンツの中にインデックスを作成する命令とを含み、
    前記インデックス作成ステップにより、1つまたは複数のエンハンストドキュメントが生成され、
    検索クエリに基づいて関連情報を見付けるために1つまたは複数のエンハンストドキュメントを解析する命令と、
    関連性スコアに基づいて1つまたは複数のエンハンストドキュメントをランク付けする命令と、
    検索クエリに基づいて1つまたは複数のエンハンストドキュメントについての断片的記述とランク付けされた結果を通信する命令と、
    データの前記1つまたは複数のソースは、検索クエリログを含み、関連性を計算する命令は、さらに、
    前記検索クエリログから、前記データソースを検索するために比較的大きな出現頻度(FOO)を持つ検索クエリを識別する命令と、
    検索クエリ結果からエンドユーザにより選択された、前記データソースからのアーティクルを決定する命令と、
    選択されなかった前記検索クエリ内のアーティクルである欠損エンドユーザ選択を決定する命令とを含み、
    前記欠損エンドユーザ選択を決定する命令は、さらに、層間リンクを使用して異種オブジェクトをクラスタリングし、前記異種オブジェクトの複数の特徴に対する重要性尺度を決定するステップを含み、前記異種オブジェクトは、類似のクエリの第1のクラスタと、関係するドキュメントの第2のクラスタとを含み、前記類似のクエリは前記検索クエリログで識別されており、前記類似のクエリは前記1つまたは複数のドキュメントを含む関連付けられた検索結果であり、前記関係するドキュメントは、前記関係する複数のドキュメントの個々の複数のドキュメントが前記複数の検索結果からエンドユーザにより選択されたか否かに関係なく前記検索結果で識別されることを特徴とするコンピュータ可読記録媒体。
  14. 前記参照情報は、前記1つまたは複数のドキュメントのうちの1つのドキュメントに関連付けられているリンクまたは実質的に一意のドキュメントIDの少なくとも1つを含むことを特徴とする請求項13に記載のコンピュータ可読記録媒体。
  15. 前記1つまたは複数のドキュメントは、知識ベースアーティクル、製品ヘルプ、タスク、または開発者データの1つを含むことを特徴とする請求項13に記載のコンピュータ可読記録媒体。
  16. データの前記1つまたは複数のソースは、サービス要求、ニュースグループポスティング、または検索クエリログの少なくとも1つを含むことを特徴とする請求項13に記載のコンピュータ可読記録媒体。
  17. 前記メタデータは、前記1つまたは複数のドキュメントのうちの複数の関連付けられているドキュメントに意味上または文脈上関係することを特徴とする請求項13に記載のコンピュータ可読記録媒体。
  18. 前記メタデータは、ドキュメントのタイトル、製品問題の状況、または製品問題解決情報の少なくとも1つを含むことを特徴とする請求項13に記載のコンピュータ可読記録媒体。
  19. 前記1つまたは複数のエンハンストドキュメントのうちのそれぞれのエンハンストドキュメントについて、前記エンハンストドキュメントが生成された対応するオリジナルドキュメントがあることを特徴とする請求項13に記載のコンピュータ可読記録媒体。
  20. 前記関連性を計算するステップは、前記1つまたは複数のドキュメントのうちの特定の1つのドキュメントが前記メタデータ内の文脈の範囲内で何回識別されるかに基づくことを特徴とする請求項13に記載のコンピュータ可読記録媒体。
  21. 前記メタデータは、アーティクルタイトル、製品問題の状況、または製品問題解決情報の少なくとも1つを含み、関連性を計算する命令は、さらに、前記アーティクルタイトルまたは製品問題の状況に重みを付けて、製品問題解決情報より高い関連性を示す命令を含むことを特徴とする請求項13に記載のコンピュータ可読記録媒体。
  22. 関連性を計算する命令は、さらに、前記データソースのコンテンツ内で、前記コンテンツ内の他のメタデータ特徴の出現の頻度と比較してより大きな頻度で出現する前記メタデータの特徴に対し、より大きな関連性を割り当てる命令を含むことを特徴とする請求項13に記載のコンピュータ可読記録媒体。
  23. 関連性を計算する命令は、さらに、前記1つまたは複数のドキュメントのうちの1つのドキュメント内で見つかった前記メタデータの特徴に対し、前記ドキュメントの経過期間に応じて、より大きな重みを割り当てる命令を含むことを特徴とする請求項13に記載のコンピュータ可読記録媒体。
  24. 前記複数の特徴は、前記第1および第2のクラスタ内のそれぞれの複数のノードにより表され、前記複数のノードのそれぞれに対する前記重要性尺度は、前記第1および第2のクラスタ内のオブジェクト間の距離を測定する類似度関数に基づくことを特徴とする請求項13に記載のコンピュータ可読記録媒体。
  25. エンハンストドキュメント検索のためのコンテンツ伝播を実現するコンピューティングデバイスであって、
    プロセッサと、
    前記プロセッサに結合されたメモリとを含み、
    該メモリはその中に前記プロセッサにより実行可能な、
    1つまたは複数のドキュメントを対象とする参照情報を識別する命令であって、前記参照情報が、前記1つまたは複数のドキュメントを含むデータソースと無関係のデータの1つまたは複数のソースから識別される命令と、
    前記参照情報の近くに配置されていて、前記参照情報を取り囲み前記参照情報に意味論的に又は文脈的に関係するメタデータを抽出する命令と、
    前記1つまたは複数のドキュメントのうちの関連する複数のドキュメントのコンテンツに対する前記メタデータのそれぞれの特徴間の関連性を計算する命令と、
    前記1つまたは複数のドキュメントのうちのそれぞれのドキュメントについて、前記メタデータの関連する部分に対し、前記それぞれの部分からの特徴の関連性と関連性スコアとを使用して、前記ドキュメントのオリジナルコンテンツの中にインデックスを作成する命令とを含み、
    前記インデックス作成命令により、1つまたは複数のエンハンストドキュメントが生成され、
    検索クエリに基づいて関連情報を見付けるために1つまたは複数のエンハンストドキュメントを解析する命令と、
    関連性スコアに基づいて1つまたは複数のエンハンストドキュメントをランク付けする命令と、
    検索クエリに基づいて1つまたは複数のエンハンストドキュメントについての断片的記述とランク付けされた結果を通信する命令と、
    データの前記1つまたは複数のソースは、検索クエリログを含み、関連性を計算する命令は、さらに、
    前記検索クエリログから、前記データソースを検索するために比較的大きな出現頻度(FOO)を持つ検索クエリを識別する命令と、
    検索クエリ結果からエンドユーザにより選択された、前記データソースからのアーティクルを決定する命令と、
    選択されなかった前記検索クエリ内のアーティクルである欠損エンドユーザ選択を決定する命令とを含み、
    前記欠損エンドユーザ選択を決定する命令は、さらに、層間リンクを使用して異種オブジェクトをクラスタリングし、前記異種オブジェクトの複数の特徴に対する重要性尺度を決定する命令を含み、前記異種オブジェクトは、類似のクエリの第1のクラスタと、関係するドキュメントの第2のクラスタとを含み、前記類似のクエリは前記検索クエリログで識別されており、前記類似のクエリは前記1つまたは複数のドキュメントを含む関連付けられた検索結果であり、前記関係するドキュメントは、前記関係する複数のドキュメントの個々の複数のドキュメントが前記複数の検索結果からエンドユーザにより選択されたか否かに関係なく前記検索結果で識別されることを特徴とするコンピューティングデバイス。
  26. 前記参照情報は、前記1つまたは複数のドキュメントのうちの1つのドキュメントに関連付けられているリンクまたは実質的に一意のドキュメントIDの少なくとも1つを含むことを特徴とする請求項25に記載のコンピューティングデバイス。
  27. 前記1つまたは複数のドキュメントは、知識ベースアーティクル、製品ヘルプ、タスク、または開発者データの1つを含むことを特徴とする請求項25に記載のコンピューティングデバイス。
  28. データの前記1つまたは複数のソースは、サービス要求、ニュースグループポスティング、または検索クエリログの少なくとも1つを含むことを特徴とする請求項25に記載のコンピューティングデバイス。
  29. 前記メタデータは、前記1つまたは複数のドキュメントのうちの複数の関連付けられているドキュメントに意味上または文脈上関係することを特徴とする請求項25に記載のコンピューティングデバイス。
  30. 前記メタデータは、ドキュメントのタイトル、製品問題の状況、または製品問題解決情報の少なくとも1つを含むことを特徴とする請求項25に記載のコンピューティングデバイス。
  31. 前記1つまたは複数のエンハンストドキュメントのうちのそれぞれのエンハンストドキュメントについて、前記エンハンストドキュメントが生成された対応するオリジナルドキュメントがあることを特徴とする請求項25に記載のコンピューティングデバイス。
  32. 前記関連性を計算するステップは、前記1つまたは複数のドキュメントのうちの特定の1つのドキュメントが前記メタデータ内の文脈の範囲内で何回識別されるかに基づくことを特徴とする請求項25に記載のコンピューティングデバイス。
  33. 前記メタデータは、アーティクルタイトル、製品問題の状況、または製品問題解決情報の少なくとも1つを含み、関連性を計算する命令は、さらに、前記アーティクルタイトルまたは製品問題の状況に重みを付けて、製品問題解決情報より高い関連性を示す命令を含むことを特徴とする請求項25に記載のコンピューティングデバイス。
  34. 関連性を計算する命令は、さらに、前記データソースのコンテンツ内で、前記コンテンツ内の他のメタデータ特徴の出現の頻度と比較してより大きな頻度で出現する前記メタデータの特徴に対し、より大きな関連性を割り当てる命令を含むことを特徴とする請求項25に記載のコンピューティングデバイス。
  35. 関連性を計算する命令は、さらに、前記1つまたは複数のドキュメントのうちの1つのドキュメント内で見つかった前記メタデータの特徴に対し、前記ドキュメントの経過期間に応じて、より大きな重みを割り当てる命令を含むことを特徴とする請求項25に記載のコンピューティングデバイス。
  36. 前記複数の特徴は、前記第1および第2のクラスタ内のそれぞれの複数のノードにより表され、前記複数のノードのそれぞれに対する前記重要性尺度は、前記第1および第2のクラスタ内のオブジェクト間の距離を測定する類似度関数に基づくことを特徴とする請求項25に記載のコンピューティングデバイス。
  37. エンハンストドキュメント検索のためのコンテンツ伝播を実現するコンピューティングデバイスであって、
    プロセッサと、
    前記プロセッサに結合されたメモリとを含み、
    該メモリは前記プロセッサにより実行可能なプログラム命令を含み、該プログラム命令は実行されると、
    1つまたは複数のドキュメントを対象とする参照情報を識別する手段であって、前記参照情報が、前記1つまたは複数のドキュメントを含むデータソースと無関係のデータの1つまたは複数のソースから識別される手段と、
    前記参照情報の近くに配置されていて、前記参照情報を取り囲み前記参照情報に意味論的に又は文脈的に関係するメタデータを抽出する手段と、
    前記1つまたは複数のドキュメントのうちの関連する複数のドキュメントのコンテンツに対する前記メタデータのそれぞれの特徴間の関連性を計算する手段と、
    前記1つまたは複数のドキュメントのうちのそれぞれのドキュメントについて、前記メタデータの関連する部分に対し、前記それぞれの部分からの特徴の関連性と関連性スコアとを使用して、前記ドキュメントのオリジナルコンテンツの中にインデックスを作成する手段とを含み、
    前記インデックス作成する手段により、1つまたは複数のエンハンストドキュメントが生成され、
    検索クエリに基づいて関連情報を見付けるために1つまたは複数のエンハンストドキュメントを解析する手段と、
    関連性スコアに基づいて1つまたは複数のエンハンストドキュメントをランク付けする手段と、
    検索クエリに基づいて1つまたは複数のエンハンストドキュメントについての断片的記述とランク付けされた結果を通信する手段とを実現し、
    前記計算する手段は、さらに、層間リンクを使用して異種オブジェクトをクラスタリングし、前記異種オブジェクトの複数の特徴に対する重要性尺度を決定する手段を含み、前記異種オブジェクトは、類似のクエリの第1のクラスタと、関係するドキュメントの第2のクラスタとを含み、前記類似のクエリは前記検索クエリログで識別されており、前記類似のクエリは前記1つまたは複数のドキュメントを含む関連付けられた検索結果であり、前記関係するドキュメントは、前記関係する複数のドキュメントの個々の複数のドキュメントが前記複数の検索結果からエンドユーザにより選択されたか否かに関係なく前記検索結果で識別されることを特徴とするコンピューティングデバイス。
  38. 前記参照情報は、前記1つまたは複数のドキュメントのうちの1つのドキュメントに関連付けられているリンクまたは実質的に一意のドキュメントIDの少なくとも1つを含むことを特徴とする請求項37に記載のコンピューティングデバイス。
  39. 前記1つまたは複数のドキュメントは、知識ベースアーティクル、製品ヘルプ、タスク、または開発者データの1つを含むことを特徴とする請求項37に記載のコンピューティングデバイス。
  40. データの前記1つまたは複数のソースは、サービス要求、ニュースグループポスティング、または検索クエリログの少なくとも1つを含むことを特徴とする請求項37に記載のコンピューティングデバイス。
  41. 前記メタデータは、前記1つまたは複数のドキュメントのうちの複数の関連付けられているドキュメントに意味上または文脈上関係することを特徴とする請求項37に記載のコンピューティングデバイス。
  42. 前記メタデータは、アーティクルタイトル、製品問題の状況、または製品問題解決情報の少なくとも1つを含み、関連性を計算する手段は、さらに、前記アーティクルタイトルまたは製品問題の状況に重みを付けて、製品問題解決情報より高い関連性を示す手段を含むことを特徴とする請求項37に記載のコンピューティングデバイス。
  43. 関連性を計算する手段は、さらに、前記データソースのコンテンツ内で、前記コンテンツ内の他のメタデータ特徴の出現の頻度と比較してより大きな頻度で出現する前記メタデータの特徴に対し、より大きな関連性を割り当てる手段を含むことを特徴とする請求項37に記載のコンピューティングデバイス。
  44. 関連性を計算する手段は、さらに、前記1つまたは複数のドキュメントのうちの1つのドキュメント内で見つかった前記メタデータの特徴に対し、前記ドキュメントの経過期間に応じて、より大きな重みを割り当てる手段を含むことを特徴とする請求項37に記載のコンピューティングデバイス。
  45. データの前記1つまたは複数のソースは、検索クエリログを含み、関連性を計算する手段は、さらに、
    前記検索クエリログから、前記データソースを検索するために比較的大きな出現頻度(FOO)を持つ検索クエリを識別する手段と、
    検索クエリ結果からエンドユーザにより選択された、前記データソースからのアーティクルを決定する手段と、
    選択されなかった前記検索クエリ内のアーティクルである欠損エンドユーザ選択を計算する手段とを含むことを特徴とする請求項37に記載のコンピューティングデバイス。
JP2005118172A 2004-04-15 2005-04-15 エンハンストドキュメント取り出しのためのコンテンツ伝播 Expired - Fee Related JP4750456B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/826,161 US7305389B2 (en) 2004-04-15 2004-04-15 Content propagation for enhanced document retrieval
US10/826,161 2004-04-15

Publications (3)

Publication Number Publication Date
JP2005316999A JP2005316999A (ja) 2005-11-10
JP2005316999A5 true JP2005316999A5 (ja) 2008-05-29
JP4750456B2 JP4750456B2 (ja) 2011-08-17

Family

ID=34939223

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005118172A Expired - Fee Related JP4750456B2 (ja) 2004-04-15 2005-04-15 エンハンストドキュメント取り出しのためのコンテンツ伝播

Country Status (5)

Country Link
US (1) US7305389B2 (ja)
EP (1) EP1587009A3 (ja)
JP (1) JP4750456B2 (ja)
KR (1) KR101114023B1 (ja)
CN (1) CN100511224C (ja)

Families Citing this family (81)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6831663B2 (en) * 2001-05-24 2004-12-14 Microsoft Corporation System and process for automatically explaining probabilistic predictions
WO2004034282A1 (ja) * 2002-10-10 2004-04-22 Fujitsu Limited コンテンツ再利用管理装置およびコンテンツ再利用支援装置
US20050114382A1 (en) * 2003-11-26 2005-05-26 Lakshminarayan Choudur K. Method and system for data segmentation
US7827279B2 (en) * 2004-01-30 2010-11-02 Hewlett-Packard Development Company, L.P. Selecting nodes close to another node in a network using location information for the nodes
US20050278314A1 (en) * 2004-06-09 2005-12-15 Paul Buchheit Variable length snippet generation
US7716225B1 (en) 2004-06-17 2010-05-11 Google Inc. Ranking documents based on user behavior and/or feature data
US8825639B2 (en) * 2004-06-30 2014-09-02 Google Inc. Endorsing search results
US7827176B2 (en) 2004-06-30 2010-11-02 Google Inc. Methods and systems for endorsing local search results
US7730010B2 (en) 2004-09-20 2010-06-01 Microsoft Corporation Method, system, and apparatus for maintaining user privacy in a knowledge interchange system
US7707167B2 (en) * 2004-09-20 2010-04-27 Microsoft Corporation Method, system, and apparatus for creating a knowledge interchange profile
US7593924B2 (en) 2004-09-20 2009-09-22 Microsoft Corporation Method, system, and apparatus for receiving and responding to knowledge interchange queries
WO2006047654A2 (en) * 2004-10-25 2006-05-04 Yuanhua Tang Full text query and search systems and methods of use
US20080077570A1 (en) * 2004-10-25 2008-03-27 Infovell, Inc. Full Text Query and Search Systems and Method of Use
JP2008521100A (ja) * 2004-11-17 2008-06-19 ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニア ウェブページを生成するシステム及び方法
US7765214B2 (en) * 2005-05-10 2010-07-27 International Business Machines Corporation Enhancing query performance of search engines using lexical affinities
JP4626483B2 (ja) * 2005-10-27 2011-02-09 ソニー株式会社 サーバ装置、データ処理方法、プログラムおよび通信方法
US7584159B1 (en) * 2005-10-31 2009-09-01 Amazon Technologies, Inc. Strategies for providing novel recommendations
US7668821B1 (en) 2005-11-17 2010-02-23 Amazon Technologies, Inc. Recommendations based on item tagging activities of users
US9495349B2 (en) * 2005-11-17 2016-11-15 International Business Machines Corporation System and method for using text analytics to identify a set of related documents from a source document
US20070112833A1 (en) * 2005-11-17 2007-05-17 International Business Machines Corporation System and method for annotating patents with MeSH data
US20070136400A1 (en) * 2005-12-13 2007-06-14 International Business Machines Corporation Method and apparatus for integrating user communities with documentation
US7664760B2 (en) * 2005-12-22 2010-02-16 Microsoft Corporation Inferred relationships from user tagged content
US8001121B2 (en) * 2006-02-27 2011-08-16 Microsoft Corporation Training a ranking function using propagated document relevance
US8019763B2 (en) * 2006-02-27 2011-09-13 Microsoft Corporation Propagating relevance from labeled documents to unlabeled documents
JP4783181B2 (ja) * 2006-03-13 2011-09-28 株式会社東芝 行動予測装置
US7933890B2 (en) * 2006-03-31 2011-04-26 Google Inc. Propagating useful information among related web pages, such as web pages of a website
US8699806B2 (en) * 2006-04-12 2014-04-15 Google Inc. Method and apparatus for automatically summarizing video
US8442973B2 (en) * 2006-05-02 2013-05-14 Surf Canyon, Inc. Real time implicit user modeling for personalized search
US8229156B1 (en) 2006-08-08 2012-07-24 Google Inc. Using curve invariants to automatically characterize videos
US8117197B1 (en) 2008-06-10 2012-02-14 Surf Canyon, Inc. Adaptive user interface for real-time search relevance feedback
US8195734B1 (en) 2006-11-27 2012-06-05 The Research Foundation Of State University Of New York Combining multiple clusterings by soft correspondence
US20080155305A1 (en) * 2006-12-22 2008-06-26 International Business Machines Corporation Collaborative problem determination based on graph visualization
US7822750B2 (en) * 2007-01-17 2010-10-26 Aptima, Inc Method and system to compare data entities
US8280877B2 (en) * 2007-02-22 2012-10-02 Microsoft Corporation Diverse topic phrase extraction
US9507858B1 (en) 2007-02-28 2016-11-29 Google Inc. Selectively merging clusters of conceptually related words in a generative model for text
US7849104B2 (en) * 2007-03-01 2010-12-07 Microsoft Corporation Searching heterogeneous interrelated entities
US8161040B2 (en) * 2007-04-30 2012-04-17 Piffany, Inc. Criteria-specific authority ranking
WO2009038822A2 (en) * 2007-05-25 2009-03-26 The Research Foundation Of State University Of New York Spectral clustering for multi-type relational data
US8751507B2 (en) * 2007-06-29 2014-06-10 Amazon Technologies, Inc. Recommendation system with multiple integrated recommenders
US7949659B2 (en) * 2007-06-29 2011-05-24 Amazon Technologies, Inc. Recommendation system with multiple integrated recommenders
US8260787B2 (en) * 2007-06-29 2012-09-04 Amazon Technologies, Inc. Recommendation system with multiple integrated recommenders
US8566338B2 (en) 2007-09-21 2013-10-22 International Business Machines Corporation Automatically making changes in a document in a content management system based on a change by a user to other content in the document
JP4724701B2 (ja) * 2007-10-30 2011-07-13 日本電信電話株式会社 文章検索サーバコンピュータ,文章検索方法,文章検索プログラム,そのプログラムを記録した記録媒体
US20090132462A1 (en) * 2007-11-19 2009-05-21 Sony Corporation Distributed metadata extraction
US8145630B1 (en) * 2007-12-28 2012-03-27 Google Inc. Session-based dynamic search snippets
JP4524702B2 (ja) * 2008-02-08 2010-08-18 コニカミノルタビジネステクノロジーズ株式会社 データ管理装置、検索条件情報管理方法、およびコンピュータプログラム
US7991650B2 (en) 2008-08-12 2011-08-02 Amazon Technologies, Inc. System for obtaining recommendations from multiple recommenders
US7991757B2 (en) * 2008-08-12 2011-08-02 Amazon Technologies, Inc. System for obtaining recommendations from multiple recommenders
US20100042610A1 (en) * 2008-08-15 2010-02-18 Microsoft Corporation Rank documents based on popularity of key metadata
US8140550B2 (en) * 2008-08-20 2012-03-20 Satyam Computer Services Limited Of Mayfair Centre System and method for bounded analysis of multimedia using multiple correlations
US9298722B2 (en) * 2009-07-16 2016-03-29 Novell, Inc. Optimal sequential (de)compression of digital data
US10089391B2 (en) * 2009-07-29 2018-10-02 Herbminers Informatics Limited Ontological information retrieval system
JP5514486B2 (ja) * 2009-08-03 2014-06-04 株式会社日立製作所 Webページの関連性抽出方法、装置、及びプログラム
US20110119269A1 (en) * 2009-11-18 2011-05-19 Rakesh Agrawal Concept Discovery in Search Logs
KR101306667B1 (ko) * 2009-12-09 2013-09-10 한국전자통신연구원 지식 그래프 정제 장치 및 방법
US8782734B2 (en) * 2010-03-10 2014-07-15 Novell, Inc. Semantic controls on data storage and access
US20110238670A1 (en) * 2010-03-23 2011-09-29 Microsoft Corporation Crowd-sourcing and contextual reclassification of rated content
US8832103B2 (en) 2010-04-13 2014-09-09 Novell, Inc. Relevancy filter for new data based on underlying files
US9703895B2 (en) * 2010-06-11 2017-07-11 Microsoft Technology Licensing, Llc Organizing search results based upon clustered content
US8478740B2 (en) * 2010-12-16 2013-07-02 Microsoft Corporation Deriving document similarity indices
US9798732B2 (en) 2011-01-06 2017-10-24 Micro Focus Software Inc. Semantic associations in data
US8880517B2 (en) 2011-02-18 2014-11-04 Microsoft Corporation Propagating signals across a web graph
US8423547B2 (en) 2011-04-08 2013-04-16 Microsoft Corporation Efficient query clustering using multi-partite graphs
US9721039B2 (en) * 2011-12-16 2017-08-01 Palo Alto Research Center Incorporated Generating a relationship visualization for nonhomogeneous entities
US9864817B2 (en) * 2012-01-28 2018-01-09 Microsoft Technology Licensing, Llc Determination of relationships between collections of disparate media types
JP5324677B2 (ja) * 2012-02-24 2013-10-23 株式会社日立製作所 類似文書検索支援装置及び類似文書検索支援プログラム
US8805848B2 (en) 2012-05-24 2014-08-12 International Business Machines Corporation Systems, methods and computer program products for fast and scalable proximal search for search queries
US10445415B1 (en) * 2013-03-14 2019-10-15 Ca, Inc. Graphical system for creating text classifier to match text in a document by combining existing classifiers
US20150032729A1 (en) * 2013-07-23 2015-01-29 Salesforce.Com, Inc. Matching snippets of search results to clusters of objects
US10223401B2 (en) 2013-08-15 2019-03-05 International Business Machines Corporation Incrementally retrieving data for objects to provide a desired level of detail
US20180203932A1 (en) * 2017-01-18 2018-07-19 International Business Machines Corporation Enhanced information retrieval
CN107220094B (zh) * 2017-06-27 2019-06-28 北京金山安全软件有限公司 页面加载方法、装置和电子设备
CN107357919A (zh) * 2017-07-21 2017-11-17 携程旅游网络技术(上海)有限公司 行为日志查询系统及方法
US11475209B2 (en) 2017-10-17 2022-10-18 Handycontract Llc Device, system, and method for extracting named entities from sectioned documents
US10726198B2 (en) 2017-10-17 2020-07-28 Handycontract, LLC Method, device, and system, for identifying data elements in data structures
WO2019232645A1 (en) * 2018-06-07 2019-12-12 Element Ai Inc. Unsupervised classification of documents using a labeled data set of other documents
CN109033280A (zh) * 2018-07-11 2018-12-18 平安科技(深圳)有限公司 日志搜索方法、系统、计算机设备和存储介质
US11372894B2 (en) * 2018-12-21 2022-06-28 Atlassian Pty Ltd. Associating product with document using document linkage data
WO2020243532A1 (en) * 2019-05-29 2020-12-03 Iron Mountain Incorporated Systems and methods for cloud content-based document clustering and classification integration
US20210056224A1 (en) * 2019-08-20 2021-02-25 Metricstream, Inc. Data access control in hierarchical multi-dimensional datasets
US20230281257A1 (en) * 2022-01-31 2023-09-07 Walmart Apollo, Llc Systems and methods for determining and utilizing search token importance using machine learning architectures

Family Cites Families (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03122770A (ja) 1989-10-05 1991-05-24 Ricoh Co Ltd キーワード連想文書検索方法
US5265065A (en) 1991-10-08 1993-11-23 West Publishing Company Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query
US5488725A (en) 1991-10-08 1996-01-30 West Publishing Company System of document representation retrieval by successive iterated probability sampling
US5442778A (en) 1991-11-12 1995-08-15 Xerox Corporation Scatter-gather: a cluster-based method and apparatus for browsing large document collections
US7251637B1 (en) 1993-09-20 2007-07-31 Fair Isaac Corporation Context vector generation and retrieval
US5576954A (en) 1993-11-05 1996-11-19 University Of Central Florida Process for determination of text relevancy
US5812134A (en) 1996-03-28 1998-09-22 Critical Thought, Inc. User interface navigational system & method for interactive representation of information contained within a database
US6188776B1 (en) 1996-05-21 2001-02-13 Interval Research Corporation Principle component analysis of images for the automatic location of control points
JP3108015B2 (ja) 1996-05-22 2000-11-13 松下電器産業株式会社 ハイパーテキスト検索装置
WO1997049048A1 (en) 1996-06-17 1997-12-24 Idd Enterprises, L.P. Hypertext document retrieval system and method
US6457004B1 (en) 1997-07-03 2002-09-24 Hitachi, Ltd. Document retrieval assisting method, system and service using closely displayed areas for titles and topics
US5987460A (en) 1996-07-05 1999-11-16 Hitachi, Ltd. Document retrieval-assisting method and system for the same and document retrieval service using the same with document frequency and term frequency
GB9701866D0 (en) 1997-01-30 1997-03-19 British Telecomm Information retrieval
US5819258A (en) 1997-03-07 1998-10-06 Digital Equipment Corporation Method and apparatus for automatically generating hierarchical categories from large document collections
US6112202A (en) 1997-03-07 2000-08-29 International Business Machines Corporation Method and system for identifying authoritative information resources in an environment with content-based links between information resources
US6298351B1 (en) 1997-04-11 2001-10-02 International Business Machines Corporation Modifying an unreliable training set for supervised classification
US6470307B1 (en) 1997-06-23 2002-10-22 National Research Council Of Canada Method and apparatus for automatically identifying keywords within a document
US5845278A (en) * 1997-09-12 1998-12-01 Inioseek Corporation Method for automatically selecting collections to search in full text searches
US6003027A (en) 1997-11-21 1999-12-14 International Business Machines Corporation System and method for determining confidence levels for the results of a categorization system
US6421675B1 (en) 1998-03-16 2002-07-16 S. L. I. Systems, Inc. Search engine
JPH11328724A (ja) 1998-05-18 1999-11-30 Fuji Photo Film Co Ltd 3次元光メモリ
US6006225A (en) 1998-06-15 1999-12-21 Amazon.Com Refining search queries by the suggestion of correlated terms from prior searches
US6742003B2 (en) 2001-04-30 2004-05-25 Microsoft Corporation Apparatus and accompanying methods for visualizing clusters of data and hierarchical cluster classifications
US6598054B2 (en) 1999-01-26 2003-07-22 Xerox Corporation System and method for clustering data objects in a collection
US6226408B1 (en) 1999-01-29 2001-05-01 Hnc Software, Inc. Unsupervised identification of nonlinear data cluster in multidimensional data
US7225182B2 (en) 1999-05-28 2007-05-29 Overture Services, Inc. Recommending search terms using collaborative filtering and web spidering
US6711585B1 (en) 1999-06-15 2004-03-23 Kanisa Inc. System and method for implementing a knowledge management system
US7725307B2 (en) 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US6556983B1 (en) 2000-01-12 2003-04-29 Microsoft Corporation Methods and apparatus for finding semantic information, such as usage logs, similar to a query using a pattern lattice data space
US6615209B1 (en) 2000-02-22 2003-09-02 Google, Inc. Detecting query-specific duplicate documents
DE10029644B4 (de) 2000-06-16 2008-02-07 Deutsche Telekom Ag Verfahren zur Relevanzbewertung bei der Indexierung von Hypertext-Dokumenten mittels Suchmaschine
US6578032B1 (en) 2000-06-28 2003-06-10 Microsoft Corporation Method and system for performing phrase/word clustering and cluster merging
US7490092B2 (en) * 2000-07-06 2009-02-10 Streamsage, Inc. Method and system for indexing and searching timed media information based upon relevance intervals
US7587428B2 (en) 2000-10-13 2009-09-08 Microsoft Corporation Maintaining a relationship between two different items of data
US6560600B1 (en) 2000-10-25 2003-05-06 Alta Vista Company Method and apparatus for ranking Web page search results
US6772120B1 (en) 2000-11-21 2004-08-03 Hewlett-Packard Development Company, L.P. Computer method and apparatus for segmenting text streams
US7356530B2 (en) 2001-01-10 2008-04-08 Looksmart, Ltd. Systems and methods of retrieving relevant information
WO2002071243A1 (en) 2001-03-01 2002-09-12 Biowulf Technologies, Llc Spectral kernels for learning machines
US6892193B2 (en) 2001-05-10 2005-05-10 International Business Machines Corporation Method and apparatus for inducing classifiers for multimedia based on unified representation of features reflecting disparate modalities
US20030065632A1 (en) 2001-05-30 2003-04-03 Haci-Murat Hubey Scalable, parallelizable, fuzzy logic, boolean algebra, and multiplicative neural network based classifier, datamining, association rule finder and visualization software tool
JP3895955B2 (ja) * 2001-08-24 2007-03-22 株式会社東芝 情報検索方法および情報検索システム
US20030046389A1 (en) 2001-09-04 2003-03-06 Thieme Laura M. Method for monitoring a web site's keyword visibility in search engines and directories and resulting traffic from such keyword visibility
US7167871B2 (en) 2002-05-17 2007-01-23 Xerox Corporation Systems and methods for authoritativeness grading, estimation and sorting of documents in large heterogeneous document collections
JP3918664B2 (ja) 2002-07-10 2007-05-23 ヤマハ株式会社 音響信号処理装置
JP2004054588A (ja) * 2002-07-19 2004-02-19 Just Syst Corp 文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラム
US7136876B1 (en) 2003-03-03 2006-11-14 Hewlett-Packard Development Company, L.P. Method and system for building an abbreviation dictionary
US20040249808A1 (en) 2003-06-06 2004-12-09 Microsoft Corporation Query expansion using query logs
US7225184B2 (en) 2003-07-18 2007-05-29 Overture Services, Inc. Disambiguation of search phrases using interpretation clusters
US7165119B2 (en) 2003-10-14 2007-01-16 America Online, Inc. Search enhancement system and method having rankings, explicitly specified by the user, based upon applicability and validity of search parameters in regard to a subject matter

Similar Documents

Publication Publication Date Title
JP2005316999A5 (ja)
US9418128B2 (en) Linking documents with entities, actions and applications
KR101443475B1 (ko) 검색 제안 클러스터링 및 프리젠테이션
US20190147000A1 (en) Systems and methods for performing search and retrieval of electronic documents using a big index
Lu et al. Annotating search results from web databases
JP4160578B2 (ja) ウェブデータベースのスキーママッチングの方法およびシステム
Ceccarelli et al. Dexter: an open source framework for entity linking
US8392413B1 (en) Document-based synonym generation
US9619571B2 (en) Method for searching related entities through entity co-occurrence
US9817908B2 (en) Systems and methods for news event organization
Kaptein et al. Exploiting the category structure of Wikipedia for entity ranking
US10152478B2 (en) Apparatus, system and method for string disambiguation and entity ranking
US8977625B2 (en) Inference indexing
WO2015084759A1 (en) Systems and methods for in-memory database search
EP2992482A1 (en) Data unification device and method for unifying unstructured data objects and structured data objects into unified semantic objects
Bellare et al. Woo: A scalable and multi-tenant platform for continuous knowledge base synthesis
US20110179012A1 (en) Network-oriented information search system and method
Madhavan et al. Structured data meets the Web: a few observations.
Bergamaschi et al. Keyword search over relational databases: Issues, approaches and open challenges
US9223853B2 (en) Query expansion using add-on terms with assigned classifications
US9773035B1 (en) System and method for an annotation search index
Stein et al. Beyond precision@ 10: Clustering the long tail of web search results
Huang et al. eXtract: a snippet generation system for XML search
Tsukuda et al. Estimating intent types for search result diversification
US9864767B1 (en) Storing term substitution information in an index