JP2005316999A - エンハンストドキュメント取り出しのためのコンテンツ伝播 - Google Patents

エンハンストドキュメント取り出しのためのコンテンツ伝播 Download PDF

Info

Publication number
JP2005316999A
JP2005316999A JP2005118172A JP2005118172A JP2005316999A JP 2005316999 A JP2005316999 A JP 2005316999A JP 2005118172 A JP2005118172 A JP 2005118172A JP 2005118172 A JP2005118172 A JP 2005118172A JP 2005316999 A JP2005316999 A JP 2005316999A
Authority
JP
Japan
Prior art keywords
documents
metadata
document
relevance
computing device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005118172A
Other languages
English (en)
Other versions
JP2005316999A5 (ja
JP4750456B2 (ja
Inventor
Benyu Zhang
チャン ベンユー
B Cook Daniel
ビー.クック ダニエル
Hirschler Gabor
ヒスラー ガボール
Hsiao-Wuen Hon
ホン シャオ−ウェン
Hua-Jun Zeng
チェン ホア−ジュン
Fries Karen
フリース カレン
Kurt Samuelson
サミュエルソン カート
Wei-Ying Ma
マ ウェイ−イェン
Zheng Chen
ツェン チェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2005316999A publication Critical patent/JP2005316999A/ja
Publication of JP2005316999A5 publication Critical patent/JP2005316999A5/ja
Application granted granted Critical
Publication of JP4750456B2 publication Critical patent/JP4750456B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/328Management therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation

Abstract

【課題】 エンハンストドキュメント取り出しのためにコンピュータによって実施されるコンテンツ伝播を実現する。
【解決手段】 1つまたは複数のドキュメントを対象とする参照情報を識別する。参照情報は、1つまたは複数のドキュメントを含むデータソースとは無関係のデータの1つまたは複数のソースから識別する。データの1つまたは複数のソースから、参照情報に近い位置にあるメタデータを抽出する。1つまたは複数のドキュメントのうちの関連する複数のドキュメントのコンテンツに対するメタデータのそれぞれの特徴間の関連性が計算される。1つまたは複数のドキュメントのうちのそれぞれのドキュメントについて、メタデータの関連する部分に対し、それぞれの部分からドキュメントのオリジナルコンテンツの中への特徴の関連性を使用してインデックスが作成される。このインデックス作成機能により、1つまたは複数のエンハンストドキュメントを生成する。
【選択図】 図1

Description

本発明の実施は、データマイニング(data mining)に関する。
今日のハイテク企業は、一般に、消費者とパートナーが技術投資から最大の価値を確実に享受するようになにがしかの製品サポートを実施している。例えば、顧客とパートナーの要件を満たすために、さまざまな消費者およびビジネスサポート提供物、および戦略的ITコンサルティングサービスが提供される。サポート提供物は、電話、現場、Webベースのサポートなどが考えられる。残念なことに、製品サポートサービスは、財務コストだけでなく、解決策を見つけるために必要な時間の点でも、非常にコスト高になる可能性がある。例えば、現場コンサルティングサービスは、一般に高額であり、あまりに高額であるため、企業以外の消費者には個々の製品コンサルタントまたはトラブルシュータを雇う金銭的余裕はない。
さらに、例えば、製品の「how−to」(ヘルプ)およびトラブルシューティングアーティクル(troubleshooting article)を含む知識ベース(knowledge base)のオンライン検索(online search)を介してサービスが自動化されている場合、消費者が適切なアーティクル群を見つけるまでにひどく長い時間がかかる可能性がある。このような状況になる理由の1つは、知識ベースの製品トラブルシューティングアーティクルは専門のライタ、ベンダなどにより作成されるのがふつうであり、サポートが求められる製品を毎日使っているユーザが作成しているのではないからである。このようなシナリオでは、ユーザが知識ベース(KB)コンテンツプロデューサ(content producer(s))によって採用されているターム(term)を使用して検索クエリ(search query)を形成しない場合、ユーザが適切な知識ベーストラブルシューティング情報を特定するのは非常に困難であり、時間もかかる可能性がある。
エンハンストドキュメント取り出し(enhanced document retrieval)のために、コンピュータによって実施されるコンテンツ伝播(computer-implemented content propagation)を実現するシステムおよび方法について説明する。
本発明の一態様では、1つまたは複数のドキュメントを対象とする参照情報(reference information)が識別される。参照情報は、1つまたは複数のドキュメントを含むデータソースとは無関係のデータの1つまたは複数のソースから識別される。データの1つまたは複数のソースから、参照情報に近い位置にあるメタデータが抽出される。1つまたは複数のドキュメントのうちの関連する複数のドキュメントのコンテンツに対するメタデータのそれぞれの特徴間の関連性が計算される。1つまたは複数のドキュメントのうちのそれぞれのドキュメントについて、メタデータの関連する部分(associated portion)に対し、それぞれの部分からドキュメントのオリジナルコンテンツ(original content)の中への特徴の関連性(relevance of features)を使用してインデックスが作成される。このインデックス作成機能(indexing)は、1つまたは複数のエンハンストドキュメント(enhanced document)を生成する。
後に説明するそれぞれの図において、コンポーネント参照番号の一番左の数字は、そのコンポーネントが最初に出現する特定の図を示す。
概要
KBアーティクルは、「how−to」(ヘルプ)アーティクルを見つける顧客を手助けし、製品問題を解決し(トラブルシューティング)、および/または他の何らかの手段により製品を調査することを目的として作成される。調べたところ、エンドユーザが顧客の質問に直接関係する的確なKBアーティクルを検索し、取得するのが容易であるほど、製品および関連するサポートインフラに対する顧客の満足度は高いことが判明した。したがって、以下の説明されているシステムおよび方法は、さまざまなデータソースにまたがって格納されている情報を分析してKBアーティクル関連情報(KBARI:KB article related information)を見つけることにより、コンテンツ伝播およびエンハンストドキュメント取り出しを実現する。このようなデータソースは、例えば、サービス要求ストレージリポジトリ、オンライン製品および開発者サポートグループニュースグループポスティング、検索クエリクリックスルーログ、および/またはそれらに類似のものを含む。
KBARIは、例えば、実質的に一意のPSドキュメント(例えば、KBアーティクル)ID、特定の(複数の)PSアーティクルへのハイパーテキストリンク、特定の(複数の)PSアーティクルへの(複数の)URI(Universal Resource Identifier)、ドキュメントのタイトルなどを含む。製品開発者サポートニュースグループからの(複数の)製品サービス要求および/またはポスティングの中からKBARIが見つかった場合、KBARIに近いテキストは、KBARIにより参照される(複数の)PS/トラブルシューティングアーティクルに意味上および/または文脈上価値ある情報を含むことがあり得る。さらに、そのようなテキストは、現実の問題解決シナリオにおいて(複数の)エンドユーザおよび/または製品サポートサービス(PSS)エンジニアにより−もっぱら製品のドキュメントを作成する仕事を請け負った専門ライタまたはベンダによってではなく−生成される可能性が高かった。
例えば、(複数の)サービス要求のPSSログ内のサービス要求(SR)は、エンドユーザによりPSSエンジニアに最初に提出された情報を含むアーカイブされたドキュメント(例えば、1つまたは複数の関連電子メール)である。つまり、SRは、トラブルシューティングシナリオなどの製品関係の質問をPSSエンジニアに振り向ける機能を持つ。PSSエンジニアは、一般的に、SRに応答する。SRが締めきられる前に、PSSエンジニアは、SR要約を生成して、製品、取り扱われる問題、問題の兆候(例えば、アクションと結果)、原因、および/または解決などの情報の何らかの組合せをはっきりと識別する。その結果、SRは、現実の問題解決シナリオにおいて(複数の)エンドユーザおよび(複数の)PSSエンジニアにより生成されたKBアーティクル106および/または製品関係情報への実質的に価値ある参照を含む可能性があるデータを含む。
ニュースグループのポスティングに関して、事業体および企業は、通常、製品および/または開発者関係ニュースグループをホスティングし、エンドユーザに対して製品開発およびトラブルシューティング問題についてオンラインで話し合うための機会を提供する。例えば、エンドユーザは、特定の製品で問題が生じた場合、それに対応するアーティクルを、問題および要求支援を明確にうちだしているサーバにポスティングすることができる。このようなシナリオでは、その製品に関連するパワーユーザおよび/またはサービス専門家を含むニュースグループの読者は、その要求に対する回答をポスティングすることができる。サービス要求の場合と同様、ニュースグループポスティングは、1つまたは複数のKBアーティクルに直接または文脈上関係するコンテンツ(例えば、リンク、参照など)を含むことができる。あるポスティングがあるKBアーティクルを参照している場合、そのポスティングはそのKBアーティクルに対する有用と思われるメタデータを提供する。
(複数の)クエリログ(query log)に関して、エンドユーザは、例えば、Webサイトを介して検索クエリを(複数の)検索エンジンにサブミットし、(複数の)特定の製品に関連する(複数の)KBアーティクルを探索する、製品挙動をトラブルシューティングするといった作業を行うことが多い。検索エンジンおよび/またはKBデータベースをホスティングするサーバなどのサーバは、エンドユーザのクエリとともに、その後のエンドユーザの(複数の)クリックスルーアクションをも記録する。クエリがKBアーティクルに関連付けられていることが非常に頻繁である場合、このクエリはそのKBアーティクルに対するよいメタデータである可能性が最も高い。
複数のデータソースからのこのような意味上および/または文脈上関係する情報を利用するために、これらのシステムおよび方法では、特定されたKBARIの近くにある(例えば、その周囲の)テキストを抽出する。関連付けられている(複数の)PSアーティクルに関して(複数の)特徴(キーワード)重要度重み付け値を生成するために、抽出されたテキストが分析される。(抽出されたテキストは、そのテキストが近い位置にあるKBARIにより示されるように(複数の)PSアーティクルに関連付けられている)。抽出されたテキスト(これ以降、「メタデータ」と呼ばれることが多い)および対応する(複数の)特徴重要度重み付け値は、関連する(複数の)PSアーティクルのオリジナルコンテンツを使用してインデックスが作成され、それにより新しいまたはエンハンスト(複数の)PSアーティクルを生成する。この実装では、オリジナルPSアーティクルとエンハンストPSアーティクルとの間に一対一の対応関係がある。例えば、エンハンストPSアーティクル毎に、対応する機能強化されていないまたはオリジナルPSアーティクルがある。他の実施形態では、そのような一対一の対応関係がなく、オリジナルPSアーティクル(original PS article)は、エンハンストPSアーティクル(enhanced PS article)で置き換えられる。
エンドユーザから検索クエリを受け取ったことに対する応答として、エンハンストドキュメント取り出しのためのコンテンツ伝播を実現するこれらのシステムおよび方法では、検索クエリの(複数の)タームを含む(複数の)PSアーティクル(オリジナルおよび/またはエンハンスト)を取り出す。その後、取り出されたオリジナルおよび/またはエンハンストPSアーティクルの関連性が、クエリタームの近接度および人気度基準に照らして判定される。次に、検索結果が、それらの関連性スコアに照らしてランキングされる。エンドユーザに対して返されたドキュメントの関連性をはっきりと示すために検索結果からスニペット記述(Snippet descriptions)が生成される。ランク付けされた結果は、スニペット記述とともに、エンドユーザに伝達される。
一実施形態では、さらに、エンハンストドキュメント取り出しのためのコンテンツ伝播を実現するシステムおよび方法により、自動的にPSアーティクルを生成できるように新しいPSコンテンツを容易に識別することができる。次に、エンハンストドキュメント取り出しのためのコンテンツ伝播を実現するシステムおよび方法のこれらの態様およびその他の態様について、詳細に説明する。
例示的システム
図面を参照すると、類似の参照番号は類似の要素を参照しているが、システムおよび方法については、好適なコンピューティング環境内で実施されているものとして説明し、図に示してある。必要とされていないが、パーソナルコンピュータによって実行される、プログラムモジュールなどのコンピュータ実行可能命令の一般的文脈においてこれらのシステムおよび方法も説明している。一般に、プログラムモジュールは、特定のタスクを実行する、または特定の抽象データ型を実施形態するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。これらのシステムおよび方法は前記の文脈において説明しているが、これ以降説明される活動およびオペレーションは、ハードウェアで実施することもできる。
図1は、エンハンストドキュメント取り出しのためのコンテンツ伝播を実現するシステム例100を示している。この実施形態では、システム100は、ネットワーク104を介して(複数の)KBアーティクル106(データベース)データソース108〜114に結合されている(複数の)KBホスティングサーバ(102)およびクライアントコンピューティングデバイス116を備える。ネットワーク104は、事務所、企業規模のコンピュータネットワーク、イントラネット、およびインターネットでは一般的であるネットワークなどの、ローカルエリアネットワーク(LAN)および一般的なワイドエリアネットワーク(WAN)通信環境の任意の組合せを含むことができる。KBホスティングサーバ102は、データソース108〜114に分散して格納されている情報をマイニングし、この情報をオリジナルKBアーティクル118に追加して、新しいまたはエンハンストKBアーティクル120を生成する。この実施形態では、データソース108〜114は、例えば、(複数の)サービス要求108、(複数の)ニュースグループポスティング110、(複数の)クエリログ112、および/またはその他の(複数の)データソース114を含む。KBホスティングサーバ102は、クライアントコンピューティングデバイス116のエンドユーザからKB関係検索クエリ122を受け取ったことに対する応答として、検索クエリ122の(複数の)タームを含む(複数の)オリジナルKBアーティクル118および/または(複数の)エンハンストKBアーティクル120を取り出す。クライアントコンピューティングデバイス116は、パーソナルコンピュータ、ラップトップ、サーバ、モバイルコンピューティングデバイス(例えば、携帯電話、携帯情報端末、またはハンドヘルドコンピュータ)などの任意の種類のコンピューティングデバイスである。
複数のデータソースからのPSドキュメントリンク、IDなどのマイニング
より具体的には、(複数の)KBホスティングサーバ102のメタデータ抽出124では、データソース108〜114に分散して格納されている情報をマイニングして、複数のKBアーティクル106のうちのそれぞれのアーティクルに関係する情報を識別する。説明および例示するために、この識別された情報は、KB関係情報(KBARI)126と呼ばれる。KBARI 126は、例えば、実質的に一意のKBアーティクルID(例えば、GUID)、特定の(複数の)KBアーティクルへのハイパーテキストリンク、特定の(複数の)KBアーティクルへの(複数の)URI(Universal Resource Identifier)などを含む。メタデータ抽出124で製品開発者サポートニュースグループからのPSSおよび/またはニュースグループポスティング110から(複数の)サービス要求108内にKBARI 126を見つけた場合、KBARI 126に近いテキストは、KBARI 126により参照される(複数の)オリジナルKBアーティクル118に意味上および/または文脈上価値ある情報を含む可能性が非常に高い。例えば、そのようなテキストは、アーティクルタイトル、アーティクルキーワード、製品問題説明、および解決データなどを含むことができる。さらに、そのようなテキストは、現実の問題解決シナリオにおいて(複数の)エンドユーザおよび/またはPSSエンジニアにより−もっぱら製品のドキュメントを作成する仕事を請け負った専門ライタまたはベンダによってではなく−生成される可能性が高かった。
特徴抽出および重要度重み付け
(複数の)データソース108〜114からの意味上および/または文脈上関係するKBアーティクル情報を利用するために、メタデータ抽出124が、特定されたKBARI 126の近くにある(例えば、その周囲の)テキストを抽出する。説明のため、このような抽出されたテキストは、メタデータ128として示されている。検索クエリ122のタームに実質的に最も関連する(複数の)KBアーティクル106をエンドユーザに提供するため、メタデータ抽出124ではメタデータ128を分析して、(複数の)KBアーティクル106のうちの関連するアーティクルに関して(複数の)特徴重要度(関連性)重み付け値を生成する。(抽出されたメタデータ128は、対応するKBARI 126により示されているように(複数の)KBアーティクル106に関連付けられる)。
より具体的には、メタデータ抽出124では、全文検索手法を使用して、異なる関連度重みをメタデータ128の特徴に関連付ける。この実施形態では、サービス要求108に関して、他のサービス要求情報、例えば、問題解決に割り当てられた重みと比較して、より大きな重みがタイトルおよび兆候に割り当てられる。これは、ユーザが、問題解決情報ではなく、問題兆候で検索クエリを定式化する可能性が高いためである。特徴重み付けは、さらに、特定のKBアーティクル参照(つまり、KBARI 126のそれぞれの情報断片)が、参照経過時間に応じて、その文脈内で識別される回数を反映することもできる。このような特徴重み付けは、さらに、(複数の)ニュースグループポスティング110にも適用される。
(複数の)クエリログ112から抽出されたメタデータ128に関して、メタデータ抽出124は、特徴分析および重み付けを実行するが、そのために、まず、(a)KBアーティクル106を検索するためエンドユーザにより頻繁に生成される検索クエリ、(b)その後選択されるKBアーティクル106、および/または(c)選択されたアーティクルに関係する他のKBアーティクル106などの情報の何らかの組合せを明確にする。その後、メタデータ抽出124では、類似のクエリ(クエリクラスタ)のクラスタおよび関係するKBアーティクル106のクラスタ(つまり、アーティクルクラスタ)を生成することにより(a)、(b)、および/または(c)に関連付けられた疎なクリックスルーデータを処理する。疎なクリックスルーデータは、通常、ユーザが検索エンジンから返された少数のドキュメント(例えば、その1つまたは複数)を選択(つまり、クリックスルー)した場合に得られる。説明のため、(複数の)クエリクラスタおよび(複数の)アーティクルクラスタも、「他のデータ」130のそれぞれの(複数の)部分として表される。類似のクエリおよび関係するKBアーティクルに対するクラスタを定式化するためのクラスタリング手法の一実施例は、付録Aの「異種オブジェクトのクラスタリングの実施例」として詳述してある。
メタデータ128の重み付き特徴を持続し、管理するために、メタデータ抽出および分析モジュール124は、関連するオリジナル(複数の)KBアーティクル118のオリジナルコンテンツを使用してメタデータ128および対応する(複数の)特徴重要度重み付け値のインデックスを作成し、新しいまたはエンハンスト(複数の)KBアーティクル120を生成する。(メタデータ128は、1つまたは複数のそれぞれのKBアーティクル106に対して相補的な関係にあると判別された1つまたは複数のデータソース108〜114からマイニングされたデータを含むことに留意されたい)。この実施形態では、メタデータ128の重み付き特徴のタグ付けが行われ、これによりインデックスのコンテンツを参照し、取り出すためにXMLなどのマークアップ言語が使用されるようにできる。一実施形態では、メタデータ128は、エンハンストKBアーティクル120内に逆インデックスとしてインデックス作成される。この実施形態では、エンハンストKBアーティクル120とオリジナルKBアーティクル118との間に一対一の対応関係がある。例えば、エンハンストKBアーティクル120毎に、対応する機能強化されていないまたはオリジナルKBアーティクル118がある。この一対一対応関係は、オリジナルKBアーティクル118の少なくともサブセットが対応するエンハンストKBアーティクル120を持つことを意味する。他の実施形態では、このような一対一対応関係はない。例えば、オリジナルKBアーティクル118は、エンハンストKBアーティクル120で置き換えられるようにできる。
エンハンストKBアーティクル(enhanced KB article)の取り出し(retrieval)
検索プロバイダ132は、クライアントコンピューティングデバイス116のエンドユーザからKB関係検索クエリ122を受け取る。検索クエリ122の(複数の)タームが、製品調査またはトラブルシューティングの質問に関連している。一実施形態では、検索クエリ122は、拡張マークアップ言語(XML)で指定された情報を含む。エンドユーザは、多数の考えられるさまざまなアプリケーション134のどれかを使用して、ネットワーク104を介して検索クエリ122を(複数の)KBホスティングサーバ102に送信する。例えば、(複数の)アプリケーション134としては、Webブラウザ、ワードプロセッサ、電子メール、および/またはその他の種類の(複数の)コンピュータプログラムアプリケーションなどがある。
この実施形態では、検索プロバイダ132は、KBホスティングサーバ102および検索エンジン機能に対するリモートアプリケーションのエントリポイントを備える。このエントリポイントにより、KBサーバ102と(複数の)アプリケーション134の可能なさまざまなアーキテクチャの実施形態との間の通信が可能になる。例えば、一実施形態では、エントリポイントは、Webブラウザとして実施形態されているアプリケーション134から伝達されたハイパーテキスト転送プロトコル(HTTP)コマンドをサポートする。他の実施形態では、エントリポイントは、SOAP(Simple Object Access Protocol)などのXMLベースのメッセージングプロトコルをサポートする。他のエントリポイント実施形態も、(複数の)アプリケーション134と検索プロバイダ132との間で望まれる特定の種類の通信サポートに応じて可能である。
検索クエリ122を受け取ったことに対する応答として、検索プロバイダ132は、「他のデータ」130のそれぞれの部分として示されている、スキーマに照らして検索クエリ122のデータ形式を解析して強制する。一実施形態では、スキーマは、例えば、クライアントコンピューティングデバイス116により、KBホスティングサーバ102にアップロードされる。次に、検索プロバイダ132は、全文検索をKBアーティクル106に対し実行し、関係する/関連するオリジナル(複数の)KBアーティクル118および/またはエンハンスト(複数の)KBアーティクル120を識別して取り出す。例示し、説明するために、そのようにして取り出されたドキュメントは、「他のデータ」130のそれぞれの部分として示してある。
取り出されたドキュメントの関連性およびランキングオペレーション
その後、取り出されたドキュメントの関連性が、クエリタームの近接度および人気度基準に照らして判定される。タームの近接度に関して、KBアーティクル106を検索する検索クエリ122の長さは、他の種類のクエリ(例えば、一般的なWeb検索についてモデル化されているクエリ)より長くてもよい。これは、製品トラブルシューティングおよび/または調査質問事項を説明するためにより多くの単語/タームが一般的に使用されるからである。この点に照らして、より多くのタームを含む可能性のあるクエリ内でできる限り多くのクエリ条件断片をカバーするKBアーティクル106を見つけるために、検索プロバイダ132では、タームの近接度を使用して、検索クエリ122内のタームに重みを付ける。近接度の値は、以下のように、曲線により重み付け係数に変換され、全文取り出しモジュールにより類似度の値が出力される。
Figure 2005316999
ここで、α、βは、検索クエリ122の各部の相対的重みを制御するように構成されているパラメータである。Hitパラメータは、検索クエリ122のすべてのタームに対する、ドキュメント内の検索クエリ122のタームの割合を表す。EditDistanceパラメータは、クエリとドキュメントの間の「順序誤り」の尺度である。用語「順序誤り」に関して、例えば、クエリがキーワード「information retrieval and data mining」を含み、ドキュメントは「retrieval information and mining from data」である場合について考察する。この例のキーワード「information」および「retrieval」、「data」および「mining」は順序誤りである。これに対処するため、クエリと対応するドキュメントとの間の類似性を計算する際に順序誤りのあるキーワードに対しペナルティを設ける。説明のため、用語の近接度と類似度の値は、「他のデータ」130で「関連性スコア」として示されている。
検索プロバイダ132は、クエリタームの近接度ベースの関連性スコアに照らして、また識別された(複数の)ドキュメントの人気度に照らして、取り出されたドキュメントのランキングを行う。一実施形態では、これは、識別されたKBアーティクル106の経過期間を判別し、最近のアーティクル106ほど大きな重みを割り当て、古いKBアーティクル106より「人気が高い」ものとすることにより達成される。他の実施形態では、KBアーティクル106の人気度は判別することが実質的に困難であり、識別された(複数の)KBアーティクル106の人気度は、(複数の)アーティクルが(複数の)サービス要求108および/または(複数の)ニュースグループポスティング110にまたがって参照される回数に応じて判別される。アーティクルが参照される回数が多いほど、同じ回数だけ参照されていないアーティクルに比べて、アーティクルの人気度は高く、高い順位が付けられる。(複数の)ニュースグループポスティング110に関して、KBアーティクル106の人気度は、アーティクル参照の頻度および/またはニュースグループ内のニュースグループポスティング者優勢度の何らかの判定−特定のユーザによりポスティングされたアーティクルが多いほど、そのユーザの優勢度は高い−により決まる。
比較的新しいKBアーティクル106は、参照頻度が小さいことから、相対的人気度が小さいことを示すであろう。しかし、新しいアーティクルは、エンドユーザにとっては大きな意味を持つ場合がある。したがって、一実施形態では、検索プロバイダ132では、参照頻度および経過期間の係数を組み合わせ、以下式で、異なる経過期間を持つKBアーティクルの人気度を正規化する。
Figure 2005316999
refは、参照頻度からの重要度を表す(参照頻度が高いほど、その結果得られる重要度値は高い)。Iageは、リリースされた時間(アーティクルの経過期間)からの重要度を表す。パラメータαおよびβは、参照頻度からの重要度とリリースされた時間からの重要度との間の相対的重み付けを表し、以前の知識により指定され、および/または学習データから学習されることが可能である。KBアーティクル106が新しいほど、計算されたアーティクルの重要度が高くなる。
Figure 2005316999
検索クエリ122の(複数の)タームによる(複数の)KBアーティクル106の検索の結果は、ランキングされるか、または計算された重要度値に応じた関連性があるとみなされ、それぞれの値は「他のデータ」130のそれぞれの(複数の)部分とともに表される。
検索結果スニペット生成/強調
一実施形態では、エンドユーザに提示されるクエリ関係情報を実質的に最大化するために、検索プロバイダ132は、最上位の取り出されたドキュメントのうちの1つまたは複数に対するスニペット記述を生成し、エンドユーザに対して取り出されたドキュメントの関連性をはっきりと示す(つまり、識別された資料((複数の)アーティクル)が検索クエリ122の(複数の)タームにどのように関係しているかをエンドユーザに対し明確に示す)。例示のため、(複数の)スニペット記述は、「他のデータ」130のそれぞれの(複数の)部分とともに表される。スニペット記述を生成するために、検索プロバイダ132は、そのスニペット記述について検索クエリ122に関連すると判定された取り出されたKBアーティクル106から1つまたは複数のブロックを特定し、その後、その1つまたは複数のブロック内の検索クエリ122のタームを強調する。検索プロバイダ132は、取り出されたドキュメントの一部に適用される構成可能サイズのスライディングウィンドウを持つ1つまたは複数のブロックを識別する。一実施形態では、スライディングウィンドウのサイズは、クライアントコンピューティングデバイス116上のスニペット記述表示に利用可能なUI空間に応じて決まる。
スライディングウィンドウを取り出されたKBアーティクル106の一部に適用する毎に、検索プロバイダ132は、スライディングウィンドウにより線引きされたテキストにより伝えられるクエリ関係情報の量を測定する。この測定尺度は、「他のデータ」130のそれぞれの部分で表される。この尺度は、単語頻度、エンハンストクエリタームに対する単語近接度、単語位置などの定量的基準に基づく値を含む。検索プロバイダ132は、トレインド(trained)クラシファイア(classifier)モデル(「他のデータ」130を参照)を使用して、それらの異なる基準を組み合わせ、スニペット記述の最も情報量のあるブロックを取得する。このようにして、スニペット記述は、エンドユーザに対して、識別されたKBアーティクル106の関連性を明確に示す。
トレインドクラシファイアモデルは、統計学における古典的学習法である線形回帰により学習される。線形回帰では、ベクトルxと値yとの関係を、データの直線当てはめにより説明しようとする。線形回帰モデルは以下を仮定する。
Figure 2005316999
ここで、「残差」eは、平均値0のランダム変数である。係数bは、平方残差の和が可能な限り小さいという条件により決定される。変数xは、入力、つまり入力の対数または多項式などのいくつかの変換から直接得られる。
検索プロバイダ132は、対応するスニペット記述とともに最上位の取り出された(複数の)ドキュメントの少なくともサブセットをクエリ応答136内にカプセル化する。検索プロバイダ132は、クエリ応答136をクライアントコンピューティングデバイス116に伝達し、エンドユーザはこれを提示し使用することで、製品調査および/またはトラブルシューティング質問を解決する。
例示的手順
図2は、ドキュメント取り出しを機能強化するためのコンテンツ伝播を行う手順例200を示す。説明を目的とするため、この手順のオペレーションは図1のコンポーネントに関して説明する。(すべての参照番号は、そのコンポーネントが最初に導入される図面の番号から始まる)。ブロック202で、メタデータ抽出124(図1)は、データソース108〜114のうちの複数のそれぞれのデータソースからの特定のKBアーティクル106に関連する情報−知識ベースアーティクル関連情報(KBARI 126)−を識別する。ブロック204において、メタデータ抽出124は、ブロック202の識別された情報に近い特徴を抽出する。ブロック206において、メタデータ抽出124は、抽出された特徴(メタデータ128)を分析し、関連する知識ベースアーティクル106うちの対応するアーティクルに関して関連性重要尺度を生成する。ブロック208において、メタデータ抽出124は、複数の知識ベースアーティクル106のうちの関連する個々のアーティクルの中へ、対応する関連性スコアとともに抽出された特徴のインデックスを作成する。これで、新しいまたはエンハンスト知識ベースアーティクル120を生成する。
ブロック210において、検索プロバイダ132は、検索クエリ122を受け取ったことに対する応答として、検索クエリ122の(複数の)タームを含むオリジナルKBアーティクル118および/またはエンハンストKBアーティクル120を取り出す。ブロック212において、検索プロバイダ132は、取り出されたドキュメント/アーティクルを、それらのドキュメント/アーティクルのそれぞれに対する検索クエリ122の(複数の)タームの関連性スコアに基づいてランク付けする。ブロック214において、検索プロバイダ132は、取り出された知識ベースアーティクル106のスニペット記述を生成する。ブロック216で、検索プロバイダ132は、ランク付けされた結果およびスニペット記述をエンドユーザに伝達する。
動作環境例
図3は、エンハンストドキュメント取り出しのデータソースのコンテンツ伝播を実現する図1のシステム100および図2の方法を完全にまたは部分的に実施することができる好適なコンピューティング環境300の一実施例を示している。図3は、エンハンストドキュメント取り出しのデータソースのコンテンツ伝播を実現する説明されているシステム、装置、および方法を(完全にまたは部分的に)実施することができる好適なコンピューティング環境300の実施例を示している。コンピューティング環境300の実施例は、好適なコンピューティング環境の一例にすぎず、本明細書で説明されているシステムおよび方法の使用または機能の範囲に関する制限を示唆する意図はない。コンピューティング環境300は、コンピューティング環境300に例示されている複数のコンポーネントの1つまたはその組合せに関係する何らかの依存関係または要件を持つものと解釈すべきでない。
本明細書に説明されている方法およびシステムは、他の数多くの汎用または専用コンピューティングシステム環境または構成で動作する。使用するのに適していると思われるよく知られているコンピューティングシステム、環境、および/または構成の例として、これに限定されないが、パーソナルコンピュータ、サーバコンピュータ、マルチプロセッサシステム、マイクロプロセッサベースのシステム、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、上記システムまたはデバイスを含む分散コンピューティング環境などがある。コンパクトまたはサブセット版のフレームワークも、ハンドヘルドコンピュータ、またはその他のコンピューティングデバイスなどの、資源が限られているクライアントに実施形態されうる。本発明は、通信ネットワークを通じてリンクされているリモート処理デバイスによりタスクが実行される分散コンピューティング環境で実施される。分散コンピューティング環境では、プログラムモジュールは、ローカルおよびリモートの両方のメモリ記憶デバイス内に配置され得る。
図3を参照すると、エンハンストドキュメント取り出しのコンテンツ伝播を実現するシステム実施例は、コンピュータ310の形態の汎用コンピューティングデバイスを備える。コンピュータ310の以下の説明されている態様は、クライアントコンピューティングデバイス116(図1)および/またはKBホスティングサーバ102(図1)の実施例である。コンピュータ310が備えるコンポーネントとしては、これに限定されないが、処理ユニット320、システムメモリ330、およびシステムメモリを含むさまざまなシステムコンポーネントを処理ユニット320に結合するシステムバス321などがある。システムバス321は、メモリバスまたはメモリコントローラ、周辺機器バス、およびさまざまなバスアーキテクチャを使用するローカルバスを含む数種類のバス構造のうちのいずれでもよい。例えば、限定的ではないが、このようなアーキテクチャとしては、ISA(Industry Standard Architecture)バス、MCA(Micro Channel Architecture)バス、EISA(Enhanced ISA)バス、VESA(Video Electronics Standards Association)ローカルバス、およびメザニンバスとも呼ばれるPCI(Peripheral Component Interconnect)バスがある。
コンピュータ310は通常、さまざまなコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ310によってアクセスされることができる媒体であればどのような媒体でも使用可能であり、揮発性および不揮発性媒体、取り外し可能および取り外し不能媒体を含む。例えば、限定的ではないが、コンピュータ可読媒体は、コンピュータ記憶媒体および通信媒体を含むことができる。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造体、プログラムモジュール、またはその他のデータなどの情報を格納する方法または技術で実施される揮発性および不揮発性、取り外し可能および取り外し不能媒体を含む。コンピュータ記憶媒体としては、これに限定されないが、RAM、ROM、EEPROM、フラッシュメモリまたはその他のメモリ技術、CD−ROM、デジタル多目的ディスク(DVD)またはその他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置またはその他の磁気記憶デバイス、または所望の情報を格納するために使用することができ、しかもコンピュータ310によりアクセスできるその他の媒体がある。
通信媒体は、通常、コンピュータ可読命令、データ構造体、プログラムモジュール、または搬送波もしくはその他の移送メカニズムなどの変調データ信号によるその他のデータを具現するものであり、任意の情報配信媒体を含む。「変調されたデータ信号」という用語は、信号に情報を符号化するようにその特性の1つまたは複数が設定または変更された信号を意味する。例えば、限定的ではないが通信媒体としては、有線ネットワークまたは直接配線接続などの有線媒体、ならびに、音響、RF、赤外線、およびその他の無線媒体などの無線媒体がある。上記のいずれの組合せもコンピュータ可読媒体の範囲に収まらなければならない。
システムメモリ330は、読み取り専用メモリ(ROM)331およびランダムアクセスメモリ(RAM)332などの揮発性および/または不揮発性メモリの形態のコンピュータ記憶媒体を備える。起動時などにコンピュータ310内の要素間の情報伝送を助ける基本ルーチンを含む基本入出力システム333(BIOS)は、通常、ROM 331に格納される。通常、RAM 332は、処理ユニット320に直接アクセス可能な、および/または処理ユニット320によって現在操作されているデータおよび/またはプログラムモジュールを格納する。例えば、限定的ではないが図3は、オペレーティングシステム334、アプリケーションプログラム335、その他のプログラムモジュール336、およびプログラムデータ337を例示している。一実施例では、組合せで図1を参照すると、コンピュータ310はKBホスティングサーバ102である。このシナリオでは、アプリケーションプログラム335は、図1のプログラムモジュール138を含み、プログラムデータ337は、図1のKBアーティクル関連情報(KBARI)126、メタデータ128、および/または「他のデータ」130を含む。
コンピュータ310はさらに、その他の取り外し可能/取り外し不能な揮発性/不揮発性コンピュータ記憶媒体を備えることもできる。例のためだけとして、図3は、取り外し不能な不揮発性磁気媒体の読み出しまたは書き込みを行うハードディスクドライブ341、取り外し可能な不揮発性磁気ディスク352の読み出しまたは書き込みを行う磁気ディスクドライブ351、およびCD ROMまたはその他の光媒体などの取り外し可能な不揮発性光ディスク356の読み出しまたは書き込みを行う光ディスクドライブ355を例示している。動作環境の実施例で使用できる他の取り外し可能/取り外し不能な揮発性/不揮発性コンピュータ記憶媒体としては、これに限定されないが、磁気テープカセット、フラッシュメモリカード、デジタル多目的ディスク、デジタルビデオテープ、ソリッドステートRAM、ソリッドステートROMなどがある。ハードディスクドライブ341は、通常、インターフェース340などの取り外し不能なメモリインターフェースを介してシステムバス321に接続され、磁気ディスクドライブ351および光ディスクドライブ355は、通常、インターフェース350などの取り外し可能なメモリインターフェースによりシステムバス321に接続される。
図3に例示されている上記のドライブおよび関連コンピュータ記憶媒体は、コンピュータ310用のコンピュータ可読命令、データ構造体、プログラムモジュール、およびその他のデータを格納する機能を備える。例えば、図3では、ハードディスクドライブ341は、オペレーティングシステム344、アプリケーションプログラム345、その他のプログラムモジュール346、およびプログラムデータ347を格納するものとして例示されている。これらのコンポーネントは、オペレーティングシステム334、アプリケーションプログラム335、その他のプログラムモジュール336、およびプログラムデータ337と同じである場合もあれば異なる場合もあることに留意されたい。オペレーティングシステム344、アプリケーションプログラム345、その他のプログラムモジュール346、およびプログラムデータ347については、ここでは異なる番号を割り当てて、少なくともそれが異なるコピーであることを示している。
ユーザは、キーボード362、およびマウス、トラックボール、またはタッチパッドと一般に呼ばれるポインティングデバイス361などの入力デバイスを介してコンピュータ310にコマンドおよび情報を入力できる。他の入力デバイス(図に示されていない)としては、マイク、ジョイスティック、ゲームパッド、衛星パラボラアンテナ、スキャナなどがある。これらの入力デバイスやその他の入力デバイスは、システムバス321に結合されているユーザ入力インターフェース360を介して処理ユニット320に接続されることが多いが、パラレルポート、ゲームポート、またはユニバーサルシリアルバス(USB)などの他のインターフェースおよびバス構造により接続されることも可能である。
モニタ391またはその他の種類の表示デバイスも、ビデオインターフェース390などのインターフェースを介してシステムバス321に接続される。モニタのほかに、コンピュータはさらにスピーカ397およびプリンタ396などの他の周辺出力デバイスも備えることができ、これらは出力周辺インターフェース395を介して接続することができる。
コンピュータ310は、リモートコンピュータ380などの1つまたは複数のリモートコンピュータへの論理接続を使用してネットワーク接続環境で動作する。リモートコンピュータ380は、パーソナルコンピュータ、サーバ、ルータ、ネットワークPC、ピアデバイス、またはその他の共通ネットワークノードでもよく、通常は、コンピュータ310に関係する上述の要素の多くまたはすべてを含むが、メモリ記憶デバイス381だけが図3に例示されている。図3に示されている論理接続は、ローカルエリアネットワーク(LAN)371およびワイドエリアネットワーク(WAN)373を含むが、他のネットワークを含むこともできる。このようなネットワーキング環境は、オフィス、企業全体にわたるコンピュータネットワーク、イントラネット、およびインターネットでは一般的である。
LANネットワーキング環境で使用される場合、コンピュータ310は、ネットワークインターフェースまたはアダプタ370を介してLAN 371に接続される。WANネットワーキング環境で使用される場合、コンピュータ310は、通常、インターネットなどのWAN 373上で通信を確立するためモデム372またはその他の手段を備える。モデム372は、内蔵でも外付けでもよいが、ユーザ入力インターフェース360またはその他の適切なメカニズムを介してシステムバス321に接続され得る。ネットワーク接続環境では、コンピュータ310またはその一部に関して示されているプログラムモジュールは、リモートメモリ記憶デバイスに格納され得る。例えば、限定的ではないが、図3は、リモートアプリケーションプログラム385を、メモリデバイス381に置かれているものとして例示している。図に示されているネットワーク接続は実施例であり、コンピュータ間の通信リンクを確立するのに他の手段が使用され得る。
結論
エンハンストドキュメント取り出しのためのコンテンツ伝播(content propagation)を実現するシステムおよび方法は、構造上の特徴および/または方法論上の動作または活動に特有の言語で説明してあるが、請求項は、説明した特定の特徴または活動に必ずしも限定されないことは理解されるであろう。例えば、図1のシステム100は、エンハンストKBアーティクル106取り出しのデータソースのコンテンツ伝播に関して説明してあるが、説明されているシステムおよび方法は、1つまたは複数の独立のデータソースから、KBまたは製品サポートアーティクルだけでなく、参照されている任意の種類のドキュメントへマイニングされたメタデータを伝播するために使用され得る。例えば、システム100は、他の種類のドキュメントに関して、リンク、参照、タイトル、ドキュメントIDなどを含む複数のデータソースにまたがってエンハンストドキュメント取り出しのコンテンツ伝播を実現するために使用され得る。したがって、本明細書に記載の特定の特徴および活動は、請求されている主題を実施する実施例として開示されている。
付録A
異種オブジェクトのクラスタリング
例示的クラスタリングシステムおよび方法の背景
クラスタリングは、複数のオブジェクトのグループ化を伴い、検索エンジンおよび情報マイニングなどのアプリケーションで使用される。クラスタリングアルゴリズムでは、複数のオブジェクトの類似性に基づいてオブジェクトをグループ化する。例えば、Webページオブジェクトは、コンテンツ、リンク構造、またはユーザアクセスログに基づいてクラスタリングされる。ユーザのクラスタリングは、ユーザが選択したアイテムに基づく。ユーザオブジェクトは、それらのアクセス履歴に基づいてクラスタリングされる。ユーザに関連付けられたアイテムのクラスタリングは、従来、それらのアイテムを選択したユーザに基づく。さまざまなクラスタリングアルゴリズムが知られている。従来技術のクラスタリングアルゴリズムは、パーティション分割ベースのクラスタリング、階層型クラスタリング、および密度ベースのクラスタリングを含む。
ユーザのアクセスされたWebページのコンテンツまたはアクセスパターンは、ユーザプロファイルを構築してWebユーザをクラスタリングするために使用されることが多い。その後、従来のクラスタリング手法が採用される。協調フィルタリングでは、クラスタリングは、ユーザまたはアイテムをグループ化して推奨/予測を高めるためにも使用される。
これらの従来のクラスタリングアルゴリズムの使用にあたっては、一般に、いくつかの制限事項がある。従来のクラスタリング手法は、オブジェクトの個数、異種オブジェクトのリンクの個数が疎でありすぎてオブジェクトの効果的なクラスタリングが達成されないデータの疎性問題に直面しうる。同種クラスタリングでは、分析されるデータセットは同じ種類のオブジェクトを含む。例えば、同種クラスタリングがWebページおよびユーザに基づく場合、Webページオブジェクトおよびユーザオブジェクトはそれぞれ別々にクラスタリングされる。同種クラスタリングがアイテムおよびユーザに基づく場合、アイテムオブジェクトおよびユーザオブジェクトはそれぞれ別々にクラスタリングされる。このような同種クラスタリング実施形態では、同じ種類のオブジェクトは、他の種類のオブジェクトを考慮せずにまとめてクラスタリングされる。
従来技術の異種オブジェクトクラスタリングでは、オブジェクト集合を別々にクラスタリングする。異種オブジェクトクラスタリングでは、リンクを、それぞれのオブジェクトノードを表すフラットな特徴としてのみ使用する。従来技術の異種クラスタリングでは、層内の、および層間のリンク構造全体は考慮されないか、またはそれとは別に単に分離された特徴として取り扱われる。
例示的クラスタリングシステムおよび方法
クラスタリングを使用することによりメリットを持ちうるコンピュータ環境400(汎用コンピュータである)の一実施形態が図4に示されている。コンピュータ環境400は、メモリ402、プロセッサ404、クラスタリング部分408、およびサポート回路406を備える。サポート回路は、コンピュータ環境400の異なるコンポーネントが情報(つまり、データオブジェクト)を転送することができるようにする表示装置および入出力回路部分などのデバイスを備える。
クラスタリングは、クラスタリング部分408内で実行される。クラスタリング部分408は、コンピュータ環境のメモリ402およびプロセッサ404部分内に組み込まれるようにできる。例えば、プロセッサ404は、異なるオブジェクトをクラスタリングするクラスタリングアルゴリズム(メモリから取り出される)を処理する。メモリ402(データベースなど)は、クラスタリングされたオブジェクトおよび関連付けられているプログラムおよびクラスタリングアルゴリズムを格納しておき、クラスタリングされたオブジェクトが必要に応じて取り出され(格納され)るようにする役割を持つ。コンピュータ環境400は、スタンドアロン型コンピュータ、ネットワーク接続コンピュータシステム、メインフレーム、または知られているさまざまなコンピュータシステムのどれかとして構成され得る。本明細書で開示されているいくつかの実施形態では、コンピュータ環境アプリケーション(インターネットからWebページをダウンロードするコンピュータ)を説明している。本明細書で説明されている概念は、知られているどのような種類のコンピュータ環境400にも適用可能であることが考えられる。
本明細書では、信頼できるとみなされる(つまり、ユーザのクエリに適用可能である)返された結果の割合が高められるクラスタリングメカニズムを規定している。クラスタリングは、検索ツール、情報マイニング、データマイニング、協調フィルタリングなどの技術分野に適用され得る。検索ツールは、異なる情報ニーズに応え、情報を取り出すパフォーマンスを高められることから、注目を集めている。検索ツールは、Webページ、ユーザ、クエリなどのコンピュータの複数の態様に関連する。
本明細書では、データオブジェクトをクラスタリングするさまざまなクラスタリングアルゴリズム実施形態を説明している。データオブジェクトのクラスタリングは、データオブジェクトの大きな集合がデータオブジェクトのさらに多くの集合またはクラスタにグループ化されるようにする手法である(データオブジェクトのクラスタの数が多いほど、それぞれに含まれるデータオブジェクトの個数は少ない)。データオブジェクトのクラスタリングされたグループ内に含まれるそれぞれのデータオブジェクトは何らかの類似性を有する。したがって、クラスタリングの一態様は、複数のデータオブジェクトのグループ化としてみなすことができる。
本明細書で説明されているクラスタリングメカニズムは、フレームワークグラフ550に関係しており、フレームワークグラフの一実施形態は、図5に示されている。図5のフレームワークグラフ550に示されているように異なる種類のオブジェクトが異なるレベルまたはノード集合PおよびUの間でクラスタリングされる統一クラスタリングメカニズムのいくつかの実施形態が提示されている。また、本明細書で説明されている概念は、本明細書で説明されているように2つの層の代わりに、3つ以上の層に適用され得ることも考えられる。それぞれのノード集合PおよびUは、さらに、1つの層とも考えられうる。本明細書では、「統一」クラスタリングという用語は、異種データをクラスタリングする手法に適用される。ノード集合Pは、それぞれ類似のデータ型である複数のデータオブジェクトp、p、p、...、pを含む。ノード集合Uは、それぞれ類似のデータ型である複数のデータオブジェクトu、u、u、...、uを含む。それぞれのノート集合(PまたはU)上でクラスタリングされているオブジェクトのデータ型は同一であり、したがって、それぞれのノード集合(PまたはU)内のデータオブジェクトは同種である。ノード集合P内にある複数のデータオブジェクトp、p、p、...、pの型は、ノード集合U内にある複数のデータオブジェクトu、u、u、...、uの型と異なる。したがって、ノード集合PおよびUのうちの異なる集合内にあるデータオブジェクトの型は異なるか、または異種である。本明細書のいくつかの態様では、同種および異種データ型のオブジェクトからの入力(リンクに基づく)を使用してクラスタリングすることを提示している。
リンクは、本明細書では、一対のデータオブジェクト間に引かれている直線により表される。リンクは、クラスタ内の複数の対のオブジェクトの間の関係を表す。一実施例では、リンクは、Webページオブジェクトからユーザオブジェクトへ延ばすことができ、いくつかのWebページを選択するユーザを表す。他の実施例では、リンクは、Webページオブジェクトから他のWebページオブジェクトへ延ばすことができ、異なるWebページ間の関係を表す。クラスタリングのいくつかの実施形態では、「リンク」は、「エッジ」と呼ばれる。一般化された用語「リンク」は、本明細書では、オブジェクト間の関係を記述する、リンク、エッジ、または一方のオブジェクトから他方のオブジェクトへの任意のコネクタを記述するために使用される。
フレームワークグラフ550で規定されているように複数のオブジェクトのうちの異なる複数のオブジェクトを関連付ける異なる種類のオブジェクトをクラスタリングすることに関係するさまざまな異なる種類のリンク(本明細書で説明されているような)がある。これらのリンクは、層間リンクまたは層内リンクのいずれかとして分類され得る。層内リンク503または505は、同じ種類の異なるオブジェクトの間の関係を記述するフレームワークグラフ550内のリンクの一実施形態である。層間リンク504は、異なる種類の複数のオブジェクトの間の関係を記述するフレームワークグラフ550内のリンクの一実施形態である。図5に示されているように、複数のデータオブジェクトu、u、u、...、uのうちのいくつかの間で延ばされている複数の層内リンク503がある。図5に示されている実施形態では、複数のデータオブジェクトp、p、p、...、pのうちのいくつかの間で延ばされている複数の層内リンク505もある。図5に示されている実施形態では、ノード集合P内の複数のデータオブジェクトu、u、u、...、uのうちのいくつかとノード集合U内の複数のデータオブジェクトp、p、p、...、pのうちのいくつかとの間で延ばされている複数の層間リンク504もある。層間リンクを使用すると、一方の種類のオブジェクトのクラスタリングが他方の種類のオブジェクトの影響を受ける可能性があることがわかる。例えば、Webページオブジェクトのクラスタリングは、ユーザオブジェクト構成、状態、および特性の影響を受けることがある。
リンク方向(図5、さらに図6のリンク503、504、または505の矢尻で示されるような)は、データオブジェクト間の関係がいずれの方向にも向け付けられることから双方向として例示されている。これらのリンクは、説明を目的とするものであり、範囲を制限することを目的としていないと考えられる。フレームワークグラフ550内のグラフのいくつかのリンクは、一方の方向ではより適切に向け付けられ、矢尻の方向は、通常、フレームワークのオペレーションに影響を及ぼさない。フレームワークグラフ550は、ノード集合P、ノード集合U、およびリンク集合Lからなる。フレームワークグラフ550では、pおよびuは2種類のデータオブジェクトを表し、p∈P(i=1,...,I)、およびu∈U(j=1,...,J)である。IおよびJは、それぞれ、ノード集合PおよびUの濃度である。
リンク(p,u)∈Lは、異なる種類のオブジェクト間の参照文字504により例示されている層間リンク(2タプルとして構成される)である。505および503で参照されるリンク(p,p)∈Lおよびリンク(u,u)∈Lは、それぞれ、同じ種類のオブジェクトの間で延びる層内リンクである。簡単のため、層間リンク集合(204)および層内リンク集合(503、505)については異なる参照文字が適用される。
統一クラスタリングを使用することで、リンクは、複数のオブジェクト間でより完全に利用され、それによりクラスタリングが改善する。異なる層内の異なる種類のオブジェクトのクラスタリングは、効果的なクラスタリングにより補強される。オブジェクトが正しくクラスタリングされている場合、クラスタリングの結果はより妥当なものとなるであろう。クラスタリングは、データを分析する際に役立つ構造化された情報をもたらすことが可能である。
フレームワークグラフ550は、それぞれの種類のオブジェクトが実質的に同一である複数の種類のオブジェクトのクラスタリングを例示している(例えば、ある種類は、Webページの1つのグループ、ユーザの1つのグループ、またはドキュメントの1つのグループなどに関係する)。オブジェクトのそれぞれのグループの種類は、一般に、フレームワークグラフ550内の複数のオブジェクトの他の複数のグループの種類と異なる。
開示されているクラスタリング手法では、クラスタリングの際に異なる(異種)オブジェクト型からの入力を考慮し、受け取る。本明細書の一態様は、クラスタリングされる複数のオブジェクトが他の複数のオブジェクトへのリンクを与えられる固有の相互関係に基づく。それぞれのオブジェクトに接続する複数のリンクのうちのいくつかのリンク(およびそれらのリンクの接続先である複数のオブジェクト)は、異なる重要度の重みが付けられ、そのオブジェクトとの関連性を反映するようにできる。例えば、クラスタリングされているのと同じ種類のオブジェクトは、異なる種類のオブジェクトより大きな重要度を与えられるようにできる。本明細書では、さまざまなレベルの重要度が異なるオブジェクトまたは異なる種類のオブジェクトに割り当てられるようにするメカニズムを提示する。異なるレベルの重要度を異なるオブジェクト(または異なる種類のオブジェクト)に割り当てるこの操作は、本明細書では、重要度でクラスタリングすると呼ばれる。異なるオブジェクトのさまざまなレベルの重要度から、クラスタリングの結果および有効性が高められることが多い。
図5に示されているように異種オブジェクトをクラスタリングするフレームワークグラフ550の実施形態では、異なるノード集合PまたはUは、異なるオブジェクトタイプをそれぞれ含む異なる層を表す。フレームワークグラフ550の複数のノード集合(PおよびUが例示されている)は、クラスタリングの基礎となる。2層有向グラフ550は、クラスタリングすべきデータオブジェクトの集合を含む。それぞれの種類のオブジェクトタイプのオブジェクト(クラスタリングアルゴリズムによりクラスタリングされる)は、「潜在的」クラスのインスタンスとして考えられる。複数のオブジェクトノードのうちのいくつかのノード間で延びるリンク503、504、または505は、クラスタリングにより実現されるオブジェクトノード間の固有の関係を反映する。クラスタリングの反復投影手法は、そのいくつかの実施形態が本明細書で説明されているが、これにより、別個の複数のデータ型を有するオブジェクトの独立したクラスタリングがクラスタリングプロセスに寄与するようにできる。
異種型のオブジェクト(およびその関連するリンク)は、本明細書で説明されているように、反復クラスタリング手法を使用して補強される。反復クラスタリング投影手法は、それぞれの層が異種のオブジェクトを含む、別々の層内に配列されている別々の種類のオブジェクトからクラスタリング情報を取得することに依存する。ノード情報はリンク情報と併用され、それによって、クラスタリングが収束するまでクラスタリングされた結果を反復投影し、伝播する(クラスタリングアルゴリズムは層間に実現される)。一方の種類のオブジェクトの結果を他の種類のオブジェクトのクラスタリング結果の中へ反復クラスタリングすることで、データの疎性に関連するクラスタリングの問題を軽減できる。この反復投影では、一方の層のクラスタリングにおける類似性尺度は、他方の種類のクラスタの個々のグループにではなく、クラスタに基づいて計算される。
クラスタリングに使用されることが可能な構造情報を取得するために、異なる種類のノードおよびリンクのそれぞれのタイプが調べられる。例えば、構造情報は、異なるデータオブジェクトを接続するリンクの種類(例えば、リンクが層間リンクであるか、層内リンクであるか)を考慮したうえで得られる。それぞれのオブジェクトの種類は、図5に示されているように、そのノード集合PまたはUにより示される。
図5の一般化されたフレームワークグラフ550は、特定のクラスタリングアプリケーションに適用され得る。つまり、フレームワークグラフ550は、ユーザのグループに関してインターネット上のWebページのグループを例示することができる。Webページ層は、ノード集合Pとしてグループ化される。複数のオブジェクトからなるユーザ層は、ノード集合Uとしてグループ化される。フレームワークグラフ550は、複数のWebページオブジェクトおよび複数のユーザオブジェクトを2層フレームワークグラフ550の表現に統合する。フレームワークグラフ550は、リンク(例えば、エッジ)関係503、504、505を使用して、異なる種類のオブジェクトのクラスタリングを容易に行えるようにする(一般化された図5のフレームワークグラフに概要が示されているように)。複数のノードの異なる重要度レベルを学習するために、クラスタリング手順実行の際にデータセット全体のリンク構造が調べられる。これらのノードは、重要なノードが無理なくクラスタリングされるようにクラスタリング手順における重要度に基づいて重み付けされる。
本明細書のいくつかの実施形態では、リンクのクラスタ間のリンク503、504、および505は予約されている。予約されているリンクは、オブジェクト自体の代わりにオブジェクトのクラスタ間で延びるリンクである。例えば、1つの予約リンクは、Webページクラスタとユーザクラスタとの間で延びる(オリジナルリンクの場合のようにWebページオブジェクトとユーザオブジェクトとの間ではなく)。いくつかの実施形態では、予約リンクは、フレームワークグラフ550内の推奨など、さまざまな将来のアプリケーション向けに保持される。例えば、Webページ/ユーザクラスタリングのクラスタリング結果は予約リンクとともに、ユーザヒット動作の要約グラフとして示されることが可能であり、これはユーザのヒットの予測を示す。
それぞれのノードpおよびuのコンテンツは、それぞれのベクトルfおよびg(図5には示されていない)により表される。アプリケーションによっては、それぞれの個別ノードpおよびuは、コンテンツ特徴を持つ(またはいっさい持たない)場合がある。従来技術のクラスタリング手法では、ノードuとは無関係にノードpをクラスタリングする。それと対照的に、本明細書で説明されているクラスタリングフレームワーク550では、ノードpおよびノードuは、相対的重要度に基づきそれに応じてクラスタリングされる。本明細書で説明されているクラスタリングアルゴリズムは、類似度関数を使用して、クラスタタイプ毎にオブジェクト間の距離を測定し、クラスタリングを形成する。クラスタリングには、(1)に示されているようなコサイン類似度関数が使用され得る。
Figure 2005316999
・fは、2つの特徴ベクトルのドット積である。これは、fとfの同じ成分の重み積の和に等しい。sは、類似度がコンテンツ特徴に基づくことを示しており、f(i)およびf(j)は、特徴ベクトルfとfのi番目とj番目の成分である。kは、それぞれの特徴f内のアイテムの個数であり、kは、特徴f内のアイテムの個数である。
本明細書では、ノード集合Pは、層間リンク504およびノードの層内リンク503および505を示す一例として使用されている。すべてのデータは、リンク503または505により接続されるような、層内ノードの対(p(1),p(1))、(p(2),p(2))、...[ただしp(1)およびp(2)はpと同じ、対(p(1),p(1))、(p(2),p(2))は両方とも、同種の層内のノードを表す]について、およびリンク504によって接続されているような、層間の対(p(1),u(1))、(p(2),u(2))、...について、一連のノード対を含むものと仮定される。したがって、ノードの対(p,p)または(p,u)の間のリンクは、データ系列内の同一の対の1つまたは複数の出現を表す。リンクの重みは、その出現頻度に関係する。
本明細書では、2つの独立したベクトルは、特定のノード毎に層間リンク504および層内リンク503、505の特徴を表す。例えば、層内リンク503、505の特徴は、成分が同じ層内の他のノードに対応しているベクトルを使用して表される。比較すると、層間リンク504の特徴は、成分が他の層内のノードに対応しているベクトルを使用して表される。それぞれの成分は、対応するノードからのリンク(または対応するノードへのリンク)の重みを表す数値とすることが可能である。例えば、ノードpおよびp(図5に示されているように)の層間リンク504の特徴は、それぞれ、[1,0,0,...,0]および[1,1,1,...,0]として表すことができる。
したがって、対応する類似度関数は、上述のようにコサイン類似度として定義されることも可能である。層内リンク503、505の特徴に対する類似度関数slx(x,y)は、以下のように(3)に記述されているように、ノードpとpとの間の類似度が適用されることを決定する。
Figure 2005316999
比較すると、層間リンク504の特徴に対する類似度関数slx(x,y)は、以下のように(4)に記述されているように、ノードpとuとの間の類似度を決定する。
l2(x,y)=cos(h,h) (4)
ここで、sl1およびsl2は、それぞれ、類似度がそれぞれの層内および層間リンク特徴に基づくことを示し、lおよびlは、ノードxおよびノードyの層内リンク特徴ベクトルであるが、hおよびhは、ノードxおよびノードyの層間リンク特徴ベクトルである。
各ノードのリンクを集合として表すことおよびJaccard係数を適用することなど、リンク特徴およびその他の類似性尺度の他の表現が使用されることも可能である。本明細書で説明されている実施形態には複数の利点がある。1つの利点は、クラスタリングアルゴリズムの複数の実施形態のうちのいくつかの実施形態は、重み付きリンクに対応していることである。さらに、そのようなクラスタリングアルゴリズムは、k−meansクラスタリングアルゴリズムのように、クラスタリングの重心の計算を容易にする。重心は、クラスタリングされたオブジェクトの一般化された値または特性を示すためさらに計算を行う際に有用である。
ノードxおよびノードyの類似度関数の全体は、(5)で示されるように、3つの重み付き値α、β、およびγを含む3つの類似度の重み付き総和として定義され得る。これら3つの重み付き値を、発見的手法により、また学習により、割り当てる2つの手法が開示されている。例えば、チューニングデータがない場合、重みは手動で何らかの望ましい値に割り当てられる(例えば、α=0.5、β=0.25、およびγ=0.25)。比較により、何らかの余分なチューニングデータがある場合、重みは、欲張りアルゴリズム、山登りアルゴリズム、またはその他の種類の局所的または大域的改善または最適化プログラムを使用して計算され得る。欲張りアルゴリズムとは、各ステップ内の各係数を改善しようとするある種の最適化アルゴリズムのことで、最終的には、改善された(およびいくつかの実施形態では最適化された)解が得られる。
s(x,y)=αs(x,y)+βsl1(x,y)+γsl2(x,y) (5)
ここで、α+β+γ=1である。
これらの計算を使用することで、複数のノードのコンテンツ、および複数のノードの類似度が決定される。アプリケーションによっては、クラスタリングアルゴリズムに対し異なる情報値を与えるために3つの変数が変更される可能性がある。複数のノードのこれらのコンテンツおよび類似度は、それに基づき、取り出しのための基礎として使用され得る。
多くの異種クラスタリング問題は、ノードの重要性が等しくない同じ特性を共有することが多い。異種クラスタリングのいくつかの例として、Webページ/ユーザクラスタリング、協調フィルタリングのアイテム/ユーザクラスタリングなどがある。これらのアプリケーションでは、重要なオブジェクトは、より妥当なクラスタリング結果を取得するうえで重要な役割を果たす。本明細書では、データセット全体のリンク構造は、複数のノードの重要度を学習するために使用される。例えば、ノード集合PおよびU内のノード毎に、pおよびuについて、重要度重みipおよびiuは、リンク構造により計算され、クラスタリング手順で使用される。
一クラスタリング態様はリンク分析アルゴリズムに関係し、それらの複数の実施形態は本明細書で提示されている。リンク分析アルゴリズムの一実施形態では、図6に示されているようなハイブリッドネットモデル600が構成される。ハイブリッドネットモデル600を使用することで、ユーザおよびWebページは、例示されている2種類のノードとして使用される。Webページおよびユーザタイプのオブジェクトを伴うハイブリッドネットモデルの図6の実施形態は、特に、インターネット、イントラネット、またはその他のネットワークを伴ういくつかの種類のクラスタリングを対象とする。これらのリンクは、リンク605により示されているようなWebページハイパーリンク/相互作用、リンク604により示されているようなユーザ−Webページ間ハイパーリンク/相互作用、およびリンク603により示されているようなユーザ−ユーザ間ハイパーリンク/相互作用を含む。図6のハイブリッドネットモデル600は、リンク603、604、および605により例示されているユーザとWebページの中、およびそれらの間の関係を示すことによりそれらのハイパーリンク/関係を詳細に説明している。
ユーザ集合610内に含まれるユーザ608の特定のグループが与えられた場合、ユーザ集合610からの複数のノードのどれかがアクセスしたWebページはすべて、Webページ集合612を形成する。Webページ集合612は、ルートのWebページ集合を検索エンジンに送信することにより決定され、ベースのWebページ集合を取得する。図6で矢印により表されている3種類のリンクは、異なる意味を持つ。Webページ集合612内に含まれる矢印605により表されるリンクは、Webページ間のハイパーリンクを示す。ユーザ集合610内に含まれる矢印603により表されるリンクは、ユーザ間の社会的な関係を示す。ユーザ集合610とWebページ集合602との間で延びる矢印604により表されるリンクは、複数のWebページに向かうユーザのアクセスアクションを示す。矢印604により表されるリンクは、それぞれの特定のWebページに対するユーザの評価を示しており、したがって、Webページのオーソリティ/ハブスコアの信頼度が高まる。したがって、異なる種類のリンク603、604、および605は、異なる関係を表す。それぞれのリンクは、例えば、リンクのアクセス回数、またはそのリンクにより接続されたノードの各対の関連付け方法に応じて異なる重要度の重みを付けられる。
図7は、インターネットを使用してクラスタリングを実行するように構成されているコンピュータ環境400の一実施形態を例示している。このようなクラスタリングの一態様は、ユーザに基づくWebページのクラスタリングを伴う場合がある(関連付けられた層間リンクおよび層内リンクを含む)。コンピュータ環境は、複数のWebサイト750、検索エンジン752、サーバ/プロキシ部分754、モデリングモジュール756、コンピューティングモジュール758、およびサジェスチョン/参照部分760を含む。コンピュータ環境400は、グラフィカルユーザインターフェース(GUI)などでユーザ762とインターフェースする。コンピューティングモジュール758は、クラスタリングアルゴリズムを実行する反復計算部分780を含む(そのいくつかの実施形態は、反復計算に依存する)。モデリングモジュール756は、(例えば、オブジェクトに関連付けられている)データを収集し、データを追跡する活動をする。検索エンジンは、ユーザのクエリに基づいて検索結果を返す。Webサイト750は、ユーザに対して提示されるとおりにデータを表現する。サーバ/プロキシは、クエリなどをクラスタリングの大半の作業を実行するサーバに伝達する。サジェスチョン/参照部分760では、ユーザはクラスタリングアルゴリズムを修正または選択することができる。
モデリングモジュール756は、従来のフォーマライゼーション(formalization)部分770、Webページ抽出(extraction)部分772、およびユーザ抽出部分774を含む。部分770、772、および774は、すでにフォーマライゼーションされている(770)、またはWebページから抽出される、またはユーザ762から抽出されるデータを提供する、および/または追跡するように構成される。図7に例示されているようなコンピュータ環境の実施形態は、一実施形態が本明細書で説明されているリンク分析アルゴリズムを実現するように構成されている。
クラスタリングアルゴリズムの一実施形態では、ハブ、オーソリティ、およびユーザの3種類のページを探索することによりWebグラフを分析することができる。ハブは、特定のトピックに関する有用な関連情報を与える他の多数のページにリンクするページである。オーソリティページは、多数のハブに関連するページとみなされる。ユーザは、オーソリティおよびハブのうちのそれぞれ1つにアクセスする。それによって、ハブ、オーソリティ、およびユーザのそれぞれの対は、相互補強関係を示す。クラスタリングアルゴリズムは、リンク分析アルゴリズムのいくつかの実施形態で使用される3つのベクトルである、Webページオーソリティ重みベクトルa、ハブ重みベクトルh、およびユーザベクトルuに依存する。これらのベクトルのいくつかの態様について、本明細書で説明する。
以下の重み計算に関係する以下の項のうちのいくつかは、図7などの図には例示されておらず、代わりに、それらの計算に関係する。一実施形態では、所定のユーザiについて、ユーザ重みuは、そのユーザの知識レベルを示す。Webページjに対し、それぞれの項aおよびhは、オーソリティ重みおよびハブ重みを示す。一実施形態では、3つのベクトル(ユーザ重みu、Webページオーソリティ重みa、およびハブ重みhを表す)のそれぞれのベクトルは、ある値(1など)にそれぞれ初期化される。その後、3つのベクトルh、a、およびuはすべて、それぞれ(6)、(7)、および(8)で規定されているように以下の計算を考慮してインターネット使用度に基づいて繰り返し更新される。
Figure 2005316999
ここで、pおよびqは特定のWebページを表し、rは特定のユーザを表す。開示されているネットワークのいくつかの実施形態では、異なるページ間のリンク(ハイパーリンク)およびユーザとページとの間のリンク(パターンをブラウズする)の2種類のリンクがある。A=[aij]を3つのベクトルh、a、およびuのすべてに対するベース集合の隣接行列を表すものとする。ページiがページjにリンクしている場合にはaij=1、そうでなければaij=0であることに留意されたい。V=[vij]は、ユーザ集合からWebページ集合へのアクセス行列である。ユーザiがページjをアクセスした場合にはvij=1、そうでなければvij=0であると考える。さらに、(8)、(10)、および(11)に示されているように、
Figure 2005316999
一実施形態では、意味のある結果を得るために、(9)、(10)、および(11)で示されているようなベクトルa、h、uの計算は、複数回反復される。いくつかの実施形態の反復の前に、ランダム値がベクトルa、h、およびuのうちのそれぞれのベクトルに割り当てられる。それぞれの反復に続いて、a、h、uの値は変更され、正規化されて、次の反復のための基準を与える。反復する毎に、a、h、およびuの反復値はそれぞれ、特定のそれぞれの値に収束する傾向がある。ユーザ重みuが高いユーザおよびオーソリティ重みaおよび/またはハブ重みhが高いWebページは、報告されることが可能である。好ましい一実施形態では、いくつかのそれぞれのユーザまたはWebページオブジェクトは、他のそれぞれのユーザまたはWebページオブジェクトより高い値が割り当てられうる。値が高いほど、そのオブジェクトに割り当てられる重要度は大きくなる。
クラスタリングできる本明細書で説明されているようなリンク分析アルゴリズムの実施形態は、Webページとユーザの両方からの反復入力に依存する。したがって、ユーザからの重み付き入力は、Webページのクラスタリングアルゴリズムに適用される。クラスタリングに対する重み付きユーザ入力を使用することで、検索結果の精度およびクラスタリングアルゴリズムが実行可能な速度を改善する。
本明細書で説明されているリンク分析アルゴリズムはユーザに基づいてWebページをクラスタリングするクラスタリングアルゴリズムに適用されるが、リンク分析アルゴリズムは、任意の異種クラスタリングアルゴリズムに適用可能であることが考えられる。この重み付けでは、本明細書で説明されているように重要度付きのクラスタリングを実現する。
複数のオブジェクトタイプをクラスタリングするために使用可能なクラスタリングアルゴリズムのさまざまな実施形態を説明する。クラスタリングアルゴリズムでは、クラスタリングされるデータオブジェクト間の何らかの類似度に基づきデータオブジェクトの自然なグループを見つけ出そうとする。そこで、クラスタリングアルゴリズムは、データオブジェクトに対しクラスタリングアクションを実行する。クラスタリングアルゴリズムのいくつかの実施形態では、さらに、パラメータ値がクラスタ内のすべての点のパラメータ値の平均である点を表す、データセットの1グループの重心も見つける。クラスタの帰属関係を調べるために、ほとんどのクラスタリングアルゴリズムは、点とクラスタ重心との間の距離を評価する。クラスタリングアルゴリズムからの出力は、基本的に、それぞれのクラスタ内の成分の個数とともにクラスタ重心の統計学的記述である。
クラスタアルゴリズムの複数の実施形態について、本明細書で説明している。両方向(two-ways)k−meansクラスタアルゴリズムは、クラスタリングプロセスの相互補強効果に基づく。両方向k−meansクラスタアルゴリズムは、反復クラスタリングアルゴリズムである。両方向k−meansクラスタアルゴリズムでは、オブジェクト重要度は、まず、(6)〜(8)または(9)〜(11)により計算され、その結果は、続く反復クラスタリング手順で適用される。クラスタリングアルゴリズムでは、定義されている類似度関数に基づいてそれぞれの層内のオブジェクトをクラスタリングする。k−means、k−medoids、および凝集型階層化法などの多数のクラスタリングアルゴリズムが使用され得るが、本明細書では、k−meansクラスタリングアルゴリズムの適用を説明する。
ノードの計算された重要度スコアを適用する手法は複数ある。一手法は、基本的なk−meansクラスタリングアルゴリズムを「重み付き」k−meansアルゴリズムに修正することを伴う。修正されたk−meansアルゴリズムでは、所定のクラスタの重心は、重要度スコアを決定する重み設定の特徴の重み付き総和を使用して計算される。それによって、高い重要度または重み付けを有するノードほど、コンテンツおよびリンク特徴の両方に対するクラスタ重心を形成する際により大きな強調を与えられる。他の実施形態は、重要度スコアによりノードのリンク重みを修正し、その後、類似度関数内で重み付きリンク特徴を使用することを伴う。このようにして、ノードの重要度は、クラスタリングプロセスにおけるリンク特徴にのみ反映される。
クラスタリングアルゴリズムの入力/出力の一実施形態は、図8および図9に示してある。クラスタリングアルゴリズムへの入力は、2層フレームワークグラフ550(ノードのコンテンツ特徴fおよびgを含む)を含む。クラスタリングアルゴリズムへの出力は、クラスタリングを反映する新しいフレームワークグラフ550を含む。新しいフレームワークグラフのいくつかの実施形態では、新しいノード位置に変更したそれぞれの古いノードの変更形態が例示され得る。
クラスタリングアルゴリズム850の一実施形態を例示する流れ図の一実施形態は、図8および図9に示されている。クラスタリングアルゴリズム850はオリジナルフレームワークグラフ(それぞれのクラスタリング反復の前に)が入力される851を含む。852では、考察されているそれぞれのノードの重要度が、(6)〜(8)または(9)〜(11)を使用して決定されるか、または計算される。854において、クラスタリングに対し、任意の層が選択される。選択された層内の複数のノードは、855において適切な方法で(例えば、コンテンツ特徴に応じて)クラスタリングされる。いくつかの実施形態では、所望のフィルタリングアルゴリズム(図に示されていない)を使用して複数のノードがフィルタ処理され、それにより、クラスタリングを改善できる。856において、それぞれのクラスタのノードは1つのノードにマージされる。例えば、2つの候補ノードがフィルタ処理の後に存在する場合、最も近い2つの候補ノードは、例えば、2つの候補ノードのベクトル値の平均をとることにより、マージすることができる。このマージ操作で、考慮しなければならないノードの個数を減らすために、個々のノードが組み合わされるようにできる。したがって、マージ操作は、重複およびほぼ重複の出現を減らすために使用され得る。
対応するリンクは、857でマージに基づいて更新される。858では、クラスタリングアルゴリズムはクラスタリングのため第2の層に(任意に選択された層から)切り替わる。960では、第2層のノードは、そのコンテンツ特徴および更新リンク特徴に応じてクラスタリングされる。961において、それぞれのクラスタのノードは1つのノードにマージされる。
962において、他の層のオリジナルリンク構造およびオリジナルノードは復元される。964において、第2層の各クラスタのノードは、マージされ、対応するリンクが更新される。966において、反復クラスタリングプロセスは、コンピュータ環境内で継続される。968において、改訂版のフレームワークグラフ550が出力される。
初期クラスタリングパス(initial clustering pass)では、コンテンツ特徴(content feature)のみが使用される。ほとんどの場合、リンク特徴は最初、疎らすぎてクラスタリングには使用できないからである。その後のクラスタリングパスで、コンテンツ特徴およびリンク特徴は組み合わされ、クラスタリングの有効性を高める。コンテンツ特徴およびリンク特徴を組み合わせることにより、異なる値で重みが指定され、結果が比較され、精度が改善されたクラスタリングが実現され得る。
図8および図9に関して説明されているクラスタリングアルゴリズムは、多くのクラスタリング実施形態に適用可能である。次に、より具体的に、ユーザによるWebページのアクセス方法に基づいたWebページのクラスタリングの一実施形態の説明が行われる。ユーザ層のノードとWebページ層のノードとの間で延びる種類のリンクでは、ユーザuは、uからpへのリンクが1つあればすでにWebページpにアクセスしている。リンクの重みとは、ユーザuが特定の時間にページpにアクセスする確率を意味し、これは、Pr(p|u)で表される。これは、(12)に示されているように、観察されたデータ内の数を数えることにより単純に計算できる。
Figure 2005316999
ここで、P(u)は、ユーザuによってすでにアクセスされていたページの集合である。C(p,u)は、ユーザuがページpにすでにアクセスしていたカウントを表す。
図10のフレームワークグラフ550の実施形態で示されているように、クラスタリングアルゴリズムの一実施形態は、概念層または隠れ層を伴う。図10では、簡単のため、図5のフレームワークグラフ内に示されている層内リンク503および505は、隠されている。しかし、図10に示されているようにフレームワークグラフ550の実施形態は、層内リンクおよび層間リンクとの任意の組合せに依存する可能性があるが、それでも、本明細書の概念の範囲内に留まることが考えられる。
隠れた層(hidden layer)1070(図10に示されているようなフレームワークグラフ550の実施形態の)は、Webページ層とユーザ層との間に置かれる。隠れた層550は、オリジナルノード集合PとUとの間で延びるリンクと比較して現実味が向上しているモデリングを可能にする抽象化の追加層(ノード集合PおよびUを終点とするリンクの始点である)を実現する。図5に示されているようなフレームワークグラフ550の実施形態の層間リンク504の1つ(隠れた層を持たない)は、図10に示されているようなフレームワークグラフ550の実施形態の隠れた層間リンクの対としてモデル化されるようにできる。隠れた層間リンクの1つは、ノード集合Pを含むWebページ層と隠れた層1070との間で延び、隠れた層間リンクの1つは、ユーザ層と隠れた層1070との間で延びる。図10に示されているそれぞれの隠れた層間リンクに付いている矢印の方向は、隠れた層間リンクにより隠れた層内のノードに接続されているそれぞれのノード集合PおよびU内の特定のWebページおよびユーザの場合のように、任意である。
ノード集合Pを含むWebページ層と隠れた層1070との間で延びるリンク(つまり、隠れた層間リンク)は、Webページp、pなどが隠れた層1070内の特定の概念ノードP(c)、P(c)などに属す可能性がどれだけあるかを示す。ユーザ層と隠れた層1070との間で延びるリンク(つまり、隠れた層間リンク)は、ユーザノードu、uなどが隠れた層1070内の特定の概念ノードP(c)、P(c)などに関心を持つ可能性がどれだけあるかを示す。
したがって、Webページ層と概念層との間で延びるリンクは、それぞれ、Webページpが、Pr(p|c)として表される、概念カテゴリcに分類される確率を表す。フレームワークグラフにより具現化されるこのモデルは、ナイーブベイジアン分類により使用される仮定を共有し、そこでは、異なる単語は条件付き独立であるとみなされる。したがって、概念cは、正規分布として表すことができる、つまり、期待値に対しベクトル
Figure 2005316999

共分散に対し
Figure 2005316999
ベクトルとして表すことができる。値Pr(p|c)は、(13)により求めることができる。
Figure 2005316999
ここで、wl,iは、l番目の単語に対するWebページpの重みである。
ユーザ層内のノードと隠れた層内のノードとの間で延びるリンク(Pr(c|u)として表される)は、概念によって反映されるカテゴリ内のユーザの興味を反映する。したがって、1つのベクトル(Ij1,Ij2,...,Ijn),Ijk=Pr(c|u)はそれぞれのユーザに対応し、nは隠れ概念の数である。図10に示されているリンクは、ユーザのベクトルモデルとしてみなしうる。ベクトルは、(14)で示されているようにユーザの使用度データにより制約される。
Figure 2005316999
したがって、値Pr(c|u)は、(13)から解を見つけることにより求めることができる。
簡単にするため、Pr(p|u)=Ri,j、Pr(p|c)=Si,k、およびPr(c|u)=Tk,jとする。ユーザjは、(15)に示されているように別々に考察することができる。
Figure 2005316999
ここで、「|Page|」は、Webページの総数であり、「|Concept|」は、隠れ概念の総数である。|Page|>>|Concept|なので、Tk,jの最小二乗解は、(15)を使用して、またはその代わりに(16)を使用して解くことができる。
Figure 2005316999
ここで、「|User|」は、ユーザの総数である。
|User|>>|Concept|なので、(17)に示されているように、Si,kの最小二乗解も与えることができる。
Figure 2005316999
期待値に対するベクトル
Figure 2005316999
得られた後、共分散に対する新しいベクトル
Figure 2005316999
を計算することが可能である。図10に例示されているフレームワークグラフ550の実施形態は、ノード集合Pとノード集合Uとの間で延びるが、ノード集合の特定のコンテンツが事実上例示されており、ノード集合のうちのどの集合にも適用されることが可能である。
ユーザオブジェクトに基づいてWebページオブジェクトがクラスタリングされるクラスタリングアルゴリズムの一実施形態は、図11で1100として示されているWebページクラスタリングアルゴリズムの一実施形態に関して説明されているように、以下のとおりの概要をもつ。
1. 1102に示されているようにユーザのログのグループを収集する。
2. (12)および図11の1104に示されているように、ユーザuが特定の時刻にWebページpにアクセスする確率Pr(p|u)を計算する。
3. 図11の1106で隠れ概念層(図10に示されているように670)に対するノードの個数|Concept|を定義し、図11の1108で期待値に対するベクトル
Figure 2005316999
の初期パラメータおよび共分散の初期ベクトル
Figure 2005316999
を割り当てる。
4. (13)および図11の1110に示されているように、Webページpが概念カテゴリcに分類される確率を表すPr(p|c)値を計算する。
5. 図11の1112に示されているように、(15)で求められる、ユーザノードと隠れた層ノードとの間のリンクに対するユーザの関心を表すPr(c|u)を計算する。
6. 図11の1114に示されているように、(13)を解くことにより、アウトラインステップ4で決定されたとおりWebページが概念カテゴリに分類される確率Pr(p|c)を更新する。
7. (13)で示されているように、Pr(p|c)を使用することによりそれぞれの隠れ概念ノードに対するパラメータを再推定する。
8. ノード集合の値について何らかの基準を与えるため数回の反復で(または少なくともモデルが安定したノード集合ベクトル結果を示すまで)(13)および(15)を実行する。
エンハンストドキュメント取り出しのためのコンテンツ伝播を実現する例示的システムを示す図である。 エンハンストドキュメント取り出しのためのコンテンツ伝播を実現する例示的手順を示す図である。 エンハンストドキュメント取り出しのためのコンテンツ伝播を実現するシステム、装置、および方法を完全にまたは部分的に実施することができる好適な例示的コンピューティング環境を示す図である。 クラスタリングに使用できるコンピュータ環境の一実施形態を示すブロック図である。 異種オブジェクトをクラスタリングするためのフレームワークの一実施形態を示すブロック図である。 ハイブリッドネットモデルの一実施形態を示すブロック図である。 インターネットを対象とするコンピュータ環境の他の実施形態を示すブロック図である。 クラスタリングアルゴリズムの一実施形態を示す流れ図である。 クラスタリングアルゴリズムの一実施形態を示す流れ図である。 隠れた層を含む異種オブジェクトをクラスタリングするためのフレームワークについて他の実施形態を示すブロック図である。 クラスタリングアルゴリズムの他の実施形態を示す流れ図である。

Claims (52)

  1. エンハンストドキュメント取り出しのために、コンピュータによって実施されるコンテンツ伝播を実現するシステムおよび方法であって、
    1つまたは複数のドキュメントを対象とする参照情報を識別するステップであって、前記参照情報が、前記1つまたは複数のドキュメントを含むデータソースと無関係のデータの1つまたは複数のソースから識別されるステップと、
    前記参照情報の近くに配置されているメタデータを抽出するステップと、
    前記1つまたは複数のドキュメントのうちの関連する複数のドキュメントのコンテンツに対する前記メタデータのそれぞれの特徴間の関連性を計算するステップと、
    前記1つまたは複数のドキュメントのうちのそれぞれのドキュメントについて、前記メタデータの関連する部分に対し、前記それぞれの部分から前記ドキュメントのオリジナルコンテンツの中への特徴の関連性を使用してインデックスを作成するステップとを含み、
    前記インデックス作成ステップにより、1つまたは複数のエンハンストドキュメントが生成されることを特徴とする方法。
  2. 前記参照情報は、前記1つまたは複数のドキュメントのうちの1つのドキュメントに関連付けられているリンクおよび/または実質的に一意のドキュメントIDを含むことを特徴とする請求項1に記載の方法。
  3. 前記1つまたは複数のドキュメントは、知識ベースアーティクル、製品ヘルプ、タスク、および/または開発者データであることを特徴とする請求項1に記載の方法。
  4. データの前記1つまたは複数のソースは、サービス要求、ニュースグループポスティング、および/または検索クエリログを含むことを特徴とする請求項1に記載の方法。
  5. 前記メタデータは、前記1つまたは複数のドキュメントのうちの複数の関連付けられているドキュメントに意味上および/または文脈上関係することを特徴とする請求項1に記載の方法。
  6. 前記メタデータは、ドキュメントのタイトル、製品問題の状況、および/または製品問題解決情報を含むことを特徴とする請求項1に記載の方法。
  7. 前記1つまたは複数のエンハンストドキュメントのうちのそれぞれのエンハンストドキュメントについて、前記エンハンストドキュメントが生成された対応するオリジナルドキュメントがあることを特徴とする請求項1に記載の方法。
  8. 前記関連性を計算するステップは、前記1つまたは複数のドキュメントのうちの特定の1つのドキュメントが前記メタデータ内の文脈の範囲内で何回識別されるかに基づくことを特徴とする請求項1に記載の方法。
  9. 前記メタデータは、アーティクルタイトル、製品問題の状況、および/または製品問題解決情報を含み、関連性を計算するステップは、さらに、前記アーティクルタイトルおよび/または製品問題の状況に重みを付けて、製品問題解決情報より高い関連性を示すステップを含むことを特徴とする請求項1に記載の方法。
  10. 関連性を計算するステップは、さらに、前記データソースのコンテンツ内で、前記コンテンツ内の他のメタデータ特徴の出現の頻度と比較してより大きな頻度で出現する前記メタデータの特徴に対し、より大きな関連性を割り当てるステップを含むことを特徴とする請求項1に記載の方法。
  11. 関連性を計算するステップは、さらに、前記1つまたは複数のドキュメントのうちの1つのドキュメント内で見つかった前記メタデータの特徴に対し、前記ドキュメントの経過期間に応じて、より大きな重みを割り当てるステップを含むことを特徴とする請求項1に記載の方法。
  12. データの前記1つまたは複数のソースは、検索クエリログを含み、関連性を計算するステップは、さらに、
    前記検索クエリログから、前記データソースを検索するために比較的大きな出現頻度(FOO)を持つ検索クエリを識別するステップと、
    検索クエリ結果からエンドユーザにより選択された、前記データソースからのアーティクルを決定するステップと、
    選択されなかった前記検索クエリ内のアーティクルである欠損エンドユーザ選択を決定するステップとを含むことを特徴とする請求項1に記載の方法。
  13. 欠損エンドユーザ選択を決定するステップは、さらに、層間リンクを使用して異種オブジェクトをクラスタリングし、前記異種オブジェクトの複数の特徴に対する重要性尺度を決定するステップを含み、前記異種オブジェクトは、類似のクエリの第1のクラスタと、関係するドキュメントの第2のクラスタとを含み、前記類似のクエリは前記検索クエリログで識別されており、前記類似のクエリは前記1つまたは複数のドキュメントを含む関連付けられた検索結果であり、前記関係するドキュメントは、前記関係する複数のドキュメントの個々の複数のドキュメントが前記複数の検索結果からエンドユーザにより選択されたか否かに関係なく前記検索結果で識別されることを特徴とする請求項12に記載の方法。
  14. 前記複数の特徴は、前記第1および第2のクラスタ内のそれぞれの複数のノードにより表され、前記複数のノードのそれぞれに対する前記重要性尺度は、前記第1および第2のクラスタ内のオブジェクト間の距離を測定する類似度関数に基づくことを特徴とする請求項13に記載の方法。
  15. エンハンストドキュメント取り出しのためのコンテンツ伝播を実現するコンピュータ実行可能命令を格納したコンピュータ可読媒体であって、前記コンピュータ実行可能命令は、
    1つまたは複数のドキュメントを対象とする参照情報を識別するための命令であって、前記参照情報が、前記1つまたは複数のドキュメントを含むデータソースと無関係のデータの1つまたは複数のソースから識別されるステップと、
    前記参照情報の近くに配置されているメタデータを抽出するステップと、
    前記1つまたは複数のドキュメントのうちの関連する複数のドキュメントのコンテンツに対する前記メタデータのそれぞれの特徴間の関連性を計算するステップと、
    前記1つまたは複数のドキュメントのうちのそれぞれのドキュメントについて、前記メタデータの関連する部分に対し、前記それぞれの部分から前記ドキュメントのオリジナルコンテンツの中への特徴の関連性を使用してインデックスを作成するステップとを含み、
    前記インデックス作成ステップにより、1つまたは複数のエンハンストドキュメントが生成されることを特徴とするコンピュータ可読媒体。
  16. 前記参照情報は、前記1つまたは複数のドキュメントのうちの1つのドキュメントに関連付けられているリンクおよび/または実質的に一意のドキュメントIDを含むことを特徴とする請求項15に記載のコンピュータ可読媒体。
  17. 前記1つまたは複数のドキュメントは、知識ベースアーティクル、製品ヘルプ、タスク、および/または開発者データであることを特徴とする請求項15に記載のコンピュータ可読媒体。
  18. データの前記1つまたは複数のソースは、サービス要求、ニュースグループポスティング、および/または検索クエリログを含むことを特徴とする請求項15に記載のコンピュータ可読媒体。
  19. 前記メタデータは、前記1つまたは複数のドキュメントのうちの複数の関連付けられているドキュメントに意味上および/または文脈上関係することを特徴とする請求項15に記載のコンピュータ可読媒体。
  20. 前記メタデータは、ドキュメントのタイトル、製品問題の状況、および/または製品問題解決情報を含むことを特徴とする請求項15に記載のコンピュータ可読媒体。
  21. 前記1つまたは複数のエンハンストドキュメントのうちのそれぞれのエンハンストドキュメントについて、前記エンハンストドキュメントが生成された対応するオリジナルドキュメントがあることを特徴とする請求項15に記載のコンピュータ可読媒体。
  22. 前記関連性を計算するステップは、前記1つまたは複数のドキュメントのうちの特定の1つのドキュメントが前記メタデータ内の文脈の範囲内で何回識別されるかに基づくことを特徴とする請求項15に記載のコンピュータ可読媒体。
  23. 前記メタデータは、アーティクルタイトル、製品問題の状況、および/または製品問題解決情報を含み、関連性を計算する前記命令は、さらに、前記アーティクルタイトルおよび/または製品問題の状況に重みを付けて、製品問題解決情報より高い関連性を示す命令を含むことを特徴とする請求項15に記載のコンピュータ可読媒体。
  24. 関連性を計算する前記ステップは、さらに、前記データソースのコンテンツ内で、前記コンテンツ内の他のメタデータ特徴の出現の頻度と比較してより大きな頻度で出現する前記メタデータの特徴に対し、より大きな関連性を割り当てる命令を含むことを特徴とする請求項15に記載のコンピュータ可読媒体。
  25. 関連性を計算する前記ステップは、さらに、前記1つまたは複数のドキュメントのうちの1つのドキュメント内で見つかった前記メタデータの特徴に対し、前記ドキュメントの経過期間に応じて、より大きな重みを割り当てるステップを含むことを特徴とする請求項15に記載のコンピュータ可読媒体。
  26. データの前記1つまたは複数のソースは、検索クエリログを含み、関連性を計算する前記ステップは、さらに、
    前記検索クエリログから、前記データソースを検索するために比較的大きな出現頻度(FOO)を持つ検索クエリを識別するステップと、
    検索クエリ結果からエンドユーザにより選択された、前記データソースからのアーティクルを決定するステップと、
    選択されなかった前記検索クエリ内のアーティクルである欠損エンドユーザ選択を決定するステップとを含むことを特徴とする請求項15に記載のコンピュータ可読媒体。
  27. 欠損エンドユーザ選択を決定する前記ステップは、さらに、層間リンクを使用して異種オブジェクトをクラスタリングし、前記異種オブジェクトの複数の特徴に対する重要性尺度を決定するステップを含み、前記異種オブジェクトは、類似のクエリの第1のクラスタと、関係するドキュメントの第2のクラスタとを含み、前記類似のクエリは前記検索クエリログで識別されており、前記類似のクエリは前記1つまたは複数のドキュメントを含む関連付けられた検索結果であり、前記関係するドキュメントは、前記関係する複数のドキュメントの個々の複数のドキュメントが前記複数の検索結果からエンドユーザにより選択されたか否かに関係なく前記検索結果で識別されることを特徴とする請求項26に記載のコンピュータ可読媒体。
  28. 前記複数の特徴は、前記第1および第2のクラスタ内のそれぞれの複数のノードにより表され、前記複数のノードのそれぞれに対する前記重要性尺度は、前記第1および第2のクラスタ内のオブジェクト間の距離を測定する類似度関数に基づくことを特徴とする請求項27に記載のコンピュータ可読媒体。
  29. エンハンストドキュメント取り出しのためのコンテンツ伝播を実現するコンピューティングデバイスであって、
    プロセッサと、
    前記プロセッサに結合されたメモリであって、
    1つまたは複数のドキュメントを対象とする参照情報を識別するステップであって、前記参照情報が、前記1つまたは複数のドキュメントを含むデータソースと無関係のデータの1つまたは複数のソースから識別されるステップと、
    前記参照情報の近くに配置されているメタデータを抽出するステップと、
    前記1つまたは複数のドキュメントのうちの関連する複数のドキュメントのコンテンツに対する前記メタデータのそれぞれの特徴間の関連性を計算するステップと、
    前記1つまたは複数のドキュメントのうちのそれぞれのドキュメントについて、前記メタデータの関連する部分に対し、前記それぞれの部分から前記ドキュメントのオリジナルコンテンツの中への特徴の関連性を使用してインデックスを作成するステップとのために前記プロセッサにより実行可能なコンピュータプログラム命令を格納するメモリとを備え、
    前記インデックス作成ステップにより、1つまたは複数のエンハンストドキュメントが生成されることを特徴とするコンピューティングデバイス。
  30. 前記参照情報は、前記1つまたは複数のドキュメントのうちの1つのドキュメントに関連付けられているリンクおよび/または実質的に一意のドキュメントIDを含むことを特徴とする請求項29に記載のコンピューティングデバイス。
  31. 前記1つまたは複数のドキュメントは、知識ベースアーティクル、製品ヘルプ、タスク、および/または開発者データであることを特徴とする請求項29に記載のコンピューティングデバイス。
  32. データの前記1つまたは複数のソースは、サービス要求、ニュースグループポスティング、および/または検索クエリログを含むことを特徴とする請求項29に記載のコンピューティングデバイス。
  33. 前記メタデータは、前記1つまたは複数のドキュメントのうちの複数の関連付けられているドキュメントに意味上および/または文脈上関係することを特徴とする請求項29に記載のコンピューティングデバイス。
  34. 前記メタデータは、ドキュメントのタイトル、製品問題の状況、および/または製品問題解決情報を含むことを特徴とする請求項29に記載のコンピューティングデバイス。
  35. 前記1つまたは複数のエンハンストドキュメントのうちのそれぞれのエンハンストドキュメントについて、前記エンハンストドキュメントが生成された対応するオリジナルドキュメントがあることを特徴とする請求項29に記載のコンピューティングデバイス。
  36. 前記関連性を計算するステップは、前記1つまたは複数のドキュメントのうちの特定の1つのドキュメントが前記メタデータ内の文脈の範囲内で何回識別されるかに基づくことを特徴とする請求項29に記載のコンピューティングデバイス。
  37. 前記メタデータは、アーティクルタイトル、製品問題の状況、および/または製品問題解決情報を含み、関連性を計算する前記ステップは、さらに、前記アーティクルタイトルおよび/または製品問題の状況に重みを付けて、製品問題解決情報より高い関連性を示すステップを含むことを特徴とする請求項29に記載のコンピューティングデバイス。
  38. 関連性を計算する前記ステップは、さらに、前記データソースのコンテンツ内で、前記コンテンツ内の他のメタデータ特徴の出現の頻度と比較してより大きな頻度で出現する前記メタデータの特徴に対し、より大きな関連性を割り当てるステップを含むことを特徴とする請求項29に記載のコンピューティングデバイス。
  39. 関連性を計算する前記ステップは、さらに、前記1つまたは複数のドキュメントのうちの1つのドキュメント内で見つかった前記メタデータの特徴に対し、前記ドキュメントの経過期間に応じて、より大きな重みを割り当てるステップを含むことを特徴とする請求項29に記載のコンピューティングデバイス。
  40. データの前記1つまたは複数のソースは、検索クエリログを含み、関連性を計算する前記ステップは、さらに、
    前記検索クエリログから、前記データソースを検索するために比較的大きな出現頻度(FOO)を持つ検索クエリを識別するステップと、
    検索クエリ結果からエンドユーザにより選択された、前記データソースからのアーティクルを決定するステップと、
    選択されなかった前記検索クエリ内のアーティクルである欠損エンドユーザ選択を決定するステップとを含むことを特徴とする請求項29に記載のコンピューティングデバイス。
  41. 欠損エンドユーザ選択を決定する前記ステップは、さらに、層間リンクを使用して異種オブジェクトをクラスタリングし、前記異種オブジェクトの複数の特徴に対する重要性尺度を決定するステップを含み、前記異種オブジェクトは、類似のクエリの第1のクラスタと、関係するドキュメントの第2のクラスタとを含み、前記類似のクエリは前記検索クエリログで識別されており、前記類似のクエリは前記1つまたは複数のドキュメントを含む関連付けられた検索結果であり、前記関係するドキュメントは、前記関係する複数のドキュメントの個々の複数のドキュメントが前記複数の検索結果からエンドユーザにより選択されたか否かに関係なく前記検索結果で識別されることを特徴とする請求項40に記載のコンピューティングデバイス。
  42. 前記複数の特徴は、前記第1および第2のクラスタ内のそれぞれの複数のノードにより表され、前記複数のノードのそれぞれに対する前記重要性尺度は、前記第1および第2のクラスタ内のオブジェクト間の距離を測定する類似度関数に基づくことを特徴とする請求項41に記載のコンピューティングデバイス。
  43. エンハンストドキュメント取り出しのためのコンテンツ伝播を実現するコンピューティングデバイスであって、
    1つまたは複数のドキュメントを対象とする参照情報を識別する識別手段であって、前記参照情報が、前記1つまたは複数のドキュメントを含むデータソースと無関係のデータの1つまたは複数のソースから識別される識別手段と、
    前記参照情報の近くに配置されているメタデータを抽出する抽出手段と、
    前記1つまたは複数のドキュメントのうちの関連する複数のドキュメントのコンテンツに対する前記メタデータのそれぞれの特徴間の関連性を計算する計算手段と、
    前記1つまたは複数のドキュメントのうちのそれぞれのドキュメントについて、前記メタデータの関連する部分に対し、前記それぞれの部分から前記ドキュメントのオリジナルコンテンツの中への特徴の関連性を使用してインデックスを作成するインデックス作成手段とを備え、
    前記インデックス作成ステップにより、1つまたは複数のエンハンストドキュメントを生成することを特徴とするコンピューティングデバイス。
  44. 前記参照情報は、前記1つまたは複数のドキュメントのうちの1つのドキュメントに関連付けられているリンクおよび/または実質的に一意のドキュメントIDを含むことを特徴とする請求項43に記載のコンピューティングデバイス。
  45. 前記1つまたは複数のドキュメントは、知識ベースアーティクル、製品ヘルプ、タスク、および/または開発者データであることを特徴とする請求項43に記載のコンピューティングデバイス。
  46. データの前記1つまたは複数のソースは、サービス要求、ニュースグループポスティング、および/または検索クエリログを含むことを特徴とする請求項43に記載のコンピューティングデバイス。
  47. 前記メタデータは、前記1つまたは複数のドキュメントのうちの複数の関連付けられているドキュメントに意味上および/または文脈上関係することを特徴とする請求項43に記載のコンピューティングデバイス。
  48. 前記メタデータは、アーティクルタイトル、製品問題の状況、および/または製品問題解決情報を含み、関連性を計算する前記計算手段は、さらに、前記アーティクルタイトルおよび/または製品問題の状況に重みを付けて、製品問題解決情報より高い関連性を示す重み付け手段を含むことを特徴とする請求項43に記載のコンピューティングデバイス。
  49. 関連性を計算する前記計算手段は、さらに、前記データソースのコンテンツ内で、前記コンテンツ内の他のメタデータ特徴の出現の頻度と比較してより大きな頻度で出現する前記メタデータの特徴に対し、より大きな関連性を割り当てる割り当て手段を含むことを特徴とする請求項43に記載のコンピューティングデバイス。
  50. 関連性を計算する前記計算手段は、さらに、前記1つまたは複数のドキュメントのうちの1つのドキュメント内で見つかった前記メタデータの特徴に対し、前記ドキュメントの経過期間に応じて、より大きな重みを割り当てる割り当て手段を含むことを特徴とする請求項43に記載のコンピューティングデバイス。
  51. データの前記1つまたは複数のソースは、検索クエリログを含み、関連性を計算する前記計算手段は、さらに、
    前記検索クエリログから、前記データソースを検索するために比較的大きな出現頻度(FOO)を持つ検索クエリを識別する識別手段と、
    検索クエリ結果からエンドユーザにより選択された、前記データソースからのアーティクルを決定する決定手段と、
    選択されなかった前記検索クエリ内のアーティクルである欠損エンドユーザ選択を計算する計算手段とを含むことを特徴とする請求項43に記載のコンピューティングデバイス。
  52. 前記計算手段は、層間リンクを使用して異種オブジェクトをクラスタリングし、前記異種オブジェクトの複数の特徴に対する重要性尺度を決定するクラスタリング手段を含み、前記異種オブジェクトは、類似のクエリの第1のクラスタと、関係するドキュメントの第2のクラスタとを含み、前記類似のクエリは前記検索クエリログで識別されており、前記類似のクエリは前記1つまたは複数のドキュメントを含む関連付けられた検索結果であり、前記関係するドキュメントは、前記関係する複数のドキュメントの個々の複数のドキュメントが前記複数の検索結果からエンドユーザにより選択されたか否かに関係なく前記検索結果で識別されることを特徴とする請求項52に記載のコンピューティングデバイス。
JP2005118172A 2004-04-15 2005-04-15 エンハンストドキュメント取り出しのためのコンテンツ伝播 Expired - Fee Related JP4750456B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/826,161 2004-04-15
US10/826,161 US7305389B2 (en) 2004-04-15 2004-04-15 Content propagation for enhanced document retrieval

Publications (3)

Publication Number Publication Date
JP2005316999A true JP2005316999A (ja) 2005-11-10
JP2005316999A5 JP2005316999A5 (ja) 2008-05-29
JP4750456B2 JP4750456B2 (ja) 2011-08-17

Family

ID=34939223

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005118172A Expired - Fee Related JP4750456B2 (ja) 2004-04-15 2005-04-15 エンハンストドキュメント取り出しのためのコンテンツ伝播

Country Status (5)

Country Link
US (1) US7305389B2 (ja)
EP (1) EP1587009A3 (ja)
JP (1) JP4750456B2 (ja)
KR (1) KR101114023B1 (ja)
CN (1) CN100511224C (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009110231A (ja) * 2007-10-30 2009-05-21 Nippon Telegr & Teleph Corp <Ntt> 文章検索サーバコンピュータ,文章検索方法,文章検索プログラム,そのプログラムを記録した記録媒体

Families Citing this family (80)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6831663B2 (en) * 2001-05-24 2004-12-14 Microsoft Corporation System and process for automatically explaining probabilistic predictions
JPWO2004034282A1 (ja) * 2002-10-10 2006-02-09 富士通株式会社 コンテンツ再利用管理装置およびコンテンツ再利用支援装置
US20050114382A1 (en) * 2003-11-26 2005-05-26 Lakshminarayan Choudur K. Method and system for data segmentation
US7827279B2 (en) * 2004-01-30 2010-11-02 Hewlett-Packard Development Company, L.P. Selecting nodes close to another node in a network using location information for the nodes
US20050278314A1 (en) * 2004-06-09 2005-12-15 Paul Buchheit Variable length snippet generation
US7716225B1 (en) * 2004-06-17 2010-05-11 Google Inc. Ranking documents based on user behavior and/or feature data
US8825639B2 (en) * 2004-06-30 2014-09-02 Google Inc. Endorsing search results
US7827176B2 (en) 2004-06-30 2010-11-02 Google Inc. Methods and systems for endorsing local search results
US7593924B2 (en) 2004-09-20 2009-09-22 Microsoft Corporation Method, system, and apparatus for receiving and responding to knowledge interchange queries
US7707167B2 (en) 2004-09-20 2010-04-27 Microsoft Corporation Method, system, and apparatus for creating a knowledge interchange profile
US7730010B2 (en) 2004-09-20 2010-06-01 Microsoft Corporation Method, system, and apparatus for maintaining user privacy in a knowledge interchange system
US20080077570A1 (en) * 2004-10-25 2008-03-27 Infovell, Inc. Full Text Query and Search Systems and Method of Use
US20060212441A1 (en) * 2004-10-25 2006-09-21 Yuanhua Tang Full text query and search systems and methods of use
US20070283036A1 (en) * 2004-11-17 2007-12-06 Sujit Dey System And Method For Providing A Web Page
US7765214B2 (en) * 2005-05-10 2010-07-27 International Business Machines Corporation Enhancing query performance of search engines using lexical affinities
JP4626483B2 (ja) * 2005-10-27 2011-02-09 ソニー株式会社 サーバ装置、データ処理方法、プログラムおよび通信方法
US7584159B1 (en) * 2005-10-31 2009-09-01 Amazon Technologies, Inc. Strategies for providing novel recommendations
US7668821B1 (en) 2005-11-17 2010-02-23 Amazon Technologies, Inc. Recommendations based on item tagging activities of users
US9495349B2 (en) * 2005-11-17 2016-11-15 International Business Machines Corporation System and method for using text analytics to identify a set of related documents from a source document
US20070112833A1 (en) * 2005-11-17 2007-05-17 International Business Machines Corporation System and method for annotating patents with MeSH data
US20070136400A1 (en) * 2005-12-13 2007-06-14 International Business Machines Corporation Method and apparatus for integrating user communities with documentation
US7664760B2 (en) * 2005-12-22 2010-02-16 Microsoft Corporation Inferred relationships from user tagged content
US8001121B2 (en) * 2006-02-27 2011-08-16 Microsoft Corporation Training a ranking function using propagated document relevance
US8019763B2 (en) * 2006-02-27 2011-09-13 Microsoft Corporation Propagating relevance from labeled documents to unlabeled documents
JP4783181B2 (ja) * 2006-03-13 2011-09-28 株式会社東芝 行動予測装置
US7933890B2 (en) * 2006-03-31 2011-04-26 Google Inc. Propagating useful information among related web pages, such as web pages of a website
US8699806B2 (en) * 2006-04-12 2014-04-15 Google Inc. Method and apparatus for automatically summarizing video
US8442973B2 (en) * 2006-05-02 2013-05-14 Surf Canyon, Inc. Real time implicit user modeling for personalized search
US8229156B1 (en) 2006-08-08 2012-07-24 Google Inc. Using curve invariants to automatically characterize videos
US8117197B1 (en) 2008-06-10 2012-02-14 Surf Canyon, Inc. Adaptive user interface for real-time search relevance feedback
US8195734B1 (en) 2006-11-27 2012-06-05 The Research Foundation Of State University Of New York Combining multiple clusterings by soft correspondence
US20080155305A1 (en) * 2006-12-22 2008-06-26 International Business Machines Corporation Collaborative problem determination based on graph visualization
US7822750B2 (en) * 2007-01-17 2010-10-26 Aptima, Inc Method and system to compare data entities
US8280877B2 (en) * 2007-02-22 2012-10-02 Microsoft Corporation Diverse topic phrase extraction
US9507858B1 (en) 2007-02-28 2016-11-29 Google Inc. Selectively merging clusters of conceptually related words in a generative model for text
US7849104B2 (en) * 2007-03-01 2010-12-07 Microsoft Corporation Searching heterogeneous interrelated entities
US8161040B2 (en) * 2007-04-30 2012-04-17 Piffany, Inc. Criteria-specific authority ranking
WO2009038822A2 (en) * 2007-05-25 2009-03-26 The Research Foundation Of State University Of New York Spectral clustering for multi-type relational data
US8751507B2 (en) * 2007-06-29 2014-06-10 Amazon Technologies, Inc. Recommendation system with multiple integrated recommenders
US8260787B2 (en) * 2007-06-29 2012-09-04 Amazon Technologies, Inc. Recommendation system with multiple integrated recommenders
US7949659B2 (en) * 2007-06-29 2011-05-24 Amazon Technologies, Inc. Recommendation system with multiple integrated recommenders
US8566338B2 (en) * 2007-09-21 2013-10-22 International Business Machines Corporation Automatically making changes in a document in a content management system based on a change by a user to other content in the document
US20090132462A1 (en) * 2007-11-19 2009-05-21 Sony Corporation Distributed metadata extraction
US8145630B1 (en) * 2007-12-28 2012-03-27 Google Inc. Session-based dynamic search snippets
JP4524702B2 (ja) * 2008-02-08 2010-08-18 コニカミノルタビジネステクノロジーズ株式会社 データ管理装置、検索条件情報管理方法、およびコンピュータプログラム
US7991650B2 (en) * 2008-08-12 2011-08-02 Amazon Technologies, Inc. System for obtaining recommendations from multiple recommenders
US7991757B2 (en) * 2008-08-12 2011-08-02 Amazon Technologies, Inc. System for obtaining recommendations from multiple recommenders
US20100042610A1 (en) * 2008-08-15 2010-02-18 Microsoft Corporation Rank documents based on popularity of key metadata
US8140550B2 (en) * 2008-08-20 2012-03-20 Satyam Computer Services Limited Of Mayfair Centre System and method for bounded analysis of multimedia using multiple correlations
US9298722B2 (en) 2009-07-16 2016-03-29 Novell, Inc. Optimal sequential (de)compression of digital data
US10089391B2 (en) * 2009-07-29 2018-10-02 Herbminers Informatics Limited Ontological information retrieval system
JP5514486B2 (ja) * 2009-08-03 2014-06-04 株式会社日立製作所 Webページの関連性抽出方法、装置、及びプログラム
US20110119269A1 (en) * 2009-11-18 2011-05-19 Rakesh Agrawal Concept Discovery in Search Logs
KR101306667B1 (ko) * 2009-12-09 2013-09-10 한국전자통신연구원 지식 그래프 정제 장치 및 방법
US8782734B2 (en) * 2010-03-10 2014-07-15 Novell, Inc. Semantic controls on data storage and access
US20110238670A1 (en) * 2010-03-23 2011-09-29 Microsoft Corporation Crowd-sourcing and contextual reclassification of rated content
US8832103B2 (en) 2010-04-13 2014-09-09 Novell, Inc. Relevancy filter for new data based on underlying files
US9703895B2 (en) * 2010-06-11 2017-07-11 Microsoft Technology Licensing, Llc Organizing search results based upon clustered content
US8478740B2 (en) * 2010-12-16 2013-07-02 Microsoft Corporation Deriving document similarity indices
US9798732B2 (en) 2011-01-06 2017-10-24 Micro Focus Software Inc. Semantic associations in data
US8880517B2 (en) 2011-02-18 2014-11-04 Microsoft Corporation Propagating signals across a web graph
US8423547B2 (en) 2011-04-08 2013-04-16 Microsoft Corporation Efficient query clustering using multi-partite graphs
US9721039B2 (en) * 2011-12-16 2017-08-01 Palo Alto Research Center Incorporated Generating a relationship visualization for nonhomogeneous entities
US9864817B2 (en) * 2012-01-28 2018-01-09 Microsoft Technology Licensing, Llc Determination of relationships between collections of disparate media types
JP5324677B2 (ja) * 2012-02-24 2013-10-23 株式会社日立製作所 類似文書検索支援装置及び類似文書検索支援プログラム
US8805848B2 (en) 2012-05-24 2014-08-12 International Business Machines Corporation Systems, methods and computer program products for fast and scalable proximal search for search queries
US10445415B1 (en) * 2013-03-14 2019-10-15 Ca, Inc. Graphical system for creating text classifier to match text in a document by combining existing classifiers
US9760620B2 (en) * 2013-07-23 2017-09-12 Salesforce.Com, Inc. Confidently adding snippets of search results to clusters of objects
US10223401B2 (en) * 2013-08-15 2019-03-05 International Business Machines Corporation Incrementally retrieving data for objects to provide a desired level of detail
US20180203932A1 (en) * 2017-01-18 2018-07-19 International Business Machines Corporation Enhanced information retrieval
CN107220094B (zh) * 2017-06-27 2019-06-28 北京金山安全软件有限公司 页面加载方法、装置和电子设备
CN107357919A (zh) * 2017-07-21 2017-11-17 携程旅游网络技术(上海)有限公司 行为日志查询系统及方法
US10726198B2 (en) 2017-10-17 2020-07-28 Handycontract, LLC Method, device, and system, for identifying data elements in data structures
US11475209B2 (en) 2017-10-17 2022-10-18 Handycontract Llc Device, system, and method for extracting named entities from sectioned documents
WO2019232645A1 (en) * 2018-06-07 2019-12-12 Element Ai Inc. Unsupervised classification of documents using a labeled data set of other documents
CN109033280A (zh) * 2018-07-11 2018-12-18 平安科技(深圳)有限公司 日志搜索方法、系统、计算机设备和存储介质
US11423056B2 (en) 2018-12-21 2022-08-23 Atlassian Pty Ltd. Content discovery systems and methods
WO2020243532A1 (en) * 2019-05-29 2020-12-03 Iron Mountain Incorporated Systems and methods for cloud content-based document clustering and classification integration
US11042666B2 (en) * 2019-08-20 2021-06-22 Metricstream, Inc. Efficient traversal of hierarchical datasets
US20230281257A1 (en) * 2022-01-31 2023-09-07 Walmart Apollo, Llc Systems and methods for determining and utilizing search token importance using machine learning architectures

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09311870A (ja) * 1996-05-22 1997-12-02 Matsushita Electric Ind Co Ltd ハイパーテキスト検索装置
JP2003067419A (ja) * 2001-08-24 2003-03-07 Toshiba Corp 情報検索方法および情報検索システム
JP2004054588A (ja) * 2002-07-19 2004-02-19 Just Syst Corp 文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラム

Family Cites Families (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03122770A (ja) 1989-10-05 1991-05-24 Ricoh Co Ltd キーワード連想文書検索方法
US5488725A (en) 1991-10-08 1996-01-30 West Publishing Company System of document representation retrieval by successive iterated probability sampling
US5265065A (en) 1991-10-08 1993-11-23 West Publishing Company Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query
US5442778A (en) 1991-11-12 1995-08-15 Xerox Corporation Scatter-gather: a cluster-based method and apparatus for browsing large document collections
US7251637B1 (en) 1993-09-20 2007-07-31 Fair Isaac Corporation Context vector generation and retrieval
US5576954A (en) 1993-11-05 1996-11-19 University Of Central Florida Process for determination of text relevancy
US5812134A (en) 1996-03-28 1998-09-22 Critical Thought, Inc. User interface navigational system & method for interactive representation of information contained within a database
US6188776B1 (en) 1996-05-21 2001-02-13 Interval Research Corporation Principle component analysis of images for the automatic location of control points
WO1997049048A1 (en) 1996-06-17 1997-12-24 Idd Enterprises, L.P. Hypertext document retrieval system and method
US5987460A (en) 1996-07-05 1999-11-16 Hitachi, Ltd. Document retrieval-assisting method and system for the same and document retrieval service using the same with document frequency and term frequency
US6457004B1 (en) 1997-07-03 2002-09-24 Hitachi, Ltd. Document retrieval assisting method, system and service using closely displayed areas for titles and topics
GB9701866D0 (en) 1997-01-30 1997-03-19 British Telecomm Information retrieval
US5819258A (en) 1997-03-07 1998-10-06 Digital Equipment Corporation Method and apparatus for automatically generating hierarchical categories from large document collections
US6112202A (en) 1997-03-07 2000-08-29 International Business Machines Corporation Method and system for identifying authoritative information resources in an environment with content-based links between information resources
US6298351B1 (en) 1997-04-11 2001-10-02 International Business Machines Corporation Modifying an unreliable training set for supervised classification
US6470307B1 (en) 1997-06-23 2002-10-22 National Research Council Of Canada Method and apparatus for automatically identifying keywords within a document
US5845278A (en) * 1997-09-12 1998-12-01 Inioseek Corporation Method for automatically selecting collections to search in full text searches
US6003027A (en) 1997-11-21 1999-12-14 International Business Machines Corporation System and method for determining confidence levels for the results of a categorization system
US6421675B1 (en) 1998-03-16 2002-07-16 S. L. I. Systems, Inc. Search engine
JPH11328724A (ja) 1998-05-18 1999-11-30 Fuji Photo Film Co Ltd 3次元光メモリ
US6006225A (en) 1998-06-15 1999-12-21 Amazon.Com Refining search queries by the suggestion of correlated terms from prior searches
US6742003B2 (en) 2001-04-30 2004-05-25 Microsoft Corporation Apparatus and accompanying methods for visualizing clusters of data and hierarchical cluster classifications
US6598054B2 (en) 1999-01-26 2003-07-22 Xerox Corporation System and method for clustering data objects in a collection
US6226408B1 (en) 1999-01-29 2001-05-01 Hnc Software, Inc. Unsupervised identification of nonlinear data cluster in multidimensional data
US7225182B2 (en) 1999-05-28 2007-05-29 Overture Services, Inc. Recommending search terms using collaborative filtering and web spidering
US6711585B1 (en) 1999-06-15 2004-03-23 Kanisa Inc. System and method for implementing a knowledge management system
US7725307B2 (en) 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US6556983B1 (en) 2000-01-12 2003-04-29 Microsoft Corporation Methods and apparatus for finding semantic information, such as usage logs, similar to a query using a pattern lattice data space
US6615209B1 (en) 2000-02-22 2003-09-02 Google, Inc. Detecting query-specific duplicate documents
DE10029644B4 (de) 2000-06-16 2008-02-07 Deutsche Telekom Ag Verfahren zur Relevanzbewertung bei der Indexierung von Hypertext-Dokumenten mittels Suchmaschine
US6578032B1 (en) 2000-06-28 2003-06-10 Microsoft Corporation Method and system for performing phrase/word clustering and cluster merging
US7490092B2 (en) * 2000-07-06 2009-02-10 Streamsage, Inc. Method and system for indexing and searching timed media information based upon relevance intervals
US7587428B2 (en) 2000-10-13 2009-09-08 Microsoft Corporation Maintaining a relationship between two different items of data
US6560600B1 (en) 2000-10-25 2003-05-06 Alta Vista Company Method and apparatus for ranking Web page search results
US6772120B1 (en) 2000-11-21 2004-08-03 Hewlett-Packard Development Company, L.P. Computer method and apparatus for segmenting text streams
US7356530B2 (en) 2001-01-10 2008-04-08 Looksmart, Ltd. Systems and methods of retrieving relevant information
EP1384155A4 (en) 2001-03-01 2007-02-28 Health Discovery Corp SPECTRAL KNIVES FOR LEARNING MACHINES
US6892193B2 (en) 2001-05-10 2005-05-10 International Business Machines Corporation Method and apparatus for inducing classifiers for multimedia based on unified representation of features reflecting disparate modalities
US20030065632A1 (en) 2001-05-30 2003-04-03 Haci-Murat Hubey Scalable, parallelizable, fuzzy logic, boolean algebra, and multiplicative neural network based classifier, datamining, association rule finder and visualization software tool
US20030046389A1 (en) 2001-09-04 2003-03-06 Thieme Laura M. Method for monitoring a web site's keyword visibility in search engines and directories and resulting traffic from such keyword visibility
US7167871B2 (en) 2002-05-17 2007-01-23 Xerox Corporation Systems and methods for authoritativeness grading, estimation and sorting of documents in large heterogeneous document collections
JP3918664B2 (ja) 2002-07-10 2007-05-23 ヤマハ株式会社 音響信号処理装置
US7136876B1 (en) 2003-03-03 2006-11-14 Hewlett-Packard Development Company, L.P. Method and system for building an abbreviation dictionary
US20040249808A1 (en) 2003-06-06 2004-12-09 Microsoft Corporation Query expansion using query logs
US7225184B2 (en) 2003-07-18 2007-05-29 Overture Services, Inc. Disambiguation of search phrases using interpretation clusters
US7165119B2 (en) 2003-10-14 2007-01-16 America Online, Inc. Search enhancement system and method having rankings, explicitly specified by the user, based upon applicability and validity of search parameters in regard to a subject matter

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09311870A (ja) * 1996-05-22 1997-12-02 Matsushita Electric Ind Co Ltd ハイパーテキスト検索装置
JP2003067419A (ja) * 2001-08-24 2003-03-07 Toshiba Corp 情報検索方法および情報検索システム
JP2004054588A (ja) * 2002-07-19 2004-02-19 Just Syst Corp 文書検索装置、文書検索方法およびその方法をコンピュータに実行させるプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009110231A (ja) * 2007-10-30 2009-05-21 Nippon Telegr & Teleph Corp <Ntt> 文章検索サーバコンピュータ,文章検索方法,文章検索プログラム,そのプログラムを記録した記録媒体

Also Published As

Publication number Publication date
US7305389B2 (en) 2007-12-04
KR101114023B1 (ko) 2014-02-26
US20050234952A1 (en) 2005-10-20
CN100511224C (zh) 2009-07-08
EP1587009A3 (en) 2006-08-16
KR20060045743A (ko) 2006-05-17
EP1587009A2 (en) 2005-10-19
JP4750456B2 (ja) 2011-08-17
CN1694100A (zh) 2005-11-09

Similar Documents

Publication Publication Date Title
JP4750456B2 (ja) エンハンストドキュメント取り出しのためのコンテンツ伝播
US7289985B2 (en) Enhanced document retrieval
US11347963B2 (en) Systems and methods for identifying semantically and visually related content
US20230289137A1 (en) Methods and Systems for Identifying a Level of Similarity Between a Plurality of Data Representations
Chen et al. A survey on the use of topic models when mining software repositories
Marinho et al. Social tagging recommender systems
US8285702B2 (en) Content analysis simulator for improving site findability in information retrieval systems
Jiang et al. Mining search and browse logs for web search: A survey
US20200073953A1 (en) Ranking Entity Based Search Results Using User Clusters
US8103682B2 (en) Method and system for fast, generic, online and offline, multi-source text analysis and visualization
US20050234973A1 (en) Mining service requests for product support
Serrano Neural networks in big data and Web search
Jiang et al. Cloud service recommendation based on unstructured textual information
US11734332B2 (en) Methods and systems for reuse of data item fingerprints in generation of semantic maps
CN114238573B (zh) 基于文本对抗样例的信息推送方法及装置
Assi et al. FeatCompare: Feature comparison for competing mobile apps leveraging user reviews
Sharma et al. Web page ranking using web mining techniques: a comprehensive survey
Agarwal et al. A systematic literature review on web service clustering approaches to enhance service discovery, selection and recommendation
Liu et al. Detecting web spam based on novel features from web page source code
Farina et al. Interest identification from browser tab titles: A systematic literature review
Fang et al. Facfinder: Search for expertise in academic institutions
Zhang et al. Identification of factors predicting clickthrough in Web searching using neural network analysis
Bragilovski et al. Searching for class models
Wang et al. A time and sentiment unification model for personalized recommendation
Rai et al. Mining E-commerce Websites to Provide Efficient Methodology for Sentiment Analysis

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080411

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080411

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100827

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101126

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110513

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110519

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140527

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees