JP2005316999A

JP2005316999A - エンハンストドキュメント取り出しのためのコンテンツ伝播

Info

Publication number: JP2005316999A
Application number: JP2005118172A
Authority: JP
Inventors: Benyu Zhang; チャンベンユー; B Cook Daniel; ビー．クックダニエル; Hirschler Gabor; ヒスラーガボール; Hsiao-Wuen Hon; ホンシャオ−ウェン; Hua-Jun Zeng; チェンホア−ジュン; Fries Karen; フリースカレン; Kurt Samuelson; サミュエルソンカート; Wei-Ying Ma; マウェイ−イェン; Zheng Chen; ツェンチェン
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2004-04-15
Filing date: 2005-04-15
Publication date: 2005-11-10
Anticipated expiration: 2025-04-15
Also published as: US7305389B2; KR101114023B1; US20050234952A1; CN100511224C; EP1587009A3; KR20060045743A; EP1587009A2; JP4750456B2; CN1694100A

Abstract

【課題】エンハンストドキュメント取り出しのためにコンピュータによって実施されるコンテンツ伝播を実現する。
【解決手段】１つまたは複数のドキュメントを対象とする参照情報を識別する。参照情報は、１つまたは複数のドキュメントを含むデータソースとは無関係のデータの１つまたは複数のソースから識別する。データの１つまたは複数のソースから、参照情報に近い位置にあるメタデータを抽出する。１つまたは複数のドキュメントのうちの関連する複数のドキュメントのコンテンツに対するメタデータのそれぞれの特徴間の関連性が計算される。１つまたは複数のドキュメントのうちのそれぞれのドキュメントについて、メタデータの関連する部分に対し、それぞれの部分からドキュメントのオリジナルコンテンツの中への特徴の関連性を使用してインデックスが作成される。このインデックス作成機能により、１つまたは複数のエンハンストドキュメントを生成する。
【選択図】図１

Description

本発明の実施は、データマイニング(data mining)に関する。

今日のハイテク企業は、一般に、消費者とパートナーが技術投資から最大の価値を確実に享受するようになにがしかの製品サポートを実施している。例えば、顧客とパートナーの要件を満たすために、さまざまな消費者およびビジネスサポート提供物、および戦略的ＩＴコンサルティングサービスが提供される。サポート提供物は、電話、現場、Ｗｅｂベースのサポートなどが考えられる。残念なことに、製品サポートサービスは、財務コストだけでなく、解決策を見つけるために必要な時間の点でも、非常にコスト高になる可能性がある。例えば、現場コンサルティングサービスは、一般に高額であり、あまりに高額であるため、企業以外の消費者には個々の製品コンサルタントまたはトラブルシュータを雇う金銭的余裕はない。

さらに、例えば、製品の「ｈｏｗ−ｔｏ」（ヘルプ）およびトラブルシューティングアーティクル(troubleshooting article)を含む知識ベース(knowledge base)のオンライン検索(online search)を介してサービスが自動化されている場合、消費者が適切なアーティクル群を見つけるまでにひどく長い時間がかかる可能性がある。このような状況になる理由の１つは、知識ベースの製品トラブルシューティングアーティクルは専門のライタ、ベンダなどにより作成されるのがふつうであり、サポートが求められる製品を毎日使っているユーザが作成しているのではないからである。このようなシナリオでは、ユーザが知識ベース（ＫＢ）コンテンツプロデューサ(content producer(s))によって採用されているターム(term)を使用して検索クエリ(search query)を形成しない場合、ユーザが適切な知識ベーストラブルシューティング情報を特定するのは非常に困難であり、時間もかかる可能性がある。

エンハンストドキュメント取り出し(enhanced document retrieval)のために、コンピュータによって実施されるコンテンツ伝播(computer-implemented content propagation)を実現するシステムおよび方法について説明する。

本発明の一態様では、１つまたは複数のドキュメントを対象とする参照情報(reference information)が識別される。参照情報は、１つまたは複数のドキュメントを含むデータソースとは無関係のデータの１つまたは複数のソースから識別される。データの１つまたは複数のソースから、参照情報に近い位置にあるメタデータが抽出される。１つまたは複数のドキュメントのうちの関連する複数のドキュメントのコンテンツに対するメタデータのそれぞれの特徴間の関連性が計算される。１つまたは複数のドキュメントのうちのそれぞれのドキュメントについて、メタデータの関連する部分(associated portion)に対し、それぞれの部分からドキュメントのオリジナルコンテンツ(original content)の中への特徴の関連性(relevance of features)を使用してインデックスが作成される。このインデックス作成機能(indexing)は、１つまたは複数のエンハンストドキュメント(enhanced document)を生成する。

後に説明するそれぞれの図において、コンポーネント参照番号の一番左の数字は、そのコンポーネントが最初に出現する特定の図を示す。

概要
ＫＢアーティクルは、「ｈｏｗ−ｔｏ」（ヘルプ）アーティクルを見つける顧客を手助けし、製品問題を解決し（トラブルシューティング）、および／または他の何らかの手段により製品を調査することを目的として作成される。調べたところ、エンドユーザが顧客の質問に直接関係する的確なＫＢアーティクルを検索し、取得するのが容易であるほど、製品および関連するサポートインフラに対する顧客の満足度は高いことが判明した。したがって、以下の説明されているシステムおよび方法は、さまざまなデータソースにまたがって格納されている情報を分析してＫＢアーティクル関連情報（ＫＢＡＲＩ：KB article related information）を見つけることにより、コンテンツ伝播およびエンハンストドキュメント取り出しを実現する。このようなデータソースは、例えば、サービス要求ストレージリポジトリ、オンライン製品および開発者サポートグループニュースグループポスティング、検索クエリクリックスルーログ、および／またはそれらに類似のものを含む。

ＫＢＡＲＩは、例えば、実質的に一意のＰＳドキュメント（例えば、ＫＢアーティクル）ＩＤ、特定の（複数の）ＰＳアーティクルへのハイパーテキストリンク、特定の（複数の）ＰＳアーティクルへの（複数の）ＵＲＩ(Universal Resource Identifier)、ドキュメントのタイトルなどを含む。製品開発者サポートニュースグループからの（複数の）製品サービス要求および／またはポスティングの中からＫＢＡＲＩが見つかった場合、ＫＢＡＲＩに近いテキストは、ＫＢＡＲＩにより参照される（複数の）ＰＳ／トラブルシューティングアーティクルに意味上および／または文脈上価値ある情報を含むことがあり得る。さらに、そのようなテキストは、現実の問題解決シナリオにおいて（複数の）エンドユーザおよび／または製品サポートサービス（ＰＳＳ）エンジニアにより−もっぱら製品のドキュメントを作成する仕事を請け負った専門ライタまたはベンダによってではなく−生成される可能性が高かった。

例えば、（複数の）サービス要求のＰＳＳログ内のサービス要求（ＳＲ）は、エンドユーザによりＰＳＳエンジニアに最初に提出された情報を含むアーカイブされたドキュメント（例えば、１つまたは複数の関連電子メール）である。つまり、ＳＲは、トラブルシューティングシナリオなどの製品関係の質問をＰＳＳエンジニアに振り向ける機能を持つ。ＰＳＳエンジニアは、一般的に、ＳＲに応答する。ＳＲが締めきられる前に、ＰＳＳエンジニアは、ＳＲ要約を生成して、製品、取り扱われる問題、問題の兆候（例えば、アクションと結果）、原因、および／または解決などの情報の何らかの組合せをはっきりと識別する。その結果、ＳＲは、現実の問題解決シナリオにおいて（複数の）エンドユーザおよび（複数の）ＰＳＳエンジニアにより生成されたＫＢアーティクル１０６および／または製品関係情報への実質的に価値ある参照を含む可能性があるデータを含む。

ニュースグループのポスティングに関して、事業体および企業は、通常、製品および／または開発者関係ニュースグループをホスティングし、エンドユーザに対して製品開発およびトラブルシューティング問題についてオンラインで話し合うための機会を提供する。例えば、エンドユーザは、特定の製品で問題が生じた場合、それに対応するアーティクルを、問題および要求支援を明確にうちだしているサーバにポスティングすることができる。このようなシナリオでは、その製品に関連するパワーユーザおよび／またはサービス専門家を含むニュースグループの読者は、その要求に対する回答をポスティングすることができる。サービス要求の場合と同様、ニュースグループポスティングは、１つまたは複数のＫＢアーティクルに直接または文脈上関係するコンテンツ（例えば、リンク、参照など）を含むことができる。あるポスティングがあるＫＢアーティクルを参照している場合、そのポスティングはそのＫＢアーティクルに対する有用と思われるメタデータを提供する。

（複数の）クエリログ(query log)に関して、エンドユーザは、例えば、Ｗｅｂサイトを介して検索クエリを（複数の）検索エンジンにサブミットし、（複数の）特定の製品に関連する（複数の）ＫＢアーティクルを探索する、製品挙動をトラブルシューティングするといった作業を行うことが多い。検索エンジンおよび／またはＫＢデータベースをホスティングするサーバなどのサーバは、エンドユーザのクエリとともに、その後のエンドユーザの（複数の）クリックスルーアクションをも記録する。クエリがＫＢアーティクルに関連付けられていることが非常に頻繁である場合、このクエリはそのＫＢアーティクルに対するよいメタデータである可能性が最も高い。

複数のデータソースからのこのような意味上および／または文脈上関係する情報を利用するために、これらのシステムおよび方法では、特定されたＫＢＡＲＩの近くにある（例えば、その周囲の）テキストを抽出する。関連付けられている（複数の）ＰＳアーティクルに関して（複数の）特徴（キーワード）重要度重み付け値を生成するために、抽出されたテキストが分析される。（抽出されたテキストは、そのテキストが近い位置にあるＫＢＡＲＩにより示されるように（複数の）ＰＳアーティクルに関連付けられている）。抽出されたテキスト（これ以降、「メタデータ」と呼ばれることが多い）および対応する（複数の）特徴重要度重み付け値は、関連する（複数の）ＰＳアーティクルのオリジナルコンテンツを使用してインデックスが作成され、それにより新しいまたはエンハンスト（複数の）ＰＳアーティクルを生成する。この実装では、オリジナルＰＳアーティクルとエンハンストＰＳアーティクルとの間に一対一の対応関係がある。例えば、エンハンストＰＳアーティクル毎に、対応する機能強化されていないまたはオリジナルＰＳアーティクルがある。他の実施形態では、そのような一対一の対応関係がなく、オリジナルＰＳアーティクル(original PS article)は、エンハンストＰＳアーティクル(enhanced PS article)で置き換えられる。

エンドユーザから検索クエリを受け取ったことに対する応答として、エンハンストドキュメント取り出しのためのコンテンツ伝播を実現するこれらのシステムおよび方法では、検索クエリの（複数の）タームを含む（複数の）ＰＳアーティクル（オリジナルおよび／またはエンハンスト）を取り出す。その後、取り出されたオリジナルおよび／またはエンハンストＰＳアーティクルの関連性が、クエリタームの近接度および人気度基準に照らして判定される。次に、検索結果が、それらの関連性スコアに照らしてランキングされる。エンドユーザに対して返されたドキュメントの関連性をはっきりと示すために検索結果からスニペット記述(Snippet descriptions)が生成される。ランク付けされた結果は、スニペット記述とともに、エンドユーザに伝達される。

一実施形態では、さらに、エンハンストドキュメント取り出しのためのコンテンツ伝播を実現するシステムおよび方法により、自動的にＰＳアーティクルを生成できるように新しいＰＳコンテンツを容易に識別することができる。次に、エンハンストドキュメント取り出しのためのコンテンツ伝播を実現するシステムおよび方法のこれらの態様およびその他の態様について、詳細に説明する。

例示的システム
図面を参照すると、類似の参照番号は類似の要素を参照しているが、システムおよび方法については、好適なコンピューティング環境内で実施されているものとして説明し、図に示してある。必要とされていないが、パーソナルコンピュータによって実行される、プログラムモジュールなどのコンピュータ実行可能命令の一般的文脈においてこれらのシステムおよび方法も説明している。一般に、プログラムモジュールは、特定のタスクを実行する、または特定の抽象データ型を実施形態するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。これらのシステムおよび方法は前記の文脈において説明しているが、これ以降説明される活動およびオペレーションは、ハードウェアで実施することもできる。

図１は、エンハンストドキュメント取り出しのためのコンテンツ伝播を実現するシステム例１００を示している。この実施形態では、システム１００は、ネットワーク１０４を介して（複数の）ＫＢアーティクル１０６（データベース）データソース１０８〜１１４に結合されている（複数の）ＫＢホスティングサーバ（１０２）およびクライアントコンピューティングデバイス１１６を備える。ネットワーク１０４は、事務所、企業規模のコンピュータネットワーク、イントラネット、およびインターネットでは一般的であるネットワークなどの、ローカルエリアネットワーク（ＬＡＮ）および一般的なワイドエリアネットワーク（ＷＡＮ）通信環境の任意の組合せを含むことができる。ＫＢホスティングサーバ１０２は、データソース１０８〜１１４に分散して格納されている情報をマイニングし、この情報をオリジナルＫＢアーティクル１１８に追加して、新しいまたはエンハンストＫＢアーティクル１２０を生成する。この実施形態では、データソース１０８〜１１４は、例えば、（複数の）サービス要求１０８、（複数の）ニュースグループポスティング１１０、（複数の）クエリログ１１２、および／またはその他の（複数の）データソース１１４を含む。ＫＢホスティングサーバ１０２は、クライアントコンピューティングデバイス１１６のエンドユーザからＫＢ関係検索クエリ１２２を受け取ったことに対する応答として、検索クエリ１２２の（複数の）タームを含む（複数の）オリジナルＫＢアーティクル１１８および／または（複数の）エンハンストＫＢアーティクル１２０を取り出す。クライアントコンピューティングデバイス１１６は、パーソナルコンピュータ、ラップトップ、サーバ、モバイルコンピューティングデバイス（例えば、携帯電話、携帯情報端末、またはハンドヘルドコンピュータ）などの任意の種類のコンピューティングデバイスである。

複数のデータソースからのＰＳドキュメントリンク、ＩＤなどのマイニング
より具体的には、（複数の）ＫＢホスティングサーバ１０２のメタデータ抽出１２４では、データソース１０８〜１１４に分散して格納されている情報をマイニングして、複数のＫＢアーティクル１０６のうちのそれぞれのアーティクルに関係する情報を識別する。説明および例示するために、この識別された情報は、ＫＢ関係情報（ＫＢＡＲＩ）１２６と呼ばれる。ＫＢＡＲＩ１２６は、例えば、実質的に一意のＫＢアーティクルＩＤ（例えば、ＧＵＩＤ）、特定の（複数の）ＫＢアーティクルへのハイパーテキストリンク、特定の（複数の）ＫＢアーティクルへの（複数の）ＵＲＩ(Universal Resource Identifier)などを含む。メタデータ抽出１２４で製品開発者サポートニュースグループからのＰＳＳおよび／またはニュースグループポスティング１１０から（複数の）サービス要求１０８内にＫＢＡＲＩ１２６を見つけた場合、ＫＢＡＲＩ１２６に近いテキストは、ＫＢＡＲＩ１２６により参照される（複数の）オリジナルＫＢアーティクル１１８に意味上および／または文脈上価値ある情報を含む可能性が非常に高い。例えば、そのようなテキストは、アーティクルタイトル、アーティクルキーワード、製品問題説明、および解決データなどを含むことができる。さらに、そのようなテキストは、現実の問題解決シナリオにおいて（複数の）エンドユーザおよび／またはＰＳＳエンジニアにより−もっぱら製品のドキュメントを作成する仕事を請け負った専門ライタまたはベンダによってではなく−生成される可能性が高かった。

特徴抽出および重要度重み付け
（複数の）データソース１０８〜１１４からの意味上および／または文脈上関係するＫＢアーティクル情報を利用するために、メタデータ抽出１２４が、特定されたＫＢＡＲＩ１２６の近くにある（例えば、その周囲の）テキストを抽出する。説明のため、このような抽出されたテキストは、メタデータ１２８として示されている。検索クエリ１２２のタームに実質的に最も関連する（複数の）ＫＢアーティクル１０６をエンドユーザに提供するため、メタデータ抽出１２４ではメタデータ１２８を分析して、（複数の）ＫＢアーティクル１０６のうちの関連するアーティクルに関して（複数の）特徴重要度（関連性）重み付け値を生成する。（抽出されたメタデータ１２８は、対応するＫＢＡＲＩ１２６により示されているように（複数の）ＫＢアーティクル１０６に関連付けられる）。

より具体的には、メタデータ抽出１２４では、全文検索手法を使用して、異なる関連度重みをメタデータ１２８の特徴に関連付ける。この実施形態では、サービス要求１０８に関して、他のサービス要求情報、例えば、問題解決に割り当てられた重みと比較して、より大きな重みがタイトルおよび兆候に割り当てられる。これは、ユーザが、問題解決情報ではなく、問題兆候で検索クエリを定式化する可能性が高いためである。特徴重み付けは、さらに、特定のＫＢアーティクル参照（つまり、ＫＢＡＲＩ１２６のそれぞれの情報断片）が、参照経過時間に応じて、その文脈内で識別される回数を反映することもできる。このような特徴重み付けは、さらに、（複数の）ニュースグループポスティング１１０にも適用される。

（複数の）クエリログ１１２から抽出されたメタデータ１２８に関して、メタデータ抽出１２４は、特徴分析および重み付けを実行するが、そのために、まず、（ａ）ＫＢアーティクル１０６を検索するためエンドユーザにより頻繁に生成される検索クエリ、（ｂ）その後選択されるＫＢアーティクル１０６、および／または（ｃ）選択されたアーティクルに関係する他のＫＢアーティクル１０６などの情報の何らかの組合せを明確にする。その後、メタデータ抽出１２４では、類似のクエリ（クエリクラスタ）のクラスタおよび関係するＫＢアーティクル１０６のクラスタ（つまり、アーティクルクラスタ）を生成することにより（ａ）、（ｂ）、および／または（ｃ）に関連付けられた疎なクリックスルーデータを処理する。疎なクリックスルーデータは、通常、ユーザが検索エンジンから返された少数のドキュメント（例えば、その１つまたは複数）を選択（つまり、クリックスルー）した場合に得られる。説明のため、（複数の）クエリクラスタおよび（複数の）アーティクルクラスタも、「他のデータ」１３０のそれぞれの（複数の）部分として表される。類似のクエリおよび関係するＫＢアーティクルに対するクラスタを定式化するためのクラスタリング手法の一実施例は、付録Ａの「異種オブジェクトのクラスタリングの実施例」として詳述してある。

メタデータ１２８の重み付き特徴を持続し、管理するために、メタデータ抽出および分析モジュール１２４は、関連するオリジナル（複数の）ＫＢアーティクル１１８のオリジナルコンテンツを使用してメタデータ１２８および対応する（複数の）特徴重要度重み付け値のインデックスを作成し、新しいまたはエンハンスト（複数の）ＫＢアーティクル１２０を生成する。（メタデータ１２８は、１つまたは複数のそれぞれのＫＢアーティクル１０６に対して相補的な関係にあると判別された１つまたは複数のデータソース１０８〜１１４からマイニングされたデータを含むことに留意されたい）。この実施形態では、メタデータ１２８の重み付き特徴のタグ付けが行われ、これによりインデックスのコンテンツを参照し、取り出すためにＸＭＬなどのマークアップ言語が使用されるようにできる。一実施形態では、メタデータ１２８は、エンハンストＫＢアーティクル１２０内に逆インデックスとしてインデックス作成される。この実施形態では、エンハンストＫＢアーティクル１２０とオリジナルＫＢアーティクル１１８との間に一対一の対応関係がある。例えば、エンハンストＫＢアーティクル１２０毎に、対応する機能強化されていないまたはオリジナルＫＢアーティクル１１８がある。この一対一対応関係は、オリジナルＫＢアーティクル１１８の少なくともサブセットが対応するエンハンストＫＢアーティクル１２０を持つことを意味する。他の実施形態では、このような一対一対応関係はない。例えば、オリジナルＫＢアーティクル１１８は、エンハンストＫＢアーティクル１２０で置き換えられるようにできる。

エンハンストＫＢアーティクル(enhanced KB article)の取り出し(retrieval)
検索プロバイダ１３２は、クライアントコンピューティングデバイス１１６のエンドユーザからＫＢ関係検索クエリ１２２を受け取る。検索クエリ１２２の（複数の）タームが、製品調査またはトラブルシューティングの質問に関連している。一実施形態では、検索クエリ１２２は、拡張マークアップ言語（ＸＭＬ）で指定された情報を含む。エンドユーザは、多数の考えられるさまざまなアプリケーション１３４のどれかを使用して、ネットワーク１０４を介して検索クエリ１２２を（複数の）ＫＢホスティングサーバ１０２に送信する。例えば、（複数の）アプリケーション１３４としては、Ｗｅｂブラウザ、ワードプロセッサ、電子メール、および／またはその他の種類の（複数の）コンピュータプログラムアプリケーションなどがある。

この実施形態では、検索プロバイダ１３２は、ＫＢホスティングサーバ１０２および検索エンジン機能に対するリモートアプリケーションのエントリポイントを備える。このエントリポイントにより、ＫＢサーバ１０２と（複数の）アプリケーション１３４の可能なさまざまなアーキテクチャの実施形態との間の通信が可能になる。例えば、一実施形態では、エントリポイントは、Ｗｅｂブラウザとして実施形態されているアプリケーション１３４から伝達されたハイパーテキスト転送プロトコル（ＨＴＴＰ）コマンドをサポートする。他の実施形態では、エントリポイントは、ＳＯＡＰ(Simple Object Access Protocol)などのＸＭＬベースのメッセージングプロトコルをサポートする。他のエントリポイント実施形態も、（複数の）アプリケーション１３４と検索プロバイダ１３２との間で望まれる特定の種類の通信サポートに応じて可能である。

検索クエリ１２２を受け取ったことに対する応答として、検索プロバイダ１３２は、「他のデータ」１３０のそれぞれの部分として示されている、スキーマに照らして検索クエリ１２２のデータ形式を解析して強制する。一実施形態では、スキーマは、例えば、クライアントコンピューティングデバイス１１６により、ＫＢホスティングサーバ１０２にアップロードされる。次に、検索プロバイダ１３２は、全文検索をＫＢアーティクル１０６に対し実行し、関係する／関連するオリジナル（複数の）ＫＢアーティクル１１８および／またはエンハンスト（複数の）ＫＢアーティクル１２０を識別して取り出す。例示し、説明するために、そのようにして取り出されたドキュメントは、「他のデータ」１３０のそれぞれの部分として示してある。

取り出されたドキュメントの関連性およびランキングオペレーション
その後、取り出されたドキュメントの関連性が、クエリタームの近接度および人気度基準に照らして判定される。タームの近接度に関して、ＫＢアーティクル１０６を検索する検索クエリ１２２の長さは、他の種類のクエリ（例えば、一般的なＷｅｂ検索についてモデル化されているクエリ）より長くてもよい。これは、製品トラブルシューティングおよび／または調査質問事項を説明するためにより多くの単語／タームが一般的に使用されるからである。この点に照らして、より多くのタームを含む可能性のあるクエリ内でできる限り多くのクエリ条件断片をカバーするＫＢアーティクル１０６を見つけるために、検索プロバイダ１３２では、タームの近接度を使用して、検索クエリ１２２内のタームに重みを付ける。近接度の値は、以下のように、曲線により重み付け係数に変換され、全文取り出しモジュールにより類似度の値が出力される。

ここで、α、βは、検索クエリ１２２の各部の相対的重みを制御するように構成されているパラメータである。Ｈｉｔパラメータは、検索クエリ１２２のすべてのタームに対する、ドキュメント内の検索クエリ１２２のタームの割合を表す。ＥｄｉｔＤｉｓｔａｎｃｅパラメータは、クエリとドキュメントの間の「順序誤り」の尺度である。用語「順序誤り」に関して、例えば、クエリがキーワード「ｉｎｆｏｒｍａｔｉｏｎｒｅｔｒｉｅｖａｌａｎｄｄａｔａｍｉｎｉｎｇ」を含み、ドキュメントは「ｒｅｔｒｉｅｖａｌｉｎｆｏｒｍａｔｉｏｎａｎｄｍｉｎｉｎｇｆｒｏｍｄａｔａ」である場合について考察する。この例のキーワード「ｉｎｆｏｒｍａｔｉｏｎ」および「ｒｅｔｒｉｅｖａｌ」、「ｄａｔａ」および「ｍｉｎｉｎｇ」は順序誤りである。これに対処するため、クエリと対応するドキュメントとの間の類似性を計算する際に順序誤りのあるキーワードに対しペナルティを設ける。説明のため、用語の近接度と類似度の値は、「他のデータ」１３０で「関連性スコア」として示されている。

検索プロバイダ１３２は、クエリタームの近接度ベースの関連性スコアに照らして、また識別された（複数の）ドキュメントの人気度に照らして、取り出されたドキュメントのランキングを行う。一実施形態では、これは、識別されたＫＢアーティクル１０６の経過期間を判別し、最近のアーティクル１０６ほど大きな重みを割り当て、古いＫＢアーティクル１０６より「人気が高い」ものとすることにより達成される。他の実施形態では、ＫＢアーティクル１０６の人気度は判別することが実質的に困難であり、識別された（複数の）ＫＢアーティクル１０６の人気度は、（複数の）アーティクルが（複数の）サービス要求１０８および／または（複数の）ニュースグループポスティング１１０にまたがって参照される回数に応じて判別される。アーティクルが参照される回数が多いほど、同じ回数だけ参照されていないアーティクルに比べて、アーティクルの人気度は高く、高い順位が付けられる。（複数の）ニュースグループポスティング１１０に関して、ＫＢアーティクル１０６の人気度は、アーティクル参照の頻度および／またはニュースグループ内のニュースグループポスティング者優勢度の何らかの判定−特定のユーザによりポスティングされたアーティクルが多いほど、そのユーザの優勢度は高い−により決まる。

比較的新しいＫＢアーティクル１０６は、参照頻度が小さいことから、相対的人気度が小さいことを示すであろう。しかし、新しいアーティクルは、エンドユーザにとっては大きな意味を持つ場合がある。したがって、一実施形態では、検索プロバイダ１３２では、参照頻度および経過期間の係数を組み合わせ、以下式で、異なる経過期間を持つＫＢアーティクルの人気度を正規化する。

Ｉ_ｒｅｆは、参照頻度からの重要度を表す（参照頻度が高いほど、その結果得られる重要度値は高い）。Ｉ_ａｇｅは、リリースされた時間（アーティクルの経過期間）からの重要度を表す。パラメータαおよびβは、参照頻度からの重要度とリリースされた時間からの重要度との間の相対的重み付けを表し、以前の知識により指定され、および／または学習データから学習されることが可能である。ＫＢアーティクル１０６が新しいほど、計算されたアーティクルの重要度が高くなる。

検索クエリ１２２の（複数の）タームによる（複数の）ＫＢアーティクル１０６の検索の結果は、ランキングされるか、または計算された重要度値に応じた関連性があるとみなされ、それぞれの値は「他のデータ」１３０のそれぞれの（複数の）部分とともに表される。

検索結果スニペット生成／強調
一実施形態では、エンドユーザに提示されるクエリ関係情報を実質的に最大化するために、検索プロバイダ１３２は、最上位の取り出されたドキュメントのうちの１つまたは複数に対するスニペット記述を生成し、エンドユーザに対して取り出されたドキュメントの関連性をはっきりと示す（つまり、識別された資料（（複数の）アーティクル）が検索クエリ１２２の（複数の）タームにどのように関係しているかをエンドユーザに対し明確に示す）。例示のため、（複数の）スニペット記述は、「他のデータ」１３０のそれぞれの（複数の）部分とともに表される。スニペット記述を生成するために、検索プロバイダ１３２は、そのスニペット記述について検索クエリ１２２に関連すると判定された取り出されたＫＢアーティクル１０６から１つまたは複数のブロックを特定し、その後、その１つまたは複数のブロック内の検索クエリ１２２のタームを強調する。検索プロバイダ１３２は、取り出されたドキュメントの一部に適用される構成可能サイズのスライディングウィンドウを持つ１つまたは複数のブロックを識別する。一実施形態では、スライディングウィンドウのサイズは、クライアントコンピューティングデバイス１１６上のスニペット記述表示に利用可能なＵＩ空間に応じて決まる。

スライディングウィンドウを取り出されたＫＢアーティクル１０６の一部に適用する毎に、検索プロバイダ１３２は、スライディングウィンドウにより線引きされたテキストにより伝えられるクエリ関係情報の量を測定する。この測定尺度は、「他のデータ」１３０のそれぞれの部分で表される。この尺度は、単語頻度、エンハンストクエリタームに対する単語近接度、単語位置などの定量的基準に基づく値を含む。検索プロバイダ１３２は、トレインド(trained)クラシファイア(classifier)モデル（「他のデータ」１３０を参照）を使用して、それらの異なる基準を組み合わせ、スニペット記述の最も情報量のあるブロックを取得する。このようにして、スニペット記述は、エンドユーザに対して、識別されたＫＢアーティクル１０６の関連性を明確に示す。

トレインドクラシファイアモデルは、統計学における古典的学習法である線形回帰により学習される。線形回帰では、ベクトルｘと値ｙとの関係を、データの直線当てはめにより説明しようとする。線形回帰モデルは以下を仮定する。

ここで、「残差」ｅは、平均値０のランダム変数である。係数ｂ_ｊは、平方残差の和が可能な限り小さいという条件により決定される。変数ｘ_ｊは、入力、つまり入力の対数または多項式などのいくつかの変換から直接得られる。

検索プロバイダ１３２は、対応するスニペット記述とともに最上位の取り出された（複数の）ドキュメントの少なくともサブセットをクエリ応答１３６内にカプセル化する。検索プロバイダ１３２は、クエリ応答１３６をクライアントコンピューティングデバイス１１６に伝達し、エンドユーザはこれを提示し使用することで、製品調査および／またはトラブルシューティング質問を解決する。

例示的手順
図２は、ドキュメント取り出しを機能強化するためのコンテンツ伝播を行う手順例２００を示す。説明を目的とするため、この手順のオペレーションは図１のコンポーネントに関して説明する。（すべての参照番号は、そのコンポーネントが最初に導入される図面の番号から始まる）。ブロック２０２で、メタデータ抽出１２４（図１）は、データソース１０８〜１１４のうちの複数のそれぞれのデータソースからの特定のＫＢアーティクル１０６に関連する情報−知識ベースアーティクル関連情報（ＫＢＡＲＩ１２６）−を識別する。ブロック２０４において、メタデータ抽出１２４は、ブロック２０２の識別された情報に近い特徴を抽出する。ブロック２０６において、メタデータ抽出１２４は、抽出された特徴（メタデータ１２８）を分析し、関連する知識ベースアーティクル１０６うちの対応するアーティクルに関して関連性重要尺度を生成する。ブロック２０８において、メタデータ抽出１２４は、複数の知識ベースアーティクル１０６のうちの関連する個々のアーティクルの中へ、対応する関連性スコアとともに抽出された特徴のインデックスを作成する。これで、新しいまたはエンハンスト知識ベースアーティクル１２０を生成する。

ブロック２１０において、検索プロバイダ１３２は、検索クエリ１２２を受け取ったことに対する応答として、検索クエリ１２２の（複数の）タームを含むオリジナルＫＢアーティクル１１８および／またはエンハンストＫＢアーティクル１２０を取り出す。ブロック２１２において、検索プロバイダ１３２は、取り出されたドキュメント／アーティクルを、それらのドキュメント／アーティクルのそれぞれに対する検索クエリ１２２の（複数の）タームの関連性スコアに基づいてランク付けする。ブロック２１４において、検索プロバイダ１３２は、取り出された知識ベースアーティクル１０６のスニペット記述を生成する。ブロック２１６で、検索プロバイダ１３２は、ランク付けされた結果およびスニペット記述をエンドユーザに伝達する。

動作環境例
図３は、エンハンストドキュメント取り出しのデータソースのコンテンツ伝播を実現する図１のシステム１００および図２の方法を完全にまたは部分的に実施することができる好適なコンピューティング環境３００の一実施例を示している。図３は、エンハンストドキュメント取り出しのデータソースのコンテンツ伝播を実現する説明されているシステム、装置、および方法を（完全にまたは部分的に）実施することができる好適なコンピューティング環境３００の実施例を示している。コンピューティング環境３００の実施例は、好適なコンピューティング環境の一例にすぎず、本明細書で説明されているシステムおよび方法の使用または機能の範囲に関する制限を示唆する意図はない。コンピューティング環境３００は、コンピューティング環境３００に例示されている複数のコンポーネントの１つまたはその組合せに関係する何らかの依存関係または要件を持つものと解釈すべきでない。

本明細書に説明されている方法およびシステムは、他の数多くの汎用または専用コンピューティングシステム環境または構成で動作する。使用するのに適していると思われるよく知られているコンピューティングシステム、環境、および／または構成の例として、これに限定されないが、パーソナルコンピュータ、サーバコンピュータ、マルチプロセッサシステム、マイクロプロセッサベースのシステム、ネットワークＰＣ、ミニコンピュータ、メインフレームコンピュータ、上記システムまたはデバイスを含む分散コンピューティング環境などがある。コンパクトまたはサブセット版のフレームワークも、ハンドヘルドコンピュータ、またはその他のコンピューティングデバイスなどの、資源が限られているクライアントに実施形態されうる。本発明は、通信ネットワークを通じてリンクされているリモート処理デバイスによりタスクが実行される分散コンピューティング環境で実施される。分散コンピューティング環境では、プログラムモジュールは、ローカルおよびリモートの両方のメモリ記憶デバイス内に配置され得る。

図３を参照すると、エンハンストドキュメント取り出しのコンテンツ伝播を実現するシステム実施例は、コンピュータ３１０の形態の汎用コンピューティングデバイスを備える。コンピュータ３１０の以下の説明されている態様は、クライアントコンピューティングデバイス１１６（図１）および／またはＫＢホスティングサーバ１０２（図１）の実施例である。コンピュータ３１０が備えるコンポーネントとしては、これに限定されないが、処理ユニット３２０、システムメモリ３３０、およびシステムメモリを含むさまざまなシステムコンポーネントを処理ユニット３２０に結合するシステムバス３２１などがある。システムバス３２１は、メモリバスまたはメモリコントローラ、周辺機器バス、およびさまざまなバスアーキテクチャを使用するローカルバスを含む数種類のバス構造のうちのいずれでもよい。例えば、限定的ではないが、このようなアーキテクチャとしては、ＩＳＡ(Industry Standard Architecture)バス、ＭＣＡ(Micro Channel Architecture)バス、ＥＩＳＡ(Enhanced ISA)バス、ＶＥＳＡ(Video Electronics Standards Association)ローカルバス、およびメザニンバスとも呼ばれるＰＣＩ(Peripheral Component Interconnect)バスがある。

コンピュータ３１０は通常、さまざまなコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ３１０によってアクセスされることができる媒体であればどのような媒体でも使用可能であり、揮発性および不揮発性媒体、取り外し可能および取り外し不能媒体を含む。例えば、限定的ではないが、コンピュータ可読媒体は、コンピュータ記憶媒体および通信媒体を含むことができる。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造体、プログラムモジュール、またはその他のデータなどの情報を格納する方法または技術で実施される揮発性および不揮発性、取り外し可能および取り外し不能媒体を含む。コンピュータ記憶媒体としては、これに限定されないが、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリまたはその他のメモリ技術、ＣＤ−ＲＯＭ、デジタル多目的ディスク（ＤＶＤ）またはその他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置またはその他の磁気記憶デバイス、または所望の情報を格納するために使用することができ、しかもコンピュータ３１０によりアクセスできるその他の媒体がある。

通信媒体は、通常、コンピュータ可読命令、データ構造体、プログラムモジュール、または搬送波もしくはその他の移送メカニズムなどの変調データ信号によるその他のデータを具現するものであり、任意の情報配信媒体を含む。「変調されたデータ信号」という用語は、信号に情報を符号化するようにその特性の１つまたは複数が設定または変更された信号を意味する。例えば、限定的ではないが通信媒体としては、有線ネットワークまたは直接配線接続などの有線媒体、ならびに、音響、ＲＦ、赤外線、およびその他の無線媒体などの無線媒体がある。上記のいずれの組合せもコンピュータ可読媒体の範囲に収まらなければならない。

システムメモリ３３０は、読み取り専用メモリ（ＲＯＭ）３３１およびランダムアクセスメモリ（ＲＡＭ）３３２などの揮発性および／または不揮発性メモリの形態のコンピュータ記憶媒体を備える。起動時などにコンピュータ３１０内の要素間の情報伝送を助ける基本ルーチンを含む基本入出力システム３３３（ＢＩＯＳ）は、通常、ＲＯＭ３３１に格納される。通常、ＲＡＭ３３２は、処理ユニット３２０に直接アクセス可能な、および／または処理ユニット３２０によって現在操作されているデータおよび／またはプログラムモジュールを格納する。例えば、限定的ではないが図３は、オペレーティングシステム３３４、アプリケーションプログラム３３５、その他のプログラムモジュール３３６、およびプログラムデータ３３７を例示している。一実施例では、組合せで図１を参照すると、コンピュータ３１０はＫＢホスティングサーバ１０２である。このシナリオでは、アプリケーションプログラム３３５は、図１のプログラムモジュール１３８を含み、プログラムデータ３３７は、図１のＫＢアーティクル関連情報（ＫＢＡＲＩ）１２６、メタデータ１２８、および／または「他のデータ」１３０を含む。

コンピュータ３１０はさらに、その他の取り外し可能／取り外し不能な揮発性／不揮発性コンピュータ記憶媒体を備えることもできる。例のためだけとして、図３は、取り外し不能な不揮発性磁気媒体の読み出しまたは書き込みを行うハードディスクドライブ３４１、取り外し可能な不揮発性磁気ディスク３５２の読み出しまたは書き込みを行う磁気ディスクドライブ３５１、およびＣＤＲＯＭまたはその他の光媒体などの取り外し可能な不揮発性光ディスク３５６の読み出しまたは書き込みを行う光ディスクドライブ３５５を例示している。動作環境の実施例で使用できる他の取り外し可能／取り外し不能な揮発性／不揮発性コンピュータ記憶媒体としては、これに限定されないが、磁気テープカセット、フラッシュメモリカード、デジタル多目的ディスク、デジタルビデオテープ、ソリッドステートＲＡＭ、ソリッドステートＲＯＭなどがある。ハードディスクドライブ３４１は、通常、インターフェース３４０などの取り外し不能なメモリインターフェースを介してシステムバス３２１に接続され、磁気ディスクドライブ３５１および光ディスクドライブ３５５は、通常、インターフェース３５０などの取り外し可能なメモリインターフェースによりシステムバス３２１に接続される。

図３に例示されている上記のドライブおよび関連コンピュータ記憶媒体は、コンピュータ３１０用のコンピュータ可読命令、データ構造体、プログラムモジュール、およびその他のデータを格納する機能を備える。例えば、図３では、ハードディスクドライブ３４１は、オペレーティングシステム３４４、アプリケーションプログラム３４５、その他のプログラムモジュール３４６、およびプログラムデータ３４７を格納するものとして例示されている。これらのコンポーネントは、オペレーティングシステム３３４、アプリケーションプログラム３３５、その他のプログラムモジュール３３６、およびプログラムデータ３３７と同じである場合もあれば異なる場合もあることに留意されたい。オペレーティングシステム３４４、アプリケーションプログラム３４５、その他のプログラムモジュール３４６、およびプログラムデータ３４７については、ここでは異なる番号を割り当てて、少なくともそれが異なるコピーであることを示している。

ユーザは、キーボード３６２、およびマウス、トラックボール、またはタッチパッドと一般に呼ばれるポインティングデバイス３６１などの入力デバイスを介してコンピュータ３１０にコマンドおよび情報を入力できる。他の入力デバイス（図に示されていない）としては、マイク、ジョイスティック、ゲームパッド、衛星パラボラアンテナ、スキャナなどがある。これらの入力デバイスやその他の入力デバイスは、システムバス３２１に結合されているユーザ入力インターフェース３６０を介して処理ユニット３２０に接続されることが多いが、パラレルポート、ゲームポート、またはユニバーサルシリアルバス（ＵＳＢ）などの他のインターフェースおよびバス構造により接続されることも可能である。

モニタ３９１またはその他の種類の表示デバイスも、ビデオインターフェース３９０などのインターフェースを介してシステムバス３２１に接続される。モニタのほかに、コンピュータはさらにスピーカ３９７およびプリンタ３９６などの他の周辺出力デバイスも備えることができ、これらは出力周辺インターフェース３９５を介して接続することができる。

コンピュータ３１０は、リモートコンピュータ３８０などの１つまたは複数のリモートコンピュータへの論理接続を使用してネットワーク接続環境で動作する。リモートコンピュータ３８０は、パーソナルコンピュータ、サーバ、ルータ、ネットワークＰＣ、ピアデバイス、またはその他の共通ネットワークノードでもよく、通常は、コンピュータ３１０に関係する上述の要素の多くまたはすべてを含むが、メモリ記憶デバイス３８１だけが図３に例示されている。図３に示されている論理接続は、ローカルエリアネットワーク（ＬＡＮ）３７１およびワイドエリアネットワーク（ＷＡＮ）３７３を含むが、他のネットワークを含むこともできる。このようなネットワーキング環境は、オフィス、企業全体にわたるコンピュータネットワーク、イントラネット、およびインターネットでは一般的である。

ＬＡＮネットワーキング環境で使用される場合、コンピュータ３１０は、ネットワークインターフェースまたはアダプタ３７０を介してＬＡＮ３７１に接続される。ＷＡＮネットワーキング環境で使用される場合、コンピュータ３１０は、通常、インターネットなどのＷＡＮ３７３上で通信を確立するためモデム３７２またはその他の手段を備える。モデム３７２は、内蔵でも外付けでもよいが、ユーザ入力インターフェース３６０またはその他の適切なメカニズムを介してシステムバス３２１に接続され得る。ネットワーク接続環境では、コンピュータ３１０またはその一部に関して示されているプログラムモジュールは、リモートメモリ記憶デバイスに格納され得る。例えば、限定的ではないが、図３は、リモートアプリケーションプログラム３８５を、メモリデバイス３８１に置かれているものとして例示している。図に示されているネットワーク接続は実施例であり、コンピュータ間の通信リンクを確立するのに他の手段が使用され得る。

結論
エンハンストドキュメント取り出しのためのコンテンツ伝播(content propagation)を実現するシステムおよび方法は、構造上の特徴および／または方法論上の動作または活動に特有の言語で説明してあるが、請求項は、説明した特定の特徴または活動に必ずしも限定されないことは理解されるであろう。例えば、図１のシステム１００は、エンハンストＫＢアーティクル１０６取り出しのデータソースのコンテンツ伝播に関して説明してあるが、説明されているシステムおよび方法は、１つまたは複数の独立のデータソースから、ＫＢまたは製品サポートアーティクルだけでなく、参照されている任意の種類のドキュメントへマイニングされたメタデータを伝播するために使用され得る。例えば、システム１００は、他の種類のドキュメントに関して、リンク、参照、タイトル、ドキュメントＩＤなどを含む複数のデータソースにまたがってエンハンストドキュメント取り出しのコンテンツ伝播を実現するために使用され得る。したがって、本明細書に記載の特定の特徴および活動は、請求されている主題を実施する実施例として開示されている。

付録Ａ
異種オブジェクトのクラスタリング
例示的クラスタリングシステムおよび方法の背景
クラスタリングは、複数のオブジェクトのグループ化を伴い、検索エンジンおよび情報マイニングなどのアプリケーションで使用される。クラスタリングアルゴリズムでは、複数のオブジェクトの類似性に基づいてオブジェクトをグループ化する。例えば、Ｗｅｂページオブジェクトは、コンテンツ、リンク構造、またはユーザアクセスログに基づいてクラスタリングされる。ユーザのクラスタリングは、ユーザが選択したアイテムに基づく。ユーザオブジェクトは、それらのアクセス履歴に基づいてクラスタリングされる。ユーザに関連付けられたアイテムのクラスタリングは、従来、それらのアイテムを選択したユーザに基づく。さまざまなクラスタリングアルゴリズムが知られている。従来技術のクラスタリングアルゴリズムは、パーティション分割ベースのクラスタリング、階層型クラスタリング、および密度ベースのクラスタリングを含む。

ユーザのアクセスされたＷｅｂページのコンテンツまたはアクセスパターンは、ユーザプロファイルを構築してＷｅｂユーザをクラスタリングするために使用されることが多い。その後、従来のクラスタリング手法が採用される。協調フィルタリングでは、クラスタリングは、ユーザまたはアイテムをグループ化して推奨／予測を高めるためにも使用される。

これらの従来のクラスタリングアルゴリズムの使用にあたっては、一般に、いくつかの制限事項がある。従来のクラスタリング手法は、オブジェクトの個数、異種オブジェクトのリンクの個数が疎でありすぎてオブジェクトの効果的なクラスタリングが達成されないデータの疎性問題に直面しうる。同種クラスタリングでは、分析されるデータセットは同じ種類のオブジェクトを含む。例えば、同種クラスタリングがＷｅｂページおよびユーザに基づく場合、Ｗｅｂページオブジェクトおよびユーザオブジェクトはそれぞれ別々にクラスタリングされる。同種クラスタリングがアイテムおよびユーザに基づく場合、アイテムオブジェクトおよびユーザオブジェクトはそれぞれ別々にクラスタリングされる。このような同種クラスタリング実施形態では、同じ種類のオブジェクトは、他の種類のオブジェクトを考慮せずにまとめてクラスタリングされる。

従来技術の異種オブジェクトクラスタリングでは、オブジェクト集合を別々にクラスタリングする。異種オブジェクトクラスタリングでは、リンクを、それぞれのオブジェクトノードを表すフラットな特徴としてのみ使用する。従来技術の異種クラスタリングでは、層内の、および層間のリンク構造全体は考慮されないか、またはそれとは別に単に分離された特徴として取り扱われる。

例示的クラスタリングシステムおよび方法
クラスタリングを使用することによりメリットを持ちうるコンピュータ環境４００（汎用コンピュータである）の一実施形態が図４に示されている。コンピュータ環境４００は、メモリ４０２、プロセッサ４０４、クラスタリング部分４０８、およびサポート回路４０６を備える。サポート回路は、コンピュータ環境４００の異なるコンポーネントが情報（つまり、データオブジェクト）を転送することができるようにする表示装置および入出力回路部分などのデバイスを備える。

クラスタリングは、クラスタリング部分４０８内で実行される。クラスタリング部分４０８は、コンピュータ環境のメモリ４０２およびプロセッサ４０４部分内に組み込まれるようにできる。例えば、プロセッサ４０４は、異なるオブジェクトをクラスタリングするクラスタリングアルゴリズム（メモリから取り出される）を処理する。メモリ４０２（データベースなど）は、クラスタリングされたオブジェクトおよび関連付けられているプログラムおよびクラスタリングアルゴリズムを格納しておき、クラスタリングされたオブジェクトが必要に応じて取り出され（格納され）るようにする役割を持つ。コンピュータ環境４００は、スタンドアロン型コンピュータ、ネットワーク接続コンピュータシステム、メインフレーム、または知られているさまざまなコンピュータシステムのどれかとして構成され得る。本明細書で開示されているいくつかの実施形態では、コンピュータ環境アプリケーション（インターネットからＷｅｂページをダウンロードするコンピュータ）を説明している。本明細書で説明されている概念は、知られているどのような種類のコンピュータ環境４００にも適用可能であることが考えられる。

本明細書では、信頼できるとみなされる（つまり、ユーザのクエリに適用可能である）返された結果の割合が高められるクラスタリングメカニズムを規定している。クラスタリングは、検索ツール、情報マイニング、データマイニング、協調フィルタリングなどの技術分野に適用され得る。検索ツールは、異なる情報ニーズに応え、情報を取り出すパフォーマンスを高められることから、注目を集めている。検索ツールは、Ｗｅｂページ、ユーザ、クエリなどのコンピュータの複数の態様に関連する。

本明細書では、データオブジェクトをクラスタリングするさまざまなクラスタリングアルゴリズム実施形態を説明している。データオブジェクトのクラスタリングは、データオブジェクトの大きな集合がデータオブジェクトのさらに多くの集合またはクラスタにグループ化されるようにする手法である（データオブジェクトのクラスタの数が多いほど、それぞれに含まれるデータオブジェクトの個数は少ない）。データオブジェクトのクラスタリングされたグループ内に含まれるそれぞれのデータオブジェクトは何らかの類似性を有する。したがって、クラスタリングの一態様は、複数のデータオブジェクトのグループ化としてみなすことができる。

本明細書で説明されているクラスタリングメカニズムは、フレームワークグラフ５５０に関係しており、フレームワークグラフの一実施形態は、図５に示されている。図５のフレームワークグラフ５５０に示されているように異なる種類のオブジェクトが異なるレベルまたはノード集合ＰおよびＵの間でクラスタリングされる統一クラスタリングメカニズムのいくつかの実施形態が提示されている。また、本明細書で説明されている概念は、本明細書で説明されているように２つの層の代わりに、３つ以上の層に適用され得ることも考えられる。それぞれのノード集合ＰおよびＵは、さらに、１つの層とも考えられうる。本明細書では、「統一」クラスタリングという用語は、異種データをクラスタリングする手法に適用される。ノード集合Ｐは、それぞれ類似のデータ型である複数のデータオブジェクトｐ_１、ｐ_２、ｐ_３、．．．、ｐ_ｉを含む。ノード集合Ｕは、それぞれ類似のデータ型である複数のデータオブジェクトｕ_１、ｕ_２、ｕ_３、．．．、ｕ_ｊを含む。それぞれのノート集合（ＰまたはＵ）上でクラスタリングされているオブジェクトのデータ型は同一であり、したがって、それぞれのノード集合（ＰまたはＵ）内のデータオブジェクトは同種である。ノード集合Ｐ内にある複数のデータオブジェクトｐ_１、ｐ_２、ｐ_３、．．．、ｐ_ｉの型は、ノード集合Ｕ内にある複数のデータオブジェクトｕ_１、ｕ_２、ｕ_３、．．．、ｕ_ｊの型と異なる。したがって、ノード集合ＰおよびＵのうちの異なる集合内にあるデータオブジェクトの型は異なるか、または異種である。本明細書のいくつかの態様では、同種および異種データ型のオブジェクトからの入力（リンクに基づく）を使用してクラスタリングすることを提示している。

リンクは、本明細書では、一対のデータオブジェクト間に引かれている直線により表される。リンクは、クラスタ内の複数の対のオブジェクトの間の関係を表す。一実施例では、リンクは、Ｗｅｂページオブジェクトからユーザオブジェクトへ延ばすことができ、いくつかのＷｅｂページを選択するユーザを表す。他の実施例では、リンクは、Ｗｅｂページオブジェクトから他のＷｅｂページオブジェクトへ延ばすことができ、異なるＷｅｂページ間の関係を表す。クラスタリングのいくつかの実施形態では、「リンク」は、「エッジ」と呼ばれる。一般化された用語「リンク」は、本明細書では、オブジェクト間の関係を記述する、リンク、エッジ、または一方のオブジェクトから他方のオブジェクトへの任意のコネクタを記述するために使用される。

フレームワークグラフ５５０で規定されているように複数のオブジェクトのうちの異なる複数のオブジェクトを関連付ける異なる種類のオブジェクトをクラスタリングすることに関係するさまざまな異なる種類のリンク（本明細書で説明されているような）がある。これらのリンクは、層間リンクまたは層内リンクのいずれかとして分類され得る。層内リンク５０３または５０５は、同じ種類の異なるオブジェクトの間の関係を記述するフレームワークグラフ５５０内のリンクの一実施形態である。層間リンク５０４は、異なる種類の複数のオブジェクトの間の関係を記述するフレームワークグラフ５５０内のリンクの一実施形態である。図５に示されているように、複数のデータオブジェクトｕ_１、ｕ_２、ｕ_３、．．．、ｕ_ｊのうちのいくつかの間で延ばされている複数の層内リンク５０３がある。図５に示されている実施形態では、複数のデータオブジェクトｐ_１、ｐ_２、ｐ_３、．．．、ｐ_ｉのうちのいくつかの間で延ばされている複数の層内リンク５０５もある。図５に示されている実施形態では、ノード集合Ｐ内の複数のデータオブジェクトｕ_１、ｕ_２、ｕ_３、．．．、ｕ_ｊのうちのいくつかとノード集合Ｕ内の複数のデータオブジェクトｐ_１、ｐ_２、ｐ_３、．．．、ｐ_ｉのうちのいくつかとの間で延ばされている複数の層間リンク５０４もある。層間リンクを使用すると、一方の種類のオブジェクトのクラスタリングが他方の種類のオブジェクトの影響を受ける可能性があることがわかる。例えば、Ｗｅｂページオブジェクトのクラスタリングは、ユーザオブジェクト構成、状態、および特性の影響を受けることがある。

リンク方向（図５、さらに図６のリンク５０３、５０４、または５０５の矢尻で示されるような）は、データオブジェクト間の関係がいずれの方向にも向け付けられることから双方向として例示されている。これらのリンクは、説明を目的とするものであり、範囲を制限することを目的としていないと考えられる。フレームワークグラフ５５０内のグラフのいくつかのリンクは、一方の方向ではより適切に向け付けられ、矢尻の方向は、通常、フレームワークのオペレーションに影響を及ぼさない。フレームワークグラフ５５０は、ノード集合Ｐ、ノード集合Ｕ、およびリンク集合Ｌからなる。フレームワークグラフ５５０では、ｐ_ｉおよびｕ_ｊは２種類のデータオブジェクトを表し、ｐ_ｉ∈Ｐ（ｉ＝１，．．．，Ｉ）、およびｕ_ｊ∈Ｕ（ｊ＝１，．．．，Ｊ）である。ＩおよびＪは、それぞれ、ノード集合ＰおよびＵの濃度である。

リンク（ｐ_ｉ，ｕ_ｊ）∈Ｌは、異なる種類のオブジェクト間の参照文字５０４により例示されている層間リンク（２タプルとして構成される）である。５０５および５０３で参照されるリンク（ｐ_ｉ，ｐ_ｊ）∈Ｌおよびリンク（ｕ_ｉ，ｕ_ｊ）∈Ｌは、それぞれ、同じ種類のオブジェクトの間で延びる層内リンクである。簡単のため、層間リンク集合（２０４）および層内リンク集合（５０３、５０５）については異なる参照文字が適用される。

統一クラスタリングを使用することで、リンクは、複数のオブジェクト間でより完全に利用され、それによりクラスタリングが改善する。異なる層内の異なる種類のオブジェクトのクラスタリングは、効果的なクラスタリングにより補強される。オブジェクトが正しくクラスタリングされている場合、クラスタリングの結果はより妥当なものとなるであろう。クラスタリングは、データを分析する際に役立つ構造化された情報をもたらすことが可能である。

フレームワークグラフ５５０は、それぞれの種類のオブジェクトが実質的に同一である複数の種類のオブジェクトのクラスタリングを例示している（例えば、ある種類は、Ｗｅｂページの１つのグループ、ユーザの１つのグループ、またはドキュメントの１つのグループなどに関係する）。オブジェクトのそれぞれのグループの種類は、一般に、フレームワークグラフ５５０内の複数のオブジェクトの他の複数のグループの種類と異なる。

開示されているクラスタリング手法では、クラスタリングの際に異なる（異種）オブジェクト型からの入力を考慮し、受け取る。本明細書の一態様は、クラスタリングされる複数のオブジェクトが他の複数のオブジェクトへのリンクを与えられる固有の相互関係に基づく。それぞれのオブジェクトに接続する複数のリンクのうちのいくつかのリンク（およびそれらのリンクの接続先である複数のオブジェクト）は、異なる重要度の重みが付けられ、そのオブジェクトとの関連性を反映するようにできる。例えば、クラスタリングされているのと同じ種類のオブジェクトは、異なる種類のオブジェクトより大きな重要度を与えられるようにできる。本明細書では、さまざまなレベルの重要度が異なるオブジェクトまたは異なる種類のオブジェクトに割り当てられるようにするメカニズムを提示する。異なるレベルの重要度を異なるオブジェクト（または異なる種類のオブジェクト）に割り当てるこの操作は、本明細書では、重要度でクラスタリングすると呼ばれる。異なるオブジェクトのさまざまなレベルの重要度から、クラスタリングの結果および有効性が高められることが多い。

図５に示されているように異種オブジェクトをクラスタリングするフレームワークグラフ５５０の実施形態では、異なるノード集合ＰまたはＵは、異なるオブジェクトタイプをそれぞれ含む異なる層を表す。フレームワークグラフ５５０の複数のノード集合（ＰおよびＵが例示されている）は、クラスタリングの基礎となる。２層有向グラフ５５０は、クラスタリングすべきデータオブジェクトの集合を含む。それぞれの種類のオブジェクトタイプのオブジェクト（クラスタリングアルゴリズムによりクラスタリングされる）は、「潜在的」クラスのインスタンスとして考えられる。複数のオブジェクトノードのうちのいくつかのノード間で延びるリンク５０３、５０４、または５０５は、クラスタリングにより実現されるオブジェクトノード間の固有の関係を反映する。クラスタリングの反復投影手法は、そのいくつかの実施形態が本明細書で説明されているが、これにより、別個の複数のデータ型を有するオブジェクトの独立したクラスタリングがクラスタリングプロセスに寄与するようにできる。

異種型のオブジェクト（およびその関連するリンク）は、本明細書で説明されているように、反復クラスタリング手法を使用して補強される。反復クラスタリング投影手法は、それぞれの層が異種のオブジェクトを含む、別々の層内に配列されている別々の種類のオブジェクトからクラスタリング情報を取得することに依存する。ノード情報はリンク情報と併用され、それによって、クラスタリングが収束するまでクラスタリングされた結果を反復投影し、伝播する（クラスタリングアルゴリズムは層間に実現される）。一方の種類のオブジェクトの結果を他の種類のオブジェクトのクラスタリング結果の中へ反復クラスタリングすることで、データの疎性に関連するクラスタリングの問題を軽減できる。この反復投影では、一方の層のクラスタリングにおける類似性尺度は、他方の種類のクラスタの個々のグループにではなく、クラスタに基づいて計算される。

クラスタリングに使用されることが可能な構造情報を取得するために、異なる種類のノードおよびリンクのそれぞれのタイプが調べられる。例えば、構造情報は、異なるデータオブジェクトを接続するリンクの種類（例えば、リンクが層間リンクであるか、層内リンクであるか）を考慮したうえで得られる。それぞれのオブジェクトの種類は、図５に示されているように、そのノード集合ＰまたはＵにより示される。

図５の一般化されたフレームワークグラフ５５０は、特定のクラスタリングアプリケーションに適用され得る。つまり、フレームワークグラフ５５０は、ユーザのグループに関してインターネット上のＷｅｂページのグループを例示することができる。Ｗｅｂページ層は、ノード集合Ｐとしてグループ化される。複数のオブジェクトからなるユーザ層は、ノード集合Ｕとしてグループ化される。フレームワークグラフ５５０は、複数のＷｅｂページオブジェクトおよび複数のユーザオブジェクトを２層フレームワークグラフ５５０の表現に統合する。フレームワークグラフ５５０は、リンク（例えば、エッジ）関係５０３、５０４、５０５を使用して、異なる種類のオブジェクトのクラスタリングを容易に行えるようにする（一般化された図５のフレームワークグラフに概要が示されているように）。複数のノードの異なる重要度レベルを学習するために、クラスタリング手順実行の際にデータセット全体のリンク構造が調べられる。これらのノードは、重要なノードが無理なくクラスタリングされるようにクラスタリング手順における重要度に基づいて重み付けされる。

本明細書のいくつかの実施形態では、リンクのクラスタ間のリンク５０３、５０４、および５０５は予約されている。予約されているリンクは、オブジェクト自体の代わりにオブジェクトのクラスタ間で延びるリンクである。例えば、１つの予約リンクは、Ｗｅｂページクラスタとユーザクラスタとの間で延びる（オリジナルリンクの場合のようにＷｅｂページオブジェクトとユーザオブジェクトとの間ではなく）。いくつかの実施形態では、予約リンクは、フレームワークグラフ５５０内の推奨など、さまざまな将来のアプリケーション向けに保持される。例えば、Ｗｅｂページ／ユーザクラスタリングのクラスタリング結果は予約リンクとともに、ユーザヒット動作の要約グラフとして示されることが可能であり、これはユーザのヒットの予測を示す。

それぞれのノードｐ_ｉおよびｕ_ｊのコンテンツは、それぞれのベクトルｆ_ｉおよびｇ_ｊ（図５には示されていない）により表される。アプリケーションによっては、それぞれの個別ノードｐ_ｉおよびｕ_ｊは、コンテンツ特徴を持つ（またはいっさい持たない）場合がある。従来技術のクラスタリング手法では、ノードｕ_ｊとは無関係にノードｐ_ｉをクラスタリングする。それと対照的に、本明細書で説明されているクラスタリングフレームワーク５５０では、ノードｐ_ｉおよびノードｕ_ｊは、相対的重要度に基づきそれに応じてクラスタリングされる。本明細書で説明されているクラスタリングアルゴリズムは、類似度関数を使用して、クラスタタイプ毎にオブジェクト間の距離を測定し、クラスタリングを形成する。クラスタリングには、（１）に示されているようなコサイン類似度関数が使用され得る。

ｆ_ｘ・ｆ_ｙは、２つの特徴ベクトルのドット積である。これは、ｆ_ｘとｆ_ｙの同じ成分の重み積の和に等しい。ｓ_ｃは、類似度がコンテンツ特徴に基づくことを示しており、ｆ_ｘ（ｉ）およびｆ_ｙ（ｊ）は、特徴ベクトルｆ_ｘとｆ_ｙのｉ番目とｊ番目の成分である。ｋ_ｘは、それぞれの特徴ｆ_ｘ内のアイテムの個数であり、ｋ_ｙは、特徴ｆ_ｙ内のアイテムの個数である。

本明細書では、ノード集合Ｐは、層間リンク５０４およびノードの層内リンク５０３および５０５を示す一例として使用されている。すべてのデータは、リンク５０３または５０５により接続されるような、層内ノードの対（ｐ^（１），ｐ^（１））、（ｐ^（２），ｐ^（２））、．．．［ただしｐ^（１）およびｐ^（２）はｐ_ｉと同じ、対（ｐ^（１），ｐ^（１））、（ｐ^（２），ｐ^（２））は両方とも、同種の層内のノードを表す］について、およびリンク５０４によって接続されているような、層間の対（ｐ^（１），ｕ^（１））、（ｐ^（２），ｕ^（２））、．．．について、一連のノード対を含むものと仮定される。したがって、ノードの対（ｐ_ｉ，ｐ_ｋ）または（ｐ_ｉ，ｕ_ｊ）の間のリンクは、データ系列内の同一の対の１つまたは複数の出現を表す。リンクの重みは、その出現頻度に関係する。

本明細書では、２つの独立したベクトルは、特定のノード毎に層間リンク５０４および層内リンク５０３、５０５の特徴を表す。例えば、層内リンク５０３、５０５の特徴は、成分が同じ層内の他のノードに対応しているベクトルを使用して表される。比較すると、層間リンク５０４の特徴は、成分が他の層内のノードに対応しているベクトルを使用して表される。それぞれの成分は、対応するノードからのリンク（または対応するノードへのリンク）の重みを表す数値とすることが可能である。例えば、ノードｐ_１およびｐ_２（図５に示されているように）の層間リンク５０４の特徴は、それぞれ、［１，０，０，．．．，０］^Ｔおよび［１，１，１，．．．，０］^Ｔとして表すことができる。

したがって、対応する類似度関数は、上述のようにコサイン類似度として定義されることも可能である。層内リンク５０３、５０５の特徴に対する類似度関数ｓ_ｌｘ（ｘ，ｙ）は、以下のように（３）に記述されているように、ノードｐ_１とｐ_２との間の類似度が適用されることを決定する。

比較すると、層間リンク５０４の特徴に対する類似度関数ｓ_ｌｘ（ｘ，ｙ）は、以下のように（４）に記述されているように、ノードｐ_１とｕ_２との間の類似度を決定する。
ｓ_ｌ２（ｘ，ｙ）＝ｃｏｓ（ｈ_ｘ，ｈ_ｙ）（４）

ここで、ｓ_ｌ１およびｓ_ｌ２は、それぞれ、類似度がそれぞれの層内および層間リンク特徴に基づくことを示し、ｌ_ｘおよびｌ_ｙは、ノードｘおよびノードｙの層内リンク特徴ベクトルであるが、ｈ_ｘおよびｈ_ｙは、ノードｘおよびノードｙの層間リンク特徴ベクトルである。

各ノードのリンクを集合として表すことおよびＪａｃｃａｒｄ係数を適用することなど、リンク特徴およびその他の類似性尺度の他の表現が使用されることも可能である。本明細書で説明されている実施形態には複数の利点がある。１つの利点は、クラスタリングアルゴリズムの複数の実施形態のうちのいくつかの実施形態は、重み付きリンクに対応していることである。さらに、そのようなクラスタリングアルゴリズムは、ｋ−ｍｅａｎｓクラスタリングアルゴリズムのように、クラスタリングの重心の計算を容易にする。重心は、クラスタリングされたオブジェクトの一般化された値または特性を示すためさらに計算を行う際に有用である。

ノードｘおよびノードｙの類似度関数の全体は、（５）で示されるように、３つの重み付き値α、β、およびγを含む３つの類似度の重み付き総和として定義され得る。これら３つの重み付き値を、発見的手法により、また学習により、割り当てる２つの手法が開示されている。例えば、チューニングデータがない場合、重みは手動で何らかの望ましい値に割り当てられる（例えば、α＝０．５、β＝０．２５、およびγ＝０．２５）。比較により、何らかの余分なチューニングデータがある場合、重みは、欲張りアルゴリズム、山登りアルゴリズム、またはその他の種類の局所的または大域的改善または最適化プログラムを使用して計算され得る。欲張りアルゴリズムとは、各ステップ内の各係数を改善しようとするある種の最適化アルゴリズムのことで、最終的には、改善された（およびいくつかの実施形態では最適化された）解が得られる。

ｓ（ｘ，ｙ）＝αｓ_ｃ（ｘ，ｙ）＋βｓ_ｌ１（ｘ，ｙ）＋γｓ_ｌ２（ｘ，ｙ）（５）

ここで、α＋β＋γ＝１である。
これらの計算を使用することで、複数のノードのコンテンツ、および複数のノードの類似度が決定される。アプリケーションによっては、クラスタリングアルゴリズムに対し異なる情報値を与えるために３つの変数が変更される可能性がある。複数のノードのこれらのコンテンツおよび類似度は、それに基づき、取り出しのための基礎として使用され得る。

多くの異種クラスタリング問題は、ノードの重要性が等しくない同じ特性を共有することが多い。異種クラスタリングのいくつかの例として、Ｗｅｂページ／ユーザクラスタリング、協調フィルタリングのアイテム／ユーザクラスタリングなどがある。これらのアプリケーションでは、重要なオブジェクトは、より妥当なクラスタリング結果を取得するうえで重要な役割を果たす。本明細書では、データセット全体のリンク構造は、複数のノードの重要度を学習するために使用される。例えば、ノード集合ＰおよびＵ内のノード毎に、ｐ_ｉおよびｕ_ｊについて、重要度重みｉｐ_ｉおよびｉｕ_ｊは、リンク構造により計算され、クラスタリング手順で使用される。

一クラスタリング態様はリンク分析アルゴリズムに関係し、それらの複数の実施形態は本明細書で提示されている。リンク分析アルゴリズムの一実施形態では、図６に示されているようなハイブリッドネットモデル６００が構成される。ハイブリッドネットモデル６００を使用することで、ユーザおよびＷｅｂページは、例示されている２種類のノードとして使用される。Ｗｅｂページおよびユーザタイプのオブジェクトを伴うハイブリッドネットモデルの図６の実施形態は、特に、インターネット、イントラネット、またはその他のネットワークを伴ういくつかの種類のクラスタリングを対象とする。これらのリンクは、リンク６０５により示されているようなＷｅｂページハイパーリンク／相互作用、リンク６０４により示されているようなユーザ−Ｗｅｂページ間ハイパーリンク／相互作用、およびリンク６０３により示されているようなユーザ−ユーザ間ハイパーリンク／相互作用を含む。図６のハイブリッドネットモデル６００は、リンク６０３、６０４、および６０５により例示されているユーザとＷｅｂページの中、およびそれらの間の関係を示すことによりそれらのハイパーリンク／関係を詳細に説明している。

ユーザ集合６１０内に含まれるユーザ６０８の特定のグループが与えられた場合、ユーザ集合６１０からの複数のノードのどれかがアクセスしたＷｅｂページはすべて、Ｗｅｂページ集合６１２を形成する。Ｗｅｂページ集合６１２は、ルートのＷｅｂページ集合を検索エンジンに送信することにより決定され、ベースのＷｅｂページ集合を取得する。図６で矢印により表されている３種類のリンクは、異なる意味を持つ。Ｗｅｂページ集合６１２内に含まれる矢印６０５により表されるリンクは、Ｗｅｂページ間のハイパーリンクを示す。ユーザ集合６１０内に含まれる矢印６０３により表されるリンクは、ユーザ間の社会的な関係を示す。ユーザ集合６１０とＷｅｂページ集合６０２との間で延びる矢印６０４により表されるリンクは、複数のＷｅｂページに向かうユーザのアクセスアクションを示す。矢印６０４により表されるリンクは、それぞれの特定のＷｅｂページに対するユーザの評価を示しており、したがって、Ｗｅｂページのオーソリティ／ハブスコアの信頼度が高まる。したがって、異なる種類のリンク６０３、６０４、および６０５は、異なる関係を表す。それぞれのリンクは、例えば、リンクのアクセス回数、またはそのリンクにより接続されたノードの各対の関連付け方法に応じて異なる重要度の重みを付けられる。

図７は、インターネットを使用してクラスタリングを実行するように構成されているコンピュータ環境４００の一実施形態を例示している。このようなクラスタリングの一態様は、ユーザに基づくＷｅｂページのクラスタリングを伴う場合がある（関連付けられた層間リンクおよび層内リンクを含む）。コンピュータ環境は、複数のＷｅｂサイト７５０、検索エンジン７５２、サーバ／プロキシ部分７５４、モデリングモジュール７５６、コンピューティングモジュール７５８、およびサジェスチョン／参照部分７６０を含む。コンピュータ環境４００は、グラフィカルユーザインターフェース（ＧＵＩ）などでユーザ７６２とインターフェースする。コンピューティングモジュール７５８は、クラスタリングアルゴリズムを実行する反復計算部分７８０を含む（そのいくつかの実施形態は、反復計算に依存する）。モデリングモジュール７５６は、（例えば、オブジェクトに関連付けられている）データを収集し、データを追跡する活動をする。検索エンジンは、ユーザのクエリに基づいて検索結果を返す。Ｗｅｂサイト７５０は、ユーザに対して提示されるとおりにデータを表現する。サーバ／プロキシは、クエリなどをクラスタリングの大半の作業を実行するサーバに伝達する。サジェスチョン／参照部分７６０では、ユーザはクラスタリングアルゴリズムを修正または選択することができる。

モデリングモジュール７５６は、従来のフォーマライゼーション(formalization)部分７７０、Ｗｅｂページ抽出(extraction)部分７７２、およびユーザ抽出部分７７４を含む。部分７７０、７７２、および７７４は、すでにフォーマライゼーションされている（７７０）、またはＷｅｂページから抽出される、またはユーザ７６２から抽出されるデータを提供する、および／または追跡するように構成される。図７に例示されているようなコンピュータ環境の実施形態は、一実施形態が本明細書で説明されているリンク分析アルゴリズムを実現するように構成されている。

クラスタリングアルゴリズムの一実施形態では、ハブ、オーソリティ、およびユーザの３種類のページを探索することによりＷｅｂグラフを分析することができる。ハブは、特定のトピックに関する有用な関連情報を与える他の多数のページにリンクするページである。オーソリティページは、多数のハブに関連するページとみなされる。ユーザは、オーソリティおよびハブのうちのそれぞれ１つにアクセスする。それによって、ハブ、オーソリティ、およびユーザのそれぞれの対は、相互補強関係を示す。クラスタリングアルゴリズムは、リンク分析アルゴリズムのいくつかの実施形態で使用される３つのベクトルである、Ｗｅｂページオーソリティ重みベクトルａ、ハブ重みベクトルｈ、およびユーザベクトルｕに依存する。これらのベクトルのいくつかの態様について、本明細書で説明する。

以下の重み計算に関係する以下の項のうちのいくつかは、図７などの図には例示されておらず、代わりに、それらの計算に関係する。一実施形態では、所定のユーザｉについて、ユーザ重みｕ_ｉは、そのユーザの知識レベルを示す。Ｗｅｂページｊに対し、それぞれの項ａ_ｊおよびｈ_ｊは、オーソリティ重みおよびハブ重みを示す。一実施形態では、３つのベクトル（ユーザ重みｕ、Ｗｅｂページオーソリティ重みａ、およびハブ重みｈを表す）のそれぞれのベクトルは、ある値（１など）にそれぞれ初期化される。その後、３つのベクトルｈ、ａ、およびｕはすべて、それぞれ（６）、（７）、および（８）で規定されているように以下の計算を考慮してインターネット使用度に基づいて繰り返し更新される。

ここで、ｐおよびｑは特定のＷｅｂページを表し、ｒは特定のユーザを表す。開示されているネットワークのいくつかの実施形態では、異なるページ間のリンク（ハイパーリンク）およびユーザとページとの間のリンク（パターンをブラウズする）の２種類のリンクがある。Ａ＝［ａ_ｉｊ］を３つのベクトルｈ、ａ、およびｕのすべてに対するベース集合の隣接行列を表すものとする。ページｉがページｊにリンクしている場合にはａ_ｉｊ＝１、そうでなければａ_ｉｊ＝０であることに留意されたい。Ｖ＝［ｖ_ｉｊ］は、ユーザ集合からＷｅｂページ集合へのアクセス行列である。ユーザｉがページｊをアクセスした場合にはｖ_ｉｊ＝１、そうでなければｖ_ｉｊ＝０であると考える。さらに、（８）、（１０）、および（１１）に示されているように、

一実施形態では、意味のある結果を得るために、（９）、（１０）、および（１１）で示されているようなベクトルａ、ｈ、ｕの計算は、複数回反復される。いくつかの実施形態の反復の前に、ランダム値がベクトルａ、ｈ、およびｕのうちのそれぞれのベクトルに割り当てられる。それぞれの反復に続いて、ａ、ｈ、ｕの値は変更され、正規化されて、次の反復のための基準を与える。反復する毎に、ａ、ｈ、およびｕの反復値はそれぞれ、特定のそれぞれの値に収束する傾向がある。ユーザ重みｕ_ｉが高いユーザおよびオーソリティ重みａ_ｊおよび／またはハブ重みｈ_ｊが高いＷｅｂページは、報告されることが可能である。好ましい一実施形態では、いくつかのそれぞれのユーザまたはＷｅｂページオブジェクトは、他のそれぞれのユーザまたはＷｅｂページオブジェクトより高い値が割り当てられうる。値が高いほど、そのオブジェクトに割り当てられる重要度は大きくなる。

クラスタリングできる本明細書で説明されているようなリンク分析アルゴリズムの実施形態は、Ｗｅｂページとユーザの両方からの反復入力に依存する。したがって、ユーザからの重み付き入力は、Ｗｅｂページのクラスタリングアルゴリズムに適用される。クラスタリングに対する重み付きユーザ入力を使用することで、検索結果の精度およびクラスタリングアルゴリズムが実行可能な速度を改善する。

本明細書で説明されているリンク分析アルゴリズムはユーザに基づいてＷｅｂページをクラスタリングするクラスタリングアルゴリズムに適用されるが、リンク分析アルゴリズムは、任意の異種クラスタリングアルゴリズムに適用可能であることが考えられる。この重み付けでは、本明細書で説明されているように重要度付きのクラスタリングを実現する。

複数のオブジェクトタイプをクラスタリングするために使用可能なクラスタリングアルゴリズムのさまざまな実施形態を説明する。クラスタリングアルゴリズムでは、クラスタリングされるデータオブジェクト間の何らかの類似度に基づきデータオブジェクトの自然なグループを見つけ出そうとする。そこで、クラスタリングアルゴリズムは、データオブジェクトに対しクラスタリングアクションを実行する。クラスタリングアルゴリズムのいくつかの実施形態では、さらに、パラメータ値がクラスタ内のすべての点のパラメータ値の平均である点を表す、データセットの１グループの重心も見つける。クラスタの帰属関係を調べるために、ほとんどのクラスタリングアルゴリズムは、点とクラスタ重心との間の距離を評価する。クラスタリングアルゴリズムからの出力は、基本的に、それぞれのクラスタ内の成分の個数とともにクラスタ重心の統計学的記述である。

クラスタアルゴリズムの複数の実施形態について、本明細書で説明している。両方向(two-ways)ｋ−ｍｅａｎｓクラスタアルゴリズムは、クラスタリングプロセスの相互補強効果に基づく。両方向ｋ−ｍｅａｎｓクラスタアルゴリズムは、反復クラスタリングアルゴリズムである。両方向ｋ−ｍｅａｎｓクラスタアルゴリズムでは、オブジェクト重要度は、まず、（６）〜（８）または（９）〜（１１）により計算され、その結果は、続く反復クラスタリング手順で適用される。クラスタリングアルゴリズムでは、定義されている類似度関数に基づいてそれぞれの層内のオブジェクトをクラスタリングする。ｋ−ｍｅａｎｓ、ｋ−ｍｅｄｏｉｄｓ、および凝集型階層化法などの多数のクラスタリングアルゴリズムが使用され得るが、本明細書では、ｋ−ｍｅａｎｓクラスタリングアルゴリズムの適用を説明する。

ノードの計算された重要度スコアを適用する手法は複数ある。一手法は、基本的なｋ−ｍｅａｎｓクラスタリングアルゴリズムを「重み付き」ｋ−ｍｅａｎｓアルゴリズムに修正することを伴う。修正されたｋ−ｍｅａｎｓアルゴリズムでは、所定のクラスタの重心は、重要度スコアを決定する重み設定の特徴の重み付き総和を使用して計算される。それによって、高い重要度または重み付けを有するノードほど、コンテンツおよびリンク特徴の両方に対するクラスタ重心を形成する際により大きな強調を与えられる。他の実施形態は、重要度スコアによりノードのリンク重みを修正し、その後、類似度関数内で重み付きリンク特徴を使用することを伴う。このようにして、ノードの重要度は、クラスタリングプロセスにおけるリンク特徴にのみ反映される。

クラスタリングアルゴリズムの入力／出力の一実施形態は、図８および図９に示してある。クラスタリングアルゴリズムへの入力は、２層フレームワークグラフ５５０（ノードのコンテンツ特徴ｆ_ｉおよびｇ_ｊを含む）を含む。クラスタリングアルゴリズムへの出力は、クラスタリングを反映する新しいフレームワークグラフ５５０を含む。新しいフレームワークグラフのいくつかの実施形態では、新しいノード位置に変更したそれぞれの古いノードの変更形態が例示され得る。

クラスタリングアルゴリズム８５０の一実施形態を例示する流れ図の一実施形態は、図８および図９に示されている。クラスタリングアルゴリズム８５０はオリジナルフレームワークグラフ（それぞれのクラスタリング反復の前に）が入力される８５１を含む。８５２では、考察されているそれぞれのノードの重要度が、（６）〜（８）または（９）〜（１１）を使用して決定されるか、または計算される。８５４において、クラスタリングに対し、任意の層が選択される。選択された層内の複数のノードは、８５５において適切な方法で（例えば、コンテンツ特徴に応じて）クラスタリングされる。いくつかの実施形態では、所望のフィルタリングアルゴリズム（図に示されていない）を使用して複数のノードがフィルタ処理され、それにより、クラスタリングを改善できる。８５６において、それぞれのクラスタのノードは１つのノードにマージされる。例えば、２つの候補ノードがフィルタ処理の後に存在する場合、最も近い２つの候補ノードは、例えば、２つの候補ノードのベクトル値の平均をとることにより、マージすることができる。このマージ操作で、考慮しなければならないノードの個数を減らすために、個々のノードが組み合わされるようにできる。したがって、マージ操作は、重複およびほぼ重複の出現を減らすために使用され得る。

対応するリンクは、８５７でマージに基づいて更新される。８５８では、クラスタリングアルゴリズムはクラスタリングのため第２の層に（任意に選択された層から）切り替わる。９６０では、第２層のノードは、そのコンテンツ特徴および更新リンク特徴に応じてクラスタリングされる。９６１において、それぞれのクラスタのノードは１つのノードにマージされる。

９６２において、他の層のオリジナルリンク構造およびオリジナルノードは復元される。９６４において、第２層の各クラスタのノードは、マージされ、対応するリンクが更新される。９６６において、反復クラスタリングプロセスは、コンピュータ環境内で継続される。９６８において、改訂版のフレームワークグラフ５５０が出力される。

初期クラスタリングパス(initial clustering pass)では、コンテンツ特徴(content feature)のみが使用される。ほとんどの場合、リンク特徴は最初、疎らすぎてクラスタリングには使用できないからである。その後のクラスタリングパスで、コンテンツ特徴およびリンク特徴は組み合わされ、クラスタリングの有効性を高める。コンテンツ特徴およびリンク特徴を組み合わせることにより、異なる値で重みが指定され、結果が比較され、精度が改善されたクラスタリングが実現され得る。

図８および図９に関して説明されているクラスタリングアルゴリズムは、多くのクラスタリング実施形態に適用可能である。次に、より具体的に、ユーザによるＷｅｂページのアクセス方法に基づいたＷｅｂページのクラスタリングの一実施形態の説明が行われる。ユーザ層のノードとＷｅｂページ層のノードとの間で延びる種類のリンクでは、ユーザｕ_ｊは、ｕ_ｊからｐ_ｉへのリンクが１つあればすでにＷｅｂページｐ_ｉにアクセスしている。リンクの重みとは、ユーザｕ_ｊが特定の時間にページｐ_ｉにアクセスする確率を意味し、これは、Ｐｒ（ｐ_ｉ｜ｕ_ｊ）で表される。これは、（１２）に示されているように、観察されたデータ内の数を数えることにより単純に計算できる。

ここで、Ｐ（ｕ_ｊ）は、ユーザｕ_ｊによってすでにアクセスされていたページの集合である。Ｃ（ｐ_ｉ，ｕ_ｊ）は、ユーザｕ_ｊがページｐ_ｉにすでにアクセスしていたカウントを表す。

図１０のフレームワークグラフ５５０の実施形態で示されているように、クラスタリングアルゴリズムの一実施形態は、概念層または隠れ層を伴う。図１０では、簡単のため、図５のフレームワークグラフ内に示されている層内リンク５０３および５０５は、隠されている。しかし、図１０に示されているようにフレームワークグラフ５５０の実施形態は、層内リンクおよび層間リンクとの任意の組合せに依存する可能性があるが、それでも、本明細書の概念の範囲内に留まることが考えられる。

隠れた層(hidden layer)１０７０（図１０に示されているようなフレームワークグラフ５５０の実施形態の）は、Ｗｅｂページ層とユーザ層との間に置かれる。隠れた層５５０は、オリジナルノード集合ＰとＵとの間で延びるリンクと比較して現実味が向上しているモデリングを可能にする抽象化の追加層（ノード集合ＰおよびＵを終点とするリンクの始点である）を実現する。図５に示されているようなフレームワークグラフ５５０の実施形態の層間リンク５０４の１つ（隠れた層を持たない）は、図１０に示されているようなフレームワークグラフ５５０の実施形態の隠れた層間リンクの対としてモデル化されるようにできる。隠れた層間リンクの１つは、ノード集合Ｐを含むＷｅｂページ層と隠れた層１０７０との間で延び、隠れた層間リンクの１つは、ユーザ層と隠れた層１０７０との間で延びる。図１０に示されているそれぞれの隠れた層間リンクに付いている矢印の方向は、隠れた層間リンクにより隠れた層内のノードに接続されているそれぞれのノード集合ＰおよびＵ内の特定のＷｅｂページおよびユーザの場合のように、任意である。

ノード集合Ｐを含むＷｅｂページ層と隠れた層１０７０との間で延びるリンク（つまり、隠れた層間リンク）は、Ｗｅｂページｐ_１、ｐ_２などが隠れた層１０７０内の特定の概念ノードＰ（ｃ_１）、Ｐ（ｃ_２）などに属す可能性がどれだけあるかを示す。ユーザ層と隠れた層１０７０との間で延びるリンク（つまり、隠れた層間リンク）は、ユーザノードｕ_１、ｕ_２などが隠れた層１０７０内の特定の概念ノードＰ（ｃ_１）、Ｐ（ｃ_２）などに関心を持つ可能性がどれだけあるかを示す。

したがって、Ｗｅｂページ層と概念層との間で延びるリンクは、それぞれ、Ｗｅｂページｐ_ｉが、Ｐｒ（ｐ_ｉ｜ｃ_ｋ）として表される、概念カテゴリｃ_ｋに分類される確率を表す。フレームワークグラフにより具現化されるこのモデルは、ナイーブベイジアン分類により使用される仮定を共有し、そこでは、異なる単語は条件付き独立であるとみなされる。したがって、概念ｃ_ｋは、正規分布として表すことができる、つまり、期待値に対しベクトル

、
共分散に対し

ベクトルとして表すことができる。値Ｐｒ（ｐ_ｉ｜ｃ_ｋ）は、（１３）により求めることができる。

ここで、ｗ_ｌ，ｉは、ｌ番目の単語に対するＷｅｂページｐ_ｉの重みである。

ユーザ層内のノードと隠れた層内のノードとの間で延びるリンク（Ｐｒ（ｃ_ｋ｜ｕ_ｊ）として表される）は、概念によって反映されるカテゴリ内のユーザの興味を反映する。したがって、１つのベクトル（Ｉ_ｊ１，Ｉ_ｊ２，．．．，Ｉ_ｊｎ），Ｉ_ｊｋ＝Ｐｒ（ｃ_ｋ｜ｕ_ｊ）はそれぞれのユーザに対応し、ｎは隠れ概念の数である。図１０に示されているリンクは、ユーザのベクトルモデルとしてみなしうる。ベクトルは、（１４）で示されているようにユーザの使用度データにより制約される。

したがって、値Ｐｒ（ｃ_ｋ｜ｕ_ｊ）は、（１３）から解を見つけることにより求めることができる。

簡単にするため、Ｐｒ（ｐ_ｉ｜ｕ_ｊ）＝Ｒ_ｉ，ｊ、Ｐｒ（ｐ_ｉ｜ｃ_ｋ）＝Ｓ_ｉ，ｋ、およびＰｒ（ｃ_ｋ｜ｕ_ｊ）＝Ｔ_ｋ，ｊとする。ユーザｊは、（１５）に示されているように別々に考察することができる。

ここで、「|User|」は、ユーザの総数である。

|User|>>|Concept|なので、（１７）に示されているように、Ｓ_ｉ，ｋの最小二乗解も与えることができる。

期待値に対するベクトル

得られた後、共分散に対する新しいベクトル

を計算することが可能である。図１０に例示されているフレームワークグラフ５５０の実施形態は、ノード集合Ｐとノード集合Ｕとの間で延びるが、ノード集合の特定のコンテンツが事実上例示されており、ノード集合のうちのどの集合にも適用されることが可能である。

ユーザオブジェクトに基づいてＷｅｂページオブジェクトがクラスタリングされるクラスタリングアルゴリズムの一実施形態は、図１１で１１００として示されているＷｅｂページクラスタリングアルゴリズムの一実施形態に関して説明されているように、以下のとおりの概要をもつ。

１．１１０２に示されているようにユーザのログのグループを収集する。

２．（１２）および図１１の１１０４に示されているように、ユーザｕ_ｊが特定の時刻にＷｅｂページｐ_ｉにアクセスする確率Ｐｒ（ｐ_ｉ｜ｕ_ｊ）を計算する。

３．図１１の１１０６で隠れ概念層（図１０に示されているように６７０）に対するノードの個数｜Ｃｏｎｃｅｐｔ｜を定義し、図１１の１１０８で期待値に対するベクトル

の初期パラメータおよび共分散の初期ベクトル

を割り当てる。

４．（１３）および図１１の１１１０に示されているように、Ｗｅｂページｐ_ｉが概念カテゴリｃ_ｋに分類される確率を表すＰｒ（ｐ_ｉ｜ｃ_ｋ）値を計算する。

５．図１１の１１１２に示されているように、（１５）で求められる、ユーザノードと隠れた層ノードとの間のリンクに対するユーザの関心を表すＰｒ（ｃ_ｋ｜ｕ_ｊ）を計算する。

６．図１１の１１１４に示されているように、（１３）を解くことにより、アウトラインステップ４で決定されたとおりＷｅｂページが概念カテゴリに分類される確率Ｐｒ（ｐ_ｉ｜ｃ_ｋ）を更新する。

７．（１３）で示されているように、Ｐｒ（ｐ_ｉ｜ｃ_ｋ）を使用することによりそれぞれの隠れ概念ノードに対するパラメータを再推定する。

８．ノード集合の値について何らかの基準を与えるため数回の反復で（または少なくともモデルが安定したノード集合ベクトル結果を示すまで）（１３）および（１５）を実行する。

エンハンストドキュメント取り出しのためのコンテンツ伝播を実現する例示的システムを示す図である。エンハンストドキュメント取り出しのためのコンテンツ伝播を実現する例示的手順を示す図である。エンハンストドキュメント取り出しのためのコンテンツ伝播を実現するシステム、装置、および方法を完全にまたは部分的に実施することができる好適な例示的コンピューティング環境を示す図である。クラスタリングに使用できるコンピュータ環境の一実施形態を示すブロック図である。異種オブジェクトをクラスタリングするためのフレームワークの一実施形態を示すブロック図である。ハイブリッドネットモデルの一実施形態を示すブロック図である。インターネットを対象とするコンピュータ環境の他の実施形態を示すブロック図である。クラスタリングアルゴリズムの一実施形態を示す流れ図である。クラスタリングアルゴリズムの一実施形態を示す流れ図である。隠れた層を含む異種オブジェクトをクラスタリングするためのフレームワークについて他の実施形態を示すブロック図である。クラスタリングアルゴリズムの他の実施形態を示す流れ図である。

Claims

エンハンストドキュメント取り出しのために、コンピュータによって実施されるコンテンツ伝播を実現するシステムおよび方法であって、
１つまたは複数のドキュメントを対象とする参照情報を識別するステップであって、前記参照情報が、前記１つまたは複数のドキュメントを含むデータソースと無関係のデータの１つまたは複数のソースから識別されるステップと、
前記参照情報の近くに配置されているメタデータを抽出するステップと、
前記１つまたは複数のドキュメントのうちの関連する複数のドキュメントのコンテンツに対する前記メタデータのそれぞれの特徴間の関連性を計算するステップと、
前記１つまたは複数のドキュメントのうちのそれぞれのドキュメントについて、前記メタデータの関連する部分に対し、前記それぞれの部分から前記ドキュメントのオリジナルコンテンツの中への特徴の関連性を使用してインデックスを作成するステップとを含み、
前記インデックス作成ステップにより、１つまたは複数のエンハンストドキュメントが生成されることを特徴とする方法。
前記参照情報は、前記１つまたは複数のドキュメントのうちの１つのドキュメントに関連付けられているリンクおよび／または実質的に一意のドキュメントＩＤを含むことを特徴とする請求項１に記載の方法。
前記１つまたは複数のドキュメントは、知識ベースアーティクル、製品ヘルプ、タスク、および／または開発者データであることを特徴とする請求項１に記載の方法。
データの前記１つまたは複数のソースは、サービス要求、ニュースグループポスティング、および／または検索クエリログを含むことを特徴とする請求項１に記載の方法。
前記メタデータは、前記１つまたは複数のドキュメントのうちの複数の関連付けられているドキュメントに意味上および／または文脈上関係することを特徴とする請求項１に記載の方法。
前記メタデータは、ドキュメントのタイトル、製品問題の状況、および／または製品問題解決情報を含むことを特徴とする請求項１に記載の方法。
前記１つまたは複数のエンハンストドキュメントのうちのそれぞれのエンハンストドキュメントについて、前記エンハンストドキュメントが生成された対応するオリジナルドキュメントがあることを特徴とする請求項１に記載の方法。
前記関連性を計算するステップは、前記１つまたは複数のドキュメントのうちの特定の１つのドキュメントが前記メタデータ内の文脈の範囲内で何回識別されるかに基づくことを特徴とする請求項１に記載の方法。
前記メタデータは、アーティクルタイトル、製品問題の状況、および／または製品問題解決情報を含み、関連性を計算するステップは、さらに、前記アーティクルタイトルおよび／または製品問題の状況に重みを付けて、製品問題解決情報より高い関連性を示すステップを含むことを特徴とする請求項１に記載の方法。
関連性を計算するステップは、さらに、前記データソースのコンテンツ内で、前記コンテンツ内の他のメタデータ特徴の出現の頻度と比較してより大きな頻度で出現する前記メタデータの特徴に対し、より大きな関連性を割り当てるステップを含むことを特徴とする請求項１に記載の方法。
関連性を計算するステップは、さらに、前記１つまたは複数のドキュメントのうちの１つのドキュメント内で見つかった前記メタデータの特徴に対し、前記ドキュメントの経過期間に応じて、より大きな重みを割り当てるステップを含むことを特徴とする請求項１に記載の方法。
データの前記１つまたは複数のソースは、検索クエリログを含み、関連性を計算するステップは、さらに、
前記検索クエリログから、前記データソースを検索するために比較的大きな出現頻度（ＦＯＯ）を持つ検索クエリを識別するステップと、
検索クエリ結果からエンドユーザにより選択された、前記データソースからのアーティクルを決定するステップと、
選択されなかった前記検索クエリ内のアーティクルである欠損エンドユーザ選択を決定するステップとを含むことを特徴とする請求項１に記載の方法。
欠損エンドユーザ選択を決定するステップは、さらに、層間リンクを使用して異種オブジェクトをクラスタリングし、前記異種オブジェクトの複数の特徴に対する重要性尺度を決定するステップを含み、前記異種オブジェクトは、類似のクエリの第１のクラスタと、関係するドキュメントの第２のクラスタとを含み、前記類似のクエリは前記検索クエリログで識別されており、前記類似のクエリは前記１つまたは複数のドキュメントを含む関連付けられた検索結果であり、前記関係するドキュメントは、前記関係する複数のドキュメントの個々の複数のドキュメントが前記複数の検索結果からエンドユーザにより選択されたか否かに関係なく前記検索結果で識別されることを特徴とする請求項１２に記載の方法。
前記複数の特徴は、前記第１および第２のクラスタ内のそれぞれの複数のノードにより表され、前記複数のノードのそれぞれに対する前記重要性尺度は、前記第１および第２のクラスタ内のオブジェクト間の距離を測定する類似度関数に基づくことを特徴とする請求項１３に記載の方法。
エンハンストドキュメント取り出しのためのコンテンツ伝播を実現するコンピュータ実行可能命令を格納したコンピュータ可読媒体であって、前記コンピュータ実行可能命令は、
１つまたは複数のドキュメントを対象とする参照情報を識別するための命令であって、前記参照情報が、前記１つまたは複数のドキュメントを含むデータソースと無関係のデータの１つまたは複数のソースから識別されるステップと、
前記参照情報の近くに配置されているメタデータを抽出するステップと、
前記１つまたは複数のドキュメントのうちの関連する複数のドキュメントのコンテンツに対する前記メタデータのそれぞれの特徴間の関連性を計算するステップと、
前記１つまたは複数のドキュメントのうちのそれぞれのドキュメントについて、前記メタデータの関連する部分に対し、前記それぞれの部分から前記ドキュメントのオリジナルコンテンツの中への特徴の関連性を使用してインデックスを作成するステップとを含み、
前記インデックス作成ステップにより、１つまたは複数のエンハンストドキュメントが生成されることを特徴とするコンピュータ可読媒体。
前記参照情報は、前記１つまたは複数のドキュメントのうちの１つのドキュメントに関連付けられているリンクおよび／または実質的に一意のドキュメントＩＤを含むことを特徴とする請求項１５に記載のコンピュータ可読媒体。
前記１つまたは複数のドキュメントは、知識ベースアーティクル、製品ヘルプ、タスク、および／または開発者データであることを特徴とする請求項１５に記載のコンピュータ可読媒体。
データの前記１つまたは複数のソースは、サービス要求、ニュースグループポスティング、および／または検索クエリログを含むことを特徴とする請求項１５に記載のコンピュータ可読媒体。
前記メタデータは、前記１つまたは複数のドキュメントのうちの複数の関連付けられているドキュメントに意味上および／または文脈上関係することを特徴とする請求項１５に記載のコンピュータ可読媒体。
前記メタデータは、ドキュメントのタイトル、製品問題の状況、および／または製品問題解決情報を含むことを特徴とする請求項１５に記載のコンピュータ可読媒体。
前記１つまたは複数のエンハンストドキュメントのうちのそれぞれのエンハンストドキュメントについて、前記エンハンストドキュメントが生成された対応するオリジナルドキュメントがあることを特徴とする請求項１５に記載のコンピュータ可読媒体。
前記関連性を計算するステップは、前記１つまたは複数のドキュメントのうちの特定の１つのドキュメントが前記メタデータ内の文脈の範囲内で何回識別されるかに基づくことを特徴とする請求項１５に記載のコンピュータ可読媒体。
前記メタデータは、アーティクルタイトル、製品問題の状況、および／または製品問題解決情報を含み、関連性を計算する前記命令は、さらに、前記アーティクルタイトルおよび／または製品問題の状況に重みを付けて、製品問題解決情報より高い関連性を示す命令を含むことを特徴とする請求項１５に記載のコンピュータ可読媒体。
関連性を計算する前記ステップは、さらに、前記データソースのコンテンツ内で、前記コンテンツ内の他のメタデータ特徴の出現の頻度と比較してより大きな頻度で出現する前記メタデータの特徴に対し、より大きな関連性を割り当てる命令を含むことを特徴とする請求項１５に記載のコンピュータ可読媒体。
関連性を計算する前記ステップは、さらに、前記１つまたは複数のドキュメントのうちの１つのドキュメント内で見つかった前記メタデータの特徴に対し、前記ドキュメントの経過期間に応じて、より大きな重みを割り当てるステップを含むことを特徴とする請求項１５に記載のコンピュータ可読媒体。
データの前記１つまたは複数のソースは、検索クエリログを含み、関連性を計算する前記ステップは、さらに、
前記検索クエリログから、前記データソースを検索するために比較的大きな出現頻度（ＦＯＯ）を持つ検索クエリを識別するステップと、
検索クエリ結果からエンドユーザにより選択された、前記データソースからのアーティクルを決定するステップと、
選択されなかった前記検索クエリ内のアーティクルである欠損エンドユーザ選択を決定するステップとを含むことを特徴とする請求項１５に記載のコンピュータ可読媒体。
欠損エンドユーザ選択を決定する前記ステップは、さらに、層間リンクを使用して異種オブジェクトをクラスタリングし、前記異種オブジェクトの複数の特徴に対する重要性尺度を決定するステップを含み、前記異種オブジェクトは、類似のクエリの第１のクラスタと、関係するドキュメントの第２のクラスタとを含み、前記類似のクエリは前記検索クエリログで識別されており、前記類似のクエリは前記１つまたは複数のドキュメントを含む関連付けられた検索結果であり、前記関係するドキュメントは、前記関係する複数のドキュメントの個々の複数のドキュメントが前記複数の検索結果からエンドユーザにより選択されたか否かに関係なく前記検索結果で識別されることを特徴とする請求項２６に記載のコンピュータ可読媒体。
前記複数の特徴は、前記第１および第２のクラスタ内のそれぞれの複数のノードにより表され、前記複数のノードのそれぞれに対する前記重要性尺度は、前記第１および第２のクラスタ内のオブジェクト間の距離を測定する類似度関数に基づくことを特徴とする請求項２７に記載のコンピュータ可読媒体。
エンハンストドキュメント取り出しのためのコンテンツ伝播を実現するコンピューティングデバイスであって、
プロセッサと、
前記プロセッサに結合されたメモリであって、
１つまたは複数のドキュメントを対象とする参照情報を識別するステップであって、前記参照情報が、前記１つまたは複数のドキュメントを含むデータソースと無関係のデータの１つまたは複数のソースから識別されるステップと、
前記参照情報の近くに配置されているメタデータを抽出するステップと、
前記１つまたは複数のドキュメントのうちの関連する複数のドキュメントのコンテンツに対する前記メタデータのそれぞれの特徴間の関連性を計算するステップと、
前記１つまたは複数のドキュメントのうちのそれぞれのドキュメントについて、前記メタデータの関連する部分に対し、前記それぞれの部分から前記ドキュメントのオリジナルコンテンツの中への特徴の関連性を使用してインデックスを作成するステップとのために前記プロセッサにより実行可能なコンピュータプログラム命令を格納するメモリとを備え、
前記インデックス作成ステップにより、１つまたは複数のエンハンストドキュメントが生成されることを特徴とするコンピューティングデバイス。
前記参照情報は、前記１つまたは複数のドキュメントのうちの１つのドキュメントに関連付けられているリンクおよび／または実質的に一意のドキュメントＩＤを含むことを特徴とする請求項２９に記載のコンピューティングデバイス。
前記１つまたは複数のドキュメントは、知識ベースアーティクル、製品ヘルプ、タスク、および／または開発者データであることを特徴とする請求項２９に記載のコンピューティングデバイス。
データの前記１つまたは複数のソースは、サービス要求、ニュースグループポスティング、および／または検索クエリログを含むことを特徴とする請求項２９に記載のコンピューティングデバイス。
前記メタデータは、前記１つまたは複数のドキュメントのうちの複数の関連付けられているドキュメントに意味上および／または文脈上関係することを特徴とする請求項２９に記載のコンピューティングデバイス。
前記メタデータは、ドキュメントのタイトル、製品問題の状況、および／または製品問題解決情報を含むことを特徴とする請求項２９に記載のコンピューティングデバイス。
前記１つまたは複数のエンハンストドキュメントのうちのそれぞれのエンハンストドキュメントについて、前記エンハンストドキュメントが生成された対応するオリジナルドキュメントがあることを特徴とする請求項２９に記載のコンピューティングデバイス。
前記関連性を計算するステップは、前記１つまたは複数のドキュメントのうちの特定の１つのドキュメントが前記メタデータ内の文脈の範囲内で何回識別されるかに基づくことを特徴とする請求項２９に記載のコンピューティングデバイス。
前記メタデータは、アーティクルタイトル、製品問題の状況、および／または製品問題解決情報を含み、関連性を計算する前記ステップは、さらに、前記アーティクルタイトルおよび／または製品問題の状況に重みを付けて、製品問題解決情報より高い関連性を示すステップを含むことを特徴とする請求項２９に記載のコンピューティングデバイス。
関連性を計算する前記ステップは、さらに、前記データソースのコンテンツ内で、前記コンテンツ内の他のメタデータ特徴の出現の頻度と比較してより大きな頻度で出現する前記メタデータの特徴に対し、より大きな関連性を割り当てるステップを含むことを特徴とする請求項２９に記載のコンピューティングデバイス。
関連性を計算する前記ステップは、さらに、前記１つまたは複数のドキュメントのうちの１つのドキュメント内で見つかった前記メタデータの特徴に対し、前記ドキュメントの経過期間に応じて、より大きな重みを割り当てるステップを含むことを特徴とする請求項２９に記載のコンピューティングデバイス。
データの前記１つまたは複数のソースは、検索クエリログを含み、関連性を計算する前記ステップは、さらに、
前記検索クエリログから、前記データソースを検索するために比較的大きな出現頻度（ＦＯＯ）を持つ検索クエリを識別するステップと、
検索クエリ結果からエンドユーザにより選択された、前記データソースからのアーティクルを決定するステップと、
選択されなかった前記検索クエリ内のアーティクルである欠損エンドユーザ選択を決定するステップとを含むことを特徴とする請求項２９に記載のコンピューティングデバイス。
欠損エンドユーザ選択を決定する前記ステップは、さらに、層間リンクを使用して異種オブジェクトをクラスタリングし、前記異種オブジェクトの複数の特徴に対する重要性尺度を決定するステップを含み、前記異種オブジェクトは、類似のクエリの第１のクラスタと、関係するドキュメントの第２のクラスタとを含み、前記類似のクエリは前記検索クエリログで識別されており、前記類似のクエリは前記１つまたは複数のドキュメントを含む関連付けられた検索結果であり、前記関係するドキュメントは、前記関係する複数のドキュメントの個々の複数のドキュメントが前記複数の検索結果からエンドユーザにより選択されたか否かに関係なく前記検索結果で識別されることを特徴とする請求項４０に記載のコンピューティングデバイス。
前記複数の特徴は、前記第１および第２のクラスタ内のそれぞれの複数のノードにより表され、前記複数のノードのそれぞれに対する前記重要性尺度は、前記第１および第２のクラスタ内のオブジェクト間の距離を測定する類似度関数に基づくことを特徴とする請求項４１に記載のコンピューティングデバイス。
エンハンストドキュメント取り出しのためのコンテンツ伝播を実現するコンピューティングデバイスであって、
１つまたは複数のドキュメントを対象とする参照情報を識別する識別手段であって、前記参照情報が、前記１つまたは複数のドキュメントを含むデータソースと無関係のデータの１つまたは複数のソースから識別される識別手段と、
前記参照情報の近くに配置されているメタデータを抽出する抽出手段と、
前記１つまたは複数のドキュメントのうちの関連する複数のドキュメントのコンテンツに対する前記メタデータのそれぞれの特徴間の関連性を計算する計算手段と、
前記１つまたは複数のドキュメントのうちのそれぞれのドキュメントについて、前記メタデータの関連する部分に対し、前記それぞれの部分から前記ドキュメントのオリジナルコンテンツの中への特徴の関連性を使用してインデックスを作成するインデックス作成手段とを備え、
前記インデックス作成ステップにより、１つまたは複数のエンハンストドキュメントを生成することを特徴とするコンピューティングデバイス。
前記参照情報は、前記１つまたは複数のドキュメントのうちの１つのドキュメントに関連付けられているリンクおよび／または実質的に一意のドキュメントＩＤを含むことを特徴とする請求項４３に記載のコンピューティングデバイス。
前記１つまたは複数のドキュメントは、知識ベースアーティクル、製品ヘルプ、タスク、および／または開発者データであることを特徴とする請求項４３に記載のコンピューティングデバイス。
データの前記１つまたは複数のソースは、サービス要求、ニュースグループポスティング、および／または検索クエリログを含むことを特徴とする請求項４３に記載のコンピューティングデバイス。
前記メタデータは、前記１つまたは複数のドキュメントのうちの複数の関連付けられているドキュメントに意味上および／または文脈上関係することを特徴とする請求項４３に記載のコンピューティングデバイス。
前記メタデータは、アーティクルタイトル、製品問題の状況、および／または製品問題解決情報を含み、関連性を計算する前記計算手段は、さらに、前記アーティクルタイトルおよび／または製品問題の状況に重みを付けて、製品問題解決情報より高い関連性を示す重み付け手段を含むことを特徴とする請求項４３に記載のコンピューティングデバイス。
関連性を計算する前記計算手段は、さらに、前記データソースのコンテンツ内で、前記コンテンツ内の他のメタデータ特徴の出現の頻度と比較してより大きな頻度で出現する前記メタデータの特徴に対し、より大きな関連性を割り当てる割り当て手段を含むことを特徴とする請求項４３に記載のコンピューティングデバイス。
関連性を計算する前記計算手段は、さらに、前記１つまたは複数のドキュメントのうちの１つのドキュメント内で見つかった前記メタデータの特徴に対し、前記ドキュメントの経過期間に応じて、より大きな重みを割り当てる割り当て手段を含むことを特徴とする請求項４３に記載のコンピューティングデバイス。
データの前記１つまたは複数のソースは、検索クエリログを含み、関連性を計算する前記計算手段は、さらに、
前記検索クエリログから、前記データソースを検索するために比較的大きな出現頻度（ＦＯＯ）を持つ検索クエリを識別する識別手段と、
検索クエリ結果からエンドユーザにより選択された、前記データソースからのアーティクルを決定する決定手段と、
選択されなかった前記検索クエリ内のアーティクルである欠損エンドユーザ選択を計算する計算手段とを含むことを特徴とする請求項４３に記載のコンピューティングデバイス。
前記計算手段は、層間リンクを使用して異種オブジェクトをクラスタリングし、前記異種オブジェクトの複数の特徴に対する重要性尺度を決定するクラスタリング手段を含み、前記異種オブジェクトは、類似のクエリの第１のクラスタと、関係するドキュメントの第２のクラスタとを含み、前記類似のクエリは前記検索クエリログで識別されており、前記類似のクエリは前記１つまたは複数のドキュメントを含む関連付けられた検索結果であり、前記関係するドキュメントは、前記関係する複数のドキュメントの個々の複数のドキュメントが前記複数の検索結果からエンドユーザにより選択されたか否かに関係なく前記検索結果で識別されることを特徴とする請求項５２に記載のコンピューティングデバイス。