JP5203882B2

JP5203882B2 - ディジタル情報探査方法

Info

Publication number: JP5203882B2
Application number: JP2008264167A
Authority: JP
Inventors: ジェイステフィックマーク
Original assignee: Palo Alto Research Center Inc
Current assignee: Palo Alto Research Center Inc
Priority date: 2007-10-12
Filing date: 2008-10-10
Publication date: 2013-06-05
Anticipated expiration: 2028-10-10
Also published as: US8073682B2; US8190424B2; EP2048607B1; JP2009099148A; EP2048607A3; US20120078960A1; EP2048607A2; US20090099839A1

Description

本願は一般に、ディジタル情報のセンスメーキング（ｓｅｎｓｅｍａｋｉｎｇ）に関し、より詳細には、ディジタル情報を探査するためのシステムおよび方法に関する。

この非仮特許出願は、２００７年１０月１２日に出願された米国仮特許出願第６０／９９８６３６号に対して米国特許法１１９条（ｅ）に基づく優先権を主張するものであり、この開示を本願に引用して援用する。

ディジタルセンスメーキングは、ワールドワイドウェブ（「ウェブ」）などのディジタル情報インフラストラクチャが介在するセンスメーキングである。ウェブを介して、ユーザは、様々なソースからの過去の情報を公開する「従来の」ウェブサイトと、モデレータがいるウェブログ、すなわち「ブログ」、ユーザフォーラム、およびユーザが新しい情報を能動的にランク付けすることのできる投票付きウェブサイトを含む対話型ウェブサイトとの両方にアクセスすることができる。

ディジタル情報リポジトリとして、ウェブは、イベントの発生、観念の統合、および新しい傾向の出現に伴って、継続的に発展する。新しい情報が絶えず公開される。しかし、情報認識は、人為的に制約されたままである。主流メディアウェブサイトは一般に、ニュース、ビジネス、政治、スポーツ、娯楽および天気など、人気のあるトピックだけをカバーするが、他のウェブソースを介して追加のトピックも多数存在し、それらのトピックは、読者または発行者の中心的な関心のセットの範囲から外れることがある。これらのトピックは、例えば技術ニュースなどやや人気の劣るトピックから、地域のコミュニティカレッジの夜間クラススケジュールなど、比較的少数の人に関連する特殊なまたは目立たないトピックまでの範囲にわたる。

多くの市場における物への需要は、非特許文献１に記述されているような「ロングテール」分布に従い、この開示を本願に引用して援用する。図１は、ディジタル情報の仮定的なロングテール分布１０を、例として示すグラフである。Ｘ軸はディジタル情報を表し、Ｙ軸は人気レベルを表す。分布のヘッドに見られる項目１１は、数は少ないが最も高い人気を得ており、これらは少数の人気カテゴリに入るメディア報道内容などである。しかし、より読者の少ないニッチトピックをカバーする「ロングテール」に沿った項目１２は、ヘッド項目１１に数で勝る。ヘッド項目１１のどの１つをとってもロングテール項目１２のいずれか１つよりも高い人気を得ているが、十分なロングテール項目１２が含まれるときには、ロングテール項目１２の十分に大きいグループの総計としての人気は、すべてのヘッド項目１１の人気を上回ることになる。このことは、閲覧者をロングテールトピックに気付かせることができるならば、ロングテールトピックに焦点を合わせることによってより大きな閲覧者総体に達することができることを含意する。

情報の消費者は、限られた時間しか有さず、あらゆるものに注意を払うことはできない。より多くのトピックが利用可能になるのに伴い、主流トピックはますます読者からわずかな注目しか受けなくなる。これに似て、プライムタイムのテレビジョン視聴者は現在、ケーブルおよび衛星ネットワークがその番組を改良してその視聴者数を増加させるのに伴って減少している。同様に、音楽「ヒット」は今日、より多くの選択肢および購入オプションが利用可能になるのに伴い、１０年前よりも販売コピー数が少ない。これらの観察から、経済および人気の傾向は、次のように簡潔に要約することができる。すなわち、「選択肢を与えれば人々はそれらを利用する」、また「分布のヘッドは縮小しつつある」。

問題は、単に新しいまたは人気のある情報を見つけることだけではない。問題は、関連性を有したままでありながら既成概念の枠を超える、中心的なトピックの関心の領域外にある新しい情報を見つけることである。すぐに目先のことにとらわれ、よく知っている既知のトピックだけに焦点を当てることによって、新しい考え、または新たに生じている傾向を見逃すリスクがある。読者の中心的なトピックのセットの「フロンティア」上の情報の量は、主な焦点が当てられた情報の本体よりも大きい。さらに、周囲トピックは一般に、読者にとって、中心的なトピックほど重要ではなく、したがって、より見落しやすい。

読者にとって重要になるトピックはしばしば、よく知っている中心的トピックの境界をちょうど越えた所にまず現れる。この周囲のトピックを監視すると、何が生じるにかについて「探知能力を超えた（ｂｅｙｏｎｄｔｈｅｒａｄａｒ）」認識がもたらされ、遥かに遅く注意が情報に払われる場合に遅れた救済策を講じる費用を潜在的に節約することができる。しかし、関連するフロンティア情報を効率的に見つけることは、専門知識のレベルが、中心的トピック情報を識別するために所有されたものよりも本質的に低いので、難しい問題であり得る。この問題は、フロンティア情報トピックの構造の不完全な理解、およびフロンティア情報の適切なソースを識別する際の認識不足によって悪化する。

Ｃ．アンダーソン、「ＴｈｅＬｏｎｇＴａｉｌ：ＷｈｙｔｈｅＦｕｔｕｒｅｏｆＢｕｓｉｎｅｓｓｉｓＳｅｌｌｉｎｇＬｅｓｓｏｆＭｏｒｅ」、（ＨｙｐｅｒｉｏｎＰｒｅｓｓ）（２００６）２００８年８月１２日に出願された同一出願人による係属中の米国特許出願第−号、「ＳｙｓｔｅｍａｎｄＭｅｔｈｏｄｆｏｒＰｅｒｆｏｒｍｉｎｇＤｉｓｃｏｖｅｒｙｏｆＤｉｇｉｔａｌＩｎｆｏｒｍａｔｉｏｎｉｎａＳｕｂｊｅｃｔＡｒｅａ」

したがって、特定の対象領域の中心的トピックを超えて存在する、新しく関連性があり信頼性があるディジタル情報を効率的に探査するためのディジタルセンスメーキングが依然として求められている。

ディジタル情報を探査するためのシステムおよび方法が、新しいもの、本当のもの、および重要なものを提供する。「新しいもの」は一般に、現在の出来事に関する情報を指すが、別の意味では、「新しいもの」は、我々がまだ扱っていない新しいトピックを含む。新たに生じている関心のこうしたトピックは、しばしばフロンティアから生じる。「本当のもの」は、複数の「フロンティア」ソースからの情報がすでに社会的に吟味（ｖｅｔｔｅｄ）されて、関心および信頼性のレベルが確立されていることを意味する。「重要なもの」は、読者の対象領域の重要なトピックに従って情報が自動的に分類されることを意味する。

新しく関連性のあるディジタル情報は、読者の「ホーム」、すなわち通常のフロンティアコミュニティによって、および近隣のフロンティアコミュニティによって開示される。それぞれの読者コミュニティは、知識分野専門家すなわち「少人数の精力的な仕事」によって導かれるきめ細かいトピック式インデックスを利用すること、大規模なユーザコミュニティすなわち「多人数の軽い仕事」または「集団の知恵」によるランク付けとよりよいカテゴリ化に関する提案とを集約すること、および、機械支援学習すなわち「機械の根気強い仕事」を介してトピック式インデックスを拡張することにより情報を開示する。それぞれの増強コミュニティはエバーグリーンインデックスを有し、このエバーグリーンインデックスは、各トピックおよびサブトピックについて、所与のマテリアルが適合するかどうかテストするのに使用できるパターンなどのトピックモデルを含む。「エバーグリーン」という用語は、インデックスの新鮮さおよび現在性の質を暗示するものとし、したがって、新しい記事は、出現したときに自動的に分類されてインデックスに追加されることになり、必要に応じて新しいトピックをインデックスに追加することができる。

ディジタル情報は、読者の所与のまたは「ホーム」の増強コミュニティの観点から探査される。ホーム増強コミュニティの情報「フロンティア」上の１つ以上の増強コミュニティが、知識領域の専門知識、または候補フロンティアコミュニティの自動提案によってまず識別される。フロンティア増強コミュニティのエバーグリーンインデックスの下に現れる記事に割り当てられる関心度は、増強コミュニティのエバーグリーンインデックスの下でフロンティア情報が有し得る関連性の初期推定として決定される。次いで、集合的に吟味するため、増強コミュニティのエバーグリーンインデックスの下、フロンティア情報のより有望な記事が、インデックスの下ですでに吟味された記事と共に組み合わされる。

一実施形態は、ディジタル情報を探査するためのシステムおよび方法を提供する。ディジタル情報のコーパス内のホーム対象領域のホームエバーグリーンインデックスが維持され、コーパスに合致したトピックモデルを含む。ホーム対象領域とはトピックの点で異なるコーパス内のフロンティア対象領域のフロンティアエバーグリーンインデックスが識別される。フロンティアエバーグリーンインデックスのトピックモデルによって識別されたコーパスからのフロンティア記事の品質査定が得られる。正の品質査定を有するフロンティア記事は、ホームエバーグリーンインデックス内のトピックモデルに対して再分類される。フロンティア記事は、ホームエバーグリーンインデックス内のトピックモデルに対して以前に分類されたホーム記事を含む表示内に提供される。

全体を通して以下の用語を使用するが、これらの用語は、特に示さない限り以下の意味を有する。

コーパス：記事、文書、ウェブページ、電子書籍、または、印刷物として利用可能な他のディジタル情報の、集まりまたはセット。

文書：コーパス内の個別の記事。文書はまた、本の章または節、あるいは、より大きな著作物の他の下位区分を含むこともできる。１つの文書が、種々のトピックに関するいくつかの引用ページを含む場合がある。

引用ページ：ページ番号などインデックスに引用されている文書内の位置。引用ページは、単一のページとすることもでき、あるいは１組のページとすることもできるが、これは例えば、サブトピックがトピックモデルにより拡張され、１組のページが、トピックモデルに合致するすべてのページを含む場合である。引用ページはまた、トピックモデルが合致することのできる、ページ全体よりも小さいもの（段落など）とすることもできる。

対象領域：エバーグリーンインデックスを含めたソーシャルインデックス中のトピックまたはサブトピックのセット。

トピック：ソーシャルインデックス内の単一のエントリ。エバーグリーンインデックス中では、トピックには、パターンなど、コーパス内の文書との照合に使用されるトピックモデルが付随する。

サブトピック：ソーシャルインデックス内のトピックの下に階層的にリストされる単一のエントリ。エバーグリーンインデックス中では、サブトピックにもトピックモデルが付随する。

コミュニティ：特定の対象領域中の主要な関心トピックをオンラインで共有し、相互間の対話が少なくとも部分的にコンピュータネットワークで媒介される人々のグループ。対象領域は、ヨットレースや有機園芸のような趣味、歯学や内科学のような専門的関心、または遅発性糖尿病の管理のような医学的関心など、大まかに定義される。

増強コミュニティ：対象領域に関するソーシャルインデックスを有するコミュニティ。増強コミュニティは、ソーシャルインデックスによって引用された対象領域内の文書の閲覧および投票に参加する。

エバーグリーンインデックス：エバーグリーンインデックスは、コーパスと共に最新の状態を継続的に維持するソーシャルインデックスである。

ソーシャルインデクシングシステム：増強コミュニティ間の情報交換を容易にし、ステータスインジケータを提供し、対象文書をある増強コミュニティから別の増強コミュニティに渡すのを可能にする、オンライン情報交換インフラストラクチャ。相互接続された１組の増強コミュニティが、コミュニティの社会的ネットワークを形成する。

情報ダイエット：情報ダイエットは、ユーザが「消費」する情報、すなわち関心のある対象にわたって読む情報を、特徴付ける。例えば、ユーザは、自分の情報消費活動において、自分の時間の２５％を選挙ニュースに費やし、１５％を地域社会ニュースに費やし、１０％を娯楽トピックに費やし、１０％を親類に関係のある健康トピックに関する新しい情報に費やし、２０％を自分の特定の専門的関心事における新しい進展に費やし、１０％を経済進展に費やし、１０％をエコロジーおよび新エネルギー源における進展に費やす場合がある。ソーシャルインデクシングのためのシステムが与えられれば、ユーザは、自分の情報ダイエット中の自分の主要な関心のそれぞれにつき、別々の増強コミュニティに加入することまたはそれをモニタすることができる。

ウェブおよび他のオンライン情報リソースは、絶えず発展し拡張し続けるディジタル情報ソースを提供する。ディジタルセンスメーキングは、これらのリソース中の情報から意味を理解することに関するものである。図２は、ソーシャルインデクシング２１における課題、すなわちディジタル情報の開示２２、探査２３、および適応２４を示す機能ブロック図２０である。他の課題も可能である。これらの課題は情報採集の種々の面を表し、これらの面は、トピックの点できめ細かい、社会的に吟味されるインフラストラクチャを介して、新しく関連性があり信頼性があるディジタル情報を提供するように、相乗作用的に働く。次に、各課題について要約する。

ディジタル情報開示２２は、中心的な関心のセットについて、新しい、トピックの点で関連性のある情報を識別することに焦点を合わせる。これについては、２００８年８月１２日に出願された同一出願人による係属中の米国特許出願「ＳｙｓｔｅｍａｎｄＭｅｔｈｏｄｆｏｒＰｅｒｆｏｒｍｉｎｇＤｉｓｃｏｖｅｒｙｏｆＤｉｇｉｔａｌＩｎｆｏｒｍａｔｉｏｎｉｎａＳｕｂｊｅｃｔＡｒｅａ」にさらに記載されており、この開示を本願に引用して援用する。ディジタル情報の開示は、各自が中心的な関心のセットを有し、ロングテールトピックを含めた、中心的な関心内の様々な重要性レベルの複数のトピックにわたる情報を必要としているということを前提として開始する。鍵となる課題は、中心的な関心に関する新しい情報を効率的に追跡することにある。

本出願の焦点であるディジタル情報探査２３は、図７の参照以降でさらに後述するように、観念統合の助けとして個人の情報フロンティアを採集または採掘することに焦点を合わせる。情報探査は、コミュニティの社会的ネットワークを利用することにより、ディジタル情報開示２２を介して基本的に満たされる個人の情報ダイエットを既存の関心を越えて拡張する。例えば、地域ニュースに関する情報フロンティアは、近隣の町および都市からのニュースを含む。別の例として、かかりつけの歯科などの専門的関心に関する情報フロンティアは、関係する分野からの関連トピック、例えば歯科衛生、新しい歯科用マテリアル、およびおそらく、新しい抗生物質、または美容歯科からの結果を潜在的に含む。ディジタル情報探査は、未知の新しいトピックグラウンドをカバーする際に、注意が逸らされたり非効率的になったりするリスクを冒さずに、効果的に注目を割り振ることを容易にする。鍵となる課題は、フロンティアに沿った近隣対象領域から最も関連性のある情報を見つけることにある。

最後に、ディジタル情報適応２４は、馴染みのない対象領域に適応することに関するものである。これについては、２００８年８月１２日に出願された同一出願人による係属中の米国特許出願第１２／１９０５５７号にさらに記載されており、この開示を本願に引用して援用する。ディジタル情報適応は、新しい対象領域の理解を効率的に得ることに関するものである。この活動は、情報開示および情報フロンティア探査と相補的であり、主題について全体的に知るために領域を探索することが目的である場合を反映する。この活動は、トピック構造および主要な結果を知ること、ならびに適切な参照を識別することを含む。

ディジタルセンスメーキングは、ディジタル情報インフラストラクチャが介在するセンスメーキングであり、ディジタル情報インフラストラクチャは、インターネットなどの公衆データネットワークと、スタンドアロンコンピュータシステムと、ディジタル情報の様々なリポジトリとを含む。図３は、ディジタル情報センスメーキングのための例示的な環境３０を示すブロック図である。同じ基本的なシステムコンポーネントが、ディジタル情報の開示２２、探査２３、および適応２４に利用される。

ディジタル情報は、ディジタル形式で利用可能な情報である。インターネットなどのディジタルデータ通信ネットワーク３１が、適したディジタル情報交換インフラストラクチャを提供するが、他のインフラストラクチャ、例えば私設の法人企業ネットワークも可能である。ネットワーク３１は、ディジタル情報の提供およびディジタル情報へのアクセスをそれぞれ行う様々な情報ソースおよび情報消費者への、相互接続性を提供する。ウェブサーバ３４ａ、ニュースアグリゲータサーバ３４ｂ、投票付きニュースサーバ３４ｃ、および他のディジタル情報リポジトリが、情報ソースとしての働きをする。これらのソースはそれぞれ、ウェブコンテンツ３５ａ、ニュースコンテンツ３５ｂ、コミュニティによって投票される、すなわち「吟味される」コンテンツ３５ｃ、および他のディジタル情報を、パーソナルコンピュータや類似のデバイスなど、情報消費者として機能するユーザデバイス３３ａ〜ｃに供給する。

一般に、各ユーザデバイス３３ａ〜３３ｃは、サーバ３４ａ〜３４ｃとのインタフェーシングおよび情報交換をサポートするウェブブラウザまたは類似のアプリケーションを実行するウェブ対応デバイスである。ユーザデバイス３３ａ〜３３ｃとサーバ３４ａ〜３４ｃは両方とも、中央処理装置、メモリ、入出力ポート、ネットワークインタフェース、および不揮発性記憶装置など、プログラム可能な汎用コンピューティングデバイス中に従来見られるコンポーネントを備えるが、他のコンポーネントも可能である。さらに、サーバ３４ａ〜３４ｃに代えてまたは追加で、他の情報ソースも可能であり、ユーザデバイス３３ａ〜３３ｃに代えてまたは追加で、他の情報消費者も可能である。

ディジタルセンスメーキング、および特にディジタル情報探査２３は、ソーシャルインデクシングシステム３２によって容易になる。ソーシャルインデクシングシステム３２もまた、ネットワーク３１を介して情報ソースおよび情報消費者に相互接続される。ソーシャルインデクシングシステム３２は、読者の対象領域内の中心的トピックに関してフロンティア増強コミュニティからディジタル情報を自動探査することを容易にする。

ユーザの視点からは、ソーシャルインデクシングシステムは単一の情報ポータルに見えるが、実際にはこれは、統合ディジタル情報処理環境によって提供される１組のサービスである。図４は、図３のソーシャルインデクシングシステム３２中で使用される主要なコンポーネント４０を示す機能ブロック図である。これらのコンポーネントはディジタル情報探査に焦点が合わせられており、他のコンポーネントを使用してディジタル情報開示、適応、関心度、および他のサービスを提供することもできる。

コンポーネント４０は、情報収集４１、探査および分析４２、ユーザサービス４３の、３つの機能領域に大まかにグループ化することができるが、他の機能領域も可能である。これらの機能グループは、相互接続され相互依存しており、同じまたは別々の計算プラットフォーム上で実施することができる。情報収集４１は、ウェブコンテンツ３５ａ、ニュースコンテンツ３５ｂ、および「吟味される」コンテンツ３５ｃなどの入来コンテンツ４６を、ウェブサーバ３４ａ、ニュースアグリゲータサーバ３４ｂ、および投票付きニュースサービス３４ｃを含めた情報ソースから得る。情報源は、ホーム増強コミュニティと、情報がそこから探査された、選択された近隣フロンティアコミュニティの両方にコンテンツを提供するフィードおよびソースを含む。入来コンテンツ４６は、スケジューラの指示の下で動作して定期的にまたはオンデマンドで新しい情報を情報ソースから収穫するメディアコレクタによって収集される。入来コンテンツ４６は、構造化されたリポジトリに記憶してもよく、あるいは、入来コンテンツの実際のコピーをローカルに維持する代わりに、入来コンテンツへの参照または引用だけを保存することによって、例えばハイパーリンクを記憶することによって、間接的に記憶してもよい。

探査および分析４２は、中心的関心の対象ではない情報を追跡し、読者の注目のある割合をフロンティアニュースへと有効にそらせる。フロンティアコミュニティ識別子４４は、図９に関して下記にさらに述べるように、増強コミュニティの中心的対象領域の「フロンティア」上にある近隣の増強コミュニティを突き止め、情報収集４１への情報源を識別する。その後、フロンティア情報積分器４５は、図１０および図１１を参照して下記にさらに述べるように、フロンティアコミュニティから受信された記事をランク付けする際に使用する関心度を決定し、収集されたフロンティア情報を、増強コミュニティのエバーグリーンインデックス内に現れるトピックおよびサブトピックに関連付ける。

最後に、ユーザサービス４３は、配信インデックス４７および入来コンテンツ４６にアクセスするためのフロントエンドをユーザ４８ａ〜４８ｂに提供する。各エバーグリーンインデックス４９は、「増強」コミュニティとして知られるユーザのコミュニティに結び付けられ、「増強」コミュニティは、中心的な対象領域中の、進行中の関心を有する。コミュニティは、以下で図１２からさらに論じるように、引用された情報を、その情報が割り当てられたトピック内での投票５０によって「吟味」する。

情報「ダイエット」は、ユーザが特別な関心のある対象にわたってどんな情報を消費するか、ならびに、フロンティア増強コミュニティからの選ばれたコンテンツを特徴付ける。ダイエットはまた、ユーザが各対象を「消化」することに割り振るのをいとわない時間量を反映する。ディジタル情報探査は、ダイエットの第１のアスペクトに、すなわち特別な関心のある対象中の情報に寄与する。

ユーザの情報ダイエットを満たすために、中心的なトピックのセット外から関連性および信頼性のあるディジタル情報を探査することが重要である。あらゆる種類のデータがオンラインで広く利用可能であるものの、ソースから直接得られる「生の」ディジタル情報には一般に、包括的な編成方式および適当なランク付け方法がない。図５は、ディジタル情報プロバイダの現在の編成状況の例としてグラフ６０を示した図である。双方向のＸ軸は、ディジタル情報のトピック編成の程度を示し、双方向のＹ軸は、批評レビューすなわち「吟味」の量を表す。Ｘ軸の左端６２の情報は、まとまりのあるトピック編成に欠け、単一の対象領域を参照する。従来の手法の下では、情報はかなり静的であり、編成は少数のトピックに限られる。Ｘ軸の右端６３の情報は、きめ細かくリッチなトピック編成を受け、複数の対象領域をカバーする。各対象領域は、多くのサブトピックに深く編成される。

Ｙ軸は、記事を「吟味」およびランク付けするのに用いられる専門知識および労力の量を特徴付ける。Ｙ軸の最下部では、記事にはどんな編集も施されず、記事はどんな吟味もなしに提示される。原点６１に近づくと、少数の編集者までの小規模なチームが記事の吟味に関与する。Ｙ軸のより高い所では、人々の単一コミュニティ、すなわち「多人数の軽い仕事」および「集団の知恵」が、能動的に記事を閲覧し、投票または吟味する。Ｙ軸の最上部では、複数のコミュニティが記事を吟味し、各コミュニティは特定の対象領域に焦点を合わせる。

現在の手法はせいぜい、粗く編成され、批評的な重み付けまたは「吟味」が軽く行われるだけである。例えば、南西象限では、従来の編成手法は、大まかできめの粗い、あるいは存在しないトピック編成６２を使用し、吟味する編集者はほとんどいないか全くいない（６４）。ｗｗｗ．ａｕｄｉｏｐｈｉｌｉａ．ｃｏｍで利用可能なＡｕｄｉｏｐｈｉｌｉａ、およびｗｗｗ．ｈｙｂｒｉｄｃａｒｓ．ｃｏｍで利用可能なｈｙｂｒｉｄｃａｒｓなど、専門ウェブサイト６６は、単一の専門編集者によって導かれる狭い読者基盤に対応し、主題の中心はニッチトピックに置かれ、このニッチトピックの下にさらなるトピック編成は必要とされず望まれもしない。ｗｗｗ．ｇｏｏｇｌｅ．ｃｏｍ／ｒｅａｄｅｒで利用可能なＧｏｏｇｌｅリーダなど、ＲＳＳリーダ６７は、専用トピックに関する自動化されたフィードの下で自動的に新しい情報を報告する。同様に、ｎｅｗｓ．ｇｏｏｇｌｅ．ｃｏｍで利用可能なＧｏｏｇｌｅニュースなど、自動化された主流メディアウェブサイト６８は、限られた人気ニュースカテゴリを使用し、これらのカテゴリの下に、情報が編集者の必要なしに自動的にグループ化される。しかし、記事のカテゴリ化は、非常に粗いきめによって制限され、このような大まかなカテゴリ中での記事分類は、技術ニュースやスポーツニュースなど単一トピックのソースから記事を選択することによって行われる可能性がある。最後に、ｗｗｗ．ｎｙｔｉｍｅｓ．ｃｏｍで利用可能なＮｅｗＹｏｒｋＴｉｍｅｓ、およびｗｗｗ．ｃｎｅｔ．ｃｏｍで利用可能なｃｎｅｔなど、主流メディアウェブサイト６９は、ニュースを人気ニュースカテゴリに編成する個別の編集者または小規模な編集者チームを雇っており、これらのカテゴリは、自動化された主流メディアウェブサイト６８を介して利用可能なトピックよりも広い範囲のトピックを含む場合がある。コミュニティベースの、公平であると推定される吟味が欠けていること、および、きめ細かいトピック編成が欠けていることにより、これらの手法は、関心を持つ増強コミュニティに関連する、または関心を持つかもしれない近隣コミュニティに関連する、広範囲の対象領域をカバーする情報を提供することができない。

やや対照的に、北西象限では、現在の手法はまた、大まかできめの粗い、あるいは存在しないトピック編成６２を使用し、個別のまたは小規模コミュニティのユーザによる吟味６５を提供する。ｇｏｏｇｌｅｂｌｏｇ．ｂｌｏｇｓｐｏｔ．ｃｏｍで利用可能なＧｏｏｇｌｅブログ検索、およびｗｗｗ．ｉｃｅｒｏｃｋｅｔ．ｃｏｍで利用可能なｉｃｅｒｏｃｋｅｔなど、ブログ検索エンジン７０は、ブログ専用のウェブ検索エンジンだが、ブログは、トピック編成を使用せずに受動的に検索される。ｗｗｗ．ｔｏｐｉｘ．ｃｏｍで利用可能なＴｏｐｉｘなど、ニュースアグリゲータ７１は、ＺＩＰコードによって編成されたニュースを、広範な、通常は人気のあるトピック領域に、自動的にまとめるものであり、限られたコミュニティベースのレビューを伴う。最後に、ｗｗｗ．ｓｌａｓｈｄｏｔ．ｏｒｇで利用可能なＳｌａｓｈｄｏｔ、ｗｗｗ．ｒｅｄｄｉｔ．ｃｏｍで利用可能なＲｅｄｄｉｔ、およびｗｗｗ．ｄｉｇｇ．ｃｏｍで利用可能なＤｉｇｇなど、投票付きニュースウェブサイト７２は、わずかによりきめ細かい、しかしなお比較的大きいトピックカテゴリを提供し、単一ユーザコミュニティによる吟味を伴う。個別のまたは小規模なユーザコミュニティに批評レビューを開放することにより、公平さが増大し、したがって信頼性に対するユーザの確信が増大するが、きめ細かいトピック編成が同様に欠けていることにより、新しい関連情報のカスタマイズされた開示ができない。北西象限の手法はまた、ＲｅｄｄｉｔおよびＤｉｇｇウェブサイトをよく訪れる「技術屋ゲーマー」コミュニティに代表されるような単一ユーザコミュニティに制限されるか、あるいはＴｏｐｉｘウェブサイトのように複数のコミュニティを有するが、きめ細かいトピックカバー範囲または多様な対象領域がない。Ｄａｙｌｉｆｅなど、他の手法もなお存在する。Ｄａｙｌｉｆｅは、典型的なニュースウェブサイトよりも多くのトピックを有するが、やはり、きめ細かいトピックを含む階層型のトピック式インデックスに情報を編成しない。さらにこのサイトは、メンバとメンバのインデックスとを伴うコミュニティに編成されず、ユーザが新しいコミュニティを定義することもできない。

前述の従来手法とは対照的に、本明細書に述べる手法は、（１）Ｘ軸の右端を使用可能にするためのインデックス訓練および外挿と、（２）Ｙ軸の上端を使用可能にするための、複数の増強コミュニティ中での投票とを用いる。ソーシャルインデクシングシステム７３は、複数のユーザコミュニティによる吟味６５と共に、エバーグリーンインデックス４９を介したきめ細かいトピック編成６３を提供することにより、北東象限を独自に占める。ソーシャルの部分は、プロセスにおける人的要素を指す。この組織的手法およびコミュニティベースの吟味によって、各ユーザがホームコミュニティと、選択された近隣コミュニティの両方から、関連性と信頼性の両方を有する情報を受信することが保証される。

エバーグリーンインデックスは、専門家によって選択されたトピック関節に沿ってマテリアルを識別し、関係付けるが、これらのトピックの結合は、重要なマテリアルについて、専門家の視点をその増強コミュニティに代わって反映する。エバーグリーンインデックスは、増強コミュニティ内の人々がどのように引用情報を使用することになるかについての判断を具現し、主題の専門家の、重要なトピックとこれらのトピックが論じられている場所への参照との関連付けを反映する。

情報をきめ細かいカテゴリに分割することで、いくつかの機能が可能になる。これには、記事投票を、１つまたは少数の大きい対象領域グループのみではなく、きめ細かいトピックグループに分離する機能を提供することが含まれる。この機能はまた、記事の質をきめ細かく推定することを可能にし、トピック内の記事の有意義な比較をもたらす。この機能がなければ、投票の有用性は主に、「最も人気のある」報道内容を決定するためである。ロングテールの報道内容、すなわち狭い関心の報道内容は、本質的に視野から消える。階層型トピック編成のもう１つの利益は、ユーザによって編集可能な「ウィキ（ｗｉｋｉ）のような」注解をコミュニティ中の各トピックに関連付ける能力を可能にする。この能力は、各トピックのコミュニティ議論および要約のための場を提供する。

エバーグリーンインデックスは、監視付き機械学習を介して作成され、インデックス外挿によって適用される。これについては、２００８年８月１２日に出願された同一出願人による係属中の米国特許出願第１２／１９０５５２号にさらに記載されており、この開示を本願に引用して援用する。図６は、エバーグリーンインデックス訓練の概要を示すデータフローチャートである。簡単に述べると、エバーグリーンインデックス８８は、トピックまたはサブトピック８９をトピックモデル９０と対にすることによって形成される。エバーグリーンインデックス８８は、本やウェブページへのハイパーリンクなどの従来のインデックス、または既存のエバーグリーンインデックスであり得る訓練インデックス８１から開始して訓練される。それぞれのインデックスエントリ８２について、シードワード８４が、訓練インデックス８１内のトピックおよびサブトピックのセットから選択される（操作８３）。パターンなどの候補トピックモデル８６が、シードワード８４から生成される（操作８５）。トピックモデルは、従来のインデックスで見られるような直接ページ引用を、所与のテキストがトピックから外れていないかどうかテストするために使用できる表現に変換する。トピックモデルは、パターン、ならびに用語ベクトル、または他の任意の形のテスト可能な表現として指定することができる。最後に、候補トピックモデル８６が、正および負の訓練セット９１および９２に対して評価される（操作８７）。候補トピックモデル８６は、複雑さの低い順および確率の高い順に生成されるので、最良の候補トピックモデル８６が通常、最初に生成される。単純な、または複雑さの低い候補トピックモデル８６の方を優遇することにより、トピックモデル評価部は、オッカムのかみそりの哲学に従って、データを説明する最も単純な候補トピックモデル９６を選択する。構造の複雑さを考慮することは、特に訓練データが乏しいときに、機械学習におけるオーバーフィッティングを回避するのにも有用である。

エバーグリーンインデックスを使用する新しいディジタル情報の自動分類は、連続的なプロセスである。エバーグリーンインデックス８８内のトピックモデル９０によって、新しい、関連性のあるディジタル情報を、インデックス外挿を用いてトピック８９によって自動的に分類することが可能となる。従来のインデックスとは異なり、エバーグリーンインデックス８８は、引用ではなくトピックモデル８９を含み、このトピックモデル８９によって、エバーグリーンインデックス８８は、特定のディジタル情報に結合され、また任意のディジタル情報を介して適用可能な動的構造として機能することができる。新しいページ、記事、またはディジタル情報の他の形が、ウェブクローラーなどによって自動的に、または増強コミュニティまたは他のコミュニティによって手動で識別される。ページは、情報に最も適合するトピックまたはサブトピック８９を決定するために、エバーグリーンインデックス８８のトピックモデル９０と照合される。あらゆるドキュメントが、正確に合致するトピックモデル９０を見つけるとは限らない。一部の情報は、誤って照合されることがあり、他の情報は、全く合致せず、新しいトピックまたはサブトピック８９としてエバーグリーンインデックス８８に依然として追加するに値し得る。

増強コミュニティは、関連する主題に関心があるネットワーク内のコミュニティ間の関係を表現するソーシャルネットワークとして構成することができる。図７は、例を挙げるため、増強コミュニティの近隣１００を示すブロック図である。近隣の増強コミュニティは、主題の他の領域、および共通の情報関心を共有する個人のグループを表す。

それぞれの増強コミュニティは、中心的主題に焦点を当てるそれ自体のエバーグリーンインデックスを有し、類似の主題に焦点を当てる増強コミュニティは、トピックの点で関連性があり、ホーム増強コミュニティの情報フロンティア上でより近いものに見える。例えば、カリフォルニア州パロアルトなど、特定の都市の住民は、その都市に関する報道価値のある出来事に焦点を当てるためにそれ自体のエバーグリーンインデックス１０３を作成することによって増強コミュニティを形成し得る。スタンフォード大学、メンロパーク、東パロアルトおよびマウンテンビューを含めて、複数の土地および地方が、パロアルトに隣接する。それぞれのエバーグリーンインデックス１０４ａ〜１０４ｄは、パロアルト増強コミュニティのエバーグリーンインデックス１０３にトピックの点で関連性があり、パロアルトに物理的に隣接する都市および地方を表すことによって情報フロンティアを集団的に特徴付ける。

フロンティア増強コミュニティの選択は、増強コミュニティの情報境界のより近くにあるフロンティアコミュニティを優遇するように偏向させることができる。例えばカリフォルニア州サニーベールは、マウンテンビューの南の隣接都市であり、したがって、サニーベールのエバーグリーンインデックス１０５は、マウンテンビューの情報フロンティアの最も近い端にあるが、パロアルトの情報フロンティアからは、一分離度さらに離れる。したがって、スタンフォード大学など、より近いフロンティアコミュニティからのフロンティア情報は、サニーベールのようにより遠いコミュニティから生じたフロンティア情報よりも密接に関連しているので優遇される。

さらに、複数のフロンティア増強コミュニティに共通した振舞いは、フロンティア情報がホーム増強コミュニティによってどのように選択されるかに間接的に影響を及ぼし得る。例えば、メンロパーク、東パロアルトおよびマウンテンビューコミュニティの郡課税問題に関する記事への同様に強い格付けは、パロアルト増強コミュニティのメンバにとって重要である可能性が高いトピックを示すものであり得る。したがって、強い正の吟味など、類似の振舞いによって選択されたフロンティアコミュニティからのフロンティア情報が優遇され得る。

パロアルト、スタンフォード大学、メンロパーク、東パロアルト、マウンテンビューおよびサニーベールは、ソーシャルネットワーク１０１ａを形成し、このソーシャルネットワーク１０１ａは、ミッド−ペニンシュラベイエリア住民にとって関心のあるローカルニュースによって、トピックの点で関連付けられる。これらの増強コミュニティは一般に、コミュニティレベルで反射情報フロンティアを定義する。より広い尺度では、それぞれが医学、野球およびオートバイなどのより幅広いトピックに関する他のソーシャルネットワーク１０１ｂ〜１０１ｄもまた、増強コミュニティの領域内にあることがあり、個々のコミュニティメンバレベルで、よりきめ細かく情報フロンティアを定義し得る。トピックの点でより離れており、さらにはトピックの点で関連性のないソーシャルネットワーク１０２ａ〜１０２ｂもまた、増強コミュニティ領域を占めることがある。これらのソーシャルネットワーク１０２ａ〜１０２ｂは潜在的情報フロンティアを表しており、この潜在的情報フロンティアでは、それらは、そのそれぞれの中心的主題を他のソーシャルネットワーク１０１ａ〜１０１ｄ、すなわちより具体的には増強コミュニティのエバーグリーンインデックス１０３、１０４ａ〜１０４ｄ、１０５に関連付ける際に積極的な役割を果たしていない。

増強コミュニティは、他のすべての増強コミュニティを除外するように孤立状態では存在していない。より正確に述べると、増強コミュニティは、コミュニティのソーシャルネットワークと共存しており、このコミュニティの一部は増強コミュニティの中心的な関心とより密接に連携しており、他のコミュニティは、そうでない。したがって、ディジタル情報の探査は、トピックの点で関連性のある増強コミュニティを見つけ、ホーム増強コミュニティの利点に類似の主題の吟味を活用することに焦点を当てる。図８は、一実施形態によるディジタル情報を探査するための方法１２０を示すデータフロー図である。方法１２０は、サーバまたは他のコンピューティングデバイスによって一連のプロセスステップとして実施される。

増強コミュニティは、そのメンバが集団的に１つまたは複数の中心的トピックに注目する社会集団として働く。関連する増強コミュニティによって形成されたソーシャルネットワーク内で、個人のホーム増強コミュニティ１２１は、コミュニティの中心的な関心を反映するトピックおよびサブトピック１２４をリストする、コミュニティのエバーグリーンインデックス１２３によって特徴付けられる。それぞれのフロンティア増強コミュニティ１２２は、そのコミュニティの中心的関心を反映するトピックおよびサブトピック１２８のエバーグリーンインデックス１２７によって特徴付けられる。

それぞれの増強コミュニティ１２１および１２２は、ウェブサイトおよびフィードなど、情報源１２５，１２９にアクセスし、それぞれのエバーグリーンインデックス１２３および１２７に固有のトピックモデルによってそれ自体の中心的関心の領域を見つける（ｃａｒｖｅｏｕｔ）。エバーグリーンインデックス１２３および１２７は、ディジタル情報開示（操作１３１ａ〜１３１ｂ）を介して生成される。これについては、２００８年８月１２日に出願された同一出願人による係属中の米国特許出願第１２／１９０５５２号に記載されており、この開示を本願に引用して援用する。トピック関心の相互関連性および重複は、特定のコミュニティの情報フロンティアを構成する各増強コミュニティの情報境界に沿って生じる。

それぞれの増強コミュニティ１２１，１２２は、情報が割り当てられているトピックまたはサブトピック１２４，１２８内の投票によって、ソース１２５，１２９から引用された情報を吟味し、それによって、トップ記事１２６，１３０がまとめて決定される。図９を参照して下記にさらに述べるように、情報探査は、まずフロンティアコミュニティを識別すること（操作１３２）から開始する。次いで、ホーム増強コミュニティ１２１は、図１０を参照して下記にさらに述べるように、フロンティアコミュニティのエバーグリーンインデックス１２７内のフロンティア情報に与えられた関心度を決定することによって「多人数の軽い仕事」または「集団の知恵」を利用する。次いで、トップ記事１２６および１３０は、図１１を参照して下記にさらに述べるように、フロンティア情報をホーム増強コミュニティ自体のトピックおよびサブトピック１２４のリストに関連付けることによって共有される（操作１３４）。他の操作も可能である。

フロンティア情報は、他の増強コミュニティの関連記事を認識するようになることによってメンバが利益を得ることがあるという前提の下、増強コミュニティにとって重要であると見なされる。最初に、フロンティアコミュニティを見つけなければならない。図９は、図８の方法１２０で使用するフロンティア増強コミュニティを識別するためのルーチン１４０を示すフローチャートである。フロンティアコミュニティは、知識領域エキスパート、すなわちエバーグリーンインデックスのトピックを導く責任を担うホーム増強コミュニティのリーダーによって、手動の選択（ブロック１４１）により識別することができる。コミュニティの中心的関心との十分な関連性を有しているとリーダーが見なす増強コミュニティは、コミュニティの情報フロンティアに属するものとして識別され、明示的に接続される。

あるいは、フロンティアコミュニティは、類似性尺度を生成すること（ブロック１４２）、および最も強い類似性を示すコミュニティ間から候補の隣接コミュニティを示唆すること（ブロック１４３）によって自動的に選択することができる。類似性尺度は、ソーシャルネットワーク内のコミュニティの各中心的関心の潜在的な重複を反映するものである。重複は、フィードの同じ情報源、同じ記事の引用に依存し、またはそれぞれのエバーグリーンインデックス内の比較可能なトピックモデルを使用することによって示唆され得る。類似性尺度は、類似性または非類似性の具体的な程度を反映する定量値、連続体に沿って評価された品質尺度、あるいは表示の組合せであり得る。候補近隣コミュニティは、類似性尺度を最小閾値に対して適用し、固定数の高格付け候補コミュニティを取ることによって、あるいは類似の選択プロセスによって選ぶことができる。

フロンティアコミュニティによってコミュニティのエバーグリーンインデック内で参照された情報に割り当てられた重要度は、同じ情報に対する増強コミュニティの有望な受容性を示す適切な指標であり得る。図１０は、図８の方法１２０で使用する関心度を決定するためのルーチン１５０を示すフロー図である。フロンティアコミュニティは、エバーグリーンインデックスに引用された情報の重要度をまず決定し（ブロック１５１）、それは、上記と同様に、吟味によって一般に行われる。フロンティアコミュニティの関心レベルは、新しい記事を選択するために使用される。さらなる一実施形態では、フロンティア記事の獲得は、トピック分類のある部分に限定され得る。フロンティアコミュニティの格付けによって、関連する記事が識別され、増強コミュニティのエバーグリーンインデックスからの記事の関心度の予備的な推定がもたらされる。

競合するフロンティアにわたる注目が割り振られる（ブロック１５２）。フロンティアコミュニティからの分離度は、１組のフロンティアコミュニティにわたる注目を割り振るために使用される。換言すると、記事は、複数のフロンティアコミュニティから生じる。最も単純な手法では、すべてのフロンティアに、等しい重みが与えられ得る。あるいは、重み付けを適用することによって、一部のフロンティアコミュニティに、他のフロンティアよりもさらなる注目が与えられ得る。例えば、ソーシャルネットワーク内の分離度数の観察などによって、フロンティアコミュニティの増強コミュニティへの類似性を重み付けするための距離メトリックが決定され得る。

この時点で、１つ以上のフロンティアからの１組の記事またはそのトピックが選択されており、記事は、ホームコミュニティに統合する必要がある。記事をホームコミュニティ内のパターンと照合することによって、それぞれの関連性トピックが決定される（ブロック１５３）。記事がホームコミュニティのトピックに合致しない場合、フロンティアから借用した一時的なサブトピックを伴う「フロンティアからのニュース」カテゴリ内に置かれる。さらなる一実施形態では、増強コミュニティのリーダーは、コミュニティによる潜在的な考慮のため、トピックモデルを補足するなど、合致しないフロンティア情報を手動で見直してもよい。

情報探査は、情報を供給し、最初に格付けするために、フロンティアコミュニティの専門知識に依存する。しかし、探査された情報の提示を編成するために、増強コミュニティのエバーグリーンインデックスが使用される。図１１は、図８の方法１２０で使用するフロンティア情報を関連付けるためのルーチン１６０を示すフロー図である。フロンティアコミュニティからの記事が、増強コミュニティにおいて普遍的影響力を持つことはほとんどない。したがって、増強コミュニティのエバーグリーンインデックスが、合致したトピックおよびサブトピックによって記事を自動的に分類するために使用される（ブロック１６１）。次いで、合致した記事は、それぞれの関心トピックに従ってコミュニティのメンバに送られ、フロンティア記事は、ホームインデックスへとインデックス付けされた通常の情報と共に吟味される（ブロック１６２）。メンバが中心的トピックの記事を読む間、同じトピックについての高格付けフロンティア記事が、表示領域を求めてホーム記事と競合する。低く格付けされたフロンティア情報は、それほど肯定的でない応答を受け取り、高く格付けされたフロンティア情報は残り、したがって、新しい考え、または新たに生じている傾向に従って増強コミュニティの範囲が広がる。

ソーシャルインデクシングにおける情報開示は、インデックス外挿を、トピックによって範囲を定められた投票と組み合わせたものである。投票は、「多人数の軽い仕事」を具体化する。投票には、きめ細かいカテゴリ化が非常に重要である。というのは、カテゴリ化は、各トピック下の記事の評価の原因となるからである。カテゴリ化は、どの記事が最良であり読者の注目に最も値するかを突き止める。投票は、エバーグリーンインデックスの特色を表すユーザインタフェースを介して提供される。

ウェブブラウザは、ユビキタスかつ広く採用される情報提供インタフェースになってきており、これは、新しく関連性のあるディジタル情報を空間的に提示するための、唯一ではないが理想的なプラットフォームを提供する。図１２は、関心度によって編成された、フロンティア情報を含む、ディジタル情報を提供するユーザインタフェース１８０を例として示すスクリーンショット図である。ユーザインタフェース１８０は、情報ダイエットの２つの面、すなわち関連性および関心度を、投票と結び付ける。ユーザインタフェース１８０は例示的な提示を提供するものだが、他のインタフェーシング方法も等しく可能である。

各増強コミュニティによって投票されたディジタル情報の格付けを、タブ１８１または他のマーカによって索引付けされた個別ウェブページ上で提供することができる。各増強コミュニティのタブ内では、この増強コミュニティのトピックおよびサブトピック１８２を最初にリストすることができ、より大きいフォントまたはより目立つ表示属性が、最も人気のある文書を強調する。トピックおよびサブトピック１８２は、増強コミュニティのエバーグリーンインデックスから選択され、ドキュメントは、ディジタル情報のコーパスを、上記と同様にフロンティアコミュニティから探査されたディジタル情報を含み得るエバーグリーンインデックスのトピックモデルに対して照合することによって識別される。

関心度（ＤＯＩ）は、何らかの情報がどれくらい関心をそそることになるかを反映するように導出され意図された数値尺度を指す。ＤＯＩは、所与のトピックに関する特定の記事に対して決定することができ、また、２次トピックを１次トピックに関係付けるために計算することもできる。ＤＯＩは、個人の履歴または状態に特有の情報に基づいて、個人に適応させることができる。利用可能なときは、ＤＯＩを使用して情報の提示を最適化することができ、したがって、情報により多くの空間を与えたり情報をより目立たせたりするなどによって、最も高いＤＯＩを有する情報が優遇される。例えば、最も高くランク付けされたページ１８３には最大量の空間を割り振ることができ、グラフィックス、タイトル、記事のソースに関する情報、および要約がすべて提供される。他の情報、あるいは他の形の視覚強調または表示強調を提供することもできる。同様に、より低く格付けされたページ１８４にはより少ない空間を割り振ることができ、グラフィックスなしで、より小さいフォントサイズを使用することができる。最後に、最も低く格付けされたページ１８５は、タブの下部に追いやることができ、ページのソースおよびタイトルのみが提供される。便利なように、全ページの数の要約１８６を含めることもできる。

ディジタル情報の仮定的なロングテール分布の例を示したグラフ図である。ディジタルセンスメーキングにおける課題を示す機能ブロック図である。ディジタル情報センスメーキングのための例示的な環境を示すブロック図である。図３のソーシャルインデクシングシステムで使用される主要なコンポーネントを示す機能ブロック図である。ディジタル情報プロバイダの現在の編成状況の例を示したグラフ図である。エバーグリーンインデックス訓練の概要を示すデータフロー図である。例示するために増強コミュニティの近隣を示すブロック図である。一実施形態によるディジタル情報を探査するための方法を示すデータフロー図である。図８の方法で使用するフロンティア増強コミュニティを識別するためのルーチンを示す流れ図である。図８の方法で使用する関心度を決定するためのルーチンを示す流れ図である。図８の方法で使用するフロンティア情報を関連付けるためのルーチンを示す流れ図である。関心度によって編成されたディジタル情報を提供するユーザインタフェースの例を示したスクリーンショット図である。

符号の説明

１０ディジタル情報についての仮定的なロングテール分布、１１ヘッド項目、１２ロングテール項目、２１ソーシャルインデクシング、２２開示、２３探査、２４適応、３１ネットワーク、３２ソーシャルインデクシングシステム、３４ａ，３４ｂ，３４ｃサーバ、３５ａウェブコンテンツ、３５ｂニュースコンテンツ、３５ｃ吟味されるコンテンツ、４１情報収集、４２探査分析、４４フロンティアコミュニティ識別子、４５フロンティア情報積分器、４６入来コンテンツ、８０インデックス訓練、８１訓練インデックス、８２インデックスエントリ、８３シードワード選択、８４シードワード、８５トピックモデル生成、８６候補トピックモデル、８７トピックモデル評価、８８エバーグリーンインデックス、８９トピックまたはサブトピック、９０トピックモデル、９１正の訓練セット、９２負の訓練セット、１００増強コミュニティ近隣、１０１ａ，１０１ｂ，１０１ｃ，１０１ｄソーシャルネットワーク、１０３，１０４ａ〜１０４ｄ，１０５エバーグリーンインデックス、１２０方法、１２１ホーム増強コミュニティ、１２２フロンティア増強コミュニティ、１２３エバーグリーンインデックス、１２４トピックおよびサブトピック、１２５ソース、１２６トップ記事、１２７エバーグリーンインデックス、１２８トピックおよびサブトピック、１２９ソース、１３０ａ，１３１ｂ開示、１３２フロンティアコミュニティ識別、１４０フロンティア増強コミュニティを識別するためのルーチン、１４１手動選択、１４２類似性尺度を生成、１４３候補近隣を暗示、１５０関心度を決定するためのルーチン、１５１重要度を決定、１５２競合フロンティアにわたる注目を割り振る、１５３関連性のあるトピックを決定、１６０フロンティア情報を関連付けるためのルーチン、１６１ホームエバーグリーンインデックス内の合致記事を自動的に分類、１６２ホーム情報に沿って記事を吟味、１８０ユーザインタフェース、１８１タブ、１８２トピックおよびサブトピック、１８３最も高くランク付けされたページ、１８４より低く格付けされたページ、１８５最も低く格付けされたページ、１８６全ページの数の要約。

Claims

ディジタル情報を探査するソーシャルインデクシングシステムにおいて実施される方法であって、
前記ソーシャルインデクシングシステムに含まれるコンピュータが、
ディジタル情報のコーパス内のホーム対象領域についての、前記コーパスに合致するトピックモデルを含むホームエバーグリーンインデックスを記憶手段で保持し、
前記ホーム対象領域からトピックの点で異なる前記コーパス内のフロンティア対象領域のフロンティアエバーグリーンインデックスを識別し、
前記フロンティアエバーグリーンインデックスの前記トピックモデルによって識別された前記コーパスからフロンティア記事の評価の内容を取得し、
前記ホームエバーグリーンインデックス内の前記トピックモデルに対して、取得した評価の内容に基づきフロンティア記事を分類し直し、
前記ホームエバーグリーンインデックス内の前記トピックモデルに対して以前に分類されたホーム記事を伴う表示内に前記フロンティア記事を提供する、
ことを含むことを特徴とする方法。
請求項１に記載の方法であって、
前記ホーム対象領域を複数の候補フロンティアエバーグリーンインデックスの候補フロンティア対象領域と比較し、
領域知識を用いて（ｄｏｍａｉｎ−ｉｎｆｏｒｍｅｄ）前記候補フロンティア対象領域間の差を評価することに基づいて前記候補フロンティアエバーグリーンインデックスを選択する、
ことをさらに含むことを特徴とする方法。
請求項１に記載の方法であって、
前記ホームエバーグリーンインデックスによって、複数の候補フロンティアエバーグリーンインデックスのために使用される前記情報源を識別し、
前記候補フロンティアエバーグリーンインデックスによって参照される候補フロンティア記事を識別し、
前記情報源、前記ホーム記事および前記候補フロンティア記事のうちの少なくとも１つの重複を決定し、
正の重複を示す前記候補フロンティアエバーグリーンインデックスを選択する、
ことをさらに含むことを特徴とする方法。
請求項１に記載の方法であって、
それぞれが候補フロンティアエバーグリーンインデックスを含む複数の候補近隣増強コミュニティを識別し、
前記近隣増強コミュニティのそれぞれへの類似性尺度を生成し、
最小しきい値、または前記フロンティア記事の定数までのうちの少なくとも１つを満たす前記類似性尺度を含む前記候補近隣コミュニティを選択する、
ことをさらに含むことを特徴とする方法。
請求項１に記載の方法であって、
前記ホームエバーグリーンインデックスの前記トピックモデルに合致するフロンティア記事だけを保持することをさらに含むことを特徴とする方法。
請求項１に記載の方法であって、
前記エバーグリーンインデックスの前記トピックモデルに合致しないフロンティア記事を比較し、
前記合致しないフロンティア記事に基づいて前記ホームエバーグリーンインデックスの前記トピックモデルを新しいトピックの名前で補う、
ことをさらに含むことを特徴とする方法。
請求項１に記載の方法であって、
前記ホームエバーグリーンインデックスに関連するコミュニティとして前記フロンティア記事および前記ホーム記事について共同で投票し、
前記フロンティア記事および前記ホーム記事の配置を前記投票の順序に基づいて調整する、
ことをさらに含むことを特徴とする方法。
請求項１に記載の方法であって、
前記ディジタル情報は、印刷された文書と、ウェブページと、ディジタル媒体中に書かれたマテリアルとのうちの１つ以上を含むことを特徴とする方法。