JP5329900B2

JP5329900B2 - 対象領域におけるディジタル情報開示方法

Info

Publication number: JP5329900B2
Application number: JP2008263362A
Authority: JP
Inventors: ジェイステフィックマーク
Original assignee: Palo Alto Research Center Inc
Current assignee: Palo Alto Research Center Inc
Priority date: 2007-10-12
Filing date: 2008-10-10
Publication date: 2013-10-30
Anticipated expiration: 2028-10-10
Also published as: EP2048605B1; EP2048605A3; US20120209797A1; JP2009099145A; US20090099996A1; US8706678B2; EP2048605A2; US8165985B2

Description

本願は一般に、ディジタル情報のセンスメーキング（ｓｅｎｓｅｍａｋｉｎｇ）に関し、より詳細には、対象領域におけるディジタル情報の開示を実施するためのシステムおよび方法に関する。

この非仮特許出願は、２００７年１０月１２日に出願された米国仮特許出願第６０／９９８６３６号に対して米国特許法１１９条（ｅ）に基づく優先権を主張するものであり、この開示を本願に引用して援用する。

ディジタルセンスメーキングは、ワールドワイドウェブ（「ウェブ」）などのディジタル情報インフラストラクチャが介在するセンスメーキングである。ウェブを介して、ユーザは、様々なソースからの過去の情報を公開する「従来の」ウェブサイトと、モデレータがいるウェブログ、すなわち「ブログ」、ユーザフォーラム、およびユーザが新しい情報を能動的にランク付けすることのできる投票付きウェブサイトを含む対話型ウェブサイトとの両方にアクセスすることができる。

ディジタル情報リポジトリとして、ウェブは、イベントの発生、観念の統合、および新しい傾向の出現に伴って、継続的に発展する。新しい情報が絶えず公開される。主流メディアウェブサイトは一般に、ニュース、ビジネス、政治、スポーツ、娯楽、天気など、人気のあるトピックをカバーするが、他のウェブソースを介して追加のトピックも多数存在する。これらのトピックは、例えば技術ニュースなどや人気の劣るトピックから、地域のコミュニティカレッジの夜間クラススケジュールなど、比較的少数の人に関連する特殊なまたは目立たないトピックまでの範囲にわたる。

多くの市場における物への需要は、非特許文献１に記述されているような「ロングテール」分布に従い、この開示を本願に引用して援用する。図１は、ディジタル情報の仮定的なロングテール分布１０を、例として示すグラフである。Ｘ軸はディジタル情報を表し、Ｙ軸は人気レベルを表す。分布のヘッドに見られる項目１１は、数は少ないが最も高い人気を得ており、これらは少数の人気カテゴリに入るメディア報道内容などである。しかし、より読者の少ないニッチトピックをカバーする「ロングテール」に沿ったより多くの項目１２は、ヘッド項目１１に数で勝る。ヘッド項目１１のどの１つをとってもロングテール項目１２のいずれか１つよりも高い人気を得ているが、十分なロングテール項目１２が含まれるときには、ロングテール項目１２の十分に大きいグループの総計としての人気は、すべてのヘッド項目１１の人気を上回ることになる。このことは、閲覧者をロングテールトピックに気付かせることができるならば、ロングテールトピックに焦点を合わせることによってより大きな閲覧者総体に達することができることを含意する。

情報の消費者は、限られた時間しか有さず、あらゆるものに注意を払うことはできない。より多くのトピックが利用可能になるのに伴い、主流トピックはますます読者からわずかな注目しか受けなくなる。これに似て、プライムタイムのテレビジョン視聴者は現在、ケーブルおよび衛星ネットワークがその番組を改良してその視聴者数を増加させるのに伴って減少している。同様に、音楽「ヒット」は今日、より多くの選択肢および購入オプションが利用可能になるのに伴い、１０年前よりも販売コピー数が少ない。これらの観察から、経済および人気の傾向は、次のように簡潔に要約することができる。すなわち、「選択肢を与えれば人々はそれらを利用する」、また「分布の上部は縮小しつつある」。

問題は、単に新しいまたは人気のある情報を見つけることだけではない。問題は、ユーザ特有のニーズに関連する新しい情報、すなわち「ロングテール」上の新しい情報を見つけることである。既存の手法では及ばない。例えばウェブ検索エンジンは、ユーザクエリに応答して受動的にウェブコンテンツを取り出し、しばしば古い情報の方を優遇する。例えばＧｏｏｇｌｅ検索エンジンは、ページランクアルゴリズムに基づくが、これはページ間のハイパーリンクに依存して信頼性および人気を推定する。他のウェブページによって最も引用されているウェブページが最良と見なされるが、実際に最も関連性があるわけではない場合がある。

同様に、オンラインニュースサービスはしばしば、ニュースを少数の人気トピックにグループ化する主流メディアソースと連携するが、特殊化されたトピックがシンジケートへの手数料（ｓｙｎｄｉｃａｔｉｏｎｆｅｅｄｓ）により利用可能なこともある。オンラインニュースアグリゲータが、複数のソースからのニュースの整理された要約を相応に提供するが、しばしばニュースを適切なトピックの下に一貫してグループ化することができないか、またはニュースをきめ細かくカテゴリ化することができない。この結果、読者は、報道内容またはトピックを追おうとするときは常に、異種のトピックに関する分かりにくく混ざり合った記事に直面する。読者が、技術トピックの下にある記事を読むことから始めて、新しいコンピュータ電話機について追う場合がある。しかし、電話機の記事は、他の技術記事と結局は混合され、ニュースアグリゲータのウェブサイト全体に散らばっている場合がある。キーワードで電話機の記事を検索しても、すべての関連記事とは正しく合致しない場合がある。したがって、オンラインニュースサービスおよびニュースアグリゲータは、トピックに関する進展を容易に追うのを促進するようにして送達される最良かつ最も関連性のある記事だけを読者が受け取れるようにするのに十分な細分性に欠ける。

最後に、投票付きニュースウェブサイトは、ニュース報道内容に投票するようユーザを促す。ｗｗｗ．ｄｉｇｇ．ｃｏｍで利用可能なＤｉｇｇウェブサイトなどを介して、最も高くランクしたコンテンツがフロントページに昇格する。Ｄｉｇｇは、記事を少数のトピックにカテゴリ化するが、各トピックは、異なるフロントページ昇格アルゴリズムを使用する。十分な「ディグ（ｄｉｇｇ）」を受け取った記事のみがフロントページに現れ、登録ユーザのみが記事の投稿、記事へのコメント、および記事の昇格を行うことができる。したがって、トピックは、ロングテール分布のヘッドにある人気トピックを反映する。投票は、共謀、隠蔽、および報酬を渡して昇格させることが可能だとして批判されてきた。これについては、非特許文献２乃至４に記述されており、これらの開示を本願に引用して援用する。

Ｃ．アンダーソン、「ＴｈｅＬｏｎｇＴａｉｌ：ＷｈｙｔｈｅＦｕｔｕｒｅｏｆＢｕｓｉｎｅｓｓｉｓＳｅｌｌｉｎｇＬｅｓｓｏｆＭｏｒｅ」、（ＨｙｐｅｒｉｏｎＰｒｅｓｓ）（２００６）Ｃ．メゼル、「ＴｈｅＤｉｇｇＡｌｇｏｒｉｔｈｍ−ＵｎｏｆｆｉｃｉａｌＦＡＱ」、ＳｅｏＰｅｄｉａ、ｗｗｗ．ｓｅｏｐｅｄｉａ．ｏｒｇ／ｔｉｐｓ−ｔｒｉｃｋｓ／ｓｏｃｉａｌ−ｍｅｄｉａ／ｔｈｅ−ｄｉｇｇ−ａｌｇｏｒｉｔｈｍ−ｕｎｏｆｆｉｃｉａｌ−ｆａｑ（２００６年１１月２日）Ｎ．パテル、「Ｔｈｅｒｅ’ｓＭｏｒｅｔｏＤｉｇｇＴｈａｎＭｅｅｔｓｔｈｅＥｙｅ」、ＰｒｏｎｅｔＡｄｖｅｒｔｉｓｉｎｇ、ｗｗｗ．ｐｒｏｎｅｔａｄｖｅｒｔｉｓｉｎｇ．ｃｏｍ／ａｒｔｉｃｌｅｓ／ｔｈｅｒｅｓ−ｍｏｒｅ−ｔｏ−ｄｉｇｇ−ｔｈａｎ−ｍｅｅｔｓ−ｔｈｅ−ｅｙｅ．ｈｔｍｌ（２００７年１月１５日）Ｊ．ダウデル他、「Ｄｉｇｇ’ｓＫｅｖｉｎＲｏｓｅｏｎＲｅｃｅｎｔＩｎｄｉｇｇｎａｔｉｏｎ：Ｆａｃｔｖｓ．Ｆｉｃｔｉｏｎ」、ＭａｒｋｅｔｉｎｇＳｈｉｆｔ、ｗｗｗ．ｍａｒｋｅｔｉｎｇｓｈｉｆｔ．ｃｏｍ／２００６／９／ｄｉｇｇｓ−ｋｅｖｉｎ−ｒｏｓｅ−ｒｅｃｅｎｔ−ｉｎｄｉｇｇｎａｔｉｏｎ．ｃｆｍ（２００６年９月７日）

したがって、特定の対象領域についてのトピック内で自動的にカテゴリ化され、個人レベルで強調される、新しく関連性があり信頼性があるディジタル情報を開示する必要性が、ディジタルセンスメーキングにおいて依然としてある。

ディジタル情報の自動開示を容易にするためのシステムおよび方法は、新しいもの、本当のもの、および重要なものを提供する。「新しいもの」は、最新の情報を送達することを意味する。「本当のもの」は、複数のソースからの情報が社会的に吟味（ｖｅｔｔｅｄ）されて、関心レベルおよび信頼性が確立されることを意味する。「重要なもの」は、情報が読者の対象領域中の重要トピックに従って自動的にカテゴリ化されることを意味する。

知識分野専門家すなわち「少人数の精力的な仕事」によって導かれるきめ細かいトピック式インデックスを利用すること、読者の大規模な増強コミュニティすなわち「多人数の軽い仕事」または「集団の知恵」によるランク付けとより良いカテゴリ化に関する提案とを集約すること、および、機械支援学習すなわち「機械の根気強い仕事」を介してトピック式インデックスを拡張することにより、新しく関連性のあるディジタル情報が開示される。一実施形態では、エバーグリーンインデックスがトピック式インデックスから訓練され、ウェブページや他のオンラインコンテンツなどのディジタル情報のコーパスにわたって外挿される。「エバーグリーン」という用語は、インデックスの新鮮さおよび現在性の質を暗示するものとし、したがって、新しい記事は、出現したときに自動的に分類されてインデックスに追加されることになり、必要に応じて新しいトピックをインデックスに追加することができる。

各増強コミュニティはエバーグリーンインデックスを有し、エバーグリーンインデックスは、各トピックおよびサブトピックにつき、所与のマテリアルが適合するかどうかテストするのに使用できるパターンなどのトピックモデルを含む。トピックモデルは、監視付き機械学習または他の手段を適用することによって生成され、新しいマテリアルに適用されて、マテリアルをエバーグリーンインデックスのトピックの下に自動的にカテゴリ化する。文書のコーパスからの記事が、トピックモデルと照合され、増強コミュニティに提供されて吟味される、すなわち共同で投票および格付けされる。

一実施形態は、対象領域におけるディジタル情報の開示を実施するためのシステムおよび方法を提供する。対象領域中のトピックのそれぞれと、トピックに対する訓練マテリアルと、ディジタル情報を含むコーパスとが指定される。トピックのそれぞれについてのトピックモデルが構築される。トピックモデルは訓練マテリアルに対して評価される。コーパスからのディジタル情報は、トピックモデルを使用して、トピックによってエバーグリーンインデックスに編成される。

全体を通して以下の用語を使用するが、これらの用語は、特に示さない限り以下の意味を有する。
コーパス：記事、文書、ウェブページ、電子書籍、または、印刷物として利用可能な他のディジタル情報の、集まりまたはセット。
文書：コーパス内の個別の記事。文書はまた、本の章または節、あるいは、より大きな著作物の他の下位区分を含むこともできる。１つの文書が、種々のトピックに関するいくつかの引用ページを含む場合がある。
引用ページ：ページ番号などインデックスに引用されている文書内の位置。引用ページは、単一のページとすることもでき、あるいは１組のページとすることもできるが、これは例えば、サブトピックがトピックモデルにより拡張され、１組のページが、トピックモデルに合致するすべてのページを含む場合である。引用ページはまた、トピックモデルが合致することのできる、ページ全体よりも小さいもの（段落など）とすることもできる。
対象領域：エバーグリーンインデックスを含めたソーシャルインデックス中のトピックまたはサブトピックのセット。
トピック：ソーシャルインデックス内の単一のエントリ。エバーグリーンインデックス中では、トピックには、パターンなど、コーパス内の文書との照合に使用されるトピックモデルが付随する。
サブトピック：ソーシャルインデックス内のトピックの下に階層的にリストされる単一のエントリ。エバーグリーンインデックス中では、サブトピックにもトピックモデルが付随する。
コミュニティ：特定の対象領域中の主要な関心トピックをオンラインで共有し、相互間の対話が少なくとも部分的にコンピュータネットワークで媒介される人々のグループ。対象領域は、ヨットレースや有機園芸のような趣味、歯科学や内科学のような専門的関心、または遅発性糖尿病の管理のような医学的関心など、大まかに定義される。
増強コミュニティ：対象領域に関するソーシャルインデックスを有するコミュニティ。増強コミュニティは、ソーシャルインデックスによって引用された対象領域内の文書の閲覧および投票に参加する。
エバーグリーンインデックス：エバーグリーンインデックスは、コーパスと共に最新の状態を継続的に維持するソーシャルインデックスである。
ソーシャルインデクシングシステム：増強コミュニティ間の情報交換を容易にし、ステータスインジケータを提供し、対象文書をある増強コミュニティから別の増強コミュニティに渡すのを可能にする、オンライン情報交換インフラストラクチャ。相互接続された１組の増強コミュニティが、コミュニティの社会的ネットワークを形成する。
情報ダイエット：情報ダイエットは、ユーザが「消費」する情報、すなわち関心のある対象にわたって読む情報を、特徴付ける。例えば、ユーザは、自分の情報消費活動において、自分の時間の２５％を選挙ニュースに費やし、１５％を地域社会ニュースに費やし、１０％を娯楽トピックに費やし、１０％を親類に関係のある健康トピックに関する新しい情報に費やし、２０％を自分の特定の専門的関心事における新しい進展に費やし、１０％を経済進展に費やし、１０％をエコロジーおよび新エネルギー源における進展に費やす場合がある。ソーシャルインデクシングのためのシステムが与えられれば、ユーザは、自分の情報ダイエット中の自分の主要な関心のそれぞれにつき、別々の増強コミュニティに加入することまたはそれをモニタすることができる。

ウェブおよび他のオンライン情報リソースは、絶えず発展し拡張し続けるディジタル情報ソースを提供する。ディジタルセンスメーキングは、これらのリソース中の情報から意味を理解することに関するものである。図２は、ソーシャルインデクシング２１における課題、すなわちディジタル情報の開示２２、探査２３、および適応２４を示す機能ブロック図２０である。他の課題も可能である。これらの課題は情報採集の種々の面を表し、これらの面は、トピックの点できめ細かい、社会的に吟味されるインフラストラクチャを介して、新しく関連性があり信頼性があるディジタル情報を提供するように、相乗作用的に働く。次に、各課題について要約する。

本願の焦点であるディジタル情報開示２２は、図６の参照以降でさらに後述するように、中心的な関心のセットについて、新しい、トピックの点で関連性のある情報を識別することに焦点を合わせる。ディジタル情報開示は、各自が中心的な関心のセットを有し、ロングテールトピックを含めた、中心的な関心内の様々な重要性レベルの複数のトピックにわたる情報を必要としているということを前提として開始する。鍵となる課題は、中心的な関心に関する新しい情報を効率的に追跡することにある。

ディジタル情報探査２３は、観念統合の助けとして個人の情報フロンティアを採集または採掘することに焦点を合わせる。これについては、２００８年８月１２日に出願された同一出願人による係属中の米国特許出願第１２／１９０５６０号にさらに記載されており、この開示を本願に引用して援用する。情報探査は、コミュニティの社会的ネットワークを利用することにより、ディジタル情報開示２２を介して基本的に満たされる個人の情報ダイエットを既存の関心を越えて拡張する。例えば、地域ニュースに関する情報フロンティアは、近隣の町および都市からのニュースを含む。別の例として、かかりつけの歯科などの専門的関心に関する情報フロンティアは、関係する分野からの関連トピック、例えば歯科衛生、新しい歯科用マテリアル、およびおそらく、新しい抗生物質、または美容歯科からの結果を潜在的に含む。ディジタル情報探査は、未知の新しいトピックグラウンドをカバーする際に、注意が逸らされたり非効率的になったりするリスクを冒さずに、効果的に注目を割り振ることを容易にする。鍵となる課題は、フロンティアに沿った近隣対象領域から最も関連性のある情報を見つけることにある。

最後に、ディジタル情報適応２４は、馴染みのない対象領域に適応することに関するものである。これについては、２００８年８月１２日に出願された同一出願人による係属中の米国特許出願第１２／１９０５５７号にさらに記載されており、この開示を本願に引用して援用する。ディジタル情報適応は、新しい対象領域の理解を効率的に得ることに関するものである。この活動は、情報開示および情報フロンティア探査と相補的であり、主題について全体的に知るために領域を探索することが目的である場合を反映する。この活動は、トピック構造および主要な結果を知ること、ならびに適切な参照を識別することを含む。

ディジタルセンスメーキングは、ディジタル情報インフラストラクチャが介在するセンスメーキングであり、ディジタル情報インフラストラクチャは、インターネットなどの公衆データネットワークと、スタンドアロンコンピュータシステムと、ディジタル情報の様々なリポジトリとを含む。図３は、ディジタル情報センスメーキングのための例示的な環境３０を示すブロック図である。同じ基本的なシステムコンポーネントが、ディジタル情報の開示２２、探査２３、および適応２４に利用される。

ディジタル情報は、ディジタル形式で利用可能な情報である。インターネットなどのディジタルデータ通信ネットワーク３１が、適したディジタル情報交換インフラストラクチャを提供するが、他のインフラストラクチャ、例えば私設の法人企業ネットワークも可能である。ネットワーク３１は、ディジタル情報の提供およびディジタル情報へのアクセスをそれぞれ行う様々な情報ソースおよび情報消費者への、相互接続性を提供する。ウェブサーバ３４ａ、ニュースアグリゲータサーバ３４ｂ、投票付きニュースサーバ３４ｃ、および他のディジタル情報リポジトリが、情報ソースとしての働きをする。これらのソースはそれぞれ、ウェブコンテンツ３５ａ、ニュースコンテンツ３５ｂ、コミュニティによって投票される、すなわち「吟味される」コンテンツ３５ｃ、および他のディジタル情報を、パーソナルコンピュータや類似のデバイスなど、情報消費者として機能するユーザデバイス３３ａ〜３３ｃに供給する。

一般に、各ユーザデバイス３３ａ〜３３ｃは、サーバ３４ａ〜３４ｃとのインタフェーシングおよび情報交換をサポートするウェブブラウザまたは類似のアプリケーションを実行するウェブ対応デバイスである。ユーザデバイス３３ａ〜ｃとサーバ３４ａ〜ｃは両方とも、中央処理装置、メモリ、入出力ポート、ネットワークインタフェース、および不揮発性記憶装置など、プログラム可能な汎用コンピューティングデバイス中に従来見られるコンポーネントを備えるが、他のコンポーネントも可能である。さらに、サーバ３４ａ〜３４ｃに代えてまたは追加で、他の情報ソースも可能であり、ユーザデバイス３３ａ〜３３ｃに代えてまたは追加で、他の情報消費者も可能である。

ディジタルセンスメーキング、および特にディジタル情報開示２２は、ソーシャルインデクシングシステム３２によって容易になる。ソーシャルインデクシングシステム３２もまた、ネットワーク３１を介して情報ソースおよび情報消費者に相互接続される。ソーシャルインデクシングシステム３２は、ディジタル情報の自動開示、および増強コミュニティの対象領域内の中心的なトピックへの自動カテゴリ化を容易にする。

ユーザの視点からは、ソーシャルインデクシングシステムは単一の情報ポータルに見えるが、実際にはこれは、統合ディジタル情報処理環境によって提供される１組のサービスである。図４は、図３のソーシャルインデクシングシステム３２中で使用される主要なコンポーネント４０を示す機能ブロック図である。これらのコンポーネントはディジタル情報開示に焦点が合わせられており、他のコンポーネントを使用してディジタル情報探査、適応、関心度、および他のサービスを提供することもできる。

コンポーネント４０は、情報収集４１、インデクシングおよび分析４２、ユーザサービス４３の、３つの機能領域に大まかにグループ化することができるが、他の機能領域も可能である。これらの機能グループは、相互接続され相互依存しており、同じまたは別々の計算プラットフォーム上で実施することができる。情報収集４１は、ウェブコンテンツ３５ａ、ニュースコンテンツ３５ｂ、および「吟味される」コンテンツ３５ｃなどの入来コンテンツ４６を、ウェブサーバ３４ａ、ニュースアグリゲータサーバ３４ｂ、および投票付きニュースサービス３４ｃを含めた情報ソースから得る。入来コンテンツ４６は、スケジューラの指示の下で動作して定期的にまたはオンデマンドで新しい情報を情報ソースから収穫するメディアコレクタによって収集される。入来コンテンツ４６は、構造化されたリポジトリに記憶してもよく、あるいは、入来コンテンツの実際のコピーをローカルに維持する代わりに、入来コンテンツへの参照または引用のみを保存することによって、例えばハイパーリンクを記憶することによって、間接的に記憶してもよい。

インデクシングおよび分析４２は、インデックス訓練および外挿を提供する。新しいエバーグリーンインデックス４９がインデックストレーナ４４を介して訓練されるが、インデックストレーナ４４は、以下で図６からさらに論じるように、訓練マテリアル（図示せず）をエバーグリーンインデックス４９中にブートストラップする。入来コンテンツ４６は、以下で図１１からさらに論じるように、インデックス外挿部４５によって、エバーグリーンインデックス４９の下の特定対象領域についてのトピックに自動的にカテゴリ化される。

最後に、ユーザサービス４３は、配信インデックス４７および入来コンテンツ４６にアクセスするためのフロントエンドをユーザ４８ａ〜４８ｂに提供する。各エバーグリーンインデックス４９は、「増強」コミュニティとして知られるユーザのコミュニティに結び付けられ、「増強」コミュニティは、中心的な対象領域中の、進行中の関心を有する。コミュニティは、以下で図１２からさらに論じるように、引用された情報を、その情報が割り当てられたトピック内での投票５０によって「吟味」する。

情報「ダイエット」は、ユーザが特別な関心のある対象にわたってどんな情報を消費するか、ならびに、フロンティア増強コミュニティからの選ばれたコンテンツを特徴付ける。これについては、２００８年８月１２日に出願された同一出願人による係属中の米国特許出願第１２／１９０５６０号に記載されており、この開示を本願に引用して援用する。ダイエットはまた、ユーザが各対象を「消化」することに割り振るのをいとわない時間量を反映する。ディジタル情報開示は、ダイエットの第１のアスペクトを、すなわち特別な関心のある対象中の情報を満たす。

ユーザの情報ダイエットを満たすために、関連性および信頼性のあるディジタル情報を開示することが重要である。あらゆる種類のデータがオンラインで広く利用可能であるものの、ソースから直接得られる「生の」ディジタル情報には一般に、包括的な編成方式および適当なランク付け方法がない。図５は、ディジタル情報プロバイダの現在の編成状況の例としてグラフ６０を示した図である。双方向のＸ軸は、ディジタル情報のトピック編成の程度を示し、双方向のＹ軸は、批評レビューすなわち「吟味」の量を表す。Ｘ軸の左端６２の情報は、まとまりのあるトピック編成に欠け、単一の対象領域を参照する。従来の手法の下では、情報はかなり静的であり、編成は少数のトピックに限られる。Ｘ軸の右端６３の情報は、きめ細かくリッチなトピック編成を受け、複数の対象領域をカバーする。各対象領域は、多くのサブトピックに深く編成される。

Ｙ軸は、記事を「吟味」およびランク付けするのに用いられる専門知識および労力の量を特徴付ける。Ｙ軸の最下部では、記事にはどんな編集も施されず、記事はどんな吟味もなしに提示される。原点６１に近づくと、少数の編集者までの小規模なチームが記事の吟味に関与する。Ｙ軸のより高い所では、人々の単一コミュニティ、すなわち「多人数の軽い仕事」および「集団の知恵」が、能動的に記事を閲覧し、投票または吟味する。Ｙ軸の最上部では、複数のコミュニティが記事を吟味し、各コミュニティは特定の対象領域に焦点を合わせる。

現在の手法はせいぜい、粗く編成され、批評的な重み付けまたは「吟味」が軽く行われるだけである。例えば、南西象限では、従来の編成手法は、大まかできめの粗い、あるいは存在しないトピック編成６２を使用し、吟味する編集者はほとんどいないか全くいない（６４）。ｗｗｗ．ａｕｄｉｏｐｈｉｌｉａ．ｃｏｍで利用可能なＡｕｄｉｏｐｈｉｌｉａ、およびｗｗｗ．ｈｙｂｒｉｄｃａｒｓ．ｃｏｍで利用可能なｈｙｂｒｉｄｃａｒｓなど、専門ウェブサイト６６は、単一の専門編集者によって導かれる狭い読者基盤に対応し、主題の中心はニッチトピックに置かれ、このニッチトピックの下にさらなるトピック編成は必要とされず望まれもしない。ｗｗｗ．ｇｏｏｇｌｅ．ｃｏｍ／ｒｅａｄｅｒで利用可能なＧｏｏｇｌｅリーダなど、ＲＳＳリーダ６７は、専用トピックに関する自動化されたフィードの下で自動的に新しい情報を報告する。同様に、ｎｅｗｓ．ｇｏｏｇｌｅ．ｃｏｍで利用可能なＧｏｏｇｌｅニュースなど、自動化された主流メディアウェブサイト６８は、限られた人気ニュースカテゴリを使用し、これらのカテゴリの下に、情報が編集者の必要なしに自動的にグループ化される。しかし、記事のカテゴリ化は、非常に粗いきめによって制限され、このような大まかなカテゴリ中での記事分類は、技術ニュースやスポーツニュースなど単一トピックのソースから記事を選択することによって行われる可能性がある。最後に、ｗｗｗ．ｎｙｔｉｍｅｓ．ｃｏｍで利用可能なＮｅｗＹｏｒｋＴｉｍｅｓ、およびｗｗｗ．ｃｎｅｔ．ｃｏｍで利用可能なｃｎｅｔなど、主流メディアウェブサイト６９は、ニュースを人気ニュースカテゴリに編成する個別の編集者または小規模な編集者チームを雇っており、これらのカテゴリは、自動化された主流メディアウェブサイト６８を介して利用可能なトピックよりも広い範囲のトピックを含む場合がある。コミュニティベースの、公平であると推定される吟味が欠けていること、および、きめ細かいトピック編成が欠けていることにより、これらの手法は、関心を持つ増強コミュニティに関連する、または関心を持つかもしれない近隣コミュニティに関連する、広範囲の対象領域をカバーする情報を提供することができない。

やや対照的に、北西象限では、現在の手法はまた、大まかできめの粗い、あるいは存在しないトピック編成６２を使用し、個別のまたは小規模コミュニティのユーザによる吟味６５を提供する。ｇｏｏｇｌｅｂｌｏｇ．ｂｌｏｇｓｐｏｔ．ｃｏｍで利用可能なＧｏｏｇｌｅブログ検索、およびｗｗｗ．ｉｃｅｒｏｃｋｅｔ．ｃｏｍで利用可能なｉｃｅｒｏｃｋｅｔなど、ブログ検索エンジン７０は、ブログ専用のウェブ検索エンジンだが、ブログは、トピック編成を使用せずに受動的に検索される。ｗｗｗ．ｔｏｐｉｘ．ｃｏｍで利用可能なＴｏｐｉｘなど、ニュースアグリゲータ７１は、ＺＩＰコードによって編成されたニュースを、広範な、通常は人気のあるトピック領域に、自動的にまとめるものであり、限られたコミュニティベースのレビューを伴う。最後に、ｗｗｗ．ｓｌａｓｈｄｏｔ．ｏｒｇで利用可能なＳｌａｓｈｄｏｔ、ｗｗｗ．ｒｅｄｄｉｔ．ｃｏｍで利用可能なＲｅｄｄｉｔ、およびｗｗｗ．ｄｉｇｇ．ｃｏｍで利用可能なＤｉｇｇなど、投票付きニュースウェブサイト７２は、わずかによりきめ細かい、しかしなお比較的大きいトピックカテゴリを提供し、単一ユーザコミュニティによる吟味を伴う。個別のまたは小規模なユーザコミュニティに批評レビューを開放することにより、公平さが増大し、したがって信頼性に対するユーザの確信が増大するが、きめ細かいトピック編成が同様に欠けていることにより、新しい関連情報のカスタマイズされた開示ができない。北西象限の手法はまた、ＲｅｄｄｉｔおよびＤｉｇｇウェブサイトをよく訪れる「技術屋ゲーマー」コミュニティに代表されるような単一ユーザコミュニティに制限されるか、あるいはＴｏｐｉｘウェブサイトのように複数のコミュニティを有するが、きめ細かいトピックカバー範囲または多様な対象領域がない。Ｄａｙｌｉｆｅなど、他の手法もなお存在する。Ｄａｙｌｉｆｅは、典型的なニュースウェブサイトよりも多くのトピックを有するが、やはり、きめ細かいトピックを含む階層型のトピック式インデックスに情報を編成しない。さらにこのサイトは、メンバとメンバのインデックスとを伴うコミュニティに編成されず、ユーザが新しいコミュニティを定義することもできない。

前述の従来手法とは対照的に、本明細書に述べる編成手法は、（１）Ｘ軸の右端を使用可能にするためのインデックス訓練および外挿と、（２）Ｙ軸の上端を使用可能にするための、複数の増強コミュニティ中での投票とを用いる。ソーシャルインデクシングシステム７３は、複数のユーザコミュニティによる吟味６５と共に、エバーグリーンインデックス４９を介したきめ細かいトピック編成６３を提供することにより、北東象限を独自に占める。ソーシャルの部分は、プロセスにおける人的要素を指す。この編成手法およびコミュニティベースの吟味により、各ユーザは確実に、自分の関心のあるすべての対象領域中で、関連性と信頼性の両方がある情報を受け取る。

従来のインデックスは、静的であり、それらのコーパスに固定される。例えば、コンコーダンスに基づくインデックスは、コーパス内の直接のコンテキストから機械的に選択された単語および句のリストを含む。コンコーダンスインデックスは、分野の専門知識も履歴洞察もなしに生成される。その結果、コンコーダンスインデックスは、重要なマテリアルを些細なマテリアルと区別することができない。対照的に、エバーグリーンインデックスは、コーパスの変化に伴って動的に発展する。エバーグリーンインデックスは、専門家によって選択されたトピック関節に沿ってマテリアルを識別し、関係付けるが、これらのトピックの結合は、重要なマテリアルについて、専門家の視点をその増強コミュニティに代わって反映する。エバーグリーンインデックスは、増強コミュニティ内の人々がどのように引用情報を使用することになるかについての判断を具現し、主題の専門家の、重要なトピックとこれらのトピックが論じられている場所への参照との関連付けを反映する。

情報をきめ細かいカテゴリに分割することで、いくつかの機能が可能になる。これには、記事投票を、１つまたは少数の大きい対象領域グループのみではなく、きめ細かいトピックグループに分離する機能を提供することが含まれる。この機能はまた、記事の質をきめ細かく推定することを可能にし、トピック内の記事の有意義な比較をもたらす。この機能がなければ、投票の有用性は主に、「最も人気のある」報道内容を決定するためである。ロングテールの報道内容、すなわち狭い関心の報道内容は、本質的に視野から消える。階層型トピック編成のもう１つの利益は、ユーザによって編集可能な「ウィキ（ｗｉｋｉ）のような」注解をコミュニティ中の各トピックに関連付ける能力を可能にする。この能力は、各トピックのコミュニティ議論および要約のための場を提供する。

エバーグリーンインデックスは、監視付き機械学習を用いたインデックス外挿のプロセスによって作成される。次に、この論題について詳細に論じる。

エバーグリーンインデックスの幅は、その増強コミュニティの関心の範囲に結び付き、ディジタル情報開示によく適合する。エバーグリーンインデックスは、従来のインデックスで開始して、監視付き機械学習を提供することによって作成することができるが、他の手法も可能である。図６は、一実施形態によるインデックス訓練８０を示すデータフロー図である。この方法は、サーバまたは他のコンピューティングデバイスによって、一連のプロセスステップとして実施される。

エバーグリーンインデックス８８は、訓練マテリアル（ｔｒａｉｎｉｎｇｍａｔｅｒｉａｌ）８１から訓練される。訓練マテリアル８１中の各インデックスエントリ８２は、トピックまたはサブトピックと、コーパス中の文書のページへの引用のセットとを指定する。再構築されたエバーグリーンインデックスが、一般に訓練マテリアル８１として使用されることになる。

インデックス訓練は、３つの段階で行われる。第１の段階の間に、図７を参照してさらに後述するように、訓練マテリアル８１中のトピックおよびサブトピックの各セットにつき、シードワード８４が選択される（操作８３）。第２の段階の間に、図８Ａ〜図８Ｃを参照してさらに後述するように、シードワードからパターンなどの候補トピックモデル８６が生成される（操作８５）。最後に、第３の段階の間に、図９を参照してさらに後述するように、候補トピックモデル８６が正と負の訓練セット９１、９２に対して評価される（操作８７）。各トピックまたはサブトピック８９をトピックモデル９０と対にすることによって、エバーグリーンインデックス８８が形成される。

インデックス訓練は、新しいエバーグリーンインデックス８８の作成と、既存のエバーグリーンインデックス８８の再構築との両方で、同じ方式で実施される。しかし、エバーグリーンインデックスを再構築するときは、異なる訓練セット９１、９２が使用される。インデックスが再訓練されるときは、いくつかの変更原因がある。新しいソースがコミュニティに追加された場合があり、これはベースラインに影響を与えることがある。同様に、新しい記事がコミュニティに到着した場合があり、これもまたベースラインに影響を与えることがある。加えて、新しいトピックが追加される場合、いくつかのトピックが削除される場合、およびいくつかのトピックの名前が変更される場合があり、後者は偏向に影響を与えることがある。さらに、正と負の訓練例が変更される場合もある。通常、再訓練では、トピックのほとんどは前の訓練と同じであり、おそらく少数の新しいトピックが追加されている。典型的には、新しい記事が到着している。到着した記事がトピックに関するものでないと増強コミュニティのリーダまたはメンバが思う場合、訓練例は少数のトピック中で変更される。言い換えれば、トピックに関する記事が見落とされる場合があり、あるいは本当にトピックに関するものではない記事が誤って目立って現れる。このように、再訓練は、パターン、したがって記事選択を変える。

候補トピックモデル８６を評価するときに監視付き機械学習が適用され、見つかった最良のトピックモデルが「学習」を構成する。ある訓練セッションと別の訓練セッションとの違いは、基本的に、使用される正と負の訓練セット９１、９２中の例の選択である。全般的に、このプロセスは以下のことを含む。
１）１つ以上の記事を、エバーグリーンインデックス中のトピックに対する正の例として指定する。
２）エバーグリーンインデックスを訓練して、パターンすなわちトピックモデルを得る。
３）トピックモデルをコーパスと照合して、合致する記事のセットを得る。
４）合致する記事のいくつかがトピックに関するものでない場合は、１つ以上のこれらの合致する記事を負の例として追加し、ステップ２）に移る。
５）トピックに関するいくつかの記事が合致する記事としてリストされていない場合は、これらの記事を正の例として追加し、ステップ２）に移る。

前述のプロセスは、機械学習インタフェース中で実施することができる。このインタフェースを介した場合、評価中にユーザによって観察される偏向は、時として、負の訓練例を必要としないほど十分に良い可能性がある。これは例えば、最上レベルの訓練でユーザが１つ以上の訓練例を提供するだけで、システムが優れたエバーグリーンインデックスを作成し始める場合などである。インタフェースは、ユーザが負の例を考えることを全く必要としない。さらに、ユーザがトピックに対する合致する記事を見たときに、「誤った正」がすぐに明らかになる場合があり、これは、ユーザが次いで追加する「負の例」を導入するのに自然な地点である。言い換えれば、機械学習インタフェースを使用することで、対話の複雑さは必要とされるまで延期され、訓練はユーザにとって容易かつ自然なものになる。

候補トピックモデル８６は、エバーグリーンインデックス８８を元々構築するのに使用されたのと同じ候補トピックモデル８６、ならびにより多くの正と負の訓練例を含むことができ、これらの訓練例は、エバーグリーンインデックスを維持している間に自動的に識別されたもの（後述する）、または専門家の知識に基づいて手動で訓練セット９１、９２に追加されたものである。

別の実施形態では、インデックス設立者が、ウェブサイト、ＲＳＳウェブフィード、オンライン新聞、ブログ、および他の情報フィードまたはソースなど、中心的な対象領域を代表すると自身が感じるオンラインソースのセットを指定する。別法として、設立者は、ドラッグアンドドロップ方式またはポイントして選択する方式のユーザインタフェースを介した選択を含めて、ソースから記事のスターターセットを手動で選択することができる。ソーシャルインデクシングシステムは、これらのソースから記事を収集することを開始する。少数の記事が到着したかまたは識別された後、設立者は、トピックの短い概要またはリストを作成し、どの記事が各トピックの正の例かを示す。最初に、システムはこれらの正の訓練例の記事のみについて訓練して、インデックスパターンの初期セットを形成する。次いでシステムは、トピックのインデックスパターンに合致する、情報ソースからの記事を分類することを開始する。設立者は、訓練セットを編集してシステムを再訓練することによって、トピックモデルの性能を調整することができる。設立者は、分類結果に基づいて、より多くの正と負の訓練例を追加する。能動的な増強コミュニティに属するより成熟したエバーグリーンインデックス中では、メンバは、システムにフィードバックを与えて、いくつかの記事が誤って分類されている恐れがあることを示すことができる。このフィードバックを使用して、インデックスパターンのさらなる訓練と、新しいトピックまたはサブトピック、あるいは既存のものを改訂したトピックまたはサブトピックの作成とをガイドすることができる。他の変形も可能である。

継続した操作の中で、エバーグリーンインデックス８８は発展することが予想される。トピックは分裂または結合する場合がある。トピックの重点はいくぶん「ドリフト」する場合があり、トピックは追加または削除される場合がある。訓練セット９１、９２は、自動的に作成されてもよく、手動で選択してもよい。多くの訓練セッションにわたって、「注意を要する」または「エッジ」訓練例を保存して、機械学習プロセスをガイドすることができる。より大きいコーパスから典型的な引用をランダムに選択することもできる。

シードワード（ｓｅｅｄｗｏｒｄｓ）は、インデックス訓練の開始点を提供する。図７は、図６の方法８０で使用する、シードワードを選択するためのルーチン１００を示す流れ図である。シードワード選択は訓練マテリアル８１で開始し（ステップ１０１）、訓練マテリアル８１は、エバーグリーンインデックスのためのブートストラップとしての働きをする。例えば、適切な主題に関する、使用言語を代表する書籍インデックスが、訓練マテリアルとしての働きをすることができる。一方、ページ引用は、インデックス構造がないが、それでも代表的とすることができる。

シードワードは、訓練マテリアル８１中の各トピックおよびサブトピックから選択される（ステップ１０２〜１０６）。シードワードの計算に使用される２つの異なる記事の集まりがある。第１に、主題の全体を表すページのセットを、ベースライン単語頻度の計算に使用することができる。第２に、トピックに関する情報を表すページのセットを、各トピックが訓練されるのに必要とされるページと共に使用することができる。ページは一般に、トピックごとに異なることになる。

訓練マテリアル８１中のトピックまたはサブトピックによって引用される各ページが分析される（ステップ１０３）。例えば本またはウェブページ間の境界は、トピックに関する不完全な仕切りなので、アルゴリズムは、トピックがいくつかのページにわたるときは、各ページを個別に識別する。反対に、いくつかのトピックが単一のページに現れる場合もある。しかし実際には、ほとんどのインデックスは各トピックにつき複数のページを引用し、各引用ページがいくつかのトピックをカバーする場合もあるが、１つのトピックについて引用された２つのページが同じ追加トピックを有することは多くない。このランダム化された隣接トピック分布は、単語母集団に対する隣接トピックの影響を低減し、また中和する傾向がある。中和効果は、情報量が増加するにつれてより強くなり、シードワードとトピックおよびサブトピックとの関連の曖昧さを排除するのを助ける。

トピックまたはサブトピックの特性を示す、各ページのシードワード８４が選択される（ステップ１０４）。引用ページに現れる単語の頻度と、より大きいコーパス中のページに現れる単語の頻度を比較することによって、基底単語の集合が決定される。例えば、引用ページでの出現頻度が他のページでの出現頻度よりもかなり高い単語を、シードワード８４として選択することができる。基底単語の部分集合が、トピックのシードワード８４として選択されるが、この部分集合は、このトピックの特性を最も示す単語を優先する。選択はまた、ラベル単語、およびラベル単語の近くにしばしば現れる単語（これらの単語がそれ自体では特性を示さなくても）を含むように偏向される。サブトピックラベル中で使用される単語や、引用ページでラベル単語の近くに現れる単語など、他の関連単語をシードワード８４として含めることもできる（ステップ１０５）。訓練マテリアル８１中のすべてのトピックおよびサブトピックが調べられるまで、各トピックおよびサブトピックが順に選択される（ステップ１０６）。

シードワードの計算は、単語頻度の「ベースライン」を計算するための１つの訓練マテリアルセット、通常は文書と、インデックスの代表サンプルとしての第２の訓練マテリアルセットとを使用する。例えばＴＦ−ＩＤＦ（ｔｅｒｍｆｒｅｑｕｅｎｃｙ−ｉｎｖｅｒｓｅｄｏｃｕｍｅｎｔｆｒｅｑｕｅｎｃｙ）重み付け、または他の類似の尺度を使用して、代表サンプル記事における単語頻度を、ベースラインサンプル記事における単語頻度と比較することができる。

一実施形態では、ベースラインは、本全体を使用して計算することができ、この本は、各トピックの代表サンプルを、その引用ページに基づいて提供する。別のウェブベースの実施形態では、新しい記事がエバーグリーンインデックスに常に到着する。インデックスのベースラインは、増強コミュニティによって使用されるすべての情報ソースから引き出された記事から計算される。あるパラメータは、使用されることになる記事の最大数を律し、別のパラメータは、計算で使用される正の例のページの最大数を律する。システムは、コミュニティによって受け取られた記事のランダムなサンプルを、パラメータによって指定される限度まで利用する。これらの記事を使用して、ベースライン単語頻度が計算される。次いで、正の訓練例が代表サンプルとして使用される。この手法は、コミュニティ中の各トピックにつき異なる代表サンプルに基づいて、各トピックにつき異なるシードワードを計算する。複数の増強コミュニティに対応するソーシャルインデックスは、各コミュニティにつき異なるベースラインを計算することになる。

シードワード８４から候補トピックモデル８６が生成されて、各トピックについてのモデルが作成される。図８Ａ〜図８Ｃは、図６の方法８０で使用する、候補トピックモデル８６を生成するためのルーチン１１０を示す流れ図である。トピックモデル８６は、従来のインデックスに見られるような直接的なページ引用を、所与のテキストがトピックに関するものかどうかテストするのに使用できる表現に変換する。トピックモデルは、本明細書に述べるようにパターンとして、ならびに、用語ベクトル、または他の任意の形のテスト可能な表現として指定することができる。

シードワード８４が選択されると（上記参照）、候補トピックモデル８６が各トピックおよびサブトピックにつき生成され評価される（ステップ１１１〜１３１）。各候補トピックモデル８６は、パターンを定義するための有限状態パターン言語を例えば使用して述語に形成された、１つ以上のシードワード８４を含む。加えて、より高レベルの意味解析を利用して候補パターンの要素を構成することもできる。

各候補トピックモデル８６は、シードワード８４にわたって単一レベルの表現とすることもでき、あるいは、他の述語を引き数として含む複数レベルの表現とすることもできる。候補トピックモデル８６は、評価されることになるより複雑な候補トピックモデル８６を漸進的に構築する複数の段階で生成される。これらの段階は、以下のことを含む。
１）単一単語の候補を生成する（ステップ１１２）。
２）ｎ−ｇｒａｍ（介在する単語のないシーケンス）を生成する（ステップ１１５）。
３）論理和パターン（論理ＯＲ）を生成する（ステップ１１８）。
４）論理積パターン（論理ＡＮＤ）を生成する（ステップ１２１）。
５）シーケンスパターンを生成する（ステップ１２４）。
６）第２レベルの論理和パターンを生成する（ステップ１２７）。
他の段階、および他の形の候補トピックモデル８６、述語、ならびに認識制約表現も可能である。例として、表１に、Ｋ．アリベック、「Ｂｉｏｈａｚａｒｄ」、（ＲａｎｄｏｍＨｏｕｓｅ）（１９９９）から生成された、パターンの形のトピックモデルを提供する。各述語において、論理積を左右の角括弧で示す。論理和を左右の丸括弧で示す。ｎ−ｇｒａｍを左右の中括弧で示す。曖昧さが排除されたライブラリパターンの名前の前に、ドル記号を付す。

各候補トピックモデル生成段階に従って候補トピックモデル８６が評価されるが（ステップ１１３、１１６、１１９、１２２、１２５、１２８）、これは、図９を参照しながらさらに後述するように、候補モデルを正と負の訓練セット９１、９２に対してテストし、性能、単純さ、および偏向のうちの１つ以上について候補モデルを採点する。候補モデル生成評価段階（ステップ１１２〜１２９）は、訓練されている各トピックにつき独立して実行される最良優先任意時間（ｂｅｓｔ−ｆｉｒｓｔ、ａｎｙｔｉｍｅ）アルゴリズムを利用する。アルゴリズムがすべてのトピックに対して実行されると、最良のパターンすなわちトピックモデルが保存され、エバーグリーンインデックスの維持に使用される。

訓練中、アルゴリズムは、候補トピックモデル探索空間の最も可能性の高い部分を最初に訪れ、探索に集中するための時間および記憶空間の予算を管理することを試みる。探索空間の枝が、すでに生成されたトピックモデルよりも高く得点するであろう候補を生むことがとてもできない場合は、これらの枝は早期に取り除かれる（ステップ１１４、１１７、１２０、１２３、１２６、１２９）。候補トピックモデル８６は、複雑さの低い順および確率の高い順に生成されるので、最良の候補トピックモデル８６が普通は最初に生成される。最良の単純な候補トピックモデル８６は常に、最良のより複雑な候補トピックモデル８６よりも優位に立つことになるので、高得点の単純な候補トピックモデル８６が見つかった場合は、パターン生成評価は早期停止することができる（ステップ１１４、１１７、１２０、１２３、１２６、１２９）。というのは、より後のより複雑な候補トピックモデル８６は、より高く得点することはとてもできないからである。したがって、部分的な生成および部分的な評価のサイクルのみの後で、多くの候補トピックモデルが早期に除去されるので、トピックモデル生成評価段階（ステップ１１２〜１２９）から得られる候補トピックモデル８６は、潜在的な候補トピックモデル８６の氷山の一角を表すに過ぎない。他の候補トピックモデル生成評価手法も可能である。

すべてのトピックモデル生成評価段階（ステップ１１２〜１２９）が完全に実行された場合、すなわち早期停止が可能でなかった場合は、構造の複雑さおよびインデックスラベルとの語句重複を評価することにより、各段階で選択されたトピックモデルから好ましい候補トピックモデル８６を選択しなければならない（ステップ１３０）。構造の複雑さがより低く、語句重複がより高いことが好ましい。候補トピックモデルの構造の複雑さは、候補トピックモデルがより精巧になって、述語、語句、およびレベルがより多くなるにつれて、増大する尺度である。単純な、または複雑さの低い候補トピックモデルの方を優遇することにより、トピックモデル評価部は、オッカムのかみそりの哲学に従って、データを説明する最も単純な候補トピックモデルを選択する。構造の複雑さを考慮することはまた、特に訓練データが乏しいときに、機械学習におけるオーバーフィッティングを回避するのにも有用である。残りの各トピックおよびサブトピックについても、候補トピックモデル８６の生成および評価が継続する（ステップ１３１）。

最後に、階層型の生成テストアルゴリズムが完了すると、各トピックまたはサブトピック８９は、トピックモデル９０によってエバーグリーンインデックス８８中で表される。次いで、エバーグリーンインデックス８８は、増強コミュニティによってディジタル情報開示に使用することができる（ステップ１３２）。

機械学習プロセスは、生成テストプロシージャとして編成される。複雑さが増していく候補トピックモデル８６が生成され（上記参照）、監視付き学習プロセスを介して漸進的にテストされる。訓練例の反復的な選択は、前の誤ったカテゴリ化に関する増強コミュニティからの情報を含めた、ユーザとの対話によってガイドされ、前の誤ったカテゴリ化は、負の訓練例になることができる。別法として、いくつかのトピックモデルを学習した後で、最良のトピックモデルを選択することもできる。図９は、図８Ａ〜図８Ｃのルーチン１１０で使用する、候補トピックモデルを評価するためのルーチン１４０を示す流れ図である。候補トピックモデル８６は、正と負の訓練セット９１、９２と照合される（ステップ１４１）。

一実施形態では、トピックモデルは、必ずしもコーパス全体と照合する必要はない。例えば、訓練セットは本から生成することができ、この本では、インデックス中で引用されるページが正の訓練例であり、インデックス中で引用されない残りのページが負の例になる。正と負の例は共に本全体を構成し、この本もまたコーパス全体である。別の実施形態では、トピックのリストが作成され、インデックス設立者によって、トピックごとの正の訓練例としてウェブページがオンラインソースから選択される。オンラインソースからのマテリアルがエバーグリーンインデックスに投入された後、負の訓練例および他の正の訓練例が指定される。さらに別の実施形態では、訓練用に毎回保存される正と負の訓練例を増強コミュニティマネージャなどのトレーナが指定するようにすることにより、非常に長いコーパスから代表的な訓練セットを選択することができる。

各候補トピックモデル８６は、性能、単純さ、および偏向のうちの１つ以上について格付けされる。性能は、コーパスに対する候補トピックモデルの合致を、記事が「トピックに関する」ものであるという予測として格付けする。理想的な場合では、候補トピックモデルは、すべての正の訓練例と合致し、どんな負の訓練例とも合致しない。候補トピックモデルが、いずれかの正の例と合致できない場合、またはいずれかの負の例と合致する場合は、性能の格付けはより低く採点される。単純さは、より単純な候補トピックモデルが、複雑なモデルよりも優先されることを指定する。最後に、偏向は、トピックラベルとの語句重複がある候補トピックモデルを、そうでないモデルよりも好む。候補トピックモデルの格付けの間、誤った正の合致と誤った負の合致の両方が格付けされる。照合アルゴリズムは、トピック階層を正確に反映するために、サブセット、一般性、およびクレジット割当ての考慮を含む。例えば、親トピックについての候補トピックモデルが、訓練データ中で引用されないいくつかのページと合致するが、これらのページがそのサブトピックのうちの１つによってすでに引用されている場合、親トピックは、誤った正の合致として不利益を受けることはない。

各候補トピックモデル８６には、訓練セットに対して正しい予測および正しくない予測をいくつ行うかに従って、得点が割り当てられる（ステップ１４２）。この得点は、各トピックモデルがどれくらいうまく正と負の訓練例を予測するかを反映し、また、その構造の複雑さおよびトピックラベル単語との重複にも基づく。正と負の訓練例を完全に予測し、構造の複雑さが低く、トピックラベルとの語句重複がかなりある候補トピックモデル８６に、最も高い得点が発生する。

種々のトピックモデルについて達成することのできる「可能な最良の」得点が追跡される。候補トピックモデル８６は、複雑さの低い順および確率の高い順に生成されるので、最良の候補トピックモデル８６が普通は最初に生成される。一実施形態では、すべてのトピックモデルが保存され、すべてのトピックモデルの生成後に最良のトピックモデルが選択される。別の実施形態では、それまでに見られた最良のトピックモデルのみが保持され、それよりも前のより性能の低いトピックモデルがあればそれらに取って代わる。さらに別の実施形態では、「可能な最良の」トピックモデルに遭遇した場合（ステップ１４３）、このトピックモデルが選択され（ステップ１４４）、トピックモデル生成評価を早期停止してよいことを合図するように働く。というのは、最良の単純なトピックモデルは常に、最良のより複雑なトピックモデルよりも優位に立つことになるからである。

情報開示は、２つの非常に重要な面を有する。すなわち、（１）各トピックにどのページが関するか決定することであり、これはインデックス外挿によって対処される。また（２）種々のページの質を決定することであり、これは後で論じるように投票によって対処される。インデックス外挿は、「少人数の精力的な仕事」すなわちインデックスマネージャを組み込むが、インデックスマネージャは、ソースを選択し、正と負の訓練例を与えることによってインデックスを訓練する。新しい記事が到着したとき、ソースが増強コミュニティのエバーグリーンインデックスに追加されたとき、またはインデックスが再訓練されたときは、分類が実施される。エバーグリーンインデックス８８中のトピックモデル９０により、新しく関連性のあるディジタル情報を、監視付き機械学習を使用したインデックス外挿のプロセスを介して自動的にトピック８９によってカテゴリ化することができる。図１０は、一実施形態によるインデックス外挿１５０を示すデータフロー図である。この方法は、サーバまたは他のコンピューティングデバイスによって、一連のプロセスステップとして実施される。

従来のインデックスとは異なり、エバーグリーンインデックスは、引用ではなくトピックモデルを含むが、これによりエバーグリーンインデックスは、特定のディジタル情報に束縛されないと共にどんなディジタル情報にも適用可能な、動的な構造として機能することができる。図１１を参照してさらに後述するように、文書１５１がエバーグリーンインデックスのトピックモデル１５３と照合されて、情報に最も適合するトピックまたはサブトピック１５４が決定される（操作１５２）。あらゆる文書１５１が、正しく合致するトピックモデル１５３を見つけることになるわけではない。いくらかの情報は誤って合致する場ことがあり、他の情報は全く合致しないことがあるが、それでもなお、新しいトピックまたはサブトピックとしてエバーグリーンインデックスに追加するに値する場合がある。

エバーグリーンインデックスを使用して新しいディジタル情報を自動的にカテゴリ化することは、継続的なプロセスである。図１１は、図１０の方法で使用する、インデックス外挿を実施するためのルーチン１６０を示す流れ図である。新しいページ、記事、または他の形のディジタル情報が、ウェブクローラなどを介して自動的に、あるいは増強コミュニティまたはその他によって手動で識別される（ステップ１６１）。分かりやすくするために、新しいディジタル情報を単に「ページ」と呼ぶことにする。

新しいディジタル情報の各ページが処理される（ステップ１６２〜１６７）。１つのページが、１つ以上のトピックまたはサブトピックと合致する可能性があり、エバーグリーンインデックス中のトピックモデル１５３を構成するパターンが、ページと照合される（ステップ１６３）。ページが少なくとも１つのトピックまたはサブトピック１５４と合致する場合は（ステップ１６４）、ページは、エバーグリーンインデックスのこれらの合致するトピックおよびサブトピック１５４の下に登録される（ステップ１６６）。しかし、合致が見つからない場合は（ステップ１６４）、ページは無視されるか、あるいはエバーグリーンインデックスのキャッチオールトピックに記録される（ステップ１６５）。未分類ページをインデックス外挿への補足として使用することもできる。例えば、コミュニティの注目に対する新しいトピックが未分類ページの間で生じる場合があり、何人かのコミュニティメンバによって、未分類ページの代表的なサンプリングを、インデックスの拡張をサポートする社会的プロセスのための利益として検討することができる。ページに合致するトピックモデル１５３がない場合は、このページは、新しいトピックまたはサブトピックのために保持しておく価値のあるページの場合などに、新しい正の訓練例として使用することができる。新しいトピックまたはサブトピックは、エバーグリーンインデックスが属する増強コミュニティに関連する分野専門家または他の個人によって、別個に識別されることになる。別法として、コミュニティメンバによって指摘された場合など、トピックモデル１５３が誤ってページに合致している場合は、このページは新しい負の訓練例として使用することができる。

ソーシャルインデクシングにおける情報開示は、インデックス外挿を、トピックによって範囲を定められた投票と組み合わせたものである。投票は、「多人数の軽い仕事」を具体化する。投票には、きめ細かいカテゴリ化が非常に重要である。というのは、カテゴリ化は、各トピック下の記事の評価の原因となるからである。カテゴリ化は、どの記事が最良であり読者の注目に最も値するかを突き止める。投票は、エバーグリーンインデックスの特色を表すユーザインタフェースを介して提供される。

ウェブブラウザは、ユビキタスかつ広く採用される情報提供インタフェースになってきており、これは、新しく関連性のあるディジタル情報を空間的に提示するための、唯一ではないが理想的なプラットフォームを提供する。図１２は、関心度によって編成されたディジタル情報を提供するユーザインタフェース１８０を例として示すスクリーンショット図である。ユーザインタフェース１８０は、情報ダイエットの２つの面、すなわち関連性および関心度を、投票と結び付ける。ユーザインタフェース１８０は例示的な提示を提供するものだが、他のインタフェーシング方法も等しく可能である。

各増強コミュニティによって投票されたディジタル情報の格付けを、タブ１８１または他のマーカによって索引付けされた個別ウェブページ上で提供することができる。各増強コミュニティのタブ内では、この増強コミュニティのトピックおよびサブトピック１８２を最初にリストすることができ、より大きいフォントまたはより目立つ表示属性が、最も人気のある文書を強調する。前述のように、トピックおよびサブトピック１８２は、増強コミュニティのエバーグリーンインデックスから選択され、文書は、ディジタル情報のコーパスをエバーグリーンインデックス中のトピックモデルと照合することによって識別される。

関心度（ＤＯＩ）は、何らかの情報がどれくらい関心をそそることになるかを反映するように導出され意図された数値尺度を指す。ＤＯＩは、所与のトピックに関する特定の記事に対して決定することができ、また、２次トピックを１次トピックに関係付けるために計算することもできる。ＤＯＩは、個人の履歴または状態に特有の情報に基づいて、個人に適応させることができる。利用可能なときは、ＤＯＩを使用して情報の提示を最適化することができ、したがって、情報により多くの空間を与えたり情報をより目立たせたりするなどによって、最も高いＤＯＩを有する情報が優遇される。例えば、最も高くランク付けされたページ１８３には最大量の空間を割り振ることができ、グラフィックス、タイトル、記事のソースに関する情報、および要約がすべて提供される。他の情報、あるいは他の形の視覚強調または表示強調を提供することもできる。同様に、より低く格付けされたページ１８４にはより少ない空間を割り振ることができ、グラフィックスなしで、より小さいフォントサイズを使用することができる。最後に、最も低く格付けされたページ１８５は、タブの下部に追いやることができ、ページのソースおよびタイトルのみが提供される。便利なように、全ページの数の要約１８６を含めることもできる。

本発明を、その実施形態を参照して具体的に図示および記述したが、趣旨および範囲を逸脱することなく、形式および詳細において前述のおよび他の変更をこれらの実施形態に加えることができることは、当業者なら理解するであろう。

ディジタル情報の仮定的なロングテール分布の例を示したグラフ図である。ディジタルセンスメーキングにおける課題を示す機能ブロック図である。ディジタル情報センスメーキングのための例示的な環境を示すブロック図である。図３のソーシャルインデクシングシステムで使用される主要なコンポーネントを示す機能ブロック図である。ディジタル情報プロバイダの現在の編成状況の例を示したグラフ図である。一実施形態によるインデックス訓練を示すデータフロー図である。図６の方法で使用する、シードワードを選択するためのルーチンを示す流れ図である。図６の方法で使用する、候補トピックモデルを生成するためのルーチンを示す流れ図である。図６の方法で使用する、候補トピックモデルを生成するためのルーチンを示す流れ図であり、図８Ａに続く図である。図６の方法で使用する、候補トピックモデルを生成するためのルーチンを示す流れ図であり、図８Ｂに続く図である。図８のルーチンで使用する、候補トピックモデルを評価するためのルーチンを示す流れ図である。一実施形態によるインデックス外挿を示すデータフロー図である。図１０の方法で使用する、インデックス外挿を実施するためのルーチンを示す流れ図である。関心度によって編成されたディジタル情報を提供するユーザインタフェースの例を示したスクリーンショット図である。

符号の説明

１０ディジタル情報についての仮定的なロングテール分布、１１ヘッド項目、１２ロングテール項目、２１ソーシャルインデクシング、２２開示、２３探査、２４適応、３０ディジタル情報センスメーキングのための例示的な環境、３１ネットワーク、３２ソーシャルインデクシングシステム、３３ａ，３３ｂ，３３ｃユーザデバイス、３４ａウェブサーバ、３４ｂニュースアグリゲータサーバ、３４ｃ投票付きニュースサーバ、３５ａウェブコンテンツ、３５ｂニュースコンテンツ、３５ｃ「吟味される」コンテンツ、４０ソーシャルインデクシングシステム３２中で使用される主要なコンポーネント、４１情報収集、４２インデクシングおよび分析、４３ユーザサービス、４４インデックストレーナ、４５インデックス外挿部、４６入来コンテンツ、４７配信インデックス、４８ａ，４８ｂユーザ、４９エバーグリーンインデックス、６０ディジタル情報プロバイダの現在の編成状況を例として示すグラフ、６６専門ウェブサイト、６７ＲＳＳリーダ、６８自動化された主流メディアウェブサイト、６９主流メディアウェブサイト、７０ブログ検索エンジン、７１ニュースアグリゲータ、７２投票付きニュースウェブサイト、７３ソーシャルインデクシングシステム、８０インデックス訓練、８１訓練マテリアル、８２インデックスエントリ、８３シードワード選択、８４シードワード、８５トピックモデル生成、８６候補トピックモデル、８７トピックモデル評価、８８エバーグリーンインデックス、８９トピックまたはサブトピック、９０トピックモデル、９１正の訓練セット、９２負の訓練セット、１００シードワードを選択するためのルーチン、１１０候補トピックモデルを生成するためのルーチン、１４０候補トピックモデルを評価するためのルーチン、１５０インデックス外挿、１５１文書、１５２トピックモデル照合、１５３トピックモデル、１５４トピックまたはサブトピック、１６０インデックス外挿を実施するためのルーチン、１８０ユーザインタフェース、１８１タブ、１８２トピックおよびサブトピック、１８３最も高くランク付けされたページ、１８４より低く格付けされたページ、１８５最も低く格付けされたページ、１８６全ページの数の要約。

Claims

対象領域におけるディジタル情報の開示を実施する方法であって、
コンピュータのユーザインターフェースを介して、記憶装置に保持された、電気的に保存されたディジタル情報を含むコーパスを指定し、
１つ以上のトピック、及びトピックに関する情報とトピックに関するものではない情報とを含む前記トピックについての訓練マテリアルを選択し、
前記コンピュータ上で候補トピックモデルを構築し、
前記構築は、
前記選択されたトピックのそれぞれについてシードワードを選択し、
各トピックの前記シードワードから当該トピックの候補トピックモデルとしてパターンを生成する、
ことを含み、
各選択されたトピックについて前記候補トピックモデルを前記訓練マテリアルに対して評価し、
前記評価は、
各候補トピックモデルの前記パターンを前記訓練マテリアルに合致させ、
前記選択されたトピックについて各候補トピックモデルを格付けすること、
を含み、
前記格付けは、
前記選択されたトピックについて前記トピックに関する情報に合致する各候補トピックモデルにより高い得点を割り当て、
前記選択されたトピックについて前記トピックに関する情報に合致しない各候補トピックモデルにより低い得点を割り当て、
前記選択されたトピックについて前記トピックに関するものではない情報に合致しない各候補トピックモデルにより高い得点を割り当て、
前記選択されたトピックについて前記トピックに関するものではない情報に合致する各候補トピックモデルにより低い得点を割り当てること、
を含み、
各トピックと最高総合得点を有する前記候補トピックモデルとを対にすることによって、前記選択されたトピックのそれぞれについてトピックモデルを含むエバーグリーンインデックスを構築する、
ことを含むことを特徴とする方法。
請求項１に記載の方法であって、
前記選択されたトピックについて前記トピックに関する情報の全てに合致するとともに、前記選択されたトピックについて前記トピックに関するものではない情報の全てに合致しない候補トピックモデルにより高い得点を割り当てることによって、各候補トピックモデルがどれくらいうまく機能するかに基づいて、前記選択されたトピックの前記候補トピックモデルを優遇することをさらに含むことを特徴とする方法。
請求項１に記載の方法であって、
各トピックモデルを有限状態言語の述語として形成し、
各述語を、前記述語が合致する前記コーパス中の位置を返すクエリとして前記コーパスに適用する、
ことをさらに含むことを特徴とする方法。
請求項１に記載の方法であって、
前記コーパス中の記事を前記エバーグリーンインデックス中の前記トピックモデルに対して分類し、
前記分類した記事を前記エバーグリーンインデックス中で提示する、
ことをさらに含むことを特徴とする方法。
請求項１に記載の方法であって、
前記選択されたトピックの少なくとも１つの下に１つ以上のサブトピックを階層的に構築することをさらに含むことを特徴とする方法。
請求項１に記載の方法であって、
前記記憶装置に保持された、各トピックモデルについての正しい引用に対応する前記コーパス中の記事を含む正の訓練例のセットを定義することによって、前記トピックに関する情報を指定することをさらに含むことを特徴とする方法。
請求項６に記載の方法であって、
前記記憶装置に保持された、各トピックモデルについての正しくない引用に対応する前記コーパス中の記事を含む負の訓練例のセットを定義することによって、前記トピックに関するものではない情報を指定することをさらに含むことを特徴とする方法。
請求項６に記載の方法であって、
各トピックの特性を表し、前記正の訓練例セット中の前記記事に基づく、基底単語を識別し、
前記基底単語の１つ以上を、シードワードとして前記トピックについての前記トピックモデルのそれぞれに組み入れる、
ことをさらに含むことを特徴とする方法。