JP5203882B2 - ディジタル情報探査方法 - Google Patents

ディジタル情報探査方法 Download PDF

Info

Publication number
JP5203882B2
JP5203882B2 JP2008264167A JP2008264167A JP5203882B2 JP 5203882 B2 JP5203882 B2 JP 5203882B2 JP 2008264167 A JP2008264167 A JP 2008264167A JP 2008264167 A JP2008264167 A JP 2008264167A JP 5203882 B2 JP5203882 B2 JP 5203882B2
Authority
JP
Japan
Prior art keywords
frontier
information
home
community
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008264167A
Other languages
English (en)
Other versions
JP2009099148A (ja
Inventor
ジェイ ステフィック マーク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Palo Alto Research Center Inc
Original Assignee
Palo Alto Research Center Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Palo Alto Research Center Inc filed Critical Palo Alto Research Center Inc
Publication of JP2009099148A publication Critical patent/JP2009099148A/ja
Application granted granted Critical
Publication of JP5203882B2 publication Critical patent/JP5203882B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/358Browsing; Visualisation therefor
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Radar Systems Or Details Thereof (AREA)

Description

本願は一般に、ディジタル情報のセンスメーキング(sensemaking)に関し、より詳細には、ディジタル情報を探査するためのシステムおよび方法に関する。
この非仮特許出願は、2007年10月12日に出願された米国仮特許出願第60/998636号に対して米国特許法119条(e)に基づく優先権を主張するものであり、この開示を本願に引用して援用する。
ディジタルセンスメーキングは、ワールドワイドウェブ(「ウェブ」)などのディジタル情報インフラストラクチャが介在するセンスメーキングである。ウェブを介して、ユーザは、様々なソースからの過去の情報を公開する「従来の」ウェブサイトと、モデレータがいるウェブログ、すなわち「ブログ」、ユーザフォーラム、およびユーザが新しい情報を能動的にランク付けすることのできる投票付きウェブサイトを含む対話型ウェブサイトとの両方にアクセスすることができる。
ディジタル情報リポジトリとして、ウェブは、イベントの発生、観念の統合、および新しい傾向の出現に伴って、継続的に発展する。新しい情報が絶えず公開される。しかし、情報認識は、人為的に制約されたままである。主流メディアウェブサイトは一般に、ニュース、ビジネス、政治、スポーツ、娯楽および天気など、人気のあるトピックだけをカバーするが、他のウェブソースを介して追加のトピックも多数存在し、それらのトピックは、読者または発行者の中心的な関心のセットの範囲から外れることがある。これらのトピックは、例えば技術ニュースなどやや人気の劣るトピックから、地域のコミュニティカレッジの夜間クラススケジュールなど、比較的少数の人に関連する特殊なまたは目立たないトピックまでの範囲にわたる。
多くの市場における物への需要は、非特許文献1に記述されているような「ロングテール」分布に従い、この開示を本願に引用して援用する。図1は、ディジタル情報の仮定的なロングテール分布10を、例として示すグラフである。X軸はディジタル情報を表し、Y軸は人気レベルを表す。分布のヘッドに見られる項目11は、数は少ないが最も高い人気を得ており、これらは少数の人気カテゴリに入るメディア報道内容などである。しかし、より読者の少ないニッチトピックをカバーする「ロングテール」に沿った項目12は、ヘッド項目11に数で勝る。ヘッド項目11のどの1つをとってもロングテール項目12のいずれか1つよりも高い人気を得ているが、十分なロングテール項目12が含まれるときには、ロングテール項目12の十分に大きいグループの総計としての人気は、すべてのヘッド項目11の人気を上回ることになる。このことは、閲覧者をロングテールトピックに気付かせることができるならば、ロングテールトピックに焦点を合わせることによってより大きな閲覧者総体に達することができることを含意する。
情報の消費者は、限られた時間しか有さず、あらゆるものに注意を払うことはできない。より多くのトピックが利用可能になるのに伴い、主流トピックはますます読者からわずかな注目しか受けなくなる。これに似て、プライムタイムのテレビジョン視聴者は現在、ケーブルおよび衛星ネットワークがその番組を改良してその視聴者数を増加させるのに伴って減少している。同様に、音楽「ヒット」は今日、より多くの選択肢および購入オプションが利用可能になるのに伴い、10年前よりも販売コピー数が少ない。これらの観察から、経済および人気の傾向は、次のように簡潔に要約することができる。すなわち、「選択肢を与えれば人々はそれらを利用する」、また「分布のヘッドは縮小しつつある」。
問題は、単に新しいまたは人気のある情報を見つけることだけではない。問題は、関連性を有したままでありながら既成概念の枠を超える、中心的なトピックの関心の領域外にある新しい情報を見つけることである。すぐに目先のことにとらわれ、よく知っている既知のトピックだけに焦点を当てることによって、新しい考え、または新たに生じている傾向を見逃すリスクがある。読者の中心的なトピックのセットの「フロンティア」上の情報の量は、主な焦点が当てられた情報の本体よりも大きい。さらに、周囲トピックは一般に、読者にとって、中心的なトピックほど重要ではなく、したがって、より見落しやすい。
読者にとって重要になるトピックはしばしば、よく知っている中心的トピックの境界をちょうど越えた所にまず現れる。この周囲のトピックを監視すると、何が生じるにかについて「探知能力を超えた(beyond the radar)」認識がもたらされ、遥かに遅く注意が情報に払われる場合に遅れた救済策を講じる費用を潜在的に節約することができる。しかし、関連するフロンティア情報を効率的に見つけることは、専門知識のレベルが、中心的トピック情報を識別するために所有されたものよりも本質的に低いので、難しい問題であり得る。この問題は、フロンティア情報トピックの構造の不完全な理解、およびフロンティア情報の適切なソースを識別する際の認識不足によって悪化する。
C.アンダーソン、「The Long Tail:Why the Future of Business is Selling Less of More」、(Hyperion Press)(2006) 2008年8月12日に出願された同一出願人による係属中の米国特許出願第−号、「System and Method for Performing Discovery of Digital Information in a Subject Area」
したがって、特定の対象領域の中心的トピックを超えて存在する、新しく関連性があり信頼性があるディジタル情報を効率的に探査するためのディジタルセンスメーキングが依然として求められている。
ディジタル情報を探査するためのシステムおよび方法が、新しいもの、本当のもの、および重要なものを提供する。「新しいもの」は一般に、現在の出来事に関する情報を指すが、別の意味では、「新しいもの」は、我々がまだ扱っていない新しいトピックを含む。新たに生じている関心のこうしたトピックは、しばしばフロンティアから生じる。「本当のもの」は、複数の「フロンティア」ソースからの情報がすでに社会的に吟味(vetted)されて、関心および信頼性のレベルが確立されていることを意味する。「重要なもの」は、読者の対象領域の重要なトピックに従って情報が自動的に分類されることを意味する。
新しく関連性のあるディジタル情報は、読者の「ホーム」、すなわち通常のフロンティアコミュニティによって、および近隣のフロンティアコミュニティによって開示される。それぞれの読者コミュニティは、知識分野専門家すなわち「少人数の精力的な仕事」によって導かれるきめ細かいトピック式インデックスを利用すること、大規模なユーザコミュニティすなわち「多人数の軽い仕事」または「集団の知恵」によるランク付けとよりよいカテゴリ化に関する提案とを集約すること、および、機械支援学習すなわち「機械の根気強い仕事」を介してトピック式インデックスを拡張することにより情報を開示する。それぞれの増強コミュニティはエバーグリーンインデックスを有し、このエバーグリーンインデックスは、各トピックおよびサブトピックについて、所与のマテリアルが適合するかどうかテストするのに使用できるパターンなどのトピックモデルを含む。「エバーグリーン」という用語は、インデックスの新鮮さおよび現在性の質を暗示するものとし、したがって、新しい記事は、出現したときに自動的に分類されてインデックスに追加されることになり、必要に応じて新しいトピックをインデックスに追加することができる。
ディジタル情報は、読者の所与のまたは「ホーム」の増強コミュニティの観点から探査される。ホーム増強コミュニティの情報「フロンティア」上の1つ以上の増強コミュニティが、知識領域の専門知識、または候補フロンティアコミュニティの自動提案によってまず識別される。フロンティア増強コミュニティのエバーグリーンインデックスの下に現れる記事に割り当てられる関心度は、増強コミュニティのエバーグリーンインデックスの下でフロンティア情報が有し得る関連性の初期推定として決定される。次いで、集合的に吟味するため、増強コミュニティのエバーグリーンインデックスの下、フロンティア情報のより有望な記事が、インデックスの下ですでに吟味された記事と共に組み合わされる。
一実施形態は、ディジタル情報を探査するためのシステムおよび方法を提供する。ディジタル情報のコーパス内のホーム対象領域のホームエバーグリーンインデックスが維持され、コーパスに合致したトピックモデルを含む。ホーム対象領域とはトピックの点で異なるコーパス内のフロンティア対象領域のフロンティアエバーグリーンインデックスが識別される。フロンティアエバーグリーンインデックスのトピックモデルによって識別されたコーパスからのフロンティア記事の品質査定が得られる。正の品質査定を有するフロンティア記事は、ホームエバーグリーンインデックス内のトピックモデルに対して再分類される。フロンティア記事は、ホームエバーグリーンインデックス内のトピックモデルに対して以前に分類されたホーム記事を含む表示内に提供される。
全体を通して以下の用語を使用するが、これらの用語は、特に示さない限り以下の意味を有する。
コーパス:記事、文書、ウェブページ、電子書籍、または、印刷物として利用可能な他のディジタル情報の、集まりまたはセット。
文書:コーパス内の個別の記事。文書はまた、本の章または節、あるいは、より大きな著作物の他の下位区分を含むこともできる。1つの文書が、種々のトピックに関するいくつかの引用ページを含む場合がある。
引用ページ:ページ番号などインデックスに引用されている文書内の位置。引用ページは、単一のページとすることもでき、あるいは1組のページとすることもできるが、これは例えば、サブトピックがトピックモデルにより拡張され、1組のページが、トピックモデルに合致するすべてのページを含む場合である。引用ページはまた、トピックモデルが合致することのできる、ページ全体よりも小さいもの(段落など)とすることもできる。
対象領域:エバーグリーンインデックスを含めたソーシャルインデックス中のトピックまたはサブトピックのセット。
トピック:ソーシャルインデックス内の単一のエントリ。エバーグリーンインデックス中では、トピックには、パターンなど、コーパス内の文書との照合に使用されるトピックモデルが付随する。
サブトピック:ソーシャルインデックス内のトピックの下に階層的にリストされる単一のエントリ。エバーグリーンインデックス中では、サブトピックにもトピックモデルが付随する。
コミュニティ:特定の対象領域中の主要な関心トピックをオンラインで共有し、相互間の対話が少なくとも部分的にコンピュータネットワークで媒介される人々のグループ。対象領域は、ヨットレースや有機園芸のような趣味、歯学や内科学のような専門的関心、または遅発性糖尿病の管理のような医学的関心など、大まかに定義される。
増強コミュニティ:対象領域に関するソーシャルインデックスを有するコミュニティ。増強コミュニティは、ソーシャルインデックスによって引用された対象領域内の文書の閲覧および投票に参加する。
エバーグリーンインデックス:エバーグリーンインデックスは、コーパスと共に最新の状態を継続的に維持するソーシャルインデックスである。
ソーシャルインデクシングシステム:増強コミュニティ間の情報交換を容易にし、ステータスインジケータを提供し、対象文書をある増強コミュニティから別の増強コミュニティに渡すのを可能にする、オンライン情報交換インフラストラクチャ。相互接続された1組の増強コミュニティが、コミュニティの社会的ネットワークを形成する。
情報ダイエット:情報ダイエットは、ユーザが「消費」する情報、すなわち関心のある対象にわたって読む情報を、特徴付ける。例えば、ユーザは、自分の情報消費活動において、自分の時間の25%を選挙ニュースに費やし、15%を地域社会ニュースに費やし、10%を娯楽トピックに費やし、10%を親類に関係のある健康トピックに関する新しい情報に費やし、20%を自分の特定の専門的関心事における新しい進展に費やし、10%を経済進展に費やし、10%をエコロジーおよび新エネルギー源における進展に費やす場合がある。ソーシャルインデクシングのためのシステムが与えられれば、ユーザは、自分の情報ダイエット中の自分の主要な関心のそれぞれにつき、別々の増強コミュニティに加入することまたはそれをモニタすることができる。
ウェブおよび他のオンライン情報リソースは、絶えず発展し拡張し続けるディジタル情報ソースを提供する。ディジタルセンスメーキングは、これらのリソース中の情報から意味を理解することに関するものである。図2は、ソーシャルインデクシング21における課題、すなわちディジタル情報の開示22、探査23、および適応24を示す機能ブロック図20である。他の課題も可能である。これらの課題は情報採集の種々の面を表し、これらの面は、トピックの点できめ細かい、社会的に吟味されるインフラストラクチャを介して、新しく関連性があり信頼性があるディジタル情報を提供するように、相乗作用的に働く。次に、各課題について要約する。
ディジタル情報開示22は、中心的な関心のセットについて、新しい、トピックの点で関連性のある情報を識別することに焦点を合わせる。これについては、2008年8月12日に出願された同一出願人による係属中の米国特許出願「System and Method for Performing Discovery of Digital Information in a Subject Area」にさらに記載されており、この開示を本願に引用して援用する。ディジタル情報の開示は、各自が中心的な関心のセットを有し、ロングテールトピックを含めた、中心的な関心内の様々な重要性レベルの複数のトピックにわたる情報を必要としているということを前提として開始する。鍵となる課題は、中心的な関心に関する新しい情報を効率的に追跡することにある。
本出願の焦点であるディジタル情報探査23は、図7の参照以降でさらに後述するように、観念統合の助けとして個人の情報フロンティアを採集または採掘することに焦点を合わせる。情報探査は、コミュニティの社会的ネットワークを利用することにより、ディジタル情報開示22を介して基本的に満たされる個人の情報ダイエットを既存の関心を越えて拡張する。例えば、地域ニュースに関する情報フロンティアは、近隣の町および都市からのニュースを含む。別の例として、かかりつけの歯科などの専門的関心に関する情報フロンティアは、関係する分野からの関連トピック、例えば歯科衛生、新しい歯科用マテリアル、およびおそらく、新しい抗生物質、または美容歯科からの結果を潜在的に含む。ディジタル情報探査は、未知の新しいトピックグラウンドをカバーする際に、注意が逸らされたり非効率的になったりするリスクを冒さずに、効果的に注目を割り振ることを容易にする。鍵となる課題は、フロンティアに沿った近隣対象領域から最も関連性のある情報を見つけることにある。
最後に、ディジタル情報適応24は、馴染みのない対象領域に適応することに関するものである。これについては、2008年8月12日に出願された同一出願人による係属中の米国特許出願第12/190557号にさらに記載されており、この開示を本願に引用して援用する。ディジタル情報適応は、新しい対象領域の理解を効率的に得ることに関するものである。この活動は、情報開示および情報フロンティア探査と相補的であり、主題について全体的に知るために領域を探索することが目的である場合を反映する。この活動は、トピック構造および主要な結果を知ること、ならびに適切な参照を識別することを含む。
ディジタルセンスメーキングは、ディジタル情報インフラストラクチャが介在するセンスメーキングであり、ディジタル情報インフラストラクチャは、インターネットなどの公衆データネットワークと、スタンドアロンコンピュータシステムと、ディジタル情報の様々なリポジトリとを含む。図3は、ディジタル情報センスメーキングのための例示的な環境30を示すブロック図である。同じ基本的なシステムコンポーネントが、ディジタル情報の開示22、探査23、および適応24に利用される。
ディジタル情報は、ディジタル形式で利用可能な情報である。インターネットなどのディジタルデータ通信ネットワーク31が、適したディジタル情報交換インフラストラクチャを提供するが、他のインフラストラクチャ、例えば私設の法人企業ネットワークも可能である。ネットワーク31は、ディジタル情報の提供およびディジタル情報へのアクセスをそれぞれ行う様々な情報ソースおよび情報消費者への、相互接続性を提供する。ウェブサーバ34a、ニュースアグリゲータサーバ34b、投票付きニュースサーバ34c、および他のディジタル情報リポジトリが、情報ソースとしての働きをする。これらのソースはそれぞれ、ウェブコンテンツ35a、ニュースコンテンツ35b、コミュニティによって投票される、すなわち「吟味される」コンテンツ35c、および他のディジタル情報を、パーソナルコンピュータや類似のデバイスなど、情報消費者として機能するユーザデバイス33a〜cに供給する。
一般に、各ユーザデバイス33a〜33cは、サーバ34a〜34cとのインタフェーシングおよび情報交換をサポートするウェブブラウザまたは類似のアプリケーションを実行するウェブ対応デバイスである。ユーザデバイス33a〜33cとサーバ34a〜34cは両方とも、中央処理装置、メモリ、入出力ポート、ネットワークインタフェース、および不揮発性記憶装置など、プログラム可能な汎用コンピューティングデバイス中に従来見られるコンポーネントを備えるが、他のコンポーネントも可能である。さらに、サーバ34a〜34cに代えてまたは追加で、他の情報ソースも可能であり、ユーザデバイス33a〜33cに代えてまたは追加で、他の情報消費者も可能である。
ディジタルセンスメーキング、および特にディジタル情報探査23は、ソーシャルインデクシングシステム32によって容易になる。ソーシャルインデクシングシステム32もまた、ネットワーク31を介して情報ソースおよび情報消費者に相互接続される。ソーシャルインデクシングシステム32は、読者の対象領域内の中心的トピックに関してフロンティア増強コミュニティからディジタル情報を自動探査することを容易にする。
ユーザの視点からは、ソーシャルインデクシングシステムは単一の情報ポータルに見えるが、実際にはこれは、統合ディジタル情報処理環境によって提供される1組のサービスである。図4は、図3のソーシャルインデクシングシステム32中で使用される主要なコンポーネント40を示す機能ブロック図である。これらのコンポーネントはディジタル情報探査に焦点が合わせられており、他のコンポーネントを使用してディジタル情報開示、適応、関心度、および他のサービスを提供することもできる。
コンポーネント40は、情報収集41、探査および分析42、ユーザサービス43の、3つの機能領域に大まかにグループ化することができるが、他の機能領域も可能である。これらの機能グループは、相互接続され相互依存しており、同じまたは別々の計算プラットフォーム上で実施することができる。情報収集41は、ウェブコンテンツ35a、ニュースコンテンツ35b、および「吟味される」コンテンツ35cなどの入来コンテンツ46を、ウェブサーバ34a、ニュースアグリゲータサーバ34b、および投票付きニュースサービス34cを含めた情報ソースから得る。情報源は、ホーム増強コミュニティと、情報がそこから探査された、選択された近隣フロンティアコミュニティの両方にコンテンツを提供するフィードおよびソースを含む。入来コンテンツ46は、スケジューラの指示の下で動作して定期的にまたはオンデマンドで新しい情報を情報ソースから収穫するメディアコレクタによって収集される。入来コンテンツ46は、構造化されたリポジトリに記憶してもよく、あるいは、入来コンテンツの実際のコピーをローカルに維持する代わりに、入来コンテンツへの参照または引用だけを保存することによって、例えばハイパーリンクを記憶することによって、間接的に記憶してもよい。
探査および分析42は、中心的関心の対象ではない情報を追跡し、読者の注目のある割合をフロンティアニュースへと有効にそらせる。フロンティアコミュニティ識別子44は、図9に関して下記にさらに述べるように、増強コミュニティの中心的対象領域の「フロンティア」上にある近隣の増強コミュニティを突き止め、情報収集41への情報源を識別する。その後、フロンティア情報積分器45は、図10および図11を参照して下記にさらに述べるように、フロンティアコミュニティから受信された記事をランク付けする際に使用する関心度を決定し、収集されたフロンティア情報を、増強コミュニティのエバーグリーンインデックス内に現れるトピックおよびサブトピックに関連付ける。
最後に、ユーザサービス43は、配信インデックス47および入来コンテンツ46にアクセスするためのフロントエンドをユーザ48a〜48bに提供する。各エバーグリーンインデックス49は、「増強」コミュニティとして知られるユーザのコミュニティに結び付けられ、「増強」コミュニティは、中心的な対象領域中の、進行中の関心を有する。コミュニティは、以下で図12からさらに論じるように、引用された情報を、その情報が割り当てられたトピック内での投票50によって「吟味」する。
情報「ダイエット」は、ユーザが特別な関心のある対象にわたってどんな情報を消費するか、ならびに、フロンティア増強コミュニティからの選ばれたコンテンツを特徴付ける。ダイエットはまた、ユーザが各対象を「消化」することに割り振るのをいとわない時間量を反映する。ディジタル情報探査は、ダイエットの第1のアスペクトに、すなわち特別な関心のある対象中の情報に寄与する。
ユーザの情報ダイエットを満たすために、中心的なトピックのセット外から関連性および信頼性のあるディジタル情報を探査することが重要である。あらゆる種類のデータがオンラインで広く利用可能であるものの、ソースから直接得られる「生の」ディジタル情報には一般に、包括的な編成方式および適当なランク付け方法がない。図5は、ディジタル情報プロバイダの現在の編成状況の例としてグラフ60を示した図である。双方向のX軸は、ディジタル情報のトピック編成の程度を示し、双方向のY軸は、批評レビューすなわち「吟味」の量を表す。X軸の左端62の情報は、まとまりのあるトピック編成に欠け、単一の対象領域を参照する。従来の手法の下では、情報はかなり静的であり、編成は少数のトピックに限られる。X軸の右端63の情報は、きめ細かくリッチなトピック編成を受け、複数の対象領域をカバーする。各対象領域は、多くのサブトピックに深く編成される。
Y軸は、記事を「吟味」およびランク付けするのに用いられる専門知識および労力の量を特徴付ける。Y軸の最下部では、記事にはどんな編集も施されず、記事はどんな吟味もなしに提示される。原点61に近づくと、少数の編集者までの小規模なチームが記事の吟味に関与する。Y軸のより高い所では、人々の単一コミュニティ、すなわち「多人数の軽い仕事」および「集団の知恵」が、能動的に記事を閲覧し、投票または吟味する。Y軸の最上部では、複数のコミュニティが記事を吟味し、各コミュニティは特定の対象領域に焦点を合わせる。
現在の手法はせいぜい、粗く編成され、批評的な重み付けまたは「吟味」が軽く行われるだけである。例えば、南西象限では、従来の編成手法は、大まかできめの粗い、あるいは存在しないトピック編成62を使用し、吟味する編集者はほとんどいないか全くいない(64)。www.audiophilia.comで利用可能なAudiophilia、およびwww.hybridcars.comで利用可能なhybridcarsなど、専門ウェブサイト66は、単一の専門編集者によって導かれる狭い読者基盤に対応し、主題の中心はニッチトピックに置かれ、このニッチトピックの下にさらなるトピック編成は必要とされず望まれもしない。www.google.com/readerで利用可能なGoogleリーダなど、RSSリーダ67は、専用トピックに関する自動化されたフィードの下で自動的に新しい情報を報告する。同様に、news.google.comで利用可能なGoogleニュースなど、自動化された主流メディアウェブサイト68は、限られた人気ニュースカテゴリを使用し、これらのカテゴリの下に、情報が編集者の必要なしに自動的にグループ化される。しかし、記事のカテゴリ化は、非常に粗いきめによって制限され、このような大まかなカテゴリ中での記事分類は、技術ニュースやスポーツニュースなど単一トピックのソースから記事を選択することによって行われる可能性がある。最後に、www.nytimes.comで利用可能なNew York Times、およびwww.cnet.comで利用可能なcnetなど、主流メディアウェブサイト69は、ニュースを人気ニュースカテゴリに編成する個別の編集者または小規模な編集者チームを雇っており、これらのカテゴリは、自動化された主流メディアウェブサイト68を介して利用可能なトピックよりも広い範囲のトピックを含む場合がある。コミュニティベースの、公平であると推定される吟味が欠けていること、および、きめ細かいトピック編成が欠けていることにより、これらの手法は、関心を持つ増強コミュニティに関連する、または関心を持つかもしれない近隣コミュニティに関連する、広範囲の対象領域をカバーする情報を提供することができない。
やや対照的に、北西象限では、現在の手法はまた、大まかできめの粗い、あるいは存在しないトピック編成62を使用し、個別のまたは小規模コミュニティのユーザによる吟味65を提供する。googleblog.blogspot.comで利用可能なGoogleブログ検索、およびwww.icerocket.comで利用可能なicerocketなど、ブログ検索エンジン70は、ブログ専用のウェブ検索エンジンだが、ブログは、トピック編成を使用せずに受動的に検索される。www.topix.comで利用可能なTopixなど、ニュースアグリゲータ71は、ZIPコードによって編成されたニュースを、広範な、通常は人気のあるトピック領域に、自動的にまとめるものであり、限られたコミュニティベースのレビューを伴う。最後に、www.slashdot.orgで利用可能なSlashdot、www.reddit.comで利用可能なReddit、およびwww.digg.comで利用可能なDiggなど、投票付きニュースウェブサイト72は、わずかによりきめ細かい、しかしなお比較的大きいトピックカテゴリを提供し、単一ユーザコミュニティによる吟味を伴う。個別のまたは小規模なユーザコミュニティに批評レビューを開放することにより、公平さが増大し、したがって信頼性に対するユーザの確信が増大するが、きめ細かいトピック編成が同様に欠けていることにより、新しい関連情報のカスタマイズされた開示ができない。北西象限の手法はまた、RedditおよびDiggウェブサイトをよく訪れる「技術屋ゲーマー」コミュニティに代表されるような単一ユーザコミュニティに制限されるか、あるいはTopixウェブサイトのように複数のコミュニティを有するが、きめ細かいトピックカバー範囲または多様な対象領域がない。Daylifeなど、他の手法もなお存在する。Daylifeは、典型的なニュースウェブサイトよりも多くのトピックを有するが、やはり、きめ細かいトピックを含む階層型のトピック式インデックスに情報を編成しない。さらにこのサイトは、メンバとメンバのインデックスとを伴うコミュニティに編成されず、ユーザが新しいコミュニティを定義することもできない。
前述の従来手法とは対照的に、本明細書に述べる手法は、(1)X軸の右端を使用可能にするためのインデックス訓練および外挿と、(2)Y軸の上端を使用可能にするための、複数の増強コミュニティ中での投票とを用いる。ソーシャルインデクシングシステム73は、複数のユーザコミュニティによる吟味65と共に、エバーグリーンインデックス49を介したきめ細かいトピック編成63を提供することにより、北東象限を独自に占める。ソーシャルの部分は、プロセスにおける人的要素を指す。この組織的手法およびコミュニティベースの吟味によって、各ユーザがホームコミュニティと、選択された近隣コミュニティの両方から、関連性と信頼性の両方を有する情報を受信することが保証される。
エバーグリーンインデックスは、専門家によって選択されたトピック関節に沿ってマテリアルを識別し、関係付けるが、これらのトピックの結合は、重要なマテリアルについて、専門家の視点をその増強コミュニティに代わって反映する。エバーグリーンインデックスは、増強コミュニティ内の人々がどのように引用情報を使用することになるかについての判断を具現し、主題の専門家の、重要なトピックとこれらのトピックが論じられている場所への参照との関連付けを反映する。
情報をきめ細かいカテゴリに分割することで、いくつかの機能が可能になる。これには、記事投票を、1つまたは少数の大きい対象領域グループのみではなく、きめ細かいトピックグループに分離する機能を提供することが含まれる。この機能はまた、記事の質をきめ細かく推定することを可能にし、トピック内の記事の有意義な比較をもたらす。この機能がなければ、投票の有用性は主に、「最も人気のある」報道内容を決定するためである。ロングテールの報道内容、すなわち狭い関心の報道内容は、本質的に視野から消える。階層型トピック編成のもう1つの利益は、ユーザによって編集可能な「ウィキ(wiki)のような」注解をコミュニティ中の各トピックに関連付ける能力を可能にする。この能力は、各トピックのコミュニティ議論および要約のための場を提供する。
エバーグリーンインデックスは、監視付き機械学習を介して作成され、インデックス外挿によって適用される。これについては、2008年8月12日に出願された同一出願人による係属中の米国特許出願第12/190552号にさらに記載されており、この開示を本願に引用して援用する。図6は、エバーグリーンインデックス訓練の概要を示すデータフローチャートである。簡単に述べると、エバーグリーンインデックス88は、トピックまたはサブトピック89をトピックモデル90と対にすることによって形成される。エバーグリーンインデックス88は、本やウェブページへのハイパーリンクなどの従来のインデックス、または既存のエバーグリーンインデックスであり得る訓練インデックス81から開始して訓練される。それぞれのインデックスエントリ82について、シードワード84が、訓練インデックス81内のトピックおよびサブトピックのセットから選択される(操作83)。パターンなどの候補トピックモデル86が、シードワード84から生成される(操作85)。トピックモデルは、従来のインデックスで見られるような直接ページ引用を、所与のテキストがトピックから外れていないかどうかテストするために使用できる表現に変換する。トピックモデルは、パターン、ならびに用語ベクトル、または他の任意の形のテスト可能な表現として指定することができる。最後に、候補トピックモデル86が、正および負の訓練セット91および92に対して評価される(操作87)。候補トピックモデル86は、複雑さの低い順および確率の高い順に生成されるので、最良の候補トピックモデル86が通常、最初に生成される。単純な、または複雑さの低い候補トピックモデル86の方を優遇することにより、トピックモデル評価部は、オッカムのかみそりの哲学に従って、データを説明する最も単純な候補トピックモデル96を選択する。構造の複雑さを考慮することは、特に訓練データが乏しいときに、機械学習におけるオーバーフィッティングを回避するのにも有用である。
エバーグリーンインデックスを使用する新しいディジタル情報の自動分類は、連続的なプロセスである。エバーグリーンインデックス88内のトピックモデル90によって、新しい、関連性のあるディジタル情報を、インデックス外挿を用いてトピック89によって自動的に分類することが可能となる。従来のインデックスとは異なり、エバーグリーンインデックス88は、引用ではなくトピックモデル89を含み、このトピックモデル89によって、エバーグリーンインデックス88は、特定のディジタル情報に結合され、また任意のディジタル情報を介して適用可能な動的構造として機能することができる。新しいページ、記事、またはディジタル情報の他の形が、ウェブクローラーなどによって自動的に、または増強コミュニティまたは他のコミュニティによって手動で識別される。ページは、情報に最も適合するトピックまたはサブトピック89を決定するために、エバーグリーンインデックス88のトピックモデル90と照合される。あらゆるドキュメントが、正確に合致するトピックモデル90を見つけるとは限らない。一部の情報は、誤って照合されることがあり、他の情報は、全く合致せず、新しいトピックまたはサブトピック89としてエバーグリーンインデックス88に依然として追加するに値し得る。
増強コミュニティは、関連する主題に関心があるネットワーク内のコミュニティ間の関係を表現するソーシャルネットワークとして構成することができる。図7は、例を挙げるため、増強コミュニティの近隣100を示すブロック図である。近隣の増強コミュニティは、主題の他の領域、および共通の情報関心を共有する個人のグループを表す。
それぞれの増強コミュニティは、中心的主題に焦点を当てるそれ自体のエバーグリーンインデックスを有し、類似の主題に焦点を当てる増強コミュニティは、トピックの点で関連性があり、ホーム増強コミュニティの情報フロンティア上でより近いものに見える。例えば、カリフォルニア州パロ アルトなど、特定の都市の住民は、その都市に関する報道価値のある出来事に焦点を当てるためにそれ自体のエバーグリーンインデックス103を作成することによって増強コミュニティを形成し得る。スタンフォード大学、メンロパーク、東 パロ アルトおよびマウンテン ビューを含めて、複数の土地および地方が、パロ アルトに隣接する。それぞれのエバーグリーンインデックス104a〜104dは、パロ アルト増強コミュニティのエバーグリーンインデックス103にトピックの点で関連性があり、パロ アルトに物理的に隣接する都市および地方を表すことによって情報フロンティアを集団的に特徴付ける。
フロンティア増強コミュニティの選択は、増強コミュニティの情報境界のより近くにあるフロンティアコミュニティを優遇するように偏向させることができる。例えばカリフォルニア州サニーベールは、マウンテン ビューの南の隣接都市であり、したがって、サニーベールのエバーグリーンインデックス105は、マウンテン ビューの情報フロンティアの最も近い端にあるが、パロ アルトの情報フロンティアからは、一分離度さらに離れる。したがって、スタンフォード大学など、より近いフロンティアコミュニティからのフロンティア情報は、サニーベールのようにより遠いコミュニティから生じたフロンティア情報よりも密接に関連しているので優遇される。
さらに、複数のフロンティア増強コミュニティに共通した振舞いは、フロンティア情報がホーム増強コミュニティによってどのように選択されるかに間接的に影響を及ぼし得る。例えば、メンロパーク、東 パロ アルトおよびマウンテン ビューコミュニティの郡課税問題に関する記事への同様に強い格付けは、パロ アルト増強コミュニティのメンバにとって重要である可能性が高いトピックを示すものであり得る。したがって、強い正の吟味など、類似の振舞いによって選択されたフロンティアコミュニティからのフロンティア情報が優遇され得る。
パロ アルト、スタンフォード大学、メンロパーク、東 パロ アルト、マウンテン ビューおよびサニーベールは、ソーシャルネットワーク101aを形成し、このソーシャルネットワーク101aは、ミッド−ペニンシュラベイエリア住民にとって関心のあるローカルニュースによって、トピックの点で関連付けられる。これらの増強コミュニティは一般に、コミュニティレベルで反射情報フロンティアを定義する。より広い尺度では、それぞれが医学、野球およびオートバイなどのより幅広いトピックに関する他のソーシャルネットワーク101b〜101dもまた、増強コミュニティの領域内にあることがあり、個々のコミュニティメンバレベルで、よりきめ細かく情報フロンティアを定義し得る。トピックの点でより離れており、さらにはトピックの点で関連性のないソーシャルネットワーク102a〜102bもまた、増強コミュニティ領域を占めることがある。これらのソーシャルネットワーク102a〜102bは潜在的情報フロンティアを表しており、この潜在的情報フロンティアでは、それらは、そのそれぞれの中心的主題を他のソーシャルネットワーク101a〜101d、すなわちより具体的には増強コミュニティのエバーグリーンインデックス103、104a〜104d、105に関連付ける際に積極的な役割を果たしていない。
増強コミュニティは、他のすべての増強コミュニティを除外するように孤立状態では存在していない。より正確に述べると、増強コミュニティは、コミュニティのソーシャルネットワークと共存しており、このコミュニティの一部は増強コミュニティの中心的な関心とより密接に連携しており、他のコミュニティは、そうでない。したがって、ディジタル情報の探査は、トピックの点で関連性のある増強コミュニティを見つけ、ホーム増強コミュニティの利点に類似の主題の吟味を活用することに焦点を当てる。図8は、一実施形態によるディジタル情報を探査するための方法120を示すデータフロー図である。方法120は、サーバまたは他のコンピューティングデバイスによって一連のプロセスステップとして実施される。
増強コミュニティは、そのメンバが集団的に1つまたは複数の中心的トピックに注目する社会集団として働く。関連する増強コミュニティによって形成されたソーシャルネットワーク内で、個人のホーム増強コミュニティ121は、コミュニティの中心的な関心を反映するトピックおよびサブトピック124をリストする、コミュニティのエバーグリーンインデックス123によって特徴付けられる。それぞれのフロンティア増強コミュニティ122は、そのコミュニティの中心的関心を反映するトピックおよびサブトピック128のエバーグリーンインデックス127によって特徴付けられる。
それぞれの増強コミュニティ121および122は、ウェブサイトおよびフィードなど、情報源125,129にアクセスし、それぞれのエバーグリーンインデックス123および127に固有のトピックモデルによってそれ自体の中心的関心の領域を見つける(carve out)。エバーグリーンインデックス123および127は、ディジタル情報開示(操作131a〜131b)を介して生成される。これについては、2008年8月12日に出願された同一出願人による係属中の米国特許出願第12/190552号に記載されており、この開示を本願に引用して援用する。トピック関心の相互関連性および重複は、特定のコミュニティの情報フロンティアを構成する各増強コミュニティの情報境界に沿って生じる。
それぞれの増強コミュニティ121,122は、情報が割り当てられているトピックまたはサブトピック124,128内の投票によって、ソース125,129から引用された情報を吟味し、それによって、トップ記事126,130がまとめて決定される。図9を参照して下記にさらに述べるように、情報探査は、まずフロンティアコミュニティを識別すること(操作132)から開始する。次いで、ホーム増強コミュニティ121は、図10を参照して下記にさらに述べるように、フロンティアコミュニティのエバーグリーンインデックス127内のフロンティア情報に与えられた関心度を決定することによって「多人数の軽い仕事」または「集団の知恵」を利用する。次いで、トップ記事126および130は、図11を参照して下記にさらに述べるように、フロンティア情報をホーム増強コミュニティ自体のトピックおよびサブトピック124のリストに関連付けることによって共有される(操作134)。他の操作も可能である。
フロンティア情報は、他の増強コミュニティの関連記事を認識するようになることによってメンバが利益を得ることがあるという前提の下、増強コミュニティにとって重要であると見なされる。最初に、フロンティアコミュニティを見つけなければならない。図9は、図8の方法120で使用するフロンティア増強コミュニティを識別するためのルーチン140を示すフローチャートである。フロンティアコミュニティは、知識領域エキスパート、すなわちエバーグリーンインデックスのトピックを導く責任を担うホーム増強コミュニティのリーダーによって、手動の選択(ブロック141)により識別することができる。コミュニティの中心的関心との十分な関連性を有しているとリーダーが見なす増強コミュニティは、コミュニティの情報フロンティアに属するものとして識別され、明示的に接続される。
あるいは、フロンティアコミュニティは、類似性尺度を生成すること(ブロック142)、および最も強い類似性を示すコミュニティ間から候補の隣接コミュニティを示唆すること(ブロック143)によって自動的に選択することができる。類似性尺度は、ソーシャルネットワーク内のコミュニティの各中心的関心の潜在的な重複を反映するものである。重複は、フィードの同じ情報源、同じ記事の引用に依存し、またはそれぞれのエバーグリーンインデックス内の比較可能なトピックモデルを使用することによって示唆され得る。類似性尺度は、類似性または非類似性の具体的な程度を反映する定量値、連続体に沿って評価された品質尺度、あるいは表示の組合せであり得る。候補近隣コミュニティは、類似性尺度を最小閾値に対して適用し、固定数の高格付け候補コミュニティを取ることによって、あるいは類似の選択プロセスによって選ぶことができる。
フロンティアコミュニティによってコミュニティのエバーグリーンインデック内で参照された情報に割り当てられた重要度は、同じ情報に対する増強コミュニティの有望な受容性を示す適切な指標であり得る。図10は、図8の方法120で使用する関心度を決定するためのルーチン150を示すフロー図である。フロンティアコミュニティは、エバーグリーンインデックスに引用された情報の重要度をまず決定し(ブロック151)、それは、上記と同様に、吟味によって一般に行われる。フロンティアコミュニティの関心レベルは、新しい記事を選択するために使用される。さらなる一実施形態では、フロンティア記事の獲得は、トピック分類のある部分に限定され得る。フロンティアコミュニティの格付けによって、関連する記事が識別され、増強コミュニティのエバーグリーンインデックスからの記事の関心度の予備的な推定がもたらされる。
競合するフロンティアにわたる注目が割り振られる(ブロック152)。フロンティアコミュニティからの分離度は、1組のフロンティアコミュニティにわたる注目を割り振るために使用される。換言すると、記事は、複数のフロンティアコミュニティから生じる。最も単純な手法では、すべてのフロンティアに、等しい重みが与えられ得る。あるいは、重み付けを適用することによって、一部のフロンティアコミュニティに、他のフロンティアよりもさらなる注目が与えられ得る。例えば、ソーシャルネットワーク内の分離度数の観察などによって、フロンティアコミュニティの増強コミュニティへの類似性を重み付けするための距離メトリックが決定され得る。
この時点で、1つ以上のフロンティアからの1組の記事またはそのトピックが選択されており、記事は、ホームコミュニティに統合する必要がある。記事をホームコミュニティ内のパターンと照合することによって、それぞれの関連性トピックが決定される(ブロック153)。記事がホームコミュニティのトピックに合致しない場合、フロンティアから借用した一時的なサブトピックを伴う「フロンティアからのニュース」カテゴリ内に置かれる。さらなる一実施形態では、増強コミュニティのリーダーは、コミュニティによる潜在的な考慮のため、トピックモデルを補足するなど、合致しないフロンティア情報を手動で見直してもよい。
情報探査は、情報を供給し、最初に格付けするために、フロンティアコミュニティの専門知識に依存する。しかし、探査された情報の提示を編成するために、増強コミュニティのエバーグリーンインデックスが使用される。図11は、図8の方法120で使用するフロンティア情報を関連付けるためのルーチン160を示すフロー図である。フロンティアコミュニティからの記事が、増強コミュニティにおいて普遍的影響力を持つことはほとんどない。したがって、増強コミュニティのエバーグリーンインデックスが、合致したトピックおよびサブトピックによって記事を自動的に分類するために使用される(ブロック161)。次いで、合致した記事は、それぞれの関心トピックに従ってコミュニティのメンバに送られ、フロンティア記事は、ホームインデックスへとインデックス付けされた通常の情報と共に吟味される(ブロック162)。メンバが中心的トピックの記事を読む間、同じトピックについての高格付けフロンティア記事が、表示領域を求めてホーム記事と競合する。低く格付けされたフロンティア情報は、それほど肯定的でない応答を受け取り、高く格付けされたフロンティア情報は残り、したがって、新しい考え、または新たに生じている傾向に従って増強コミュニティの範囲が広がる。
ソーシャルインデクシングにおける情報開示は、インデックス外挿を、トピックによって範囲を定められた投票と組み合わせたものである。投票は、「多人数の軽い仕事」を具体化する。投票には、きめ細かいカテゴリ化が非常に重要である。というのは、カテゴリ化は、各トピック下の記事の評価の原因となるからである。カテゴリ化は、どの記事が最良であり読者の注目に最も値するかを突き止める。投票は、エバーグリーンインデックスの特色を表すユーザインタフェースを介して提供される。
ウェブブラウザは、ユビキタスかつ広く採用される情報提供インタフェースになってきており、これは、新しく関連性のあるディジタル情報を空間的に提示するための、唯一ではないが理想的なプラットフォームを提供する。図12は、関心度によって編成された、フロンティア情報を含む、ディジタル情報を提供するユーザインタフェース180を例として示すスクリーンショット図である。ユーザインタフェース180は、情報ダイエットの2つの面、すなわち関連性および関心度を、投票と結び付ける。ユーザインタフェース180は例示的な提示を提供するものだが、他のインタフェーシング方法も等しく可能である。
各増強コミュニティによって投票されたディジタル情報の格付けを、タブ181または他のマーカによって索引付けされた個別ウェブページ上で提供することができる。各増強コミュニティのタブ内では、この増強コミュニティのトピックおよびサブトピック182を最初にリストすることができ、より大きいフォントまたはより目立つ表示属性が、最も人気のある文書を強調する。トピックおよびサブトピック182は、増強コミュニティのエバーグリーンインデックスから選択され、ドキュメントは、ディジタル情報のコーパスを、上記と同様にフロンティアコミュニティから探査されたディジタル情報を含み得るエバーグリーンインデックスのトピックモデルに対して照合することによって識別される。
関心度(DOI)は、何らかの情報がどれくらい関心をそそることになるかを反映するように導出され意図された数値尺度を指す。DOIは、所与のトピックに関する特定の記事に対して決定することができ、また、2次トピックを1次トピックに関係付けるために計算することもできる。DOIは、個人の履歴または状態に特有の情報に基づいて、個人に適応させることができる。利用可能なときは、DOIを使用して情報の提示を最適化することができ、したがって、情報により多くの空間を与えたり情報をより目立たせたりするなどによって、最も高いDOIを有する情報が優遇される。例えば、最も高くランク付けされたページ183には最大量の空間を割り振ることができ、グラフィックス、タイトル、記事のソースに関する情報、および要約がすべて提供される。他の情報、あるいは他の形の視覚強調または表示強調を提供することもできる。同様に、より低く格付けされたページ184にはより少ない空間を割り振ることができ、グラフィックスなしで、より小さいフォントサイズを使用することができる。最後に、最も低く格付けされたページ185は、タブの下部に追いやることができ、ページのソースおよびタイトルのみが提供される。便利なように、全ページの数の要約186を含めることもできる。
ディジタル情報の仮定的なロングテール分布の例を示したグラフ図である。 ディジタルセンスメーキングにおける課題を示す機能ブロック図である。 ディジタル情報センスメーキングのための例示的な環境を示すブロック図である。 図3のソーシャルインデクシングシステムで使用される主要なコンポーネントを示す機能ブロック図である。 ディジタル情報プロバイダの現在の編成状況の例を示したグラフ図である。 エバーグリーンインデックス訓練の概要を示すデータフロー図である。 例示するために増強コミュニティの近隣を示すブロック図である。 一実施形態によるディジタル情報を探査するための方法を示すデータフロー図である。 図8の方法で使用するフロンティア増強コミュニティを識別するためのルーチンを示す流れ図である。 図8の方法で使用する関心度を決定するためのルーチンを示す流れ図である。 図8の方法で使用するフロンティア情報を関連付けるためのルーチンを示す流れ図である。 関心度によって編成されたディジタル情報を提供するユーザインタフェースの例を示したスクリーンショット図である。
符号の説明
10 ディジタル情報についての仮定的なロングテール分布、11 ヘッド項目、12 ロングテール項目、21 ソーシャルインデクシング、22 開示、23 探査、24 適応、31 ネットワーク、32 ソーシャルインデクシングシステム、34a,34b,34c サーバ、35a ウェブコンテンツ、35b ニュースコンテンツ、35c 吟味されるコンテンツ、41 情報収集、42探査分析、44 フロンティアコミュニティ識別子、45 フロンティア情報積分器、46 入来コンテンツ、80 インデックス訓練、81 訓練インデックス、82 インデックスエントリ、83 シードワード選択、84 シードワード、85 トピックモデル生成、86 候補トピックモデル、87 トピックモデル評価、 88 エバーグリーンインデックス、 89 トピックまたはサブトピック、90 トピックモデル、91 正の訓練セット、92 負の訓練セット、100 増強コミュニティ近隣、101a,101b,101c,101d ソーシャルネットワーク、103,104a〜104d,105 エバーグリーンインデックス、120 方法、121 ホーム増強コミュニティ、122 フロンティア増強コミュニティ、123 エバーグリーンインデックス、124トピックおよびサブトピック、125 ソース、126 トップ記事、127 エバーグリーンインデックス、128 トピックおよびサブトピック、129 ソース、130a,131b 開示、132 フロンティアコミュニティ識別、140 フロンティア増強コミュニティを識別するためのルーチン、141 手動選択、142 類似性尺度を生成、143 候補近隣を暗示、150 関心度を決定するためのルーチン、151 重要度を決定、152 競合フロンティアにわたる注目を割り振る、153 関連性のあるトピックを決定、160 フロンティア情報を関連付けるためのルーチン、161 ホームエバーグリーンインデックス内の合致記事を自動的に分類、162 ホーム情報に沿って記事を吟味、180 ユーザインタフェース、181 タブ、182 トピックおよびサブトピック、183 最も高くランク付けされたページ、184 より低く格付けされたページ、185 最も低く格付けされたページ、186 全ページの数の要約。

Claims (8)

  1. ディジタル情報を探査するソーシャルインデクシングシステムにおいて実施される方法であって、
    前記ソーシャルインデクシングシステムに含まれるコンピュータが、
    ディジタル情報のコーパス内のホーム対象領域についての、前記コーパスに合致するトピックモデルを含むホームエバーグリーンインデックスを記憶手段で保持し、
    前記ホーム対象領域からトピックの点で異なる前記コーパス内のフロンティア対象領域のフロンティアエバーグリーンインデックスを識別し、
    前記フロンティアエバーグリーンインデックスの前記トピックモデルによって識別された前記コーパスからフロンティア記事の評価の内容を取得し、
    前記ホームエバーグリーンインデックス内の前記トピックモデルに対して、取得した評価の内容に基づきフロンティア記事を分類し直し、
    前記ホームエバーグリーンインデックス内の前記トピックモデルに対して以前に分類されたホーム記事を伴う表示内に前記フロンティア記事を提供する、
    ことを含むことを特徴とする方法。
  2. 請求項1に記載の方法であって、
    前記ホーム対象領域を複数の候補フロンティアエバーグリーンインデックスの候補フロンティア対象領域と比較し、
    領域知識を用いて(domain−informed)前記候補フロンティア対象領域間の差を評価することに基づいて前記候補フロンティアエバーグリーンインデックスを選択する、
    ことをさらに含むことを特徴とする方法。
  3. 請求項1に記載の方法であって、
    前記ホームエバーグリーンインデックスによって、複数の候補フロンティアエバーグリーンインデックスのために使用される前記情報源を識別し、
    前記候補フロンティアエバーグリーンインデックスによって参照される候補フロンティア記事を識別し、
    前記情報源、前記ホーム記事および前記候補フロンティア記事のうちの少なくとも1つの重複を決定し、
    正の重複を示す前記候補フロンティアエバーグリーンインデックスを選択する、
    ことをさらに含むことを特徴とする方法。
  4. 請求項1に記載の方法であって、
    それぞれが候補フロンティアエバーグリーンインデックスを含む複数の候補近隣増強コミュニティを識別し、
    前記近隣増強コミュニティのそれぞれへの類似性尺度を生成し、
    最小しきい値、または前記フロンティア記事の定数までのうちの少なくとも1つを満たす前記類似性尺度を含む前記候補近隣コミュニティを選択する、
    ことをさらに含むことを特徴とする方法。
  5. 請求項1に記載の方法であって、
    前記ホームエバーグリーンインデックスの前記トピックモデルに合致するフロンティア記事だけを保持することをさらに含むことを特徴とする方法。
  6. 請求項1に記載の方法であって、
    前記エバーグリーンインデックスの前記トピックモデルに合致しないフロンティア記事を比較し、
    前記合致しないフロンティア記事に基づいて前記ホームエバーグリーンインデックスの前記トピックモデルを新しいトピックの名前で補う、
    ことをさらに含むことを特徴とする方法。
  7. 請求項1に記載の方法であって、
    前記ホームエバーグリーンインデックスに関連するコミュニティとして前記フロンティア記事および前記ホーム記事について共同で投票し、
    前記フロンティア記事および前記ホーム記事の配置を前記投票の順序に基づいて調整する、
    ことをさらに含むことを特徴とする方法。
  8. 請求項1に記載の方法であって、
    前記ディジタル情報は、印刷された文書と、ウェブページと、ディジタル媒体中に書かれたマテリアルとのうちの1つ以上を含むことを特徴とする方法。

JP2008264167A 2007-10-12 2008-10-10 ディジタル情報探査方法 Expired - Fee Related JP5203882B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US99863607P 2007-10-12 2007-10-12
US60/998,636 2007-10-12
US12/190,560 US8073682B2 (en) 2007-10-12 2008-08-12 System and method for prospecting digital information
US12/190,560 2008-08-12

Publications (2)

Publication Number Publication Date
JP2009099148A JP2009099148A (ja) 2009-05-07
JP5203882B2 true JP5203882B2 (ja) 2013-06-05

Family

ID=40349997

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008264167A Expired - Fee Related JP5203882B2 (ja) 2007-10-12 2008-10-10 ディジタル情報探査方法

Country Status (3)

Country Link
US (2) US8073682B2 (ja)
EP (1) EP2048607B1 (ja)
JP (1) JP5203882B2 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8209616B2 (en) * 2008-08-28 2012-06-26 Palo Alto Research Center Incorporated System and method for interfacing a web browser widget with social indexing
US8549016B2 (en) * 2008-11-14 2013-10-01 Palo Alto Research Center Incorporated System and method for providing robust topic identification in social indexes
US8239397B2 (en) * 2009-01-27 2012-08-07 Palo Alto Research Center Incorporated System and method for managing user attention by detecting hot and cold topics in social indexes
US8356044B2 (en) * 2009-01-27 2013-01-15 Palo Alto Research Center Incorporated System and method for providing default hierarchical training for social indexing
US8452781B2 (en) * 2009-01-27 2013-05-28 Palo Alto Research Center Incorporated System and method for using banded topic relevance and time for article prioritization
US9268851B2 (en) * 2010-04-29 2016-02-23 International Business Machines Corporation Ranking information content based on performance data of prior users of the information content
US9031944B2 (en) * 2010-04-30 2015-05-12 Palo Alto Research Center Incorporated System and method for providing multi-core and multi-level topical organization in social indexes
JP2013003663A (ja) * 2011-06-13 2013-01-07 Sony Corp 情報処理装置、情報処理方法、およびプログラム
US9087307B2 (en) * 2011-07-28 2015-07-21 Antonio Trias Long tail monetization procedure
US20140222908A1 (en) * 2013-02-01 2014-08-07 Nextdoor.Com, Inc. Methods and systems for a location-based online social network
US20160026720A1 (en) * 2013-03-15 2016-01-28 Conatix Europe Ug System and method for providing a semi-automated research tool
WO2015021459A1 (en) * 2013-08-09 2015-02-12 Yang Shaofeng Method for processing and displaying real-time social data on map
CN105069177B (zh) * 2015-09-25 2018-07-17 苏州天梯卓越传媒有限公司 一种用于出版行业的选题优化系统及其方法

Family Cites Families (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5369763A (en) 1989-02-01 1994-11-29 Kansas State University Research Foundation Data storage and retrieval system with improved data base structure
US5257939A (en) 1992-10-13 1993-11-02 Robinson Don T Cultural knowledge board game
US5724567A (en) 1994-04-25 1998-03-03 Apple Computer, Inc. System for directing relevance-ranked data objects to computer users
JP2809341B2 (ja) 1994-11-18 1998-10-08 松下電器産業株式会社 情報要約方法、情報要約装置、重み付け方法、および文字放送受信装置。
US5671342A (en) 1994-11-30 1997-09-23 Intel Corporation Method and apparatus for displaying information relating to a story and a story indicator in a computer system
US5530852A (en) 1994-12-20 1996-06-25 Sun Microsystems, Inc. Method for extracting profiles and topics from a first file written in a first markup language and generating files in different markup languages containing the profiles and topics for use in accessing data described by the profiles and topics
US5680511A (en) 1995-06-07 1997-10-21 Dragon Systems, Inc. Systems and methods for word recognition
US5907836A (en) 1995-07-31 1999-05-25 Kabushiki Kaisha Toshiba Information filtering apparatus for selecting predetermined article from plural articles to present selected article to user, and method therefore
US6021403A (en) 1996-07-19 2000-02-01 Microsoft Corporation Intelligent user assistance facility
US5907677A (en) 1996-08-23 1999-05-25 Ecall Inc. Method for establishing anonymous communication links
JPH10116290A (ja) * 1996-10-11 1998-05-06 Mitsubishi Electric Corp 文書分類管理方法及び文書検索方法
EP0848347A1 (en) 1996-12-11 1998-06-17 Sony Corporation Method of extracting features characterising objects
US6285987B1 (en) 1997-01-22 2001-09-04 Engage, Inc. Internet advertising system
US6233575B1 (en) 1997-06-24 2001-05-15 International Business Machines Corporation Multilevel taxonomy based on features derived from training documents classification using fisher values as discrimination values
US6292830B1 (en) 1997-08-08 2001-09-18 Iterations Llc System for optimizing interaction among agents acting on multiple levels
US6052657A (en) 1997-09-09 2000-04-18 Dragon Systems, Inc. Text segmentation and identification of topic using language models
US6598045B2 (en) 1998-04-07 2003-07-22 Intel Corporation System and method for piecemeal relevance evaluation
JPH11345245A (ja) * 1998-05-31 1999-12-14 Hitachi Ltd データ入出力装置
US7275061B1 (en) 2000-04-13 2007-09-25 Indraweb.Com, Inc. Systems and methods for employing an orthogonal corpus for document indexing
US6269361B1 (en) 1999-05-28 2001-07-31 Goto.Com System and method for influencing a position on a search result list generated by a computer network search engine
US6981040B1 (en) 1999-12-28 2005-12-27 Utopy, Inc. Automatic, personalized online information and product services
US6397211B1 (en) 2000-01-03 2002-05-28 International Business Machines Corporation System and method for identifying useless documents
JP3562572B2 (ja) 2000-05-02 2004-09-08 インターナショナル・ビジネス・マシーンズ・コーポレーション データベースのドキュメントにおける新規な事項・新規クラスの検出及び追跡
US7062485B1 (en) 2000-09-01 2006-06-13 Huaichuan Hubert Jin Method and apparatus for score normalization for information retrieval applications
US7185065B1 (en) 2000-10-11 2007-02-27 Buzzmetrics Ltd System and method for scoring electronic messages
US7200606B2 (en) 2000-11-07 2007-04-03 The Regents Of The University Of California Method and system for selecting documents by measuring document quality
US6772120B1 (en) 2000-11-21 2004-08-03 Hewlett-Packard Development Company, L.P. Computer method and apparatus for segmenting text streams
US7685224B2 (en) 2001-01-11 2010-03-23 Truelocal Inc. Method for providing an attribute bounded network of computers
US20020161838A1 (en) 2001-04-27 2002-10-31 Pickover Cilfford A. Method and apparatus for targeting information
US7092888B1 (en) 2001-10-26 2006-08-15 Verizon Corporate Services Group Inc. Unsupervised training in natural language call routing
US7716161B2 (en) 2002-09-24 2010-05-11 Google, Inc, Methods and apparatus for serving relevant advertisements
US7752072B2 (en) 2002-07-16 2010-07-06 Google Inc. Method and system for providing advertising through content specific nodes over the internet
US20050226511A1 (en) 2002-08-26 2005-10-13 Short Gordon K Apparatus and method for organizing and presenting content
US7320000B2 (en) 2002-12-04 2008-01-15 International Business Machines Corporation Method and apparatus for populating a predefined concept hierarchy or other hierarchical set of classified data items by minimizing system entrophy
US7467202B2 (en) 2003-09-10 2008-12-16 Fidelis Security Systems High-performance network content analysis platform
GB0322600D0 (en) 2003-09-26 2003-10-29 Univ Ulster Thematic retrieval in heterogeneous data repositories
JP2005158010A (ja) 2003-10-31 2005-06-16 Hewlett-Packard Development Co Lp 分類評価装置・方法及びプログラム
US20070260564A1 (en) 2003-11-21 2007-11-08 Koninklike Philips Electronics N.V. Text Segmentation and Topic Annotation for Document Structuring
US20070244690A1 (en) 2003-11-21 2007-10-18 Koninklijke Philips Electronic, N.V. Clustering of Text for Structuring of Text Documents and Training of Language Models
WO2005050474A2 (en) 2003-11-21 2005-06-02 Philips Intellectual Property & Standards Gmbh Text segmentation and label assignment with user interaction by means of topic specific language models and topic-specific label statistics
WO2005050621A2 (en) 2003-11-21 2005-06-02 Philips Intellectual Property & Standards Gmbh Topic specific models for text formatting and speech recognition
US7293019B2 (en) 2004-03-02 2007-11-06 Microsoft Corporation Principles and methods for personalizing newsfeeds via an analysis of information novelty and dynamics
US7426557B2 (en) 2004-05-14 2008-09-16 International Business Machines Corporation System, method, and service for inducing a pattern of communication among various parties
US7281022B2 (en) 2004-05-15 2007-10-09 International Business Machines Corporation System, method, and service for segmenting a topic into chatter and subtopics
JP2005352878A (ja) 2004-06-11 2005-12-22 Hitachi Ltd 文書検索システム、検索サーバ、及び検索クライアント
US7567959B2 (en) 2004-07-26 2009-07-28 Google Inc. Multiple index based information retrieval system
US7496567B1 (en) 2004-10-01 2009-02-24 Terril John Steichen System and method for document categorization
US20060167930A1 (en) 2004-10-08 2006-07-27 George Witwer Self-organized concept search and data storage method
US8606781B2 (en) * 2005-04-29 2013-12-10 Palo Alto Research Center Incorporated Systems and methods for personalized search
US7548917B2 (en) 2005-05-06 2009-06-16 Nelson Information Systems, Inc. Database and index organization for enhanced document retrieval
US20070050356A1 (en) 2005-08-23 2007-03-01 Amadio William J Query construction for semantic topic indexes derived by non-negative matrix factorization
EP1941346A4 (en) 2005-09-21 2010-10-27 Praxeon Inc DOCUMENT PROCESSING
US9069847B2 (en) 2005-10-21 2015-06-30 Battelle Memorial Institute Data visualization methods, data visualization devices, data visualization apparatuses, and articles of manufacture
US20070156622A1 (en) 2006-01-05 2007-07-05 Akkiraju Rama K Method and system to compose software applications by combining planning with semantic reasoning
JP4580351B2 (ja) * 2006-02-22 2010-11-10 日本電信電話株式会社 興味情報生成装置、興味情報生成方法および興味情報生成プログラム
JP2009528639A (ja) 2006-02-28 2009-08-06 バズロジック, インコーポレイテッド ソーシャルメディアにおける会話を分析するためのソーシャル分析システムおよび方法
US8326686B2 (en) 2006-03-30 2012-12-04 Google Inc. Automatically generating ads and ad-serving index
US7890485B2 (en) 2006-04-13 2011-02-15 Tony Malandain Knowledge management tool
US7809723B2 (en) 2006-06-26 2010-10-05 Microsoft Corporation Distributed hierarchical text classification framework
WO2008021906A2 (en) 2006-08-08 2008-02-21 Google Inc. Interest targeting
US20080126319A1 (en) 2006-08-25 2008-05-29 Ohad Lisral Bukai Automated short free-text scoring method and system
US20080065600A1 (en) 2006-09-12 2008-03-13 Harold Batteram Method and apparatus for providing search results from content on a computer network
US7921092B2 (en) 2006-12-04 2011-04-05 Yahoo! Inc. Topic-focused search result summaries
WO2008120030A1 (en) 2007-04-02 2008-10-09 Sobha Renaissance Information Latent metonymical analysis and indexing [lmai]

Also Published As

Publication number Publication date
US8073682B2 (en) 2011-12-06
US8190424B2 (en) 2012-05-29
EP2048607B1 (en) 2018-02-21
JP2009099148A (ja) 2009-05-07
EP2048607A3 (en) 2012-12-19
US20120078960A1 (en) 2012-03-29
EP2048607A2 (en) 2009-04-15
US20090099839A1 (en) 2009-04-16

Similar Documents

Publication Publication Date Title
JP5203882B2 (ja) ディジタル情報探査方法
JP5329900B2 (ja) 対象領域におけるディジタル情報開示方法
JP5329901B2 (ja) ディジタル情報への適応を提供する方法
Nam et al. Harvesting brand information from social tags
Gensler et al. Listen to your customers: Insights into brand image using online consumer-generated product reviews
Tintarev et al. Explaining recommendations: Design and evaluation
Pang et al. Building effective relations with social media influencers in Singapore
Park et al. NewsCube: delivering multiple aspects of news to mitigate media bias
Lee et al. Automated marketing research using online customer reviews
Raamkumar et al. Using author-specified keywords in building an initial reading list of research papers in scientific paper retrieval and recommender systems
TWI636416B (zh) 內容個人化之多相排序方法和系統
US20100306192A1 (en) Method and system for a search engine for user generated content (ugc)
WO2018040069A1 (zh) 信息推荐系统及方法
Taghavi et al. New insights towards developing recommender systems
CN104102733B (zh) 搜索内容提供方法和搜索引擎
Jiang et al. Towards intelligent geospatial data discovery: a machine learning framework for search ranking
Chang et al. Personalized travel recommendation: a hybrid method with collaborative filtering and social network analysis
Mattis et al. Nudging towards news diversity: A theoretical framework for facilitating diverse news consumption through recommender design
Balakrishnan et al. Improving retrieval relevance using users’ explicit feedback
Lai et al. Design of an ai-empowered recommender system for travelling support: Individual traveler as an instance
WO2008032037A1 (en) Method and system for filtering and searching data using word frequencies
Archambault Exploring algorithmic literacy for college students: an educator’s roadmap
Rieger et al. Responsible Opinion Formation on Debated Topics in Web Search
Nam Marketing applications of social tagging networks
Alshammari Exploiting social media network structure to improve user profiles for short-text-based recommender systems.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111004

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120928

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121002

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130122

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130214

R150 Certificate of patent or registration of utility model

Ref document number: 5203882

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160222

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees