JP2009099145A - 対象領域におけるディジタル情報開示方法 - Google Patents

対象領域におけるディジタル情報開示方法 Download PDF

Info

Publication number
JP2009099145A
JP2009099145A JP2008263362A JP2008263362A JP2009099145A JP 2009099145 A JP2009099145 A JP 2009099145A JP 2008263362 A JP2008263362 A JP 2008263362A JP 2008263362 A JP2008263362 A JP 2008263362A JP 2009099145 A JP2009099145 A JP 2009099145A
Authority
JP
Japan
Prior art keywords
topic
index
topics
information
digital information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2008263362A
Other languages
English (en)
Other versions
JP2009099145A5 (ja
JP5329900B2 (ja
Inventor
Mark J Stefik
ジェイ ステフィック マーク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Palo Alto Research Center Inc
Original Assignee
Palo Alto Research Center Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Palo Alto Research Center Inc filed Critical Palo Alto Research Center Inc
Publication of JP2009099145A publication Critical patent/JP2009099145A/ja
Publication of JP2009099145A5 publication Critical patent/JP2009099145A5/ja
Application granted granted Critical
Publication of JP5329900B2 publication Critical patent/JP5329900B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • G06F16/3326Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/912Applications of a database
    • Y10S707/917Text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】新しく関連性があり信頼性があるディジタル情報を開示するディジタルセンスメーキングを提供する。
【解決手段】対象領域中のトピックのそれぞれと、前記トピックに対する訓練マテリアルと、ディジタル情報を含むコーパスとを指定し、トピックのそれぞれについてのトピックモデルを構築し、トピックモデルを訓練マテリアルに対して評価し、トピックモデルを使用してコーパスからのディジタル情報をトピックによってエバーグリーンインデックスに編成する。
【選択図】図3

Description

本願は一般に、ディジタル情報のセンスメーキング(sensemaking)に関し、より詳細には、対象領域におけるディジタル情報の開示を実施するためのシステムおよび方法に関する。
この非仮特許出願は、2007年10月12日に出願された米国仮特許出願第60/998636号に対して米国特許法119条(e)に基づく優先権を主張するものであり、この開示を本願に引用して援用する。
ディジタルセンスメーキングは、ワールドワイドウェブ(「ウェブ」)などのディジタル情報インフラストラクチャが介在するセンスメーキングである。ウェブを介して、ユーザは、様々なソースからの過去の情報を公開する「従来の」ウェブサイトと、モデレータがいるウェブログ、すなわち「ブログ」、ユーザフォーラム、およびユーザが新しい情報を能動的にランク付けすることのできる投票付きウェブサイトを含む対話型ウェブサイトとの両方にアクセスすることができる。
ディジタル情報リポジトリとして、ウェブは、イベントの発生、観念の統合、および新しい傾向の出現に伴って、継続的に発展する。新しい情報が絶えず公開される。主流メディアウェブサイトは一般に、ニュース、ビジネス、政治、スポーツ、娯楽、天気など、人気のあるトピックをカバーするが、他のウェブソースを介して追加のトピックも多数存在する。これらのトピックは、例えば技術ニュースなどや人気の劣るトピックから、地域のコミュニティカレッジの夜間クラススケジュールなど、比較的少数の人に関連する特殊なまたは目立たないトピックまでの範囲にわたる。
多くの市場における物への需要は、非特許文献1に記述されているような「ロングテール」分布に従い、この開示を本願に引用して援用する。図1は、ディジタル情報の仮定的なロングテール分布10を、例として示すグラフである。X軸はディジタル情報を表し、Y軸は人気レベルを表す。分布のヘッドに見られる項目11は、数は少ないが最も高い人気を得ており、これらは少数の人気カテゴリに入るメディア報道内容などである。しかし、より読者の少ないニッチトピックをカバーする「ロングテール」に沿ったより多くの項目12は、ヘッド項目11に数で勝る。ヘッド項目11のどの1つをとってもロングテール項目12のいずれか1つよりも高い人気を得ているが、十分なロングテール項目12が含まれるときには、ロングテール項目12の十分に大きいグループの総計としての人気は、すべてのヘッド項目11の人気を上回ることになる。このことは、閲覧者をロングテールトピックに気付かせることができるならば、ロングテールトピックに焦点を合わせることによってより大きな閲覧者総体に達することができることを含意する。
情報の消費者は、限られた時間しか有さず、あらゆるものに注意を払うことはできない。より多くのトピックが利用可能になるのに伴い、主流トピックはますます読者からわずかな注目しか受けなくなる。これに似て、プライムタイムのテレビジョン視聴者は現在、ケーブルおよび衛星ネットワークがその番組を改良してその視聴者数を増加させるのに伴って減少している。同様に、音楽「ヒット」は今日、より多くの選択肢および購入オプションが利用可能になるのに伴い、10年前よりも販売コピー数が少ない。これらの観察から、経済および人気の傾向は、次のように簡潔に要約することができる。すなわち、「選択肢を与えれば人々はそれらを利用する」、また「分布の上部は縮小しつつある」。
問題は、単に新しいまたは人気のある情報を見つけることだけではない。問題は、ユーザ特有のニーズに関連する新しい情報、すなわち「ロングテール」上の新しい情報を見つけることである。既存の手法では及ばない。例えばウェブ検索エンジンは、ユーザクエリに応答して受動的にウェブコンテンツを取り出し、しばしば古い情報の方を優遇する。例えばGoogle検索エンジンは、ページランクアルゴリズムに基づくが、これはページ間のハイパーリンクに依存して信頼性および人気を推定する。他のウェブページによって最も引用されているウェブページが最良と見なされるが、実際に最も関連性があるわけではない場合がある。
同様に、オンラインニュースサービスはしばしば、ニュースを少数の人気トピックにグループ化する主流メディアソースと連携するが、特殊化されたトピックがシンジケートへの手数料(syndication feeds)により利用可能なこともある。オンラインニュースアグリゲータが、複数のソースからのニュースの整理された要約を相応に提供するが、しばしばニュースを適切なトピックの下に一貫してグループ化することができないか、またはニュースをきめ細かくカテゴリ化することができない。この結果、読者は、報道内容またはトピックを追おうとするときは常に、異種のトピックに関する分かりにくく混ざり合った記事に直面する。読者が、技術トピックの下にある記事を読むことから始めて、新しいコンピュータ電話機について追う場合がある。しかし、電話機の記事は、他の技術記事と結局は混合され、ニュースアグリゲータのウェブサイト全体に散らばっている場合がある。キーワードで電話機の記事を検索しても、すべての関連記事とは正しく合致しない場合がある。したがって、オンラインニュースサービスおよびニュースアグリゲータは、トピックに関する進展を容易に追うのを促進するようにして送達される最良かつ最も関連性のある記事だけを読者が受け取れるようにするのに十分な細分性に欠ける。
最後に、投票付きニュースウェブサイトは、ニュース報道内容に投票するようユーザを促す。www.digg.comで利用可能なDiggウェブサイトなどを介して、最も高くランクしたコンテンツがフロントページに昇格する。Diggは、記事を少数のトピックにカテゴリ化するが、各トピックは、異なるフロントページ昇格アルゴリズムを使用する。十分な「ディグ(digg)」を受け取った記事のみがフロントページに現れ、登録ユーザのみが記事の投稿、記事へのコメント、および記事の昇格を行うことができる。したがって、トピックは、ロングテール分布のヘッドにある人気トピックを反映する。投票は、共謀、隠蔽、および報酬を渡して昇格させることが可能だとして批判されてきた。これについては、非特許文献2乃至4に記述されており、これらの開示を本願に引用して援用する。
C.アンダーソン、「The Long Tail:Why the Future of Business is Selling Less of More」、(Hyperion Press)(2006) C.メゼル、「The Digg Algorithm−Unofficial FAQ」、SeoPedia、www.seopedia.org/tips−tricks/social−media/the−digg−algorithm−unofficial−faq(2006年11月2日) N.パテル、「There’s More to Digg Than Meets the Eye」、Pronet Advertising、www.pronetadvertising.com/articles/theres−more−to−digg−than−meets−the−eye.html(2007年1月15日) J.ダウデル他、「Digg’s Kevin Rose on Recent Indiggnation:Fact vs.Fiction」、Marketing Shift、www.marketingshift.com/2006/9/diggs−kevin−rose−recent−indiggnation.cfm(2006年9月7日)
したがって、特定の対象領域についてのトピック内で自動的にカテゴリ化され、個人レベルで強調される、新しく関連性があり信頼性があるディジタル情報を開示する必要性が、ディジタルセンスメーキングにおいて依然としてある。
ディジタル情報の自動開示を容易にするためのシステムおよび方法は、新しいもの、本当のもの、および重要なものを提供する。「新しいもの」は、最新の情報を送達することを意味する。「本当のもの」は、複数のソースからの情報が社会的に吟味(vetted)されて、関心レベルおよび信頼性が確立されることを意味する。「重要なもの」は、情報が読者の対象領域中の重要トピックに従って自動的にカテゴリ化されることを意味する。
知識分野専門家すなわち「少人数の精力的な仕事」によって導かれるきめ細かいトピック式インデックスを利用すること、読者の大規模な増強コミュニティすなわち「多人数の軽い仕事」または「集団の知恵」によるランク付けとより良いカテゴリ化に関する提案とを集約すること、および、機械支援学習すなわち「機械の根気強い仕事」を介してトピック式インデックスを拡張することにより、新しく関連性のあるディジタル情報が開示される。一実施形態では、エバーグリーンインデックスがトピック式インデックスから訓練され、ウェブページや他のオンラインコンテンツなどのディジタル情報のコーパスにわたって外挿される。「エバーグリーン」という用語は、インデックスの新鮮さおよび現在性の質を暗示するものとし、したがって、新しい記事は、出現したときに自動的に分類されてインデックスに追加されることになり、必要に応じて新しいトピックをインデックスに追加することができる。
各増強コミュニティはエバーグリーンインデックスを有し、エバーグリーンインデックスは、各トピックおよびサブトピックにつき、所与のマテリアルが適合するかどうかテストするのに使用できるパターンなどのトピックモデルを含む。トピックモデルは、監視付き機械学習または他の手段を適用することによって生成され、新しいマテリアルに適用されて、マテリアルをエバーグリーンインデックスのトピックの下に自動的にカテゴリ化する。文書のコーパスからの記事が、トピックモデルと照合され、増強コミュニティに提供されて吟味される、すなわち共同で投票および格付けされる。
一実施形態は、対象領域におけるディジタル情報の開示を実施するためのシステムおよび方法を提供する。対象領域中のトピックのそれぞれと、トピックに対する訓練マテリアルと、ディジタル情報を含むコーパスとが指定される。トピックのそれぞれについてのトピックモデルが構築される。トピックモデルは訓練マテリアルに対して評価される。コーパスからのディジタル情報は、トピックモデルを使用して、トピックによってエバーグリーンインデックスに編成される。
全体を通して以下の用語を使用するが、これらの用語は、特に示さない限り以下の意味を有する。
コーパス:記事、文書、ウェブページ、電子書籍、または、印刷物として利用可能な他のディジタル情報の、集まりまたはセット。
文書:コーパス内の個別の記事。文書はまた、本の章または節、あるいは、より大きな著作物の他の下位区分を含むこともできる。1つの文書が、種々のトピックに関するいくつかの引用ページを含む場合がある。
引用ページ:ページ番号などインデックスに引用されている文書内の位置。引用ページは、単一のページとすることもでき、あるいは1組のページとすることもできるが、これは例えば、サブトピックがトピックモデルにより拡張され、1組のページが、トピックモデルに合致するすべてのページを含む場合である。引用ページはまた、トピックモデルが合致することのできる、ページ全体よりも小さいもの(段落など)とすることもできる。
対象領域:エバーグリーンインデックスを含めたソーシャルインデックス中のトピックまたはサブトピックのセット。
トピック:ソーシャルインデックス内の単一のエントリ。エバーグリーンインデックス中では、トピックには、パターンなど、コーパス内の文書との照合に使用されるトピックモデルが付随する。
サブトピック:ソーシャルインデックス内のトピックの下に階層的にリストされる単一のエントリ。エバーグリーンインデックス中では、サブトピックにもトピックモデルが付随する。
コミュニティ:特定の対象領域中の主要な関心トピックをオンラインで共有し、相互間の対話が少なくとも部分的にコンピュータネットワークで媒介される人々のグループ。対象領域は、ヨットレースや有機園芸のような趣味、歯科学や内科学のような専門的関心、または遅発性糖尿病の管理のような医学的関心など、大まかに定義される。
増強コミュニティ:対象領域に関するソーシャルインデックスを有するコミュニティ。増強コミュニティは、ソーシャルインデックスによって引用された対象領域内の文書の閲覧および投票に参加する。
エバーグリーンインデックス:エバーグリーンインデックスは、コーパスと共に最新の状態を継続的に維持するソーシャルインデックスである。
ソーシャルインデクシングシステム:増強コミュニティ間の情報交換を容易にし、ステータスインジケータを提供し、対象文書をある増強コミュニティから別の増強コミュニティに渡すのを可能にする、オンライン情報交換インフラストラクチャ。相互接続された1組の増強コミュニティが、コミュニティの社会的ネットワークを形成する。
情報ダイエット:情報ダイエットは、ユーザが「消費」する情報、すなわち関心のある対象にわたって読む情報を、特徴付ける。例えば、ユーザは、自分の情報消費活動において、自分の時間の25%を選挙ニュースに費やし、15%を地域社会ニュースに費やし、10%を娯楽トピックに費やし、10%を親類に関係のある健康トピックに関する新しい情報に費やし、20%を自分の特定の専門的関心事における新しい進展に費やし、10%を経済進展に費やし、10%をエコロジーおよび新エネルギー源における進展に費やす場合がある。ソーシャルインデクシングのためのシステムが与えられれば、ユーザは、自分の情報ダイエット中の自分の主要な関心のそれぞれにつき、別々の増強コミュニティに加入することまたはそれをモニタすることができる。
ウェブおよび他のオンライン情報リソースは、絶えず発展し拡張し続けるディジタル情報ソースを提供する。ディジタルセンスメーキングは、これらのリソース中の情報から意味を理解することに関するものである。図2は、ソーシャルインデクシング21における課題、すなわちディジタル情報の開示22、探査23、および適応24を示す機能ブロック図20である。他の課題も可能である。これらの課題は情報採集の種々の面を表し、これらの面は、トピックの点できめ細かい、社会的に吟味されるインフラストラクチャを介して、新しく関連性があり信頼性があるディジタル情報を提供するように、相乗作用的に働く。次に、各課題について要約する。
本願の焦点であるディジタル情報開示22は、図6の参照以降でさらに後述するように、中心的な関心のセットについて、新しい、トピックの点で関連性のある情報を識別することに焦点を合わせる。ディジタル情報開示は、各自が中心的な関心のセットを有し、ロングテールトピックを含めた、中心的な関心内の様々な重要性レベルの複数のトピックにわたる情報を必要としているということを前提として開始する。鍵となる課題は、中心的な関心に関する新しい情報を効率的に追跡することにある。
ディジタル情報探査23は、観念統合の助けとして個人の情報フロンティアを採集または採掘することに焦点を合わせる。これについては、2008年8月12日に出願された同一出願人による係属中の米国特許出願第12/190560号にさらに記載されており、この開示を本願に引用して援用する。情報探査は、コミュニティの社会的ネットワークを利用することにより、ディジタル情報開示22を介して基本的に満たされる個人の情報ダイエットを既存の関心を越えて拡張する。例えば、地域ニュースに関する情報フロンティアは、近隣の町および都市からのニュースを含む。別の例として、かかりつけの歯科などの専門的関心に関する情報フロンティアは、関係する分野からの関連トピック、例えば歯科衛生、新しい歯科用マテリアル、およびおそらく、新しい抗生物質、または美容歯科からの結果を潜在的に含む。ディジタル情報探査は、未知の新しいトピックグラウンドをカバーする際に、注意が逸らされたり非効率的になったりするリスクを冒さずに、効果的に注目を割り振ることを容易にする。鍵となる課題は、フロンティアに沿った近隣対象領域から最も関連性のある情報を見つけることにある。
最後に、ディジタル情報適応24は、馴染みのない対象領域に適応することに関するものである。これについては、2008年8月12日に出願された同一出願人による係属中の米国特許出願第12/190557号にさらに記載されており、この開示を本願に引用して援用する。ディジタル情報適応は、新しい対象領域の理解を効率的に得ることに関するものである。この活動は、情報開示および情報フロンティア探査と相補的であり、主題について全体的に知るために領域を探索することが目的である場合を反映する。この活動は、トピック構造および主要な結果を知ること、ならびに適切な参照を識別することを含む。
ディジタルセンスメーキングは、ディジタル情報インフラストラクチャが介在するセンスメーキングであり、ディジタル情報インフラストラクチャは、インターネットなどの公衆データネットワークと、スタンドアロンコンピュータシステムと、ディジタル情報の様々なリポジトリとを含む。図3は、ディジタル情報センスメーキングのための例示的な環境30を示すブロック図である。同じ基本的なシステムコンポーネントが、ディジタル情報の開示22、探査23、および適応24に利用される。
ディジタル情報は、ディジタル形式で利用可能な情報である。インターネットなどのディジタルデータ通信ネットワーク31が、適したディジタル情報交換インフラストラクチャを提供するが、他のインフラストラクチャ、例えば私設の法人企業ネットワークも可能である。ネットワーク31は、ディジタル情報の提供およびディジタル情報へのアクセスをそれぞれ行う様々な情報ソースおよび情報消費者への、相互接続性を提供する。ウェブサーバ34a、ニュースアグリゲータサーバ34b、投票付きニュースサーバ34c、および他のディジタル情報リポジトリが、情報ソースとしての働きをする。これらのソースはそれぞれ、ウェブコンテンツ35a、ニュースコンテンツ35b、コミュニティによって投票される、すなわち「吟味される」コンテンツ35c、および他のディジタル情報を、パーソナルコンピュータや類似のデバイスなど、情報消費者として機能するユーザデバイス33a〜33cに供給する。
一般に、各ユーザデバイス33a〜33cは、サーバ34a〜34cとのインタフェーシングおよび情報交換をサポートするウェブブラウザまたは類似のアプリケーションを実行するウェブ対応デバイスである。ユーザデバイス33a〜cとサーバ34a〜cは両方とも、中央処理装置、メモリ、入出力ポート、ネットワークインタフェース、および不揮発性記憶装置など、プログラム可能な汎用コンピューティングデバイス中に従来見られるコンポーネントを備えるが、他のコンポーネントも可能である。さらに、サーバ34a〜34cに代えてまたは追加で、他の情報ソースも可能であり、ユーザデバイス33a〜33cに代えてまたは追加で、他の情報消費者も可能である。
ディジタルセンスメーキング、および特にディジタル情報開示22は、ソーシャルインデクシングシステム32によって容易になる。ソーシャルインデクシングシステム32もまた、ネットワーク31を介して情報ソースおよび情報消費者に相互接続される。ソーシャルインデクシングシステム32は、ディジタル情報の自動開示、および増強コミュニティの対象領域内の中心的なトピックへの自動カテゴリ化を容易にする。
ユーザの視点からは、ソーシャルインデクシングシステムは単一の情報ポータルに見えるが、実際にはこれは、統合ディジタル情報処理環境によって提供される1組のサービスである。図4は、図3のソーシャルインデクシングシステム32中で使用される主要なコンポーネント40を示す機能ブロック図である。これらのコンポーネントはディジタル情報開示に焦点が合わせられており、他のコンポーネントを使用してディジタル情報探査、適応、関心度、および他のサービスを提供することもできる。
コンポーネント40は、情報収集41、インデクシングおよび分析42、ユーザサービス43の、3つの機能領域に大まかにグループ化することができるが、他の機能領域も可能である。これらの機能グループは、相互接続され相互依存しており、同じまたは別々の計算プラットフォーム上で実施することができる。情報収集41は、ウェブコンテンツ35a、ニュースコンテンツ35b、および「吟味される」コンテンツ35cなどの入来コンテンツ46を、ウェブサーバ34a、ニュースアグリゲータサーバ34b、および投票付きニュースサービス34cを含めた情報ソースから得る。入来コンテンツ46は、スケジューラの指示の下で動作して定期的にまたはオンデマンドで新しい情報を情報ソースから収穫するメディアコレクタによって収集される。入来コンテンツ46は、構造化されたリポジトリに記憶してもよく、あるいは、入来コンテンツの実際のコピーをローカルに維持する代わりに、入来コンテンツへの参照または引用のみを保存することによって、例えばハイパーリンクを記憶することによって、間接的に記憶してもよい。
インデクシングおよび分析42は、インデックス訓練および外挿を提供する。新しいエバーグリーンインデックス49がインデックストレーナ44を介して訓練されるが、インデックストレーナ44は、以下で図6からさらに論じるように、訓練マテリアル(図示せず)をエバーグリーンインデックス49中にブートストラップする。入来コンテンツ46は、以下で図11からさらに論じるように、インデックス外挿部45によって、エバーグリーンインデックス49の下の特定対象領域についてのトピックに自動的にカテゴリ化される。
最後に、ユーザサービス43は、配信インデックス47および入来コンテンツ46にアクセスするためのフロントエンドをユーザ48a〜48bに提供する。各エバーグリーンインデックス49は、「増強」コミュニティとして知られるユーザのコミュニティに結び付けられ、「増強」コミュニティは、中心的な対象領域中の、進行中の関心を有する。コミュニティは、以下で図12からさらに論じるように、引用された情報を、その情報が割り当てられたトピック内での投票50によって「吟味」する。
情報「ダイエット」は、ユーザが特別な関心のある対象にわたってどんな情報を消費するか、ならびに、フロンティア増強コミュニティからの選ばれたコンテンツを特徴付ける。これについては、2008年8月12日に出願された同一出願人による係属中の米国特許出願第12/190560号に記載されており、この開示を本願に引用して援用する。ダイエットはまた、ユーザが各対象を「消化」することに割り振るのをいとわない時間量を反映する。ディジタル情報開示は、ダイエットの第1のアスペクトを、すなわち特別な関心のある対象中の情報を満たす。
ユーザの情報ダイエットを満たすために、関連性および信頼性のあるディジタル情報を開示することが重要である。あらゆる種類のデータがオンラインで広く利用可能であるものの、ソースから直接得られる「生の」ディジタル情報には一般に、包括的な編成方式および適当なランク付け方法がない。図5は、ディジタル情報プロバイダの現在の編成状況の例としてグラフ60を示した図である。双方向のX軸は、ディジタル情報のトピック編成の程度を示し、双方向のY軸は、批評レビューすなわち「吟味」の量を表す。X軸の左端62の情報は、まとまりのあるトピック編成に欠け、単一の対象領域を参照する。従来の手法の下では、情報はかなり静的であり、編成は少数のトピックに限られる。X軸の右端63の情報は、きめ細かくリッチなトピック編成を受け、複数の対象領域をカバーする。各対象領域は、多くのサブトピックに深く編成される。
Y軸は、記事を「吟味」およびランク付けするのに用いられる専門知識および労力の量を特徴付ける。Y軸の最下部では、記事にはどんな編集も施されず、記事はどんな吟味もなしに提示される。原点61に近づくと、少数の編集者までの小規模なチームが記事の吟味に関与する。Y軸のより高い所では、人々の単一コミュニティ、すなわち「多人数の軽い仕事」および「集団の知恵」が、能動的に記事を閲覧し、投票または吟味する。Y軸の最上部では、複数のコミュニティが記事を吟味し、各コミュニティは特定の対象領域に焦点を合わせる。
現在の手法はせいぜい、粗く編成され、批評的な重み付けまたは「吟味」が軽く行われるだけである。例えば、南西象限では、従来の編成手法は、大まかできめの粗い、あるいは存在しないトピック編成62を使用し、吟味する編集者はほとんどいないか全くいない(64)。www.audiophilia.comで利用可能なAudiophilia、およびwww.hybridcars.comで利用可能なhybridcarsなど、専門ウェブサイト66は、単一の専門編集者によって導かれる狭い読者基盤に対応し、主題の中心はニッチトピックに置かれ、このニッチトピックの下にさらなるトピック編成は必要とされず望まれもしない。www.google.com/readerで利用可能なGoogleリーダなど、RSSリーダ67は、専用トピックに関する自動化されたフィードの下で自動的に新しい情報を報告する。同様に、news.google.comで利用可能なGoogleニュースなど、自動化された主流メディアウェブサイト68は、限られた人気ニュースカテゴリを使用し、これらのカテゴリの下に、情報が編集者の必要なしに自動的にグループ化される。しかし、記事のカテゴリ化は、非常に粗いきめによって制限され、このような大まかなカテゴリ中での記事分類は、技術ニュースやスポーツニュースなど単一トピックのソースから記事を選択することによって行われる可能性がある。最後に、www.nytimes.comで利用可能なNew York Times、およびwww.cnet.comで利用可能なcnetなど、主流メディアウェブサイト69は、ニュースを人気ニュースカテゴリに編成する個別の編集者または小規模な編集者チームを雇っており、これらのカテゴリは、自動化された主流メディアウェブサイト68を介して利用可能なトピックよりも広い範囲のトピックを含む場合がある。コミュニティベースの、公平であると推定される吟味が欠けていること、および、きめ細かいトピック編成が欠けていることにより、これらの手法は、関心を持つ増強コミュニティに関連する、または関心を持つかもしれない近隣コミュニティに関連する、広範囲の対象領域をカバーする情報を提供することができない。
やや対照的に、北西象限では、現在の手法はまた、大まかできめの粗い、あるいは存在しないトピック編成62を使用し、個別のまたは小規模コミュニティのユーザによる吟味65を提供する。googleblog.blogspot.comで利用可能なGoogleブログ検索、およびwww.icerocket.comで利用可能なicerocketなど、ブログ検索エンジン70は、ブログ専用のウェブ検索エンジンだが、ブログは、トピック編成を使用せずに受動的に検索される。www.topix.comで利用可能なTopixなど、ニュースアグリゲータ71は、ZIPコードによって編成されたニュースを、広範な、通常は人気のあるトピック領域に、自動的にまとめるものであり、限られたコミュニティベースのレビューを伴う。最後に、www.slashdot.orgで利用可能なSlashdot、www.reddit.comで利用可能なReddit、およびwww.digg.comで利用可能なDiggなど、投票付きニュースウェブサイト72は、わずかによりきめ細かい、しかしなお比較的大きいトピックカテゴリを提供し、単一ユーザコミュニティによる吟味を伴う。個別のまたは小規模なユーザコミュニティに批評レビューを開放することにより、公平さが増大し、したがって信頼性に対するユーザの確信が増大するが、きめ細かいトピック編成が同様に欠けていることにより、新しい関連情報のカスタマイズされた開示ができない。北西象限の手法はまた、RedditおよびDiggウェブサイトをよく訪れる「技術屋ゲーマー」コミュニティに代表されるような単一ユーザコミュニティに制限されるか、あるいはTopixウェブサイトのように複数のコミュニティを有するが、きめ細かいトピックカバー範囲または多様な対象領域がない。Daylifeなど、他の手法もなお存在する。Daylifeは、典型的なニュースウェブサイトよりも多くのトピックを有するが、やはり、きめ細かいトピックを含む階層型のトピック式インデックスに情報を編成しない。さらにこのサイトは、メンバとメンバのインデックスとを伴うコミュニティに編成されず、ユーザが新しいコミュニティを定義することもできない。
前述の従来手法とは対照的に、本明細書に述べる編成手法は、(1)X軸の右端を使用可能にするためのインデックス訓練および外挿と、(2)Y軸の上端を使用可能にするための、複数の増強コミュニティ中での投票とを用いる。ソーシャルインデクシングシステム73は、複数のユーザコミュニティによる吟味65と共に、エバーグリーンインデックス49を介したきめ細かいトピック編成63を提供することにより、北東象限を独自に占める。ソーシャルの部分は、プロセスにおける人的要素を指す。この編成手法およびコミュニティベースの吟味により、各ユーザは確実に、自分の関心のあるすべての対象領域中で、関連性と信頼性の両方がある情報を受け取る。
従来のインデックスは、静的であり、それらのコーパスに固定される。例えば、コンコーダンスに基づくインデックスは、コーパス内の直接のコンテキストから機械的に選択された単語および句のリストを含む。コンコーダンスインデックスは、分野の専門知識も履歴洞察もなしに生成される。その結果、コンコーダンスインデックスは、重要なマテリアルを些細なマテリアルと区別することができない。対照的に、エバーグリーンインデックスは、コーパスの変化に伴って動的に発展する。エバーグリーンインデックスは、専門家によって選択されたトピック関節に沿ってマテリアルを識別し、関係付けるが、これらのトピックの結合は、重要なマテリアルについて、専門家の視点をその増強コミュニティに代わって反映する。エバーグリーンインデックスは、増強コミュニティ内の人々がどのように引用情報を使用することになるかについての判断を具現し、主題の専門家の、重要なトピックとこれらのトピックが論じられている場所への参照との関連付けを反映する。
情報をきめ細かいカテゴリに分割することで、いくつかの機能が可能になる。これには、記事投票を、1つまたは少数の大きい対象領域グループのみではなく、きめ細かいトピックグループに分離する機能を提供することが含まれる。この機能はまた、記事の質をきめ細かく推定することを可能にし、トピック内の記事の有意義な比較をもたらす。この機能がなければ、投票の有用性は主に、「最も人気のある」報道内容を決定するためである。ロングテールの報道内容、すなわち狭い関心の報道内容は、本質的に視野から消える。階層型トピック編成のもう1つの利益は、ユーザによって編集可能な「ウィキ(wiki)のような」注解をコミュニティ中の各トピックに関連付ける能力を可能にする。この能力は、各トピックのコミュニティ議論および要約のための場を提供する。
エバーグリーンインデックスは、監視付き機械学習を用いたインデックス外挿のプロセスによって作成される。次に、この論題について詳細に論じる。
エバーグリーンインデックスの幅は、その増強コミュニティの関心の範囲に結び付き、ディジタル情報開示によく適合する。エバーグリーンインデックスは、従来のインデックスで開始して、監視付き機械学習を提供することによって作成することができるが、他の手法も可能である。図6は、一実施形態によるインデックス訓練80を示すデータフロー図である。この方法は、サーバまたは他のコンピューティングデバイスによって、一連のプロセスステップとして実施される。
エバーグリーンインデックス88は、訓練マテリアル(training material)81から訓練される。訓練マテリアル81中の各インデックスエントリ82は、トピックまたはサブトピックと、コーパス中の文書のページへの引用のセットとを指定する。再構築されたエバーグリーンインデックスが、一般に訓練マテリアル81として使用されることになる。
インデックス訓練は、3つの段階で行われる。第1の段階の間に、図7を参照してさらに後述するように、訓練マテリアル81中のトピックおよびサブトピックの各セットにつき、シードワード84が選択される(操作83)。第2の段階の間に、図8A〜図8Cを参照してさらに後述するように、シードワードからパターンなどの候補トピックモデル86が生成される(操作85)。最後に、第3の段階の間に、図9を参照してさらに後述するように、候補トピックモデル86が正と負の訓練セット91、92に対して評価される(操作87)。各トピックまたはサブトピック89をトピックモデル90と対にすることによって、エバーグリーンインデックス88が形成される。
インデックス訓練は、新しいエバーグリーンインデックス88の作成と、既存のエバーグリーンインデックス88の再構築との両方で、同じ方式で実施される。しかし、エバーグリーンインデックスを再構築するときは、異なる訓練セット91、92が使用される。インデックスが再訓練されるときは、いくつかの変更原因がある。新しいソースがコミュニティに追加された場合があり、これはベースラインに影響を与えることがある。同様に、新しい記事がコミュニティに到着した場合があり、これもまたベースラインに影響を与えることがある。加えて、新しいトピックが追加される場合、いくつかのトピックが削除される場合、およびいくつかのトピックの名前が変更される場合があり、後者は偏向に影響を与えることがある。さらに、正と負の訓練例が変更される場合もある。通常、再訓練では、トピックのほとんどは前の訓練と同じであり、おそらく少数の新しいトピックが追加されている。典型的には、新しい記事が到着している。到着した記事がトピックに関するものでないと増強コミュニティのリーダまたはメンバが思う場合、訓練例は少数のトピック中で変更される。言い換えれば、トピックに関する記事が見落とされる場合があり、あるいは本当にトピックに関するものではない記事が誤って目立って現れる。このように、再訓練は、パターン、したがって記事選択を変える。
候補トピックモデル86を評価するときに監視付き機械学習が適用され、見つかった最良のトピックモデルが「学習」を構成する。ある訓練セッションと別の訓練セッションとの違いは、基本的に、使用される正と負の訓練セット91、92中の例の選択である。全般的に、このプロセスは以下のことを含む。
1)1つ以上の記事を、エバーグリーンインデックス中のトピックに対する正の例として指定する。
2)エバーグリーンインデックスを訓練して、パターンすなわちトピックモデルを得る。
3)トピックモデルをコーパスと照合して、合致する記事のセットを得る。
4)合致する記事のいくつかがトピックに関するものでない場合は、1つ以上のこれらの合致する記事を負の例として追加し、ステップ2)に移る。
5)トピックに関するいくつかの記事が合致する記事としてリストされていない場合は、これらの記事を正の例として追加し、ステップ2)に移る。
前述のプロセスは、機械学習インタフェース中で実施することができる。このインタフェースを介した場合、評価中にユーザによって観察される偏向は、時として、負の訓練例を必要としないほど十分に良い可能性がある。これは例えば、最上レベルの訓練でユーザが1つ以上の訓練例を提供するだけで、システムが優れたエバーグリーンインデックスを作成し始める場合などである。インタフェースは、ユーザが負の例を考えることを全く必要としない。さらに、ユーザがトピックに対する合致する記事を見たときに、「誤った正」がすぐに明らかになる場合があり、これは、ユーザが次いで追加する「負の例」を導入するのに自然な地点である。言い換えれば、機械学習インタフェースを使用することで、対話の複雑さは必要とされるまで延期され、訓練はユーザにとって容易かつ自然なものになる。
候補トピックモデル86は、エバーグリーンインデックス88を元々構築するのに使用されたのと同じ候補トピックモデル86、ならびにより多くの正と負の訓練例を含むことができ、これらの訓練例は、エバーグリーンインデックスを維持している間に自動的に識別されたもの(後述する)、または専門家の知識に基づいて手動で訓練セット91、92に追加されたものである。
別の実施形態では、インデックス設立者が、ウェブサイト、RSSウェブフィード、オンライン新聞、ブログ、および他の情報フィードまたはソースなど、中心的な対象領域を代表すると自身が感じるオンラインソースのセットを指定する。別法として、設立者は、ドラッグアンドドロップ方式またはポイントして選択する方式のユーザインタフェースを介した選択を含めて、ソースから記事のスターターセットを手動で選択することができる。ソーシャルインデクシングシステムは、これらのソースから記事を収集することを開始する。少数の記事が到着したかまたは識別された後、設立者は、トピックの短い概要またはリストを作成し、どの記事が各トピックの正の例かを示す。最初に、システムはこれらの正の訓練例の記事のみについて訓練して、インデックスパターンの初期セットを形成する。次いでシステムは、トピックのインデックスパターンに合致する、情報ソースからの記事を分類することを開始する。設立者は、訓練セットを編集してシステムを再訓練することによって、トピックモデルの性能を調整することができる。設立者は、分類結果に基づいて、より多くの正と負の訓練例を追加する。能動的な増強コミュニティに属するより成熟したエバーグリーンインデックス中では、メンバは、システムにフィードバックを与えて、いくつかの記事が誤って分類されている恐れがあることを示すことができる。このフィードバックを使用して、インデックスパターンのさらなる訓練と、新しいトピックまたはサブトピック、あるいは既存のものを改訂したトピックまたはサブトピックの作成とをガイドすることができる。他の変形も可能である。
継続した操作の中で、エバーグリーンインデックス88は発展することが予想される。トピックは分裂または結合する場合がある。トピックの重点はいくぶん「ドリフト」する場合があり、トピックは追加または削除される場合がある。訓練セット91、92は、自動的に作成されてもよく、手動で選択してもよい。多くの訓練セッションにわたって、「注意を要する」または「エッジ」訓練例を保存して、機械学習プロセスをガイドすることができる。より大きいコーパスから典型的な引用をランダムに選択することもできる。
シードワード(seed words)は、インデックス訓練の開始点を提供する。図7は、図6の方法80で使用する、シードワードを選択するためのルーチン100を示す流れ図である。シードワード選択は訓練マテリアル81で開始し(ステップ101)、訓練マテリアル81は、エバーグリーンインデックスのためのブートストラップとしての働きをする。例えば、適切な主題に関する、使用言語を代表する書籍インデックスが、訓練マテリアルとしての働きをすることができる。一方、ページ引用は、インデックス構造がないが、それでも代表的とすることができる。
シードワードは、訓練マテリアル81中の各トピックおよびサブトピックから選択される(ステップ102〜106)。シードワードの計算に使用される2つの異なる記事の集まりがある。第1に、主題の全体を表すページのセットを、ベースライン単語頻度の計算に使用することができる。第2に、トピックに関する情報を表すページのセットを、各トピックが訓練されるのに必要とされるページと共に使用することができる。ページは一般に、トピックごとに異なることになる。
訓練マテリアル81中のトピックまたはサブトピックによって引用される各ページが分析される(ステップ103)。例えば本またはウェブページ間の境界は、トピックに関する不完全な仕切りなので、アルゴリズムは、トピックがいくつかのページにわたるときは、各ページを個別に識別する。反対に、いくつかのトピックが単一のページに現れる場合もある。しかし実際には、ほとんどのインデックスは各トピックにつき複数のページを引用し、各引用ページがいくつかのトピックをカバーする場合もあるが、1つのトピックについて引用された2つのページが同じ追加トピックを有することは多くない。このランダム化された隣接トピック分布は、単語母集団に対する隣接トピックの影響を低減し、また中和する傾向がある。中和効果は、情報量が増加するにつれてより強くなり、シードワードとトピックおよびサブトピックとの関連の曖昧さを排除するのを助ける。
トピックまたはサブトピックの特性を示す、各ページのシードワード84が選択される(ステップ104)。引用ページに現れる単語の頻度と、より大きいコーパス中のページに現れる単語の頻度を比較することによって、基底単語の集合が決定される。例えば、引用ページでの出現頻度が他のページでの出現頻度よりもかなり高い単語を、シードワード84として選択することができる。基底単語の部分集合が、トピックのシードワード84として選択されるが、この部分集合は、このトピックの特性を最も示す単語を優先する。選択はまた、ラベル単語、およびラベル単語の近くにしばしば現れる単語(これらの単語がそれ自体では特性を示さなくても)を含むように偏向される。サブトピックラベル中で使用される単語や、引用ページでラベル単語の近くに現れる単語など、他の関連単語をシードワード84として含めることもできる(ステップ105)。訓練マテリアル81中のすべてのトピックおよびサブトピックが調べられるまで、各トピックおよびサブトピックが順に選択される(ステップ106)。
シードワードの計算は、単語頻度の「ベースライン」を計算するための1つの訓練マテリアルセット、通常は文書と、インデックスの代表サンプルとしての第2の訓練マテリアルセットとを使用する。例えばTF−IDF(term frequency−inverse document frequency)重み付け、または他の類似の尺度を使用して、代表サンプル記事における単語頻度を、ベースラインサンプル記事における単語頻度と比較することができる。
一実施形態では、ベースラインは、本全体を使用して計算することができ、この本は、各トピックの代表サンプルを、その引用ページに基づいて提供する。別のウェブベースの実施形態では、新しい記事がエバーグリーンインデックスに常に到着する。インデックスのベースラインは、増強コミュニティによって使用されるすべての情報ソースから引き出された記事から計算される。あるパラメータは、使用されることになる記事の最大数を律し、別のパラメータは、計算で使用される正の例のページの最大数を律する。システムは、コミュニティによって受け取られた記事のランダムなサンプルを、パラメータによって指定される限度まで利用する。これらの記事を使用して、ベースライン単語頻度が計算される。次いで、正の訓練例が代表サンプルとして使用される。この手法は、コミュニティ中の各トピックにつき異なる代表サンプルに基づいて、各トピックにつき異なるシードワードを計算する。複数の増強コミュニティに対応するソーシャルインデックスは、各コミュニティにつき異なるベースラインを計算することになる。
シードワード84から候補トピックモデル86が生成されて、各トピックについてのモデルが作成される。図8A〜図8Cは、図6の方法80で使用する、候補トピックモデル86を生成するためのルーチン110を示す流れ図である。トピックモデル86は、従来のインデックスに見られるような直接的なページ引用を、所与のテキストがトピックに関するものかどうかテストするのに使用できる表現に変換する。トピックモデルは、本明細書に述べるようにパターンとして、ならびに、用語ベクトル、または他の任意の形のテスト可能な表現として指定することができる。
シードワード84が選択されると(上記参照)、候補トピックモデル86が各トピックおよびサブトピックにつき生成され評価される(ステップ111〜131)。各候補トピックモデル86は、パターンを定義するための有限状態パターン言語を例えば使用して述語に形成された、1つ以上のシードワード84を含む。加えて、より高レベルの意味解析を利用して候補パターンの要素を構成することもできる。
各候補トピックモデル86は、シードワード84にわたって単一レベルの表現とすることもでき、あるいは、他の述語を引き数として含む複数レベルの表現とすることもできる。候補トピックモデル86は、評価されることになるより複雑な候補トピックモデル86を漸進的に構築する複数の段階で生成される。これらの段階は、以下のことを含む。
1)単一単語の候補を生成する(ステップ112)。
2)n−gram(介在する単語のないシーケンス)を生成する(ステップ115)。
3)論理和パターン(論理OR)を生成する(ステップ118)。
4)論理積パターン(論理AND)を生成する(ステップ121)。
5)シーケンスパターンを生成する(ステップ124)。
6)第2レベルの論理和パターンを生成する(ステップ127)。
他の段階、および他の形の候補トピックモデル86、述語、ならびに認識制約表現も可能である。例として、表1に、K.アリベック、「Biohazard」、(Random House)(1999)から生成された、パターンの形のトピックモデルを提供する。各述語において、論理積を左右の角括弧で示す。論理和を左右の丸括弧で示す。n−gramを左右の中括弧で示す。曖昧さが排除されたライブラリパターンの名前の前に、ドル記号を付す。
Figure 2009099145
各候補トピックモデル生成段階に従って候補トピックモデル86が評価されるが(ステップ113、116、119、122、125、128)、これは、図9を参照しながらさらに後述するように、候補モデルを正と負の訓練セット91、92に対してテストし、性能、単純さ、および偏向のうちの1つ以上について候補モデルを採点する。候補モデル生成評価段階(ステップ112〜129)は、訓練されている各トピックにつき独立して実行される最良優先任意時間(best−first、anytime)アルゴリズムを利用する。アルゴリズムがすべてのトピックに対して実行されると、最良のパターンすなわちトピックモデルが保存され、エバーグリーンインデックスの維持に使用される。
訓練中、アルゴリズムは、候補トピックモデル探索空間の最も可能性の高い部分を最初に訪れ、探索に集中するための時間および記憶空間の予算を管理することを試みる。探索空間の枝が、すでに生成されたトピックモデルよりも高く得点するであろう候補を生むことがとてもできない場合は、これらの枝は早期に取り除かれる(ステップ114、117、120、123、126、129)。候補トピックモデル86は、複雑さの低い順および確率の高い順に生成されるので、最良の候補トピックモデル86が普通は最初に生成される。最良の単純な候補トピックモデル86は常に、最良のより複雑な候補トピックモデル86よりも優位に立つことになるので、高得点の単純な候補トピックモデル86が見つかった場合は、パターン生成評価は早期停止することができる(ステップ114、117、120、123、126、129)。というのは、より後のより複雑な候補トピックモデル86は、より高く得点することはとてもできないからである。したがって、部分的な生成および部分的な評価のサイクルのみの後で、多くの候補トピックモデルが早期に除去されるので、トピックモデル生成評価段階(ステップ112〜129)から得られる候補トピックモデル86は、潜在的な候補トピックモデル86の氷山の一角を表すに過ぎない。他の候補トピックモデル生成評価手法も可能である。
すべてのトピックモデル生成評価段階(ステップ112〜129)が完全に実行された場合、すなわち早期停止が可能でなかった場合は、構造の複雑さおよびインデックスラベルとの語句重複を評価することにより、各段階で選択されたトピックモデルから好ましい候補トピックモデル86を選択しなければならない(ステップ130)。構造の複雑さがより低く、語句重複がより高いことが好ましい。候補トピックモデルの構造の複雑さは、候補トピックモデルがより精巧になって、述語、語句、およびレベルがより多くなるにつれて、増大する尺度である。単純な、または複雑さの低い候補トピックモデルの方を優遇することにより、トピックモデル評価部は、オッカムのかみそりの哲学に従って、データを説明する最も単純な候補トピックモデルを選択する。構造の複雑さを考慮することはまた、特に訓練データが乏しいときに、機械学習におけるオーバーフィッティングを回避するのにも有用である。残りの各トピックおよびサブトピックについても、候補トピックモデル86の生成および評価が継続する(ステップ131)。
最後に、階層型の生成テストアルゴリズムが完了すると、各トピックまたはサブトピック89は、トピックモデル90によってエバーグリーンインデックス88中で表される。次いで、エバーグリーンインデックス88は、増強コミュニティによってディジタル情報開示に使用することができる(ステップ132)。
機械学習プロセスは、生成テストプロシージャとして編成される。複雑さが増していく候補トピックモデル86が生成され(上記参照)、監視付き学習プロセスを介して漸進的にテストされる。訓練例の反復的な選択は、前の誤ったカテゴリ化に関する増強コミュニティからの情報を含めた、ユーザとの対話によってガイドされ、前の誤ったカテゴリ化は、負の訓練例になることができる。別法として、いくつかのトピックモデルを学習した後で、最良のトピックモデルを選択することもできる。図9は、図8A〜図8Cのルーチン110で使用する、候補トピックモデルを評価するためのルーチン140を示す流れ図である。候補トピックモデル86は、正と負の訓練セット91、92と照合される(ステップ141)。
一実施形態では、トピックモデルは、必ずしもコーパス全体と照合する必要はない。例えば、訓練セットは本から生成することができ、この本では、インデックス中で引用されるページが正の訓練例であり、インデックス中で引用されない残りのページが負の例になる。正と負の例は共に本全体を構成し、この本もまたコーパス全体である。別の実施形態では、トピックのリストが作成され、インデックス設立者によって、トピックごとの正の訓練例としてウェブページがオンラインソースから選択される。オンラインソースからのマテリアルがエバーグリーンインデックスに投入された後、負の訓練例および他の正の訓練例が指定される。さらに別の実施形態では、訓練用に毎回保存される正と負の訓練例を増強コミュニティマネージャなどのトレーナが指定するようにすることにより、非常に長いコーパスから代表的な訓練セットを選択することができる。
各候補トピックモデル86は、性能、単純さ、および偏向のうちの1つ以上について格付けされる。性能は、コーパスに対する候補トピックモデルの合致を、記事が「トピックに関する」ものであるという予測として格付けする。理想的な場合では、候補トピックモデルは、すべての正の訓練例と合致し、どんな負の訓練例とも合致しない。候補トピックモデルが、いずれかの正の例と合致できない場合、またはいずれかの負の例と合致する場合は、性能の格付けはより低く採点される。単純さは、より単純な候補トピックモデルが、複雑なモデルよりも優先されることを指定する。最後に、偏向は、トピックラベルとの語句重複がある候補トピックモデルを、そうでないモデルよりも好む。候補トピックモデルの格付けの間、誤った正の合致と誤った負の合致の両方が格付けされる。照合アルゴリズムは、トピック階層を正確に反映するために、サブセット、一般性、およびクレジット割当ての考慮を含む。例えば、親トピックについての候補トピックモデルが、訓練データ中で引用されないいくつかのページと合致するが、これらのページがそのサブトピックのうちの1つによってすでに引用されている場合、親トピックは、誤った正の合致として不利益を受けることはない。
各候補トピックモデル86には、訓練セットに対して正しい予測および正しくない予測をいくつ行うかに従って、得点が割り当てられる(ステップ142)。この得点は、各トピックモデルがどれくらいうまく正と負の訓練例を予測するかを反映し、また、その構造の複雑さおよびトピックラベル単語との重複にも基づく。正と負の訓練例を完全に予測し、構造の複雑さが低く、トピックラベルとの語句重複がかなりある候補トピックモデル86に、最も高い得点が発生する。
種々のトピックモデルについて達成することのできる「可能な最良の」得点が追跡される。候補トピックモデル86は、複雑さの低い順および確率の高い順に生成されるので、最良の候補トピックモデル86が普通は最初に生成される。一実施形態では、すべてのトピックモデルが保存され、すべてのトピックモデルの生成後に最良のトピックモデルが選択される。別の実施形態では、それまでに見られた最良のトピックモデルのみが保持され、それよりも前のより性能の低いトピックモデルがあればそれらに取って代わる。さらに別の実施形態では、「可能な最良の」トピックモデルに遭遇した場合(ステップ143)、このトピックモデルが選択され(ステップ144)、トピックモデル生成評価を早期停止してよいことを合図するように働く。というのは、最良の単純なトピックモデルは常に、最良のより複雑なトピックモデルよりも優位に立つことになるからである。
情報開示は、2つの非常に重要な面を有する。すなわち、(1)各トピックにどのページが関するか決定することであり、これはインデックス外挿によって対処される。また(2)種々のページの質を決定することであり、これは後で論じるように投票によって対処される。インデックス外挿は、「少人数の精力的な仕事」すなわちインデックスマネージャを組み込むが、インデックスマネージャは、ソースを選択し、正と負の訓練例を与えることによってインデックスを訓練する。新しい記事が到着したとき、ソースが増強コミュニティのエバーグリーンインデックスに追加されたとき、またはインデックスが再訓練されたときは、分類が実施される。エバーグリーンインデックス88中のトピックモデル90により、新しく関連性のあるディジタル情報を、監視付き機械学習を使用したインデックス外挿のプロセスを介して自動的にトピック89によってカテゴリ化することができる。図10は、一実施形態によるインデックス外挿150を示すデータフロー図である。この方法は、サーバまたは他のコンピューティングデバイスによって、一連のプロセスステップとして実施される。
従来のインデックスとは異なり、エバーグリーンインデックスは、引用ではなくトピックモデルを含むが、これによりエバーグリーンインデックスは、特定のディジタル情報に束縛されないと共にどんなディジタル情報にも適用可能な、動的な構造として機能することができる。図11を参照してさらに後述するように、文書151がエバーグリーンインデックスのトピックモデル153と照合されて、情報に最も適合するトピックまたはサブトピック154が決定される(操作152)。あらゆる文書151が、正しく合致するトピックモデル153を見つけることになるわけではない。いくらかの情報は誤って合致する場ことがあり、他の情報は全く合致しないことがあるが、それでもなお、新しいトピックまたはサブトピックとしてエバーグリーンインデックスに追加するに値する場合がある。
エバーグリーンインデックスを使用して新しいディジタル情報を自動的にカテゴリ化することは、継続的なプロセスである。図11は、図10の方法で使用する、インデックス外挿を実施するためのルーチン160を示す流れ図である。新しいページ、記事、または他の形のディジタル情報が、ウェブクローラなどを介して自動的に、あるいは増強コミュニティまたはその他によって手動で識別される(ステップ161)。分かりやすくするために、新しいディジタル情報を単に「ページ」と呼ぶことにする。
新しいディジタル情報の各ページが処理される(ステップ162〜167)。1つのページが、1つ以上のトピックまたはサブトピックと合致する可能性があり、エバーグリーンインデックス中のトピックモデル153を構成するパターンが、ページと照合される(ステップ163)。ページが少なくとも1つのトピックまたはサブトピック154と合致する場合は(ステップ164)、ページは、エバーグリーンインデックスのこれらの合致するトピックおよびサブトピック154の下に登録される(ステップ166)。しかし、合致が見つからない場合は(ステップ164)、ページは無視されるか、あるいはエバーグリーンインデックスのキャッチオールトピックに記録される(ステップ165)。未分類ページをインデックス外挿への補足として使用することもできる。例えば、コミュニティの注目に対する新しいトピックが未分類ページの間で生じる場合があり、何人かのコミュニティメンバによって、未分類ページの代表的なサンプリングを、インデックスの拡張をサポートする社会的プロセスのための利益として検討することができる。ページに合致するトピックモデル153がない場合は、このページは、新しいトピックまたはサブトピックのために保持しておく価値のあるページの場合などに、新しい正の訓練例として使用することができる。新しいトピックまたはサブトピックは、エバーグリーンインデックスが属する増強コミュニティに関連する分野専門家または他の個人によって、別個に識別されることになる。別法として、コミュニティメンバによって指摘された場合など、トピックモデル153が誤ってページに合致している場合は、このページは新しい負の訓練例として使用することができる。
ソーシャルインデクシングにおける情報開示は、インデックス外挿を、トピックによって範囲を定められた投票と組み合わせたものである。投票は、「多人数の軽い仕事」を具体化する。投票には、きめ細かいカテゴリ化が非常に重要である。というのは、カテゴリ化は、各トピック下の記事の評価の原因となるからである。カテゴリ化は、どの記事が最良であり読者の注目に最も値するかを突き止める。投票は、エバーグリーンインデックスの特色を表すユーザインタフェースを介して提供される。
ウェブブラウザは、ユビキタスかつ広く採用される情報提供インタフェースになってきており、これは、新しく関連性のあるディジタル情報を空間的に提示するための、唯一ではないが理想的なプラットフォームを提供する。図12は、関心度によって編成されたディジタル情報を提供するユーザインタフェース180を例として示すスクリーンショット図である。ユーザインタフェース180は、情報ダイエットの2つの面、すなわち関連性および関心度を、投票と結び付ける。ユーザインタフェース180は例示的な提示を提供するものだが、他のインタフェーシング方法も等しく可能である。
各増強コミュニティによって投票されたディジタル情報の格付けを、タブ181または他のマーカによって索引付けされた個別ウェブページ上で提供することができる。各増強コミュニティのタブ内では、この増強コミュニティのトピックおよびサブトピック182を最初にリストすることができ、より大きいフォントまたはより目立つ表示属性が、最も人気のある文書を強調する。前述のように、トピックおよびサブトピック182は、増強コミュニティのエバーグリーンインデックスから選択され、文書は、ディジタル情報のコーパスをエバーグリーンインデックス中のトピックモデルと照合することによって識別される。
関心度(DOI)は、何らかの情報がどれくらい関心をそそることになるかを反映するように導出され意図された数値尺度を指す。DOIは、所与のトピックに関する特定の記事に対して決定することができ、また、2次トピックを1次トピックに関係付けるために計算することもできる。DOIは、個人の履歴または状態に特有の情報に基づいて、個人に適応させることができる。利用可能なときは、DOIを使用して情報の提示を最適化することができ、したがって、情報により多くの空間を与えたり情報をより目立たせたりするなどによって、最も高いDOIを有する情報が優遇される。例えば、最も高くランク付けされたページ183には最大量の空間を割り振ることができ、グラフィックス、タイトル、記事のソースに関する情報、および要約がすべて提供される。他の情報、あるいは他の形の視覚強調または表示強調を提供することもできる。同様に、より低く格付けされたページ184にはより少ない空間を割り振ることができ、グラフィックスなしで、より小さいフォントサイズを使用することができる。最後に、最も低く格付けされたページ185は、タブの下部に追いやることができ、ページのソースおよびタイトルのみが提供される。便利なように、全ページの数の要約186を含めることもできる。
本発明を、その実施形態を参照して具体的に図示および記述したが、趣旨および範囲を逸脱することなく、形式および詳細において前述のおよび他の変更をこれらの実施形態に加えることができることは、当業者なら理解するであろう。
ディジタル情報の仮定的なロングテール分布の例を示したグラフ図である。 ディジタルセンスメーキングにおける課題を示す機能ブロック図である。 ディジタル情報センスメーキングのための例示的な環境を示すブロック図である。 図3のソーシャルインデクシングシステムで使用される主要なコンポーネントを示す機能ブロック図である。 ディジタル情報プロバイダの現在の編成状況の例を示したグラフ図である。 一実施形態によるインデックス訓練を示すデータフロー図である。 図6の方法で使用する、シードワードを選択するためのルーチンを示す流れ図である。 図6の方法で使用する、候補トピックモデルを生成するためのルーチンを示す流れ図である。 図6の方法で使用する、候補トピックモデルを生成するためのルーチンを示す流れ図であり、図8Aに続く図である。 図6の方法で使用する、候補トピックモデルを生成するためのルーチンを示す流れ図であり、図8Bに続く図である。 図8のルーチンで使用する、候補トピックモデルを評価するためのルーチンを示す流れ図である。 一実施形態によるインデックス外挿を示すデータフロー図である。 図10の方法で使用する、インデックス外挿を実施するためのルーチンを示す流れ図である。 関心度によって編成されたディジタル情報を提供するユーザインタフェースの例を示したスクリーンショット図である。
符号の説明
10 ディジタル情報についての仮定的なロングテール分布、11 ヘッド項目、12 ロングテール項目、21 ソーシャルインデクシング、22 開示、23 探査、24 適応、30 ディジタル情報センスメーキングのための例示的な環境、31 ネットワーク、32 ソーシャルインデクシングシステム、33a,33b,33c ユーザデバイス、34a ウェブサーバ、34b ニュースアグリゲータサーバ、34c 投票付きニュースサーバ、35a ウェブコンテンツ、35b ニュースコンテンツ、35c 「吟味される」コンテンツ、40 ソーシャルインデクシングシステム32中で使用される主要なコンポーネント、41 情報収集、42 インデクシングおよび分析、43 ユーザサービス、44 インデックストレーナ、45 インデックス外挿部、46 入来コンテンツ、47 配信インデックス、48a,48b ユーザ、49 エバーグリーンインデックス、60 ディジタル情報プロバイダの現在の編成状況を例として示すグラフ、66 専門ウェブサイト、67 RSSリーダ、68 自動化された主流メディアウェブサイト、69 主流メディアウェブサイト、70 ブログ検索エンジン、71 ニュースアグリゲータ、72 投票付きニュースウェブサイト、73 ソーシャルインデクシングシステム、80 インデックス訓練、81 訓練マテリアル、82 インデックスエントリ、83 シードワード選択、84 シードワード、85 トピックモデル生成、86 候補トピックモデル、87 トピックモデル評価、88 エバーグリーンインデックス、89 トピックまたはサブトピック、90 トピックモデル、91 正の訓練セット、92 負の訓練セット、100 シードワードを選択するためのルーチン、110 候補トピックモデルを生成するためのルーチン、140 候補トピックモデルを評価するためのルーチン、150 インデックス外挿、151 文書、152 トピックモデル照合、153 トピックモデル、154 トピックまたはサブトピック、160 インデックス外挿を実施するためのルーチン、180 ユーザインタフェース、181 タブ、182 トピックおよびサブトピック、183 最も高くランク付けされたページ、184 より低く格付けされたページ、185 最も低く格付けされたページ、186 全ページの数の要約。

Claims (10)

  1. 対象領域におけるディジタル情報の開示を実施する方法であって、
    対象領域中のトピックのそれぞれと、前記トピックに対する訓練マテリアルと、ディジタル情報を含むコーパスとを指定し、
    前記トピックのそれぞれについてのトピックモデルを構築し、
    前記トピックモデルを前記訓練マテリアルに対して評価し、
    前記トピックモデルを使用して前記コーパスからの前記ディジタル情報を前記トピックによってエバーグリーンインデックスに編成する、
    ことを含むことを特徴とする方法。
  2. 請求項1に記載の方法であって、
    性能、単純さ、および偏向のうちの少なくとも1つに関して前記トピックモデルを評価することをさらに含むことを特徴とする方法。
  3. 請求項1に記載の方法であって、
    各トピックモデルを有限状態言語の述語として形成し、
    各述語を、前記述語が合致する前記コーパス中の位置を返すクエリとして前記コーパスに適用する、
    ことをさらに含むことを特徴とする方法。
  4. 請求項1に記載の方法であって、
    前記コーパス中の記事を前記エバーグリーンインデックス中の前記トピックモデルに対して分類し、
    前記分類した記事を前記エバーグリーンインデックス中で提示する、
    ことをさらに含むことを特徴とする方法。
  5. 請求項1に記載の方法であって、
    前記トピックの少なくとも1つの下に1つ以上のサブトピックを階層的に構築することをさらに含むことを特徴とする方法。
  6. 請求項1に記載の方法であって、
    各トピックモデルについての正しい引用に対応する前記コーパス中の記事を含む正の訓練例のセットを定義することをさらに含むことを特徴とする方法。
  7. 請求項6に記載の方法であって、
    各トピックモデルについての正しくない引用に対応する前記コーパス中の記事を含む負の訓練例のセットを定義することをさらに含むことを特徴とする方法。
  8. 請求項6に記載の方法であって、
    各トピックの特性を表し、前記正の訓練例セット中の前記記事に基づく、基底単語を識別し、
    前記基底単語の1つ以上を、シードワードとして前記トピックについての前記トピックモデルのそれぞれに組み入れる、
    ことをさらに含むことを特徴とする方法。
  9. 請求項8に記載の方法であって、
    前記トピック中の単語と、前記トピックの引用によって参照される前記コーパス中のラベルに近接する単語とのうちの少なくとも一方を含む追加の単語を、前記シードワードと共に含めることをさらに含むことを特徴とする方法。
  10. 請求項1に記載の方法であって、
    前記ディジタル情報は、印刷された文書と、ウェブページと、ディジタル媒体中に書かれたマテリアルとのうちの1つ以上を含むことを特徴とする方法。
JP2008263362A 2007-10-12 2008-10-10 対象領域におけるディジタル情報開示方法 Expired - Fee Related JP5329900B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US99863607P 2007-10-12 2007-10-12
US60/998,636 2007-10-12
US12/190,552 US8165985B2 (en) 2007-10-12 2008-08-12 System and method for performing discovery of digital information in a subject area
US12/190,552 2008-08-12

Publications (3)

Publication Number Publication Date
JP2009099145A true JP2009099145A (ja) 2009-05-07
JP2009099145A5 JP2009099145A5 (ja) 2011-11-24
JP5329900B2 JP5329900B2 (ja) 2013-10-30

Family

ID=40349994

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008263362A Expired - Fee Related JP5329900B2 (ja) 2007-10-12 2008-10-10 対象領域におけるディジタル情報開示方法

Country Status (3)

Country Link
US (2) US8165985B2 (ja)
EP (1) EP2048605B1 (ja)
JP (1) JP5329900B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012014544A (ja) * 2010-07-02 2012-01-19 Nippon Telegr & Teleph Corp <Ntt> コーディネート推薦装置、コーディネート推薦方法及びそのプログラム
JP2012108867A (ja) * 2010-10-29 2012-06-07 Nippon Telegr & Teleph Corp <Ntt> データ抽出装置、データ抽出方法、及びそのプログラム

Families Citing this family (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8583639B2 (en) * 2008-02-19 2013-11-12 International Business Machines Corporation Method and system using machine learning to automatically discover home pages on the internet
US20220327484A1 (en) * 2008-03-21 2022-10-13 Brian Gale System and method for clinical practice and health risk reduction monitoring
US8095540B2 (en) * 2008-04-16 2012-01-10 Yahoo! Inc. Identifying superphrases of text strings
US8549016B2 (en) * 2008-11-14 2013-10-01 Palo Alto Research Center Incorporated System and method for providing robust topic identification in social indexes
US8239397B2 (en) * 2009-01-27 2012-08-07 Palo Alto Research Center Incorporated System and method for managing user attention by detecting hot and cold topics in social indexes
US8356044B2 (en) * 2009-01-27 2013-01-15 Palo Alto Research Center Incorporated System and method for providing default hierarchical training for social indexing
US8452781B2 (en) * 2009-01-27 2013-05-28 Palo Alto Research Center Incorporated System and method for using banded topic relevance and time for article prioritization
EP2312515A1 (en) * 2009-10-16 2011-04-20 Alcatel Lucent Device for determining potential future interests to be introduced into profile(s) of user(s) of communication equipment(s)
US8311792B1 (en) * 2009-12-23 2012-11-13 Intuit Inc. System and method for ranking a posting
US8332395B2 (en) * 2010-02-25 2012-12-11 International Business Machines Corporation Graphically searching and displaying data
US9031944B2 (en) * 2010-04-30 2015-05-12 Palo Alto Research Center Incorporated System and method for providing multi-core and multi-level topical organization in social indexes
US8645298B2 (en) * 2010-10-26 2014-02-04 Microsoft Corporation Topic models
US9542479B2 (en) * 2011-02-15 2017-01-10 Telenav, Inc. Navigation system with rule based point of interest classification mechanism and method of operation thereof
WO2012151743A1 (en) * 2011-05-10 2012-11-15 Nokia Corporation Methods, apparatuses and computer program products for providing topic model with wording preferences
US9613003B1 (en) * 2011-09-23 2017-04-04 Amazon Technologies, Inc. Identifying topics in a digital work
US9639518B1 (en) 2011-09-23 2017-05-02 Amazon Technologies, Inc. Identifying entities in a digital work
US9449526B1 (en) 2011-09-23 2016-09-20 Amazon Technologies, Inc. Generating a game related to a digital work
US9471547B1 (en) 2011-09-23 2016-10-18 Amazon Technologies, Inc. Navigating supplemental information for a digital work
US10339452B2 (en) 2013-02-06 2019-07-02 Verint Systems Ltd. Automated ontology development
US9189540B2 (en) 2013-04-05 2015-11-17 Hewlett-Packard Development Company, L.P. Mobile web-based platform for providing a contextual alignment view of a corpus of documents
US9575958B1 (en) * 2013-05-02 2017-02-21 Athena Ann Smyros Differentiation testing
US20150066506A1 (en) 2013-08-30 2015-03-05 Verint Systems Ltd. System and Method of Text Zoning
US10521807B2 (en) 2013-09-05 2019-12-31 TSG Technologies, LLC Methods and systems for determining a risk of an emotional response of an audience
US9977830B2 (en) 2014-01-31 2018-05-22 Verint Systems Ltd. Call summary
US10255346B2 (en) 2014-01-31 2019-04-09 Verint Systems Ltd. Tagging relations with N-best
CN105335347A (zh) * 2014-05-30 2016-02-17 富士通株式会社 确定针对特定话题的情绪及其原因的方法和设备
CN104050302B (zh) * 2014-07-10 2017-05-24 华东师范大学 一种基于图谱模型的话题探测系统
US10592841B2 (en) 2014-10-10 2020-03-17 Salesforce.Com, Inc. Automatic clustering by topic and prioritizing online feed items
US9984166B2 (en) 2014-10-10 2018-05-29 Salesforce.Com, Inc. Systems and methods of de-duplicating similar news feed items
US20160217127A1 (en) * 2015-01-27 2016-07-28 Verint Systems Ltd. Identification of significant phrases using multiple language models
US10558759B1 (en) * 2018-01-04 2020-02-11 Facebook, Inc. Consumer insights analysis using word embeddings
US10509863B1 (en) * 2018-01-04 2019-12-17 Facebook, Inc. Consumer insights analysis using word embeddings
US20190279073A1 (en) * 2018-03-07 2019-09-12 Sap Se Computer Generated Determination of Patentability
US11176549B2 (en) * 2018-04-11 2021-11-16 Sap Se Systems and methods for matching transactional data
WO2020086580A1 (en) 2018-10-22 2020-04-30 Carlson William D Therapeutic combinations of tdfrps and additional agents and methods of use
US11769012B2 (en) 2019-03-27 2023-09-26 Verint Americas Inc. Automated system and method to prioritize language model and ontology expansion and pruning
US11275796B2 (en) 2019-04-30 2022-03-15 International Business Machines Corporation Dynamic faceted search on a document corpus
US11003701B2 (en) * 2019-04-30 2021-05-11 International Business Machines Corporation Dynamic faceted search on a document corpus
US11521601B2 (en) * 2019-10-18 2022-12-06 Invoca, Inc. Detecting extraneous topic information using artificial intelligence models
US11410644B2 (en) 2019-10-18 2022-08-09 Invoca, Inc. Generating training datasets for a supervised learning topic model from outputs of a discovery topic model

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05324726A (ja) * 1992-05-25 1993-12-07 Fujitsu Ltd 文書データ分類装置及び文書分類機能構築装置
JPH0778186A (ja) * 1993-05-17 1995-03-20 Ricoh Co Ltd 文書処理装置
JPH08305726A (ja) * 1995-04-28 1996-11-22 Fuji Xerox Co Ltd 情報検索装置
JP2005190255A (ja) * 2003-12-26 2005-07-14 Fuji Xerox Co Ltd データ分類処理装置、およびデータ分類処理方法、並びにコンピュータ・プログラム

Family Cites Families (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5369763A (en) * 1989-02-01 1994-11-29 Kansas State University Research Foundation Data storage and retrieval system with improved data base structure
US5257939A (en) * 1992-10-13 1993-11-02 Robinson Don T Cultural knowledge board game
US5724567A (en) * 1994-04-25 1998-03-03 Apple Computer, Inc. System for directing relevance-ranked data objects to computer users
JP2809341B2 (ja) * 1994-11-18 1998-10-08 松下電器産業株式会社 情報要約方法、情報要約装置、重み付け方法、および文字放送受信装置。
US5671342A (en) * 1994-11-30 1997-09-23 Intel Corporation Method and apparatus for displaying information relating to a story and a story indicator in a computer system
US5530852A (en) * 1994-12-20 1996-06-25 Sun Microsystems, Inc. Method for extracting profiles and topics from a first file written in a first markup language and generating files in different markup languages containing the profiles and topics for use in accessing data described by the profiles and topics
US5680511A (en) * 1995-06-07 1997-10-21 Dragon Systems, Inc. Systems and methods for word recognition
US5907836A (en) * 1995-07-31 1999-05-25 Kabushiki Kaisha Toshiba Information filtering apparatus for selecting predetermined article from plural articles to present selected article to user, and method therefore
US6021403A (en) * 1996-07-19 2000-02-01 Microsoft Corporation Intelligent user assistance facility
US5907677A (en) * 1996-08-23 1999-05-25 Ecall Inc. Method for establishing anonymous communication links
EP0848347A1 (en) * 1996-12-11 1998-06-17 Sony Corporation Method of extracting features characterising objects
US6285987B1 (en) * 1997-01-22 2001-09-04 Engage, Inc. Internet advertising system
US6233575B1 (en) * 1997-06-24 2001-05-15 International Business Machines Corporation Multilevel taxonomy based on features derived from training documents classification using fisher values as discrimination values
US6292830B1 (en) * 1997-08-08 2001-09-18 Iterations Llc System for optimizing interaction among agents acting on multiple levels
US6052657A (en) * 1997-09-09 2000-04-18 Dragon Systems, Inc. Text segmentation and identification of topic using language models
US6598045B2 (en) * 1998-04-07 2003-07-22 Intel Corporation System and method for piecemeal relevance evaluation
US7275061B1 (en) * 2000-04-13 2007-09-25 Indraweb.Com, Inc. Systems and methods for employing an orthogonal corpus for document indexing
US6269361B1 (en) * 1999-05-28 2001-07-31 Goto.Com System and method for influencing a position on a search result list generated by a computer network search engine
US6981040B1 (en) * 1999-12-28 2005-12-27 Utopy, Inc. Automatic, personalized online information and product services
US6397211B1 (en) * 2000-01-03 2002-05-28 International Business Machines Corporation System and method for identifying useless documents
JP3562572B2 (ja) * 2000-05-02 2004-09-08 インターナショナル・ビジネス・マシーンズ・コーポレーション データベースのドキュメントにおける新規な事項・新規クラスの検出及び追跡
US7062485B1 (en) * 2000-09-01 2006-06-13 Huaichuan Hubert Jin Method and apparatus for score normalization for information retrieval applications
US7185065B1 (en) * 2000-10-11 2007-02-27 Buzzmetrics Ltd System and method for scoring electronic messages
US7200606B2 (en) * 2000-11-07 2007-04-03 The Regents Of The University Of California Method and system for selecting documents by measuring document quality
US6772120B1 (en) * 2000-11-21 2004-08-03 Hewlett-Packard Development Company, L.P. Computer method and apparatus for segmenting text streams
US7685224B2 (en) * 2001-01-11 2010-03-23 Truelocal Inc. Method for providing an attribute bounded network of computers
US20020161838A1 (en) * 2001-04-27 2002-10-31 Pickover Cilfford A. Method and apparatus for targeting information
US7092888B1 (en) * 2001-10-26 2006-08-15 Verizon Corporate Services Group Inc. Unsupervised training in natural language call routing
US7716161B2 (en) * 2002-09-24 2010-05-11 Google, Inc, Methods and apparatus for serving relevant advertisements
US7752072B2 (en) * 2002-07-16 2010-07-06 Google Inc. Method and system for providing advertising through content specific nodes over the internet
US20050226511A1 (en) 2002-08-26 2005-10-13 Short Gordon K Apparatus and method for organizing and presenting content
US7320000B2 (en) * 2002-12-04 2008-01-15 International Business Machines Corporation Method and apparatus for populating a predefined concept hierarchy or other hierarchical set of classified data items by minimizing system entrophy
US7467202B2 (en) * 2003-09-10 2008-12-16 Fidelis Security Systems High-performance network content analysis platform
GB0322600D0 (en) * 2003-09-26 2003-10-29 Univ Ulster Thematic retrieval in heterogeneous data repositories
JP2005158010A (ja) * 2003-10-31 2005-06-16 Hewlett-Packard Development Co Lp 分類評価装置・方法及びプログラム
WO2005050472A2 (en) * 2003-11-21 2005-06-02 Philips Intellectual Property & Standards Gmbh Text segmentation and topic annotation for document structuring
US20070244690A1 (en) * 2003-11-21 2007-10-18 Koninklijke Philips Electronic, N.V. Clustering of Text for Structuring of Text Documents and Training of Language Models
WO2005050621A2 (en) * 2003-11-21 2005-06-02 Philips Intellectual Property & Standards Gmbh Topic specific models for text formatting and speech recognition
JP4808160B2 (ja) * 2003-11-21 2011-11-02 ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー トピック特異的言語モデルおよびトピック特異的ラベル統計によるユーザー対話を用いたテキストセグメント分割およびラベル付与
US7293019B2 (en) * 2004-03-02 2007-11-06 Microsoft Corporation Principles and methods for personalizing newsfeeds via an analysis of information novelty and dynamics
US7426557B2 (en) * 2004-05-14 2008-09-16 International Business Machines Corporation System, method, and service for inducing a pattern of communication among various parties
US7281022B2 (en) * 2004-05-15 2007-10-09 International Business Machines Corporation System, method, and service for segmenting a topic into chatter and subtopics
JP2005352878A (ja) * 2004-06-11 2005-12-22 Hitachi Ltd 文書検索システム、検索サーバ、及び検索クライアント
US7567959B2 (en) * 2004-07-26 2009-07-28 Google Inc. Multiple index based information retrieval system
US20060053171A1 (en) * 2004-09-03 2006-03-09 Biowisdom Limited System and method for curating one or more multi-relational ontologies
US7496567B1 (en) * 2004-10-01 2009-02-24 Terril John Steichen System and method for document categorization
US20060167930A1 (en) * 2004-10-08 2006-07-27 George Witwer Self-organized concept search and data storage method
US7548917B2 (en) * 2005-05-06 2009-06-16 Nelson Information Systems, Inc. Database and index organization for enhanced document retrieval
US20070050356A1 (en) * 2005-08-23 2007-03-01 Amadio William J Query construction for semantic topic indexes derived by non-negative matrix factorization
US7707206B2 (en) * 2005-09-21 2010-04-27 Praxeon, Inc. Document processing
US9069847B2 (en) 2005-10-21 2015-06-30 Battelle Memorial Institute Data visualization methods, data visualization devices, data visualization apparatuses, and articles of manufacture
US20070156622A1 (en) * 2006-01-05 2007-07-05 Akkiraju Rama K Method and system to compose software applications by combining planning with semantic reasoning
AU2007219997A1 (en) * 2006-02-28 2007-09-07 Buzzlogic, Inc. Social analytics system and method for analyzing conversations in social media
US8326686B2 (en) * 2006-03-30 2012-12-04 Google Inc. Automatically generating ads and ad-serving index
US7890485B2 (en) * 2006-04-13 2011-02-15 Tony Malandain Knowledge management tool
US7809723B2 (en) * 2006-06-26 2010-10-05 Microsoft Corporation Distributed hierarchical text classification framework
US20080040221A1 (en) * 2006-08-08 2008-02-14 Google Inc. Interest Targeting
US20080126319A1 (en) * 2006-08-25 2008-05-29 Ohad Lisral Bukai Automated short free-text scoring method and system
US20080065600A1 (en) * 2006-09-12 2008-03-13 Harold Batteram Method and apparatus for providing search results from content on a computer network
US7921092B2 (en) * 2006-12-04 2011-04-05 Yahoo! Inc. Topic-focused search result summaries
WO2008120030A1 (en) * 2007-04-02 2008-10-09 Sobha Renaissance Information Latent metonymical analysis and indexing [lmai]

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05324726A (ja) * 1992-05-25 1993-12-07 Fujitsu Ltd 文書データ分類装置及び文書分類機能構築装置
JPH0778186A (ja) * 1993-05-17 1995-03-20 Ricoh Co Ltd 文書処理装置
JPH08305726A (ja) * 1995-04-28 1996-11-22 Fuji Xerox Co Ltd 情報検索装置
JP2005190255A (ja) * 2003-12-26 2005-07-14 Fuji Xerox Co Ltd データ分類処理装置、およびデータ分類処理方法、並びにコンピュータ・プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG199800298005; 河合 敦夫: '意味属性の学習結果にもとづく文書自動分類方式' 情報処理学会論文誌 Vol.33,No.9, 19920915, PP.1114-1122., 情報処理学会 *
JPN6012052325; 河合 敦夫: '意味属性の学習結果にもとづく文書自動分類方式' 情報処理学会論文誌 Vol.33,No.9, 19920915, PP.1114-1122., 情報処理学会 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012014544A (ja) * 2010-07-02 2012-01-19 Nippon Telegr & Teleph Corp <Ntt> コーディネート推薦装置、コーディネート推薦方法及びそのプログラム
JP2012108867A (ja) * 2010-10-29 2012-06-07 Nippon Telegr & Teleph Corp <Ntt> データ抽出装置、データ抽出方法、及びそのプログラム

Also Published As

Publication number Publication date
US8165985B2 (en) 2012-04-24
EP2048605A3 (en) 2012-11-28
US8706678B2 (en) 2014-04-22
EP2048605A2 (en) 2009-04-15
JP5329900B2 (ja) 2013-10-30
US20120209797A1 (en) 2012-08-16
EP2048605B1 (en) 2016-08-24
US20090099996A1 (en) 2009-04-16

Similar Documents

Publication Publication Date Title
JP5329900B2 (ja) 対象領域におけるディジタル情報開示方法
US8930388B2 (en) System and method for providing orientation into subject areas of digital information for augmented communities
US8073682B2 (en) System and method for prospecting digital information
Beale Supporting serendipity: Using ambient intelligence to augment user exploration for data mining and web browsing
CA2767838C (en) Progressive filtering of search results
US20100125540A1 (en) System And Method For Providing Robust Topic Identification In Social Indexes
US20100274753A1 (en) Methods for filtering data and filling in missing data using nonlinear inference
WO2010000064A1 (en) Information processing with integrated semantic contexts
WO2010000065A1 (en) Facilitating collaborative searching using semantic contexts associated with information
Taghavi et al. New insights towards developing recommender systems
Jiang et al. Towards intelligent geospatial data discovery: a machine learning framework for search ranking
WO2008032037A1 (en) Method and system for filtering and searching data using word frequencies
Sheil Discovering user intent in e-commerce clickstreams
Portugal et al. Requirements engineering for general recommender systems
Giuliani Studying, developing, and experimenting contextual advertising systems
Chung et al. Browsing the underdeveloped web: An experiment on the arabic medical web directory
Vrandecic Incentives for the Semantic Web (INSEMTIVE 2008)
Mao Epistemology-based social search for exploratory information seeking
Yazagan The Potential of Bookmark Based User Profiles

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111005

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111005

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120928

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121009

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130104

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130702

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130725

R150 Certificate of patent or registration of utility model

Ref document number: 5329900

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees