JP5421737B2 - コンピュータ実施方法 - Google Patents

コンピュータ実施方法 Download PDF

Info

Publication number
JP5421737B2
JP5421737B2 JP2009260896A JP2009260896A JP5421737B2 JP 5421737 B2 JP5421737 B2 JP 5421737B2 JP 2009260896 A JP2009260896 A JP 2009260896A JP 2009260896 A JP2009260896 A JP 2009260896A JP 5421737 B2 JP5421737 B2 JP 5421737B2
Authority
JP
Japan
Prior art keywords
topic
articles
grained
characteristic
article
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009260896A
Other languages
English (en)
Other versions
JP2010118064A5 (ja
JP2010118064A (ja
Inventor
ジェイ.ステフィク マーク
イー.グッド ランス
ミッタル サンジェイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Palo Alto Research Center Inc
Original Assignee
Palo Alto Research Center Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Palo Alto Research Center Inc filed Critical Palo Alto Research Center Inc
Publication of JP2010118064A publication Critical patent/JP2010118064A/ja
Publication of JP2010118064A5 publication Critical patent/JP2010118064A5/ja
Application granted granted Critical
Publication of JP5421737B2 publication Critical patent/JP5421737B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、ディジタル情報編成に係り、より詳細には、ソーシャルインデックスにおいてトピック識別を提供するためのコンピュータ実施方法に関する。
ウェブなどのオープンエンド(無制限)な情報ソースをトピック(題目)によって編成によって、情報の入手や検索が容易になることは、例えば、2008年8月12日に出願された係属中の同一出願人による
に記載されており、本明細書中にその全体が参照することによって組み込まれている。書籍は、長い間、トピックインデックス(索引)によって編成されてきた。しかしながら、規格(コーデックス)形式の制約があるため、書籍のサイズやページ数が制限され、従って、インデックスの大きさも制限されていた。一方、ウェブ(Web)材料は、物理的なバウンド(境界)が不足しており、網羅されている主題の全幅を収容するために、もっと広範囲のトピック編成を必要としている。
トピック編成が欠けていることによって、ウェブなどのオープンエンドな情報のリポジトリ(保存場所)の効果的な検索が困難になる。ユーザが、検索されている主題に対して認識不足であったり、或いは、入手できる情報のエクステント(範囲)を把握していなかったりする場合もある。いくら知識が豊かでも、ユーザが、所望の情報を正しく記述できなかったり、専門用語又は語彙の紛らわしい語尾変化などに辟易したりする場合もある。更に、検索結果だけでは、たとえ、トピック編成されていても、切望していたトピックの掲示板(サインポスト)がまだ十分ではなく、所与のサブジェクトに密接に関連するトピックが、全てのウェブトピックのインデックス全体のほんの一部に過ぎない場合もある。
トピックインデックスを提供するための一つの手法として、
に記載されているように、ソーシャルインデックスを介して構成されるエバーグリーン(常に新しい)インデックスを形成するために、有限状態パターンを使用することが挙げられる。ソーシャルインデックスは、エバーグリーンインデックス内のトピック毎に細粒度トピックモデルを生成するために、ブートストラップ式訓練材料へ教師有りマシン学習を付与する。一旦訓練されると、エバーグリーンインデックスは、予め選択されているサブジェクトエリアのトピックへ新しい情報を自動的に分類するために、インデックス外挿のために使用される。
細粒度ソーシャルインデックスシステムは、アーティクルが「オントピック(ontopic:トピックに関連している)」であることを正確に記述している高解像度のトピックモデルを使用する。しかしながら、このようなモデルを「細粒化」する同様の技術は、モデルを、広告、サイドリンク、注釈、又は、大部分は事後に追加され中核となる記事(アーティクル)から除外されている他のコンテンツとして、ウェブページ上に出現する非応答ノイズ単語に感応させる。さらに、トピックの定義を拡張させるための優良候補であるアーティクルの認識は、細粒度トピックモデルだけを使っても不十分である。細粒度トピックモデルの訓練範囲があまりにも狭義に訓練されたため、細粒度トピックに類似しているが、全く一致していないアーティクルの発見が不可能なときに、問題が発生する。
米国特許出願第12/190552号 米国特許出願第12/354681号
上記の問題を克服するために、本発明は、ソーシャルインデックスにおいてトピックの識別を提供するためのコンピュータ実施方法を提供する。
本発明の一実施態様によれば、電子的に記憶されたアーティクルと一つ以上のインデックスが保持されている。各インデックスは、それぞれがアーティクルの一つ以上に関連するトピックを含む。アーティクルの任意抽出と選択抽出が共に選択される。トピック毎に、任意抽出と選択抽出の各々においてアーティクル内に含まれる特徴的な単語が識別される。任意抽出と選択抽出の各々における特徴的な単語の発生頻度が求められる。任意抽出と選択抽出に含まれる特徴的単語に対する発生頻度の比率が識別される。最後に、トピックに関連するアーティクルに含まれる特徴的単語とこれらの特徴的単語に割り当てられる得点を含む粗粒度トピックモデルが、トピックご毎に、構築される。
本発明を実施するために創出された最良の方法が説明されている、以下の詳細な説明から、本発明が他の実施の形態を容易に適用可能であることを当業者は理解するであろう。お気付きのように、本発明の精神とその範囲を逸脱しない限り、本発明には他のさまざまな実施の形態が適用可能であり、明らかに部分的な変更又は変形が可能である。従って、添付図面及び詳細な説明は、本来、例示することのみを意図しており、本発明を限定するものではないことを理解されたい。
ディジタル情報の意味形成のための環境の一例を示すブロック図である。 図1の環境に使用される基本的な構成要素を示す機能ブロック図である。 図1のソーシャルインデックスシステムによって作成されたソーシャルインデックスにおいて、生成される有限状態パターンのセットを例示する図である。 細粒度トピックモデル生成を示すデータフローチャートである。 図1のソーシャルインデックスシステムによって生成された特徴的単語モデルを例示する図である。 粗粒度トピックモデル生成を示すデータフローチャートである。 細粒度トピックモデルが誤ってノイズと照合した時のウェブページの画面例を示す図である。 二つの仮想ウェブモデルのインタラクションを例示する図である。 候補「ニアミス」アーティクルを識別するためのトピックとの距離得点を提示するユーザインターフェースの画面例を示す図である。 候補「ニアミス」アーティクルであるアーティクルの画面例を示す図である。 図9のユーザインターフェースを再訓練した時の画面例を示す図である。 更に再訓練された図11のデータに対する相補的デバッギングディスプレイを例示する図である。 更に再訓練して得られたソーシャルインデックスにおいて、生成された有限状態パターンのセットを例示する図である。
用語集
以下の用語は、明細書全体にわたって使用され、特に注釈がなければ、以下に記載の意味をもっている。
コーパス: アーティクル(記事、項目など)、ドキュメント、ウェブページ、電子ブック、又は印刷材料として入手できる他のディジタル情報(など大量の言語データ)の集まり又はセット。
ドキュメント(文書): コーパス内の個々のアーティクル。ドキュメントは、書籍の章又は節、又は大きな作品の細目を指す。ドキュメントは、異なるトピック上のいくつかの引用ページを含むことがある。
引用ページ: ページ番号などのイデックス(索引)が引用するドキュメント内の位置。引用ページは、単ページ又はページセットであってよい。引用ページにおいて、サブトピックは、索引付けするための細粒度トピックモデルによって拡張され、ページセットは、細粒度トピックモデルに照合する全てのページを含む。各引用ページは、例えば、細粒度トピックモデルによって照合され得る段落などであり、ページ全体よりはるかに小さい。
サブジェクトエリア(主題領域): ソーシャルインデックスにおけるトピックとサブトピックのセットであり、エバーグリーンインデックスとこれと等価のインデックスを含む。
トピック: ソーシャルインデックス内の単一エントリ。エバーグリーンインデックスにおいて、トピックは、コーパス内のドキュメントに照合するように用いられる細粒度トピックモデル、例えば、パターンを伴う。また、トピックは粗粒度トピックモデルを伴う。
サブトピック: ソーシャルインデックス内のトピック下に階層的に例挙される単一エントリ。エバーグリーンインデックスにおいて、サブトピックは細粒度トピックモデルを伴う。
細粒度トピックモデル: 細粒度トピックモデルは、有限状態計算に基づいており、アーティクルが特定のトピックの範囲内に入っているかを判断するために使用される。各保存された細粒度トピックモデルは、有限状態パターンであり、クエリ(照会)に類似している。細粒度トピックモデルは、ポジティブ訓練例及びネガティブ訓練例に照らして、有限状態マシンを訓練することによって作成される。
粗粒度トピックモデル: 粗粒度トピックモデルは、特徴的単語に基づいており、どのトピックが照会に整合するかを判断する時に使用される。各保存された粗粒度トピックモデルは、トピックに対して重要な特徴的単語のセットであり、各特徴的単語の重要度を示すスコア(得点)である。この粗粒度トピックモデルは、ポジティブ訓練例、及びインデックス内の全てのトピックに関連しているアーティクルのベースラインのサンプルから生成される。ベースラインのサンプルは、ベースラインの単語の発生頻度、よって、開始点を確立する。ポジティブ訓練例の単語の発生頻度とベースラインのサンプルの単語の発生頻度が比較される。トピックのサブインデックス生成に使用される以外に、粗粒度トピックモデルは、広告指標化、ノイジーアーティクルの検出、ニアミス(極めて類似しているアーティクル)の検出、及び他の目的に使用され得る。
コミュニティ: オンラインの特定のサブジェクトエリアで、関心ある主要トピックを共有し、そのインタラクション(対話)の少なくとも一部に対して、コンピュータネットワークが介在している。サブジェクトエリアの定義付けは広範囲にわたっており、ヨットレース、有機園芸などの趣味的分野から、歯科医又は内科医などの職業的関心、又は、後発性糖尿病のケアなどの医学的関心に及ぶ。
拡張(オーグメント)コミュニティ: サブジェクトエリア上にソーシャルインデックスを有するコミュニティ。拡張コミュニティは、ソーシャルインデックスによって既に引用されているサブジェクトエリア内でドキュメントを読出し又は投票に参加する。
エバーグリーンインデックス: エバーグリーンインデックスは、コーパスに対して「常に現在状態を維持する」ソーシャルインデックスの特定の形態である。実施例としては、ソーシャルインデックスシステムは、コーパスの新しいドキュメントを識別するために、RSS(アールエスエス:RDF(リソース記述枠組みの略)サイトサマリー)形式のフィード又はクロールウェブサイトをポーリング(調査)する。
ソーシャルインデックスシステム: ソーシャルインデックスを用いたオンライン情報交換。このシステムは、拡張コミュニティ間の情報交換を容易にし、状態インジケータを提供し、関心ドキュメントを一つの拡張コミュニティから他の拡張コミュニティへ渡すことを可能にする。拡張コミュニティの相互接続されたセットは、コミュニティのソーシャルネットワークを形成する。
情報ダイエット(節約): 情報ダイエットは、ユーザが「消費する」即ち「関心サブジェクトを読み出す」情報を特徴付ける。ユーザの情報消費動作において、例えば、ユーザは、選挙関連ニュースに25%、ローカルニュースに15%、芸能関連トピックに10%、健康増進関連トピックの新しい情報に10%、特定の職業関連に20%、経済発展に10%、エコロジーや新しいエネルギ資源の開発に10%、その時間を費やしている。ソーシャルインデックスシステムが付与されれば、ユーザは、情報ダイエットの主な関心に応じた個別の拡張コミュニティへの参加やモニタリングを行うことができる。
ディジタル情報の意味形成(センスメイキング)と検索は関連しているが、独自に動作する。前者は、ディジタル情報インフラストラクチャによって仲介される意味形成に関し、ディジタル情報インフラストラクチャは、パブリックデータネットワーク、例えば、インターネット、独立型コンピュータシステム、及びディジタル情報のオープンエンド(無制限)リポジトリを含む。後者は、ディジタル情報インフラストラクチャからの情報の検索又は探求に関し、ディジタル情報インフラストラクチャは、ソーシャルインデックスを介して、又は他のインデックスソースによって、トピック編成され得る。図1は、ディジタル情報の意味形成及び情報検索に対する例示的な環境10を示すブロック図である。ソーシャルインデックスシステム11とトピック検索システムは、協働して、それぞれ、意味形成と検索を支援し、これらの作業は、同時に、ウェブブラウザで実行されるウィジェットを介して、エンドユーザであるブロガー(ブログを立てる人)や情報希望者などの情報作成者によって、使用され得る。
一般に、ディジタル情報は、ディジタル形式で使用可能な情報のコーパスである。情報のエクステント(成長)はオープンエンド(無制限)であり、これは、コーパスとそのトピックの範囲が、連続的に、そして、大きさやサブジェクトが固定的制限を受けることなく、成長を続けることを示唆している。インターネットなどのディジタルデータ通信ネットワーク16は、ディジタル情報の供給(配信)、交換、及び消費のためのインフラストラクチャを提供する。また、例えば、ノンパブリックな法人企業ネットワークなどの他のネットワークインフラストラクチャも利用可能である。ネットワーク16は、多様に分散した情報源や消費者へ相互接続性を提供する。例えば、上述したように、それぞれが、アーティクルや他のコンテンツを含むコーパスに投票し、及び/又は、コーパスへアクセスする利害関係のある4つの集団や組織間において相互接続性を提供する。ブロガー、作者、編集者、共同制作者、及び外部後援者などが連続してブログエントリ、アーティクル、ウェブページなどをネットワーク16に公開(post)し、これらが、ウェブサーバ14a、ニュースアグリゲータ(集積)サーバ14b、投票によるニュースサーバ14c、及び他の情報ソースを介して、分散データコーパスとして維持される。これらのソースは、それぞれ、ユーザへ、ウェブコンテンツ15a、ニュースコンテンツ15b、コミュニティ投票による又は「吟味された(vetted)」コンテンツ15cを供給する。ユーザは、パソコン等のユーザデバイス13a〜cを介して、ネットワーク16のみならず、他のサーバにアクセスする。明確にするために、ここでは、ユーザデバイスのみを取り上げているが、サーバ及び他の非利用者(ノンユーザ)デバイス情報消費者も、同様に、コーパスに集成された情報を探索、検索、及び利用することができる。
一般に、各ユーザデバイス13a〜cは、サーバ14a〜cに対しての、インターフェース、情報交換、及び情報検索を支援するウェブブラウザ又は同等のアプリケーションを実行する、ウェブ(Web)イネーブルドデバイスである。ユーザデバイス13a〜cとサーバ14a〜cは共に、中央処理装置、メモリ、入力/出力ポート、ネットワークインターフェース、非揮発性記憶装置などの汎用のプログラマブル計算装置において従来の技術において公知の構成要素を含む。他の構成要素を使用してもよい。更に、サーバ14a〜cに代えて又はこれに加えて、他の情報ソースが利用可能であり、ユーザデバイス13a〜cに代えて又はこれに加えて、他の情報消費者も利用可能である。
ディジタル意味形成は、ソーシャルインデックスシステム11によって容易に行われる。ソーシャルインデックスシステム11は、ネットワーク16を介して、情報ソースと情報消費者に相互接続されている。ソーシャルインデックスシステム11は、拡張コミュニティの主要エリア内における、ディジタル情報の自動発見及びトピックへの自動分類を容易にする。
ユーザの観点からすると、ディジタル情報検索のための環境10は、単一情報ポータル(入り口)として現れるが、実際には、分離しながらも統合されているサービスのセットである。図2は、図1の環境10に使用される基本的な構成要素20を示す機能ブロック図である。構成要素は、ディジタル情報の分類及び編成に集中的に用いられる。発見、予測、方向付け等の他の関連ディジタル情報動作を提供するために更なる構成要素が必要とされ得る。
構成要素20は、情報収集部21、ソーシャルインデックス22、及びユーザサービス28aの三つの基本機能モジュールへ大きく分類され得る。他の機能モジュールも使用可能である。更に、機能モジュールは、一体化した又は個別の計算プラットフォームにおいて実施され得る。情報収集部21は、電子的に記憶された情報の分散型コーパスを集成するオープンエンド(無制限な)情報ソースから「着信」コンテンツ27を得る。着信コンテンツ27は、コーパスから新しいディジタル情報を収穫するために記憶媒体収集装置によって収集される。一般に、着信コンテンツ27は、リポジトリに記憶され、又は、実際の写しを維持する代わりに、着信コンテンツのハイパーリンク又は引用を保存することによって、間接的に記憶される。
着信コンテンツ27は、収集予定に基づいて新しいディジタル情報として収集される。新しいディジタル情報は、必要に応じて、又は、いくらかの他の収集基準に基づいて、収集されてもよい。着信コンテンツ27は、リポジトリ又はデータベース(図示しない)に記憶されてもよいし、又は、実際の写しの代わりに、着信コンテンツ27のハイパーリンク又は引用を保存することによって、間接的に記憶されてもよい。更に、着信コンテンツ27は、ディジタル情報が記憶されていた元の表現形式とは異なっている、複数の表現を含むことができる。異なる表現形式は、タイトルの表示、アーティクル要旨の提示、トピック分類の追跡、及び、
に開示されている「細粒度トピックモデル、又は、例えば、本明細書中にその全体が参照することによって組み込まれている、2009年1月15日に出願された係属中の同一出願人による に開示されている粗粒度トピックモデルの推論及び使用を容易にするために使用され得る。アーティクルにおける単語は、ステムされ(単語から変化する語尾を除いて語形変化の基礎になる部分だけ残して語幹化され)、トークン形式、マイナス句読点使用、大文字使用などによって保存され得る。ソーシャルインデックスシステム11によって作成される細粒度トピックモデルは、着信コンテンツ27のきわめて抽象的なバージョンを表しており、このバージョンでは、単語の大部分が廃棄され、単語の発生頻度を中心に保持されている。
好ましくは、着信コンテンツ27は、コーパス内の情報の全て又は殆どを網羅する分散型トピックインデックス28の大きなセットの一部として、少なくとも一つのトピック又は「エバーグリーン(いつでも新しい)」ソーシャルインデックスの元、ソーシャルインデックスを介して編成される。一つの実施の形態において、各エバーグリーンインデックスは、
に開示されているような、ソーシャルインデックスシステム22の中核を形成する有限状態モデラー23を介して構築される。エバーグリーンインデックスは、新しい着信コンテンツ27がインデックストピックスの一つ以上に含まれるか否かを判断するために使用され、有限状態パターンなどの細粒度トピックモデル25を含む。各エバーグリーンインデックスは、オントピック(トピックに関連している)、そして、関心が類似しているユーザの拡張ソーシャルコミュニティに属している。ソーシャルインデックスシステムは、各トピック及びサブトピックに対して細粒度トピックモデルを作成するために、ブートストラップ訓練材料に教師有りマシン学習を適用する。一旦訓練されると、インデックス外挿のためにエバーグリーンインデックスが使用されて、予め選択されているサブジェクトエリアのトピック下に、新しい情報を自動的に分類する。これにより、コーパス用のインデックスが常に最新とされる。
細粒度トピックモデル25は、特徴的単語のトピックモデル(それぞれがトピックインデックスのトピック毎にソーシャルインデックスシステム22の特徴的単語のモデラー24によって作成され得る)としても知られている粗粒度トピックモデル26によって相補される。粗粒度トピックモデル26は、最初に、図3を参照しながら、以下に説明されるように、トピックの中心からのアーティクルに対するトピック距離の推定値を出すために使用される。
最後に、ユーザサービス28aは、分散インデックス28と着信コンテンツ27にアクセスするために、ユーザ30a〜bへフロントエンドを提供する。更に他の実施の形態において、各トピックインデックスは、主要サブジェクトエリアにおいて継続的に関心をもつ「拡張(オーグメント)」コミュニティとして知られているユーザのコミュニティにつながっている。コミュニティは、情報が割り当てられるトピックにおいて、「投票すること」(29)によって、引用された情報を「吟味」する。
ソーシャルインデックスとの関連においてトピックモデルは、トピックを特徴付ける計算モデルである。トピックの識別は、細粒度トピックモデルと粗粒度トピックモデルを組み合わせることによって、弾力性とロバスト性(信頼性)が強化される。
細粒度トピックモデル25は、有限状態パターンとして表現され、
に記載されているような、例えば、検索クエリ(照会)において使用され得る。しばしば、これらのパターンは、数個の単語しか含まないが、特定の潜在的に複雑な関係を表している。例えば、パタ−ン “[(mortgage housing)crisis{improper loans}]”(住宅ローン危機(不正貸付))は、トピックモデル表現であり、単語「“crisis”」、単語「“mortgage”」又は単語「“housing”」のいずれか、及び、2単語セット nグラム、即ち、隣接単語「“improper loans”」を含むアーティクルを識別するために使用され得る。
有限状態トピックモデルは、細粒トピックを示すために使用される。有限状態モデルは、ブール(Boolen)照合演算によって使用され、この演算において、テキストは、指定されるパターンと照合されたり、照合されなかったりする。図3は、図1のソーシャルインデックスシステム11によって作成されたソーシャルインデックスにおいて、生成される有限状態パターンのセットを例示する図である。ソーシャルインデックスは、「“Presidential Election”(大統領選)」と呼ばれる。この例のトピックは、「”policy issues/economy/housing crisis”(政治問題/経済/住宅危機)」である。例をベースにした訓練プログラムを用いて何千ものパターン又はトピックモデルが生成されている。単語は、 語幹(ステム単語) “hous”が、“house”、“houses”、及び“housing”と照合するように、語幹化される。同様に、語幹“mortgag”は、“mortgage”、“mortgages”、及び“mortgaging”の照合を得る。トップパターンは、 “(mortgage{hous crisis})”であり、用語“mortgage”又は、nグラムの“hous crisis”のいずれかを含むアーティクルに整合するトピックモデルである。このような有限トピックモデルのセットがエバーグリーンインデックス内のトピックに対応付けられてよい。
トピックモデルは、教師有りマシン学習を介して生成され、エバーグリーンインデックスを外挿するために適用され得る。図4は、細粒度トピックモデル生成40を示すデータフローチャートである。要するに、エバーグリーンインデックス48は、トピック又はサブトピック49を有限状態トピックモデルの形態の細粒度トピックモデル50と組み合わせることによって、形成される。エバーグリーンインデックス48は、訓練インデックス41から訓練がスタートされる。訓練インデックス41は、書籍用の従来の索引又はウェブページのハイパーリンク、又は既存のエバーグリーンインデックスインデックスであってよい。訓練インデックスに他のソースを使用してもよい。
イデックスエントリ42毎に、訓練インデックス41のトピック及びサブトピックのセットから種語(シードワード)44が選択される(動作43)。種語44から、候補細粒度トピックモデル46のパターンが生成される(動作45)。細粒度トピックモデルは、パターン、用語ベクトル、又はテスト可能な表現の任意の他の形態として識別され得る。細粒度トピックモデルは、従来のインデックスに見られるような直接的なページ引用を、着信コンテンツ27として受信されたテキストがオントピック(トピックに関連してる)かどうかをテストするために使用され得る表現に、変換する。
最後に、候補細粒度トピックモデル46が、ポジティブ訓練セット51及びネガティブ訓練セット52に対して評価される(動作47)。一般に、候補細粒度トピックモデル46は、複雑度が高くて確率の低い順に発生するので、通常は、最良候補の細粒度トピックモデル46は最初に生成される。構造的複雑性を考慮に入れることは、訓練データが疎である時は特に、マシン学習における不要な適合を回避するために有用である。
エバーグリーンインデックスを使った着信コンテンツ27の自動分類は、連続的なプロセスである。これは、インデックスが常に最新であり、いつでも「新鮮」である所以である。エバーグリーンインデックス48におけるトピックモデル50は、最新の関連のあるコンテンツを、インデックス外挿を介してトピック49別に自動分類されることを可能にする。更に、従来のインデックスとは異なり、エバーグリーンインデックス48は、引用の代わりに、細粒度トピックモデル50を含み、これにより、エバーグリーンインデックス48は、特定のコンテンツとは非結合も任意のコンテンツに対して常に適用可能なダイナミック構造として機能することが可能になる。ドキュメント又はディジタル情報の新しいページ、アーティクル、その他の形式は、ウェブクローラー(ウェブページ巡回プログラム)等を介して自動的に、又は、拡張コミュニティその他によって手動的に、識別される。着信ドキュメントのページは、エバーグリーンインデックス48の細粒度トピックモデル50に照合され、これらのページに含まれている最適トピック又はサブトピック49を決定する。しかしながら、細粒度トピックモデル50にも限界がある。ドキュメントが必ずしも正確に細粒度トピックモデル50に照合されるわけではない。また、ドキュメント内の情報は誤って照合される情報もあれば、全く照合されない情報もあるが、それでも、新しいトピック又はサブトピック49として、エバーグリーンインデックス48に追加する価値がある。
粗粒度又は特徴的単語のトピックモデル26は、単語と重みの配列として表示される統計的単語母集団プロファイルである。配列に代えて、他のデータストラクチャが使用されてもよい。ソーシャルインデックスにおいて、各単語に一般的に割り当てられる重みは、発生頻度の比率であり、例えば、数値的に高いか又はなんらかの理由であまり重視されなかった単語の(発生頻度)-(逆発生頻度)(TF−IDF)の重み付けの比率である。図5は、図1のソーシャルインデックスシステム11によって作成された特徴的単語モデルを例示している。単語“dodd”は、500で重み付けされ、上記に記載したように語尾が除外されて語幹化された単語“mortgage”は、405で重み付けされ、“hous”、“buyer”、“crisi”、“price”、“loan ”、“rescue”、“inflat”、“estat”、“market”及び“rescue”を含む他の単語についても同様に重み付けされている。関連するトピックは特徴的単語関連のセットを有している。例えば、トピック “bankruptchy”に対する特徴的単語は、トピック“housing crisis”に対して識別された特徴的単語に強力にオーバーラップする。
各粗粒度トピックモデルは、特徴的単語と、各特徴的単語の相対的な重要度を示す得点を含む。特徴的単語モデルは何百あるいは何千もの単語に関連するウェイト(重み付け)を含むことができる。図6は、粗粒度トピックモデル生成60を示すデータフローチャートである。特徴的単語は、細粒度トピックモデルがページ上のノイズコンテンツと照合する「偽ポジティブ」照合、又は、細粒度トピックモデルがページと照合しない「偽ネガティブ」照合を生成することなく、トピックについてのテキストを識別するときに有用である。一般に、特徴的単語は、コーパス内のアーティクルから選択される単語であり、コーパスは、ウェブページ、電子ブック、又は、印刷材料として使用可能な他のディジタル情報を含む。
最初に、アーティクルのセットは、コーパスから任意に選択される(ステップ61)。特徴的単語のベースラインは、アーティクルの任意のセットから抽出され、ベースラインに基づいて各特徴的単語の発生頻度が求められる(ステップ62)。待ち時間を短縮するために、ベースラインにおける各特徴的単語の発生頻度を予め計算することができる。一つの実施の形態において、インデックス内のトピック下に出現するアーティクルの数は、例えば、一時間置きにモニタすることもできる。周期的に、アーティクルの数が、所定量、例えば、10%、変化した場合、発生頻度はもう一度計算される。アーティクルの選択抽出は、一般にポジティブ訓練例のセットであるコーパスから選択されて行われる(ステップ63)。なお、アーティクルの選択抽出は、ポジティブ又はネガティブ訓練例の特定の範疇(カテゴリ)に含まれているという点において、任意抽出とは異なる。一つの実施の形態において、ポジティブ訓練例は、上述したように、細粒度トピックモデルを構築する時の教師有り学習中に使用される同一のアーティクルのセットである。更なる実施の形態において、細粒度トピックモデルに整合するアーティクルの抽出を、ポジティブ訓練例の代わりに使用することもできる。特徴的単語は、アーティクルの選択抽出から抜粋され、アーティクルの選択抽出における各特徴的単語の発生頻度が求められる(ステップ64)。測度又は得点は、アーティクルの選択抽出における各特徴的単語の発生頻度とベースラインにおける各特徴的単語の発生頻度の比率を識別する、例えば、(用語の発生頻度)-(逆発生頻度)(TF−IDF)重み付け法を用いて、各特徴的単語に割り当てられる(ステップ65)。各特徴的単語の得点は、トピックに対する特徴的単語の重要度を改良、即ち、増大させるために、又は、重要度を低下させるように、即ち、重要視しないように、調整され得る(ステップ66)。最後に、特徴的単語とそれらの得点の表が、照会(クエリ)プロセス段階において使用するために作成される(ステップ67)。また、表は、特徴的単語とそれらの得点が分類され、又はハッシュ(混合)されたリストであってよい。他のタイプの表も使用可能である。
各特徴的単語の得点は、発生頻度の実際比率を示しており、各特徴的単語の得点は、その単語の影響を上げたり下げたり状況に応じて、いくつかの方法において、発見的(ヒューリスティック)に調整され得る。例えば、シングルトン(単独)単語、即ち、コーパス又は引用材料のセットにおいて一回だけしか出現しなかった単語の得点は、特徴付け影響度を割り引くために、例えば、25%、抑制又は削減される。同様に、文字長が4文字以下の単語の得点も、短単語はトピックとしての重要度がやや低い傾向があるので、25%、抑制又は削減される。他の百分位数の削減を使用してもよい。反対に、ラベル又はタイトルに出現する単語は、トピック性が非常に高いので、ラベル又はタイトルの単語は全て特徴的単語として含まれる。ラベル又はタイトルに使われる単語の得点は、これらの単語がコーパスやサンプル材料に出現する回数によって、高くなり、増えていく。最後に、ラベル又はタイトルの単語に隣接して又は近傍に出現する単語、そして、スライディング「ウィンドウ」を画定する固定した単語数内でラベル又はタイトル単語の周辺に出現する「近位」単語の得点も上昇する。近傍及び近位単語を選択している間に正規化された閾値が用いられる。8〜15個の単語のデフォルト閾値が、それぞれ、8個の単語と設定されたウィンドウの大きさに応じて近傍及び近位単語に適用される。他の代表的な閾値及びウィンドウの大きさを使用してもよい。最後に、特徴的単語の得点が正規化される。最高得点を有する特徴的単語は最も特殊な単語であり、この単語の得点は100%に設定される。例えば、図5に示されている例において、得点は値500に正規化されている。他の特徴的単語の得点はこの最高得点に基づいて基準化される。従って、特徴的単語選択が終了すると、インデックスにおける各トピックは、粗粒度トピックモデルを有し、この粗粒度トピックモデルは、それぞれがコーパスから抽出された材料に対して正規化された対応得点を有する特徴的単語に関して表されている。
情報をウェブページにまとめて載せるには多数の方法がある。HTML(ハイパーテキストマークアップ言語)などのページ表示言語は、ウェブページ上のレイアウトのみを記述するが、単語のグループ間の論理的な関係については記述しない。しかも、特定のトピックに関連するアーティクルのウェブページは、アーティクル自体から落とされる相当な量の他の無関係な情報を含むことが多い。例えば、ニュース記事(アーティクル)を有するウェブページは、オフトピック(トピックに無関係)で無関係な、広告、他の話題のハイパーリンク、又は読者コメントを含むこともある。
このような無関係なコンテンツは、情報の「ノイズ」を構築する。図7は、細粒度トピックモデルが誤ってノイズと照合した時のウェブページの画面例を示す図である。ウェブページは、トピックの「“housing crisis”(住宅危機)」に対して生成された様々な細粒度トピックモデルに照合されたコンテンツからのノイズ単語を含む。例えば、ウェブページの左側の「オンザレーダ(On the Radar)」コラムは、「“McCain to Letterman:‘I Screwed Up.’” (マケインからレターマンへ「私はしくじった」)」というタイトルのアーティクルを含む。更に、いくつかの読者コメント(図示しない)が、アーティクルの本論の下に出現し、更に、 “loan”と “mortgage”言葉を含む。例えば、一人の読者コメントは、「”All for only less than 5% of the morgages in this country that have went bad[sic].Sad that they won’t tell America the truth. 95% of American’s are paying their home loans on time,yet,we are about to go into major debt for only 5% of bad loans made to investors who let their loans go,spectators who wanted a quickback,the greedy who wanted more than they could afford and the few who should have never bought in the first place.”(この国では、住宅ローンが返済できなかったのは負債者全体の5%未満のみだったのに、彼らがアメリカに真実を伝えなかったことは悲しい。95%のアメリカ人は、住宅ローンをきちんと期日まで返済している。なのに、ローン返済を放り出した投資家、早急に利益を求めた傍観者、支払能力以上のものをほしがった欲張りな人、又は最初の段階では絶対買わなかった少数の人たちの不良貸付ローンの5%のために、膨大なつけを払うはめになった)」とコメントしている。
この例において、粗粒度トピックモデルは、ソーシャルインデックスシステムに対するトピック訓練インターフェースにおいて「ポジティブ訓練例」又は「これに類似するアーティクル」に対して格付けされた。正規化されたトピック距離得点は、オントピック(トピックに関連している)アーティクルを表す100%から、オフトピック(トピックに無関係な)アーティクルを表す0%までのアーティクルに対して計算された。一般に、10%〜15%未満の得点を有するページは、ノイズページに一致していた。この解析によって、図7で説明されているアーティクルに対する正規化されたトピック距離得点は、5%未満であり、オフトピックであった。
ソーシャルインデックスのための訓練を実行するために例ベースのアプローチを用いた場合において、インデックス管理者は、システムがアーティクルの分類を案内するために使用することができる(この例にもっと類似している)ポジティブ訓練例と(この例に類似していない)ネガティブ訓練例を提供することができる。細粒度トピックモデルは、ポジティブ訓練例とネガティブ訓練例の両方を使って作成される。細粒度トピックモデル毎に、ソーシャルインデックスシステムは、ポジティブ訓練例に照合するパターン及びネガティブ訓練例に照合しないパターンを生成する。反対に、粗粒度トピックモデルは、ポジティブ訓練例だけを用いて作成され得る。粗粒度トピックモデル毎に、ソーシャルインデックスシステムは、訓練の例において発見された特徴的単語の母集団を特徴付ける用語ベクトルを作成する。ネガティブ訓練例を利用する粗粒度トピックモデルが作成されてもよい。例えば、トピック「“Mustang”(ムスタング)」に対するモデルにおいて、ポジティブ訓練例は馬についてのアーティクルを記載し、ネガティブ訓練例は、フォードモーターカンパニーによって販売されている車の型式についてのアーティクルを記載している。
粗粒度トピックモデルが、ネガティブ訓練例からの情報を使用しないこともあって、粗粒度トピックモデルは、細粒度トピックモデルほどは、詳細な細粒度トピックの識別を実行することができない。更に、用語のベクトル表示は、テキストに出現する単語の間で特定な関係を符号化しない。しかし、実践上は、互いにトピックが類似しているトピックは、単語と重み付けの類似したリストを有し得る。図8は、二つの仮想ウェブモデルのインタラクションを例示している。内側の円は、細粒度トピックフィルタに整合するアーティクルを含む。外側の円のアーティクルは、粗粒度トピックモデル下で特徴付けられたポジティブ得点を有している。しかしながら、10%未満の得点は、通常、あるアーティクルが「ノイズ」のオフトピックアーティクルであることを示す。内側の円の外側にある高得点を有するアーティクルは、「ニアミス」として良好な候補であり、これらは、トピックを拡大するためにポジティブ訓練例のセットに追加される良好な候補となり得るアーティクルである。
粗粒度トピックモデルに対する得点は、いくつかの方法で計算され得る。図6を参照して、上述されているように、例えば、増減されるTF−IDFの重み付け法を用いて、各特徴的単語に割り当てられる測度及び得点を割り当てる方法が示されている。他の手法は、トピックモデル内にあるアーティクル内の単語のセットを識別することによって、開始される。素点(実際の得点)は、これらの単語に対するトピックモデルにおける重み付けの合計として定義付けられる。測定されるアーティクルの全てに対して高得点を有するアーティクルが発見される。この高得点は100%に対応するように設定され、その他のアーティクルに対する得点は、この高得点に応じて、正規化される。他の手法を用いることも可能である。
経験的に、粗粒度及び細粒度トピックモデルを組み合わせて用いることによって、片方のモデルだけを用いた場合よりも良好な結果が得られる。細粒度トピックモデルそれだけでは、ノイズ単語に対して過剰反応するため、誤解を与えるノイズによってオフトピックコンテンツを選択しやすい傾向がある。粗粒度トピックモデルは、全体的に、各アーティクルの単語の全セットを考慮に入れるので、ノイズが単語のほんの一部を表している場合でも、基本的にはノイズにあまり反応しない。実践上、正確にオントピックであると見られるアーティクルに対する候補としてのアーティクルを識別するために細粒度トピックモデルを使用すること、ノイズによって誤って分類されるアーティクルを取り除くために粗粒度トピックモデルを使用することが、良好な方法とされる。
これに対して、粗粒度トピックモデルは、それ自体では、鈍いインストルメントである。トピックが互いに近似している時に、細粒度トピックモデル50は、オントピックのアーティクルとオフトピックのアーティクルを適確に識別する。一方、粗粒度トピックモデルの得点は、トピック間で確実に緻密な識別ができる程正確ではなく、オントピックであるアーティクルは、オフトピックであるアーティクルより低い得点を生成し、粗粒度トピックモデルを惑わす。図5を参照して上述したように、同じトピックインデックスは、「“gasoline prices”(ガソリン価格)」の消費者への影響について記載したアーティクル上で訓練された。粗粒度測定法のみを用いて、「郊外における住宅価格の落込み」に関するアーティクルが80%を得点した。「海底油田掘削の問題とガソリン価格との潜在的な関係」に関するアーティクルが約50%得点した。アーティクルの「石油掘削と環境的配慮」に関するアーティクルの得点は25%の範囲だった。細粒度トピックフィルタは、全体的な単語用法のパターンがあまり識別しやすいわけではなかったにもかかわらず、オフトピックだったアーティクルを隠蔽排除する傾向があったネガティブな例によって訓練されてしまった。
細粒度トピックモデルを訓練するチャレンジの一つとして、良好な訓練例を見つけるやり方がある。ソーシャルインデックスがサブジェクトエリアにおいて1ダースのニュースを使用する場合、2週間にわたって数千個のアーティクルが収集され得る。一つの例示的な実施において、システムは全てのインデックスを介して一日に約18000個のアーティクルを引き寄せる。更に、いくつかのブロードインデックスは、現在、一日に何百何千ものアーティクルを引き寄せる。一般に、訓練プロセスは、ユーザがいくつかアーティクルを調べてポジティブ訓練例として使用するためにアーティクルからいくつかを選択したときから開始される。次に、ソーシャルインデックスシステムは、これらのアーティクルに照合するパターンなどの有限状態トピックモデルを捜索する。ネガティブ訓練例によって制約されずに、ソーシャルインデックスは、ポジティブ訓練例におけるアーティクルの全てに照合できる十分に単純なパターンを捜索する。この手法によって表示されるトピックは、範囲が広すぎるという問題があった。
オフトピックであるソーシャルインデックスによって照合されるアーティクルを読んだ後、ユーザはいくつかのネガティブ訓練例を追加する。再び、ソーシャルインデックスシステムは、パターンを生成するが、この場合、パターンがポジティブ例(「この例に類似している」)に照合していて、ネガティブ例(「この例に類似していない」)を照合しないという必要条件を有するパターンを生成する。結果的に、ソーシャルインデックスシステムは殆ど照合をリターンしない。ネガティブ例を用いた更なる訓練にかかわらず、十分又は過剰なアーティクルがソーシャルインデックスによって廃棄された時にはユーザは不明瞭なままである。
また、訓練プロセスは、殆どが極めてオフトピックな数千個のアーティクルが提供された場合、すぐにうんざりするほど退屈になってしまう。「ニアミス」、即ち、トピックに極めて類似しており、トピックの定義を拡張するために良好な候補を作成するアーティクルの識別は、特に助言がなければ、アーティクルの過剰廃棄という点から難しくなる。図9は、候補ニアミスアーティクルを識別するためのトピック距離得点を提示するユーザインターフェースの画面例を示す図である。ユーザインターフェースは、左上欄及び右上欄のそれぞれにおいてポジティブ訓練例及びネガティブ訓練例のセットを提供する。左下欄は、細粒度トピックモデルと照合したアーティクルを提供する。右下欄は、候補「ニアミス」であるアーティクルのリストを示す。これらのアーティクルは、現在の細粒度トピックモデルに照合しないが、にもかかわらず、粗粒度トピックモデルから高いトピック距離得点を得ている。候補「ニアミス」アーティクルは、分類され、最高得点を有するアーティクルがリストのトップに表示される。但し、他のアーティクル編成方法も利用可能である。
候補「ニアミス」アーティクルのリストは、訓練管理者の注目をトピックの幅に集中させる。何千ものアーティクルを手動で検索する必要があるというより寧ろ、訓練管理者は、リストのトップにおけるアーティクルを検査することができる。この例において、図10に示されている「“McCain sees no need for Fannie, Freddie bailout now,(マケインにとってファニィ、フレディへの財政援助は不要)”」のタイトルの記事は、54%の高得点を有している。訓練管理者は、このアーティクルがトピックに含まれるべきであると考えた場合、左上欄のポジティブ訓練例のセットにアーティクルを追加して、細粒度トピックモデルを保持することができる。図11は、再訓練されている図9のユーザインターフェースの画面例を示している。訓練管理者は、新しい細粒度トピックモデルパターンを実際に見ないが、ソーシャルインデックスシステムは、ポジティブ訓練例の全てに照合するが、ネガティブ訓練例のいずれにも照合しない「(freddi{lend practice})」を表現するために基本パターンの一つを改良した。
最良の結果を得るために、訓練管理者は、訓練例として良好な代表的アーティクルを選択する必要がある。訓練管理者がポジティブ訓練例としてノイズアーティクルを選択した場合、ソーシャルインデックスシステムは、トピックの誤った特徴付けを受信し、生成される粗粒度トピックモデルは、特徴的単語の紛らわしい分散を具体化する。逆に、訓練管理者が、ネガティブ訓練例としてノイズアーティクルを選択した場合、ソーシャルインデックスシステムは、トピックのためのアーティクルと照合しない細粒度トピックモデルを生成する。この選択は、ソーシャルインデックスがパターンを生成する時、細粒度トピックモデルの下等訓練に、ネガティブ訓練例におけるノイズと偶然に照合する既存の潜在的に受容可能なパターン周辺で作業させて、これにより、ソーシャルインデックスシステムは他の良好なアーティクルを排除する。
図11に記載されている例において、訓練管理者は、ソーシャルインデックスシステムによって警告もされている悪い実践例であるネガティブ訓練例として低得点アーティクルを使用した。その後、訓練管理者は、低得点ネガティブ訓練例を削除し、その代わりに、ポジティブ訓練例を追加することができる。図12は、更に再訓練された図11のデータに対する相補的デバッギング(誤り除去)ディスプレイを例示しており、低得点のネガティブ訓練例を削除する。図12に示されているディスプレイは、再訓練されている細粒度トピックモデルに対する候補パターンを示している。再訓練の時、ソーシャルインデックスシステムは全てのポジティブ訓練例の全てと照合し、単一パターンの“mortgage”を生成した。次に、訓練管理者は、この一般化されたパターンが、オフトピックのアーティクルも検索したか否かを見るためにポジティブ照合を検査することができる。
訓練後、ソーシャルインデックスは、新しいアーティクルを分類するエバーグリーンプロセスを支持することができる。アーティクルは、ウェブクローラー又はRSS(アールエスエス:RDFサイトサマリー)形式のフィードを用いることによってウェブから収集され得る。細粒度トピックモデルは、正確にオントピックであるアーティクルを識別するために使用され、粗粒度トピックモデルは、ノイズによって誤って分類されたアーティクルを除去するために使用される。図13は、更なる再訓練によって得られたソーシャルインデックスにおいて、生成された有限状態パターンのセットを例示する図であり、トピック「“ housing crisis”」に対して自動的に分類された不良なネガティブ訓練例を除去する。
偽ポジティブ訓練例は、トピックに属しているとして不正確に分類されたアーティクルである。これらのアーティクルがアーティクル中のノイズによって照合されている場合、図9を参照して上述したように、ノイズ検出技術がノイズアーティクルを識別するときに効果的である。表1には、訓練動作の概要が示され、これらの動作は、様々な特徴に応じて識別される訓練ケースに応答して、実行される。アーティクルが不正確に分類された場合でも、トピックに類似している場合がある。候補ネガティブ訓練例の場合、ソーシャルインデックスシステムは、トピック幅の過剰な一般概念を具体化し、訓練管理者は、よりネガティブな訓練例を提供することによって、トピックの定義を敢えて狭くする必要がある。この状況は、実質的には、訓練管理者の動作がトピックの作用域を拡大する二重の「ニアミス」になる。いずれに場合でも、訓練管理者は、トピックの作用域をインタラクティブに調整する必要がある。
Figure 0005421737
以上の技術は、訓練用にマシン学習を用いない手法において使用され得る。例えば、訓練例のソーシャルインデックスに対する異なる手法としては、ユーザに、手動で、トピックの木のトピック毎に照会パターンを指定させることである。この変形例においても、ソーシャルインデックスシステムは、粗粒度トピックモデルを計算することができる。しかしながら、アーティクルのサンプルセットを定義付けるためにポジティブ訓練例に依存する代わりに、ソーシャルインデックスシステムは、トピックに照合するアーティクルのセットを、直接、使用することができる。サンプルは未完成であり、ノイズ単語に照合するアーティクルを含むこともある。パターンがどの程度ユーザの意図に照合するか次第では、パターンは、意図されるトピックからわずかに外れているアーティクルを含むこともあれば、意図されているいくつかのアーティクルを見落とすこともある。サンプルの大部分がうまく照合した場合、パターンは正確なサンプルの近似値として使用され得る。単語分散値が計算され、再訓練のために同一信号が生成され得る。ここで、ユーザは、ポジティブ及びネガティブ訓練例を調整するというより、寧ろ、照会内容を変更し、再び照合を試みる。さらに他の訓練の変形も使用可能である。
粗粒度トピックモデルは、トピックの中心からアーティクルに対する距離の推定値を提供するために使用される。即ち、
(1)ノイズページを識別する
ノイズページは偽ポジティブ照合の種類であり、細粒度トピックモデルはページ上のノイズコンテンツを照合するが、粗粒度トピックモデルは、そのページが殆どオントピックではないとして識別する。従って、細粒度トピックモデルがこのページをオントピックであるとして識別した場合、粗粒度トピックモデルは、このページを、トピックの中核から遠くに離れていること、そして「ノイジー」であると識別する。
(2)ニアミスに対して候補アーティクルを提案する
ニアミスは、偽ネガティブ照合の種類であって、細粒度トピックモデルはページに照合しないが、粗粒度トピックモデルは、アーティクルがトピックに類似していることを提案する。ポジティブ訓練例のセットに候補ニアミスを追加することは、トピックの作用域が拡大すべきであることを示唆している。
(3)候補ネガティブ訓練例を提案
ネガティブ訓練例は、トピックの意図される境界の外側に箇所を輪郭付けるための補助をするアーティクルである。候補ネガティブ訓練例は、細粒度トピックモデルによって照合されたアーティクルとして粗粒度トピックモデルによって得点され、トピック中心距離に近接又はその中間に位置している。ノイズページとは異なり、候補ネガティブ訓練例は、距離においてトピック中心に近接している。候補ネガティブ訓練例をネガティブ訓練例に追加することは、トピックの作用域が縮小すべきであることを示唆している。
本発明は、実施の形態を参照することによって、図示され、具体的に説明されてきたが、本発明の精神及び範囲を逸脱しない限りにおいて、様々な変形又は変更がなされてよいことは、当業者によって容易に理解されよう。
41: 訓練材料
42: インデックスエントリi P1, P2, P3
43: 種語選択
44: 種語
45: 細粒度トピックモデル生成
46: 候補細粒度トピックモデル
47: 細粒度トピックモデル評価
48: エバーグリーンインデックス
49: トピックk
50: 細粒度トピックモデルk

Claims (4)

  1. 電気的に記憶されたソーシャルインデックスの相互構築においてトピックを狭めることを提供するコンピュータにより実施されるシステムであって、
    各々オンラインのテキストの資料及びトピックの階層構造ツリーを備えるアーティクルのコーパスを備える記憶装置と、
    ソーシャルインデックスシステムと、
    を備え、
    前記ソーシャルインデックスシステムは、
    (1)オントピックポジティブ訓練例としての前記コーパスにおける前記アーティクルのセットを、トピックの各々のために、指定し、前記オントピックポジティブ訓練例と一致する有限状態パターンを備える細粒度トピックモデルを見つけると共に前記有限状態パターンは、対応するトピックのための前記オントピックポジティブ訓練例のサブセットと一致するアーティクルを識別する、有限状態モデラーと、
    (2)トピックの中心に対応する各トピックのための粗粒度トピックモデルを生成する特徴的単語モデラーであって、
    前記コーパス内のアーティクルのセットを任意に選択し、任意に選択されたアーティクルの各々内で特徴的単語のセットを識別し、任意に選択されたアーティクルのセット内で識別された前記特徴的単語の各々の出現頻度を決定する任意にサンプリングするモジュールと、
    前記オントピックポジティブ訓練例内の各アーティクル内の前記特徴的単語のセットを識別し、前記オントピックポジティブ訓練例における前記アーティクル内に識別された前記特徴的単語の各々の出現頻度を決定する選択的にサンプリングするモジュールと、
    前記オントピックポジティブ訓練例及び任意に選択されたアーティクルのセット内の各アーティクル内での前記特徴的単語の出現頻度の比として、各特徴的単語に点を割り当てるスコアリングモジュールと、
    を備えた前記特徴的単語モデラーと、
    (3)前記コーパス内に受け取られた受信された新しいアーティクルをフィルタリングするフィルタモジュールであって、
    複数の有限状態パターンを各新しいアーティクルにマッチングするマッチングモジュールと、
    各新しいアーティクル内の特徴的単語のセットを識別し、前記各新しいアーティクル内において識別された特徴的単語の各々の出現頻度を決定する特徴的単語評価器と、
    前記新しいアーティクル及び任意に選択されたアーティクルのセット内における前記特徴的単語の各出現頻度の比として、類似点を各特徴的単語に割り当てる類似点スコアリングモジュールと、
    を備えた前記フィルタモジュールと、
    (4)前記トピックの各々のための新しいアーティクルを配列する表示モジュールであって、
    前記新しいアーティクルを前記トピックのための細粒度トピックモデルの有限状態パターンにマッチングする新しいアーティクルのマッチングモジュールと、
    前記トピックのための細粒度トピックモデルと一致する各新しいアーティクルのために、前記新しいアーティクル内において識別された前記特徴的単語の各々のための類似点を前記トピックのための前記粗粒度トピックモデルにおける対応する特徴的単語の得点と比較する新しいアーティクルの比較モジュールと、
    前記トピックの細粒度トピックモデルに一致するとともにネガティブ訓練例のための候補のアーティクルとして前記トピックの粗粒度のトピックモデルの特徴的単語の得点に近い類似点を有する前記新しいアーティクルの各々を表示するディスプレイと、
    を備えた前記表示モジュールと、
    を含む、前記システム。
  2. 前記オントピックポジティブ訓練例としての前記コーパスにおける前記アーティクルのセットを指定することに代えて、トピックモデルとして前記有限状態パターンに一致する前記コーパス内の前記アーティクルのセットは、任意に選択され、
    前記トピックモデル内の各アーティクルにおける特徴的単語のための用語ベクトルは、前記トピックモデル内での出現頻度を備えて、形成され、
    前記用語ベクトルは、平均化される
    請求項1記載の前記システム。
  3. 電気的に記憶されたソーシャルインデックスの相互構築においてトピックを広げることを提供するコンピュータにより実施されるシステムであって、
    各々オンラインのテキストの資料及びトピックの階層構造ツリーを備えるアーティクルのコーパスを備える記憶装置と、
    ソーシャルインデックスシステムと、
    を備え、
    前記ソーシャルインデックスシステムは、
    (1)オントピックポジティブ訓練例としての前記コーパスにおける前記アーティクルのセットを、トピックの各々のために、指定し、前記オントピックポジティブ訓練例と一致する有限状態パターンを備える細粒度トピックモデルを見つけると共に前記有限状態パターンは、対応するトピックのための前記オントピックポジティブ訓練例のサブセットと一致するアーティクルを識別する、有限状態モデラーと、
    (2)トピックの中心に対応する各トピックのための粗粒度トピックモデルを生成する特徴的単語モデラーであって、
    前記コーパス内のアーティクルのセットを任意に選択し、任意に選択されたアーティクルの各々内で特徴的単語のセットを識別し、任意に選択されたアーティクルのセット内で識別された前記特徴的単語の各々の出現頻度を決定する任意にサンプリングするモジュールと、
    前記オントピックポジティブ訓練例内の各アーティクル内の前記特徴的単語のセットを識別し、前記オントピックポジティブ訓練例における前記アーティクル内に識別された前記特徴的単語の各々の出現頻度を決定する選択的にサンプリングするモジュールと、
    前記オントピックポジティブ訓練例及び任意に選択されたアーティクルのセット内の各アーティクル内での前記特徴的単語の出現頻度の比として、各特徴的単語に点を割り当てるスコアリングモジュールと、
    を備えた前記特徴的単語モデラーと、
    (3)前記コーパス内に受け取られた受信された新しいアーティクルをフィルタリングするフィルタモジュールであって、
    複数の有限状態パターンを各新しいアーティクルにマッチングするマッチングモジュールと、
    各新しいアーティクル内の特徴的単語のセットを識別し、前記各新しいアーティクル内において識別された特徴的単語の各々の出現頻度を決定する特徴的単語評価器と、
    前記新しいアーティクル及び任意に選択されたアーティクルのセット内における前記特徴的単語の各出現頻度の比として、類似点を各特徴的単語に割り当てる類似点スコアリングモジュールと、
    を備えた前記フィルタモジュールと、
    (4)前記トピックの各々のための新しいアーティクルを配列する表示モジュールであって、
    前記新しいアーティクルを前記トピックのための細粒度トピックモデルの有限状態パターンにマッチングする新しいアーティクルのマッチングモジュールと、
    前記トピックのための細粒度トピックモデルと一致する各新しいアーティクルのために、前記新しいアーティクル内において識別された前記特徴的単語の各々のための類似点を前記トピックのための前記粗粒度トピックモデルにおける対応する特徴的単語の得点と比較する新しいアーティクルの比較モジュールと、
    前記トピックの細粒度トピックモデルに一致するとともにネガティブ訓練例のための候補のアーティクルとして前記トピックの粗粒度のトピックモデルの特徴的単語の得点に近い類似点を有する前記新しいアーティクルの各々を表示するディスプレイと、
    を備えた前記表示モジュールと、
    を含む、前記システム。
  4. 電気的に記憶されたソーシャルインデックスの相互構築の際のノイズに対するロバスト性を提供するコンピュータにより実施されるシステムであって、
    各々オンラインのテキストの資料及びトピックの階層構造ツリーを備えるアーティクルのコーパスを備える記憶装置と、
    ソーシャルインデックスシステムと、
    を備え、
    前記ソーシャルインデックスシステムは、
    (1)オントピックポジティブ訓練例としての前記コーパスにおける前記アーティクルのセットを、トピックの各々のために、指定し、前記オントピックポジティブ訓練例と一致する有限状態パターンを備える細粒度トピックモデルを見つけると共に前記有限状態パターンは、対応するトピックのための前記オントピックポジティブ訓練例のサブセットと一致するアーティクルを識別する、有限状態モデラーと、
    (2)トピックの中心に対応する各トピックのための粗粒度トピックモデルを生成する特徴的単語モデラーであって、
    前記コーパス内のアーティクルのセットを任意に選択し、任意に選択されたアーティクルの各々内で特徴的単語のセットを識別し、任意に選択されたアーティクルのセット内で識別された前記特徴的単語の各々の出現頻度を決定する任意にサンプリングするモジュールと、
    前記オントピックポジティブ訓練例内の各アーティクル内の前記特徴的単語のセットを識別し、前記オントピックポジティブ訓練例における前記アーティクル内に識別された前記特徴的単語の各々の出現頻度を決定する選択的にサンプリングするモジュールと、
    前記オントピックポジティブ訓練例及び任意に選択されたアーティクルのセット内の各アーティクル内での前記特徴的単語の出現頻度の比として、各特徴的単語に点を割り当てるスコアリングモジュールと、
    を備えた前記特徴的単語モデラーと、
    (3)前記コーパス内に受け取られた受信された新しいアーティクルをフィルタリングするフィルタモジュールであって、
    複数の有限状態パターンを各新しいアーティクルにマッチングするマッチングモジュールと、
    各新しいアーティクル内の特徴的単語のセットを識別し、前記各新しいアーティクル内において識別された特徴的単語の各々の出現頻度を決定する特徴的単語評価器と、
    前記新しいアーティクル及び任意に選択されたアーティクルのセット内における前記特徴的単語の各出現頻度の比として、類似点を各特徴的単語に割り当てる類似点スコアリングモジュールと、
    を備えた前記フィルタモジュールと、
    (4)前記トピックの各々のための新しいアーティクルを配列する表示モジュールであって、
    前記新しいアーティクルを前記トピックのための細粒度トピックモデルの有限状態パターンにマッチングする新しいアーティクルのマッチングモジュールと、
    前記トピックのための細粒度トピックモデルと一致する各新しいアーティクルのために、前記新しいアーティクル内において識別された前記特徴的単語の各々のための類似点を前記トピックのための前記粗粒度トピックモデルにおける対応する特徴的単語の得点と比較する新しいアーティクルの比較モジュールと、
    前記トピックの細粒度トピックモデルに一致するとともにネガティブ訓練例のための候補のアーティクルとして前記トピックの粗粒度のトピックモデルの特徴的単語の得点に近い類似点を有する前記新しいアーティクルの各々を表示するディスプレイと、
    を備えた前記表示モジュールと、
    を含む、前記システム。
JP2009260896A 2008-11-14 2009-11-16 コンピュータ実施方法 Expired - Fee Related JP5421737B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US11502408P 2008-11-14 2008-11-14
US61/115,024 2008-11-14
US12/608,929 2009-10-29
US12/608,929 US8549016B2 (en) 2008-11-14 2009-10-29 System and method for providing robust topic identification in social indexes

Publications (3)

Publication Number Publication Date
JP2010118064A JP2010118064A (ja) 2010-05-27
JP2010118064A5 JP2010118064A5 (ja) 2010-08-26
JP5421737B2 true JP5421737B2 (ja) 2014-02-19

Family

ID=41818847

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009260896A Expired - Fee Related JP5421737B2 (ja) 2008-11-14 2009-11-16 コンピュータ実施方法

Country Status (3)

Country Link
US (1) US8549016B2 (ja)
EP (1) EP2192500B1 (ja)
JP (1) JP5421737B2 (ja)

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2538438A1 (en) 2006-03-01 2007-09-01 Legalview Assets, Limited Systems and methods for media programming
US8010545B2 (en) * 2008-08-28 2011-08-30 Palo Alto Research Center Incorporated System and method for providing a topic-directed search
US8549016B2 (en) * 2008-11-14 2013-10-01 Palo Alto Research Center Incorporated System and method for providing robust topic identification in social indexes
US8239397B2 (en) * 2009-01-27 2012-08-07 Palo Alto Research Center Incorporated System and method for managing user attention by detecting hot and cold topics in social indexes
US8452781B2 (en) * 2009-01-27 2013-05-28 Palo Alto Research Center Incorporated System and method for using banded topic relevance and time for article prioritization
US8356044B2 (en) * 2009-01-27 2013-01-15 Palo Alto Research Center Incorporated System and method for providing default hierarchical training for social indexing
US9047283B1 (en) * 2010-01-29 2015-06-02 Guangsheng Zhang Automated topic discovery in documents and content categorization
US9031944B2 (en) * 2010-04-30 2015-05-12 Palo Alto Research Center Incorporated System and method for providing multi-core and multi-level topical organization in social indexes
JP5542732B2 (ja) * 2010-10-29 2014-07-09 日本電信電話株式会社 データ抽出装置、データ抽出方法、及びそのプログラム
US8775955B2 (en) * 2010-12-02 2014-07-08 Sap Ag Attraction-based data visualization
US9805022B2 (en) * 2010-12-09 2017-10-31 Apple Inc. Generation of topic-based language models for an app search engine
US10055766B1 (en) * 2011-02-14 2018-08-21 PayAsOne Intellectual Property Utilization LLC Viral marketing object oriented system and method
US20140089239A1 (en) * 2011-05-10 2014-03-27 Nokia Corporation Methods, Apparatuses and Computer Program Products for Providing Topic Model with Wording Preferences
US20120317104A1 (en) * 2011-06-13 2012-12-13 Microsoft Corporation Using Aggregate Location Metadata to Provide a Personalized Service
US20130159254A1 (en) * 2011-12-14 2013-06-20 Yahoo! Inc. System and methods for providing content via the internet
JP5775466B2 (ja) * 2012-01-13 2015-09-09 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 会話から雑談部分を抽出するための雑談抽出システム、方法、およびプログラム
US8826125B2 (en) * 2012-03-12 2014-09-02 Hyperion Media LLC System and method for providing news articles
US10108526B2 (en) * 2012-11-27 2018-10-23 Purdue Research Foundation Bug localization using version history
CN103246728A (zh) * 2013-05-10 2013-08-14 北京大学 一种基于文档词汇特征变化的突发事件检测方法
US10002187B2 (en) 2013-11-26 2018-06-19 Oracle International Corporation Method and system for performing topic creation for social data
US9996529B2 (en) 2013-11-26 2018-06-12 Oracle International Corporation Method and system for generating dynamic themes for social data
JP6257076B2 (ja) * 2013-12-27 2018-01-10 エヌ・ティ・ティ・コムウェア株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
CN103886044A (zh) * 2014-03-11 2014-06-25 百度在线网络技术(北京)有限公司 搜索结果的提供方法和装置
US9720977B2 (en) * 2014-06-10 2017-08-01 International Business Machines Corporation Weighting search criteria based on similarities to an ingested corpus in a question and answer (QA) system
US11263401B2 (en) 2014-07-31 2022-03-01 Oracle International Corporation Method and system for securely storing private data in a semantic analysis system
US11989662B2 (en) * 2014-10-10 2024-05-21 San Diego State University Research Foundation Methods and systems for base map and inference mapping
US20160117386A1 (en) 2014-10-22 2016-04-28 International Business Machines Corporation Discovering terms using statistical corpus analysis
US10884891B2 (en) 2014-12-11 2021-01-05 Micro Focus Llc Interactive detection of system anomalies
US20160239494A1 (en) * 2015-02-12 2016-08-18 Acquire Media Ventures Inc. Determining and maintaining a list of news stories from news feeds most relevant to a topic
IN2015CH01424A (ja) 2015-03-20 2015-04-10 Wipro Ltd
WO2017027003A1 (en) 2015-08-10 2017-02-16 Hewlett Packard Enterprise Development Lp Evaluating system behaviour
US20170140117A1 (en) * 2015-11-18 2017-05-18 Ucb Biopharma Sprl Method and system for generating and displaying topics in raw uncategorized data and for categorizing such data
US9992209B1 (en) * 2016-04-22 2018-06-05 Awake Security, Inc. System and method for characterizing security entities in a computing environment
CN108228648B (zh) 2016-12-21 2022-03-15 伊姆西Ip控股有限责任公司 创建索引的方法和设备
CN106919649B (zh) * 2017-01-19 2020-06-26 北京奇艺世纪科技有限公司 一种词条权重计算的方法及装置
US10419269B2 (en) 2017-02-21 2019-09-17 Entit Software Llc Anomaly detection
CN107169632A (zh) * 2017-04-19 2017-09-15 广东数相智能科技有限公司 全球媒体形象分析方法、装置和系统
CN107247728B (zh) * 2017-05-02 2021-04-27 北京星选科技有限公司 文本处理方法、装置及计算机存储介质
US20200104429A1 (en) * 2018-09-28 2020-04-02 Salesforce.Com, Inc. Automated search result sorting
US10331713B1 (en) 2018-10-03 2019-06-25 Gurbaksh Singh Chahal User activity analysis using word clouds
US11151167B2 (en) 2019-05-10 2021-10-19 Georgetown University Cache optimization via topics in web search engines
US10503792B1 (en) 2019-05-10 2019-12-10 Georgetown University Cache optimization via topics in web search engines
JP6802334B1 (ja) * 2019-08-01 2020-12-16 株式会社大和総研 マッチングシステムおよびプログラム
CN111506785B (zh) * 2020-03-06 2023-07-07 之江实验室 基于社交文本的网络舆情话题识别方法和系统
JP7364512B2 (ja) * 2020-03-25 2023-10-18 株式会社日立製作所 ラベル付与モデル生成装置、及びラベル付与モデル生成方法
JP7192039B1 (ja) 2021-06-14 2022-12-19 株式会社大和総研 マッチングシステムおよびプログラム

Family Cites Families (95)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3803363A (en) * 1972-01-17 1974-04-09 F Lee Apparatus for the modification of the time duration of waveforms
US4109938A (en) * 1975-09-25 1978-08-29 Mitchell Beazley Encyclopedias, Ltd. System for arranging and retrieving information
US4369886A (en) * 1979-10-09 1983-01-25 Ag-Electron, Inc. Reflectance ratio sorting apparatus
US4404676A (en) * 1981-03-30 1983-09-13 Pioneer Electric Corporation Partitioning method and apparatus using data-dependent boundary-marking code words
US5369763A (en) 1989-02-01 1994-11-29 Kansas State University Research Foundation Data storage and retrieval system with improved data base structure
US6978277B2 (en) * 1989-10-26 2005-12-20 Encyclopaedia Britannica, Inc. Multimedia search system
US5241671C1 (en) * 1989-10-26 2002-07-02 Encyclopaedia Britannica Educa Multimedia search system using a plurality of entry path means which indicate interrelatedness of information
FR2666946B1 (fr) * 1990-09-17 1992-12-04 Inst Francais Du Petrole Methode et dispositif pour synchroniser sur un evenement exterieur, l'echantillonnage de signaux de mesure par un ensemble de numerisation du type a sur-echantillonnage.
US5257939A (en) 1992-10-13 1993-11-02 Robinson Don T Cultural knowledge board game
US5724567A (en) 1994-04-25 1998-03-03 Apple Computer, Inc. System for directing relevance-ranked data objects to computer users
JP2809341B2 (ja) 1994-11-18 1998-10-08 松下電器産業株式会社 情報要約方法、情報要約装置、重み付け方法、および文字放送受信装置。
US5671342A (en) 1994-11-30 1997-09-23 Intel Corporation Method and apparatus for displaying information relating to a story and a story indicator in a computer system
US5530852A (en) 1994-12-20 1996-06-25 Sun Microsystems, Inc. Method for extracting profiles and topics from a first file written in a first markup language and generating files in different markup languages containing the profiles and topics for use in accessing data described by the profiles and topics
US6263290B1 (en) * 1995-02-22 2001-07-17 Michael K. Williams Process and machine for signal waveform analysis
US5680511A (en) 1995-06-07 1997-10-21 Dragon Systems, Inc. Systems and methods for word recognition
US5907836A (en) 1995-07-31 1999-05-25 Kabushiki Kaisha Toshiba Information filtering apparatus for selecting predetermined article from plural articles to present selected article to user, and method therefore
US6044083A (en) * 1995-10-20 2000-03-28 Zenith Electronics Corporation Synchronous code division multiple access communication system
US6021403A (en) * 1996-07-19 2000-02-01 Microsoft Corporation Intelligent user assistance facility
US5907677A (en) 1996-08-23 1999-05-25 Ecall Inc. Method for establishing anonymous communication links
EP0848347A1 (en) 1996-12-11 1998-06-17 Sony Corporation Method of extracting features characterising objects
US6285987B1 (en) 1997-01-22 2001-09-04 Engage, Inc. Internet advertising system
US5937422A (en) * 1997-04-15 1999-08-10 The United States Of America As Represented By The National Security Agency Automatically generating a topic description for text and searching and sorting text by topic using the same
US6233575B1 (en) 1997-06-24 2001-05-15 International Business Machines Corporation Multilevel taxonomy based on features derived from training documents classification using fisher values as discrimination values
US6292830B1 (en) * 1997-08-08 2001-09-18 Iterations Llc System for optimizing interaction among agents acting on multiple levels
US6052657A (en) * 1997-09-09 2000-04-18 Dragon Systems, Inc. Text segmentation and identification of topic using language models
US6289342B1 (en) * 1998-01-05 2001-09-11 Nec Research Institute, Inc. Autonomous citation indexing and literature browsing using citation context
US6598045B2 (en) 1998-04-07 2003-07-22 Intel Corporation System and method for piecemeal relevance evaluation
US6310645B1 (en) * 1998-05-27 2001-10-30 Antec Corporation Method and apparatus for measuring characteristics of a communication signal modulated with a composite video signal without synchronizing to the signal
US7275061B1 (en) 2000-04-13 2007-09-25 Indraweb.Com, Inc. Systems and methods for employing an orthogonal corpus for document indexing
US6269361B1 (en) 1999-05-28 2001-07-31 Goto.Com System and method for influencing a position on a search result list generated by a computer network search engine
US6981040B1 (en) 1999-12-28 2005-12-27 Utopy, Inc. Automatic, personalized online information and product services
US6397211B1 (en) 2000-01-03 2002-05-28 International Business Machines Corporation System and method for identifying useless documents
JP3562572B2 (ja) 2000-05-02 2004-09-08 インターナショナル・ビジネス・マシーンズ・コーポレーション データベースのドキュメントにおける新規な事項・新規クラスの検出及び追跡
US7130848B2 (en) * 2000-08-09 2006-10-31 Gary Martin Oosta Methods for document indexing and analysis
US7062485B1 (en) 2000-09-01 2006-06-13 Huaichuan Hubert Jin Method and apparatus for score normalization for information retrieval applications
US7185065B1 (en) 2000-10-11 2007-02-27 Buzzmetrics Ltd System and method for scoring electronic messages
US7200606B2 (en) 2000-11-07 2007-04-03 The Regents Of The University Of California Method and system for selecting documents by measuring document quality
US6772120B1 (en) 2000-11-21 2004-08-03 Hewlett-Packard Development Company, L.P. Computer method and apparatus for segmenting text streams
US7685224B2 (en) 2001-01-11 2010-03-23 Truelocal Inc. Method for providing an attribute bounded network of computers
US20020161838A1 (en) 2001-04-27 2002-10-31 Pickover Cilfford A. Method and apparatus for targeting information
JP2003030221A (ja) * 2001-07-12 2003-01-31 Ricoh Co Ltd 文書分類装置、分類法則更新方法、コンピュータプログラム及び記録媒体
US7092888B1 (en) 2001-10-26 2006-08-15 Verizon Corporate Services Group Inc. Unsupervised training in natural language call routing
US7716161B2 (en) 2002-09-24 2010-05-11 Google, Inc, Methods and apparatus for serving relevant advertisements
US7752072B2 (en) 2002-07-16 2010-07-06 Google Inc. Method and system for providing advertising through content specific nodes over the internet
US20050226511A1 (en) 2002-08-26 2005-10-13 Short Gordon K Apparatus and method for organizing and presenting content
US7320000B2 (en) 2002-12-04 2008-01-15 International Business Machines Corporation Method and apparatus for populating a predefined concept hierarchy or other hierarchical set of classified data items by minimizing system entrophy
US7467202B2 (en) 2003-09-10 2008-12-16 Fidelis Security Systems High-performance network content analysis platform
GB0322600D0 (en) 2003-09-26 2003-10-29 Univ Ulster Thematic retrieval in heterogeneous data repositories
JP2005158010A (ja) 2003-10-31 2005-06-16 Hewlett-Packard Development Co Lp 分類評価装置・方法及びプログラム
EP1687807B1 (en) 2003-11-21 2016-03-16 Nuance Communications, Inc. Topic specific models for text formatting and speech recognition
JP2007512609A (ja) 2003-11-21 2007-05-17 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 文書構造化のためのテキストセグメンテーション及びトピック注釈付け
JP4808160B2 (ja) 2003-11-21 2011-11-02 ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー トピック特異的言語モデルおよびトピック特異的ラベル統計によるユーザー対話を用いたテキストセグメント分割およびラベル付与
US20070244690A1 (en) 2003-11-21 2007-10-18 Koninklijke Philips Electronic, N.V. Clustering of Text for Structuring of Text Documents and Training of Language Models
US7502815B1 (en) * 2004-02-20 2009-03-10 Xilinx, Inc. True random number generator and method of generating true random numbers
US7293019B2 (en) 2004-03-02 2007-11-06 Microsoft Corporation Principles and methods for personalizing newsfeeds via an analysis of information novelty and dynamics
US7426557B2 (en) 2004-05-14 2008-09-16 International Business Machines Corporation System, method, and service for inducing a pattern of communication among various parties
US7281022B2 (en) 2004-05-15 2007-10-09 International Business Machines Corporation System, method, and service for segmenting a topic into chatter and subtopics
JP2005352878A (ja) * 2004-06-11 2005-12-22 Hitachi Ltd 文書検索システム、検索サーバ、及び検索クライアント
US7567959B2 (en) 2004-07-26 2009-07-28 Google Inc. Multiple index based information retrieval system
US7496567B1 (en) 2004-10-01 2009-02-24 Terril John Steichen System and method for document categorization
US20060167930A1 (en) 2004-10-08 2006-07-27 George Witwer Self-organized concept search and data storage method
US7693683B2 (en) * 2004-11-25 2010-04-06 Sharp Kabushiki Kaisha Information classifying device, information classifying method, information classifying program, information classifying system
US7640488B2 (en) * 2004-12-04 2009-12-29 International Business Machines Corporation System, method, and service for using a focused random walk to produce samples on a topic from a collection of hyper-linked pages
US7548917B2 (en) 2005-05-06 2009-06-16 Nelson Information Systems, Inc. Database and index organization for enhanced document retrieval
US20070050356A1 (en) 2005-08-23 2007-03-01 Amadio William J Query construction for semantic topic indexes derived by non-negative matrix factorization
WO2007035912A2 (en) 2005-09-21 2007-03-29 Praxeon, Inc. Document processing
US9069847B2 (en) 2005-10-21 2015-06-30 Battelle Memorial Institute Data visualization methods, data visualization devices, data visualization apparatuses, and articles of manufacture
US20070156622A1 (en) 2006-01-05 2007-07-05 Akkiraju Rama K Method and system to compose software applications by combining planning with semantic reasoning
EP1989639A4 (en) 2006-02-28 2012-05-02 Buzzlogic Inc SOCIAL ANALYSIS SYSTEM AND METHOD FOR ANALYZING CONVERSATIONS ON SOCIAL MULTIMEDIA CONTENT
US8326686B2 (en) 2006-03-30 2012-12-04 Google Inc. Automatically generating ads and ad-serving index
US7890485B2 (en) 2006-04-13 2011-02-15 Tony Malandain Knowledge management tool
US7809723B2 (en) 2006-06-26 2010-10-05 Microsoft Corporation Distributed hierarchical text classification framework
US20080040221A1 (en) 2006-08-08 2008-02-14 Google Inc. Interest Targeting
US20080126319A1 (en) 2006-08-25 2008-05-29 Ohad Lisral Bukai Automated short free-text scoring method and system
US20080065600A1 (en) 2006-09-12 2008-03-13 Harold Batteram Method and apparatus for providing search results from content on a computer network
US20080091510A1 (en) * 2006-10-12 2008-04-17 Joshua Scott Crandall Computer systems and methods for surveying a population
US7921092B2 (en) 2006-12-04 2011-04-05 Yahoo! Inc. Topic-focused search result summaries
US8583419B2 (en) 2007-04-02 2013-11-12 Syed Yasin Latent metonymical analysis and indexing (LMAI)
US8165985B2 (en) * 2007-10-12 2012-04-24 Palo Alto Research Center Incorporated System and method for performing discovery of digital information in a subject area
US8073682B2 (en) * 2007-10-12 2011-12-06 Palo Alto Research Center Incorporated System and method for prospecting digital information
US8234310B2 (en) * 2007-12-20 2012-07-31 Pottenger William M Social networking on a website with topic-based data sharing
US8422787B2 (en) 2007-12-27 2013-04-16 Nec Corporation Apparatus, method and program for text segmentation
US9411886B2 (en) * 2008-03-31 2016-08-09 Yahoo! Inc. Ranking advertisements with pseudo-relevance feedback and translation models
US20100042589A1 (en) 2008-08-15 2010-02-18 Smyros Athena A Systems and methods for topical searching
US20100057536A1 (en) * 2008-08-28 2010-03-04 Palo Alto Research Center Incorporated System And Method For Providing Community-Based Advertising Term Disambiguation
US8010545B2 (en) * 2008-08-28 2011-08-30 Palo Alto Research Center Incorporated System and method for providing a topic-directed search
US20100057577A1 (en) * 2008-08-28 2010-03-04 Palo Alto Research Center Incorporated System And Method For Providing Topic-Guided Broadening Of Advertising Targets In Social Indexing
US8209616B2 (en) * 2008-08-28 2012-06-26 Palo Alto Research Center Incorporated System and method for interfacing a web browser widget with social indexing
US9317599B2 (en) 2008-09-19 2016-04-19 Nokia Technologies Oy Method, apparatus and computer program product for providing relevance indication
US8549016B2 (en) * 2008-11-14 2013-10-01 Palo Alto Research Center Incorporated System and method for providing robust topic identification in social indexes
US8356044B2 (en) * 2009-01-27 2013-01-15 Palo Alto Research Center Incorporated System and method for providing default hierarchical training for social indexing
US8452781B2 (en) * 2009-01-27 2013-05-28 Palo Alto Research Center Incorporated System and method for using banded topic relevance and time for article prioritization
US8239397B2 (en) * 2009-01-27 2012-08-07 Palo Alto Research Center Incorporated System and method for managing user attention by detecting hot and cold topics in social indexes
US20110112995A1 (en) * 2009-10-28 2011-05-12 Industrial Technology Research Institute Systems and methods for organizing collective social intelligence information using an organic object data model
US8554854B2 (en) * 2009-12-11 2013-10-08 Citizennet Inc. Systems and methods for identifying terms relevant to web pages using social network messages

Also Published As

Publication number Publication date
US20100125540A1 (en) 2010-05-20
EP2192500A2 (en) 2010-06-02
JP2010118064A (ja) 2010-05-27
EP2192500A3 (en) 2010-09-29
US8549016B2 (en) 2013-10-01
EP2192500B1 (en) 2016-09-07

Similar Documents

Publication Publication Date Title
JP5421737B2 (ja) コンピュータ実施方法
Savov et al. Identifying breakthrough scientific papers
CN103870973B (zh) 基于电子信息的关键词提取的信息推送、搜索方法及装置
US9514216B2 (en) Automatic classification of segmented portions of web pages
Liu et al. Analyzing changes in hotel customers’ expectations by trip mode
KR101203345B1 (ko) 요약을 이용하여 디스플레이 페이지를 분류하는 방법 및시스템
US8843490B2 (en) Method and system for automatically extracting data from web sites
Ma et al. Exploring performance of clustering methods on document sentiment analysis
JP5350472B2 (ja) トピックに関する複数の製品にランクを付ける製品ランク付け方法及び製品ランク付けシステム
US10354308B2 (en) Distinguishing accessories from products for ranking search results
US8713028B2 (en) Related news articles
US20110225152A1 (en) Constructing a search-result caption
KR101105173B1 (ko) 카테고리화를 통해 호스트 투 게스트 콘텐츠를 자동으로 매칭하기 위한 메커니즘
JP2010055618A (ja) トピックを基にした検索を提供する方法及びシステム
US20130282704A1 (en) Search system with query refinement
US20090210407A1 (en) Method and system for adaptive discovery of content on a network
WO2010081238A1 (en) Method and system for document classification
McCain Eponymy and obliteration by incorporation: The case of the “Nash Equilibrium”
WO2016114790A1 (en) Reading difficulty level based resource recommendation
Fan et al. Assessing topic model relevance: Evaluation and informative priors
Qian et al. Detecting new Chinese words from massive domain texts with word embedding
CN112307336A (zh) 热点资讯挖掘与预览方法、装置、计算机设备及存储介质
Hlava The Taxobook: Applications, implementation, and integration in search: Part 3 of a 3-part series
Feldman The answer machine
EP1910918A2 (en) Method and system for automatically extracting data from web sites

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100712

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20121114

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130426

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130521

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130815

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131029

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131122

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees