JP5421737B2

JP5421737B2 - コンピュータ実施方法

Info

Publication number: JP5421737B2
Application number: JP2009260896A
Authority: JP
Inventors: ジェイ．ステフィクマーク; イー．グッドランス; ミッタルサンジェイ
Original assignee: Palo Alto Research Center Inc
Current assignee: Palo Alto Research Center Inc
Priority date: 2008-11-14
Filing date: 2009-11-16
Publication date: 2014-02-19
Anticipated expiration: 2029-11-16
Also published as: US20100125540A1; EP2192500A2; JP2010118064A; EP2192500A3; US8549016B2; EP2192500B1

Description

本発明は、ディジタル情報編成に係り、より詳細には、ソーシャルインデックスにおいてトピック識別を提供するためのコンピュータ実施方法に関する。

ウェブなどのオープンエンド（無制限）な情報ソースをトピック（題目）によって編成によって、情報の入手や検索が容易になることは、例えば、２００８年８月１２日に出願された係属中の同一出願人による
に記載されており、本明細書中にその全体が参照することによって組み込まれている。書籍は、長い間、トピックインデックス（索引）によって編成されてきた。しかしながら、規格（コーデックス）形式の制約があるため、書籍のサイズやページ数が制限され、従って、インデックスの大きさも制限されていた。一方、ウェブ（Ｗｅｂ）材料は、物理的なバウンド（境界）が不足しており、網羅されている主題の全幅を収容するために、もっと広範囲のトピック編成を必要としている。

トピック編成が欠けていることによって、ウェブなどのオープンエンドな情報のリポジトリ（保存場所）の効果的な検索が困難になる。ユーザが、検索されている主題に対して認識不足であったり、或いは、入手できる情報のエクステント（範囲）を把握していなかったりする場合もある。いくら知識が豊かでも、ユーザが、所望の情報を正しく記述できなかったり、専門用語又は語彙の紛らわしい語尾変化などに辟易したりする場合もある。更に、検索結果だけでは、たとえ、トピック編成されていても、切望していたトピックの掲示板（サインポスト）がまだ十分ではなく、所与のサブジェクトに密接に関連するトピックが、全てのウェブトピックのインデックス全体のほんの一部に過ぎない場合もある。

トピックインデックスを提供するための一つの手法として、
に記載されているように、ソーシャルインデックスを介して構成されるエバーグリーン（常に新しい）インデックスを形成するために、有限状態パターンを使用することが挙げられる。ソーシャルインデックスは、エバーグリーンインデックス内のトピック毎に細粒度トピックモデルを生成するために、ブートストラップ式訓練材料へ教師有りマシン学習を付与する。一旦訓練されると、エバーグリーンインデックスは、予め選択されているサブジェクトエリアのトピックへ新しい情報を自動的に分類するために、インデックス外挿のために使用される。

細粒度ソーシャルインデックスシステムは、アーティクルが「オントピック（ｏｎｔｏｐｉｃ：トピックに関連している）」であることを正確に記述している高解像度のトピックモデルを使用する。しかしながら、このようなモデルを「細粒化」する同様の技術は、モデルを、広告、サイドリンク、注釈、又は、大部分は事後に追加され中核となる記事（アーティクル）から除外されている他のコンテンツとして、ウェブページ上に出現する非応答ノイズ単語に感応させる。さらに、トピックの定義を拡張させるための優良候補であるアーティクルの認識は、細粒度トピックモデルだけを使っても不十分である。細粒度トピックモデルの訓練範囲があまりにも狭義に訓練されたため、細粒度トピックに類似しているが、全く一致していないアーティクルの発見が不可能なときに、問題が発生する。

米国特許出願第１２／１９０５５２号米国特許出願第１２／３５４６８１号

上記の問題を克服するために、本発明は、ソーシャルインデックスにおいてトピックの識別を提供するためのコンピュータ実施方法を提供する。

本発明の一実施態様によれば、電子的に記憶されたアーティクルと一つ以上のインデックスが保持されている。各インデックスは、それぞれがアーティクルの一つ以上に関連するトピックを含む。アーティクルの任意抽出と選択抽出が共に選択される。トピック毎に、任意抽出と選択抽出の各々においてアーティクル内に含まれる特徴的な単語が識別される。任意抽出と選択抽出の各々における特徴的な単語の発生頻度が求められる。任意抽出と選択抽出に含まれる特徴的単語に対する発生頻度の比率が識別される。最後に、トピックに関連するアーティクルに含まれる特徴的単語とこれらの特徴的単語に割り当てられる得点を含む粗粒度トピックモデルが、トピックご毎に、構築される。

本発明を実施するために創出された最良の方法が説明されている、以下の詳細な説明から、本発明が他の実施の形態を容易に適用可能であることを当業者は理解するであろう。お気付きのように、本発明の精神とその範囲を逸脱しない限り、本発明には他のさまざまな実施の形態が適用可能であり、明らかに部分的な変更又は変形が可能である。従って、添付図面及び詳細な説明は、本来、例示することのみを意図しており、本発明を限定するものではないことを理解されたい。

ディジタル情報の意味形成のための環境の一例を示すブロック図である。図１の環境に使用される基本的な構成要素を示す機能ブロック図である。図１のソーシャルインデックスシステムによって作成されたソーシャルインデックスにおいて、生成される有限状態パターンのセットを例示する図である。細粒度トピックモデル生成を示すデータフローチャートである。図１のソーシャルインデックスシステムによって生成された特徴的単語モデルを例示する図である。粗粒度トピックモデル生成を示すデータフローチャートである。細粒度トピックモデルが誤ってノイズと照合した時のウェブページの画面例を示す図である。二つの仮想ウェブモデルのインタラクションを例示する図である。候補「ニアミス」アーティクルを識別するためのトピックとの距離得点を提示するユーザインターフェースの画面例を示す図である。候補「ニアミス」アーティクルであるアーティクルの画面例を示す図である。図９のユーザインターフェースを再訓練した時の画面例を示す図である。更に再訓練された図１１のデータに対する相補的デバッギングディスプレイを例示する図である。更に再訓練して得られたソーシャルインデックスにおいて、生成された有限状態パターンのセットを例示する図である。

用語集

以下の用語は、明細書全体にわたって使用され、特に注釈がなければ、以下に記載の意味をもっている。

コーパス：アーティクル（記事、項目など）、ドキュメント、ウェブページ、電子ブック、又は印刷材料として入手できる他のディジタル情報（など大量の言語データ）の集まり又はセット。

ドキュメント（文書）：コーパス内の個々のアーティクル。ドキュメントは、書籍の章又は節、又は大きな作品の細目を指す。ドキュメントは、異なるトピック上のいくつかの引用ページを含むことがある。

引用ページ：ページ番号などのイデックス（索引）が引用するドキュメント内の位置。引用ページは、単ページ又はページセットであってよい。引用ページにおいて、サブトピックは、索引付けするための細粒度トピックモデルによって拡張され、ページセットは、細粒度トピックモデルに照合する全てのページを含む。各引用ページは、例えば、細粒度トピックモデルによって照合され得る段落などであり、ページ全体よりはるかに小さい。

サブジェクトエリア（主題領域）：ソーシャルインデックスにおけるトピックとサブトピックのセットであり、エバーグリーンインデックスとこれと等価のインデックスを含む。

トピック：ソーシャルインデックス内の単一エントリ。エバーグリーンインデックスにおいて、トピックは、コーパス内のドキュメントに照合するように用いられる細粒度トピックモデル、例えば、パターンを伴う。また、トピックは粗粒度トピックモデルを伴う。

サブトピック：ソーシャルインデックス内のトピック下に階層的に例挙される単一エントリ。エバーグリーンインデックスにおいて、サブトピックは細粒度トピックモデルを伴う。

細粒度トピックモデル：細粒度トピックモデルは、有限状態計算に基づいており、アーティクルが特定のトピックの範囲内に入っているかを判断するために使用される。各保存された細粒度トピックモデルは、有限状態パターンであり、クエリ（照会）に類似している。細粒度トピックモデルは、ポジティブ訓練例及びネガティブ訓練例に照らして、有限状態マシンを訓練することによって作成される。

粗粒度トピックモデル：粗粒度トピックモデルは、特徴的単語に基づいており、どのトピックが照会に整合するかを判断する時に使用される。各保存された粗粒度トピックモデルは、トピックに対して重要な特徴的単語のセットであり、各特徴的単語の重要度を示すスコア（得点）である。この粗粒度トピックモデルは、ポジティブ訓練例、及びインデックス内の全てのトピックに関連しているアーティクルのベースラインのサンプルから生成される。ベースラインのサンプルは、ベースラインの単語の発生頻度、よって、開始点を確立する。ポジティブ訓練例の単語の発生頻度とベースラインのサンプルの単語の発生頻度が比較される。トピックのサブインデックス生成に使用される以外に、粗粒度トピックモデルは、広告指標化、ノイジーアーティクルの検出、ニアミス（極めて類似しているアーティクル）の検出、及び他の目的に使用され得る。

コミュニティ：オンラインの特定のサブジェクトエリアで、関心ある主要トピックを共有し、そのインタラクション（対話）の少なくとも一部に対して、コンピュータネットワークが介在している。サブジェクトエリアの定義付けは広範囲にわたっており、ヨットレース、有機園芸などの趣味的分野から、歯科医又は内科医などの職業的関心、又は、後発性糖尿病のケアなどの医学的関心に及ぶ。

拡張（オーグメント）コミュニティ：サブジェクトエリア上にソーシャルインデックスを有するコミュニティ。拡張コミュニティは、ソーシャルインデックスによって既に引用されているサブジェクトエリア内でドキュメントを読出し又は投票に参加する。

エバーグリーンインデックス：エバーグリーンインデックスは、コーパスに対して「常に現在状態を維持する」ソーシャルインデックスの特定の形態である。実施例としては、ソーシャルインデックスシステムは、コーパスの新しいドキュメントを識別するために、ＲＳＳ（アールエスエス：ＲＤＦ（リソース記述枠組みの略）サイトサマリー）形式のフィード又はクロールウェブサイトをポーリング（調査）する。

ソーシャルインデックスシステム：ソーシャルインデックスを用いたオンライン情報交換。このシステムは、拡張コミュニティ間の情報交換を容易にし、状態インジケータを提供し、関心ドキュメントを一つの拡張コミュニティから他の拡張コミュニティへ渡すことを可能にする。拡張コミュニティの相互接続されたセットは、コミュニティのソーシャルネットワークを形成する。

情報ダイエット（節約）：情報ダイエットは、ユーザが「消費する」即ち「関心サブジェクトを読み出す」情報を特徴付ける。ユーザの情報消費動作において、例えば、ユーザは、選挙関連ニュースに２５％、ローカルニュースに１５％、芸能関連トピックに１０％、健康増進関連トピックの新しい情報に１０％、特定の職業関連に２０％、経済発展に１０％、エコロジーや新しいエネルギ資源の開発に１０％、その時間を費やしている。ソーシャルインデックスシステムが付与されれば、ユーザは、情報ダイエットの主な関心に応じた個別の拡張コミュニティへの参加やモニタリングを行うことができる。

ディジタル情報の意味形成（センスメイキング）と検索は関連しているが、独自に動作する。前者は、ディジタル情報インフラストラクチャによって仲介される意味形成に関し、ディジタル情報インフラストラクチャは、パブリックデータネットワーク、例えば、インターネット、独立型コンピュータシステム、及びディジタル情報のオープンエンド（無制限）リポジトリを含む。後者は、ディジタル情報インフラストラクチャからの情報の検索又は探求に関し、ディジタル情報インフラストラクチャは、ソーシャルインデックスを介して、又は他のインデックスソースによって、トピック編成され得る。図１は、ディジタル情報の意味形成及び情報検索に対する例示的な環境１０を示すブロック図である。ソーシャルインデックスシステム１１とトピック検索システムは、協働して、それぞれ、意味形成と検索を支援し、これらの作業は、同時に、ウェブブラウザで実行されるウィジェットを介して、エンドユーザであるブロガー（ブログを立てる人）や情報希望者などの情報作成者によって、使用され得る。

一般に、ディジタル情報は、ディジタル形式で使用可能な情報のコーパスである。情報のエクステント（成長）はオープンエンド（無制限）であり、これは、コーパスとそのトピックの範囲が、連続的に、そして、大きさやサブジェクトが固定的制限を受けることなく、成長を続けることを示唆している。インターネットなどのディジタルデータ通信ネットワーク１６は、ディジタル情報の供給（配信）、交換、及び消費のためのインフラストラクチャを提供する。また、例えば、ノンパブリックな法人企業ネットワークなどの他のネットワークインフラストラクチャも利用可能である。ネットワーク１６は、多様に分散した情報源や消費者へ相互接続性を提供する。例えば、上述したように、それぞれが、アーティクルや他のコンテンツを含むコーパスに投票し、及び／又は、コーパスへアクセスする利害関係のある４つの集団や組織間において相互接続性を提供する。ブロガー、作者、編集者、共同制作者、及び外部後援者などが連続してブログエントリ、アーティクル、ウェブページなどをネットワーク１６に公開（ｐｏｓｔ）し、これらが、ウェブサーバ１４ａ、ニュースアグリゲータ（集積）サーバ１４ｂ、投票によるニュースサーバ１４ｃ、及び他の情報ソースを介して、分散データコーパスとして維持される。これらのソースは、それぞれ、ユーザへ、ウェブコンテンツ１５ａ、ニュースコンテンツ１５ｂ、コミュニティ投票による又は「吟味された（ｖｅｔｔｅｄ）」コンテンツ１５ｃを供給する。ユーザは、パソコン等のユーザデバイス１３ａ〜ｃを介して、ネットワーク１６のみならず、他のサーバにアクセスする。明確にするために、ここでは、ユーザデバイスのみを取り上げているが、サーバ及び他の非利用者（ノンユーザ）デバイス情報消費者も、同様に、コーパスに集成された情報を探索、検索、及び利用することができる。

一般に、各ユーザデバイス１３ａ〜ｃは、サーバ１４ａ〜ｃに対しての、インターフェース、情報交換、及び情報検索を支援するウェブブラウザ又は同等のアプリケーションを実行する、ウェブ（Ｗｅｂ）イネーブルドデバイスである。ユーザデバイス１３ａ〜ｃとサーバ１４ａ〜ｃは共に、中央処理装置、メモリ、入力／出力ポート、ネットワークインターフェース、非揮発性記憶装置などの汎用のプログラマブル計算装置において従来の技術において公知の構成要素を含む。他の構成要素を使用してもよい。更に、サーバ１４ａ〜ｃに代えて又はこれに加えて、他の情報ソースが利用可能であり、ユーザデバイス１３ａ〜ｃに代えて又はこれに加えて、他の情報消費者も利用可能である。

ディジタル意味形成は、ソーシャルインデックスシステム１１によって容易に行われる。ソーシャルインデックスシステム１１は、ネットワーク１６を介して、情報ソースと情報消費者に相互接続されている。ソーシャルインデックスシステム１１は、拡張コミュニティの主要エリア内における、ディジタル情報の自動発見及びトピックへの自動分類を容易にする。

ユーザの観点からすると、ディジタル情報検索のための環境１０は、単一情報ポータル（入り口）として現れるが、実際には、分離しながらも統合されているサービスのセットである。図２は、図１の環境１０に使用される基本的な構成要素２０を示す機能ブロック図である。構成要素は、ディジタル情報の分類及び編成に集中的に用いられる。発見、予測、方向付け等の他の関連ディジタル情報動作を提供するために更なる構成要素が必要とされ得る。

構成要素２０は、情報収集部２１、ソーシャルインデックス２２、及びユーザサービス２８ａの三つの基本機能モジュールへ大きく分類され得る。他の機能モジュールも使用可能である。更に、機能モジュールは、一体化した又は個別の計算プラットフォームにおいて実施され得る。情報収集部２１は、電子的に記憶された情報の分散型コーパスを集成するオープンエンド（無制限な）情報ソースから「着信」コンテンツ２７を得る。着信コンテンツ２７は、コーパスから新しいディジタル情報を収穫するために記憶媒体収集装置によって収集される。一般に、着信コンテンツ２７は、リポジトリに記憶され、又は、実際の写しを維持する代わりに、着信コンテンツのハイパーリンク又は引用を保存することによって、間接的に記憶される。

着信コンテンツ２７は、収集予定に基づいて新しいディジタル情報として収集される。新しいディジタル情報は、必要に応じて、又は、いくらかの他の収集基準に基づいて、収集されてもよい。着信コンテンツ２７は、リポジトリ又はデータベース（図示しない）に記憶されてもよいし、又は、実際の写しの代わりに、着信コンテンツ２７のハイパーリンク又は引用を保存することによって、間接的に記憶されてもよい。更に、着信コンテンツ２７は、ディジタル情報が記憶されていた元の表現形式とは異なっている、複数の表現を含むことができる。異なる表現形式は、タイトルの表示、アーティクル要旨の提示、トピック分類の追跡、及び、
に開示されている「細粒度トピックモデル、又は、例えば、本明細書中にその全体が参照することによって組み込まれている、２００９年１月１５日に出願された係属中の同一出願人によるに開示されている粗粒度トピックモデルの推論及び使用を容易にするために使用され得る。アーティクルにおける単語は、ステムされ（単語から変化する語尾を除いて語形変化の基礎になる部分だけ残して語幹化され）、トークン形式、マイナス句読点使用、大文字使用などによって保存され得る。ソーシャルインデックスシステム１１によって作成される細粒度トピックモデルは、着信コンテンツ２７のきわめて抽象的なバージョンを表しており、このバージョンでは、単語の大部分が廃棄され、単語の発生頻度を中心に保持されている。

好ましくは、着信コンテンツ２７は、コーパス内の情報の全て又は殆どを網羅する分散型トピックインデックス２８の大きなセットの一部として、少なくとも一つのトピック又は「エバーグリーン（いつでも新しい）」ソーシャルインデックスの元、ソーシャルインデックスを介して編成される。一つの実施の形態において、各エバーグリーンインデックスは、
に開示されているような、ソーシャルインデックスシステム２２の中核を形成する有限状態モデラー２３を介して構築される。エバーグリーンインデックスは、新しい着信コンテンツ２７がインデックストピックスの一つ以上に含まれるか否かを判断するために使用され、有限状態パターンなどの細粒度トピックモデル２５を含む。各エバーグリーンインデックスは、オントピック（トピックに関連している）、そして、関心が類似しているユーザの拡張ソーシャルコミュニティに属している。ソーシャルインデックスシステムは、各トピック及びサブトピックに対して細粒度トピックモデルを作成するために、ブートストラップ訓練材料に教師有りマシン学習を適用する。一旦訓練されると、インデックス外挿のためにエバーグリーンインデックスが使用されて、予め選択されているサブジェクトエリアのトピック下に、新しい情報を自動的に分類する。これにより、コーパス用のインデックスが常に最新とされる。

細粒度トピックモデル２５は、特徴的単語のトピックモデル（それぞれがトピックインデックスのトピック毎にソーシャルインデックスシステム２２の特徴的単語のモデラー２４によって作成され得る）としても知られている粗粒度トピックモデル２６によって相補される。粗粒度トピックモデル２６は、最初に、図３を参照しながら、以下に説明されるように、トピックの中心からのアーティクルに対するトピック距離の推定値を出すために使用される。

最後に、ユーザサービス２８ａは、分散インデックス２８と着信コンテンツ２７にアクセスするために、ユーザ３０ａ〜ｂへフロントエンドを提供する。更に他の実施の形態において、各トピックインデックスは、主要サブジェクトエリアにおいて継続的に関心をもつ「拡張（オーグメント)」コミュニティとして知られているユーザのコミュニティにつながっている。コミュニティは、情報が割り当てられるトピックにおいて、「投票すること」（２９）によって、引用された情報を「吟味」する。

ソーシャルインデックスとの関連においてトピックモデルは、トピックを特徴付ける計算モデルである。トピックの識別は、細粒度トピックモデルと粗粒度トピックモデルを組み合わせることによって、弾力性とロバスト性（信頼性）が強化される。

細粒度トピックモデル２５は、有限状態パターンとして表現され、
に記載されているような、例えば、検索クエリ（照会）において使用され得る。しばしば、これらのパターンは、数個の単語しか含まないが、特定の潜在的に複雑な関係を表している。例えば、パタ−ン “［（ｍｏｒｔｇａｇｅｈｏｕｓｉｎｇ）ｃｒｉｓｉｓ｛ｉｍｐｒｏｐｅｒｌｏａｎｓ｝］”（住宅ローン危機（不正貸付））は、トピックモデル表現であり、単語「“ｃｒｉｓｉｓ”」、単語「“ｍｏｒｔｇａｇｅ”」又は単語「“ｈｏｕｓｉｎｇ”」のいずれか、及び、２単語セットｎグラム、即ち、隣接単語「“ｉｍｐｒｏｐｅｒｌｏａｎｓ”」を含むアーティクルを識別するために使用され得る。

有限状態トピックモデルは、細粒トピックを示すために使用される。有限状態モデルは、ブール（Ｂｏｏｌｅｎ）照合演算によって使用され、この演算において、テキストは、指定されるパターンと照合されたり、照合されなかったりする。図３は、図１のソーシャルインデックスシステム１１によって作成されたソーシャルインデックスにおいて、生成される有限状態パターンのセットを例示する図である。ソーシャルインデックスは、「“ＰｒｅｓｉｄｅｎｔｉａｌＥｌｅｃｔｉｏｎ”（大統領選）」と呼ばれる。この例のトピックは、「”ｐｏｌｉｃｙｉｓｓｕｅｓ／ｅｃｏｎｏｍｙ／ｈｏｕｓｉｎｇｃｒｉｓｉｓ”（政治問題／経済／住宅危機）」である。例をベースにした訓練プログラムを用いて何千ものパターン又はトピックモデルが生成されている。単語は、語幹（ステム単語） “ｈｏｕｓ”が、“ｈｏｕｓｅ”、“ｈｏｕｓｅｓ”、及び“ｈｏｕｓｉｎｇ”と照合するように、語幹化される。同様に、語幹“ｍｏｒｔｇａｇ”は、“ｍｏｒｔｇａｇｅ”、“ｍｏｒｔｇａｇｅｓ”、及び“ｍｏｒｔｇａｇｉｎｇ”の照合を得る。トップパターンは、 “（ｍｏｒｔｇａｇｅ｛ｈｏｕｓｃｒｉｓｉｓ｝）”であり、用語“ｍｏｒｔｇａｇｅ”又は、ｎグラムの“ｈｏｕｓｃｒｉｓｉｓ”のいずれかを含むアーティクルに整合するトピックモデルである。このような有限トピックモデルのセットがエバーグリーンインデックス内のトピックに対応付けられてよい。

トピックモデルは、教師有りマシン学習を介して生成され、エバーグリーンインデックスを外挿するために適用され得る。図４は、細粒度トピックモデル生成４０を示すデータフローチャートである。要するに、エバーグリーンインデックス４８は、トピック又はサブトピック４９を有限状態トピックモデルの形態の細粒度トピックモデル５０と組み合わせることによって、形成される。エバーグリーンインデックス４８は、訓練インデックス４１から訓練がスタートされる。訓練インデックス４１は、書籍用の従来の索引又はウェブページのハイパーリンク、又は既存のエバーグリーンインデックスインデックスであってよい。訓練インデックスに他のソースを使用してもよい。

イデックスエントリ４２毎に、訓練インデックス４１のトピック及びサブトピックのセットから種語（シードワード）４４が選択される（動作４３）。種語４４から、候補細粒度トピックモデル４６のパターンが生成される（動作４５）。細粒度トピックモデルは、パターン、用語ベクトル、又はテスト可能な表現の任意の他の形態として識別され得る。細粒度トピックモデルは、従来のインデックスに見られるような直接的なページ引用を、着信コンテンツ２７として受信されたテキストがオントピック（トピックに関連してる）かどうかをテストするために使用され得る表現に、変換する。

最後に、候補細粒度トピックモデル４６が、ポジティブ訓練セット５１及びネガティブ訓練セット５２に対して評価される（動作４７）。一般に、候補細粒度トピックモデル４６は、複雑度が高くて確率の低い順に発生するので、通常は、最良候補の細粒度トピックモデル４６は最初に生成される。構造的複雑性を考慮に入れることは、訓練データが疎である時は特に、マシン学習における不要な適合を回避するために有用である。

エバーグリーンインデックスを使った着信コンテンツ２７の自動分類は、連続的なプロセスである。これは、インデックスが常に最新であり、いつでも「新鮮」である所以である。エバーグリーンインデックス４８におけるトピックモデル５０は、最新の関連のあるコンテンツを、インデックス外挿を介してトピック４９別に自動分類されることを可能にする。更に、従来のインデックスとは異なり、エバーグリーンインデックス４８は、引用の代わりに、細粒度トピックモデル５０を含み、これにより、エバーグリーンインデックス４８は、特定のコンテンツとは非結合も任意のコンテンツに対して常に適用可能なダイナミック構造として機能することが可能になる。ドキュメント又はディジタル情報の新しいページ、アーティクル、その他の形式は、ウェブクローラー（ウェブページ巡回プログラム）等を介して自動的に、又は、拡張コミュニティその他によって手動的に、識別される。着信ドキュメントのページは、エバーグリーンインデックス４８の細粒度トピックモデル５０に照合され、これらのページに含まれている最適トピック又はサブトピック４９を決定する。しかしながら、細粒度トピックモデル５０にも限界がある。ドキュメントが必ずしも正確に細粒度トピックモデル５０に照合されるわけではない。また、ドキュメント内の情報は誤って照合される情報もあれば、全く照合されない情報もあるが、それでも、新しいトピック又はサブトピック４９として、エバーグリーンインデックス４８に追加する価値がある。

粗粒度又は特徴的単語のトピックモデル２６は、単語と重みの配列として表示される統計的単語母集団プロファイルである。配列に代えて、他のデータストラクチャが使用されてもよい。ソーシャルインデックスにおいて、各単語に一般的に割り当てられる重みは、発生頻度の比率であり、例えば、数値的に高いか又はなんらかの理由であまり重視されなかった単語の（発生頻度）-（逆発生頻度）（ＴＦ−ＩＤＦ）の重み付けの比率である。図５は、図１のソーシャルインデックスシステム１１によって作成された特徴的単語モデルを例示している。単語“ｄｏｄｄ”は、５００で重み付けされ、上記に記載したように語尾が除外されて語幹化された単語“ｍｏｒｔｇａｇｅ”は、４０５で重み付けされ、“ｈｏｕｓ”、“ｂｕｙｅｒ”、“ｃｒｉｓｉ”、“ｐｒｉｃｅ”、“ｌｏａｎ ”、“ｒｅｓｃｕｅ”、“ｉｎｆｌａｔ”、“ｅｓｔａｔ”、“ｍａｒｋｅｔ”及び“ｒｅｓｃｕｅ”を含む他の単語についても同様に重み付けされている。関連するトピックは特徴的単語関連のセットを有している。例えば、トピック “ｂａｎｋｒｕｐｔｃｈｙ”に対する特徴的単語は、トピック“ｈｏｕｓｉｎｇｃｒｉｓｉｓ”に対して識別された特徴的単語に強力にオーバーラップする。

各粗粒度トピックモデルは、特徴的単語と、各特徴的単語の相対的な重要度を示す得点を含む。特徴的単語モデルは何百あるいは何千もの単語に関連するウェイト（重み付け）を含むことができる。図６は、粗粒度トピックモデル生成６０を示すデータフローチャートである。特徴的単語は、細粒度トピックモデルがページ上のノイズコンテンツと照合する「偽ポジティブ」照合、又は、細粒度トピックモデルがページと照合しない「偽ネガティブ」照合を生成することなく、トピックについてのテキストを識別するときに有用である。一般に、特徴的単語は、コーパス内のアーティクルから選択される単語であり、コーパスは、ウェブページ、電子ブック、又は、印刷材料として使用可能な他のディジタル情報を含む。

最初に、アーティクルのセットは、コーパスから任意に選択される（ステップ６１）。特徴的単語のベースラインは、アーティクルの任意のセットから抽出され、ベースラインに基づいて各特徴的単語の発生頻度が求められる（ステップ６２）。待ち時間を短縮するために、ベースラインにおける各特徴的単語の発生頻度を予め計算することができる。一つの実施の形態において、インデックス内のトピック下に出現するアーティクルの数は、例えば、一時間置きにモニタすることもできる。周期的に、アーティクルの数が、所定量、例えば、１０％、変化した場合、発生頻度はもう一度計算される。アーティクルの選択抽出は、一般にポジティブ訓練例のセットであるコーパスから選択されて行われる（ステップ６３）。なお、アーティクルの選択抽出は、ポジティブ又はネガティブ訓練例の特定の範疇（カテゴリ）に含まれているという点において、任意抽出とは異なる。一つの実施の形態において、ポジティブ訓練例は、上述したように、細粒度トピックモデルを構築する時の教師有り学習中に使用される同一のアーティクルのセットである。更なる実施の形態において、細粒度トピックモデルに整合するアーティクルの抽出を、ポジティブ訓練例の代わりに使用することもできる。特徴的単語は、アーティクルの選択抽出から抜粋され、アーティクルの選択抽出における各特徴的単語の発生頻度が求められる（ステップ６４）。測度又は得点は、アーティクルの選択抽出における各特徴的単語の発生頻度とベースラインにおける各特徴的単語の発生頻度の比率を識別する、例えば、（用語の発生頻度）-（逆発生頻度）（ＴＦ−ＩＤＦ）重み付け法を用いて、各特徴的単語に割り当てられる（ステップ６５）。各特徴的単語の得点は、トピックに対する特徴的単語の重要度を改良、即ち、増大させるために、又は、重要度を低下させるように、即ち、重要視しないように、調整され得る（ステップ６６）。最後に、特徴的単語とそれらの得点の表が、照会（クエリ）プロセス段階において使用するために作成される（ステップ６７）。また、表は、特徴的単語とそれらの得点が分類され、又はハッシュ（混合）されたリストであってよい。他のタイプの表も使用可能である。

各特徴的単語の得点は、発生頻度の実際比率を示しており、各特徴的単語の得点は、その単語の影響を上げたり下げたり状況に応じて、いくつかの方法において、発見的（ヒューリスティック）に調整され得る。例えば、シングルトン（単独）単語、即ち、コーパス又は引用材料のセットにおいて一回だけしか出現しなかった単語の得点は、特徴付け影響度を割り引くために、例えば、２５％、抑制又は削減される。同様に、文字長が４文字以下の単語の得点も、短単語はトピックとしての重要度がやや低い傾向があるので、２５％、抑制又は削減される。他の百分位数の削減を使用してもよい。反対に、ラベル又はタイトルに出現する単語は、トピック性が非常に高いので、ラベル又はタイトルの単語は全て特徴的単語として含まれる。ラベル又はタイトルに使われる単語の得点は、これらの単語がコーパスやサンプル材料に出現する回数によって、高くなり、増えていく。最後に、ラベル又はタイトルの単語に隣接して又は近傍に出現する単語、そして、スライディング「ウィンドウ」を画定する固定した単語数内でラベル又はタイトル単語の周辺に出現する「近位」単語の得点も上昇する。近傍及び近位単語を選択している間に正規化された閾値が用いられる。８〜１５個の単語のデフォルト閾値が、それぞれ、８個の単語と設定されたウィンドウの大きさに応じて近傍及び近位単語に適用される。他の代表的な閾値及びウィンドウの大きさを使用してもよい。最後に、特徴的単語の得点が正規化される。最高得点を有する特徴的単語は最も特殊な単語であり、この単語の得点は１００％に設定される。例えば、図５に示されている例において、得点は値５００に正規化されている。他の特徴的単語の得点はこの最高得点に基づいて基準化される。従って、特徴的単語選択が終了すると、インデックスにおける各トピックは、粗粒度トピックモデルを有し、この粗粒度トピックモデルは、それぞれがコーパスから抽出された材料に対して正規化された対応得点を有する特徴的単語に関して表されている。

情報をウェブページにまとめて載せるには多数の方法がある。ＨＴＭＬ（ハイパーテキストマークアップ言語）などのページ表示言語は、ウェブページ上のレイアウトのみを記述するが、単語のグループ間の論理的な関係については記述しない。しかも、特定のトピックに関連するアーティクルのウェブページは、アーティクル自体から落とされる相当な量の他の無関係な情報を含むことが多い。例えば、ニュース記事（アーティクル）を有するウェブページは、オフトピック（トピックに無関係）で無関係な、広告、他の話題のハイパーリンク、又は読者コメントを含むこともある。

このような無関係なコンテンツは、情報の「ノイズ」を構築する。図７は、細粒度トピックモデルが誤ってノイズと照合した時のウェブページの画面例を示す図である。ウェブページは、トピックの「“ｈｏｕｓｉｎｇｃｒｉｓｉｓ”（住宅危機）」に対して生成された様々な細粒度トピックモデルに照合されたコンテンツからのノイズ単語を含む。例えば、ウェブページの左側の「オンザレーダ（ＯｎｔｈｅＲａｄａｒ）」コラムは、「“ＭｃＣａｉｎｔｏＬｅｔｔｅｒｍａｎ：‘ＩＳｃｒｅｗｅｄＵｐ．’” （マケインからレターマンへ「私はしくじった」）」というタイトルのアーティクルを含む。更に、いくつかの読者コメント（図示しない）が、アーティクルの本論の下に出現し、更に、 “ｌｏａｎ”と “ｍｏｒｔｇａｇｅ”言葉を含む。例えば、一人の読者コメントは、「”Ａｌｌｆｏｒｏｎｌｙｌｅｓｓｔｈａｎ５％ｏｆｔｈｅｍｏｒｇａｇｅｓｉｎｔｈｉｓｃｏｕｎｔｒｙｔｈａｔｈａｖｅｗｅｎｔｂａｄ［ｓｉｃ］．Ｓａｄｔｈａｔｔｈｅｙｗｏｎ’ｔｔｅｌｌＡｍｅｒｉｃａｔｈｅｔｒｕｔｈ．９５％ｏｆＡｍｅｒｉｃａｎ’ｓａｒｅｐａｙｉｎｇｔｈｅｉｒｈｏｍｅｌｏａｎｓｏｎｔｉｍｅ，ｙｅｔ，ｗｅａｒｅａｂｏｕｔｔｏｇｏｉｎｔｏｍａｊｏｒｄｅｂｔｆｏｒｏｎｌｙ５％ｏｆｂａｄｌｏａｎｓｍａｄｅｔｏｉｎｖｅｓｔｏｒｓｗｈｏｌｅｔｔｈｅｉｒｌｏａｎｓｇｏ，ｓｐｅｃｔａｔｏｒｓｗｈｏｗａｎｔｅｄａｑｕｉｃｋｂａｃｋ，ｔｈｅｇｒｅｅｄｙｗｈｏｗａｎｔｅｄｍｏｒｅｔｈａｎｔｈｅｙｃｏｕｌｄａｆｆｏｒｄａｎｄｔｈｅｆｅｗｗｈｏｓｈｏｕｌｄｈａｖｅｎｅｖｅｒｂｏｕｇｈｔｉｎｔｈｅｆｉｒｓｔｐｌａｃｅ．”（この国では、住宅ローンが返済できなかったのは負債者全体の５％未満のみだったのに、彼らがアメリカに真実を伝えなかったことは悲しい。９５％のアメリカ人は、住宅ローンをきちんと期日まで返済している。なのに、ローン返済を放り出した投資家、早急に利益を求めた傍観者、支払能力以上のものをほしがった欲張りな人、又は最初の段階では絶対買わなかった少数の人たちの不良貸付ローンの５％のために、膨大なつけを払うはめになった）」とコメントしている。

この例において、粗粒度トピックモデルは、ソーシャルインデックスシステムに対するトピック訓練インターフェースにおいて「ポジティブ訓練例」又は「これに類似するアーティクル」に対して格付けされた。正規化されたトピック距離得点は、オントピック（トピックに関連している）アーティクルを表す１００％から、オフトピック（トピックに無関係な）アーティクルを表す０％までのアーティクルに対して計算された。一般に、１０％〜１５％未満の得点を有するページは、ノイズページに一致していた。この解析によって、図７で説明されているアーティクルに対する正規化されたトピック距離得点は、５％未満であり、オフトピックであった。

ソーシャルインデックスのための訓練を実行するために例ベースのアプローチを用いた場合において、インデックス管理者は、システムがアーティクルの分類を案内するために使用することができる（この例にもっと類似している）ポジティブ訓練例と（この例に類似していない）ネガティブ訓練例を提供することができる。細粒度トピックモデルは、ポジティブ訓練例とネガティブ訓練例の両方を使って作成される。細粒度トピックモデル毎に、ソーシャルインデックスシステムは、ポジティブ訓練例に照合するパターン及びネガティブ訓練例に照合しないパターンを生成する。反対に、粗粒度トピックモデルは、ポジティブ訓練例だけを用いて作成され得る。粗粒度トピックモデル毎に、ソーシャルインデックスシステムは、訓練の例において発見された特徴的単語の母集団を特徴付ける用語ベクトルを作成する。ネガティブ訓練例を利用する粗粒度トピックモデルが作成されてもよい。例えば、トピック「“Ｍｕｓｔａｎｇ”（ムスタング）」に対するモデルにおいて、ポジティブ訓練例は馬についてのアーティクルを記載し、ネガティブ訓練例は、フォードモーターカンパニーによって販売されている車の型式についてのアーティクルを記載している。

粗粒度トピックモデルが、ネガティブ訓練例からの情報を使用しないこともあって、粗粒度トピックモデルは、細粒度トピックモデルほどは、詳細な細粒度トピックの識別を実行することができない。更に、用語のベクトル表示は、テキストに出現する単語の間で特定な関係を符号化しない。しかし、実践上は、互いにトピックが類似しているトピックは、単語と重み付けの類似したリストを有し得る。図８は、二つの仮想ウェブモデルのインタラクションを例示している。内側の円は、細粒度トピックフィルタに整合するアーティクルを含む。外側の円のアーティクルは、粗粒度トピックモデル下で特徴付けられたポジティブ得点を有している。しかしながら、１０％未満の得点は、通常、あるアーティクルが「ノイズ」のオフトピックアーティクルであることを示す。内側の円の外側にある高得点を有するアーティクルは、「ニアミス」として良好な候補であり、これらは、トピックを拡大するためにポジティブ訓練例のセットに追加される良好な候補となり得るアーティクルである。

粗粒度トピックモデルに対する得点は、いくつかの方法で計算され得る。図６を参照して、上述されているように、例えば、増減されるＴＦ−ＩＤＦの重み付け法を用いて、各特徴的単語に割り当てられる測度及び得点を割り当てる方法が示されている。他の手法は、トピックモデル内にあるアーティクル内の単語のセットを識別することによって、開始される。素点（実際の得点）は、これらの単語に対するトピックモデルにおける重み付けの合計として定義付けられる。測定されるアーティクルの全てに対して高得点を有するアーティクルが発見される。この高得点は１００％に対応するように設定され、その他のアーティクルに対する得点は、この高得点に応じて、正規化される。他の手法を用いることも可能である。

経験的に、粗粒度及び細粒度トピックモデルを組み合わせて用いることによって、片方のモデルだけを用いた場合よりも良好な結果が得られる。細粒度トピックモデルそれだけでは、ノイズ単語に対して過剰反応するため、誤解を与えるノイズによってオフトピックコンテンツを選択しやすい傾向がある。粗粒度トピックモデルは、全体的に、各アーティクルの単語の全セットを考慮に入れるので、ノイズが単語のほんの一部を表している場合でも、基本的にはノイズにあまり反応しない。実践上、正確にオントピックであると見られるアーティクルに対する候補としてのアーティクルを識別するために細粒度トピックモデルを使用すること、ノイズによって誤って分類されるアーティクルを取り除くために粗粒度トピックモデルを使用することが、良好な方法とされる。

これに対して、粗粒度トピックモデルは、それ自体では、鈍いインストルメントである。トピックが互いに近似している時に、細粒度トピックモデル５０は、オントピックのアーティクルとオフトピックのアーティクルを適確に識別する。一方、粗粒度トピックモデルの得点は、トピック間で確実に緻密な識別ができる程正確ではなく、オントピックであるアーティクルは、オフトピックであるアーティクルより低い得点を生成し、粗粒度トピックモデルを惑わす。図５を参照して上述したように、同じトピックインデックスは、「“ｇａｓｏｌｉｎｅｐｒｉｃｅｓ”（ガソリン価格）」の消費者への影響について記載したアーティクル上で訓練された。粗粒度測定法のみを用いて、「郊外における住宅価格の落込み」に関するアーティクルが８０％を得点した。「海底油田掘削の問題とガソリン価格との潜在的な関係」に関するアーティクルが約５０％得点した。アーティクルの「石油掘削と環境的配慮」に関するアーティクルの得点は２５％の範囲だった。細粒度トピックフィルタは、全体的な単語用法のパターンがあまり識別しやすいわけではなかったにもかかわらず、オフトピックだったアーティクルを隠蔽排除する傾向があったネガティブな例によって訓練されてしまった。

細粒度トピックモデルを訓練するチャレンジの一つとして、良好な訓練例を見つけるやり方がある。ソーシャルインデックスがサブジェクトエリアにおいて１ダースのニュースを使用する場合、２週間にわたって数千個のアーティクルが収集され得る。一つの例示的な実施において、システムは全てのインデックスを介して一日に約１８０００個のアーティクルを引き寄せる。更に、いくつかのブロードインデックスは、現在、一日に何百何千ものアーティクルを引き寄せる。一般に、訓練プロセスは、ユーザがいくつかアーティクルを調べてポジティブ訓練例として使用するためにアーティクルからいくつかを選択したときから開始される。次に、ソーシャルインデックスシステムは、これらのアーティクルに照合するパターンなどの有限状態トピックモデルを捜索する。ネガティブ訓練例によって制約されずに、ソーシャルインデックスは、ポジティブ訓練例におけるアーティクルの全てに照合できる十分に単純なパターンを捜索する。この手法によって表示されるトピックは、範囲が広すぎるという問題があった。

オフトピックであるソーシャルインデックスによって照合されるアーティクルを読んだ後、ユーザはいくつかのネガティブ訓練例を追加する。再び、ソーシャルインデックスシステムは、パターンを生成するが、この場合、パターンがポジティブ例（「この例に類似している」）に照合していて、ネガティブ例（「この例に類似していない」）を照合しないという必要条件を有するパターンを生成する。結果的に、ソーシャルインデックスシステムは殆ど照合をリターンしない。ネガティブ例を用いた更なる訓練にかかわらず、十分又は過剰なアーティクルがソーシャルインデックスによって廃棄された時にはユーザは不明瞭なままである。

また、訓練プロセスは、殆どが極めてオフトピックな数千個のアーティクルが提供された場合、すぐにうんざりするほど退屈になってしまう。「ニアミス」、即ち、トピックに極めて類似しており、トピックの定義を拡張するために良好な候補を作成するアーティクルの識別は、特に助言がなければ、アーティクルの過剰廃棄という点から難しくなる。図９は、候補ニアミスアーティクルを識別するためのトピック距離得点を提示するユーザインターフェースの画面例を示す図である。ユーザインターフェースは、左上欄及び右上欄のそれぞれにおいてポジティブ訓練例及びネガティブ訓練例のセットを提供する。左下欄は、細粒度トピックモデルと照合したアーティクルを提供する。右下欄は、候補「ニアミス」であるアーティクルのリストを示す。これらのアーティクルは、現在の細粒度トピックモデルに照合しないが、にもかかわらず、粗粒度トピックモデルから高いトピック距離得点を得ている。候補「ニアミス」アーティクルは、分類され、最高得点を有するアーティクルがリストのトップに表示される。但し、他のアーティクル編成方法も利用可能である。

候補「ニアミス」アーティクルのリストは、訓練管理者の注目をトピックの幅に集中させる。何千ものアーティクルを手動で検索する必要があるというより寧ろ、訓練管理者は、リストのトップにおけるアーティクルを検査することができる。この例において、図１０に示されている「“ＭｃＣａｉｎｓｅｅｓｎｏｎｅｅｄｆｏｒＦａｎｎｉｅ，Ｆｒｅｄｄｉｅｂａｉｌｏｕｔｎｏｗ，（マケインにとってファニィ、フレディへの財政援助は不要）”」のタイトルの記事は、５４％の高得点を有している。訓練管理者は、このアーティクルがトピックに含まれるべきであると考えた場合、左上欄のポジティブ訓練例のセットにアーティクルを追加して、細粒度トピックモデルを保持することができる。図１１は、再訓練されている図９のユーザインターフェースの画面例を示している。訓練管理者は、新しい細粒度トピックモデルパターンを実際に見ないが、ソーシャルインデックスシステムは、ポジティブ訓練例の全てに照合するが、ネガティブ訓練例のいずれにも照合しない「（ｆｒｅｄｄｉ｛ｌｅｎｄｐｒａｃｔｉｃｅ｝）」を表現するために基本パターンの一つを改良した。

最良の結果を得るために、訓練管理者は、訓練例として良好な代表的アーティクルを選択する必要がある。訓練管理者がポジティブ訓練例としてノイズアーティクルを選択した場合、ソーシャルインデックスシステムは、トピックの誤った特徴付けを受信し、生成される粗粒度トピックモデルは、特徴的単語の紛らわしい分散を具体化する。逆に、訓練管理者が、ネガティブ訓練例としてノイズアーティクルを選択した場合、ソーシャルインデックスシステムは、トピックのためのアーティクルと照合しない細粒度トピックモデルを生成する。この選択は、ソーシャルインデックスがパターンを生成する時、細粒度トピックモデルの下等訓練に、ネガティブ訓練例におけるノイズと偶然に照合する既存の潜在的に受容可能なパターン周辺で作業させて、これにより、ソーシャルインデックスシステムは他の良好なアーティクルを排除する。

図１１に記載されている例において、訓練管理者は、ソーシャルインデックスシステムによって警告もされている悪い実践例であるネガティブ訓練例として低得点アーティクルを使用した。その後、訓練管理者は、低得点ネガティブ訓練例を削除し、その代わりに、ポジティブ訓練例を追加することができる。図１２は、更に再訓練された図１１のデータに対する相補的デバッギング（誤り除去）ディスプレイを例示しており、低得点のネガティブ訓練例を削除する。図１２に示されているディスプレイは、再訓練されている細粒度トピックモデルに対する候補パターンを示している。再訓練の時、ソーシャルインデックスシステムは全てのポジティブ訓練例の全てと照合し、単一パターンの“ｍｏｒｔｇａｇｅ”を生成した。次に、訓練管理者は、この一般化されたパターンが、オフトピックのアーティクルも検索したか否かを見るためにポジティブ照合を検査することができる。

訓練後、ソーシャルインデックスは、新しいアーティクルを分類するエバーグリーンプロセスを支持することができる。アーティクルは、ウェブクローラー又はＲＳＳ（アールエスエス：ＲＤＦサイトサマリー）形式のフィードを用いることによってウェブから収集され得る。細粒度トピックモデルは、正確にオントピックであるアーティクルを識別するために使用され、粗粒度トピックモデルは、ノイズによって誤って分類されたアーティクルを除去するために使用される。図１３は、更なる再訓練によって得られたソーシャルインデックスにおいて、生成された有限状態パターンのセットを例示する図であり、トピック「“ ｈｏｕｓｉｎｇｃｒｉｓｉｓ”」に対して自動的に分類された不良なネガティブ訓練例を除去する。

偽ポジティブ訓練例は、トピックに属しているとして不正確に分類されたアーティクルである。これらのアーティクルがアーティクル中のノイズによって照合されている場合、図９を参照して上述したように、ノイズ検出技術がノイズアーティクルを識別するときに効果的である。表１には、訓練動作の概要が示され、これらの動作は、様々な特徴に応じて識別される訓練ケースに応答して、実行される。アーティクルが不正確に分類された場合でも、トピックに類似している場合がある。候補ネガティブ訓練例の場合、ソーシャルインデックスシステムは、トピック幅の過剰な一般概念を具体化し、訓練管理者は、よりネガティブな訓練例を提供することによって、トピックの定義を敢えて狭くする必要がある。この状況は、実質的には、訓練管理者の動作がトピックの作用域を拡大する二重の「ニアミス」になる。いずれに場合でも、訓練管理者は、トピックの作用域をインタラクティブに調整する必要がある。

以上の技術は、訓練用にマシン学習を用いない手法において使用され得る。例えば、訓練例のソーシャルインデックスに対する異なる手法としては、ユーザに、手動で、トピックの木のトピック毎に照会パターンを指定させることである。この変形例においても、ソーシャルインデックスシステムは、粗粒度トピックモデルを計算することができる。しかしながら、アーティクルのサンプルセットを定義付けるためにポジティブ訓練例に依存する代わりに、ソーシャルインデックスシステムは、トピックに照合するアーティクルのセットを、直接、使用することができる。サンプルは未完成であり、ノイズ単語に照合するアーティクルを含むこともある。パターンがどの程度ユーザの意図に照合するか次第では、パターンは、意図されるトピックからわずかに外れているアーティクルを含むこともあれば、意図されているいくつかのアーティクルを見落とすこともある。サンプルの大部分がうまく照合した場合、パターンは正確なサンプルの近似値として使用され得る。単語分散値が計算され、再訓練のために同一信号が生成され得る。ここで、ユーザは、ポジティブ及びネガティブ訓練例を調整するというより、寧ろ、照会内容を変更し、再び照合を試みる。さらに他の訓練の変形も使用可能である。

粗粒度トピックモデルは、トピックの中心からアーティクルに対する距離の推定値を提供するために使用される。即ち、

（１）ノイズページを識別する

ノイズページは偽ポジティブ照合の種類であり、細粒度トピックモデルはページ上のノイズコンテンツを照合するが、粗粒度トピックモデルは、そのページが殆どオントピックではないとして識別する。従って、細粒度トピックモデルがこのページをオントピックであるとして識別した場合、粗粒度トピックモデルは、このページを、トピックの中核から遠くに離れていること、そして「ノイジー」であると識別する。

（２）ニアミスに対して候補アーティクルを提案する

ニアミスは、偽ネガティブ照合の種類であって、細粒度トピックモデルはページに照合しないが、粗粒度トピックモデルは、アーティクルがトピックに類似していることを提案する。ポジティブ訓練例のセットに候補ニアミスを追加することは、トピックの作用域が拡大すべきであることを示唆している。

（３）候補ネガティブ訓練例を提案

ネガティブ訓練例は、トピックの意図される境界の外側に箇所を輪郭付けるための補助をするアーティクルである。候補ネガティブ訓練例は、細粒度トピックモデルによって照合されたアーティクルとして粗粒度トピックモデルによって得点され、トピック中心距離に近接又はその中間に位置している。ノイズページとは異なり、候補ネガティブ訓練例は、距離においてトピック中心に近接している。候補ネガティブ訓練例をネガティブ訓練例に追加することは、トピックの作用域が縮小すべきであることを示唆している。

本発明は、実施の形態を参照することによって、図示され、具体的に説明されてきたが、本発明の精神及び範囲を逸脱しない限りにおいて、様々な変形又は変更がなされてよいことは、当業者によって容易に理解されよう。

４１：訓練材料
４２：インデックスエントリｉＰ１，Ｐ２，Ｐ３
４３：種語選択
４４：種語
４５：細粒度トピックモデル生成
４６：候補細粒度トピックモデル
４７：細粒度トピックモデル評価
４８：エバーグリーンインデックス
４９：トピックｋ
５０：細粒度トピックモデルｋ

Claims

電気的に記憶されたソーシャルインデックスの相互構築においてトピックを狭めることを提供するコンピュータにより実施されるシステムであって、
各々オンラインのテキストの資料及びトピックの階層構造ツリーを備えるアーティクルのコーパスを備える記憶装置と、
ソーシャルインデックスシステムと、
を備え、
前記ソーシャルインデックスシステムは、
（１）オントピックポジティブ訓練例としての前記コーパスにおける前記アーティクルのセットを、トピックの各々のために、指定し、前記オントピックポジティブ訓練例と一致する有限状態パターンを備える細粒度トピックモデルを見つけると共に、前記有限状態パターンは、対応するトピックのための前記オントピックポジティブ訓練例のサブセットと一致するアーティクルを識別する、有限状態モデラーと、
（２）トピックの中心に対応する各トピックのための粗粒度トピックモデルを生成する特徴的単語モデラーであって、
前記コーパス内のアーティクルのセットを任意に選択し、任意に選択されたアーティクルの各々内で特徴的単語のセットを識別し、任意に選択されたアーティクルのセット内で識別された前記特徴的単語の各々の出現頻度を決定する任意にサンプリングするモジュールと、
前記オントピックポジティブ訓練例内の各アーティクル内の前記特徴的単語のセットを識別し、前記オントピックポジティブ訓練例における前記アーティクル内に識別された前記特徴的単語の各々の出現頻度を決定する選択的にサンプリングするモジュールと、
前記オントピックポジティブ訓練例及び任意に選択されたアーティクルのセット内の各アーティクル内での前記特徴的単語の出現頻度の比として、各特徴的単語に点を割り当てるスコアリングモジュールと、
を備えた前記特徴的単語モデラーと、
（３）前記コーパス内に受け取られた受信された新しいアーティクルをフィルタリングするフィルタモジュールであって、
複数の有限状態パターンを各新しいアーティクルにマッチングするマッチングモジュールと、
各新しいアーティクル内の特徴的単語のセットを識別し、前記各新しいアーティクル内において識別された特徴的単語の各々の出現頻度を決定する特徴的単語評価器と、
前記新しいアーティクル及び任意に選択されたアーティクルのセット内における前記特徴的単語の各出現頻度の比として、類似点を各特徴的単語に割り当てる類似点スコアリングモジュールと、
を備えた前記フィルタモジュールと、
（４）前記トピックの各々のための新しいアーティクルを配列する表示モジュールであって、
前記新しいアーティクルを前記トピックのための細粒度トピックモデルの有限状態パターンにマッチングする新しいアーティクルのマッチングモジュールと、
前記トピックのための細粒度トピックモデルと一致する各新しいアーティクルのために、前記新しいアーティクル内において識別された前記特徴的単語の各々のための類似点を前記トピックのための前記粗粒度トピックモデルにおける対応する特徴的単語の得点と比較する新しいアーティクルの比較モジュールと、
前記トピックの細粒度トピックモデルに一致するとともにネガティブ訓練例のための候補のアーティクルとして前記トピックの粗粒度のトピックモデルの特徴的単語の得点に近い類似点を有する前記新しいアーティクルの各々を表示するディスプレイと、
を備えた前記表示モジュールと、
を含む、前記システム。
前記オントピックポジティブ訓練例としての前記コーパスにおける前記アーティクルのセットを指定することに代えて、トピックモデルとして前記有限状態パターンに一致する前記コーパス内の前記アーティクルのセットは、任意に選択され、
前記トピックモデル内の各アーティクルにおける特徴的単語のための用語ベクトルは、前記トピックモデル内での出現頻度を備えて、形成され、
前記用語ベクトルは、平均化される
請求項１記載の前記システム。
電気的に記憶されたソーシャルインデックスの相互構築においてトピックを広げることを提供するコンピュータにより実施されるシステムであって、
各々オンラインのテキストの資料及びトピックの階層構造ツリーを備えるアーティクルのコーパスを備える記憶装置と、
ソーシャルインデックスシステムと、
を備え、
前記ソーシャルインデックスシステムは、
（１）オントピックポジティブ訓練例としての前記コーパスにおける前記アーティクルのセットを、トピックの各々のために、指定し、前記オントピックポジティブ訓練例と一致する有限状態パターンを備える細粒度トピックモデルを見つけると共に、前記有限状態パターンは、対応するトピックのための前記オントピックポジティブ訓練例のサブセットと一致するアーティクルを識別する、有限状態モデラーと、
（２）トピックの中心に対応する各トピックのための粗粒度トピックモデルを生成する特徴的単語モデラーであって、
前記コーパス内のアーティクルのセットを任意に選択し、任意に選択されたアーティクルの各々内で特徴的単語のセットを識別し、任意に選択されたアーティクルのセット内で識別された前記特徴的単語の各々の出現頻度を決定する任意にサンプリングするモジュールと、
前記オントピックポジティブ訓練例内の各アーティクル内の前記特徴的単語のセットを識別し、前記オントピックポジティブ訓練例における前記アーティクル内に識別された前記特徴的単語の各々の出現頻度を決定する選択的にサンプリングするモジュールと、
前記オントピックポジティブ訓練例及び任意に選択されたアーティクルのセット内の各アーティクル内での前記特徴的単語の出現頻度の比として、各特徴的単語に点を割り当てるスコアリングモジュールと、
を備えた前記特徴的単語モデラーと、
（３）前記コーパス内に受け取られた受信された新しいアーティクルをフィルタリングするフィルタモジュールであって、
複数の有限状態パターンを各新しいアーティクルにマッチングするマッチングモジュールと、
各新しいアーティクル内の特徴的単語のセットを識別し、前記各新しいアーティクル内において識別された特徴的単語の各々の出現頻度を決定する特徴的単語評価器と、
前記新しいアーティクル及び任意に選択されたアーティクルのセット内における前記特徴的単語の各出現頻度の比として、類似点を各特徴的単語に割り当てる類似点スコアリングモジュールと、
を備えた前記フィルタモジュールと、
（４）前記トピックの各々のための新しいアーティクルを配列する表示モジュールであって、
前記新しいアーティクルを前記トピックのための細粒度トピックモデルの有限状態パターンにマッチングする新しいアーティクルのマッチングモジュールと、
前記トピックのための細粒度トピックモデルと一致する各新しいアーティクルのために、前記新しいアーティクル内において識別された前記特徴的単語の各々のための類似点を前記トピックのための前記粗粒度トピックモデルにおける対応する特徴的単語の得点と比較する新しいアーティクルの比較モジュールと、
前記トピックの細粒度トピックモデルに一致するとともにネガティブ訓練例のための候補のアーティクルとして前記トピックの粗粒度のトピックモデルの特徴的単語の得点に近い類似点を有する前記新しいアーティクルの各々を表示するディスプレイと、
を備えた前記表示モジュールと、
を含む、前記システム。
電気的に記憶されたソーシャルインデックスの相互構築の際のノイズに対するロバスト性を提供するコンピュータにより実施されるシステムであって、
各々オンラインのテキストの資料及びトピックの階層構造ツリーを備えるアーティクルのコーパスを備える記憶装置と、
ソーシャルインデックスシステムと、
を備え、
前記ソーシャルインデックスシステムは、
（１）オントピックポジティブ訓練例としての前記コーパスにおける前記アーティクルのセットを、トピックの各々のために、指定し、前記オントピックポジティブ訓練例と一致する有限状態パターンを備える細粒度トピックモデルを見つけると共に、前記有限状態パターンは、対応するトピックのための前記オントピックポジティブ訓練例のサブセットと一致するアーティクルを識別する、有限状態モデラーと、
（２）トピックの中心に対応する各トピックのための粗粒度トピックモデルを生成する特徴的単語モデラーであって、
前記コーパス内のアーティクルのセットを任意に選択し、任意に選択されたアーティクルの各々内で特徴的単語のセットを識別し、任意に選択されたアーティクルのセット内で識別された前記特徴的単語の各々の出現頻度を決定する任意にサンプリングするモジュールと、
前記オントピックポジティブ訓練例内の各アーティクル内の前記特徴的単語のセットを識別し、前記オントピックポジティブ訓練例における前記アーティクル内に識別された前記特徴的単語の各々の出現頻度を決定する選択的にサンプリングするモジュールと、
前記オントピックポジティブ訓練例及び任意に選択されたアーティクルのセット内の各アーティクル内での前記特徴的単語の出現頻度の比として、各特徴的単語に点を割り当てるスコアリングモジュールと、
を備えた前記特徴的単語モデラーと、
（３）前記コーパス内に受け取られた受信された新しいアーティクルをフィルタリングするフィルタモジュールであって、
複数の有限状態パターンを各新しいアーティクルにマッチングするマッチングモジュールと、
各新しいアーティクル内の特徴的単語のセットを識別し、前記各新しいアーティクル内において識別された特徴的単語の各々の出現頻度を決定する特徴的単語評価器と、
前記新しいアーティクル及び任意に選択されたアーティクルのセット内における前記特徴的単語の各出現頻度の比として、類似点を各特徴的単語に割り当てる類似点スコアリングモジュールと、
を備えた前記フィルタモジュールと、
（４）前記トピックの各々のための新しいアーティクルを配列する表示モジュールであって、
前記新しいアーティクルを前記トピックのための細粒度トピックモデルの有限状態パターンにマッチングする新しいアーティクルのマッチングモジュールと、
前記トピックのための細粒度トピックモデルと一致する各新しいアーティクルのために、前記新しいアーティクル内において識別された前記特徴的単語の各々のための類似点を前記トピックのための前記粗粒度トピックモデルにおける対応する特徴的単語の得点と比較する新しいアーティクルの比較モジュールと、
前記トピックの細粒度トピックモデルに一致するとともにネガティブ訓練例のための候補のアーティクルとして前記トピックの粗粒度のトピックモデルの特徴的単語の得点に近い類似点を有する前記新しいアーティクルの各々を表示するディスプレイと、
を備えた前記表示モジュールと、
を含む、前記システム。