JP5563836B2

JP5563836B2 - ソーシャルインデクシングのためにデフォルト階層訓練を提供するためのシステム及び方法

Info

Publication number: JP5563836B2
Application number: JP2010010997A
Authority: JP
Inventors: ジェイ．ステフィクマーク; ミッタルサンジェイ
Original assignee: Palo Alto Research Center Inc
Current assignee: Palo Alto Research Center Inc
Priority date: 2009-01-27
Filing date: 2010-01-21
Publication date: 2014-07-30
Anticipated expiration: 2030-01-21
Also published as: US20100191773A1; JP2010176665A; US8356044B2; EP2211280B1; EP2211280A2; EP2211280A3

Description

本発明は、一般に、ディジタル情報検索と意味付け（センスメイキング）に係り、より詳細には、ソーシャルインデクシング（社会索引付け）のためにデフォルト(初期設定）階層訓練を提供するためのシステム及び方法を提供する。

世界的な「“Ｗｅｂ”（ウェブ）」は、新しい情報が連続的に公開されるオープンエンド（無制限）なリポジトリ（保存場所）である。ウェブ情報は、著者、編集者、共同製作者、及び、例えば、「“Ｗｅｂｌｏｇ”（ウェブログ）」又は「“Ｂｌｏｇ”（ブログ）」を介してコメントする外部の寄稿者を含む様々な情報源から発信される。このような多様性は、潜在的に広大なトピック（表題）インデックスを示唆し、これらのインデックスは、根底にある情報と同様に、絶え間なく、成長し変化する。

ソーシャルインデクシングシステムは、情報を提供し、それらのユーザによって構築されたインデックスのトピック別分類に応じたエバーグリーンな（常に新しい）情報を編成するサービスを検索する。例えば、その全体を参照することによって本明細書中に組み込まれている２００８年８月１２日付けで同一出願人により係属出願中の特許文献１に開示されているように、ウェブなどの無制限な情報源をエバーグリーンなソーシャルインデックス（社会索引）としてトピック別に編成することで、情報の発見や検索が容易になる。

ソーシャルインデックスは、エバーグリーン情報をトピック別に編成する。ユーザは、ソーシャルインデックスのためにトピックを定義し、トピックを階層的に編成する。次に、ユーザは、システムと対話して、ロバスト（堅牢）なモデルを構築し、Ｉｄ（アィディー（識別情報））として記載されている、例えば、用例ベース訓練（ｅｘａｍｐｌｅ−ｂａｓｅｄｔｒａｉｎｉｎｇ）を使って、ソーシャルインデックスのトピックにあてはまる記事を分類する。この訓練を介して、システムは、ポジティブな用例記事にうまく整合するが、ネガティブな用例記事には整合しない有限状態パターンを生成することによって細粒度トピックモデルを構築する。

更に、システムは、例えば、その全体が参照することによって本明細書中に組み込まれている、２００９年１月１５日付けで同一出願人により係属出願中の特許文献２に開示されているように、特徴的単語の母集サイズに基づいて粗粒度トピックモデルを構築することができる。粗粒度トピックモデルは、記事が大まかにトピックに関連しているかあるかどうかを認識するために使用される。細粒度トピックモデルに整合するが、ポジティブな訓練例の記事の基準とはかけ離れている統計的単語の用法は、「ノイズ（雑）」記事として認識される。粗粒度トピックモデルは、その全体が参照することによって本明細書中に組み込まれている２００８年１１月１４日付けで同一出願人により係属仮出願中の特許文献３に開示されているように、「ニアミス」、即ち、単語用法が訓練例に類似しているが、例えば、好ましい細粒度トピックモデルのいずれにも整合してない記事を示唆する。

大抵の場合、ソーシャルインデクシングの成功のカギは、新しいインデックスの作成の容易さによるが、インデックストピックの用例ベース訓練を介してインデックスを構築する場合は特に、新しいユーザにとってインデックス作成が最も難関となる。用例ベース手法は、インデックスに対してぴったり合ったトピックモデルを生成し、潜在的に複雑なクエリ（照会）を書き込むスキルの習得をユーザに要求せずに、パターンを作成することができる。また、用例ベース訓練は、トピックモデルを調整するために有効なフィードバックを提供する。しかしながら、用例ベース訓練はやはり相当な作業量と理解力を必要とする。初期段階として、新しいユーザは、各トピックを作成し、名前を付け、そのトピックをトピックツリーに入れる必要がある。訓練には更に多くの作業が必要となる。ユーザは、トピック毎にポジティブな用用例記事を識別し、このポジティブな用用例記事を用いてインデックスを訓練する必要がある。訓練に続いて、システムは、トピック毎に、整合記事、それらの得点、更に、「ニアミス」候補を報告する。ニアミスの一つ以上がトピックにあてはまる場合、ユーザは、それらの記事をポジティブな訓練例の集合に加算することができる。しかも、システムが、一つ以上のトピックに関連していない記事を整合トピックとして報告してきた場合、ユーザは、これらの記事をネガティブな訓練例として追加し得る。

以上のルーチンを経てから、やっと、ユーザは、トピックを調整する無制限な繰り返し処理に取り掛かる。トピックモデルから満足のいく結果を得るまで、ポジティブ及びネガティブな訓練例を加算するいくらかの周期が必要とされる場合もある。それらの作業努力の結果を直ぐに求めたがる新しいユーザにとって、用例ベース訓練に掛かる手間や労力が作業意欲を減退させる要因となっている。

米国特許公開第２００９−００９９９９６Ａ１号米国特許出願第１２／３５４，６８１号米国特許仮出願第６１／１１５，０２４号

トピックモデルは、ユーザに訓練例を提供することを要求することなく、作成される。トピックモデルは、個別のトピックラベルとツリー内部におけるそれらの場所との両方を用いて階層的トピックツリーに基づいて構築される。記事のランダム（任意）サンプルは、インデックスのための所与の情報源から作成され、候補となるトピックモデル、即ち、パターンが生成される。パターンは、ラベルについての発見的規則の集合、単語とラベルの特殊性、及びトピックツリーによって表現される関係性によって格付けされる。得られるトピックモデルは、デフォルト訓練で使用される制約がはっきり特定されていないため、用例ベース訓練に比べると、精度も正確性も高くない。しかしながら、この手法によって作業量がかなり削減される。ユーザは、インデックストピックを特定するために常にトピックツリーを作成する必要があるが、用例を提供するための余分な作業が不要となり、原案となるインデックスを得ることができる。

本発明の一つの態様は、ソーシャルインデクシングのためのデフォルト階層訓練を提供するシステム及び方法を提供する。ソーシャルインデクシングのためのディジタル情報の記事が保持される。トピックの階層的構造ツリーが特定される。各トピックは一つ以上の単語を有するラベルを含む。トピックツリーのリテラル（文字）構造に本来備わっている制約が識別される。トピックツリーのトピック毎に、ラベルの少なくとも一つのラベルを構成する単語から導出された少なくとも一つの用語を含むトピックモデルが生成される。制約に照らして、トピックツリーに対するトピックモデルが評価される。トピックモデルのうち、制約を最大限満足させるトピックモデルが識別される。

デフォルトソーシャルインデックスの生成は、用例ベース訓練のみが提供されている場合より、新しいユーザの迅速なスタートを可能とし、ソーシャルインデックス内のトピック境界の微調整が必要とされる場合、後から用例ベース訓練へ切替えるための良好な基準を提供する。システムは、発見的な基準及びバイアスに対して他の候補パターンを生成し評価することによって、トピックラベルを単に連結させて発見する場合より、良好な回答を生み出すことができる。

本発明を実施するための最良の方法を例示することによって、以下にその詳細が説明される実施の形態によって、更に他の実施の形態が適用できることは、当業者に容易に理解されよう。明確であるように、本発明の精神とその範囲を逸脱しない限りにおいて、本発明に基づいて他のさまざまな実施の形態のみならず、場合によってはその細部の様々な具体的な部分の変更が可能であることが理解されよう。従って、添付されている図面と発明を実施するための形態は、本来、例示することのみを目的としており、本発明を限定するものではないことも理解されよう。

ディジタル情報のための例示的な環境を示すブロック図である。図１の環境に使用される基本的な構成要素を示す機能ブロック図である。ソーシャルインデクシングのための単なるデフォルト階層訓練の故障モードを例示している画面図である。ソーシャルインデクシングのための単なるデフォルト階層訓練の故障モードを例示している画面図である。ソーシャルインデクシングのための単なるデフォルト階層訓練の故障モードを例示している画面図である。本発明の一実施の形態によるソーシャルインデクシングのためのデフォルト階層訓練を提供する方法を示すフローチャートである。図６の方法によって使用されるデフォルト候補パターン得点を計算するためのルーチンを示すフローチャートである。図７のルーチンによって使用される記事整合を評価するためのルーチンを示すフローチャートである。図７のルーチンによって使用される構造的複雑度を評価するためのルーチンを示すフローチャートである。図７のルーチンによって使用されるラベルを評価するためのルーチンを示すフローチャートである。図７のルーチンによって使用されるハードな制約を評価するためのルーチンを示すフローチャートである。図７のルーチンによって使用されるソフトな制約を評価するためのルーチンを示すフローチャートである。ソーシャルインデクシングのためのデフォルト階層訓練の結果を例示している画面図である。ソーシャルインデクシングのためのデフォルト階層訓練の結果を例示している画面図である。

用語集
以下の用語は、明細書全体にわたって使用され、特に注釈がなければ、以下に記載の意味を含む。

・コーパス：記事、ドキュメント、ウェブページ、電子ブック、又は印刷材料として入手できる他のディジタル情報（など大量の言語データ）の集まり又は集合。

・ドキュメント（文書）：コーパス内の個々の記事。ドキュメントは、書籍の章又は節、又はより大きな著作品の細目を含む。文書は様々なトピックのいくつかの引用頁を含み得る。

・引用頁：頁番号などのインデックスが引用するドキュメント内の場所。引用頁は、単頁又は頁集合であってよい。引用頁において、サブトピックは、索引付けのための細粒度トピックモデルによって拡張され、頁集合は、細粒度トピックモデルに整合する全頁を含む。各引用頁は、頁全体よりはるかに小さく、例えば、細粒度トピックモデルと整合する段落などをいう。

・主題領域（サブジェクトエリア）：エバーグリーンインデックスとこれと等価のインデックスを含むソーシャルインデックスにおけるトピックとサブトピックの集合である。

・トピック（表題）：ソーシャルインデックス内の単一エントリ。エバーグリーンインデックスにおいて、トピックは、コーパス内のドキュメントに整合するように用いられる細粒度トピックモデル、例えば、パターンを伴う。また、トピックは粗粒度トピックモデルを伴う。

・サブトピック：ソーシャルインデックス内のトピック下に階層的に例挙される単一エントリ。エバーグリーンインデックスにおいて、サブトピックは細粒度トピックモデルを伴う。

・細粒度トピックモデル：細粒度トピックモデルは、有限状態計算に基づいており、記事が特定のトピックの範囲内に入っているかを判断するために使用される。各保存された細粒度トピックモデルは、有限状態パターンであり、クエリ（照会）に類似している。細粒度トピックモデルは、ポジティブな訓練例及びネガティブな訓練例に照らして、有限状態マシンを訓練することによって作成される。

・粗粒度トピックモデル：粗粒度トピックモデルは、特徴的単語に基づき、どのトピックが照会に整合するかを判断する時に使用される。各保存された粗粒度トピックモデルは、トピックに対して重要な特徴的単語の集合であり、各特徴的単語の重要度を示すスコア（得点）である。この粗粒度トピックモデルは、ポジティブな訓練例、及びインデックス内の全てのトピックに関連している記事の基準（ベースライン）サンプルから生成される。基準サンプルは、基準単語の出現頻度を確立する。ポジティブな訓練例の単語の出現頻度と基準サンプルの単語の出現頻度が比較される。粗粒度トピックモデルはトピックのサブインデックス生成に使用される他に、広告指標化、ノイジー記事の検出、ニアミス（極めて類似している記事）の検出、及び他の目的に使用され得る。

・共同体：オンラインの特定の主題領域で、関心ある主要トピックを共有し、そのインタラクション（対話）の少なくとも一部に対して、コンピュータネットワークが介在している。主題領域の定義付けは多岐にわたり、ヨットレース、有機園芸などの趣味的分野から、歯科医又は内科医などの職業的関心、又は、後発性糖尿病のケアなどの医学的関心に及ぶ。

・拡張（オーグメント）共同体：主題領域上にソーシャルインデックスを有する共同体。拡張共同体は、ソーシャルインデックスによって既に引用されている主題領域内でドキュメントを読み出し、あるいは、投票にかけて、参加する。

・エバーグリーンインデックス：エバーグリーンインデックスは、コーパスに対して「常に新しい状態を維持する」ソーシャルインデックスである。実施例としては、ソーシャルインデクシングシステムは、コーパスの新しいドキュメントを識別するために、ＲＳＳ（アールエスエス：ＲＤＦ（リソース記述枠組みの略）サイトサマリー）形式のフィード又はクロールウェブサイトをポーリング（調査）する。

・ソーシャルインデクシング（社会索引付け）システム：ソーシャルインデックス（社会索引）を用いたオンライン情報交換。このシステムは、拡張共同体間の情報交換を容易にし、状態インジケータを提供し、関心が持たれる文書を一つの拡張共同体から他の拡張共同体へ渡すことを可能にする。拡張共同体の相互接続された集合は、共同体のソーシャルネットワークを形成する。

・情報ダイエット（絞込み）：情報ダイエットは、ユーザが「消費する」即ち「関心ある主題を越えて読む」情報を特徴付ける。例えば、ユーザの情報消費動作において、ユーザは、選挙関連ニュースに２５％、ローカルニュースに１５％、芸能関連トピックに１０％、健康増進関連トピックの新しい情報に１０％、特定の職業関連に２０％、経済発展に１０％、エコロジーや新しいエネルギ資源の開発に１０％、その時間を費やしている。ソーシャルインデクシングシステムが付与されれば、ユーザは、自分の情報ダイエットにおいてユーザが興味をもつ選別された拡張共同体への参加やモニタリングを行うことができる。

ラベル：トピックの階層インデックスからのトピックラベル

複製トピックラベル：階層インデックス内の一つ以上のトピック上で使用されるトピックラベル

共通の先祖：トピックツリーにおいて二つのトピックが与えられた場合、共通の先祖が両トピックの先祖であるトピック。

単語：トピックラベル内に出現する語幹語。

複製単語：任意の形態において一つ以上のトピックラベルに出現する単語。

局所的トピック単語：所与のトピックに対するトピックのラベル内に出現する単語。

親単語：トピック親のラベル内に出現する単語。

用語（項）：デフォルト(初期設定）トピックモデルとして機能するパターンにおいて出現する単語、ｎ−グラム法（出現頻度統計）、又は単語群。各用語における単語は、ラベル内の単語の語幹化されたバージョンから得られる。

好ましいパターン：トピックラベルに出現する同一単語を使用する論理積又はｎ−グラム法のパターン。例えば、トピックラベルが「“ＯｎｓｅｔＶｅｎｔｕｒｅ”」である場合、好ましいパターンは、あらゆる停止単語を飛び越した、ｎ−グラム法の「“｛ＯｎｓｅｔＶｅｎｔｕｒｅ｝”」、又は、論理積の「“［ＯｎｓｅｔＶｅｎｔｕｒｅ］”」である。トピックラベルが、例えば、単一単語「“Ｍａｙｆｉｅｌｄ”」である場合、好ましいパターンは、語幹化形式における単一単語である。

複雑度（又は簡単度）得点：デフォルト候補パターンの構造を反映する得点。

有効パターン：ハードな制約を満足させるパターン

ディジタル情報インフラストラクチャは、公共のデータネットワーク、例えば、インターネット、独立型コンピュータシステム、及び電子的に記録された情報の無制限なリポジトリを含む。図１は、ディジタル情報に対する例示的環境１０を示すブロック図であり、環境１０は、ソーシャルインデクシング活動を支援するソーシャルインデクシングシステム１１を含む。インターネットなどのディジタルデータ通信ネットワーク１６は、ディジタル情報を交換するためのインフラストラクチャを提供する。他のネットワークインフラストラクチャ、例えば、非公共の法人企業ネットワークも利用可能である。ネットワーク１６は、それぞれがディジタル情報を供給し消費する多様な分散した情報源及び消費者に対して相互接続性をもたらす。著者、編集者、共同制作者、及び外部寄稿者などが、ネットワーク１６に、記事、ウェブページなどを次から次へと公開し、ウェブサーバ１４ａ、ニュースアグリゲータ（収集）サーバ１４ｂ、投票によるニュースサーバ１４ｃ、及び情報源として作用する他のデータリポジトリを介して、分散したデータコーパスとして保持される。これらのソースは、ウェブコンテンツ１５ａ、ニュースコンテンツ１５ｂ、共同体の投票にかけて「選ばれた」又は「吟味された」コンテンツ１５ｃ、及び他の情報を、パソコン等のユーザ装置１３ａ〜ｃのみならず、すべてが情報消費者として機能する他のサーバを介してネットワーク１６にアクセスするユーザへ、供給する。サーバ及び他の非利用者（ノンユーザ）装置情報の消費者も同様に、コーパス内の情報を探索、検索、及び利用することができるが、ここでは、より簡単化するためにユーザ装置のみを取り上げて説明する。

一般に、各ユーザ装置１３ａ〜ｃは、サーバ１４ａ〜ｃとインターフェースして、情報交換及び検索することを支援するウェブブラウザ（“ＷｅｂＢｒｏｗｓｅｒ”）又は同様のアプリケーションを実行する、ウェブ対応装置である。ユーザ装置１３ａ〜ｃとサーバ１４ａ〜ｃは共に、中央処理装置、メモリ、入力／出力ポート、ネットワークインターフェース、非揮発性記憶装置などの汎用のプログラマブル計算装置において従来の技術において知られている構成要素を含が、他の構成要素が使用されてもよい。更に、サーバ１４ａ〜ｃに代えて又はこれに加えて他の情報源も利用可能であり、ユーザ装置１３ａ〜ｃに代えて又はこれに加えて他の情報消費者も利用可能である。

ソーシャルインデクシングシステム１１は、例えば、その全体が参照することによって本明細書中に組み込まれている２００８年８月１２日付けで同一出願人により係属出願中の米国特許公開第２００９−００９９９９６Ａ１号に開示されているように、ソーシャルインデクシングを介してエバーグリーンインデックス下でトピック別に編成される記事を供給する。ソーシャルインデクシングシステム１１は、例えば、その全体が参照することによって本明細書中に組み込まれている、２００９年１月２７日付けで同一出願人により係属出願中の米国特許出願第１２／３６０，８３４号に記載されているように、ユーザの最新情報への要求に応じて、どのトピックが最も「熱い」のか、どのトピックが「冷めた」のかを判断する。最後に、ソーシャルインデクシングシステム１１は、例えば、その全体が参照することによって本明細書中に組み込まれている２００９年１月２７日付けで同一出願人により係属出願中の米国特許出願第１２／３６０，８２３号に記載されているように、記事を、時間によって仕分けされ時間領域によってフィルタリング（選別）される関連度帯域によってグループ化して表示する。

ユーザの観点からすると、ディジタル情報検索のための環境１０は、単一情報ポータルとして出現するが、実際には、分離されているが、統合されたサービスの集合である。図２は、図１の環境１０において使用される基本的な構成要素２０を示す機能ブロック図である。ディジタル情報の発見、探査、方向付け、検索等の他の関連するディジタル情報動作を提供するために更なる構成要素が必要とされる場合もある。

構成要素２０は、情報収集部２１、ソーシャルインデクシング２２、及びユーザサービス２３から成る三つの基本機能モジュールへ大まかにグループ化され得る。他の機能モジュールも使用可能である。更に、機能モジュールは、同一の又は別個の計算プラットフォーム上で実施され得る。情報収集部２１は、電子的に記憶された情報の分散型コーパスを集合的に形成する、ウェブサーバ１４ａ、ニュース収集サーバ１４ｂ、投票によるニュースサーバ１４ｃを含む無制限な情報ソースから、ウェブコンテンツ１５ａ、ニュースコンテンツ１５ｂ、及び「吟味された」コンテンツ１５ｃなどの着信コンテンツ２４を得る。着信コンテンツ２４は、コーパスからの新しいディジタル情報を収穫するために記憶媒体収集装置によって収集される。着信コンテンツ２４は、一般に、構造リポジトリに記憶されるか、又は、実際の複写を保持する代わりに、着信コンテンツのハイパーリンク又は引用を保存することによって、間接的に記憶される。

着信コンテンツ２４は、もともと情報が記憶されていた表現とは異なる複数の表現において記憶され得る。異なる表現が、タイトルの表示、記事要旨の提示、トピック別分類の追跡、及び、細粒度トピックモデルの導出及び使用を容易にするために使用され得る。記事における単語も、ステム（語幹化）され、トークン（文字列分割）形式、マイナス句読点、大文字などにおいて保存され得る。さらに、ソーシャルインデクシングシステム１１によって作成される細粒度トピックモデルは、単語の大部分が廃棄され、主に単語の出現頻度が保持される着信コンテンツ２４のかなり抽象的なバージョンを表現する。

着信コンテンツ２４は、好ましくは、記憶装置２５内で保持されるトピックインデックス２９の下で編成される。トピックインデックス２９は、全ての情報を網羅するトピックインデックスの大きい集合２６の一部であってもよい。その全体が参照することによって本明細書中に組み込まれている２００８年８月１２日付けで同一出願人により係属出願中の米国特許公開第２００９−００９９９９６Ａ１号に開示されているように、トピックインデックス２９は、ソーシャルインデックス２２を介して構築されるエバーグリーンインデックスであってもよい。エバーグリーンインデックスは、新しい情報がインデックス内のトピックの一つ以上にあてはまるか否かを試験するために用いられる有限状態パターンなどの細粒度トピックモデルを含む。ソーシャルインデクシング２２は、教師有りマシン学習をブートストラップ訓練材料に適用して、トピックインデックス２９のトピック及びサブトピックごとに細粒度トピックモデルを作成する。或いは、以下の詳細な説明は、図３を参照して開始されるが、ソーシャルインデックス２２は、個々のトピックラベルとツリー内でのラベル場所の両方を用いて、階層的トピックツリーに基づいて、自己案内方式のトピックモデルを形成するために、デフォルト訓練を実行する。デフォルト訓練が実行されると、予め選択されている主題領域のトピックとして新しい情報を自動的に分類するために、インデックス外挿として、エバーグリーンインデックスが使用される。

ユーザサービス２３は、ユーザがトピックインデックスの集合２６と着信コンテンツ２４にアクセスし、トピックインデックスの集合２６又は単一のトピックインデックス２９に対して照会検索を実行し、次に、検索結果、トピックインデックス、及び焦点が絞られたサブインデックスにアクセスできるように、ユーザ２７ａ〜ｂに、フロントエンドを提供する。また更なる実施の形態において、各トピックインデックス２９は、「“ａｕｇｍｅｎｔｅｄ”：拡張された」共同体として知られるユーザの共同体につながっている。拡張共同体は、中心となる主題領域において進行中の興味を持っている。この共同体は、情報が割り当てられたトピックにおいて「投票」２８をかけて引用された情報を「吟味」する。

最も基本的な形態において、デフォルトソーシャルインデックスは、各トピックラベルから単語を抽出し、停止単語を削除した単語の論理積をトピックモデル又はパターンとして作成することによって、形成される。しかしながら、この手法には欠点がある。図３〜図５は、ソーシャルインデクシングのための単なるデフォルト階級的訓練の故障モード４１、５１、６１を例示した画面図４０、５０、６０である。

まず、図３を参照すると、“２００８Ｐｒｅｓｉｄｅｎｔｉａｌｅｌｅｃｔｉｏｎ”のインデックスに対するトピック階層の一部が記述されている。トピック４３のうちの一つは、“ｈｏｕｓｉｎｇｃｒｉｓｉｓ”であり、“ｐｏｌｉｃｙｉｓｓｕｅｓ＞ｅｃｏｎｏｍｙ＞ｈｏｕｓｉｎｇｃｒｉｓｉｓ．”にあてはまる階級的インデックス４４内で編成されている。トピック−ラベル−単語−抽出−そして−論理積（単なるデフォルト訓練）の手法を適用すれば、得られるパターンは、用語が語幹化された単に“［ｈｏｕｓｃｒｉｓｉ］”となり、どの整合記事も単語“ｈｏｕｓｅ”と“ｃｒｉｓｉｓ”の両方を含むことを必要とする論理積である。比較すると、このトピックに対する用例ベース訓練によって、結果的に、“（ｍｏｒｔｇａｇｅ｛ｈｏｕｓｃｒｉｓｉ｝）”というパターンが得られる。このパターンは、単一用語“ｍｏｒｔｇａｇｅ”とニ単語ｎ−グラム法の“ｈｏｕｓｉｎｇｃｒｉｓｉｓ”の論理和である。このパターンは、単語“ｍｏｒｔｇａｇｅ”か、ｎ−グラム法の“ｈｏｕｓｉｎｇｃｒｉｓｉｓ”のいずれかを含む任意の記事に整合する。これらの対照的な例によって、解を求める際に、用例ベース訓練がどのようにしてより多数の情報源を活用するかが示されている。用例ベース訓練を介して作成された候補パターンは、トピックのタイトルには存在せず、ポジティブな訓練例として与えられた記事の特徴的単語から引き出される単語“ｍｏｒｔｇａｇｅ”を使用する。

このインデックスにおける資源からの記事に対して、単なるデフォルト訓練と用例ベース訓練パターンの確実性のあるジョブを実行した。単なるデフォルトパターンは、正確な記事のうちの多数を発見したが、“ｃｒｉｓｉｓｆａｃｅｄｂｙｔｈｅＨｏｕｓｅｏｆＲｅｐｒｅｓｅｎｔａｔｉｖｅｓ”についての記事とも整合したが、“ｍｏｒｔｇａｇｅｍｅｌｔｄｏｗｎ”についてのいくつかの記事を見落とした。対照的に、用例ベース訓練パターンは、このような制限がないため、より多くのポジティブ及びネガティブな例を付与されることによって、だんだんと進化して、より多くの複雑なトピック境界を認識するまでに達した。

他のケースにおいて、単なるデフォルトパターンは大きく失敗している。次に、図４を参照すると、“ＣｈｉｎｅｓｅＮＢＡｐｌａｙｅｒｓ”５２に対する訓練インデックスが記述されている。この訓練インデックスは、選手の名前５３で編成されている。各選手の下に、更なるトピックが並べて追加され得る。サブトピック“ｐｒｅ−ｓｅａｓｏｎｇａｍｅ”５４ａ〜ｃが３人の選手全員に対して示されている。ここで、単なるデフォルト訓練は、同じ名前を有するサブトピックの全てに対して同一のパターン“［ｐｒｅ−ｓｅａｓｏｎｇａｍｅ］”を作成し、３人の選手全員にする非公式の試合について記事と全く同じ集合を生成する。

単なるデフォルト訓練装置の単なる変化は、トピック階層から引き出される先祖トピックから用語を含むことによってモデルの特殊性を高めることができる。例えば、訓練装置は、三つの複製ラベルのサブトピックの一番目に、パターン“［ＳｕｎＹｕｅｐｒｅｓｅａｓｏｎｇａｍｅ］”を生成することができた。この変化によって、トピックに対するデフォルトパターンの制約がトピックツリーの他のノードとの関係から生じることを示唆している。しかしながら、親単語を含む変化には問題がある。論理積としての単語の数が増えるにつれて、整合記事の数は必然的に減少する。例えば、単語“Ｙｕｅ”を含むが、単語“Ｓｕｎ”を含まないＳｕｎＹｕｅ（サンユー）の非公式試合についての記事は、デフォルトパターンでは見落とされている。

更に他の変化は、親トピックからの単語の全てではないがいくつかを含むことである。最後に、図５を参照すると、ＶｅｎｔｕｒｅＣａｐｉｔａｌＦｉｒｍ（ベンチャー投資会社）６２についてのインデックスから抽出されたトピックツリーが図示されている。多くのベンチャー投資会社は、その名において “Ｖｅｎｔｕｒｅ”及び“Ｃａｐｉｔａｌ”などの同一単語を使用している。候補パターンとしてどの単語を使用するかを評価するためには更なる情報が必要とされる。情報源の一つは、情報源から検索された記事の集合である。ある程度までは、より多くの記事と整合するトピックに対するパターンは、より少ない記事と整合するパターンより、好ましい。しかしながら、それだけではこの規則は失敗する。例えば、“２００８Ｐｒｅｓｉｄｅｎｔｉａｌｅｌｅｃｔｉｏｎ”のソーシャルインデックスにおいて、単語“２００８”は殆ど全ての記事に整合するであろう。結果的に、高頻度で出現する単語を追加したとしても、トピックモデルにおけるパターンの識別力を高めるわけではない。訓練用記事の略正規の数が存在しているはずであるが、その数はシャープカットオフ（不変）ではない。

要するに、候補パターンはトピックラベルに出現する用語から生成され得る。単純な論理積が有効なインデックスがいくつかあるが、それだけでは、
●トピックラベルが複製された時、先祖ノードからの単語及び制約を考慮に入れる必要がある場合、
●複製ラベルを有する共通の先祖ノードからの単語が互いに識別されない場合、
●ツリー内の先祖ノードの全てからの全単語を使用することによって過剰に制限された論理積が生じた場合、
●パターンに含むように更なる単語を選択する時、単語の出現頻度に関する情報を考慮に入れる必要がある場合、
この手法は、失敗につながる。

デフォルト階層訓練は、デフォルトインデックスを生成する単なるデフォルト訓練の欠点を克服する。このデフォルト階層訓練は、多くの場合、主要事項を編成するために全体的に満足できる。図６は、本発明の一実施形態によるソーシャルインデクシングのためにデフォルト階層訓練を提供するための方法７０を示すフローチャートである。この方法は、例えば、サーバなどの汎用プログラミングコンピュータによって実行される一連の処理又は方法のステップとして実行される。

ソーシャルインデックスは、指定されアクセスされる必要がある（ステップ７１）。ソーシャルインデックスは、インデックストピックを指定するために階層的構造トピックツリーとしてユーザによって作成されてよいし、又は、いくつかの他のインデックスソースから発信されてもよい。トピックツリーは、そのうちのいくつかが全体的に又は部分的に複製され得るトピックラベルを含む。ソーシャルインデックスにおける各トピックラベルは、繰り返し処理され（ステップ７２〜７４）、各繰り返し期間中、デフォルト候補パターンが生成される（ステップ７３）。各デフォルト候補パターンは、
● 単一単語パターン、
● 完成したトピックラベルから作成されたｎ−グラム法、又は
● 単一単語、ｎ−グラム法、又は論理和から作成された三項から成る論理積
を含むことができる。
論理積に加えて又は論理積に代わって、論理和又はシーケンス（列）などの他のパターンが含まれてもよい。単語を、一回より多く使用するようなデフォルト候補パターンは削除される。更に、デフォルト候補パターンを生成する場合、トピックのラベル、トピックの親ラベル、又はトピックの任意の他の先祖のラベルに出現する単語が使用される。インデックスの他のラベルにおいて出現する単語はデフォルト候補パターン評価期間に判断される。

各デフォルト候補パターンは、繰り返し処理され（ステップ７５〜７７）、以下の更なる説明が、図７を参照して開始されるように、各繰り返し中、このパターンの得点が計算される（ステップ７６）。しかし、推定される制約を、記事に対して整合されるパターンとして、変換する得点処理を以下に要約する：
● 最初に、デフォルト候補パターンが、０〜８０点の範囲の記事得点に基づいて、得点が割り当てられる。
● 記事得点の半分の最小値と複雑度得点が加算される。
● デフォルト候補パターンがトピックの好ましいパターンに一致した場合、記事得点の半分の最小値と１０点が得点に加算される。
● デフォルト候補パターンがハードな規則を破った場合、パターンは１００点のペナルティを課す。
● 候補がソフトな規則を破った場合、パターンは、一反則当たり２０点のペナルティを課す。
各デフォルト候補パターンに割り当てられる点数の変化は、得点処理に対してさほど影響しない。

最終的には、パターンはこれらの得点に基づいて格付けされ、最高得点のパターンが、デフォルト階層インデックスに対して選択される（ステップ７８）。

デフォルトパターンを評価する際にいくつかの要因が考えられる。図７は、図６の方法に使用するためのデフォルト候補パターンを計算するためのルーチン８０を示すフローチャートである。一実施形態において、デフォルト候補パターンのための得点が計算され、最高得点を有するパターンが選択される。他の基準化も適用可能であるが、パターンの総得点は１００点満点を意図して判断される。デフォルト候補パターンが記事の「正しい数」と整合していれば、８０点程度まで取得できる。更に、パターンが「正しい」構造を有していれば、１０点程度まで取得でき、「正しい」方法でトピックラベルに類似していれば、１０点まで取得できる。

いくつかの要因が採点法に寄与する。要因は、パターン評価における要因として、記事整合、構造的簡単度、及びラベルボーナスを判断するために、パーセンテージ又は他の測定基準で定量化される。一般的なケースでは、おおよその有効パーセンテージによって定量化される。
○ ７０％：図８を参照して以下に更に記載されているように、記事整合（ステップ８１）。理想的な比率に最も近似している記事のパーセンテージに比例して整合するトピックモデルが有利であると認められる。
○ １０％：図９を参照して以下に更に記載されているように、構造的簡単度（ステップ８２）。特定の種類の構造的複雑度によってトピックモデルの識別能力が高められ、有利であると認められる。
○ ２０％：図１０を参照して以下に更に記載されているように、ラベルボーナス（ステップ８３）。ボーナスラベルを含むトピックモデルは同等の得点の他のトピックモデルと同点決勝を行う。
更に、単一単語パターンは複数の単語パターンより多い記事を整合させる傾向がある。結果的に、デフォルト候補パターン得点は、単一単語パターンに起因する高い記事カウントの利点を削減するように調整される。これによって、トピックが二つ以上の単語を有する単語ラベルを有し、提示されたデフォルト候補パターンに含まれる単語数が、単語ラベルに含まれる単語よりも少ない場合（ステップ８４）、記事得点が半減されるペナルティが課される（ステップ８５）。

図１１及び図１２のそれぞれを参照して、以下に更に記載されているように、デフォルト候補パターンが、ハードな制約（ステップ８７）とソフトな制約か（ステップ８８）に照らして検討される。ハードな制約は不変規則を表し、ソフトな制約は許容規則である。ハードな制約が破られた場合、トピックモデルによって獲得された得点に厳しいペナルティが課されるか又は不利とされる。これに対して、ソフトな制約が破られた場合は得点を下げられるだけである。ハードな制約の違反又はソフト制約の多過ぎる違反の拒絶パターンの得点は、ゼロ未満（マイナス）となる。評価後（ステップ８１〜８７）、得られた得点を戻す（ステップ８８）。

デフォルト候補パターンを評価する際の最大唯一の要因は、パターンが整合する記事の数であり、総得点の７０％まで寄与する。但し、記事の整合の判断を採点法において好適とされる大多数の役割に割り当てる他の手法が用いられてもよい。図８は、図７のルーチン８０に使用する記事整合を評価するためのルーチン９０を示すフローチャートである。理想的なインデックスにおいて、各トピックは、同一レベルの等しく割り当てられた記事に整合する。しかしながら、あるトピックが他のトピックよりも常に重要であるので、このような整合は実際には殆ど結果を出さない。ハードな制約（「有効」パターン）を満足させるデフォルト候補パターンの大部分は、ごく一部の記事に整合するが、大部分のパターンはどの記事とも整合しない。更に、有効候補の中では、大部分の記事に整合するパターンが一般に好ましいとされる。

より多くの記事に整合するパターンがより少ない記事に整合する記事よりも一般的に有利と判断されるが、デフォルト候補パターンが多過ぎる記事と整合する場合もある。テスト記事の約２０％より多く整合しているような過剰に存在するパターンは、通常、識別性が低すぎて、利用不可能である。この結果、デフォルト候補パターン評価は、突然の不連続に遮断することなく、「理想的な最大値」まで大部分の記事に整合するパターンが好ましいとされる。
● 記事の２０％未満が整合する候補（ステップ９１）には、記事の理想数を少数表示した得点が割り当てられる（ステップ９２）。
● 記事の２０〜４０％より多くが整合する候補（ステップ９３）には、整合した記事の数が４０％に近似するにつれてゼロまで減少する得点が割当てられる（ステップ９４）。
● 記事整合＞記事の４０％が整合する候補（ステップ９５）は多過ぎると判断され、得点ゼロが割当てられる（ステップ９６）。
記事整合評価（ステップ９１〜９６）に続いて、得られた得点を戻す（ステップ９７）。

構造の複雑度の得点はデフォルト候補パターン評価において第２の要因であり、総得点の約２０％まで貢献する。但し、構造的複雑度の想定を採点法における好適な少数派の役割に割り当てる他の手法が使用されてもよい。図９は、図７のルーチン８０に使用するための構造的複雑度を評価するためのルーチン１００を示すフローチャートである。複雑度の得点を計算する際に三つの要因が判断される。
○ ｎ−グラム法の数（ステップ１０１）。一般に、ｎ−グラム法は、高い識別パターン要素であり、デフォルト候補パターンは、パターンに含まれるｎ−グラム法の数との関連において、報酬を受ける（ステップ１０２）。
○ 非複製単語の数（ステップ１０３）。非複製単語は、複製単語より識別性が高い。いくつかの非複製単語を有するパターンは、より少ない又は非複製単語を全く含まないパターンよりも識別性が高い傾向がある。非複製単語の数が計算される（ステップ１０４）。
○ グループ数（ステップ１０５）。単語のグループは、用語の論理積と論理和である（ステップ１０６）。

三つの要因を考慮した（ステップ１０１〜１０６）後、デフォルト候補パターンに対する全体的な得点が調整される（ステップ１０７）。複雑度（又は簡単度）得点は以下の等式において求められる：
ｓｃｏｒｅ＝（６×ｎｕｍＮｇｒａｍｓ）−（ｎｕｍＧｒｏｕｐｓ＋２）×ｎｕｍＮｏｎＤｕｐＷｏｒｄｓ−ｎｕｍＤｕｐＷｏｒｄｓ（１）
式中、ｎｕｍＮｇｒａｍｓはｎ−グラム法の数であり、ｎｕｍＧｒｏｕｐｓは単語群の数であり、ｎｕｍＮｏｎＤｕｐＷｏｒｄｓは非複製単語の数であり、ｎｕｍＤｕｐＷｏｒｄｓは複製単語の数である。しかしながら、得点の全体的な影響力を制限するために、以下の規則が得点調整に適用される。即ち、
○ 得点は１０より大きくならないし、或いは、−１０未満に満たない。
○ 候補の為の総得点において簡単度得点は記事得点の５０％以上にならない。
採点法の他の公式化も可能である。構造的複雑度の整合評価（ステップ１０１〜１０７）の後、得られた得点を戻す（ステップ１０８）。

いろいろなデフォルト候補パターンが同一得点で終了することもある。２つの代表的なケースとしては、
○ 略同じ得点を有する多数のパターンがある。完成したパターンのうち、パターンの一つは「ボーナス」ラベルを有している。
○ 候補者は、いずれの記事にも整合しない。
従って、これらの両ケースにおいて合理的な推測をするために、ボーナスラベルを有するパターンにボーナス得点が報酬として与えられ、これが、総得点の２０％までに寄与する。但し、ボーナスラベルに対する信用度（クレジット）を、採点法の好適な少数派の役割に、割り当てる他の手法が使用されてもよい。図１０は、図７のルーチン８０に使用されるラベルを評価するためのルーチン１１０を示すフローチャートである。各デフォルト候補パターンは繰り返し処理され（ステップ１１１〜１１４）、各繰り返しの間、ボーナスラベルに対してパターンが評価されるが、このパターンは、トピックラベル内の単語の全てを含むパターンである（ステップ１１２）。

これらの場合において、合理的な推測を行うために、システムは、ボーナスラベルを有するデフォルト候補パターンにボーナス報酬を与える。ボーナスが以下のようにして与えられる（ステップ１１３）。即ち、
○ 単一単語パターンに整合する：１５点
○ 全てのボーナス単語との論理積：１５点
○ 順番に出現する全てのボーナス単語にｎ−グラム法を適用：２０点
この採点法は、単一単語のみを有するラベルもあるが、複数の単語を有するラベルもあることを認識している。更に、ｎ−グラム法は、複数単語のラベルとして同一の単語を含むパターンの中の論理積より特定化されており、採点法は、大部分の特定のラベル単語パターンのバイアスを紹介する。例えば、トピックラベル「“ＭｏｕｎｔａｉｎＶｉｅｗ”」に対して、この採点法は、論理積「“［ｍｏｕｎｔａｉｎｖｉｅｗ］”」よりもｎ−グラム法の「“｛ｍｏｕｎｔａｉｎｖｉｅｗ｝”」が好ましいとされる。ｎ−グラム法は、山と景色を意味する記事とは整合しない。更なる例として、論理積「“［Ｐｏｒｔｏｌａｖａｌｌｅｙ］”」よりもｎ−グラム法の「“｛Ｐｏｒｔｏｌａｖａｌｌｅｙ｝”」が好ましいとされる。後者の論理積は、｛“Ｐｏｒｔｏｌａｓｃｈｏｏｌ，”｝などの単語の一部又は適切な名詞としてＰｏｒｔｏｌａを用いるＳａｎＦｒａｎｃｉｓｃｏＢａｙＡｒｅａの他の町について記事に整合し、さらに単語ｖａｌｌｅｙも示唆している。

構造的複雑度整合評価（ステップ１１１〜１１４）の後、得られた得点を戻す（ステップ１１５）。

「ハード」な制約は有効パターンのゲートキーパー（門番）を示す。図１１は、図７のルーチン８０に使用するハードな制約を評価するためのルーチン１２０を示すフローチャートである。ハードな制約は以下のことを要求する。即ち、
● 複製された単一単語のパターンが特定のトピックに当てはまる記事を選択するための識別力を有していないので、トピックラベルが複製されている場合、パターンは単一用語（項）であってはならない（ステップ１２１）。
● パターンは局所的トピック用語を含む必要がある（ステップ１２３）。トピックのラベル内の単語は識別しやすい。
● トピックラベルが複製される場合（ステップ１２５）、パターンは親単語を含む必要がある（ステップ１２６）。複数のトピックが同一ラベルを有している場合、トピック同士を識別するためにラベル自体を使用することができない。
デフォルト候補パターンがハードな制約規則を破った場合、このパターンをハードな制約規則を守っているパターンと区別するために、このパターンは１００点のペナルティなどの得点ペナルティが課せられる（ステップ１２２、１２４、１２７のそれぞれ）。ハードな制約評価（ステップ１２１〜１２７）の後、得られた得点を戻す（ステップ１２８）。

ソフトな制約はハードな制約よりも弱い好みを示す。図１２は、図７のルーチン８０に使用されるソフトな制約を評価するためのルーチン１３０を示すフローチャートである。ソフトな制約は、以下のことを要求する。即ち、
● 候補は、少なくとも一つの非複製の局所的トピック単語を含むべきである（ステップ１３１）。非複製単語は、複製単語より識別能力が高い。
● 複製トピックラベルに対する候補（ステップ１３３）は、非複製の親単語を含むべきである（ステップ１３４）。親からの非複製単語は、複製単語より識別能力が高い。
● 複製されたトピックラベル（ステップ１３３）に対する候補は、共通の先祖からの単語を含むべきではない（ステップ１３６）。同一ラベルを有するトピックの共通の先祖からの単語は、トピック同士を識別することができない。
デフォルト候補パターンがソフトな候補規則のいずれかを破った場合、パターンは、破られたソフトな制約全てに対して２０点のペナルティなどのペナルティが課せられる（ステップ１３２、１３５、１３７）。ソフトな制約評価の後（ステップ１３１〜１３７）、得られた得点を戻す（ステップ１３８）。

デフォルト階層訓練方法によって、ユーザに任意の訓練例を提供するように要求せずに、所与のインデックスにおけるトピック毎に、トピックモデルが作成される。図１３〜図１４は、例として、ソーシャルインデクシングのためのデフォルト階層訓練１４１、１５１の結果を示す画面図１４０及び１５０である。最初に、図４を参照すると、複製ラベルを有する場合の例が示されている。ラベル「”ｐｒｅ−ｓｅａｓｏｎｇａｍｅｓ”」が３人のバスケットボール選手のそれぞれに対して繰り返されている。「ＹａｏＭｉｎｇ」が出場する非公式試合に対して、デフォルト階層訓練によって選択された好ましいパターンは、用語“ｇａｍｅ”とｎ−グラム法の「“ ｙａｏｍｉｎｇ”」が論理積である、「“［ｇａｍｅ｛ｙａｏｍｉｎｇ｝］”」である。次に、図５を参照すると、ラベルにおいて複製化された単語を分解する例が示されている。トピック「”ＳｅｑｕｏｉａＣａｐｉｔａｌ”」が、好ましいパターンとして選択されている単一用語「”Ｓｅｑｕｏｉａ”」によって訓練されている。複製単語「“ Ｃａｐｉｔａｌ”」が回避されている。この例におけるトレードオフ（交換）の大部分は、単一性得点と整合記事上のパフォーマンスの間で行われる。

ソーシャルインデックスは、ユーザに、用例ベース訓練を行うことを要求せずに作成される。デフォルト階層訓練を提供するためのシステム及び方法は、選択された情報からのドラフト（原案となる）インデックスと、このインデックスの為のトピックの階層を生成する。結果的に、ユーザは迅速に結果を得ることができる。

訓練例がない状態で、性能に対するゴールド基準はない。一実施形態において、他よりも重要と判断される制約もある。制約は「ソフト」と「ハード」な制約に分類される。採点方法は、ハードナ制約の違反に対して最もきびしいペナルティを課す。しかしながら、得点でパターンに単にペナルティを与えるよりも、ハードな制約を守らないデフォルト候補パターンを単純に規則から外すなどの他の手法も可能である。更に、用例ベース訓練におけるように、デフォルト階層訓練方法は、整合記事を計算し、そのパターンの複雑度を判断する。パターンの複雑度は、制約違反の次に重要であると判断される。採点法は記事の整合の計数に基づいて行われる。

おそらく、デフォルト階層訓練にとって最も重要である特殊な要素は、トピックツリーにおける他のノードとの関係性を考えることである。例えば、
● トピック別階層。親と先祖のノードについて考慮すること。
● 複製されたトピックラベル。パターンを評価する際に、複製されたラベルを含むケースを特に考慮すること。
● 複製単語。パターンに含むために単語を選択するときに、一つより多いラベルに出現する単語について特別に配慮すること。他の配慮も適用可能である。

更に他の実施の形態において、デフォルト階層訓練に対するマシン学習方法は、正確であるとして証明された回答と一緒に、数千ものインデックストピックを収集することによって作成され得る。モデリング手法を適用することによって、システム検索は、訓練ケースの大部分に一致する様々な特性に対する最良の重み付けを検索する。

更に他の実施の形態において、トピックラベルにおいて発見された単語の意味の完全なセマンチック（意味論的）モデルがデフォルトパターン訓練装置内に組み込まれてもよく、ユーザがトピックインデックスを構築するときのユーザの意思決定に役立つことによって最適なデフォルトパターンの発見が容易になる。

本発明を特にその実施形態に関して図示及び説明してきたが、当業者には理解されるように、本発明の精神及び範囲から逸脱しない限り、この形式及び細部に上述及びその他の変更を加えてもよい。

１０：環境
１１：ソーシャルインデクシングシステム
１３ａ、１３ｂ、１３ｃ：ユーザユーザユーザ
１４ａ：ウェブサーバ
１５ａ：ウェブコンテンツ
１４ｂ：ニュース収集サーバ
１５ｂ：ニュースコンテンツ
１４ｃ：投票によるニュースサーバ
１５ｃ：「吟味された」コンテンツ
１６：ネットワーク

Claims

ソーシャルインデクシングのためのデフォルト階層訓練を提供するためのコンピュータ実施方法であって、
ソーシャルインデクシングのためのディジタル情報の記事を保持し、
各々が一つ以上の単語を有するラベルを含む、トピックの階層的構造化されたツリーであるトピックツリーを指定し、
前記トピックツリーの文字構造に本来備わっている制約を識別する共に、不変規則を含むように前記制約を定義し、
前記不変規則が、
前記トピックツリー内で複製されたラベルから構成された単一用語を含む一つのトピックモデルを形成すること、
前記トピックモデルが属するトピックに対するラベルからの用語を全く含まない一つのトピックモデルを形成すること、及び、
前記ラベルが前記トピックツリー内で複製される時、前記トピックモデルが属する前記トピックに対する親トピックのラベルからの用語を全く含まないトピックモデルを形成すること
の一つ以上を含み、
前記トピックツリーのトピック毎に、前記ラベルの少なくとも一つ内の前記単語を含む少なくとも一つの用語を含むと共に有限状態パターンであるトピックモデルを作成し、
前記制約に照らして、前記トピックツリーに対する前記トピックモデルを評価する共に、前記不変規則の一つ以上を破るトピックモデルを不利とし、
前記トピックモデルの中から、前記制約を最高に満たすトピックモデルを識別する、
コンピュータ実施方法。
許可規則を含むように前記制約を定義し、前記許可規則の一つ以上を破るトピックモデルはカウントしないことを更に含み、
前記許可規則は、
前記トピックツリー内の他のラベルに複製されない前記トピックモデルが属する前記トピックのための、前記ラベルからの用語を含まない１つのトピックモデルを形成すること、
前記ラベルが前記トピックツリー内の他のラベルに複製されるとき、前記トピックモデルが属する前記トピックのための親トピックの前記ラベルからの非複製用語を含まない１つのトピックモデルを形成すること、及び
前記ラベルが前記トピックツリー内の他のラベルに複製されるとき、前記トピックモデルが属する前記トピックのための共通の先祖トピックのラベルからの用語を含む１つのトピックモデルを形成すること
の一つ以上を含む、請求項１に記載の方法。