JP5866018B2

JP5866018B2 - テキストを処理してテキストのモデルを構築する方法

Info

Publication number: JP5866018B2
Application number: JP2014530845A
Authority: JP
Inventors: ハーシェイ、ジョン・アール; ル・ルー、ジョナサン; ヒークラニ、クレイトン・ケイ
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2012-03-28
Filing date: 2013-02-26
Publication date: 2016-02-17
Anticipated expiration: 2033-02-26
Also published as: CN104246763A; CN104246763B; DE112013001740T5; US20130262083A1; US9251250B2; WO2013146101A1; JP2015503776A

Description

本発明は、包括的には、テキストを処理することに関し、より詳細には、共有語彙の異なる用法を有するテキストの集合のためのモデルを構築することに関する。

多くの実際の状況において、語彙用法の異なるパターンを有するテキストの部分が、同じ主題に言及する場合がある一方で、それらの部分は、異なる主要語を用いて同じ意味を表す場合がある。例えば、同じ言語の異なる地域の方言、会話における異なるレベルのフォーマリティ、または専門性、異なる文体が、語彙用法におけるそのような差異を表し、それらの全てを広義で方言と呼ぶことができる。このとき、重要な問題は、１つの方言における質問語を所与として、異なる方言における関連する部分をどのように確実に返すことができるかである。そのような問題を解決することは、精通していない領域において、様々な主要な用語を用いて有用な情報を調査することが困難な作業となる可能性がある情報検索において、実用価値がある。そのような状況の例としては、様々なプログラミング言語のユーザーマニュアル、様々なブランドの製品のユーザーマニュアル、または様々な大学からのコースカタログがある。

統計において、潜在的ディリクレ配分法（ＬＤＡ）は、複数の文書にわたって単語の共起を解析することによって、トピックとして知られる単語のクラスターを見つけることを試みる発生モデルである。ＬＤＡおよびその拡張は、各文書をトピックの混合としてモデル化し、各単語は、トピックのうちの１つから生成される。

ＬＤＡは、文書における単語を生成する確率的手順を指定するという意味で発生モデルである。所与の文書について、多項トピック確率の集合と、トピックを所与とした単語の多項確率の集合とがディリクレ分布事前確率から抜き出される。次に、文書内の単語位置ごとに、文書のトピック確率に従ってトピックが抜き出される。最終的に、トピックの単語確率分布に従って単語が抜き出される。しかしながら、データの観察時に、そのような文書のトピック分布、トピックを所与とした単語の確率分布、および文書において各単語を生成したトピックは、知られていない。ＬＤＡにおける推測は、一般的に、各文書におけるトピック確率の事後分布、トピックを所与とした単語の確率、および各単語へのトピックの割り当ての推定である。

ＬＤＡ自体は、方言依存性をモデル化することを意図していないが、ＬＤＡのいくつかの拡張は、この目的で開発された。

トピックモデルを用いた語意明確化方法は、単語の所定のラベル付けされた階層に従って、多義語の隠れた意味を学習することを試みる。多言語コーパスの他のモデルは、アラインされているか、または構文的に類似した文書を必要とする。他のモデルは、アラインされていない文書に対して機能するが、それらは、異なる語彙において対応するトピックをモデル化する。それに比較して、本発明による方法は、完全に教師なし法であり、共有語彙内で方言をモデル化する。

これらの観点における１つの関連する研究は、「方言トピックモデル」（ｄｉａＴＭ）であり、これは、コーパス内の様々な文書を、方言の混合およびトピックの混合の双方からの様々な抜き出しと関連付ける。本発明者らは、各コーパスが１つのみの方言と関連付けられ、全てのコーパスがトピックの普遍的集合を共有する用途を検討している。しかしながら、各コーパスは、各トピックに異なる用語を関係付ける可能性がある。これによって、トピックの差異を課すことなく、（方言に対応する）複数のコーパスにわたって言語の系統的変化を計上することになる。「方言トピックモデル」の構造は、各コーパスがトピックの異なる集合を定義することを許可するので、そのような制約の定式化を容易にしない。

さらなる関連研究は、専門性階層をトピック階層と並列にモデル化するトピック適応型潜在的ディリクレ配分モデル（τＬＤＡ）、およびネスト型中国レストランプロセスを用いて学習されたトピックのツリー構造化された階層をモデル化する階層型潜在的ディリクレ配分（ｈＬＤＡ）モデルである。これらのモデルは、種々の特異性（または「専門性」）レベルの文書に対処するのに最も適しているが、これは、本発明者らが検討する用途に必ずしも当てはまらない。

上記の方法に伴う別の問題は、それらの方法が、方言に応じて変動する相当語の集合を、直接特定することができないことである。これは、問題の固有の制約を厳密にモデル化することに失敗したことを示し、不正確な情報検索結果につながる可能性がある。

本発明は、包括的には、テキストの集合を処理することに関する。「コーパス」とも呼ばれる各集合が、「文書」とも呼ばれるテキストの部分集合を含むことが仮定される。コーパス内部の全ての文書は、「方言」とも呼ばれる同じ語彙用法パターンによって特徴付けられる一方、それらは、「トピック」とも呼ばれる主題に観点において、異なる場合がある。語彙内のいくつかの語は、意味が等しいが、複数の方言間で系統が異なる。モデルは、特定のタスクの関心対象の要素（方言またはトピック）を分離するために、各文書の方言およびトピックを別個に特徴付けることができる。

「コーパス」および「文書」という語は、これらが指すことができるものを制約しない。コーパスは、テキストの集合とすることができ、このとき、文書は、そのテキストの部分集合である。例えば、コーパスを様々な書籍とすることができ、このとき、文書をそれらの書籍の節とすることができ、または、各コーパスを人々の集団によって書かれたメッセージの集合とすることができ、このとき、文書をその集合内の段落とすることもできる。同様に、上述したような「トピック」および「方言」は、それぞれ主題および語彙用法の一般的な意味で解釈される。

本発明の実施の形態は、共有語彙にわたる様々な方言における単語から構築された文書の確率モデルを提供する。特に、モデルは、潜在的ディリクレ再配分法（ＬＤＲ）と呼ばれる、潜在的ディリクレ配分法（ＬＤＡ）に対する拡張に基づく。ＬＤＲは、１つのコーパスにおける特定の単語を用いて表現される意味を、別のコーパスにおける異なる単語を用いて表現することができ、この差異は、コーパス内の特定の文書に依存しないという意味において、変動する語彙用法によって特徴付けられる複数のコーパスが存在する事例に対処することが意図された、ＬＤＡに対する拡張である。

ＬＤＲは、単語にわたる分布を各文書に配分するトピックモデルを用いる。ＬＤＲにおいて、サブトピックと呼ばれる単語のプレースホルダーが、方言と無関係にトピックから生成され、そして、サブトピックは、方言に依存して単語を生成する。これらのサブトピックによって、ＬＤＲは、可変語、すなわち、方言に応じて変動する語間で単語確率を再配分することができる。対照的に、語彙語は、その語の用法がこれらの全ての方言について等しい場合、方言の特定の集合に関して一定である。

実施の形態は、ギブスサンプリングまたはハイブリッドモンテカルロ等のモンテカルロ法を用いて推測する方法を提供する。

統計学において、ギブスサンプリングは、２つ以上の確率変数の同時確率分布から一連のサンプルを生成する。これらのサンプルは、同時事後分布を近似する。

本発明の実施の形態によるグラフィカルモデルである。従来技術によるトピックモデルのグラフィカルモデルである。本発明の実施の形態によるテキストモデルの生成の流れ図である。本発明の実施の形態によるテキストの集合をモデル化する方法の流れ図である。

序論
本発明の実施の形態は、潜在的ディリクレ再配分法（ＬＤＲ）と呼ばれる、潜在的ディリクレ配分（ＬＤＡ）に対する拡張を提供する。ＬＤＲは、複数のコーパスのうちの少なくともいくつかが、変動する語彙用法によって特徴付けられる一方、他のコーパスは、同じ語彙用法を有することができる事例に対処することが意図された、従来技術によるＬＤＡに対する拡張である。一般的に、本明細書において用いられるとき、語彙用法とは、様々なテキストにおける単語の用法に関する。

ＬＤＲにおいて、トピック確率は、依然として、文書ごとにディリクレ分布から独立して抜き出され、トピックは、ＬＤＡと全く同じように、文書内の単語位置ごとに、これらの分布から抜き出される。ここで、テキスト内の各単語が、位置および単語値を有するトークンであると考える。

一方、ＬＤＲトピックは、直接単語を生成するのではなく、サブトピックと呼ばれる単語のプレースホルダーを生成する。これらのサブトピックは、単語の意味論的意味を表すことを意図される。このため、本明細書において、サブトピックの使用は、従来技術によるテキストモデル化では見出すことのできない、意味論に関係する特殊な意味を有する。

次に、各文書の単語が、サブトピックを与えられた単語の確率から抜き出される。これらの単語の確率は、コーパスの語彙用法に依存し（しかし、コーパス内の特定の文書に依存しない）、単語が現れるコーパスの語彙用法に依存して、所与の意味が異なる単語によって表されることを可能にする。これは、語彙用法に依存した、異なる単語への特定の意味の確率の「再配分」と呼ばれる。

方言ごとのサブトピックを所与とした単語の確率は、トピックを所与としたサブトピックの確率と同様に、ディリクレ分布から抜き出される。一方、サブトピックを所与とした単語の確率のディリクレ分布のパラメーターは、僅かな数の非ゼロ要素しか有しないという意味で、スパースになるように制約される。統計学において、スパース性は、当該技術分野においてよく知られた用語である。

これによって、所与のサブトピックについて、僅かな数の単語のみが有意に非ゼロの確率を有するという意味で、サブトピック内の単語数は、少ないことが確実になる。

一般に、ＬＤＲにおける推測は、
１）方言確率、
２）各文書におけるトピック確率、
３）トピックを所与としたサブトピックの確率、
４）サブトピックおよび方言を所与とした単語の確率、
５）各コーパスへの方言の割り当て、
６）各トークンへのサブトピックの割り当て、および
７）各トークンへのトピックの割り当て、
の事後分布を推定することを伴う。

関連する従来技術は、「方言トピックモデル」であり、これは、コーパス内の様々な文書を、方言の混合およびトピックの混合からの様々なサンプルと関連付ける。このモデルは、各方言がトピックを所与とした単語の確率の独自の集合を有するという点で、制約の欠如を被る。これによって、トピックが複数の方言にわたって特定可能となることが妨げられる。

本発明によるＬＤＲモデルを差別化するものは、トピックが、トピックを所与とした方言と無関係のサブトピックの確率によって、複数の方言にわたって同じとなるように制約されることである。サブトピックを所与とした単語の確率は、方言と無関係にスパースであるディリクレ事前確率によって制約され、それによって、各サブトピックは、方言に関わらず、小さな集合に属する単語のみを生成することができる。「方言トピックモデル」の異なる構造は、そのような制約の制定を容易にしない。

従来技術による方言トピックモデルは、方言ごとに独立したトピックモデルに退化する可能性があるのに対し、本発明によるＬＤＲモデルは、複数の方言にわたって対応するトピックモデルを生成する。別の従来技術による方法論である「トピック適応」と対照的に、本発明によるモデルは、適切な確率を語に配分し、次に、少数語間で確率を方言に依存して再配分することを可能にする。このため、本発明によるモデルを用いて、異なる方言からの文書を同時に処理することができるとともに、以前に見たことのない文書に対応する方言を推測することができる。これは、従来技術によるトピック適合法では可能でない。

本明細書において、以下の変数および関数が定義され、用いられる。
Ｃ：コーパス数
ｃ：コーパスインデックス
Ｄ_Ｃ：コーパスｃ内の文書数
ｄ：コーパスｃ内の文書のインデックス
ｚ：トピック（サブトピックにわたる分布）（ｚ_ｉ：トークンｉのトピック割り当て）
ｋ：トピックインデックス
Ｋ：トピック数
θ_ｃ，ｄ：コーパスｃ内の文書ｄのトピックにわたる分布
φ_ｋ：トピックｋのサブトピックにわたるトピック依存（多項）分布
ｕ：サブトピックまたは意味（単語にわたる分布）（ｕ_ｉ：トークンｉのサブトピック割り当て）
ｍ：サブトピックインデックス
Ｍ：サブトピック数
Ｖ：語彙サイズ
Ｊ：サブトピック内の全ての方言にわたって変動することが予期される平均語数
ｗ：単語（ｗ_ｉ：トークンｉの単語割り当て）
Ｎ_ｃ，ｄ：コーパスｃの文書ｄ内の単語数
ｌ：方言（ｌ_ｃ：コーパスｃの方言割り当て）
Ｌ：方言数
ψ：方言にわたる分布
π：（ψにわたる）対称ディリクレ分布のスカラーパラメーター
γ_ｌ，ｍ：サブトピックｍおよび方言ｌの単語にわたる多項分布
η_ｍ：（γ_ｌ，ｍにわたる）サブトピックｍのサブトピック依存ディリクレ事前確率
α：（θ_ｃ，ｄにわたる）対称ディリクレ分布のスカラーパラメーター
β：（φ_ｋにわたる）対称ディリクレ分布のスカラーパラメーター
λ：指数分布をパラメーター化するスカラー
Ｗ：全ての単語割り当ての集合
Ｚ：全てのトピック割り当ての集合
Ｕ：全てのサブトピック割り当ての集合
Ｘ：確率変数
Θ：全てのθ_ｃ，ｄの集合
Φ：全てのφ_ｋの集合
γ：全てのγ_ｌ，ｍの集合
Ｄｉｒ：ディリクレ分布
ｅｘｐ：指数分布
Ｍｕｌｔ：多項分布

潜在的ディリクレ再配分法
ＬＤＲにおいて、コーパスｃ＝１、・・・、Ｃ内の文書ｄ＝１、・・・、Ｄ_Ｃは、コーパスと無関係の多項事前分布から抜き出された同じコーパス依存の語彙用法（または方言）ｌ_ｃ∈｛ｌ、・・・、Ｌ｝に従って書かれることが推定される。方言数がコーパス数と等しくなるように設定し、各コーパスに１つの方言を割り当てた結果、特定の事例が生じる。

各文書ｄ＝１、・・・、Ｄ_Ｃを、ディリクレ分布から抜き出されたトピックθ_ｃ，ｄにわたる分布と関連付ける。ここで、トピックは、全てのコーパスにわたって共有されている。ここで、各トピックｚ∈｛１、・・・、Ｋ｝に、「サブトピック」にわたる分布ｕ∈｛１、・・・、Ｍ｝を関連付ける。各サブトピックに、語彙語にわたる分布｛１、・・・、Ｖ｝を関連付ける。サブトピックの背後にある本発明者らの洞察を、以下に説明する。

トークンｉ＝１、・・・、Ｎ_ｃ，ｄごとに、θ_ｃ，ｄに従ってトピックｚ_ｉ＝ｋが抜き出される。次に、サブトピックｕ_ｉ＝ｍがトピック依存多項分布φ_ｋから抜き出される。方言およびサブトピック双方の割り当てに依存して、多項分布γｌ_ｃ，ｍから語彙語が選択される。

本発明によるモデルの主要な特徴は、γ_{１：Ｌ，１：Ｍ}に課すサブトピック依存ディリクレ事前確率η_１：Ｍである。この特徴の動機付けが、以下に説明される。

発生モデル
詳細には、事前に、方言数Ｌ、トピック数Ｋ、サブトピック数Ｍ、および語彙サイズＶを指定する。ここで、Ｋは、実質的にＭ未満であり、Ｍは、Ｖ未満である。モデルは、対称ディリクレ分布の３つのスカラーパラメーターα、βおよびπを有する。スカラーλは、指数分布をパラメーター化する。

発生モデルは、

である。

この説明を単純にするために、

、ψおよびφ_１：Ｋに対するディリクレ分布事前確率は、対称である。しかしながら、実際には、これらは、対称でない場合がある。

上記の発生プロセスは、モデル構造の定義にすぎず、実用においてデータを構築するのに、実際は用いられないことに留意されたい。観察データがこのように生成されたことのみが推定される。観察データの解析の目標は、逆問題を解くことによってモデルのパラメーターを推定することである。

図１は、変数間の統計的依存関係を規定する本発明によるＬＤＲのグラフィカルモデル１００を示している。これは、「プレート表記」と呼ばれる表記を用いる。右下の角に文字「Ｘ」を有する各長方形は、その構造がＸ回繰り返されることを意味する。ここで、大きな長方形は、同じ構造がコーパスごとに一度ずつＣ回繰り返されることを意味する。次に、各コーパスｃ内部で、中程度の大きさの長方形内の構造が再び、コーパス内の文書ごとに一度ずつＤ回、正確には複数のコーパスにわたって各コーパス内の文書数が変動する可能性があるので、Ｄ_Ｃ回繰り返される。次に、コーパスｃに属する各文書ｄにおいて、最も内部の構造が、その文書内の単語ごとに一度ずつＮ回、正確には、複数の文書にわたって各文書内の単語数が変動する可能性があるので、Ｎ_ｃ，ｄ回繰り返される。ＡおよびＢを連結する有向エッジが存在する場合、Ａを条件として、すなわち、Ａに依存する分布に従って、確率変数Ｂが生成される。これは、変数が同じ長方形内にあるか否かと無関係である。

これは、プロセス図でないことに留意されたい。このモデルを用いるプロセスは、所与の文書からの単語を観察し、方言等の対象となる変数の事後確率分布および／または最も可能性の高い値を得るか、または、データベースからトピック分布に最も合致する文書を得る。

図２は、従来技術によるＬＤＡの同等なモデルを示している。そのモデルでは、外側の長方形が文書を表し、内側の長方形が文書内のトピックおよび単語の繰り返された選択を表す。

語間の再配分のモデル化
次に、本発明によるＬＤＲの動機付けについて、洞察に焦点を当てて説明する。

単語のサブトピックの意味
Ｍ個のサブトピックは、単語Ｗ_ｉの意図される「意味」である。方言と無関係に、トピック依存分布からサブトピックｕ_ｉを抜き出すこと、および単語確率が、単語および方言の双方の意図される意味に依存することは、道理にかなっている。

理想的には、全ての不変語は、独自のサブトピックに対応する。可変語の場合、モデルは、意味が等しい語をグループに割り当て、１つのサブトピックをグループ内の全ての語に関連付ける。

不変語に関連付けられたサブトピックについて考える。この場合、単語は、既に求められており、適切に構造化されたサブトピック依存多項分布

は、確率を別の語に再配分しない。しかしながら、可変グループに対応するサブトピックが選択されると、

は、方言に適した語に最高の確率を正しく配分する。

再配分のスパースなディリクレ分布事前確率
適切に構造化された多項分布を自動的に学習する本発明による技法を説明する。

η_１：Ｍによってパラメーター化された、サブトピック依存の非対称ディリクレ分布事前確率をγ_{１：Ｌ，１：Ｍ}に与えることによって、ベイズ手法を用いて教師なし方式で適切に構造化された多項分布を自動的に学習する。

ディリクレ分布は、Ｖ−１次元において確率シンプレックスにわたって定義される。これは、各頂点が語彙語に対応する多面体である。このディリクレ分布がスパースであること、すなわち、分布が（サブトピックｍの下にあるｐ個の可変語に対応する）多面体の（ｐ−１）面または単一頂点（ｍの下にある不変語）に重みを課すことを望む。ディリクレ分布自体は、スパースでないが、分布からの抜き出しは、スパースであることが好ましい。

スパースなディリクレ分布の超事前分布
スパースなディリクレ分布は、全ての他の語よりも大きい対応するη_ｍ，ｊ’を有する任意の高確率語彙語、例えば、サブトピックｍのｊ’に変換される。これを促すために、各η_１：Ｍの各構成要素にわたって、共有指数超事前分布を課す。すなわち、η_ｍ，ｊ〜ｅｘｐ｛λ｝，ｍ＝１、・・・、Ｍ，ｊ＝１、・・・、Ｖを仮定する。

スカラーλを設定する発見的方法を提示する。Ｊが平均語数である場合、サブトピックｍ内で、語が全ての方言にわたって変動することを予期する。確率変数Ｘ_ｉ〜ｉ．ｉ．ｄ．ｅｘｐ（λ）からの抜き出しを考える。１よりも大きい予測サンプル語数がＪとなる、すなわち

となるように制約することを望む。対応するスカラーは、λ＝ｌｏｇ（Ｖ）−ｌｏｇ（Ｊ）である。

平均して、コーパス内の各文書は、１つの語を使用する。これは、複数の方言間で変動する。これは、語彙内の合計で、Ｄ＝Σ_ｃΣ_ｄｌ個の可変語に対応する。これは、サブトピックにわたって均一に分布することが予期される。したがって、Ｊ＝Ｄ／Ｍであり、

である。

ベイズ再配分への組み合わせ探索の緩和
複数の方言間の単語の等価性を学習する問題を説明する。したがって、方言（ここでは、γ_１：Ｌ）ごとに方言を最良に特徴付けする多項確率を、語に関して形成する。これは、方言における可変語を表す語の最適なスパース選択を見つけることを伴う。これは、計算的に解決困難なタスクを提示するＶの冪集合に等しい探索空間との組み合わせ最適化問題である。

複数の方言にわたって共有される、ベイズ手法およびサブトピック依存ディリクレ分布事前確率を用いることによって、組み合わせ探索が連続最適化に緩和される。これは、推測中に自動的に行われる。

意味からサブトピックへ
ＭがＶに非常に近く、全ての語彙語（または、可変語のグループ）が方言ごとに、語が用いられるときを正確に指定する対応する単語多項分布を有することが望ましい。一方、これは、ＬＭＶ≒ＬＶ^２個の単語多項分布パラメーターを当てはめることを伴い、これは、実際の用途には妥当でない。このため、Ｍの値を減少させる。

推測および学習
本発明によるモデルに不都合なことに、指数分布およびディリクレ分布は、共役でなく、このため変分推測およびギブスサンプリングが容易でない。推測は、ハイブリッドモンテカルロ、崩壊型ギブスサンプリング、またはスライスサンプリング等の多岐にわたるサンプリング方法を用いることによって行うことができる。

図３は、本発明の実施の形態による文書をモデル化するステップを示している。

図１に具現化されるような確率モデル３０２を、コーパスおよび文書によってラベル付けされたテキストトレーニングデータを含むトレーニングデータ３０１と併せて用いて、方言、トピック、サブトピックおよび単語分布パラメーターで構成されるモデルパラメーター３０４を推定する（３０３）。

上記のステップは、当該技術分野において既知のメモリおよび入／出力インターフェースに接続されたプロセッサにおいて実行することができる。

この点において、モデルは、方言推定、トピック推定、トピックが関連した文書の取り出し、文書要約、または他の言語モデル化タスク等の複数の用途に用いることができる。

用途
図４は、例示的な応用形態における本発明の使用を示している。図１に具現化されるような確率モデル４０２を、コーパスおよび文書によってラベル付けされたテキストトレーニングデータを含むトレーニングデータ４０１と併せて用いて、方言、トピック、サブトピックおよび単語分布パラメーターで構成されるモデルパラメーター４０４を推定する（４０３）。

方言推定のために、テキスト入力４０５をモデルパラメーター４０４と併せて用いて方言スコアを計算し（４１０）、この方言スコアから方言クラス推定値４１１が導出される。

トピック推定のために、テキスト入力４０５をモデルパラメーター４０４と併せて用いてトピックスコアを計算し（４２０）、このトピックスコアからトピッククラス推定値４２１が導出される。

文書取り出しのために、テキスト入力４０５をモデルパラメーター４０４と併せて用いて文書スコアを計算し（４３０）、この文書スコアから、合致する文書ＩＤ４３１が導出される。

発明の効果
潜在的ディリクレ再配分法は、過適合することなく、様々な方言を用いて構築された文書を特徴付ける事前確率の学習に成功することができる。

探索用途において、質問語または文書を所与として、文書トピックの分布に従って、ＬＤＲを用いて、その語を他の各コーパスからの最も可能性の高い文書と関連付けることができる。

代替的に、関係トピックモデル等のリンク付け方法を用いて、異なるコーパスからの任意の２つの文書間のリンクを推測することができる。リンク付けされた文書は、異なる方言を除いて同じ題材をカバーすると解釈される。

Claims

プロセッサで実行されるプログラムによるアクセスに対応してテキストを処理して、メモリ内の該テキストのモデルを構築する方法であって、該方法は、
前記テキストを取得するステップであって、前記テキストは、共有語彙を有し、前記テキストは、単語を含み、前記テキストは、テキストの集合に分割され、テキストの少なくとも１つの集合は、テキストの部分集合に分割され、２つ以上の集合内の前記共有語彙の用法は、異なり、２つ以上の部分集合のトピックは、異なる、取得するステップと、
前記テキストの確率モデルをメモリに記憶するステップであって、該確率モデルは、前記テキスト内の各単語を、位置および単語値を有するトークンとみなし、前記テキスト内のトークンごとの前記共有語彙の前記用法、トピック、サブトピックおよび単語値は、前記確率モデルにおける確率変数の分布を用いて表され、前記確率変数は、離散し、テキストの各集合は、語彙用法確率変数を有し、各トークンは、前記トピック、前記サブトピックおよび前記単語値に対応する前記確率変数と関連付けられ、前記トークンの前記トピックと関連付けられる前記確率変数の前記分布は、前記トークンを含む前記テキストの部分集合に依存し、前記トークンの前記サブトピックに関連付けられた前記確率変数の前記分布は、前記トークンの前記トピックに依存し、前記トークンの前記単語値の前記確率変数の前記分布は、前記トークンを含む前記テキストの集合の前記関連付けられたサブトピックおよび前記語彙用法に依存する、記憶するステップと、
前記単語に関連付けられた前記語彙用法、前記単語値、前記トピックおよび前記サブトピックに基づいて前記確率モデルのパラメーターを推定するステップと
を含み、前記方法の各ステップは、プロセッサにおいて実行される、テキストを処理して該テキストのモデルを構築する方法。
前記モデルを用いて語彙用法を推定するステップをさらに含む、請求項１に記載の方法。
前記トレーニングデータ内の各語彙用法は、方言に対応する、請求項１に記載の方法。
前記モデルを用いて前記テキストの方言を推定するステップをさらに含む、請求項３に記載の方法。
語彙用法と無関係なトピックモデルを最適化するステップをさらに含む、請求項２に記載の方法。
前記モデルを用いて語彙用法に対して不変な、トピックが関連した部分集合を取り出すステップをさらに含む、請求項１に記載の方法。
前記モデルを用いてテキスト要約を実行するステップをさらに含む、請求項１に記載の方法。
前記サブトピックを所与として、単語割り当ての前記分布をスパースになるように制約するステップをさらに含む、請求項１に記載の方法。
前記モデルは、潜在的ディリクレモデルである、請求項１に記載の方法。