JP5866018B2 - テキストを処理してテキストのモデルを構築する方法 - Google Patents

テキストを処理してテキストのモデルを構築する方法 Download PDF

Info

Publication number
JP5866018B2
JP5866018B2 JP2014530845A JP2014530845A JP5866018B2 JP 5866018 B2 JP5866018 B2 JP 5866018B2 JP 2014530845 A JP2014530845 A JP 2014530845A JP 2014530845 A JP2014530845 A JP 2014530845A JP 5866018 B2 JP5866018 B2 JP 5866018B2
Authority
JP
Japan
Prior art keywords
text
model
topic
word
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014530845A
Other languages
English (en)
Other versions
JP2015503776A (ja
Inventor
ハーシェイ、ジョン・アール
ル・ルー、ジョナサン
ヒークラニ、クレイトン・ケイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JP2015503776A publication Critical patent/JP2015503776A/ja
Application granted granted Critical
Publication of JP5866018B2 publication Critical patent/JP5866018B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Description

本発明は、包括的には、テキストを処理することに関し、より詳細には、共有語彙の異なる用法を有するテキストの集合のためのモデルを構築することに関する。
多くの実際の状況において、語彙用法の異なるパターンを有するテキストの部分が、同じ主題に言及する場合がある一方で、それらの部分は、異なる主要語を用いて同じ意味を表す場合がある。例えば、同じ言語の異なる地域の方言、会話における異なるレベルのフォーマリティ、または専門性、異なる文体が、語彙用法におけるそのような差異を表し、それらの全てを広義で方言と呼ぶことができる。このとき、重要な問題は、1つの方言における質問語を所与として、異なる方言における関連する部分をどのように確実に返すことができるかである。そのような問題を解決することは、精通していない領域において、様々な主要な用語を用いて有用な情報を調査することが困難な作業となる可能性がある情報検索において、実用価値がある。そのような状況の例としては、様々なプログラミング言語のユーザーマニュアル、様々なブランドの製品のユーザーマニュアル、または様々な大学からのコースカタログがある。
統計において、潜在的ディリクレ配分法(LDA)は、複数の文書にわたって単語の共起を解析することによって、トピックとして知られる単語のクラスターを見つけることを試みる発生モデルである。LDAおよびその拡張は、各文書をトピックの混合としてモデル化し、各単語は、トピックのうちの1つから生成される。
LDAは、文書における単語を生成する確率的手順を指定するという意味で発生モデルである。所与の文書について、多項トピック確率の集合と、トピックを所与とした単語の多項確率の集合とがディリクレ分布事前確率から抜き出される。次に、文書内の単語位置ごとに、文書のトピック確率に従ってトピックが抜き出される。最終的に、トピックの単語確率分布に従って単語が抜き出される。しかしながら、データの観察時に、そのような文書のトピック分布、トピックを所与とした単語の確率分布、および文書において各単語を生成したトピックは、知られていない。LDAにおける推測は、一般的に、各文書におけるトピック確率の事後分布、トピックを所与とした単語の確率、および各単語へのトピックの割り当ての推定である。
LDA自体は、方言依存性をモデル化することを意図していないが、LDAのいくつかの拡張は、この目的で開発された。
トピックモデルを用いた語意明確化方法は、単語の所定のラベル付けされた階層に従って、多義語の隠れた意味を学習することを試みる。多言語コーパスの他のモデルは、アラインされているか、または構文的に類似した文書を必要とする。他のモデルは、アラインされていない文書に対して機能するが、それらは、異なる語彙において対応するトピックをモデル化する。それに比較して、本発明による方法は、完全に教師なし法であり、共有語彙内で方言をモデル化する。
これらの観点における1つの関連する研究は、「方言トピックモデル」(diaTM)であり、これは、コーパス内の様々な文書を、方言の混合およびトピックの混合の双方からの様々な抜き出しと関連付ける。本発明者らは、各コーパスが1つのみの方言と関連付けられ、全てのコーパスがトピックの普遍的集合を共有する用途を検討している。しかしながら、各コーパスは、各トピックに異なる用語を関係付ける可能性がある。これによって、トピックの差異を課すことなく、(方言に対応する)複数のコーパスにわたって言語の系統的変化を計上することになる。「方言トピックモデル」の構造は、各コーパスがトピックの異なる集合を定義することを許可するので、そのような制約の定式化を容易にしない。
さらなる関連研究は、専門性階層をトピック階層と並列にモデル化するトピック適応型潜在的ディリクレ配分モデル(τLDA)、およびネスト型中国レストランプロセスを用いて学習されたトピックのツリー構造化された階層をモデル化する階層型潜在的ディリクレ配分(hLDA)モデルである。これらのモデルは、種々の特異性(または「専門性」)レベルの文書に対処するのに最も適しているが、これは、本発明者らが検討する用途に必ずしも当てはまらない。
上記の方法に伴う別の問題は、それらの方法が、方言に応じて変動する相当語の集合を、直接特定することができないことである。これは、問題の固有の制約を厳密にモデル化することに失敗したことを示し、不正確な情報検索結果につながる可能性がある。
本発明は、包括的には、テキストの集合を処理することに関する。「コーパス」とも呼ばれる各集合が、「文書」とも呼ばれるテキストの部分集合を含むことが仮定される。コーパス内部の全ての文書は、「方言」とも呼ばれる同じ語彙用法パターンによって特徴付けられる一方、それらは、「トピック」とも呼ばれる主題に観点において、異なる場合がある。語彙内のいくつかの語は、意味が等しいが、複数の方言間で系統が異なる。モデルは、特定のタスクの関心対象の要素(方言またはトピック)を分離するために、各文書の方言およびトピックを別個に特徴付けることができる。
「コーパス」および「文書」という語は、これらが指すことができるものを制約しない。コーパスは、テキストの集合とすることができ、このとき、文書は、そのテキストの部分集合である。例えば、コーパスを様々な書籍とすることができ、このとき、文書をそれらの書籍の節とすることができ、または、各コーパスを人々の集団によって書かれたメッセージの集合とすることができ、このとき、文書をその集合内の段落とすることもできる。同様に、上述したような「トピック」および「方言」は、それぞれ主題および語彙用法の一般的な意味で解釈される。
本発明の実施の形態は、共有語彙にわたる様々な方言における単語から構築された文書の確率モデルを提供する。特に、モデルは、潜在的ディリクレ再配分法(LDR)と呼ばれる、潜在的ディリクレ配分法(LDA)に対する拡張に基づく。LDRは、1つのコーパスにおける特定の単語を用いて表現される意味を、別のコーパスにおける異なる単語を用いて表現することができ、この差異は、コーパス内の特定の文書に依存しないという意味において、変動する語彙用法によって特徴付けられる複数のコーパスが存在する事例に対処することが意図された、LDAに対する拡張である。
LDRは、単語にわたる分布を各文書に配分するトピックモデルを用いる。LDRにおいて、サブトピックと呼ばれる単語のプレースホルダーが、方言と無関係にトピックから生成され、そして、サブトピックは、方言に依存して単語を生成する。これらのサブトピックによって、LDRは、可変語、すなわち、方言に応じて変動する語間で単語確率を再配分することができる。対照的に、語彙語は、その語の用法がこれらの全ての方言について等しい場合、方言の特定の集合に関して一定である。
実施の形態は、ギブスサンプリングまたはハイブリッドモンテカルロ等のモンテカルロ法を用いて推測する方法を提供する。
統計学において、ギブスサンプリングは、2つ以上の確率変数の同時確率分布から一連のサンプルを生成する。これらのサンプルは、同時事後分布を近似する。
本発明の実施の形態によるグラフィカルモデルである。 従来技術によるトピックモデルのグラフィカルモデルである。 本発明の実施の形態によるテキストモデルの生成の流れ図である。 本発明の実施の形態によるテキストの集合をモデル化する方法の流れ図である。
序論
本発明の実施の形態は、潜在的ディリクレ再配分法(LDR)と呼ばれる、潜在的ディリクレ配分(LDA)に対する拡張を提供する。LDRは、複数のコーパスのうちの少なくともいくつかが、変動する語彙用法によって特徴付けられる一方、他のコーパスは、同じ語彙用法を有することができる事例に対処することが意図された、従来技術によるLDAに対する拡張である。一般的に、本明細書において用いられるとき、語彙用法とは、様々なテキストにおける単語の用法に関する。
LDRにおいて、トピック確率は、依然として、文書ごとにディリクレ分布から独立して抜き出され、トピックは、LDAと全く同じように、文書内の単語位置ごとに、これらの分布から抜き出される。ここで、テキスト内の各単語が、位置および単語値を有するトークンであると考える。
一方、LDRトピックは、直接単語を生成するのではなく、サブトピックと呼ばれる単語のプレースホルダーを生成する。これらのサブトピックは、単語の意味論的意味を表すことを意図される。このため、本明細書において、サブトピックの使用は、従来技術によるテキストモデル化では見出すことのできない、意味論に関係する特殊な意味を有する。
次に、各文書の単語が、サブトピックを与えられた単語の確率から抜き出される。これらの単語の確率は、コーパスの語彙用法に依存し(しかし、コーパス内の特定の文書に依存しない)、単語が現れるコーパスの語彙用法に依存して、所与の意味が異なる単語によって表されることを可能にする。これは、語彙用法に依存した、異なる単語への特定の意味の確率の「再配分」と呼ばれる。
方言ごとのサブトピックを所与とした単語の確率は、トピックを所与としたサブトピックの確率と同様に、ディリクレ分布から抜き出される。一方、サブトピックを所与とした単語の確率のディリクレ分布のパラメーターは、僅かな数の非ゼロ要素しか有しないという意味で、スパースになるように制約される。統計学において、スパース性は、当該技術分野においてよく知られた用語である。
これによって、所与のサブトピックについて、僅かな数の単語のみが有意に非ゼロの確率を有するという意味で、サブトピック内の単語数は、少ないことが確実になる。
一般に、LDRにおける推測は、
1)方言確率、
2)各文書におけるトピック確率、
3)トピックを所与としたサブトピックの確率、
4)サブトピックおよび方言を所与とした単語の確率、
5)各コーパスへの方言の割り当て、
6)各トークンへのサブトピックの割り当て、および
7)各トークンへのトピックの割り当て、
の事後分布を推定することを伴う。
関連する従来技術は、「方言トピックモデル」であり、これは、コーパス内の様々な文書を、方言の混合およびトピックの混合からの様々なサンプルと関連付ける。このモデルは、各方言がトピックを所与とした単語の確率の独自の集合を有するという点で、制約の欠如を被る。これによって、トピックが複数の方言にわたって特定可能となることが妨げられる。
本発明によるLDRモデルを差別化するものは、トピックが、トピックを所与とした方言と無関係のサブトピックの確率によって、複数の方言にわたって同じとなるように制約されることである。サブトピックを所与とした単語の確率は、方言と無関係にスパースであるディリクレ事前確率によって制約され、それによって、各サブトピックは、方言に関わらず、小さな集合に属する単語のみを生成することができる。「方言トピックモデル」の異なる構造は、そのような制約の制定を容易にしない。
従来技術による方言トピックモデルは、方言ごとに独立したトピックモデルに退化する可能性があるのに対し、本発明によるLDRモデルは、複数の方言にわたって対応するトピックモデルを生成する。別の従来技術による方法論である「トピック適応」と対照的に、本発明によるモデルは、適切な確率を語に配分し、次に、少数語間で確率を方言に依存して再配分することを可能にする。このため、本発明によるモデルを用いて、異なる方言からの文書を同時に処理することができるとともに、以前に見たことのない文書に対応する方言を推測することができる。これは、従来技術によるトピック適合法では可能でない。
本明細書において、以下の変数および関数が定義され、用いられる。
C:コーパス数
c:コーパスインデックス
:コーパスc内の文書数
d:コーパスc内の文書のインデックス
z:トピック(サブトピックにわたる分布)(z:トークンiのトピック割り当て)
k:トピックインデックス
K:トピック数
θc,d:コーパスc内の文書dのトピックにわたる分布
φ:トピックkのサブトピックにわたるトピック依存(多項)分布
u:サブトピックまたは意味(単語にわたる分布)(u:トークンiのサブトピック割り当て)
m:サブトピックインデックス
M:サブトピック数
V:語彙サイズ
J:サブトピック内の全ての方言にわたって変動することが予期される平均語数
w:単語(w:トークンiの単語割り当て)
c,d:コーパスcの文書d内の単語数
l:方言(l:コーパスcの方言割り当て)
L:方言数
ψ:方言にわたる分布
π:(ψにわたる)対称ディリクレ分布のスカラーパラメーター
γl,m:サブトピックmおよび方言lの単語にわたる多項分布
η:(γl,mにわたる)サブトピックmのサブトピック依存ディリクレ事前確率
α:(θc,dにわたる)対称ディリクレ分布のスカラーパラメーター
β:(φにわたる)対称ディリクレ分布のスカラーパラメーター
λ:指数分布をパラメーター化するスカラー
W:全ての単語割り当ての集合
Z:全てのトピック割り当ての集合
U:全てのサブトピック割り当ての集合
X:確率変数
Θ:全てのθc,dの集合
Φ:全てのφの集合
γ:全てのγl,mの集合
Dir:ディリクレ分布
exp:指数分布
Mult:多項分布
潜在的ディリクレ再配分法
LDRにおいて、コーパスc=1、・・・、C内の文書d=1、・・・、Dは、コーパスと無関係の多項事前分布から抜き出された同じコーパス依存の語彙用法(または方言)l∈{l、・・・、L}に従って書かれることが推定される。方言数がコーパス数と等しくなるように設定し、各コーパスに1つの方言を割り当てた結果、特定の事例が生じる。
各文書d=1、・・・、Dを、ディリクレ分布から抜き出されたトピックθc,dにわたる分布と関連付ける。ここで、トピックは、全てのコーパスにわたって共有されている。ここで、各トピックz∈{1、・・・、K}に、「サブトピック」にわたる分布u∈{1、・・・、M}を関連付ける。各サブトピックに、語彙語にわたる分布{1、・・・、V}を関連付ける。サブトピックの背後にある本発明者らの洞察を、以下に説明する。
トークンi=1、・・・、Nc,dごとに、θc,dに従ってトピックz=kが抜き出される。次に、サブトピックu=mがトピック依存多項分布φから抜き出される。方言およびサブトピック双方の割り当てに依存して、多項分布γl,mから語彙語が選択される。
本発明によるモデルの主要な特徴は、γ1:L,1:Mに課すサブトピック依存ディリクレ事前確率η1:Mである。この特徴の動機付けが、以下に説明される。
発生モデル
詳細には、事前に、方言数L、トピック数K、サブトピック数M、および語彙サイズVを指定する。ここで、Kは、実質的にM未満であり、Mは、V未満である。モデルは、対称ディリクレ分布の3つのスカラーパラメーターα、βおよびπを有する。スカラーλは、指数分布をパラメーター化する。
発生モデルは、
Figure 0005866018
である。
この説明を単純にするために、
Figure 0005866018
、ψおよびφ1:Kに対するディリクレ分布事前確率は、対称である。しかしながら、実際には、これらは、対称でない場合がある。
上記の発生プロセスは、モデル構造の定義にすぎず、実用においてデータを構築するのに、実際は用いられないことに留意されたい。観察データがこのように生成されたことのみが推定される。観察データの解析の目標は、逆問題を解くことによってモデルのパラメーターを推定することである。
図1は、変数間の統計的依存関係を規定する本発明によるLDRのグラフィカルモデル100を示している。これは、「プレート表記」と呼ばれる表記を用いる。右下の角に文字「X」を有する各長方形は、その構造がX回繰り返されることを意味する。ここで、大きな長方形は、同じ構造がコーパスごとに一度ずつC回繰り返されることを意味する。次に、各コーパスc内部で、中程度の大きさの長方形内の構造が再び、コーパス内の文書ごとに一度ずつD回、正確には複数のコーパスにわたって各コーパス内の文書数が変動する可能性があるので、D回繰り返される。次に、コーパスcに属する各文書dにおいて、最も内部の構造が、その文書内の単語ごとに一度ずつN回、正確には、複数の文書にわたって各文書内の単語数が変動する可能性があるので、Nc,d回繰り返される。AおよびBを連結する有向エッジが存在する場合、Aを条件として、すなわち、Aに依存する分布に従って、確率変数Bが生成される。これは、変数が同じ長方形内にあるか否かと無関係である。
これは、プロセス図でないことに留意されたい。このモデルを用いるプロセスは、所与の文書からの単語を観察し、方言等の対象となる変数の事後確率分布および/または最も可能性の高い値を得るか、または、データベースからトピック分布に最も合致する文書を得る。
図2は、従来技術によるLDAの同等なモデルを示している。そのモデルでは、外側の長方形が文書を表し、内側の長方形が文書内のトピックおよび単語の繰り返された選択を表す。
語間の再配分のモデル化
次に、本発明によるLDRの動機付けについて、洞察に焦点を当てて説明する。
単語のサブトピックの意味
M個のサブトピックは、単語Wの意図される「意味」である。方言と無関係に、トピック依存分布からサブトピックuを抜き出すこと、および単語確率が、単語および方言の双方の意図される意味に依存することは、道理にかなっている。
理想的には、全ての不変語は、独自のサブトピックに対応する。可変語の場合、モデルは、意味が等しい語をグループに割り当て、1つのサブトピックをグループ内の全ての語に関連付ける。
不変語に関連付けられたサブトピックについて考える。この場合、単語は、既に求められており、適切に構造化されたサブトピック依存多項分布
Figure 0005866018
は、確率を別の語に再配分しない。しかしながら、可変グループに対応するサブトピックが選択されると、
Figure 0005866018
は、方言に適した語に最高の確率を正しく配分する。
再配分のスパースなディリクレ分布事前確率
適切に構造化された多項分布を自動的に学習する本発明による技法を説明する。
η1:Mによってパラメーター化された、サブトピック依存の非対称ディリクレ分布事前確率をγ1:L,1:Mに与えることによって、ベイズ手法を用いて教師なし方式で適切に構造化された多項分布を自動的に学習する。
ディリクレ分布は、V−1次元において確率シンプレックスにわたって定義される。これは、各頂点が語彙語に対応する多面体である。このディリクレ分布がスパースであること、すなわち、分布が(サブトピックmの下にあるp個の可変語に対応する)多面体の(p−1)面または単一頂点(mの下にある不変語)に重みを課すことを望む。ディリクレ分布自体は、スパースでないが、分布からの抜き出しは、スパースであることが好ましい。
スパースなディリクレ分布の超事前分布
スパースなディリクレ分布は、全ての他の語よりも大きい対応するηm,j’を有する任意の高確率語彙語、例えば、サブトピックmのj’に変換される。これを促すために、各η1:Mの各構成要素にわたって、共有指数超事前分布を課す。すなわち、ηm,j〜exp{λ},m=1、・・・、M,j=1、・・・、Vを仮定する。
スカラーλを設定する発見的方法を提示する。Jが平均語数である場合、サブトピックm内で、語が全ての方言にわたって変動することを予期する。確率変数X〜i.i.d.exp(λ)からの抜き出しを考える。1よりも大きい予測サンプル語数がJとなる、すなわち
Figure 0005866018
となるように制約することを望む。対応するスカラーは、λ=log(V)−log(J)である。
平均して、コーパス内の各文書は、1つの語を使用する。これは、複数の方言間で変動する。これは、語彙内の合計で、D=ΣΣl個の可変語に対応する。これは、サブトピックにわたって均一に分布することが予期される。したがって、J=D/Mであり、
Figure 0005866018
である。
ベイズ再配分への組み合わせ探索の緩和
複数の方言間の単語の等価性を学習する問題を説明する。したがって、方言(ここでは、γ1:L)ごとに方言を最良に特徴付けする多項確率を、語に関して形成する。これは、方言における可変語を表す語の最適なスパース選択を見つけることを伴う。これは、計算的に解決困難なタスクを提示するVの冪集合に等しい探索空間との組み合わせ最適化問題である。
複数の方言にわたって共有される、ベイズ手法およびサブトピック依存ディリクレ分布事前確率を用いることによって、組み合わせ探索が連続最適化に緩和される。これは、推測中に自動的に行われる。
意味からサブトピックへ
MがVに非常に近く、全ての語彙語(または、可変語のグループ)が方言ごとに、語が用いられるときを正確に指定する対応する単語多項分布を有することが望ましい。一方、これは、LMV≒LV個の単語多項分布パラメーターを当てはめることを伴い、これは、実際の用途には妥当でない。このため、Mの値を減少させる。
推測および学習
本発明によるモデルに不都合なことに、指数分布およびディリクレ分布は、共役でなく、このため変分推測およびギブスサンプリングが容易でない。推測は、ハイブリッドモンテカルロ、崩壊型ギブスサンプリング、またはスライスサンプリング等の多岐にわたるサンプリング方法を用いることによって行うことができる。
図3は、本発明の実施の形態による文書をモデル化するステップを示している。
図1に具現化されるような確率モデル302を、コーパスおよび文書によってラベル付けされたテキストトレーニングデータを含むトレーニングデータ301と併せて用いて、方言、トピック、サブトピックおよび単語分布パラメーターで構成されるモデルパラメーター304を推定する(303)。
上記のステップは、当該技術分野において既知のメモリおよび入/出力インターフェースに接続されたプロセッサにおいて実行することができる。
この点において、モデルは、方言推定、トピック推定、トピックが関連した文書の取り出し、文書要約、または他の言語モデル化タスク等の複数の用途に用いることができる。
用途
図4は、例示的な応用形態における本発明の使用を示している。図1に具現化されるような確率モデル402を、コーパスおよび文書によってラベル付けされたテキストトレーニングデータを含むトレーニングデータ401と併せて用いて、方言、トピック、サブトピックおよび単語分布パラメーターで構成されるモデルパラメーター404を推定する(403)。
方言推定のために、テキスト入力405をモデルパラメーター404と併せて用いて方言スコアを計算し(410)、この方言スコアから方言クラス推定値411が導出される。
トピック推定のために、テキスト入力405をモデルパラメーター404と併せて用いてトピックスコアを計算し(420)、このトピックスコアからトピッククラス推定値421が導出される。
文書取り出しのために、テキスト入力405をモデルパラメーター404と併せて用いて文書スコアを計算し(430)、この文書スコアから、合致する文書ID431が導出される。
発明の効果
潜在的ディリクレ再配分法は、過適合することなく、様々な方言を用いて構築された文書を特徴付ける事前確率の学習に成功することができる。
探索用途において、質問語または文書を所与として、文書トピックの分布に従って、LDRを用いて、その語を他の各コーパスからの最も可能性の高い文書と関連付けることができる。
代替的に、関係トピックモデル等のリンク付け方法を用いて、異なるコーパスからの任意の2つの文書間のリンクを推測することができる。リンク付けされた文書は、異なる方言を除いて同じ題材をカバーすると解釈される。

Claims (9)

  1. プロセッサで実行されるプログラムによるアクセスに対応してテキストを処理して、メモリ内の該テキストのモデルを構築する方法であって、該方法は、
    前記テキストを取得するステップであって、前記テキストは、共有語彙を有し、前記テキストは、単語を含み、前記テキストは、テキストの集合に分割され、テキストの少なくとも1つの集合は、テキストの部分集合に分割され、2つ以上の集合内の前記共有語彙の用法は、異なり、2つ以上の部分集合のトピックは、異なる、取得するステップと、
    前記テキストの確率モデルをメモリに記憶するステップであって、該確率モデルは、前記テキスト内の各単語を、位置および単語値を有するトークンとみなし、前記テキスト内のトークンごとの前記共有語彙の前記用法、トピック、サブトピックおよび単語値は、前記確率モデルにおける確率変数の分布を用いて表され、前記確率変数は、離散し、テキストの各集合は、語彙用法確率変数を有し、各トークンは、前記トピック、前記サブトピックおよび前記単語値に対応する前記確率変数と関連付けられ、前記トークンの前記トピックと関連付けられる前記確率変数の前記分布は、前記トークンを含む前記テキストの部分集合に依存し、前記トークンの前記サブトピックに関連付けられた前記確率変数の前記分布は、前記トークンの前記トピックに依存し、前記トークンの前記単語値の前記確率変数の前記分布は、前記トークンを含む前記テキストの集合の前記関連付けられたサブトピックおよび前記語彙用法に依存する、記憶するステップと、
    前記単語に関連付けられた前記語彙用法、前記単語値、前記トピックおよび前記サブトピックに基づいて前記確率モデルのパラメーターを推定するステップと
    を含み、前記方法の各ステップは、プロセッサにおいて実行される、テキストを処理して該テキストのモデルを構築する方法。
  2. 前記モデルを用いて語彙用法を推定するステップをさらに含む、請求項1に記載の方法。
  3. 前記トレーニングデータ内の各語彙用法は、方言に対応する、請求項1に記載の方法。
  4. 前記モデルを用いて前記テキストの方言を推定するステップをさらに含む、請求項3に記載の方法。
  5. 語彙用法と無関係なトピックモデルを最適化するステップをさらに含む、請求項2に記載の方法。
  6. 前記モデルを用いて語彙用法に対して不変な、トピックが関連した部分集合を取り出すステップをさらに含む、請求項1に記載の方法。
  7. 前記モデルを用いてテキスト要約を実行するステップをさらに含む、請求項1に記載の方法。
  8. 前記サブトピックを所与として、単語割り当ての前記分布をスパースになるように制約するステップをさらに含む、請求項1に記載の方法。
  9. 前記モデルは、潜在的ディリクレモデルである、請求項1に記載の方法。
JP2014530845A 2012-03-28 2013-02-26 テキストを処理してテキストのモデルを構築する方法 Expired - Fee Related JP5866018B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/433,111 US9251250B2 (en) 2012-03-28 2012-03-28 Method and apparatus for processing text with variations in vocabulary usage
US13/433,111 2012-03-28
PCT/JP2013/055766 WO2013146101A1 (en) 2012-03-28 2013-02-26 Method for processing text to construct model of text

Publications (2)

Publication Number Publication Date
JP2015503776A JP2015503776A (ja) 2015-02-02
JP5866018B2 true JP5866018B2 (ja) 2016-02-17

Family

ID=47913505

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014530845A Expired - Fee Related JP5866018B2 (ja) 2012-03-28 2013-02-26 テキストを処理してテキストのモデルを構築する方法

Country Status (5)

Country Link
US (1) US9251250B2 (ja)
JP (1) JP5866018B2 (ja)
CN (1) CN104246763B (ja)
DE (1) DE112013001740T5 (ja)
WO (1) WO2013146101A1 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9519633B2 (en) * 2012-07-31 2016-12-13 Nec Corporation Word latent topic estimation device and word latent topic estimation method
CA2932399A1 (en) * 2013-12-02 2015-06-11 Qbase, LLC Method for disambiguating features in unstructured text
US9542477B2 (en) * 2013-12-02 2017-01-10 Qbase, LLC Method of automated discovery of topics relatedness
US10108674B1 (en) * 2014-08-26 2018-10-23 Twitter, Inc. Method and system for topic disambiguation and classification
US10235452B1 (en) * 2015-03-27 2019-03-19 EMC IP Holding Company LLC Expert recommendation leveraging topic clusters derived from unstructured text data
CN107015967A (zh) * 2017-03-30 2017-08-04 武汉大学 一种学术文本词汇功能框架构建方法
CN107832298A (zh) * 2017-11-16 2018-03-23 北京百度网讯科技有限公司 用于输出信息的方法和装置
KR102052823B1 (ko) * 2018-05-04 2019-12-05 군산대학교산학협력단 잠재 디리클레 할당을 이용한 토픽 모델 자동화 방법 및 장치
CN110032642B (zh) * 2019-03-26 2022-02-11 广东工业大学 基于词嵌入的流形主题模型的建模方法
JP7497997B2 (ja) 2020-02-26 2024-06-11 本田技研工業株式会社 文書分析装置
CN112287666B (zh) * 2020-10-20 2023-07-25 哈尔滨工程大学 一种基于元信息的语料库主题分布计算方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6904405B2 (en) * 1999-07-17 2005-06-07 Edwin A. Suominen Message recognition using shared language model
US7003736B2 (en) * 2001-01-26 2006-02-21 International Business Machines Corporation Iconic representation of content
US7089226B1 (en) * 2001-06-28 2006-08-08 Microsoft Corporation System, representation, and method providing multilevel information retrieval with clarification dialog
US7130837B2 (en) * 2002-03-22 2006-10-31 Xerox Corporation Systems and methods for determining the topic structure of a portion of text
US7117437B2 (en) * 2002-12-16 2006-10-03 Palo Alto Research Center Incorporated Systems and methods for displaying interactive topic-based text summaries
US20070106657A1 (en) * 2005-11-10 2007-05-10 Brzeski Vadim V Word sense disambiguation
WO2007114932A2 (en) * 2006-04-04 2007-10-11 Textdigger, Inc. Search system and method with text function tagging
US8010341B2 (en) * 2007-09-13 2011-08-30 Microsoft Corporation Adding prototype information into probabilistic models
US8185482B2 (en) * 2009-03-30 2012-05-22 Microsoft Corporation Modeling semantic and structure of threaded discussions
CN101587493B (zh) * 2009-06-29 2012-07-04 中国科学技术大学 文本分类方法
US8825648B2 (en) * 2010-04-15 2014-09-02 Microsoft Corporation Mining multilingual topics
US20120296637A1 (en) * 2011-05-20 2012-11-22 Smiley Edwin Lee Method and apparatus for calculating topical categorization of electronic documents in a collection

Also Published As

Publication number Publication date
CN104246763A (zh) 2014-12-24
CN104246763B (zh) 2017-09-01
DE112013001740T5 (de) 2015-02-26
US20130262083A1 (en) 2013-10-03
US9251250B2 (en) 2016-02-02
WO2013146101A1 (en) 2013-10-03
JP2015503776A (ja) 2015-02-02

Similar Documents

Publication Publication Date Title
JP5866018B2 (ja) テキストを処理してテキストのモデルを構築する方法
US11475319B2 (en) Extracting facts from unstructured information
Jiang et al. Sentence level topic models for associated topics extraction
US8918348B2 (en) Web-scale entity relationship extraction
Rani et al. An extractive text summarization approach using tagged-LDA based topic modeling
WO2017038657A1 (ja) 質問応答システムの訓練装置及びそのためのコンピュータプログラム
Panchenko et al. Unsupervised does not mean uninterpretable: The case for word sense induction and disambiguation
Bancken et al. Automatically Detecting and Rating Product Aspects from Textual Customer Reviews.
Anupriya et al. LDA based topic modeling of journal abstracts
Zhang et al. X-lisa: Cross-lingual semantic annotation
Aznag et al. Probabilistic topic models for web services clustering and discovery
Fejer et al. Automatic Arabic text summarization using clustering and keyphrase extraction
Limsettho et al. Unsupervised bug report categorization using clustering and labeling algorithm
Skaggs et al. Topic modeling for wikipedia link disambiguation
Chang et al. A word embedding-based approach to cross-lingual topic modeling
Lango et al. Semi-automatic construction of word-formation networks
Kyjánek et al. Universal derivations kickoff: A collection of harmonized derivational resources for eleven languages
Liu et al. Towards computation of novel ideas from corpora of scientific text
Bollegala et al. Minimally supervised novel relation extraction using a latent relational mapping
Wang et al. Topic Discovery based on LDA_col Model and Topic Significance Re-ranking.
Churchill et al. Using topic-noise models to generate domain-specific topics across data sources
Ifrim et al. Learning word-to-concept mappings for automatic text classification
Mohebbi et al. Texts semantic similarity detection based graph approach.
Wang et al. Collective personal profile summarization with social networks
Abo-Elghit et al. Embedding Extraction for Arabic Text Using the AraBERT Model.

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151006

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151029

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151201

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151228

R150 Certificate of patent or registration of utility model

Ref document number: 5866018

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees