JP5866018B2 - テキストを処理してテキストのモデルを構築する方法 - Google Patents
テキストを処理してテキストのモデルを構築する方法 Download PDFInfo
- Publication number
- JP5866018B2 JP5866018B2 JP2014530845A JP2014530845A JP5866018B2 JP 5866018 B2 JP5866018 B2 JP 5866018B2 JP 2014530845 A JP2014530845 A JP 2014530845A JP 2014530845 A JP2014530845 A JP 2014530845A JP 5866018 B2 JP5866018 B2 JP 5866018B2
- Authority
- JP
- Japan
- Prior art keywords
- text
- model
- topic
- word
- distribution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Description
本発明の実施の形態は、潜在的ディリクレ再配分法(LDR)と呼ばれる、潜在的ディリクレ配分(LDA)に対する拡張を提供する。LDRは、複数のコーパスのうちの少なくともいくつかが、変動する語彙用法によって特徴付けられる一方、他のコーパスは、同じ語彙用法を有することができる事例に対処することが意図された、従来技術によるLDAに対する拡張である。一般的に、本明細書において用いられるとき、語彙用法とは、様々なテキストにおける単語の用法に関する。
1)方言確率、
2)各文書におけるトピック確率、
3)トピックを所与としたサブトピックの確率、
4)サブトピックおよび方言を所与とした単語の確率、
5)各コーパスへの方言の割り当て、
6)各トークンへのサブトピックの割り当て、および
7)各トークンへのトピックの割り当て、
の事後分布を推定することを伴う。
C:コーパス数
c:コーパスインデックス
DC:コーパスc内の文書数
d:コーパスc内の文書のインデックス
z:トピック(サブトピックにわたる分布)(zi:トークンiのトピック割り当て)
k:トピックインデックス
K:トピック数
θc,d:コーパスc内の文書dのトピックにわたる分布
φk:トピックkのサブトピックにわたるトピック依存(多項)分布
u:サブトピックまたは意味(単語にわたる分布)(ui:トークンiのサブトピック割り当て)
m:サブトピックインデックス
M:サブトピック数
V:語彙サイズ
J:サブトピック内の全ての方言にわたって変動することが予期される平均語数
w:単語(wi:トークンiの単語割り当て)
Nc,d:コーパスcの文書d内の単語数
l:方言(lc:コーパスcの方言割り当て)
L:方言数
ψ:方言にわたる分布
π:(ψにわたる)対称ディリクレ分布のスカラーパラメーター
γl,m:サブトピックmおよび方言lの単語にわたる多項分布
ηm:(γl,mにわたる)サブトピックmのサブトピック依存ディリクレ事前確率
α:(θc,dにわたる)対称ディリクレ分布のスカラーパラメーター
β:(φkにわたる)対称ディリクレ分布のスカラーパラメーター
λ:指数分布をパラメーター化するスカラー
W:全ての単語割り当ての集合
Z:全てのトピック割り当ての集合
U:全てのサブトピック割り当ての集合
X:確率変数
Θ:全てのθc,dの集合
Φ:全てのφkの集合
γ:全てのγl,mの集合
Dir:ディリクレ分布
exp:指数分布
Mult:多項分布
LDRにおいて、コーパスc=1、・・・、C内の文書d=1、・・・、DCは、コーパスと無関係の多項事前分布から抜き出された同じコーパス依存の語彙用法(または方言)lc∈{l、・・・、L}に従って書かれることが推定される。方言数がコーパス数と等しくなるように設定し、各コーパスに1つの方言を割り当てた結果、特定の事例が生じる。
詳細には、事前に、方言数L、トピック数K、サブトピック数M、および語彙サイズVを指定する。ここで、Kは、実質的にM未満であり、Mは、V未満である。モデルは、対称ディリクレ分布の3つのスカラーパラメーターα、βおよびπを有する。スカラーλは、指数分布をパラメーター化する。
次に、本発明によるLDRの動機付けについて、洞察に焦点を当てて説明する。
M個のサブトピックは、単語Wiの意図される「意味」である。方言と無関係に、トピック依存分布からサブトピックuiを抜き出すこと、および単語確率が、単語および方言の双方の意図される意味に依存することは、道理にかなっている。
適切に構造化された多項分布を自動的に学習する本発明による技法を説明する。
スパースなディリクレ分布は、全ての他の語よりも大きい対応するηm,j’を有する任意の高確率語彙語、例えば、サブトピックmのj’に変換される。これを促すために、各η1:Mの各構成要素にわたって、共有指数超事前分布を課す。すなわち、ηm,j〜exp{λ},m=1、・・・、M,j=1、・・・、Vを仮定する。
複数の方言間の単語の等価性を学習する問題を説明する。したがって、方言(ここでは、γ1:L)ごとに方言を最良に特徴付けする多項確率を、語に関して形成する。これは、方言における可変語を表す語の最適なスパース選択を見つけることを伴う。これは、計算的に解決困難なタスクを提示するVの冪集合に等しい探索空間との組み合わせ最適化問題である。
MがVに非常に近く、全ての語彙語(または、可変語のグループ)が方言ごとに、語が用いられるときを正確に指定する対応する単語多項分布を有することが望ましい。一方、これは、LMV≒LV2個の単語多項分布パラメーターを当てはめることを伴い、これは、実際の用途には妥当でない。このため、Mの値を減少させる。
本発明によるモデルに不都合なことに、指数分布およびディリクレ分布は、共役でなく、このため変分推測およびギブスサンプリングが容易でない。推測は、ハイブリッドモンテカルロ、崩壊型ギブスサンプリング、またはスライスサンプリング等の多岐にわたるサンプリング方法を用いることによって行うことができる。
図4は、例示的な応用形態における本発明の使用を示している。図1に具現化されるような確率モデル402を、コーパスおよび文書によってラベル付けされたテキストトレーニングデータを含むトレーニングデータ401と併せて用いて、方言、トピック、サブトピックおよび単語分布パラメーターで構成されるモデルパラメーター404を推定する(403)。
潜在的ディリクレ再配分法は、過適合することなく、様々な方言を用いて構築された文書を特徴付ける事前確率の学習に成功することができる。
Claims (9)
- プロセッサで実行されるプログラムによるアクセスに対応してテキストを処理して、メモリ内の該テキストのモデルを構築する方法であって、該方法は、
前記テキストを取得するステップであって、前記テキストは、共有語彙を有し、前記テキストは、単語を含み、前記テキストは、テキストの集合に分割され、テキストの少なくとも1つの集合は、テキストの部分集合に分割され、2つ以上の集合内の前記共有語彙の用法は、異なり、2つ以上の部分集合のトピックは、異なる、取得するステップと、
前記テキストの確率モデルをメモリに記憶するステップであって、該確率モデルは、前記テキスト内の各単語を、位置および単語値を有するトークンとみなし、前記テキスト内のトークンごとの前記共有語彙の前記用法、トピック、サブトピックおよび単語値は、前記確率モデルにおける確率変数の分布を用いて表され、前記確率変数は、離散し、テキストの各集合は、語彙用法確率変数を有し、各トークンは、前記トピック、前記サブトピックおよび前記単語値に対応する前記確率変数と関連付けられ、前記トークンの前記トピックと関連付けられる前記確率変数の前記分布は、前記トークンを含む前記テキストの部分集合に依存し、前記トークンの前記サブトピックに関連付けられた前記確率変数の前記分布は、前記トークンの前記トピックに依存し、前記トークンの前記単語値の前記確率変数の前記分布は、前記トークンを含む前記テキストの集合の前記関連付けられたサブトピックおよび前記語彙用法に依存する、記憶するステップと、
前記単語に関連付けられた前記語彙用法、前記単語値、前記トピックおよび前記サブトピックに基づいて前記確率モデルのパラメーターを推定するステップと
を含み、前記方法の各ステップは、プロセッサにおいて実行される、テキストを処理して該テキストのモデルを構築する方法。 - 前記モデルを用いて語彙用法を推定するステップをさらに含む、請求項1に記載の方法。
- 前記トレーニングデータ内の各語彙用法は、方言に対応する、請求項1に記載の方法。
- 前記モデルを用いて前記テキストの方言を推定するステップをさらに含む、請求項3に記載の方法。
- 語彙用法と無関係なトピックモデルを最適化するステップをさらに含む、請求項2に記載の方法。
- 前記モデルを用いて語彙用法に対して不変な、トピックが関連した部分集合を取り出すステップをさらに含む、請求項1に記載の方法。
- 前記モデルを用いてテキスト要約を実行するステップをさらに含む、請求項1に記載の方法。
- 前記サブトピックを所与として、単語割り当ての前記分布をスパースになるように制約するステップをさらに含む、請求項1に記載の方法。
- 前記モデルは、潜在的ディリクレモデルである、請求項1に記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/433,111 US9251250B2 (en) | 2012-03-28 | 2012-03-28 | Method and apparatus for processing text with variations in vocabulary usage |
US13/433,111 | 2012-03-28 | ||
PCT/JP2013/055766 WO2013146101A1 (en) | 2012-03-28 | 2013-02-26 | Method for processing text to construct model of text |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015503776A JP2015503776A (ja) | 2015-02-02 |
JP5866018B2 true JP5866018B2 (ja) | 2016-02-17 |
Family
ID=47913505
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014530845A Expired - Fee Related JP5866018B2 (ja) | 2012-03-28 | 2013-02-26 | テキストを処理してテキストのモデルを構築する方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US9251250B2 (ja) |
JP (1) | JP5866018B2 (ja) |
CN (1) | CN104246763B (ja) |
DE (1) | DE112013001740T5 (ja) |
WO (1) | WO2013146101A1 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9519633B2 (en) * | 2012-07-31 | 2016-12-13 | Nec Corporation | Word latent topic estimation device and word latent topic estimation method |
CA2932399A1 (en) * | 2013-12-02 | 2015-06-11 | Qbase, LLC | Method for disambiguating features in unstructured text |
US9542477B2 (en) * | 2013-12-02 | 2017-01-10 | Qbase, LLC | Method of automated discovery of topics relatedness |
US10108674B1 (en) * | 2014-08-26 | 2018-10-23 | Twitter, Inc. | Method and system for topic disambiguation and classification |
US10235452B1 (en) * | 2015-03-27 | 2019-03-19 | EMC IP Holding Company LLC | Expert recommendation leveraging topic clusters derived from unstructured text data |
CN107015967A (zh) * | 2017-03-30 | 2017-08-04 | 武汉大学 | 一种学术文本词汇功能框架构建方法 |
CN107832298A (zh) * | 2017-11-16 | 2018-03-23 | 北京百度网讯科技有限公司 | 用于输出信息的方法和装置 |
KR102052823B1 (ko) * | 2018-05-04 | 2019-12-05 | 군산대학교산학협력단 | 잠재 디리클레 할당을 이용한 토픽 모델 자동화 방법 및 장치 |
CN110032642B (zh) * | 2019-03-26 | 2022-02-11 | 广东工业大学 | 基于词嵌入的流形主题模型的建模方法 |
JP7497997B2 (ja) | 2020-02-26 | 2024-06-11 | 本田技研工業株式会社 | 文書分析装置 |
CN112287666B (zh) * | 2020-10-20 | 2023-07-25 | 哈尔滨工程大学 | 一种基于元信息的语料库主题分布计算方法 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6904405B2 (en) * | 1999-07-17 | 2005-06-07 | Edwin A. Suominen | Message recognition using shared language model |
US7003736B2 (en) * | 2001-01-26 | 2006-02-21 | International Business Machines Corporation | Iconic representation of content |
US7089226B1 (en) * | 2001-06-28 | 2006-08-08 | Microsoft Corporation | System, representation, and method providing multilevel information retrieval with clarification dialog |
US7130837B2 (en) * | 2002-03-22 | 2006-10-31 | Xerox Corporation | Systems and methods for determining the topic structure of a portion of text |
US7117437B2 (en) * | 2002-12-16 | 2006-10-03 | Palo Alto Research Center Incorporated | Systems and methods for displaying interactive topic-based text summaries |
US20070106657A1 (en) * | 2005-11-10 | 2007-05-10 | Brzeski Vadim V | Word sense disambiguation |
WO2007114932A2 (en) * | 2006-04-04 | 2007-10-11 | Textdigger, Inc. | Search system and method with text function tagging |
US8010341B2 (en) * | 2007-09-13 | 2011-08-30 | Microsoft Corporation | Adding prototype information into probabilistic models |
US8185482B2 (en) * | 2009-03-30 | 2012-05-22 | Microsoft Corporation | Modeling semantic and structure of threaded discussions |
CN101587493B (zh) * | 2009-06-29 | 2012-07-04 | 中国科学技术大学 | 文本分类方法 |
US8825648B2 (en) * | 2010-04-15 | 2014-09-02 | Microsoft Corporation | Mining multilingual topics |
US20120296637A1 (en) * | 2011-05-20 | 2012-11-22 | Smiley Edwin Lee | Method and apparatus for calculating topical categorization of electronic documents in a collection |
-
2012
- 2012-03-28 US US13/433,111 patent/US9251250B2/en not_active Expired - Fee Related
-
2013
- 2013-02-26 CN CN201380017595.5A patent/CN104246763B/zh not_active Expired - Fee Related
- 2013-02-26 JP JP2014530845A patent/JP5866018B2/ja not_active Expired - Fee Related
- 2013-02-26 WO PCT/JP2013/055766 patent/WO2013146101A1/en active Application Filing
- 2013-02-26 DE DE112013001740.7T patent/DE112013001740T5/de not_active Withdrawn
Also Published As
Publication number | Publication date |
---|---|
CN104246763A (zh) | 2014-12-24 |
CN104246763B (zh) | 2017-09-01 |
DE112013001740T5 (de) | 2015-02-26 |
US20130262083A1 (en) | 2013-10-03 |
US9251250B2 (en) | 2016-02-02 |
WO2013146101A1 (en) | 2013-10-03 |
JP2015503776A (ja) | 2015-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5866018B2 (ja) | テキストを処理してテキストのモデルを構築する方法 | |
US11475319B2 (en) | Extracting facts from unstructured information | |
Jiang et al. | Sentence level topic models for associated topics extraction | |
US8918348B2 (en) | Web-scale entity relationship extraction | |
Rani et al. | An extractive text summarization approach using tagged-LDA based topic modeling | |
WO2017038657A1 (ja) | 質問応答システムの訓練装置及びそのためのコンピュータプログラム | |
Panchenko et al. | Unsupervised does not mean uninterpretable: The case for word sense induction and disambiguation | |
Bancken et al. | Automatically Detecting and Rating Product Aspects from Textual Customer Reviews. | |
Anupriya et al. | LDA based topic modeling of journal abstracts | |
Zhang et al. | X-lisa: Cross-lingual semantic annotation | |
Aznag et al. | Probabilistic topic models for web services clustering and discovery | |
Fejer et al. | Automatic Arabic text summarization using clustering and keyphrase extraction | |
Limsettho et al. | Unsupervised bug report categorization using clustering and labeling algorithm | |
Skaggs et al. | Topic modeling for wikipedia link disambiguation | |
Chang et al. | A word embedding-based approach to cross-lingual topic modeling | |
Lango et al. | Semi-automatic construction of word-formation networks | |
Kyjánek et al. | Universal derivations kickoff: A collection of harmonized derivational resources for eleven languages | |
Liu et al. | Towards computation of novel ideas from corpora of scientific text | |
Bollegala et al. | Minimally supervised novel relation extraction using a latent relational mapping | |
Wang et al. | Topic Discovery based on LDA_col Model and Topic Significance Re-ranking. | |
Churchill et al. | Using topic-noise models to generate domain-specific topics across data sources | |
Ifrim et al. | Learning word-to-concept mappings for automatic text classification | |
Mohebbi et al. | Texts semantic similarity detection based graph approach. | |
Wang et al. | Collective personal profile summarization with social networks | |
Abo-Elghit et al. | Embedding Extraction for Arabic Text Using the AraBERT Model. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20151006 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151029 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20151201 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151228 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5866018 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |