JP2004046621A - Method and device for extracting multiple topics in text, program therefor, and recording medium recording this program - Google Patents

Method and device for extracting multiple topics in text, program therefor, and recording medium recording this program Download PDF

Info

Publication number
JP2004046621A
JP2004046621A JP2002204434A JP2002204434A JP2004046621A JP 2004046621 A JP2004046621 A JP 2004046621A JP 2002204434 A JP2002204434 A JP 2002204434A JP 2002204434 A JP2002204434 A JP 2002204434A JP 2004046621 A JP2004046621 A JP 2004046621A
Authority
JP
Japan
Prior art keywords
text
parameters
topics
topic
probability model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002204434A
Other languages
Japanese (ja)
Other versions
JP3868344B2 (en
Inventor
Shuko Ueda
上田 修功
Kazumi Saito
斉藤 和巳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2002204434A priority Critical patent/JP3868344B2/en
Publication of JP2004046621A publication Critical patent/JP2004046621A/en
Application granted granted Critical
Publication of JP3868344B2 publication Critical patent/JP3868344B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To smoothly extract multiple topics in a text. <P>SOLUTION: A certain text is input to a text preprocessing part 1 to calculate the frequency of a word in its vocabulary to create a word-frequency vector. Based on the frequency vector, a parameter for the probability model of multi-topic text is expressed by the linear sum of parameters for the probability models of single-topic texts. Next, a model parameter estimating part 2 learns parameters for probability models using the word-frequency vector and a topic vector to which the text belongs. For a text whose topics are unknown, the text preprocessing part 4 calculates a word frequency vector, and using the learned parameters for the probability models, a multi-topic anticipating part 5 extracts from the word frequency vector the multiple topics to which the text belongs. <P>COPYRIGHT: (C)2004,JPO

Description

【0001】
【発明の属する技術分野】
本発明は、インターネット、電子図書館、電子メール、電子カルテ等の電子的に蓄積された非定型テキストを予め定めたトピックに自動分類する方法および装置に関する。
【0002】
【従来の技術】
近年、大量のテキストが電子的に蓄積されつつある。テキストは、通常、単一よりはむしろ複数のトピックスで構成されるので、テキストから多重トピックスを抽出する方法の開発は重要研究課題となっている。この抽出問題は文字認識のようなサンプルを排他的な単一クラスに分類するパターン認識問題とは異なる。
【0003】
多重トピックス抽出問題は、多クラス、多重ラベルテキスト分類問題として多くの研究者に知られており、従来、全てのトピック毎にそのトピックに属するか否かの識別を逐次行うという2分類アプローチが採られていた。つまり、2分類アプローチでは多重トピックス抽出問題を各トピック毎に独立した2分類問題に分解して解いていた。この場合、あるトピックを担当する2分類器はテキストをそのトピックとそれ以外のトピックのいずれかに分類する。2分類器の著名な公知手法として、サポートベクトルマシン(Sup port Vector Machine: SVM, V. N. Vapnik, 鉄tatistical learning theory   John Wiley & Sons, Inc., New York, 1998)あるいは、ナイーブベイズ法(D. Lewis and M. Ringuette, 鄭 comparison of two learning algorithms for text categorization   In Third Anual Symposium on Document Analysis and Information Retrieval (SDAIR’94),
81−93, 1994)がある。
【0004】
【発明が解決しようとする課題】
しかしながら、これら2分類アプローチは多重トピックスを同時に考慮していない。換言すれば、2分類アプローチは多重テキストの生成モデルを考慮していないため、性能限界があると考えられる。
【0005】
また、ニューラルネットワークのような関数近似法や、特徴ベクトル間の類似性で分類するk近傍法は、原理的には、多重トピックス抽出を2分類アプローチのように単一トピックに分解すること無しに多重トピックス抽出が可能である。しかし、これらの方法も多重テキストの生成モデルを考慮していないため、2分類アプローチ同様、性能限界があると考えられる。
【0006】
本発明の目的は、多重トピックスを一撃的に抽出する、多重トピックスの抽出方法、装置、プログラム、該プログラムを記録した記録媒体を提供することにある。
【0007】
【課題を解決するための手段】
テキストの表現
本発明におけるテキストの表現法を説明する。まず、テキスト中から予め定めた語彙に含まれる単語を抽出し、それらの単語の使用頻度をベクトル表現する。すなわち、1つのテキスト1つの単語頻度はベクトル
【0008】
【外1】

Figure 2004046621
で表現される。
ここで、xは語彙
【0009】
【外2】
Figure 2004046621
中の単語wが前記テキスト中で出現した回数を表す。Vは語彙中の単語総数である。つまり、
【0010】
【外3】
Figure 2004046621
はV次元ユークリッド空間中の点として表現されることになる。さらに、
【0011】
【外4】
Figure 2004046621
は語彙中の全単語に渡る多項分布から生成されると仮定する。
【0012】
【数1】
Figure 2004046621
ここで、
【0013】
【外5】
Figure 2004046621
はモデルパラメータで、第i番目の要素θは単語wが生起する確率を表す。明らかに、
【0014】
【数2】
Figure 2004046621
【0015】
次に、テキストが帰属するトピックスベクトルを
【0016】
【数3】
Figure 2004046621
で定義する。ここで、
【0017】
【外6】
Figure 2004046621
の第l要素yは1または0の値をとり、テキストが第lトピックに属する場合に限りy=1とする。ここに、Lは全トピック数で、予め既知とする。また、テキストはLトピックスの少なくとも1つには帰属するものと仮定する。すなわち、
【0018】
【外7】
Figure 2004046621
中の少なくとも一つの要素は1をとる。
多重トピックステキストの確率モデルのパラメータの表現
本発明の核となる多重トピックスの確率モデルの基本的な考え方を、2つのトピックス(L=2)、かつ、語彙が3つの単語(w,w,w)(V=3)からなる簡単な例で以下に説明する。
【0019】
今、単一トピックCおよびCに属すテキスト中の単語が、各々、多項分布
【0020】
【外8】
Figure 2004046621
から生成され、かつ、各々の多項分布のパラメータはφ(C)=(0.7,0.1,0.2)およびφ(C)=(0.1,0.7,0.2)と仮定する。これは、トピックCに属するテキストでは、3種類の単語w,w,wが各々0.7,0.1,0.2の確率で生起していることを意味する。トピックCも同様である。
【0021】
図4(a)中の’0’,’+’は各々φ(C),φ(C)から人工的に生成されたサンプル(単語頻度ベクトル)である。1つの’0’(’+’)がトピックC(C)のテキストに対応する。テキスト中の単語総数、つまり、頻度ベクトルの要素の和は100から800の範囲で分布させている。パラメータベクトルφは図4(c)の正三角形に示す2次元単体θ+θ+θ=1上にある。
【0022】
1,2をトピックCとCの両方に属する多重トピックスクラスを表すものとする。この時、C1,2に属するテキスト中の単語はCとCに関連する単語の混合から成ると考えられる。例えば、“スポーツ”と“音楽”の両方に属するテキストには両方のトピックスに関連する単語が出現すると考えられる。ただし、“スポーツ”と“音楽”の両方に属するテキストでも、より“スポーツ”に関連するテキストである場合も考えられるので、2つのトピックス間の混合比、すなわち、2つのトピックス間の相対的な強さの割合は必ずしも等しいとは限らない。
【0023】
上記の“単語の混合”なる考え方に従い、C1,2に属す単語頻度サンプルを、図4(b)中の’△’に示すように、C,Cの各々に属する単語頻度ベクトルの混合として人工的に生成した。混合比は0.2から0.8の範囲でランダムに設定した。C1,2のサンプルはCとCのサンプルの分布を内挿するような分布となっている。
【0024】
ここで、注意すべきは、C1,2に属するサンプルは2つの多項分布
【0025】
【外9】
Figure 2004046621
の混合分布からは生成できないことである。パラメータφ(C)の最尤推定値は
【0026】
【外10】
Figure 2004046621
に比例すること、および、C1,2のサンプルの生成過程より、多重トピックスクラスC1,2のモデルパラメータφ(C1,2)はφ(C)とφ(C)の線形和として近似表現できることが分る。つまり、C1,2に属するサンプルは
【0027】
【数4】
Figure 2004046621
なるパラメータを持つ多項分布の実現値と見ることができる。ただし、α(0<α<1)は混合比を表す。実際、人工的に生成されたサンプルに基づいて算出したC1,2のパラメータの最尤推定値を図4(c)に示す。
【0028】
上記考え方を一般化すると、多重トピックスに属するテキスト中の単語の頻度分布は、単一トピックの多項分布のパラメータを基底パラメータとしそれらの線形和として表現されるパラメータをもつ多項分布となる。すなわち、トピックスベクトル
【0029】
【外11】
Figure 2004046621
のテキストの単語頻度分布は、
【0030】
【数5】
Figure 2004046621
をパラメータとする多項分布に従う。ここで、
【0031】
【外12】
Figure 2004046621
は単一トピックCの多項分布のパラメータを表す。
【0032】
先に述べたように、多重トピックステキストはそのトピックスの中で特にあるトピックに関してより重点的に記述されていることがある。式(4)ではそうした重みづけは考慮されていない。そこでこの重みをパラメータとして考慮したより柔軟な線形和を次式で定義する。
【0033】
【数6】
Figure 2004046621
【0034】
ここで、
【0035】
【外13】
Figure 2004046621
とし、混合比αl,m(>0)は
【0036】
【数7】
Figure 2004046621
を満たす。αl,l=0.5より
【0037】
【外14】
Figure 2004046621
となることに注意。また、
【0038】
【外15】
Figure 2004046621
が成り立つ。式(4),(5)共、V個の要素の和は1となることに注意。
【0039】
式(4)と式(5)との差は、式(4)では未知パラメータΘは、単一トピックの多項分布のパラメータ
【0040】
【数8】
Figure 2004046621
であるのに対し、式(5)では式(6)のパラメータに加え、αlm(l≠m)(等価的に
【0041】
【外16】
Figure 2004046621
も未知パラメータ扱いされることになる。
【0042】
【数9】
Figure 2004046621
【0043】
いずれの線形和の場合も、トピックスベクトル
【0044】
【外17】
Figure 2004046621
に属する多重トピックステキストの単語頻度ベクトル
【0045】
【外18】
Figure 2004046621
の確率分布は
【0046】
【数10】
Figure 2004046621
で表される。ここに、
【0047】
【外19】
Figure 2004046621
の第i要素を表す。
【0048】
上記以外の線形和も考えられるが、本発明では、トピックスベクトル
【0049】
【外20】
Figure 2004046621
に対応するモデルのパラメータ
【0050】
【外21】
Figure 2004046621
がL個の単一トピックの多項分布のパラメータ
【0051】
【外22】
Figure 2004046621
の線形和で表現されることを特徴とする。したがって、線形和の形態は式(4),(5)に限定されない。
確率モデルのパラメータの推定
次に、未知パラメータの推定法について説明する。
【0052】
【数11】
Figure 2004046621
を与えられた学習データとする。
【0053】
【外23】
Figure 2004046621
は第nテキストの単語頻度ベクトルと多重トピックスベクトルを表す。Nはテキスト総数。この時、未知パラメータΘは、学習データ
【0054】
【外24】
Figure 2004046621
が与えられた下でのパラメータの事後分布の最大化により推定する。すなわち、
【0055】
【数12】
Figure 2004046621
パラメータ
【0056】
【外25】
Figure 2004046621
およびαl,mの事前分布は、各々次式に示すように多項分布の共役事前分布であるディレクレ分布とする。
【0057】
【数13】
Figure 2004046621
ここで、ξおよびζはハイパーパラメータで、通常、ξ=2およびζ=2とする。
【0058】
トピックスベクトル
【0059】
【外26】
Figure 2004046621
は一様分布と仮定すると、式(10)およびベイズの定理より
【0060】
【外27】
Figure 2004046621
は次の目的関数
【0061】
【数14】
Figure 2004046621
をΘに関して最大化することにより求まる。
トピックスベクトルの予測
次に、モデルパラメータの推定値を用いて新たなテキストのトピックスベクトルの値を予測する方法を以下に説明する。
【0062】
【外28】
Figure 2004046621
を推定パラメータとすると、ここでの予測とは、新たなテキストの単語頻度ベクトル
【0063】
【外29】
Figure 2004046621
からトピックスベクトル
【0064】
【外30】
Figure 2004046621
の値を予測することである。そして、最適なトピックスベクトル値は
【0065】
【外31】
Figure 2004046621
および
【0066】
【外32】
Figure 2004046621
が与えられた下での
【0067】
【外33】
Figure 2004046621
の事後分布を最大にする
【0068】
【外34】
Figure 2004046621
として求められる。
【0069】
ベイズの定理より
【0070】
【数15】
Figure 2004046621
さらに、
【0071】
【外35】
Figure 2004046621
の事前分布を一様分布と仮定すると、結局、最適トピックスベクトル
【0072】
【外36】
Figure 2004046621

【0073】
【外37】
Figure 2004046621
を最大化する
【0074】
【外38】
Figure 2004046621
として求められる。
【0075】
【数16】
Figure 2004046621
【0076】
【発明の実施の形態】
次に、本発明の実施の形態について図面を参照して説明する。
【0077】
図1は本発明の一実施形態の、テキストの多重トピックス抽出装置の構成図、図2はその動作を示すフローチャートである。
【0078】
学習データである任意のテキストをテキスト前処理部1に入力し、語彙中の単語の頻度を算出し、単語頻度ベクトルを作成し(ステップ11)、該頻度ベクトルに基づいて、多重トピックスを有するテキストの単語の頻度分布、すなわち多重トピックステキストの確率モデルのパラメータを、各単一トピックのテキストの確率モデルのパラメータの線形和で表現する(ステップ12)。次に、モデルパラメータ推定部2において該単語頻度ベクトルとテキストの帰属トピックスベクトルを用いて確率モデルのパラメータを学習し、学習結果を推定モデルパラメータ保存部3に格納する(ステップ13)。トピックスが未知のテキストに対して、テキスト前処理部4で単語頻度ベクトルを算出し(ステップ14)、多重トピックス予測部5で、該単語頻度ベクトルから、推定モデルパラメータ保存部3に保存されている、学習済みの確率モデルのパラメータを用いて、該テキストの帰属する多重トピックスを抽出する(ステップ15)。
【0079】
以下に本実施形態の核となるモデルパラメータ推定部2と多重トピックス予測部5の処理を詳細に説明する。
【0080】
モデルパラメータ推定部2
式(4)の線形和の場合、式(13)の目的関数は次式のように具体化される。
【0081】
【数17】
Figure 2004046621
ここで、
【0082】
【外39】
Figure 2004046621
は対数尤度項で
【0083】
【数18】
Figure 2004046621
で与えられる。したがって、最適なパラメータは式(15)をΘに関して最大化することにより求まる。しかしながら、この最大化は解析的に求めることができず、以下に示すように逐次反復法により求める。
【0084】
便宜上、
【0085】
【数19】
Figure 2004046621
とおき、かつ、
【0086】
【外40】
Figure 2004046621
を反復の第tステップでの推定値とし、さらに、
【0087】
【数20】
Figure 2004046621
とおく。
【0088】
【外41】
Figure 2004046621
に注意。この時、式(17)は次式のように書き換えられる。
【0089】
【数21】
Figure 2004046621
ただし、
【0090】
【外42】
Figure 2004046621
は次式で定義される。
【0091】
【数22】
Figure 2004046621
【0092】
Jensenの不等式より、
【0093】
【数23】
Figure 2004046621
が成立することに注意すると、もし
【0094】
【数24】
Figure 2004046621
ならば、式(20)より
【0095】
【数25】
Figure 2004046621
が成り立つ。故に、
【0096】
【数26】
Figure 2004046621
をΘに関して最大化することにより
【外43】
Figure 2004046621
を増大させることができる。
【0097】
式(23)の最大化はラグランジュ乗数法により解けて
【0098】
【数27】
Figure 2004046621
として求まる。ここに
【0099】
【外44】
Figure 2004046621
は式(19)で与えられる。式(24)をl=1,…,L、i=1,…,Vに対して計算することにより式(4)の線形和のモデルに対する未知パラメータが求まる。
【0100】
多重トピックス予測部5
式(4)に対して式(15)に基づく多重トピックスの予測は、次式の
【0101】
【外45】
Figure 2004046621
に関する最大化問題となる。
【0102】
【数28】
Figure 2004046621
【0103】
上記最大化問題は、単純には、
【0104】
【外46】
Figure 2004046621
の可能な値の全てについて評価すれば求まるが、解候補数は2−1通り故、Lが大きくなるとそうした単純な全数探索方法では現実時間で解くことが困難となる。そこで、以下に示す近似アルゴリズムにより近似解を求める。
予測アルゴリズム
ステップ1. 初期化S:={1,2,…,L},
【0105】
【外47】
Figure 2004046621
【0106】
ステップ2. Sが空集合でない限り以下を実行
ステップ2−1. S中の要素lの各々について、
【0107】
【外48】
Figure 2004046621
を算出し、これをυ(l)とする。
【0108】
ステップ2−2. υ(l)を最大化するlをlとし、もしυ(l)>υmaxなら
【0109】
【外49】
Figure 2004046621
,υmax:=υ(l)とし、ステップ2へ。さもなくば、
【0110】
【外50】
Figure 2004046621
を最終的な解として終了する。
【0111】
ここで、表記“:=”は右辺の値を左辺に代入することを意味する。また、
【0112】
【外51】
Figure 2004046621
はL次元零ベクトルを表す。さらに
【0113】
【外52】
Figure 2004046621

【0114】
【外53】
Figure 2004046621
の第l番目を1とし、Sから{l}を除いた全ての要素を零に設定した時の
【0115】
【外54】
Figure 2004046621
の値、すなわち、式(14)に示した事後分布
【0116】
【外55】
Figure 2004046621
の値を表す。つまり、
【0117】
【外56】
Figure 2004046621
と初期化された
【0118】
【外57】
Figure 2004046621
に対し、L個の要素の1つだけ1として事後分布が最大となるlを見つけlとし、次に、l=1と固定して、残りのL−1個の要素に対し、1つだけ1として事後分布が最大となるlを見つけていくという処理を、事後分布が増大しなくなるまで繰り返す。
【0119】
上記アルゴリズムは帯域的最適性は保証しないが、式(25)の評価が高々L(L+1)/2回で済み、全数探索の2−1回に比べ極めて効率的である。
【0120】
語彙数をV=100、トピックス数をL=10として人工的に作成した単語頻度ベクトルからなる人工テキストを用いた実験で本発明の有効性を示す。
【0121】
まず、ジップの法則を考慮しつつ、乱数を用いて各トピックの多項分布パラメータ(基底ベクトル)を設定した。そして、作成したパラメータに基づき1,000テキストからなる学習データ、および100,000テキストからなるテストデータを生成した。ただし、各テキストが持つトピックス数をmとすれば、その分布は1/2となるようにした。すなわち、学習データではトピックス数が1のテキストが500、トピックス数が2のテキストが250などとなり、多重度が増す程、テキスト数が指数的に減少するようにし、現実データの分布を反映させた。一方、各テキストの単語頻度ベクトルについては、既に説明したようにパラメータの線形和を用いて多重トピックスの多項分布を作り、この分布に基づいて単語の頻度ベクトルを生成した。
【0122】
図1に示した本発明の実施形態の構成図に従い、まず、学習データをテキスト前処理部1に入力して処理を施し、次いで、その結果をモデルパラメータ推定部2に入力して学習することにより推定モデルパラメータを求めた。そして、テストデータをテキスト前処理部4に入力して処理を施し、得られた単語頻度ベクトルとすでに求めた推定モデルパラメータを多重トピックス予測部5に入力して多重トピックスを予測することにより抽出結果を得た。テストデータの各々の正解トピック情報は既知故、予測結果と比較することにより多重トピックス抽出方法の評価が可能となる。
【0123】
図3に、これまで世界最高性能と報告されていたサポートベクトルマシンと本発明での性能を比較する。ただし、サポートベクトルマシンの適用では、各トピック毎の2分類問題を作り、学習データを用いて2分類器を構成し、その分類器群を用いて多重トピックス抽出結果を予測した。抽出性能の評価には、情報検索などで標準的に利用されるF値を採用した。なお、F値は、的中率と網羅率の調和平均として定義される。学習データ数が1,000の場合、本発明を適用すれば、サポートベクトルマシンより約15%も高い性能が得られることが分かる。また、学習データ数を減らした評価では、サポートベクトルマシンの性能がかなり劣化するのに対し、本発明の適用では極めて僅かな劣化であった。すなわち、本発明は学習データ数の変動に対しサポートベクトルマシンに比べはるかに頑健な手法であると言える。
【0124】
なお、以上説明した、テキストの多重トピックス抽出方法は専用のハードウェアにより実現されるもの以外に、その機能を実現するためのプログラムを、コンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行するものであってもよい。コンピュータ読み取り可能な記録媒体とは、フロッピーディスク、光磁気ディスク、CD−ROM等の記録媒体、コンピュータシステムに内蔵されるハードディスク装置等の記憶装置を指す。さらに、コンピュータ読み取り可能な記録媒体は、インターネットを介してプログラムを送信する場合のように、短時間の間、動的にプログラムを保持するもの(伝送媒体もしくは伝送波)、その場合のサーバとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含む。
【0125】
【発明の効果】
以上説明したように、本発明は、多重トピックステキスト中の単語頻度分布を確率分布としてモデル化し、確率モデルを単一トピックモデルの線形和により生成することにより、テキストの多重トピックス抽出を従来よりも良好に行なうことができる。
【図面の簡単な説明】
【図1】本発明の一実施形態のテキストの多重トピックス抽出装置の構成図である。
【図2】図1の装置の動作を示すフローチャートである。
【図3】本発明の効果をサポートベクトルマシンと比較して示すグラフである。
【図4】本発明の基本的な考え方を説明するための図である。
【符号の説明】
1,4  テキスト前処理部
2  モデルパラメータ推定部
3  推定モデルパラメータ保持部
5  多重トピックス予測部
11〜15  ステップ[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a method and apparatus for automatically classifying electronically stored atypical text such as the Internet, an electronic library, an electronic mail, and an electronic medical record into predetermined topics.
[0002]
[Prior art]
In recent years, large amounts of text have been stored electronically. Since text is usually composed of multiple topics rather than a single topic, developing a method to extract multiple topics from text has become an important research topic. This extraction problem is different from the pattern recognition problem that classifies samples into an exclusive single class, such as character recognition.
[0003]
The multi-topics extraction problem is known to many researchers as a multi-class, multi-label text classification problem. Conventionally, a two-classification approach of sequentially identifying whether or not a topic belongs to each topic has been adopted. Had been. That is, in the two-class approach, the multi-topic extraction problem is solved by decomposing into two separate problems for each topic. In this case, the two classifiers for a topic classify the text into either that topic or other topics. As a well-known technique of the two classifiers, a support vector machine (Support Vector Machine: SVM, VN Vapnik, Ironistic learning theory John John Wiley & Sons, Inc., Nayby, Inc., Nayb. D. Lewis and M. Ringuette, Jeong comparison of two learning algorithms for text categorization in Third Annual Analysis of the National Convention of the National Convention of the National Convention of the National Convention.
81-93, 1994).
[0004]
[Problems to be solved by the invention]
However, these two classification approaches do not consider multiple topics simultaneously. In other words, the two-classification approach does not consider the generation model of multiple texts, so it is considered that there is a performance limit.
[0005]
In addition, a function approximation method such as a neural network, and a k-nearest neighbor method that classifies based on the similarity between feature vectors are basically applicable without decomposing a multitopic extraction into a single topic as in a two-class approach. Multiple topics extraction is possible. However, these methods do not take into account a multiplex text generation model, and thus may have performance limitations as in the case of the two-classification approach.
[0006]
An object of the present invention is to provide a method, an apparatus, a program, and a recording medium on which a program for extracting multiple topics for extracting multiple topics at a stroke.
[0007]
[Means for Solving the Problems]
Expression of text The expression method of text in the present invention will be described. First, words included in a predetermined vocabulary are extracted from the text, and the frequency of use of those words is expressed as a vector. That is, one word and one word frequency are vectors.
[Outside 1]
Figure 2004046621
Is represented by
Where xi is the vocabulary
[Outside 2]
Figure 2004046621
It represents the number of times the word w i appeared in the text in. V is the total number of words in the vocabulary. That is,
[0010]
[Outside 3]
Figure 2004046621
Is represented as a point in the V-dimensional Euclidean space. further,
[0011]
[Outside 4]
Figure 2004046621
Is generated from a multinomial distribution over all words in the vocabulary.
[0012]
(Equation 1)
Figure 2004046621
here,
[0013]
[Outside 5]
Figure 2004046621
The model parameters, the i-th element theta i represents the probability of a word w i is occurring. clearly,
[0014]
(Equation 2)
Figure 2004046621
[0015]
Next, the topic vector to which the text belongs is given by
[Equation 3]
Figure 2004046621
Defined by here,
[0017]
[Outside 6]
Figure 2004046621
Part l element y l of taking a value of 1 or 0, and y l = 1 if and only if the text belonging to the l topic. Here, L is the total number of topics and is known in advance. It is also assumed that the text belongs to at least one of the L topics. That is,
[0018]
[Outside 7]
Figure 2004046621
At least one of the elements takes one.
Expression of Parameters of Multitopic Text Probability Model The basic concept of the multitopic probability model serving as the core of the present invention is described as follows. Two topics (L = 2) and three vocabulary words (w 1 , w 2) , W 3 ) (V = 3).
[0019]
Now, the words in the text belonging to the single topics C 1 and C 2 have a multinomial distribution, respectively.
[Outside 8]
Figure 2004046621
, And the parameters of each polynomial distribution are φ (C 1 ) = (0.7, 0.1, 0.2) and φ (C 2 ) = (0.1, 0.7, 0. Assume 2). This is because, in the text belonging to the topic C 1, means that the three types of words w 1, w 2, w 3 has occurred in each 0.7,0.1,0.2 probability of. Topic C 2 is also the same.
[0021]
“0” and “+” in FIG. 4A are samples (word frequency vectors) artificially generated from φ (C 1 ) and φ (C 2 ), respectively. One '0'('+') corresponds to the text of topic C 1 (C 2 ). The total number of words in the text, that is, the sum of the elements of the frequency vector is distributed in the range of 100 to 800. The parameter vector φ is on the two-dimensional simplex θ 1 + θ 2 + θ 3 = 1 shown by the equilateral triangle in FIG.
[0022]
Denote the multiple topics classes belonging to C 1, 2 in both topic C 1 and C 2. At this time, the word in the text belonging to C 1, 2 is considered to consist of a mixture of words related to the C 1 and C 2. For example, it is considered that words related to both topics appear in texts belonging to both “sports” and “music”. However, a text that belongs to both “sports” and “music” may be a text related to “sports” more. Therefore, a mixture ratio between two topics, that is, a relative ratio between two topics, The percentage of strength is not always equal.
[0023]
According consisting concept "mixing of the word" the, word frequency samples belonging to C 1, 2, as shown in in FIG. 4 (b) '△', the word frequency vectors belonging to each of the C 1, C 2 Made artificially as a mixture. The mixing ratio was set at random in the range of 0.2 to 0.8. Sample C 1, 2 has a distribution such interpolating the distribution of samples of C 1 and C 2.
[0024]
Here, it should be noted that the samples belonging to C 1 and 2 have two polynomial distributions.
[Outside 9]
Figure 2004046621
Cannot be generated from the mixture distribution of The maximum likelihood estimate of the parameter φ (C k ) is
[Outside 10]
Figure 2004046621
Proportional enough, and a linear sum of from generation process of a sample of C 1, 2, model parameters φ (C 1,2) of the multiple topics Class C 1, 2 is phi (C 1) and phi (C 2) It can be seen that approximation can be expressed as That is, the samples belonging to C 1 and C 2 are
(Equation 4)
Figure 2004046621
It can be regarded as a realization value of a multinomial distribution having the following parameters. Here, α (0 <α <1) represents a mixture ratio. Actually, FIG. 4C shows the maximum likelihood estimation values of the parameters C 1 and C 2 calculated based on the artificially generated samples.
[0028]
When the above concept is generalized, the frequency distribution of words in texts belonging to multiple topics is a polynomial distribution having parameters of a single topic multinomial distribution as base parameters and parameters expressed as a linear sum thereof. That is, the topics vector
[Outside 11]
Figure 2004046621
The word frequency distribution of the text
[0030]
(Equation 5)
Figure 2004046621
Follow a multinomial distribution with here,
[0031]
[Outside 12]
Figure 2004046621
Represents the parameters of the multinomial distribution of a single topic C l.
[0032]
As mentioned earlier, a multi-topic text may be more focused on a particular topic within the topic. Equation (4) does not consider such weighting. Therefore, a more flexible linear sum considering this weight as a parameter is defined by the following equation.
[0033]
(Equation 6)
Figure 2004046621
[0034]
here,
[0035]
[Outside 13]
Figure 2004046621
And the mixture ratio α l, m (> 0) is
(Equation 7)
Figure 2004046621
Meet. From α l, l = 0.5
[Outside 14]
Figure 2004046621
Note that Also,
[0038]
[Outside 15]
Figure 2004046621
Holds. Note that the sum of V elements is 1 in both equations (4) and (5).
[0039]
The difference between Equations (4) and (5) is that in Equation (4), the unknown parameter Θ is a parameter of a single topic multinomial distribution.
(Equation 8)
Figure 2004046621
On the other hand, in equation (5), in addition to the parameters of equation (6), α lm (l (m) (equivalently,
[Outside 16]
Figure 2004046621
Will also be treated as unknown parameters.
[0042]
(Equation 9)
Figure 2004046621
[0043]
In any linear sum, the topics vector
[Outside 17]
Figure 2004046621
Word frequency vector of multi-topic text belonging to
[Outside 18]
Figure 2004046621
Is the probability distribution of
(Equation 10)
Figure 2004046621
Is represented by here,
[0047]
[Outside 19]
Figure 2004046621
Represents the i-th element.
[0048]
Although a linear sum other than the above may be considered, in the present invention, the topic vector
[Outside 20]
Figure 2004046621
Model parameters corresponding to
[Outside 21]
Figure 2004046621
Is the parameter of the L single topic multinomial distribution
[Outside 22]
Figure 2004046621
Is represented by a linear sum of Therefore, the form of the linear sum is not limited to Equations (4) and (5).
Estimation of Parameters of Stochastic Model Next, a method of estimating unknown parameters will be described.
[0052]
[Equation 11]
Figure 2004046621
Is the given learning data.
[0053]
[Outside 23]
Figure 2004046621
Represents the word frequency vector and the multi-topics vector of the n-th text. N is the total number of texts. At this time, the unknown parameter Θ is the learning data
[Outside 24]
Figure 2004046621
Is given by maximizing the posterior distribution of the parameters given. That is,
[0055]
(Equation 12)
Figure 2004046621
Parameter
[Outside 25]
Figure 2004046621
And the prior distribution of α l, m is a direct distribution which is a conjugate prior distribution of a polynomial distribution as shown in the following equation.
[0057]
(Equation 13)
Figure 2004046621
Here, ξ and ζ are hyperparameters, and usually ξ = 2 and ζ = 2.
[0058]
Topics vector
[Outside 26]
Figure 2004046621
Assuming that is a uniform distribution, from equation (10) and Bayes' theorem,
[Outside 27]
Figure 2004046621
Is the following objective function:
[Equation 14]
Figure 2004046621
By maximizing with respect to Θ.
Prediction of Topic Vector Next, a method of predicting a value of a topic vector of a new text using an estimated value of a model parameter will be described below.
[0062]
[Outside 28]
Figure 2004046621
Is the estimation parameter, the prediction here is a word frequency vector of a new text.
[Outside 29]
Figure 2004046621
From topics vector
[Outside 30]
Figure 2004046621
Is to predict the value of Then, the optimal topic vector value is:
[Outside 31]
Figure 2004046621
And [0066]
[Outside 32]
Figure 2004046621
Under the given
[Outside 33]
Figure 2004046621
Maximize the posterior distribution of
[Outside 34]
Figure 2004046621
Is required.
[0069]
From Bayes' theorem
[Equation 15]
Figure 2004046621
further,
[0071]
[Outside 35]
Figure 2004046621
Assuming that the prior distribution is uniform, after all, the optimal topics vector
[Outside 36]
Figure 2004046621
Is [0073]
[Outside 37]
Figure 2004046621
To maximize
[Outside 38]
Figure 2004046621
Is required.
[0075]
(Equation 16)
Figure 2004046621
[0076]
BEST MODE FOR CARRYING OUT THE INVENTION
Next, embodiments of the present invention will be described with reference to the drawings.
[0077]
FIG. 1 is a block diagram of an apparatus for extracting multiple topics of text according to an embodiment of the present invention, and FIG. 2 is a flowchart showing the operation thereof.
[0078]
An arbitrary text, which is learning data, is input to the text preprocessing unit 1, the frequency of words in the vocabulary is calculated, a word frequency vector is created (step 11), and a text having multiple topics is created based on the frequency vector. Is expressed as a linear sum of the parameters of the probability model of the text of each single topic (step 12). Next, the model parameter estimating unit 2 learns the parameters of the probability model using the word frequency vector and the topic topic vector of the text, and stores the learning result in the estimated model parameter storage unit 3 (step 13). A word frequency vector is calculated for the text whose topic is unknown by the text preprocessing unit 4 (step 14), and the multiple topic prediction unit 5 stores the word frequency vector from the word frequency vector in the estimated model parameter storage unit 3. Then, multiple topics to which the text belongs are extracted using the parameters of the learned probability model (step 15).
[0079]
Hereinafter, the processing of the model parameter estimation unit 2 and the multi-topic prediction unit 5 which are the core of the present embodiment will be described in detail.
[0080]
Model parameter estimator 2
In the case of the linear sum of Expression (4), the objective function of Expression (13) is embodied as the following expression.
[0081]
[Equation 17]
Figure 2004046621
here,
[0082]
[Outside 39]
Figure 2004046621
Is the log likelihood term
(Equation 18)
Figure 2004046621
Given by Therefore, the optimal parameters are determined by maximizing equation (15) with respect to Θ. However, this maximization cannot be determined analytically, but is determined by a sequential iteration method as described below.
[0084]
For convenience,
[0085]
[Equation 19]
Figure 2004046621
Toki, and
[0086]
[Outside 40]
Figure 2004046621
Is the estimate at the t-th step of the iteration, and
[0087]
(Equation 20)
Figure 2004046621
far.
[0088]
[Outside 41]
Figure 2004046621
Be careful. At this time, equation (17) is rewritten as the following equation.
[0089]
(Equation 21)
Figure 2004046621
However,
[0090]
[Outside 42]
Figure 2004046621
Is defined by the following equation.
[0091]
(Equation 22)
Figure 2004046621
[0092]
From Jensen's inequality,
[0093]
(Equation 23)
Figure 2004046621
Note that the following holds.
[Equation 24]
Figure 2004046621
Then, from equation (20),
(Equation 25)
Figure 2004046621
Holds. Therefore,
[0096]
(Equation 26)
Figure 2004046621
By maximizing with respect to 【
Figure 2004046621
Can be increased.
[0097]
The maximization of the equation (23) can be solved by the Lagrange multiplier method.
[Equation 27]
Figure 2004046621
Is obtained as Here [0099]
[Outside 44]
Figure 2004046621
Is given by equation (19). By calculating equation (24) for l = 1,..., L, i = 1,..., V, unknown parameters for the model of the linear sum of equation (4) are obtained.
[0100]
Multi-topic prediction unit 5
The prediction of multiple topics based on equation (15) with respect to equation (4) is expressed by the following equation:
[Outside 45]
Figure 2004046621
Is the problem of maximization.
[0102]
[Equation 28]
Figure 2004046621
[0103]
The maximization problem is simply:
[0104]
[Outside 46]
Figure 2004046621
Can be obtained by evaluating all possible values of, but since the number of solution candidates is 2 L −1, it becomes difficult to solve in real time by such a simple exhaustive search method as L increases. Therefore, an approximate solution is obtained by the following approximate algorithm.
Prediction algorithm step Initialization S: = {1,2, ..., L},
[0105]
[Outside 47]
Figure 2004046621
[0106]
Step 2. Execute the following unless S is an empty set Step 2-1. For each element l in S,
[0107]
[Outside 48]
Figure 2004046621
Is calculated, and this is defined as υ (l).
[0108]
Step 2-2. υ a l to maximize the (l) and l *, if if υ (l *)> υ max [0109]
[Outside 49]
Figure 2004046621
, Υ max : = υ (l * ), and go to step 2. otherwise,
[0110]
[Outside 50]
Figure 2004046621
Ends as the final solution.
[0111]
Here, the notation “: =” means that the value on the right side is assigned to the left side. Also,
[0112]
[Outside 51]
Figure 2004046621
Represents an L-dimensional zero vector. Further,
[Outside 52]
Figure 2004046621
Is [0114]
[Outside 53]
Figure 2004046621
Is set to 1 and all the elements excluding {l} from S are set to zero.
[Outside 54]
Figure 2004046621
, Ie, the posterior distribution shown in equation (14)
[Outside 55]
Figure 2004046621
Represents the value of. That is,
[0117]
[Outside 56]
Figure 2004046621
Is initialized.
[Outside 57]
Figure 2004046621
On the other hand, assuming that only one of the L elements is 1 and finds l at which the posterior distribution is maximum, it is defined as l * . Then, l * = 1 is fixed, and for the remaining L-1 elements, 1 is obtained. The process of finding l at which the posterior distribution is maximized as 1 is repeated until the posterior distribution does not increase.
[0119]
Although the above algorithm does not guarantee band-wise optimality, the expression (25) needs to be evaluated at most L (L + 1) / 2 times, which is extremely efficient compared to 2 L −1 times of exhaustive search.
[0120]
The effectiveness of the present invention is shown by an experiment using an artificial text composed of a word frequency vector artificially created with a vocabulary number of V = 100 and a topic number of L = 10.
[0121]
First, a multinomial distribution parameter (basis vector) of each topic was set using random numbers while considering Zip's law. Then, based on the created parameters, learning data consisting of 1,000 texts and test data consisting of 100,000 texts were generated. However, if the number of topics in each text is m, the distribution is set to 1/2 m . That is, in the learning data, the text with the number of topics 1 is 500, the text with the number of topics 2 is 250, and so on. . On the other hand, with respect to the word frequency vector of each text, as described above, a polynomial distribution of multiple topics was created using the linear sum of parameters, and a word frequency vector was generated based on this distribution.
[0122]
According to the block diagram of the embodiment of the present invention shown in FIG. 1, first, learning data is input to the text preprocessing unit 1 to perform processing, and then the result is input to the model parameter estimating unit 2 for learning. The estimated model parameters were obtained by. Then, the test data is input to the text pre-processing unit 4 for processing, and the obtained word frequency vector and the estimated model parameters already obtained are input to the multi-topic prediction unit 5 to predict the multi-topics, thereby extracting the extraction results. Got. Since the correct topic information of each test data is known, it is possible to evaluate the multiple topics extraction method by comparing with the prediction result.
[0123]
FIG. 3 compares the performance of the present invention with a support vector machine which has been reported as the world's highest performance. However, when the support vector machine was applied, a two-classification problem was created for each topic, a two-classifier was configured using the learning data, and a multi-topics extraction result was predicted using the classifier group. For evaluation of the extraction performance, an F value used as a standard in information retrieval and the like was adopted. Note that the F value is defined as a harmonic average of the hit rate and the coverage rate. It can be seen that, when the number of learning data is 1,000, by applying the present invention, a performance approximately 15% higher than that of the support vector machine can be obtained. Further, in the evaluation in which the number of learning data was reduced, the performance of the support vector machine was considerably deteriorated, whereas in the application of the present invention, the performance was extremely slight. In other words, it can be said that the present invention is a method that is much more robust against the change in the number of learning data than the support vector machine.
[0124]
It should be noted that, in addition to the method of extracting multiple topics of text described above, which is realized by dedicated hardware, a program for realizing the function is recorded on a computer-readable recording medium, and is recorded on this recording medium. The recorded program may be read by a computer system and executed. The computer-readable recording medium refers to a recording medium such as a floppy disk, a magneto-optical disk, a CD-ROM, or a storage device such as a hard disk device built in a computer system. Further, the computer-readable recording medium is one that dynamically holds the program for a short time (transmission medium or transmission wave), such as a case where the program is transmitted via the Internet, and serves as a server in that case. It also includes those that hold programs for a certain period of time, such as volatile memory inside a computer system.
[0125]
【The invention's effect】
As described above, the present invention models a word frequency distribution in a multi-topic text as a probability distribution and generates a probability model by a linear sum of a single topic model, so that the multi-topic extraction of a text is performed as compared with the related art. It can be performed well.
[Brief description of the drawings]
FIG. 1 is a configuration diagram of an apparatus for extracting multiple topics of text according to an embodiment of the present invention.
FIG. 2 is a flowchart showing the operation of the apparatus of FIG.
FIG. 3 is a graph showing the effect of the present invention in comparison with a support vector machine.
FIG. 4 is a diagram for explaining a basic concept of the present invention.
[Explanation of symbols]
1, 4 text preprocessing unit 2 model parameter estimation unit 3 estimated model parameter storage unit 5 multiple topics prediction unit 11 to 15 steps

Claims (4)

任意のテキストから、該テキストが帰属する1つまたは複数のトピックスを抽出する方法であって、
テキストを予め定めた全語彙に渡る単語の頻度で表現するステップと、
該単語頻度情報に基づいて、多重トピックスを有するテキストの単語の頻度分布、すなわち、多重トピックステキストの確率モデルのパラメータを、各単一トピックのテキストの確率モデルのパラメータの線形和で表現するステップと、
前記単語頻度情報と前記テキストが帰属するトピックス情報の組からなる学習データで前記確率モデルのパラメータを学習し、学習結果の確率モデルのパラメータを記憶装置に保存するステップと、
トピックスが未知のテキストに対し単語頻度情報を算出するステップと、
トピックスが未知のテキスト中の単語頻度情報から前記記憶装置に保存されている学習済みの確率モデルのパラメータを用いて該テキストの帰属する多重トピックスを抽出するステップとを有する、テキストの多重トピックス抽出方法。
A method for extracting, from any text, one or more topics to which the text belongs,
Expressing the text in terms of the frequency of words in all predetermined vocabularies;
Expressing, based on the word frequency information, the frequency distribution of words of a text having multiple topics, that is, expressing the parameters of the probability model of the multitopic text by a linear sum of the parameters of the probability model of the text of each single topic; ,
Learning the parameters of the probability model with learning data consisting of a set of topic information to which the word frequency information and the text belong, and storing the parameters of the probability model as a learning result in a storage device;
Calculating word frequency information for text whose topics are unknown;
Extracting the multiple topics to which the text belongs from the word frequency information in the unknown text using the parameters of the learned probability model stored in the storage device from the word frequency information in the unknown text. .
任意のテキストから、該テキストが帰属する1つまたは複数のトピックスを抽出する装置であって、
テキストを予め定めた全語彙に渡る単語の使用頻度で表現する手段と、
該単語頻度情報に基づいて、多重トピックスを有するテキストの単語の頻度分布、すなわち、多重トピックステキストの確率モデルのパラメータを、各単一トピックのテキストの確率モデルのパラメータの線形和で表現する手段と、
前記単語頻度情報と前記テキストが帰属するトピックス情報の組からなる学習データで前記確率モデルのパラメータを学習し、学習結果の確率モデルのパラメータを記憶装置に保存する手段と、
トピックスが未知のテキストに対し単語頻度情報を算出する手段と、
トピックスが未知のテキスト中の単語頻度情報から前記記憶装置に保存されている学習済みの確率モデルのパラメータを用いて該テキストの帰属する多重トピックスを抽出する手段とを有する、テキストの多重トピックス抽出装置。
An apparatus for extracting, from any text, one or more topics to which the text belongs,
Means for expressing text in terms of the frequency of use of words in a predetermined vocabulary;
Means for expressing, based on the word frequency information, a frequency distribution of words of a text having multiple topics, that is, a parameter of a probability model of a multitopic text by a linear sum of parameters of a probability model of a text of each single topic; ,
Means for learning the parameters of the probability model with learning data consisting of a set of topic information to which the word frequency information and the text belong, and storing the parameters of the probability model of the learning result in a storage device;
Means for calculating word frequency information for texts with unknown topics;
Means for extracting multiple topics to which the text belongs from the word frequency information in the text of which the topics are unknown using the parameters of the learned probability model stored in the storage device. .
任意のテキストから、該テキストが帰属する1つまたは複数のトピックスを抽出する処理をコンピュータに実行させるためのプログラムであって、
テキストを予め定めた全語彙に渡る単語の使用頻度で表現する手順と、
該単語頻度情報に基づいて、多重トピックスを有するテキストの単語の頻度分布、すなわち、多重トピックステキストの確率モデルのパラメータを、各単一トピックのテキストの確率モデルのパラメータの線形和で表現する手順と、
前記単語頻度情報と前記テキストが帰属するトピックス情報の組からなる学習データで前記確率モデルのパラメータを学習し、学習結果の確率モデルのパラメータを記憶装置に保存する手順と、
トピックスが未知のテキストに対し単語頻度情報を算出する手順と、
トピックスが未知のテキスト中の単語頻度情報から前記記憶装置に保存されている学習済みの確率モデルのパラメータを用いて該テキストの帰属する多重トピックスを抽出する手順とを有する、テキストの多重トピックス抽出プログラム。
A program for causing a computer to execute, from an arbitrary text, one or more topics to which the text belongs,
A procedure for expressing the text by the frequency of use of words in all predetermined vocabularies;
Based on the word frequency information, a frequency distribution of words of a text having multiple topics, that is, a procedure of expressing the parameters of the probability model of the multitopic text by a linear sum of the parameters of the probability model of the text of each single topic; ,
Learning the parameters of the probability model with learning data consisting of a set of topic information to which the word frequency information and the text belong, and storing the parameters of the probability model of the learning result in a storage device;
A procedure for calculating word frequency information for text whose topics are unknown,
Extracting a multi-topic to which the text belongs from the word frequency information in the unknown text using the parameters of the learned probability model stored in the storage device from the word frequency information in the unknown text. .
請求項3に記載の、テキストの多重トピックス抽出プログラムを記録した記録媒体。A recording medium on which the program for extracting multiple topics of text according to claim 3 is recorded.
JP2002204434A 2002-07-12 2002-07-12 Text multiple topics extraction method and apparatus, text multiple topics extraction program, and recording medium recording the program Expired - Lifetime JP3868344B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002204434A JP3868344B2 (en) 2002-07-12 2002-07-12 Text multiple topics extraction method and apparatus, text multiple topics extraction program, and recording medium recording the program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002204434A JP3868344B2 (en) 2002-07-12 2002-07-12 Text multiple topics extraction method and apparatus, text multiple topics extraction program, and recording medium recording the program

Publications (2)

Publication Number Publication Date
JP2004046621A true JP2004046621A (en) 2004-02-12
JP3868344B2 JP3868344B2 (en) 2007-01-17

Family

ID=31710041

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002204434A Expired - Lifetime JP3868344B2 (en) 2002-07-12 2002-07-12 Text multiple topics extraction method and apparatus, text multiple topics extraction program, and recording medium recording the program

Country Status (1)

Country Link
JP (1) JP3868344B2 (en)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008123486A (en) * 2006-11-10 2008-05-29 Fuji Xerox Co Ltd Method, system and program for detecting one or plurality of concepts by digital media
JP2008276344A (en) * 2007-04-26 2008-11-13 Just Syst Corp Multi-topic classification apparatus, multi-topic classification method and multi-topic classification program
JP2008276571A (en) * 2007-04-27 2008-11-13 Nippon Telegr & Teleph Corp <Ntt> Label assignment method, label assignment device, label assignment program and storage medium
US7840521B2 (en) 2007-10-05 2010-11-23 International Business Machines Corporation Computer-based method and system for efficient categorizing of digital documents
JP2012173808A (en) * 2011-02-17 2012-09-10 Nippon Telegr & Teleph Corp <Ntt> Concrete subject classification model learning device, method, program, concrete subject extraction device, method, and program
JP2013134751A (en) * 2011-12-27 2013-07-08 Nippon Telegr & Teleph Corp <Ntt> Topic model learning method, apparatus, and program
JP2013161330A (en) * 2012-02-07 2013-08-19 Nippon Telegr & Teleph Corp <Ntt> Learning data generation device, retrieval device, method for generating learning data, retrieval method, and program thereof
CN111930885A (en) * 2020-07-03 2020-11-13 北京新联财通咨询有限公司 Method and device for extracting text topics and computer equipment
CN115687629A (en) * 2023-01-03 2023-02-03 深圳竹云科技股份有限公司 Text generation method and device, computer equipment and storage medium

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008123486A (en) * 2006-11-10 2008-05-29 Fuji Xerox Co Ltd Method, system and program for detecting one or plurality of concepts by digital media
JP2008276344A (en) * 2007-04-26 2008-11-13 Just Syst Corp Multi-topic classification apparatus, multi-topic classification method and multi-topic classification program
JP2008276571A (en) * 2007-04-27 2008-11-13 Nippon Telegr & Teleph Corp <Ntt> Label assignment method, label assignment device, label assignment program and storage medium
US7840521B2 (en) 2007-10-05 2010-11-23 International Business Machines Corporation Computer-based method and system for efficient categorizing of digital documents
JP2012173808A (en) * 2011-02-17 2012-09-10 Nippon Telegr & Teleph Corp <Ntt> Concrete subject classification model learning device, method, program, concrete subject extraction device, method, and program
JP2013134751A (en) * 2011-12-27 2013-07-08 Nippon Telegr & Teleph Corp <Ntt> Topic model learning method, apparatus, and program
JP2013161330A (en) * 2012-02-07 2013-08-19 Nippon Telegr & Teleph Corp <Ntt> Learning data generation device, retrieval device, method for generating learning data, retrieval method, and program thereof
CN111930885A (en) * 2020-07-03 2020-11-13 北京新联财通咨询有限公司 Method and device for extracting text topics and computer equipment
CN111930885B (en) * 2020-07-03 2023-08-04 北京新联财通咨询有限公司 Text topic extraction method and device and computer equipment
CN115687629A (en) * 2023-01-03 2023-02-03 深圳竹云科技股份有限公司 Text generation method and device, computer equipment and storage medium
CN115687629B (en) * 2023-01-03 2023-04-04 深圳竹云科技股份有限公司 Text generation method and device, computer equipment and storage medium

Also Published As

Publication number Publication date
JP3868344B2 (en) 2007-01-17

Similar Documents

Publication Publication Date Title
US20130097103A1 (en) Techniques for Generating Balanced and Class-Independent Training Data From Unlabeled Data Set
US8266083B2 (en) Large scale manifold transduction that predicts class labels with a neural network and uses a mean of the class labels
Lee et al. Meta-gmvae: Mixture of gaussian vae for unsupervised meta-learning
Altun et al. Boosting selection of speech related features to improve performance of multi-class SVMs in emotion detection
WO2008137368A1 (en) Web page analysis using multiple graphs
Zhang et al. Word semantic representations using bayesian probabilistic tensor factorization
Han et al. Sentiment analysis via semi-supervised learning: a model based on dynamic threshold and multi-classifiers
Narsky StatPatternRecognition: a C++ package for statistical analysis of high energy physics data
JP2014026455A (en) Media data analysis device, method and program
Ertekin et al. Learning to predict the wisdom of crowds
Hazen Direct and latent modeling techniques for computing spoken document similarity
KR20230133854A (en) Cross-domain adaptive learning
Shi et al. Learning where to sample in structured prediction
JP3868344B2 (en) Text multiple topics extraction method and apparatus, text multiple topics extraction program, and recording medium recording the program
Jeyakarthic et al. Optimal bidirectional long short term memory based sentiment analysis with sarcasm detection and classification on twitter data
Le et al. Ent-Boost: Boosting using entropy measures for robust object detection
Zhang et al. A new data selection principle for semi-supervised incremental learning
Nasfi et al. A novel feature selection method using generalized inverted Dirichlet-based HMMs for image categorization
Jing et al. Semantic naïve Bayes classifier for document classification
Vadera et al. Assessing the adversarial robustness of monte carlo and distillation methods for deep bayesian neural network classification
Ismail et al. Evolutionary deep belief networks with bootstrap sampling for imbalanced class datasets.
Kuo et al. Active learning with minimum expected error for spoken language understanding.
Ali et al. Maximum a posteriori approximation of Dirichlet and beta-Liouville hidden Markov models for proportional sequential data modeling
Yang et al. Dynamic Weighting Ensembles for incremental learning
Amayri et al. RJMCMC learning for clustering and feature selection of L 2-normalized vectors

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040308

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20040308

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20040308

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050614

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060606

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060807

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20060807

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060927

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20061010

R150 Certificate of patent or registration of utility model

Ref document number: 3868344

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101020

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101020

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111020

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111020

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121020

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121020

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131020

Year of fee payment: 7

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term