JP2004046621A - Method and device for extracting multiple topics in text, program therefor, and recording medium recording this program - Google Patents
Method and device for extracting multiple topics in text, program therefor, and recording medium recording this program Download PDFInfo
- Publication number
- JP2004046621A JP2004046621A JP2002204434A JP2002204434A JP2004046621A JP 2004046621 A JP2004046621 A JP 2004046621A JP 2002204434 A JP2002204434 A JP 2002204434A JP 2002204434 A JP2002204434 A JP 2002204434A JP 2004046621 A JP2004046621 A JP 2004046621A
- Authority
- JP
- Japan
- Prior art keywords
- text
- parameters
- topics
- topic
- probability model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
【0001】
【発明の属する技術分野】
本発明は、インターネット、電子図書館、電子メール、電子カルテ等の電子的に蓄積された非定型テキストを予め定めたトピックに自動分類する方法および装置に関する。
【0002】
【従来の技術】
近年、大量のテキストが電子的に蓄積されつつある。テキストは、通常、単一よりはむしろ複数のトピックスで構成されるので、テキストから多重トピックスを抽出する方法の開発は重要研究課題となっている。この抽出問題は文字認識のようなサンプルを排他的な単一クラスに分類するパターン認識問題とは異なる。
【0003】
多重トピックス抽出問題は、多クラス、多重ラベルテキスト分類問題として多くの研究者に知られており、従来、全てのトピック毎にそのトピックに属するか否かの識別を逐次行うという2分類アプローチが採られていた。つまり、2分類アプローチでは多重トピックス抽出問題を各トピック毎に独立した2分類問題に分解して解いていた。この場合、あるトピックを担当する2分類器はテキストをそのトピックとそれ以外のトピックのいずれかに分類する。2分類器の著名な公知手法として、サポートベクトルマシン(Sup port Vector Machine: SVM, V. N. Vapnik, 鉄tatistical learning theory John Wiley & Sons, Inc., New York, 1998)あるいは、ナイーブベイズ法(D. Lewis and M. Ringuette, 鄭 comparison of two learning algorithms for text categorization In Third Anual Symposium on Document Analysis and Information Retrieval (SDAIR’94),
81−93, 1994)がある。
【0004】
【発明が解決しようとする課題】
しかしながら、これら2分類アプローチは多重トピックスを同時に考慮していない。換言すれば、2分類アプローチは多重テキストの生成モデルを考慮していないため、性能限界があると考えられる。
【0005】
また、ニューラルネットワークのような関数近似法や、特徴ベクトル間の類似性で分類するk近傍法は、原理的には、多重トピックス抽出を2分類アプローチのように単一トピックに分解すること無しに多重トピックス抽出が可能である。しかし、これらの方法も多重テキストの生成モデルを考慮していないため、2分類アプローチ同様、性能限界があると考えられる。
【0006】
本発明の目的は、多重トピックスを一撃的に抽出する、多重トピックスの抽出方法、装置、プログラム、該プログラムを記録した記録媒体を提供することにある。
【0007】
【課題を解決するための手段】
テキストの表現
本発明におけるテキストの表現法を説明する。まず、テキスト中から予め定めた語彙に含まれる単語を抽出し、それらの単語の使用頻度をベクトル表現する。すなわち、1つのテキスト1つの単語頻度はベクトル
【0008】
【外1】
で表現される。
ここで、xiは語彙
【0009】
【外2】
中の単語wiが前記テキスト中で出現した回数を表す。Vは語彙中の単語総数である。つまり、
【0010】
【外3】
はV次元ユークリッド空間中の点として表現されることになる。さらに、
【0011】
【外4】
は語彙中の全単語に渡る多項分布から生成されると仮定する。
【0012】
【数1】
ここで、
【0013】
【外5】
はモデルパラメータで、第i番目の要素θiは単語wiが生起する確率を表す。明らかに、
【0014】
【数2】
【0015】
次に、テキストが帰属するトピックスベクトルを
【0016】
【数3】
で定義する。ここで、
【0017】
【外6】
の第l要素ylは1または0の値をとり、テキストが第lトピックに属する場合に限りyl=1とする。ここに、Lは全トピック数で、予め既知とする。また、テキストはLトピックスの少なくとも1つには帰属するものと仮定する。すなわち、
【0018】
【外7】
中の少なくとも一つの要素は1をとる。
多重トピックステキストの確率モデルのパラメータの表現
本発明の核となる多重トピックスの確率モデルの基本的な考え方を、2つのトピックス(L=2)、かつ、語彙が3つの単語(w1,w2,w3)(V=3)からなる簡単な例で以下に説明する。
【0019】
今、単一トピックC1およびC2に属すテキスト中の単語が、各々、多項分布
【0020】
【外8】
から生成され、かつ、各々の多項分布のパラメータはφ(C1)=(0.7,0.1,0.2)およびφ(C2)=(0.1,0.7,0.2)と仮定する。これは、トピックC1に属するテキストでは、3種類の単語w1,w2,w3が各々0.7,0.1,0.2の確率で生起していることを意味する。トピックC2も同様である。
【0021】
図4(a)中の’0’,’+’は各々φ(C1),φ(C2)から人工的に生成されたサンプル(単語頻度ベクトル)である。1つの’0’(’+’)がトピックC1(C2)のテキストに対応する。テキスト中の単語総数、つまり、頻度ベクトルの要素の和は100から800の範囲で分布させている。パラメータベクトルφは図4(c)の正三角形に示す2次元単体θ1+θ2+θ3=1上にある。
【0022】
C1,2をトピックC1とC2の両方に属する多重トピックスクラスを表すものとする。この時、C1,2に属するテキスト中の単語はC1とC2に関連する単語の混合から成ると考えられる。例えば、“スポーツ”と“音楽”の両方に属するテキストには両方のトピックスに関連する単語が出現すると考えられる。ただし、“スポーツ”と“音楽”の両方に属するテキストでも、より“スポーツ”に関連するテキストである場合も考えられるので、2つのトピックス間の混合比、すなわち、2つのトピックス間の相対的な強さの割合は必ずしも等しいとは限らない。
【0023】
上記の“単語の混合”なる考え方に従い、C1,2に属す単語頻度サンプルを、図4(b)中の’△’に示すように、C1,C2の各々に属する単語頻度ベクトルの混合として人工的に生成した。混合比は0.2から0.8の範囲でランダムに設定した。C1,2のサンプルはC1とC2のサンプルの分布を内挿するような分布となっている。
【0024】
ここで、注意すべきは、C1,2に属するサンプルは2つの多項分布
【0025】
【外9】
の混合分布からは生成できないことである。パラメータφ(Ck)の最尤推定値は
【0026】
【外10】
に比例すること、および、C1,2のサンプルの生成過程より、多重トピックスクラスC1,2のモデルパラメータφ(C1,2)はφ(C1)とφ(C2)の線形和として近似表現できることが分る。つまり、C1,2に属するサンプルは
【0027】
【数4】
なるパラメータを持つ多項分布の実現値と見ることができる。ただし、α(0<α<1)は混合比を表す。実際、人工的に生成されたサンプルに基づいて算出したC1,2のパラメータの最尤推定値を図4(c)に示す。
【0028】
上記考え方を一般化すると、多重トピックスに属するテキスト中の単語の頻度分布は、単一トピックの多項分布のパラメータを基底パラメータとしそれらの線形和として表現されるパラメータをもつ多項分布となる。すなわち、トピックスベクトル
【0029】
【外11】
のテキストの単語頻度分布は、
【0030】
【数5】
をパラメータとする多項分布に従う。ここで、
【0031】
【外12】
は単一トピックClの多項分布のパラメータを表す。
【0032】
先に述べたように、多重トピックステキストはそのトピックスの中で特にあるトピックに関してより重点的に記述されていることがある。式(4)ではそうした重みづけは考慮されていない。そこでこの重みをパラメータとして考慮したより柔軟な線形和を次式で定義する。
【0033】
【数6】
【0034】
ここで、
【0035】
【外13】
とし、混合比αl,m(>0)は
【0036】
【数7】
を満たす。αl,l=0.5より
【0037】
【外14】
となることに注意。また、
【0038】
【外15】
が成り立つ。式(4),(5)共、V個の要素の和は1となることに注意。
【0039】
式(4)と式(5)との差は、式(4)では未知パラメータΘは、単一トピックの多項分布のパラメータ
【0040】
【数8】
であるのに対し、式(5)では式(6)のパラメータに加え、αlm(l≠m)(等価的に
【0041】
【外16】
も未知パラメータ扱いされることになる。
【0042】
【数9】
【0043】
いずれの線形和の場合も、トピックスベクトル
【0044】
【外17】
に属する多重トピックステキストの単語頻度ベクトル
【0045】
【外18】
の確率分布は
【0046】
【数10】
で表される。ここに、
【0047】
【外19】
の第i要素を表す。
【0048】
上記以外の線形和も考えられるが、本発明では、トピックスベクトル
【0049】
【外20】
に対応するモデルのパラメータ
【0050】
【外21】
がL個の単一トピックの多項分布のパラメータ
【0051】
【外22】
の線形和で表現されることを特徴とする。したがって、線形和の形態は式(4),(5)に限定されない。
確率モデルのパラメータの推定
次に、未知パラメータの推定法について説明する。
【0052】
【数11】
を与えられた学習データとする。
【0053】
【外23】
は第nテキストの単語頻度ベクトルと多重トピックスベクトルを表す。Nはテキスト総数。この時、未知パラメータΘは、学習データ
【0054】
【外24】
が与えられた下でのパラメータの事後分布の最大化により推定する。すなわち、
【0055】
【数12】
パラメータ
【0056】
【外25】
およびαl,mの事前分布は、各々次式に示すように多項分布の共役事前分布であるディレクレ分布とする。
【0057】
【数13】
ここで、ξおよびζはハイパーパラメータで、通常、ξ=2およびζ=2とする。
【0058】
トピックスベクトル
【0059】
【外26】
は一様分布と仮定すると、式(10)およびベイズの定理より
【0060】
【外27】
は次の目的関数
【0061】
【数14】
をΘに関して最大化することにより求まる。
トピックスベクトルの予測
次に、モデルパラメータの推定値を用いて新たなテキストのトピックスベクトルの値を予測する方法を以下に説明する。
【0062】
【外28】
を推定パラメータとすると、ここでの予測とは、新たなテキストの単語頻度ベクトル
【0063】
【外29】
からトピックスベクトル
【0064】
【外30】
の値を予測することである。そして、最適なトピックスベクトル値は
【0065】
【外31】
および
【0066】
【外32】
が与えられた下での
【0067】
【外33】
の事後分布を最大にする
【0068】
【外34】
として求められる。
【0069】
ベイズの定理より
【0070】
【数15】
さらに、
【0071】
【外35】
の事前分布を一様分布と仮定すると、結局、最適トピックスベクトル
【0072】
【外36】
は
【0073】
【外37】
を最大化する
【0074】
【外38】
として求められる。
【0075】
【数16】
【0076】
【発明の実施の形態】
次に、本発明の実施の形態について図面を参照して説明する。
【0077】
図1は本発明の一実施形態の、テキストの多重トピックス抽出装置の構成図、図2はその動作を示すフローチャートである。
【0078】
学習データである任意のテキストをテキスト前処理部1に入力し、語彙中の単語の頻度を算出し、単語頻度ベクトルを作成し(ステップ11)、該頻度ベクトルに基づいて、多重トピックスを有するテキストの単語の頻度分布、すなわち多重トピックステキストの確率モデルのパラメータを、各単一トピックのテキストの確率モデルのパラメータの線形和で表現する(ステップ12)。次に、モデルパラメータ推定部2において該単語頻度ベクトルとテキストの帰属トピックスベクトルを用いて確率モデルのパラメータを学習し、学習結果を推定モデルパラメータ保存部3に格納する(ステップ13)。トピックスが未知のテキストに対して、テキスト前処理部4で単語頻度ベクトルを算出し(ステップ14)、多重トピックス予測部5で、該単語頻度ベクトルから、推定モデルパラメータ保存部3に保存されている、学習済みの確率モデルのパラメータを用いて、該テキストの帰属する多重トピックスを抽出する(ステップ15)。
【0079】
以下に本実施形態の核となるモデルパラメータ推定部2と多重トピックス予測部5の処理を詳細に説明する。
【0080】
モデルパラメータ推定部2
式(4)の線形和の場合、式(13)の目的関数は次式のように具体化される。
【0081】
【数17】
ここで、
【0082】
【外39】
は対数尤度項で
【0083】
【数18】
で与えられる。したがって、最適なパラメータは式(15)をΘに関して最大化することにより求まる。しかしながら、この最大化は解析的に求めることができず、以下に示すように逐次反復法により求める。
【0084】
便宜上、
【0085】
【数19】
とおき、かつ、
【0086】
【外40】
を反復の第tステップでの推定値とし、さらに、
【0087】
【数20】
とおく。
【0088】
【外41】
に注意。この時、式(17)は次式のように書き換えられる。
【0089】
【数21】
ただし、
【0090】
【外42】
は次式で定義される。
【0091】
【数22】
【0092】
Jensenの不等式より、
【0093】
【数23】
が成立することに注意すると、もし
【0094】
【数24】
ならば、式(20)より
【0095】
【数25】
が成り立つ。故に、
【0096】
【数26】
をΘに関して最大化することにより
【外43】
を増大させることができる。
【0097】
式(23)の最大化はラグランジュ乗数法により解けて
【0098】
【数27】
として求まる。ここに
【0099】
【外44】
は式(19)で与えられる。式(24)をl=1,…,L、i=1,…,Vに対して計算することにより式(4)の線形和のモデルに対する未知パラメータが求まる。
【0100】
多重トピックス予測部5
式(4)に対して式(15)に基づく多重トピックスの予測は、次式の
【0101】
【外45】
に関する最大化問題となる。
【0102】
【数28】
【0103】
上記最大化問題は、単純には、
【0104】
【外46】
の可能な値の全てについて評価すれば求まるが、解候補数は2L−1通り故、Lが大きくなるとそうした単純な全数探索方法では現実時間で解くことが困難となる。そこで、以下に示す近似アルゴリズムにより近似解を求める。
予測アルゴリズム
ステップ1. 初期化S:={1,2,…,L},
【0105】
【外47】
【0106】
ステップ2. Sが空集合でない限り以下を実行
ステップ2−1. S中の要素lの各々について、
【0107】
【外48】
を算出し、これをυ(l)とする。
【0108】
ステップ2−2. υ(l)を最大化するlをl*とし、もしυ(l*)>υmaxなら
【0109】
【外49】
,υmax:=υ(l*)とし、ステップ2へ。さもなくば、
【0110】
【外50】
を最終的な解として終了する。
【0111】
ここで、表記“:=”は右辺の値を左辺に代入することを意味する。また、
【0112】
【外51】
はL次元零ベクトルを表す。さらに
【0113】
【外52】
は
【0114】
【外53】
の第l番目を1とし、Sから{l}を除いた全ての要素を零に設定した時の
【0115】
【外54】
の値、すなわち、式(14)に示した事後分布
【0116】
【外55】
の値を表す。つまり、
【0117】
【外56】
と初期化された
【0118】
【外57】
に対し、L個の要素の1つだけ1として事後分布が最大となるlを見つけl*とし、次に、l*=1と固定して、残りのL−1個の要素に対し、1つだけ1として事後分布が最大となるlを見つけていくという処理を、事後分布が増大しなくなるまで繰り返す。
【0119】
上記アルゴリズムは帯域的最適性は保証しないが、式(25)の評価が高々L(L+1)/2回で済み、全数探索の2L−1回に比べ極めて効率的である。
【0120】
語彙数をV=100、トピックス数をL=10として人工的に作成した単語頻度ベクトルからなる人工テキストを用いた実験で本発明の有効性を示す。
【0121】
まず、ジップの法則を考慮しつつ、乱数を用いて各トピックの多項分布パラメータ(基底ベクトル)を設定した。そして、作成したパラメータに基づき1,000テキストからなる学習データ、および100,000テキストからなるテストデータを生成した。ただし、各テキストが持つトピックス数をmとすれば、その分布は1/2mとなるようにした。すなわち、学習データではトピックス数が1のテキストが500、トピックス数が2のテキストが250などとなり、多重度が増す程、テキスト数が指数的に減少するようにし、現実データの分布を反映させた。一方、各テキストの単語頻度ベクトルについては、既に説明したようにパラメータの線形和を用いて多重トピックスの多項分布を作り、この分布に基づいて単語の頻度ベクトルを生成した。
【0122】
図1に示した本発明の実施形態の構成図に従い、まず、学習データをテキスト前処理部1に入力して処理を施し、次いで、その結果をモデルパラメータ推定部2に入力して学習することにより推定モデルパラメータを求めた。そして、テストデータをテキスト前処理部4に入力して処理を施し、得られた単語頻度ベクトルとすでに求めた推定モデルパラメータを多重トピックス予測部5に入力して多重トピックスを予測することにより抽出結果を得た。テストデータの各々の正解トピック情報は既知故、予測結果と比較することにより多重トピックス抽出方法の評価が可能となる。
【0123】
図3に、これまで世界最高性能と報告されていたサポートベクトルマシンと本発明での性能を比較する。ただし、サポートベクトルマシンの適用では、各トピック毎の2分類問題を作り、学習データを用いて2分類器を構成し、その分類器群を用いて多重トピックス抽出結果を予測した。抽出性能の評価には、情報検索などで標準的に利用されるF値を採用した。なお、F値は、的中率と網羅率の調和平均として定義される。学習データ数が1,000の場合、本発明を適用すれば、サポートベクトルマシンより約15%も高い性能が得られることが分かる。また、学習データ数を減らした評価では、サポートベクトルマシンの性能がかなり劣化するのに対し、本発明の適用では極めて僅かな劣化であった。すなわち、本発明は学習データ数の変動に対しサポートベクトルマシンに比べはるかに頑健な手法であると言える。
【0124】
なお、以上説明した、テキストの多重トピックス抽出方法は専用のハードウェアにより実現されるもの以外に、その機能を実現するためのプログラムを、コンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行するものであってもよい。コンピュータ読み取り可能な記録媒体とは、フロッピーディスク、光磁気ディスク、CD−ROM等の記録媒体、コンピュータシステムに内蔵されるハードディスク装置等の記憶装置を指す。さらに、コンピュータ読み取り可能な記録媒体は、インターネットを介してプログラムを送信する場合のように、短時間の間、動的にプログラムを保持するもの(伝送媒体もしくは伝送波)、その場合のサーバとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含む。
【0125】
【発明の効果】
以上説明したように、本発明は、多重トピックステキスト中の単語頻度分布を確率分布としてモデル化し、確率モデルを単一トピックモデルの線形和により生成することにより、テキストの多重トピックス抽出を従来よりも良好に行なうことができる。
【図面の簡単な説明】
【図1】本発明の一実施形態のテキストの多重トピックス抽出装置の構成図である。
【図2】図1の装置の動作を示すフローチャートである。
【図3】本発明の効果をサポートベクトルマシンと比較して示すグラフである。
【図4】本発明の基本的な考え方を説明するための図である。
【符号の説明】
1,4 テキスト前処理部
2 モデルパラメータ推定部
3 推定モデルパラメータ保持部
5 多重トピックス予測部
11〜15 ステップ[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a method and apparatus for automatically classifying electronically stored atypical text such as the Internet, an electronic library, an electronic mail, and an electronic medical record into predetermined topics.
[0002]
[Prior art]
In recent years, large amounts of text have been stored electronically. Since text is usually composed of multiple topics rather than a single topic, developing a method to extract multiple topics from text has become an important research topic. This extraction problem is different from the pattern recognition problem that classifies samples into an exclusive single class, such as character recognition.
[0003]
The multi-topics extraction problem is known to many researchers as a multi-class, multi-label text classification problem. Conventionally, a two-classification approach of sequentially identifying whether or not a topic belongs to each topic has been adopted. Had been. That is, in the two-class approach, the multi-topic extraction problem is solved by decomposing into two separate problems for each topic. In this case, the two classifiers for a topic classify the text into either that topic or other topics. As a well-known technique of the two classifiers, a support vector machine (Support Vector Machine: SVM, VN Vapnik, Ironistic learning theory John John Wiley & Sons, Inc., Nayby, Inc., Nayb. D. Lewis and M. Ringuette, Jeong comparison of two learning algorithms for text categorization in Third Annual Analysis of the National Convention of the National Convention of the National Convention of the National Convention.
81-93, 1994).
[0004]
[Problems to be solved by the invention]
However, these two classification approaches do not consider multiple topics simultaneously. In other words, the two-classification approach does not consider the generation model of multiple texts, so it is considered that there is a performance limit.
[0005]
In addition, a function approximation method such as a neural network, and a k-nearest neighbor method that classifies based on the similarity between feature vectors are basically applicable without decomposing a multitopic extraction into a single topic as in a two-class approach. Multiple topics extraction is possible. However, these methods do not take into account a multiplex text generation model, and thus may have performance limitations as in the case of the two-classification approach.
[0006]
An object of the present invention is to provide a method, an apparatus, a program, and a recording medium on which a program for extracting multiple topics for extracting multiple topics at a stroke.
[0007]
[Means for Solving the Problems]
Expression of text The expression method of text in the present invention will be described. First, words included in a predetermined vocabulary are extracted from the text, and the frequency of use of those words is expressed as a vector. That is, one word and one word frequency are vectors.
[Outside 1]
Is represented by
Where xi is the vocabulary
[Outside 2]
It represents the number of times the word w i appeared in the text in. V is the total number of words in the vocabulary. That is,
[0010]
[Outside 3]
Is represented as a point in the V-dimensional Euclidean space. further,
[0011]
[Outside 4]
Is generated from a multinomial distribution over all words in the vocabulary.
[0012]
(Equation 1)
here,
[0013]
[Outside 5]
The model parameters, the i-th element theta i represents the probability of a word w i is occurring. clearly,
[0014]
(Equation 2)
[0015]
Next, the topic vector to which the text belongs is given by
[Equation 3]
Defined by here,
[0017]
[Outside 6]
Part l element y l of taking a value of 1 or 0, and
[0018]
[Outside 7]
At least one of the elements takes one.
Expression of Parameters of Multitopic Text Probability Model The basic concept of the multitopic probability model serving as the core of the present invention is described as follows. Two topics (L = 2) and three vocabulary words (w 1 , w 2) , W 3 ) (V = 3).
[0019]
Now, the words in the text belonging to the single topics C 1 and C 2 have a multinomial distribution, respectively.
[Outside 8]
, And the parameters of each polynomial distribution are φ (C 1 ) = (0.7, 0.1, 0.2) and φ (C 2 ) = (0.1, 0.7, 0. Assume 2). This is because, in the text belonging to the topic C 1, means that the three types of words w 1, w 2, w 3 has occurred in each 0.7,0.1,0.2 probability of. Topic C 2 is also the same.
[0021]
“0” and “+” in FIG. 4A are samples (word frequency vectors) artificially generated from φ (C 1 ) and φ (C 2 ), respectively. One '0'('+') corresponds to the text of topic C 1 (C 2 ). The total number of words in the text, that is, the sum of the elements of the frequency vector is distributed in the range of 100 to 800. The parameter vector φ is on the two-dimensional simplex θ 1 + θ 2 + θ 3 = 1 shown by the equilateral triangle in FIG.
[0022]
Denote the multiple topics classes belonging to C 1, 2 in both topic C 1 and C 2. At this time, the word in the text belonging to C 1, 2 is considered to consist of a mixture of words related to the C 1 and C 2. For example, it is considered that words related to both topics appear in texts belonging to both “sports” and “music”. However, a text that belongs to both “sports” and “music” may be a text related to “sports” more. Therefore, a mixture ratio between two topics, that is, a relative ratio between two topics, The percentage of strength is not always equal.
[0023]
According consisting concept "mixing of the word" the, word frequency samples belonging to C 1, 2, as shown in in FIG. 4 (b) '△', the word frequency vectors belonging to each of the C 1, C 2 Made artificially as a mixture. The mixing ratio was set at random in the range of 0.2 to 0.8. Sample C 1, 2 has a distribution such interpolating the distribution of samples of C 1 and C 2.
[0024]
Here, it should be noted that the samples belonging to C 1 and 2 have two polynomial distributions.
[Outside 9]
Cannot be generated from the mixture distribution of The maximum likelihood estimate of the parameter φ (C k ) is
[Outside 10]
Proportional enough, and a linear sum of from generation process of a sample of C 1, 2, model parameters φ (C 1,2) of the multiple topics Class C 1, 2 is phi (C 1) and phi (C 2) It can be seen that approximation can be expressed as That is, the samples belonging to C 1 and C 2 are
(Equation 4)
It can be regarded as a realization value of a multinomial distribution having the following parameters. Here, α (0 <α <1) represents a mixture ratio. Actually, FIG. 4C shows the maximum likelihood estimation values of the parameters C 1 and C 2 calculated based on the artificially generated samples.
[0028]
When the above concept is generalized, the frequency distribution of words in texts belonging to multiple topics is a polynomial distribution having parameters of a single topic multinomial distribution as base parameters and parameters expressed as a linear sum thereof. That is, the topics vector
[Outside 11]
The word frequency distribution of the text
[0030]
(Equation 5)
Follow a multinomial distribution with here,
[0031]
[Outside 12]
Represents the parameters of the multinomial distribution of a single topic C l.
[0032]
As mentioned earlier, a multi-topic text may be more focused on a particular topic within the topic. Equation (4) does not consider such weighting. Therefore, a more flexible linear sum considering this weight as a parameter is defined by the following equation.
[0033]
(Equation 6)
[0034]
here,
[0035]
[Outside 13]
And the mixture ratio α l, m (> 0) is
(Equation 7)
Meet. From α l, l = 0.5
[Outside 14]
Note that Also,
[0038]
[Outside 15]
Holds. Note that the sum of V elements is 1 in both equations (4) and (5).
[0039]
The difference between Equations (4) and (5) is that in Equation (4), the unknown parameter Θ is a parameter of a single topic multinomial distribution.
(Equation 8)
On the other hand, in equation (5), in addition to the parameters of equation (6), α lm (l (m) (equivalently,
[Outside 16]
Will also be treated as unknown parameters.
[0042]
(Equation 9)
[0043]
In any linear sum, the topics vector
[Outside 17]
Word frequency vector of multi-topic text belonging to
[Outside 18]
Is the probability distribution of
(Equation 10)
Is represented by here,
[0047]
[Outside 19]
Represents the i-th element.
[0048]
Although a linear sum other than the above may be considered, in the present invention, the topic vector
[Outside 20]
Model parameters corresponding to
[Outside 21]
Is the parameter of the L single topic multinomial distribution
[Outside 22]
Is represented by a linear sum of Therefore, the form of the linear sum is not limited to Equations (4) and (5).
Estimation of Parameters of Stochastic Model Next, a method of estimating unknown parameters will be described.
[0052]
[Equation 11]
Is the given learning data.
[0053]
[Outside 23]
Represents the word frequency vector and the multi-topics vector of the n-th text. N is the total number of texts. At this time, the unknown parameter Θ is the learning data
[Outside 24]
Is given by maximizing the posterior distribution of the parameters given. That is,
[0055]
(Equation 12)
Parameter
[Outside 25]
And the prior distribution of α l, m is a direct distribution which is a conjugate prior distribution of a polynomial distribution as shown in the following equation.
[0057]
(Equation 13)
Here, ξ and ζ are hyperparameters, and usually ξ = 2 and ζ = 2.
[0058]
Topics vector
[Outside 26]
Assuming that is a uniform distribution, from equation (10) and Bayes' theorem,
[Outside 27]
Is the following objective function:
[Equation 14]
By maximizing with respect to Θ.
Prediction of Topic Vector Next, a method of predicting a value of a topic vector of a new text using an estimated value of a model parameter will be described below.
[0062]
[Outside 28]
Is the estimation parameter, the prediction here is a word frequency vector of a new text.
[Outside 29]
From topics vector
[Outside 30]
Is to predict the value of Then, the optimal topic vector value is:
[Outside 31]
And [0066]
[Outside 32]
Under the given
[Outside 33]
Maximize the posterior distribution of
[Outside 34]
Is required.
[0069]
From Bayes' theorem
[Equation 15]
further,
[0071]
[Outside 35]
Assuming that the prior distribution is uniform, after all, the optimal topics vector
[Outside 36]
Is [0073]
[Outside 37]
To maximize
[Outside 38]
Is required.
[0075]
(Equation 16)
[0076]
BEST MODE FOR CARRYING OUT THE INVENTION
Next, embodiments of the present invention will be described with reference to the drawings.
[0077]
FIG. 1 is a block diagram of an apparatus for extracting multiple topics of text according to an embodiment of the present invention, and FIG. 2 is a flowchart showing the operation thereof.
[0078]
An arbitrary text, which is learning data, is input to the
[0079]
Hereinafter, the processing of the model
[0080]
In the case of the linear sum of Expression (4), the objective function of Expression (13) is embodied as the following expression.
[0081]
[Equation 17]
here,
[0082]
[Outside 39]
Is the log likelihood term
(Equation 18)
Given by Therefore, the optimal parameters are determined by maximizing equation (15) with respect to Θ. However, this maximization cannot be determined analytically, but is determined by a sequential iteration method as described below.
[0084]
For convenience,
[0085]
[Equation 19]
Toki, and
[0086]
[Outside 40]
Is the estimate at the t-th step of the iteration, and
[0087]
(Equation 20)
far.
[0088]
[Outside 41]
Be careful. At this time, equation (17) is rewritten as the following equation.
[0089]
(Equation 21)
However,
[0090]
[Outside 42]
Is defined by the following equation.
[0091]
(Equation 22)
[0092]
From Jensen's inequality,
[0093]
(Equation 23)
Note that the following holds.
[Equation 24]
Then, from equation (20),
(Equation 25)
Holds. Therefore,
[0096]
(Equation 26)
By maximizing with respect to 【
Can be increased.
[0097]
The maximization of the equation (23) can be solved by the Lagrange multiplier method.
[Equation 27]
Is obtained as Here [0099]
[Outside 44]
Is given by equation (19). By calculating equation (24) for l = 1,..., L, i = 1,..., V, unknown parameters for the model of the linear sum of equation (4) are obtained.
[0100]
Multi-topic prediction unit 5
The prediction of multiple topics based on equation (15) with respect to equation (4) is expressed by the following equation:
[Outside 45]
Is the problem of maximization.
[0102]
[Equation 28]
[0103]
The maximization problem is simply:
[0104]
[Outside 46]
Can be obtained by evaluating all possible values of, but since the number of solution candidates is 2 L −1, it becomes difficult to solve in real time by such a simple exhaustive search method as L increases. Therefore, an approximate solution is obtained by the following approximate algorithm.
Prediction algorithm step Initialization S: = {1,2, ..., L},
[0105]
[Outside 47]
[0106]
[0107]
[Outside 48]
Is calculated, and this is defined as υ (l).
[0108]
Step 2-2. υ a l to maximize the (l) and l *, if if υ (l *)> υ max [0109]
[Outside 49]
, Υ max : = υ (l * ), and go to
[0110]
[Outside 50]
Ends as the final solution.
[0111]
Here, the notation “: =” means that the value on the right side is assigned to the left side. Also,
[0112]
[Outside 51]
Represents an L-dimensional zero vector. Further,
[Outside 52]
Is [0114]
[Outside 53]
Is set to 1 and all the elements excluding {l} from S are set to zero.
[Outside 54]
, Ie, the posterior distribution shown in equation (14)
[Outside 55]
Represents the value of. That is,
[0117]
[Outside 56]
Is initialized.
[Outside 57]
On the other hand, assuming that only one of the L elements is 1 and finds l at which the posterior distribution is maximum, it is defined as l * . Then, l * = 1 is fixed, and for the remaining L-1 elements, 1 is obtained. The process of finding l at which the posterior distribution is maximized as 1 is repeated until the posterior distribution does not increase.
[0119]
Although the above algorithm does not guarantee band-wise optimality, the expression (25) needs to be evaluated at most L (L + 1) / 2 times, which is extremely efficient compared to 2 L −1 times of exhaustive search.
[0120]
The effectiveness of the present invention is shown by an experiment using an artificial text composed of a word frequency vector artificially created with a vocabulary number of V = 100 and a topic number of L = 10.
[0121]
First, a multinomial distribution parameter (basis vector) of each topic was set using random numbers while considering Zip's law. Then, based on the created parameters, learning data consisting of 1,000 texts and test data consisting of 100,000 texts were generated. However, if the number of topics in each text is m, the distribution is set to 1/2 m . That is, in the learning data, the text with the number of
[0122]
According to the block diagram of the embodiment of the present invention shown in FIG. 1, first, learning data is input to the
[0123]
FIG. 3 compares the performance of the present invention with a support vector machine which has been reported as the world's highest performance. However, when the support vector machine was applied, a two-classification problem was created for each topic, a two-classifier was configured using the learning data, and a multi-topics extraction result was predicted using the classifier group. For evaluation of the extraction performance, an F value used as a standard in information retrieval and the like was adopted. Note that the F value is defined as a harmonic average of the hit rate and the coverage rate. It can be seen that, when the number of learning data is 1,000, by applying the present invention, a performance approximately 15% higher than that of the support vector machine can be obtained. Further, in the evaluation in which the number of learning data was reduced, the performance of the support vector machine was considerably deteriorated, whereas in the application of the present invention, the performance was extremely slight. In other words, it can be said that the present invention is a method that is much more robust against the change in the number of learning data than the support vector machine.
[0124]
It should be noted that, in addition to the method of extracting multiple topics of text described above, which is realized by dedicated hardware, a program for realizing the function is recorded on a computer-readable recording medium, and is recorded on this recording medium. The recorded program may be read by a computer system and executed. The computer-readable recording medium refers to a recording medium such as a floppy disk, a magneto-optical disk, a CD-ROM, or a storage device such as a hard disk device built in a computer system. Further, the computer-readable recording medium is one that dynamically holds the program for a short time (transmission medium or transmission wave), such as a case where the program is transmitted via the Internet, and serves as a server in that case. It also includes those that hold programs for a certain period of time, such as volatile memory inside a computer system.
[0125]
【The invention's effect】
As described above, the present invention models a word frequency distribution in a multi-topic text as a probability distribution and generates a probability model by a linear sum of a single topic model, so that the multi-topic extraction of a text is performed as compared with the related art. It can be performed well.
[Brief description of the drawings]
FIG. 1 is a configuration diagram of an apparatus for extracting multiple topics of text according to an embodiment of the present invention.
FIG. 2 is a flowchart showing the operation of the apparatus of FIG.
FIG. 3 is a graph showing the effect of the present invention in comparison with a support vector machine.
FIG. 4 is a diagram for explaining a basic concept of the present invention.
[Explanation of symbols]
1, 4
Claims (4)
テキストを予め定めた全語彙に渡る単語の頻度で表現するステップと、
該単語頻度情報に基づいて、多重トピックスを有するテキストの単語の頻度分布、すなわち、多重トピックステキストの確率モデルのパラメータを、各単一トピックのテキストの確率モデルのパラメータの線形和で表現するステップと、
前記単語頻度情報と前記テキストが帰属するトピックス情報の組からなる学習データで前記確率モデルのパラメータを学習し、学習結果の確率モデルのパラメータを記憶装置に保存するステップと、
トピックスが未知のテキストに対し単語頻度情報を算出するステップと、
トピックスが未知のテキスト中の単語頻度情報から前記記憶装置に保存されている学習済みの確率モデルのパラメータを用いて該テキストの帰属する多重トピックスを抽出するステップとを有する、テキストの多重トピックス抽出方法。A method for extracting, from any text, one or more topics to which the text belongs,
Expressing the text in terms of the frequency of words in all predetermined vocabularies;
Expressing, based on the word frequency information, the frequency distribution of words of a text having multiple topics, that is, expressing the parameters of the probability model of the multitopic text by a linear sum of the parameters of the probability model of the text of each single topic; ,
Learning the parameters of the probability model with learning data consisting of a set of topic information to which the word frequency information and the text belong, and storing the parameters of the probability model as a learning result in a storage device;
Calculating word frequency information for text whose topics are unknown;
Extracting the multiple topics to which the text belongs from the word frequency information in the unknown text using the parameters of the learned probability model stored in the storage device from the word frequency information in the unknown text. .
テキストを予め定めた全語彙に渡る単語の使用頻度で表現する手段と、
該単語頻度情報に基づいて、多重トピックスを有するテキストの単語の頻度分布、すなわち、多重トピックステキストの確率モデルのパラメータを、各単一トピックのテキストの確率モデルのパラメータの線形和で表現する手段と、
前記単語頻度情報と前記テキストが帰属するトピックス情報の組からなる学習データで前記確率モデルのパラメータを学習し、学習結果の確率モデルのパラメータを記憶装置に保存する手段と、
トピックスが未知のテキストに対し単語頻度情報を算出する手段と、
トピックスが未知のテキスト中の単語頻度情報から前記記憶装置に保存されている学習済みの確率モデルのパラメータを用いて該テキストの帰属する多重トピックスを抽出する手段とを有する、テキストの多重トピックス抽出装置。An apparatus for extracting, from any text, one or more topics to which the text belongs,
Means for expressing text in terms of the frequency of use of words in a predetermined vocabulary;
Means for expressing, based on the word frequency information, a frequency distribution of words of a text having multiple topics, that is, a parameter of a probability model of a multitopic text by a linear sum of parameters of a probability model of a text of each single topic; ,
Means for learning the parameters of the probability model with learning data consisting of a set of topic information to which the word frequency information and the text belong, and storing the parameters of the probability model of the learning result in a storage device;
Means for calculating word frequency information for texts with unknown topics;
Means for extracting multiple topics to which the text belongs from the word frequency information in the text of which the topics are unknown using the parameters of the learned probability model stored in the storage device. .
テキストを予め定めた全語彙に渡る単語の使用頻度で表現する手順と、
該単語頻度情報に基づいて、多重トピックスを有するテキストの単語の頻度分布、すなわち、多重トピックステキストの確率モデルのパラメータを、各単一トピックのテキストの確率モデルのパラメータの線形和で表現する手順と、
前記単語頻度情報と前記テキストが帰属するトピックス情報の組からなる学習データで前記確率モデルのパラメータを学習し、学習結果の確率モデルのパラメータを記憶装置に保存する手順と、
トピックスが未知のテキストに対し単語頻度情報を算出する手順と、
トピックスが未知のテキスト中の単語頻度情報から前記記憶装置に保存されている学習済みの確率モデルのパラメータを用いて該テキストの帰属する多重トピックスを抽出する手順とを有する、テキストの多重トピックス抽出プログラム。A program for causing a computer to execute, from an arbitrary text, one or more topics to which the text belongs,
A procedure for expressing the text by the frequency of use of words in all predetermined vocabularies;
Based on the word frequency information, a frequency distribution of words of a text having multiple topics, that is, a procedure of expressing the parameters of the probability model of the multitopic text by a linear sum of the parameters of the probability model of the text of each single topic; ,
Learning the parameters of the probability model with learning data consisting of a set of topic information to which the word frequency information and the text belong, and storing the parameters of the probability model of the learning result in a storage device;
A procedure for calculating word frequency information for text whose topics are unknown,
Extracting a multi-topic to which the text belongs from the word frequency information in the unknown text using the parameters of the learned probability model stored in the storage device from the word frequency information in the unknown text. .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002204434A JP3868344B2 (en) | 2002-07-12 | 2002-07-12 | Text multiple topics extraction method and apparatus, text multiple topics extraction program, and recording medium recording the program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002204434A JP3868344B2 (en) | 2002-07-12 | 2002-07-12 | Text multiple topics extraction method and apparatus, text multiple topics extraction program, and recording medium recording the program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004046621A true JP2004046621A (en) | 2004-02-12 |
JP3868344B2 JP3868344B2 (en) | 2007-01-17 |
Family
ID=31710041
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002204434A Expired - Lifetime JP3868344B2 (en) | 2002-07-12 | 2002-07-12 | Text multiple topics extraction method and apparatus, text multiple topics extraction program, and recording medium recording the program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3868344B2 (en) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008123486A (en) * | 2006-11-10 | 2008-05-29 | Fuji Xerox Co Ltd | Method, system and program for detecting one or plurality of concepts by digital media |
JP2008276344A (en) * | 2007-04-26 | 2008-11-13 | Just Syst Corp | Multi-topic classification apparatus, multi-topic classification method and multi-topic classification program |
JP2008276571A (en) * | 2007-04-27 | 2008-11-13 | Nippon Telegr & Teleph Corp <Ntt> | Label assignment method, label assignment device, label assignment program and storage medium |
US7840521B2 (en) | 2007-10-05 | 2010-11-23 | International Business Machines Corporation | Computer-based method and system for efficient categorizing of digital documents |
JP2012173808A (en) * | 2011-02-17 | 2012-09-10 | Nippon Telegr & Teleph Corp <Ntt> | Concrete subject classification model learning device, method, program, concrete subject extraction device, method, and program |
JP2013134751A (en) * | 2011-12-27 | 2013-07-08 | Nippon Telegr & Teleph Corp <Ntt> | Topic model learning method, apparatus, and program |
JP2013161330A (en) * | 2012-02-07 | 2013-08-19 | Nippon Telegr & Teleph Corp <Ntt> | Learning data generation device, retrieval device, method for generating learning data, retrieval method, and program thereof |
CN111930885A (en) * | 2020-07-03 | 2020-11-13 | 北京新联财通咨询有限公司 | Method and device for extracting text topics and computer equipment |
CN115687629A (en) * | 2023-01-03 | 2023-02-03 | 深圳竹云科技股份有限公司 | Text generation method and device, computer equipment and storage medium |
-
2002
- 2002-07-12 JP JP2002204434A patent/JP3868344B2/en not_active Expired - Lifetime
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008123486A (en) * | 2006-11-10 | 2008-05-29 | Fuji Xerox Co Ltd | Method, system and program for detecting one or plurality of concepts by digital media |
JP2008276344A (en) * | 2007-04-26 | 2008-11-13 | Just Syst Corp | Multi-topic classification apparatus, multi-topic classification method and multi-topic classification program |
JP2008276571A (en) * | 2007-04-27 | 2008-11-13 | Nippon Telegr & Teleph Corp <Ntt> | Label assignment method, label assignment device, label assignment program and storage medium |
US7840521B2 (en) | 2007-10-05 | 2010-11-23 | International Business Machines Corporation | Computer-based method and system for efficient categorizing of digital documents |
JP2012173808A (en) * | 2011-02-17 | 2012-09-10 | Nippon Telegr & Teleph Corp <Ntt> | Concrete subject classification model learning device, method, program, concrete subject extraction device, method, and program |
JP2013134751A (en) * | 2011-12-27 | 2013-07-08 | Nippon Telegr & Teleph Corp <Ntt> | Topic model learning method, apparatus, and program |
JP2013161330A (en) * | 2012-02-07 | 2013-08-19 | Nippon Telegr & Teleph Corp <Ntt> | Learning data generation device, retrieval device, method for generating learning data, retrieval method, and program thereof |
CN111930885A (en) * | 2020-07-03 | 2020-11-13 | 北京新联财通咨询有限公司 | Method and device for extracting text topics and computer equipment |
CN111930885B (en) * | 2020-07-03 | 2023-08-04 | 北京新联财通咨询有限公司 | Text topic extraction method and device and computer equipment |
CN115687629A (en) * | 2023-01-03 | 2023-02-03 | 深圳竹云科技股份有限公司 | Text generation method and device, computer equipment and storage medium |
CN115687629B (en) * | 2023-01-03 | 2023-04-04 | 深圳竹云科技股份有限公司 | Text generation method and device, computer equipment and storage medium |
Also Published As
Publication number | Publication date |
---|---|
JP3868344B2 (en) | 2007-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20130097103A1 (en) | Techniques for Generating Balanced and Class-Independent Training Data From Unlabeled Data Set | |
US8266083B2 (en) | Large scale manifold transduction that predicts class labels with a neural network and uses a mean of the class labels | |
Lee et al. | Meta-gmvae: Mixture of gaussian vae for unsupervised meta-learning | |
Altun et al. | Boosting selection of speech related features to improve performance of multi-class SVMs in emotion detection | |
WO2008137368A1 (en) | Web page analysis using multiple graphs | |
Zhang et al. | Word semantic representations using bayesian probabilistic tensor factorization | |
Han et al. | Sentiment analysis via semi-supervised learning: a model based on dynamic threshold and multi-classifiers | |
Narsky | StatPatternRecognition: a C++ package for statistical analysis of high energy physics data | |
JP2014026455A (en) | Media data analysis device, method and program | |
Ertekin et al. | Learning to predict the wisdom of crowds | |
Hazen | Direct and latent modeling techniques for computing spoken document similarity | |
KR20230133854A (en) | Cross-domain adaptive learning | |
Shi et al. | Learning where to sample in structured prediction | |
JP3868344B2 (en) | Text multiple topics extraction method and apparatus, text multiple topics extraction program, and recording medium recording the program | |
Jeyakarthic et al. | Optimal bidirectional long short term memory based sentiment analysis with sarcasm detection and classification on twitter data | |
Le et al. | Ent-Boost: Boosting using entropy measures for robust object detection | |
Zhang et al. | A new data selection principle for semi-supervised incremental learning | |
Nasfi et al. | A novel feature selection method using generalized inverted Dirichlet-based HMMs for image categorization | |
Jing et al. | Semantic naïve Bayes classifier for document classification | |
Vadera et al. | Assessing the adversarial robustness of monte carlo and distillation methods for deep bayesian neural network classification | |
Ismail et al. | Evolutionary deep belief networks with bootstrap sampling for imbalanced class datasets. | |
Kuo et al. | Active learning with minimum expected error for spoken language understanding. | |
Ali et al. | Maximum a posteriori approximation of Dirichlet and beta-Liouville hidden Markov models for proportional sequential data modeling | |
Yang et al. | Dynamic Weighting Ensembles for incremental learning | |
Amayri et al. | RJMCMC learning for clustering and feature selection of L 2-normalized vectors |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040308 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20040308 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20040308 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20050614 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060606 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060807 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20060807 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060927 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20061010 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 3868344 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101020 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101020 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111020 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111020 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121020 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121020 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131020 Year of fee payment: 7 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |